强化学习 - AI有智慧

与OpenAI o1技术理念相似，TDPO-R算法有效缓解奖励过优化问题

AI智慧秀 与OpenAI o1技术理念相似，TDPO-R算法有效缓解奖励过优化问题

OpenAI 最近发布的 o1 模型在数学、代码生成和长程规划等复杂任务上取得了突破性进展，据业内人士分析披露，其关键技术在于基于强化学习的搜索与学习机制。

端到端优化所有能力，字节跳动提出强化学习LLM Agent框架AGILE

AI智慧秀 端到端优化所有能力，字节跳动提出强化学习LLM Agent框架AGILE

该框架下，Agent 能够拥有记忆、工具使用、规划、反思、与外界环境交互、主动求助专家等多种能力，并且通过强化学习实现所有能力的端到端训练。

强化学习让大模型自动纠错，数学、编程性能暴涨，DeepMind新作

AI智慧秀 强化学习让大模型自动纠错，数学、编程性能暴涨，DeepMind新作

无需依赖外部反馈或额外模型，纯纯的自我纠正。

OpenAI大秀肌肉，一口气放出10个新模型Demo，全球网友玩疯了

AI智慧秀 OpenAI大秀肌肉，一口气放出10个新模型Demo，全球网友玩疯了

9.11和9.8哪个大还是答不对。

刚刚，OpenAI震撼发布o1大模型！强化学习突破LLM推理极限

AI智慧秀 刚刚，OpenAI震撼发布o1大模型！强化学习突破LLM推理极限

大模型领域的技术发展，今天起再次「从 1 开始」了。

清华、北大等发布Self-Play强化学习最新综述

AI智慧秀 清华、北大等发布Self-Play强化学习最新综述

自博弈（self-play）指的是智能体通过与自身副本或历史版本进行博弈而进行演化的方法，近年来在强化学习领域受到广泛重视。

Karpathy观点惹争议：RLHF不是真正的强化学习，谷歌、Meta下场反对

AI智慧秀 Karpathy观点惹争议：RLHF不是真正的强化学习，谷歌、Meta下场反对

RLHF 与 RL 到底能不能归属为一类，看来大家还是有不一样的看法。

在SIGGRAPH 2024上，英伟达开始引领下一波浪潮：物理AI

AI智慧秀 在SIGGRAPH 2024上，英伟达开始引领下一波浪潮：物理AI

在「主场」SIGGRAPH，英伟达发布了一系列AI新技术。

全球首篇！调研近400篇文献，鹏城实验室&中大深度解析具身智能

AI智慧秀 全球首篇！调研近400篇文献，鹏城实验室&中大深度解析具身智能

具身智能是实现通用人工智能的必经之路，其核心是通过智能体与数字空间和物理世界的交互来完成复杂任务。

RLHF不够用了，OpenAI设计出了新的奖励机制

AI智慧秀 RLHF不够用了，OpenAI设计出了新的奖励机制

OpenAI 的新奖励机制，让大模型更听话了。