Grok 3 Beta 正式发布,开启"推理智能体"时代。新版本强化深度推理与自主决策能力,支持复杂任务拆解和多步逻辑链处理,在数学、编程等推理密集型场景表现显著提升,标志着 AI 从简单问答向自主推理决策的范式转变。
Grok 3 Beta 正式发布,开启"推理智能体"时代。新版本强化深度推理与自主决策能力,支持复杂任务拆解和多步逻辑链处理,在数学、编程等推理密集型场景表现显著提升,标志着 AI 从简单问答向自主推理决策的范式转变。
OpenAI 阐述关于 AI 经济学的三点观察:模型智能与训练资源的对数成正比,可预测扩展;AI 使用成本每 12 个月下降约 10 倍,远超摩尔定律速度;智能线性增长将产生超指数级社会经济价值。据此,AI 代理将如虚拟同事般渗透各领域,科学进步将大幅加速,虽然短期内生活照旧,但长期将深刻重塑社会经济结构,个人意志力和适应能力将成为关键价值。
Sam Altman在ChatGPT两周年之际回顾OpenAI九年历程:从坚信AGI可能实现,到2022年意外推出ChatGPT并引爆前所未有的增长曲线。他坦承过去两年从零构建公司的混乱压力,以及被董事会突然解雇的危机教训。如今周活用户已达3亿,在迈向AGI的道路上,他既感激这段经历,也承认未来仍充满未知。
升级版 Claude 3.5 Sonnet 在软件工程评估基准 SWE-bench Verified 上取得 49% 的解决率,超越此前最佳模型的 45%。该基准通过真实 GitHub 问题测试 AI 模型完成软件工程任务的能力,要求模型在给定环境中理解、修改并测试代码,最终通过原始单元测试验证。Claude 团队构建的智能体设计简洁,仅包含提示词、Bash 工具和编辑工具,赋予模型充分的自主判断空间,以灵活步骤解决问题。目前尚无模型在该基准上突破 50% 的解决率。
Anthropic基于实践经验指出,成功的LLM智能体往往采用简单、可组合的模式,而非复杂框架。文章区分了工作流(预定义路径编排)与智能体(LLM动态自主决策),建议开发者优先采用最简单方案,仅在必要时增加复杂性。许多核心模式直接调用LLM API仅需几行代码即可实现。文中介绍了增强型LLM、提示链等基础构建模块,强调应为特定用例定制检索、工具等增强功能,并推荐通过Model Context Protocol集成第三方工具生态。
研究团队提出Anthology方法,利用包含丰富个人价值观与经历细节的自然主义背景故事(backstories)作为条件上下文,引导语言模型生成具有代表性、一致性和多样性的虚拟人格。该方法突破了以往仅依赖人口统计标签(如年龄、性别)导致的刻板印象局限,使LLM能够从"人口混合声音"转向精确模拟个体人类样本,显著提升了模拟保真度,为计算社会科学研究提供了可计算协方差与统计显著性的个体级数据支持。
xAI 启动 Grok API 公测,发布新模型 grok-beta,支持 128k 上下文、函数调用及系统提示,视觉版本下周上线。开发者每月可获 $25 免费额度至年底,已购预付额度可叠加。API 兼容 OpenAI 与 Anthropic 格式,修改 base_url 即可迁移。
Mistral AI 于 2024 年 8 月 7 日在 La Plateforme 平台发布更新,允许开发者对旗舰模型 Mistral Large 2 与专业模型 Codestral 进行定制,方式包括基础提示、少样本提示或微调,并支持自带数据集。同时,平台推出了能封装模型的早期版本智能体功能,可通过 Le Chat 或 API 使用。此外,发布了稳定的 mistralai 1.0 SDK,支持 Python 和 Typescript。
Mistral AI于2024年2月26日发布其多语言对话助手Le Chat,作为Mistral系列模型的首个应用示范。该助手底层可调用Mistral Large、Mistral Small或名为Mistral Next的简短原型模型。同时,面向企业的Le Chat Enterprise版本也已推出,提供自部署和细粒度审核功能。目前Le Chat正以Beta形式开放,需注意其无法接入互联网,可能不准确或提供过时信息。
Licklider 1960年论文《人机共生》提出"智能增强"(IA)是通向AI的过渡阶段,预测人机能力互补——计算机处理机械工作、人类负责思考,这一范式延续64年直至LLM打破界限。他预见云计算雏形,但误判技术路径:当时看好的逻辑推理AI成死胡同,而因缺乏数据被忽视的统计方法(LLM)终成主流。对交互预测也偏离现实:设想的多人协作大屏未普及,键盘鼠标仍是主导;对语音识别"5年实现"的乐观估计,实际耗时64年未成熟。
以大语言模型为核心控制器的自主智能体系统,通过规划、记忆和工具使用三大组件构建复杂任务处理能力。规划模块支持任务分解与自我反思优化;记忆系统包含短期上下文学习与基于外部向量存储的长期记忆;工具使用则允许代理调用外部API获取模型权重未覆盖的信息与能力。系统已在AutoGPT、GPT-Engineer等多个概念验证项目中实现初步演示,展现了LLM超越文本生成、作为通用问题解决器的潜力。
Mistral AI 发布了首个面向 Lean 4 证明助手的开源代码代理 Leanstral。该代理采用稀疏架构,仅激活 60 亿参数,专为在真实形式化代码库中操作而训练。在 FLTEval 评估中,其表现优异:仅需两次尝试即以 26.3 分超越多个大型开源模型,同时成本效益显著。例如,达到此分数时,Leanstral 成本为 36 美元,远低于 Claude Sonnet 的 549 美元。其权重基于 Apache 2.0 许可开源,并已集成至 Mistral Vibe 平台提供免费 API。
该教程详细展示了如何在Tensorflow和OpenAI Gym环境中实现多种经典深度强化学习算法。文章提供了完整的实践代码,并已开源在GitHub仓库“lilianweng/deep-reinforcement-learning-gym”。内容聚焦于将理论转化为实际编程操作,旨在指导读者通过动手实践掌握模型的具体实现方法。
该文章系统梳理了策略梯度算法的发展脉络,深入解析其工作原理,并详细介绍了从基础到前沿的多种算法,包括PPO、SAC、TD3、IMPALA等主流方法。文章自2018年起持续更新,陆续新增了D4PG、SVPG、PPG等新算法,并补充了关于PPO的最新讨论。文中还提供了韩语及中文等多个语言版本的翻译,便于不同读者参考。