2月19日

00:00

xAI：News（网页）

精选

Grok 3 Beta 发布：推理智能体时代来临

Grok 3 Beta 正式发布，开启"推理智能体"时代。新版本强化深度推理与自主决策能力，支持复杂任务拆解和多步逻辑链处理，在数学、编程等推理密集型场景表现显著提升，标志着 AI 从简单问答向自主推理决策的范式转变。

智能体 xAI 推理模型发布

推荐理由：xAI发布Grok 3 Beta，主打推理智能体能力

2月10日

05:05

Sam Altman：Blog（RSS）

精选

三点观察

OpenAI 阐述关于 AI 经济学的三点观察：模型智能与训练资源的对数成正比，可预测扩展；AI 使用成本每 12 个月下降约 10 倍，远超摩尔定律速度；智能线性增长将产生超指数级社会经济价值。据此，AI 代理将如虚拟同事般渗透各领域，科学进步将大幅加速，虽然短期内生活照旧，但长期将深刻重塑社会经济结构，个人意志力和适应能力将成为关键价值。

智能体 OpenAI 大佬观点编码

推荐理由：Sam Altman 提出 AI 经济学三大观察，描绘 AGI 时代 Agent 工作图景

1月6日

09:37

Sam Altman：Blog（RSS）

精选

反思

Sam Altman在ChatGPT两周年之际回顾OpenAI九年历程：从坚信AGI可能实现，到2022年意外推出ChatGPT并引爆前所未有的增长曲线。他坦承过去两年从零构建公司的混乱压力，以及被董事会突然解雇的危机教训。如今周活用户已达3亿，在迈向AGI的道路上，他既感激这段经历，也承认未来仍充满未知。

智能体 OpenAI 大佬观点推理

推荐理由：Sam Altman 反思创业历程，预测 2025 年 AI Agent 将实质性改变企业产出

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选72

Claude 3.5 Sonnet 在 SWE-bench Verified 基准测试中刷新纪录

升级版 Claude 3.5 Sonnet 在软件工程评估基准 SWE-bench Verified 上取得 49% 的解决率，超越此前最佳模型的 45%。该基准通过真实 GitHub 问题测试 AI 模型完成软件工程任务的能力，要求模型在给定环境中理解、修改并测试代码，最终通过原始单元测试验证。Claude 团队构建的智能体设计简洁，仅包含提示词、Bash 工具和编辑工具，赋予模型充分的自主判断空间，以灵活步骤解决问题。目前尚无模型在该基准上突破 50% 的解决率。

智能体 Anthropic 教程/实践编码

推荐理由：Anthropic 把自家 SWE-bench agent 的 prompt、工具设计和踩坑经验全公开了，做 coding agent 的人可以直接抄作业，比看十篇二手解读都管用。

12月19日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选80

构建高效智能体：从简单模式开始

Anthropic基于实践经验指出，成功的LLM智能体往往采用简单、可组合的模式，而非复杂框架。文章区分了工作流（预定义路径编排）与智能体（LLM动态自主决策），建议开发者优先采用最简单方案，仅在必要时增加复杂性。许多核心模式直接调用LLM API仅需几行代码即可实现。文中介绍了增强型LLM、提示链等基础构建模块，强调应为特定用例定制检索、工具等增强功能，并推荐通过Model Context Protocol集成第三方工具生态。

智能体 Anthropic MCP/工具教程/实践

推荐理由：Anthropic 官方把过去一年踩过的坑浓缩成一篇 Agent 架构指南，核心观点是「别上框架，先用最简单的模式」。做 Agent 产品的开发者，这篇比任何第三方教程都值得当 checklist 用。

11月12日

17:00

BAIR：Berkeley AI Research Blog

Anthology：通过背景故事选集为语言模型构建虚拟人格

研究团队提出Anthology方法，利用包含丰富个人价值观与经历细节的自然主义背景故事（backstories）作为条件上下文，引导语言模型生成具有代表性、一致性和多样性的虚拟人格。该方法突破了以往仅依赖人口统计标签（如年龄、性别）导致的刻板印象局限，使LLM能够从"人口混合声音"转向精确模拟个体人类样本，显著提升了模拟保真度，为计算社会科学研究提供了可计算协方差与统计显著性的个体级数据支持。

智能体数据/训练论文/研究

11月4日

08:00

xAI：News（网页）

精选

Grok API 公测版发布

xAI 启动 Grok API 公测，发布新模型 grok-beta，支持 128k 上下文、函数调用及系统提示，视觉版本下周上线。开发者每月可获 $25 免费额度至年底，已购预付额度可叠加。API 兼容 OpenAI 与 Anthropic 格式，修改 base_url 即可迁移。

智能体 xAI 产品更新多模态

推荐理由：xAI开放Grok API公测，每月送$25额度且兼容OpenAI接口，开发者可立即体验

8月7日

00:00

Mistral AI：News（网页）

Mistral AI 平台更新

Mistral AI 于 2024 年 8 月 7 日在 La Plateforme 平台发布更新，允许开发者对旗舰模型 Mistral Large 2 与专业模型 Codestral 进行定制，方式包括基础提示、少样本提示或微调，并支持自带数据集。同时，平台推出了能封装模型的早期版本智能体功能，可通过 Le Chat 或 API 使用。此外，发布了稳定的 mistralai 1.0 SDK，支持 Python 和 Typescript。

智能体产品更新部署/工程

2月26日

00:00

Mistral AI：News（网页）

Mistral AI发布新一代对话助手Le Chat

Mistral AI于2024年2月26日发布其多语言对话助手Le Chat，作为Mistral系列模型的首个应用示范。该助手底层可调用Mistral Large、Mistral Small或名为Mistral Next的简短原型模型。同时，面向企业的Le Chat Enterprise版本也已推出，提供自部署和细粒度审核功能。目前Le Chat正以Beta形式开放，需注意其无法接入互联网，可能不准确或提供过时信息。

智能体产品更新

12月27日

00:00

Andrej Karpathy：Blog（网页）

精选

Licklider 1960《人机共生》评述

Licklider 1960年论文《人机共生》提出"智能增强"(IA)是通向AI的过渡阶段，预测人机能力互补——计算机处理机械工作、人类负责思考，这一范式延续64年直至LLM打破界限。他预见云计算雏形，但误判技术路径：当时看好的逻辑推理AI成死胡同，而因缺乏数据被忽视的统计方法（LLM）终成主流。对交互预测也偏离现实：设想的多人协作大屏未普及，键盘鼠标仍是主导；对语音识别"5年实现"的乐观估计，实际耗时64年未成熟。

智能体大佬观点编码

推荐理由：Karpathy 借 1960 年文献反思人机共生与 AI 发展路径，历史洞察深刻

6月23日

08:00

Lilian Weng：Lil'Log（RSS）

大语言模型驱动的自主智能体

以大语言模型为核心控制器的自主智能体系统，通过规划、记忆和工具使用三大组件构建复杂任务处理能力。规划模块支持任务分解与自我反思优化；记忆系统包含短期上下文学习与基于外部向量存储的长期记忆；工具使用则允许代理调用外部API获取模型权重未覆盖的信息与能力。系统已在AutoGPT、GPT-Engineer等多个概念验证项目中实现初步演示，展现了LLM超越文本生成、作为通用问题解决器的潜力。

智能体 OpenAI 大佬观点推理

12月5日

00:00

Mistral AI：News（网页）

Mistral AI 发布首个面向 Lean 4 的开源代码代理 Leanstral

Mistral AI 发布了首个面向 Lean 4 证明助手的开源代码代理 Leanstral。该代理采用稀疏架构，仅激活 60 亿参数，专为在真实形式化代码库中操作而训练。在 FLTEval 评估中，其表现优异：仅需两次尝试即以 26.3 分超越多个大型开源模型，同时成本效益显著。例如，达到此分数时，Leanstral 成本为 36 美元，远低于 Claude Sonnet 的 549 美元。其权重基于 Apache 2.0 许可开源，并已集成至 Mistral Vibe 平台提供免费 API。

智能体模型发布编码

5月5日

08:00

Lilian Weng：Lil'Log（RSS）

使用Tensorflow + OpenAI Gym实现深度强化学习模型

该教程详细展示了如何在Tensorflow和OpenAI Gym环境中实现多种经典深度强化学习算法。文章提供了完整的实践代码，并已开源在GitHub仓库“lilianweng/deep-reinforcement-learning-gym”。内容聚焦于将理论转化为实际编程操作，旨在指导读者通过动手实践掌握模型的具体实现方法。

智能体 OpenAI 开源/仓库教程/实践

4月8日

08:00

Lilian Weng：Lil'Log（RSS）

精选55

策略梯度算法

该文章系统梳理了策略梯度算法的发展脉络，深入解析其工作原理，并详细介绍了从基础到前沿的多种算法，包括PPO、SAC、TD3、IMPALA等主流方法。文章自2018年起持续更新，陆续新增了D4PG、SVPG、PPG等新算法，并补充了关于PPO的最新讨论。文中还提供了韩语及中文等多个语言版本的翻译，便于不同读者参考。

智能体 OpenAI 教程/实践数据/训练

推荐理由：这篇是当年策略梯度方法的“圣经”级综述，现在看虽然有些过时，但想理解PPO、SAC的来龙去脉还得从这儿啃起。