5月12日

02:29

Ethan Mollick@emollick

大语言模型（LLM）的一个重要特性是，更新、更大的模型在所有方面都表现更优。AI实验室正将大量资源投入编程等经济价值高的领域，但更大的模型在谈判、对齐、诗歌创作等广泛任务上同样更具优势。例如，在PACT基准测试的数千场模拟谈判中，GPT-5.5在买卖双方多轮议价游戏中取得了最佳成绩，这印证了模型规模与综合能力提升的正相关关系。

Lech Mazur: First update to PACT, my head-to-head LLM negotiation benchmark! 20-round buyer-seller bargaining game: each round the A...

OpenAI 大佬观点推理现象/趋势

00:35

IT之家（RSS）

精选72

菲尔兹奖得主亲测 ChatGPT 5.5 Pro：17 分钟出论文级成果，替学生拉响红色警报

菲尔兹奖得主 Timothy Gowers 测试 ChatGPT 5.5 Pro，AI 在 17 分钟内独立解决了一个加法数论公开难题，产出了博士论文级别的成果。整个过程无需数学指导，仅通过简单提示完成。Gowers 警告，若 AI 数学能力按此速度发展，将很快对数学研究领域构成危机，尤其冲击博士生培养。他呼吁数学系紧急应对，帮助学生寻找新出路。另一位菲尔兹奖得主陶哲轩则指出，人类数学家在 AI 时代的核心价值在于“消化”和深入理解证明。

OpenAI 大佬观点推理

推荐理由：Gowers用GPT-5.5 Pro独立完成了够博士论文的数学成果，这不是AI辅助而是AI主导。两位菲尔兹奖得主同时拉响警报，对正在读博的你来说，这比任何论文都更有冲击力。

00:27

Google AI Developers@googleaidevs

谷歌DeepMind与Coursera推出"Gemini for Developers"开发者专项课程

谷歌DeepMind与Coursera合作推出的“Gemini for Developers”专项课程现已开放注册。该课程旨在指导开发者利用Gemini模型构建可用于生产环境的AI解决方案。其核心涵盖三大模块：“推理与行动”使AI应用能推理并执行复杂任务；“连接与自动化”通过函数调用将Gemini与现实世界工具集成；“规模化与信心”则专注于构建、测试和部署可扩展的AI系统。课程强调超越单纯文本生成，实现实际任务的自动化与系统集成，助力开发者快速上手。

智能体 DeepMind Google MCP/工具

5月11日

23:59

elvis@omarsar0

大语言模型代理中的"记忆诅咒"

研究发现，长历史记录会在大语言模型（LLM）代理中引发“记忆诅咒”，导致其过度遵循历史、规避风险，从而削弱合作能力。该结论基于7个LLM和4个社会困境游戏的实验，在28个模型-游戏组合中，有18个因历史扩展而合作退化。机制分析表明，长历史侵蚀了模型的前瞻性意图，使其更关注过去的冲突而非未来收益。通过仅在前瞻性轨迹上训练的LoRA适配器可缓解此问题，且能零样本迁移至新游戏。实验证明，触发因素是历史内容而非长度，而消除显式思维链通常能减轻合作崩溃。

智能体 arXiv 安全/对齐推理

22:00

OpenRouter@OpenRouter

精选69

AntLingAGI发布了其万亿参数旗舰"思考模型"Ring-2.6-1T，该模型在5月15日前可通过OpenRouter免费使用。其核心特性包括可调节的思考强度，能动态平衡认知深度、token成本和执行速度；专为智能体优化，适用于高频工作流，提供快速的多步执行和工具调用；并具备深度思考能力，以应对严密的数学逻辑和科学研究任务。模型旨在满足实际生产环境中复杂任务的需求。

Ant Ling: We are launching Ring-2.6-1T, a trillion-parameter flagship thinking model engineered for real-world complex tasks and p...

智能体推理模型发布

推荐理由：万亿参数的思维模型免费到5月15日，可调思考力度的设计很接地气，做agent的可以趁窗口压测一下，看看它能不能扛住真实生产环境。

19:48

Berryxia.AI@berryxia

小块有大智慧？这下真成真了！

一项新研究证明，一个通过强化学习训练的7B语言模型能够有效指挥GPT-5、Claude Sonnet 4和Gemini 2.5 Pro等前沿大模型。该模型通过编写自然语言子任务、分配给不同大模型执行，并精确指定上下文信息，在GPQA Diamond、LiveCodeBench和AIME25等硬核基准测试中，其性能全面超越了单个前沿模型。该系统平均每个问题仅需调用约三次大模型，比手动设计的多代理流程更高效。该工作提供了关键证据，表明目前商业AI产品中依赖人工的提示工程和流程设计，完全可以仅通过奖励信号进行端到端学习。这揭示了AI发展的新方向：智能的差距可能不在于模型规模，而在于协调与指挥的能力。

BURKOV: In this paper, a 7B language model trained with reinforcement learning learns to orchestrate larger frontier models like...

智能体 arXiv MCP/工具推理

17:53

Chubby♨️@kimmonismus

Cerebras凭借其推理芯片能效优势，瞄准今年全球最大规模IPO

AI芯片制造商Cerebras Systems因IPO订单超出发行股票20倍以上，计划提高IPO规模和价格。市场普遍认为其芯片仅推理速度更快，但其核心优势在于能效。传统GPU在推理时受内存带宽限制，每个token生成都需从内存读取整个模型，导致算力闲置。Cerebras的Wafer-Scale Engine采用单一大芯片设计，以片上SRAM替代片外HBM，每次内存访问能耗降低约100倍。减少数据移动既降低了延迟，也显著减少了每token的功耗，这解释了其IPO被超额认购的原因。

推理行业动态部署/工程

17:51

Tencent Hy@TencentHunyuan

腾讯混元Hy3预览版已开放早期体验，被描述为该系列最强模型。其核心设计面向现实世界有效性，而非单纯追求基准测试分数。模型具备处理复杂智能体任务的能力，采用256K上下文长度，并融合了快慢思维机制的混合专家架构。该模型基于重建的预训练和强化学习基础设施构建，旨在实现大规模应用下的高成本效益。

Python Space: Got early access to Tencent's Hy3 preview. This is the strongest model in the Hy series. Built on rebuilt pre-training a...

智能体推理模型发布

14:27

Greg Brockman@gdb

/goal 被低估了 GPT-5.5 extra high thinking 配合 /goal 刚刚做到了。我震惊了。

james yu: We have a gnarly refactor in our codebase that I test every frontier model on. I've been doing this since the release of...

OpenAI 大佬观点推理编码

09:34

IT之家（RSS）

精选78

消息称 AI 芯片企业 Cerebras IPO 获 20+ 倍超额认购，拟调升发行价近三成

AI芯片企业Cerebras的IPO获得超过20倍超额认购，有望成为2026年以来全球最大IPO。公司计划将发行股票数量从2800万股增至3000万股，发行价区间从115-125美元上调至150-160美元，以中间价计涨幅达29.17%，最高可筹资48亿美元。Cerebras的“晶圆级芯片”因集成大量高带宽SRAM缓存，特别适合AI推理的解码步骤，已获得亚马逊和OpenAI的大额订单。

OpenAI 推理行业动态

推荐理由：Cerebras的晶圆级芯片在推理端有独特优势，这次IPO若以近50亿美元上限募资，意味着AI芯片竞赛又多了一个重量级玩家，对英伟达的格局是一记有趣的搅动。