5月17日

06:54

Berryxia.AI@berryxia

Claude Mythos模型悄然现身Google Cloud Console，预示企业级发布

Claude Mythos模型近日悄然出现在Google Cloud Console中，其预览标签已消失，发布模式与之前Opus 4.7类似，预示可能即将正式落地。Anthropic曾称该模型“太危险”不适合公开发布，但目前迹象表明，公司可能不会推出公开版本，而是转而作为模型提供商，通过Google Cloud Platform让已接入的企业客户直接在自有环境中调用和使用。这一举动被视为Anthropic以最安静的方式将其高级思考模型推向生产环境，并逆转了此前关于该模型危险的叙事。

🚨 AI News | TestingCatalog: ANTHROPIC 🔥: Claude Mythos model has been spotted on Google Cloud Console. -claude-mythos 👀 It is hard to imagine that...

Anthropic 推理模型发布

06:03

Chubby♨️@kimmonismus

Claude Mythos惊现Google Cloud控制台引困惑

Claude Mythos模型近日意外出现在Google Cloud控制台，且其预览标签已消失，观察者据此猜测Anthropic可能正准备公开发布该模型，类似此前Opus 4.7发布前的先例。然而，Anthropic曾多次公开表示，出于风险考虑不会发布Mythos，且该模型已被证实能力极强，因此部分观点认为该公司此刻进行彻底转向并发布该模型的可能性极低，这也会使其显得不够专业。用户对此表示困惑，强调无法想象任何发布场景，并引用推文示例佐证模型实力。整体上，事件引发猜测，但基于官方立场，实际发布概率被认为较小。

AiBattle: Claude Mythos now appears in the Google Cloud console, which was not the case yesterday The preview label is also gone. ...

Anthropic 大佬观点推理

00:51

Ant Ling@AntLingAGI

精选80

又一次Day0协作，又一次社区胜利。感谢@vllm_project团队始终可靠的支持~ 🫡🫡

vLLM: Congrats to @AntLingAGI on Ring-2.6-1T going open! 🎉 The thinking sibling of Ling-2.6-1T - trillion-scale, built for ag...

智能体开源生态推理模型发布

推荐理由：蚂蚁百灵把万亿参数的 thinking 模型开源，vLLM 第一天就能跑，想自己搭 agent 推理服务的可以直接动手了，开源生态的齿轮转得比想象中快。

00:51

Ant Ling@AntLingAGI

Ring-2.6-1T万亿参数旗舰模型正式发布，专注于处理复杂现实世界任务，并在SGLang平台获得Day-0即时支持，得益于与@lmsysorg的合作。该模型具备增强的智能体执行能力，可稳定处理多步骤、工具调用和长流程工作。用户可通过推理努力控制的高与极高模式，灵活调节推理深度、速度和成本。训练采用异步强化学习与IcePop技术，确保万亿参数强化学习训练的效率和稳定性。目前，该模型在OpenRouter平台提供限时75%折扣，供用户体验最新功能。

LMSYS Org: 🎉 Congrats on the release of Ring-2.6-1T, a trillion-parameter flagship for complex, real-world tasks. Day-0 support is...

智能体开源/仓库推理模型发布

00:51

Ant Ling@AntLingAGI

精选76

蚂蚁集团发布万亿参数推理模型Ring-2.6-1T，专为现实世界智能体工作流构建。该模型采用MIT许可，上下文长度通过YaRN技术从128K扩展至256K，并采用Async RL与IcePop混合训练架构。其核心特点是具备双推理努力模式："high"模式用于快速智能体循环，"xhigh"模式用于深度推理，旨在实现更好的成本与性能平衡。模型已开源，欢迎社区反馈。

Adina Yakup: Ant group just dropped Ring-2.6-1T 🔥 1T reasoning model, built for real world agent workflows. ✨ MIT license ✨ 128K >> ...

智能体 Hugging Face 开源生态推理

推荐理由：蚂蚁把1T推理模型以MIT许可开源，还专门为Agent循环做了高低推理双模式，做开源Agent的团队直接多了一个强力基座可选。

00:21

Ant Ling@AntLingAGI

Ring-2.6-1T模型现已开源，并上线OpenRouter平台，5月底前享有75%折扣。该模型由AntLingAGI开发，是一个为现实世界智能体构建的万亿级推理模型，其核心设计目标不仅是回答问题，更是执行任务。它专注于规划步骤、使用工具、维持上下文和完成复杂工作流，具备强大的智能体执行能力和高推理模式，并采用了Async RL与IcePop训练方法。

Novita AI: 🚀 Ring-2.6-1T is now open source (from @AntLingAGI). Now 90% off on @OpenRouter via @novita_labs - a great time to star...

智能体开源生态推理模型发布

5月16日

22:54

Berryxia.AI@berryxia

长上下文LLM竞争已转向：从堆token转向精细的架构优化

长上下文大型语言模型的竞争焦点已从单纯增加上下文长度，转向通过精细的架构优化来提升计算效率。Sebastian Raschka的新文章通过可视化方式，解析了从Gemma 4到DeepSeek V4等模型在生产环境中应用的关键效率优化技术，如KV缓存共享、分层嵌入和压缩注意力等。这些技术旨在更智能地分配计算资源，已成为决定模型性能差异的关键。对于从事长上下文模型、智能体或RAG开发的团队而言，文章中的视觉图解与效率对比具有重要的参考价值。

Sebastian Raschka: New article: a visual tour of recent LLM architecture advances, from Gemma 4 to DeepSeek V4. I focus on long-context eff...

推理现象/趋势部署/工程

20:38

Rohan Paul@rohanpaul_ai

陶哲轩论大型语言模型：简单数学与不可预测行为之谜

陶哲轩指出，大型语言模型（LLMs）的训练和运行主要基于线性代数、矩阵乘法和微积分等简单数学，本科生即可掌握。然而，核心谜团在于LLMs为何在某些任务上表现卓越，却在其他任务上失败，且无法提前预测。这源于现实世界数据的性质：它介于完全噪声和完全结构化之间，而数学对此中间状态的理解薄弱，类似于物理学在原子和连续介质之间的介观尺度困境。因此，尽管我们能描述LLMs的机制，却无法解释其能力跳跃或提供可靠的任务级预测。简单机制与难以预测行为之间的不匹配，构成了当前研究的核心难题。

大佬观点推理现象/趋势

17:02

Chubby♨️@kimmonismus

精选75

研究人员利用Anthropic Mythos工具构建macOS内核漏洞，绕过苹果M5芯片内存完整性执行安全系统

三名研究人员借助Anthropic的Mythos工具，成功开发出一个可绕过苹果M5芯片内存完整性执行（MIE）安全机制的macOS内核漏洞利用程序。MIE是苹果耗时五年、投入巨资为M5和A19芯片打造的旗舰安全功能，旨在彻底消除内存损坏漏洞。研究团队于4月25日发现漏洞，5月1日即完成开发，并亲自前往苹果园区提交报告。该攻击采用纯数据攻击方式，无需操纵指针，仅通过非特权用户的标准系统调用即可获取根权限。完整技术报告将在苹果发布补丁后公开。

International Cyber Digest: Video of exploit in action. Source: https://blog.calif.io/p/first-public-kernel-memory-corruption

Anthropic 安全/对齐推理编码

推荐理由：从发现漏洞到提权 root 只用了六天，Mythos 绕开了苹果最核心的安全屏障。这是 AI 辅助漏洞利用的分水岭，安全工程师现在就该看。

14:42

AYi@AYi_AInotes

Anthropic神秘模型Mythos Preview展现颠覆性漏洞挖掘能力

Anthropic的神秘AI模型Mythos Preview在网络安全领域取得突破性进展。该模型仅用五天就成功构造出针对苹果硬件级安全防线MIE的macOS内核漏洞利用程序，而同类任务通常需要Google Project Zero团队平均六个月完成。Mythos不仅能自主阅读代码、提出假设并验证，还能独立完成从漏洞发现到编写完整利用链的全过程。这标志着AI正将漏洞挖掘的技术门槛急剧降低，预示着未来网络安全攻防可能演变为AI之间的自动化竞赛。相关技术报告已提交苹果，修复后将公开。

Anthropic 安全/对齐推理模型发布

03:05

Artificial Analysis@ArtificialAnlys

AI在经济价值任务中快速进步：根据GDPval-AA Elo评分，GPT-5.5在实际工作产出中预计将赢得约98%的正面比较，对比对象是一年前GDPval-AA领先模型Claude 4 Sonnet GDPval-AA衡量模型在九个行业44个职业中的任务完成能力。图示展示了Claude 4 Sonnet（2025年5月）与GPT-5.5（xhigh，2026年5月）在库存管理任务中的幻灯片输出对比

OpenAI 推理评测/基准

02:17

Epoch AI@EpochAIResearch

Claude通常在软件工程方面优于前沿竞争对手，数学方面则稍逊。根据我们汇总基准测试创建的领域特定ECI指标，Claude家族的软件工程ECI平均比通用ECI高2.7分，数学ECI则低1.8分。

Anthropic 推理现象/趋势编码

00:32

Chubby♨️@kimmonismus

OpenAI推出个人理财功能，或冲击金融科技初创企业

OpenAI为美国ChatGPT Pro用户推出了个人理财功能。用户可通过Plaid连接银行账户，获得消费仪表盘，并能基于实际交易数据向GPT-5.5提问，查询余额、消费模式、订阅和投资等信息。该功能无法查看完整账号或移动资金。未来将集成Intuit用于税务估算和信用卡申请，其“金融记忆”可跨对话存储储蓄目标等上下文。Plus用户将稍后获得，免费用户最终也会开放。内部基准测试显示，GPT-5.5在复杂个人理财任务上得分为79/100，GPT-5.5 Pro为82.5/100。此举被认为对许多金融科技初创企业构成了直接竞争。

ChatGPT: A preview for Pro users: a new personal finance experience in ChatGPT. Pro users in the U.S. can securely connect financ...

OpenAI 产品更新推理

5月15日