Apodex-1.0-H 发布一个异步智能体团队,用于深度研究。协调者将子智能体分配到独立上下文和工具,再通过事实核查、冲突审查和草稿审查智能体检验弱主张。该方案将深度研究视为分布式系统问题,展示了推理时缩放路径:通过多个协调搜索智能体、持久追踪和独立验证层提升答案质量,而非依赖单一更大模型,并声称取得 SOTA 结果。
Dive in 👇 📝 Blog: https://www.apodex.com/blog/apodex-1.0 📄 Tech report: http://www.apodex.com/pdf/20260608 💻 Github:...
We want to make AI accessible for everyone, so we're reducing our API prices by ~50%. Consumer AI growth is still blocke...
DiffusionGemma is our new experimental open model with up to 4x faster output on dedicated GPUs. Instead of predicting w...
用户在 26 万行代码的 CodePilot 代码库中测试 Fable 5,发现其在漏洞分析和 bug 寻找方面表现出色,能找出大量问题。但在代码生成上,Fable 5 并非万能,写出的代码常有明显 bug,需要多次修复才能完成,属于偏科严重的模型。与之前的版本 4.8 相比,Fable 5 某些方面提升巨大,另一些方面虽更好但提升有限。
在我 26 万行代码的 CodePilot 代码库中尝试 Fable 5,看一下它能找出多少问题
We've reset usage limits across our products! For those just starting to test Fable, here's four tips for using it more ...
Claude Fable 5 一天内迁移 Stripe 5000 万行代码库(人类需 2 个月);绘制逼真 3D 图形(波音 747、超 5000 个对象太空模拟、Minecraft 过山车、写实森林、纽约天际线、暴风云);一次性通关宝可梦火红版;优化实际交互网络求值器,效果比 GPT 5.5 好 10 倍。价格相近:输入 $10/M,输出 $50/M(Fable 5)vs $45/M(GPT 5.5),且比 GPT 5.5 Pro 便宜 6 倍。
Claude Fable 5 发布即位列 Artificial Analysis Intelligence Index 第一,得分 64.9,领先第二名的 GPT-5.5 约 5 分。该模型采用自适应推理(最大努力模式)并以 Opus 4.8 作为回退模型。在 AA-Omniscience 知识测试中得分 40,领先此前最高分的 Gemini 3.1 Pro Preview 7 分;HLE 得分 53%,领先 Opus 4.8 超 7 个百分点。约 9% 任务触发安全护栏并回退。定价 $10/$50 每百万输入/输出 token(Opus 4.8 的两倍),缓存读写 $12.50/$1;上下文窗口保持 1M token。通过 Pro、Max、Team 等计划可用至 6 月 22 日,之后需消耗积分。
关联讨论 29 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:歸藏 (@op7418)The Verge:AI(RSS)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)X:Artificial Analysis (@ArtificialAnlys)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克Anthropic 发布 Claude Fable 5,这是经过安全处理的 Mythos 级模型,能力超越以往任何公开发布模型。它在软件工程、知识工作、科研和视觉等基准测试中几乎全线 SOTA,长任务越复杂领先越明显。在网络、生物化学、蒸馏等高风险领域,模型会自动回退至 Opus 4.8,平均每 20 次对话触发一次。同时,Anthropic 向少数可信的网络安全与关键基础设施团队开放完全版 Mythos 5,后续将扩大受信任访问。此举证明顶尖 AI 可在能力与安全之间同时达到极致。
Introducing Claude Fable 5: a Mythos-class model that we've made safe for general use. Its capabilities exceed those of ...
关联讨论 29 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:歸藏 (@op7418)The Verge:AI(RSS)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)X:Artificial Analysis (@ArtificialAnlys)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克Matthew Berman 一周实测 Fable(Mythos),认为这是真正的下一代模型,但存在明显怪癖。优点:Workflow 模式能瞬间拉起几百个 agent 并行全量代码审查,找出 bug 和边缘 case 的数量是 Claude/GPT 的一倍以上;自主性极强,敢于长时间自主完成超长时域任务。缺点:极度啰嗦、信息密度过高;喜欢反复问澄清问题;速度慢,简单任务五分钟才输出几千 token。建议把 effort level 调到最低。总结:Fable 5 是当前最强模型,适合最复杂的任务,但价格高昂,简单任务不推荐。
Claude Fable 5 基于 Mythos 底座并增加安全护栏,是自 4.5 以来最重大进步。在软件工程、知识工作等基准中领先,任务越复杂优势越明显。价格:输入 10 美金、输出 50 美金、缓存输入 1 美金,长文本一句话可达 10 美金。已原价上线 Cola。
Fable 5 is the biggest step up I've felt in our models since Opus 4.5 back in November. After 4.5 came out I uninstalled...
Introducing Claude Fable 5: a Mythos-class model that we've made safe for general use. Its capabilities exceed those of ...
关联讨论 29 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:歸藏 (@op7418)The Verge:AI(RSS)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)X:Artificial Analysis (@ArtificialAnlys)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克Mythos invented its own language, then switched back to English to talk to humans (AI safety researchers have been warni...
@claudeai Fantastic. In one 50-million-line Ruby codebase, Fable 5 finished a migration in one day that would have taken...
Claude Fable 5 takes #1 on APEX-SWE: 65.5% Pass@1 overall. It scores ~18pp higher than Opus 4.8. We tested @claudeai Fab...
Anthropic同日推出两款模型:Fable 5面向所有用户,配备安全分类器(检测攻击/生化武器/蒸馏时降级至Opus 4.8,超95%对话不触发);Mythos 5仅限Project Glasswing合作伙伴。Fable 5能力超越以往:Stripe在5000万行Ruby代码库完成全库迁移(原需两月团队→一天);FrontierCode测试获最高分;仅基础视觉接口通关宝可梦火红版;蛋白质设计加速约10倍;基因组学中自主工作一周多,训练出超越Science论文的模型。API定价输入$10/百万token、输出$50。订阅用户6月22日前免费。所有Mythos级别模型流量强制保留30天(仅安全监控)。
Introducing Claude Fable 5: a Mythos-class model that we've made safe for general use. Its capabilities exceed those of ...
关联讨论 29 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:歸藏 (@op7418)The Verge:AI(RSS)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)X:Artificial Analysis (@ArtificialAnlys)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克据推文透露,Claude 5 Fable(代号Fable)在几乎所有AI能力基准测试上达到SOTA,尤其在软件工程、知识工作、视觉、科学研究中表现优异。任务越长越复杂,其领先幅度越大;token效率高于以往Claude模型,能在百万token长任务中保持专注并自我优化输出。相比上一代Mythos有显著提升。实际案例:Stripe报告称Fable将数月工程压缩至数天,在5000万行Ruby代码库中一天完成代码库迁移(原需团队两月以上手工操作)。
Claude 5 Fable Benchmarks! Holy moly, significant jump even to Mythos
Anthropic 今日发布 Mythos 的公开版本,代号“Fable”。其成本约为 Opus 的两倍,低于此前预览版 5 倍 Opus 的定价。Fable 配备严格安全限制,在网络安全方面比 Project Glasswing 合作伙伴的受限预览版更保守,且在长时间、多步骤任务及智能体式工作流上表现更强。Mythos 预览版于 2026 年 4 月推出,是当时最强前沿模型,尤其擅长编程、推理和网络安全(含发现零日漏洞);因安全问题未公开,仅限 Project Glasswing 合作伙伴用于防御性网络安全,目前已报告发现数千个重大漏洞。
Kimi 利用 Agent Swarm 系统并行协调300个子智能体,分析战术、球员状态、伤病、赛程、天气、赔率等因素,预测2026年美加墨世界杯全部104场比赛,并发布每轮赛前预测和赛后回顾。模型层融合了 Elo/FIFA 强度、Poisson 进球分布、xG/xT 指标、蒙特卡洛模拟等方法。预测结果显示西班牙和法国为头号热门,但德国夺冠概率可能被市场低估:模型基线估计约11.0%,校准估计约11.3%,而部分市场隐含概率仅约7.4%,正向偏差约+3.6个百分点。该判断基于多分析链交叉验证,可能源于对德国近两届小组出局的近因偏差以及纳格尔斯曼高位压迫体系与穆西亚拉/维尔茨新创造轴的复苏信号。
一篇论文系统研究了Transformer注意力中QKV投影的必要性,发现Key和Value可共享同一投影(Q-K=V变体),仅增加3.1%的困惑度,便将KV cache削减50%,大幅降低推理内存。最佳变体保留Query独立,使注意力保持方向性。与GQA和MQA结合时,可分别实现87.5%和96.9%的cache缩减。弱变体Q=K-V因导致因果注意力过于对称且无cache节省而无效。
MiMo推出V2.5 Pro UltraSpeed超高速模型版本,每秒输出超1000 Token,号称全球首个达此速度的万亿参数模型。实测显示:复杂3D小游戏TPS 804 Token/s(峰值810),首次响应4.71秒;官网3D动画峰值1426 Token/s,首次响应0.83秒,32秒输出25624 Token(1000行代码);另一复杂官网3D效果TPS 1136,首次响应4.5秒。相比此前超高速推理方案常见能力下降,MiMo未出现此类迹象。该模型主要面向效率要求极高的ToB客户,在Agent和Sub-Agent并发场景下效率提升明显。
Noam Brown指出,LLM基准性能日益依赖测试时计算,当前标准评估因忽略推理预算而低估模型能力。以GPT-5.5与GPT-5.4为例:控制测试时计算后,5.5表现远超5.4。Karpathy的自动化实验和AISecurityInst的网络评估均显示,即使消耗超1亿token,强模型性能仍持续提升。Brown建议改用性能-测试时计算曲线评估,安全评估也应计入推理预算,如Gemini 3 Deep Think发布时未配套风险说明,关键在于业界未统一考虑测试时计算。
From op-eds in newspapers to NeurIPS position papers, AI is increasingly shaping long-form public discourse. Its argumen...
Introducing a more powerful NotebookLM 🚀 Massive upgrades deliver agentic capabilities in chat, more advanced reasoning...
小米 MiMo 联合 TileRT_AI 发布 MiMo-V2.5-Pro-UltraSpeed,首次在 1 万亿参数 MoE 模型上实现超过 1,000 tokens/s 输出速度,仅用单台标准 8-GPGPU 节点(非 Cerebras 或 Groq 方案)。提供限时免费聊天体验,UltraSpeed API 价格为 3 倍,输出体验提升约 10 倍。申请时间为 6 月 8 日至 23 日(PDT),企业可邮件联系 business-mimo@xiaomi.com。
同一事件,精选展示《小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式,1T 模型输出突破 1000 tokens/s》郭明錤指出,苹果核心看涨叙事是“AI暂时落后但最终会迎头赶上”。供应链显示业务势头年底前强劲,强化“无AI已不错,有AI更想象”叙事。故无论WWDC26内容,只要叙事不变,苹果2026下半年股价趋势积极。WWDC26真正看点在于苹果能否用同款Gemini做出比谷歌更好的AI应用、智能体工作流及端云混合体验。若能,叙事延续;若不能,Gemini设定AI上限,“苹果最终领先”将受质疑。