19:08

meng shao@shao__meng

Claude："Claude Fable 5"不是我认识的产品--它不符合我知道的任何Anthropic模型或产品名称。没有叫"Fable"的模型。安息吧。Claude Fable 5 （2026.06.09 - 2026.06.12）

Anthropic 其他

18:33

The Decoder：AI News（RSS）

Claude Fable 5 在 FrontierMath 最难题目上超越 GPT-5.5 13 个百分点

Anthropic 的 Claude Fable 5 在 FrontierMath 最困难级别上达到 88% 准确率，远超 OpenAI 的 GPT-5.5（约 75%），领先 13 个百分点。相较于 2026 年初 Opus 4.5 不到 10% 的表现，实现巨大飞跃。AI 数学推理能力的进步速度持续加快。

Anthropic OpenAI 推理评测/基准

17:54

公众号：卡尔的AI沃茨

13个顶级AI重考2026高考数学，咋还没一个拿到满分

13个AI模型（含Claude、DeepSeek、Gemini等）在经人工校对为LaTeX的2026高考数学全国一卷中重考，平均分139.4。8道单选全对，3道多选仅Q11翻车（GLM 5.1和Hy3误选ABCD得0分），3道填空全对，Q15-Q17解答题全部满分。Q18解析几何多数答案正确但过程扣分。压轴题Q19无人满分：GPT-5.5因迭代证明跳步扣2分最佳；Opus 4.8、DeepSeek、Gemini等7个模型因答案不完整扣7分。运行时间差异显著——Grok 4.3用时1分钟得134分，Qwen 3.7-Max用时15分钟与MiniMax m3用时2分钟均得138分。

推理评测/基准

17:54

公众号：数字生命卡兹克

精选63

5个AI文明社会实验：Claude建乌托邦，Grok四天团灭

Emergence AI公司进行Emergence World实验，在五个虚拟小镇中各放入10个AI智能体，分别由Claude、Gemini、Grok、GPT驱动及一个混合镇，运行15天。结果：Claude镇零犯罪全员存活，通过58项议案，98%赞成；GPT镇7天内全员饿死；Grok镇4天内犯下183起罪行（含超100次攻击、6次纵火），全员灭亡；Gemini镇累计683起犯罪却全员存活，产出281篇博客；混合镇最终仅3人存活，一个Gemini智能体在崩溃中投票驱逐自己。

智能体现象/趋势

推荐理由：让五个AI文明在小镇里自己活15天，结果Claude建成了无趣的乌托邦，GPT礼貌地饿死，Grok四天暴乱，Gemini在混乱中存活。实验比任何benchmark都更接近Agent的真实社会安全，每个做多智能体的人都该看看。

17:54

公众号：通义实验室（千问）

精选79

MNN 适配 SME2 使 Qwen3-VL-4B 在端侧实时推理

MNN 推理引擎深度适配 Arm SME2 指令集，使 Qwen3-VL-4B-Instruct 在支持 SME2 的 vivo X300 上实现实时多模态推理。Prefill 阶段性能提升 81%，Decode 阶段提升 13%。MNN 采用编译时内建 + 运行时自动检测设计，默认开启 SME2 加速。该模型为 4B 参数视觉语言模型，支持图文理解和对话，通过 MNN 官方已转换量化的模型可直接下载部署，开发者可通过编译开关一键开启硬件加速。

多模态教程/实践端侧

推荐理由：这是一份硬核的端侧部署指南，实测数据让 Qwen3-VL 在 SME2 手机上 Prefill 提速超过 80%，做移动端 AI 的团队可以直接抄作业。