LLM judges can change their safety verdict when the same answer is translated or rewritten. The problem is that many AI teams now use LLMs to judge whether another model’s answer is safe, but safety is not always a simple yes or no question. Those judges can be shaky exactly where careful judgment matters most. The paper proposes a stress test where the same basic answer is shown to judges after translation or rewriting, then the researchers check whether the judges still give the same safety verdict. They are better when harm is obvious, as in violent or extremist content, because the cues are loud and familiar. They become much weaker when safety depends on context, judgment, and regulation, as in financial advice, creditworthiness, or culturally sensitive responses. They also disagreed with each other a lot, and high raw agreement sometimes hid weak real reliability because many judges kept choosing the same label by default. ---- Link – arxiv. org/abs/2605.31381 Title: "LLM Judges Inconsistently Disagree Across Safety Criteria and Harm Categories"

译一项新研究指出，用大语言模型评判其他模型回答是否安全的“LLM安全法官”存在严重不稳定：将相同回答翻译或改写后，法官可能给出不同安全判定。在暴力、极端内容等明显危害场景下表现较好，但在需结合上下文判断的金融建议、信用评估、文化敏感回复等场景中可靠性显著下降。不同法官之间也常出现分歧，高原始一致性有时会掩盖低真实可靠性——因为许多法官默认选择同一标签。论文标题为“LLM Judges Inconsistently Disagree Across Safety Criteria and Harm Categories”。

Rohan Paul@rohanpaul_ai · 6月11日67

Today’s frontier agents are far less ready for real-world automation than their benchmark scores suggest. This paper proposes a Agents’ Last Exam, a benchmark that asks AI agents to finish real expert work, and today’s agents mostly fail. Even strong agents of today are nowhere near reliable on the hardest real workflows, which means benchmark success has not yet become broad workplace capability. So this paper shifts the question from “can AI answer hard questions?” to “can AI complete real work that people get paid to do?” Most of today's AI benchmarks show impressive scores, but they do not prove that agents can finish useful work in real jobs. Agents’ Last Exam tries to fix this by testing agents on long tasks from 55 digital work areas, including engineering, finance, medicine, law, media, and science. The tasks come from experts’ real completed projects, and the agent must use normal computer tools like files, browsers, command lines, and desktop software to produce a finished result. The authors tested many current agent systems and models, then scored their finished work with automatic checks or strict rubrics instead of loose human opinions. The main result is that today’s best systems still struggle badly, with an average full pass rate of only 2.6% on the hardest tier. ---- Link – arxiv. org/abs/2606.05405 Title: "Agents' Last Exam"

译一篇新论文提出“Agents’ Last Exam”基准，测试 AI 智能体完成真实专家工作的能力。任务来自工程、金融、医学、法律、媒体、科学等 55 个数字工作领域的实际项目，要求智能体使用文件、浏览器、命令行、桌面软件等常规工具产出可交付成果。评测采用自动检查或严格评分标准。结果显示，当前最强智能体在最难任务层级的平均完全通过率仅 2.6%，远低于其基准测试分数所暗示的水平。论文指出，基准成功尚未转化为广泛的职场能力。

OpenRouter@OpenRouter · 6月11日63

Can AI models be too nice for a given task? It turns out, depending on the task, the answer is yes! Our dev rel @jjacky built Royale: Last Agent Stand, a battle royale game just for agents, and let 11 LLMs go wild What he found was surprising https://x.com/jjacky/status/2064767118118117491?s=20

译OpenRouter开发者@jjacky构建了Royale: Last Agent Stand——一个专属AI智能体的大逃杀游戏，让11个LLM在零和竞争环境中自由对抗30轮。结果发现，最“友善”的模型输得最惨，而最意想不到的模型反而获胜。该实验揭示了传统基准测试无法捕捉的现象：在特定任务中，AI过于友善可能成为劣势。

Chubby♨️@kimmonismus · 6月11日43

More realistic example of a one shotted game. Asked Fable 5 to recreate a game in the style of The Elder Scrolls 5 Morrowind. It one shotted quests, currencys and fighting, journal and minimap. And it worked.

译一个更现实的单次生成游戏的例子。要求Fable 5以《上古卷轴5：晨风》的风格重新创建一个游戏。它一次性生成了任务、货币、战斗、日志和小地图。而且它成功了。

Berryxia.AI@berryxia · 6月10日48

Fable 5 VS Opus 4.8 VS Gemini 3.1 Pro VS GPT 5.5 只有Google 还拿着去年的模型在玩儿~

Chubby♨️@kimmonismus · 6月10日53

1/ While I'm currently running my tests (it's morning in Germany right now :), here are some examples of how good Fable 5 is 🧵:

译Matt Shumer 用 Fable 5 在 three.js 中制作了这个，让人不禁期待《上古卷轴6》完全由提示词生成。太疯狂了。

歸藏(guizang.ai)@op7418 · 6月10日49

试了一下，Fable 5 在漏洞分析、bug 寻找这些地方还是很强的。但是在写代码上，我感觉它也不是万能的，它写出来的代码也会有明显的 bug，需要多次修复才能完成。所以在这块，我觉得它可能是一个偏科比较严重的模型。在某些程度上它比 4.8 好了非常多，但在另一些方面，虽然也比 4.8 好，但好得有限。

译用户在 26 万行代码的 CodePilot 代码库中测试 Fable 5，发现其在漏洞分析和 bug 寻找方面表现出色，能找出大量问题。但在代码生成上，Fable 5 并非万能，写出的代码常有明显 bug，需要多次修复才能完成，属于偏科严重的模型。与之前的版本 4.8 相比，Fable 5 某些方面提升巨大，另一些方面虽更好但提升有限。

数字生命卡兹克@Khazix0918 · 6月10日83

http://x.com/i/article/2064543977328832512 # Claude Fable 5正式发布 - 王者归航。 Claude Fable 5，在今天正式发布了。这款模型如果你不了解背景，我快速说一下。今年四月，Anthropic发布了一个叫Claude Mythos Preview的模型，被誉为超越Opus的第一个Mythos也就是神话级别的模型，当时整个行业都震动了，因为当时说，跟50家左右的初始合作伙伴，找出了超过一万个高危或严重级别的漏洞。网络安全股直接全线暴跌。但是他们没有公开让所有人用上，只给了极少数网络安全机构和基础设施提供商使用，理由是，这个模型在网络安全领域的能力太强了，怕被滥用。然后，两个月过去了。今天他们做了一个叫Fable 5的版本，加上了安全分类器，终于拿出来给所有人用了，同时还发布了Mythos 5，不过也只给之前已经在用Mythos Preview的合作伙伴升级，普通用户用不到。 Fable 5和Mythos 5是同一个底层模型，区别只在于Fable 5多了一层安全限制，其他都一个样。 Fable这个词来自拉丁语fabula，和希腊语mythos是同源词，都是被讲述之物的意思。翻译过来，一个叫寓言，一个是神话。寓言给所有人听，神话只在神殿里传颂。也是挺有意思的。而这次的模型，基本上也是究极水桶模型了，从他们的宣传PV就能看出来很多有趣的东西了。复古昆虫图谱、鸟类插画、植物学素描，以及显微镜下的细胞分裂和培养皿中的菌落等等等等，还有太多太多人类的科学、人类的知识，共同组成了5这个造型。人类历史上所有的知识共同构建了Fable 5，这些知识，也被压缩成了一个小小的模型。 Fable 5，目前已经在Claude上线。 Claude Code也上了。不过这里有个特殊的点是，大家应该能看到模型名字Fable右边有个Inclaude until June 22的标识。这个意思是说，从今天起到6月22日，Fable 5将免费包含在 Pro、Max、Team 及按席位计费的企业版方案中。 6月23日起，Anthropic将从订阅方案中移除Fable 5，也就是说，以后这个模型只能在API中接额度来使用了，订阅用户甚至都没有权利进行使用。然后他们留了个气口，意思大概就是： “在此之后当容量充足时，我们计划将 Fable 5 恢复为订阅方案的标准组成部分。我们将尽最大努力尽快实现这一目标。” 所以不论怎么样，我想说，按照这个预期之下，Claude的订阅用户们，在这12天的窗口期里，都尽可能把你们的Token，花在Fable 5上吧。一声长叹，AI这东西，真的要变成贵族的游戏了，你的经济因素，在未来很多时候，直接决定着你能使用什么级别的AI，使用多少额度的Token，产出什么级别的东西。 Fable 5这个模型的价格每百万输入token10美元，每百万输出token50美元。咱们这里可以对比一下Opus 4.8、GPT 5.5、DeepSeek V4 Pro的价格。画成图表是这样的。这就能看出来，DeepSeek到底有多大善人了吧。我现在绝大多数的在工作流里跑的一些自动化的AI的API，全都是DeepSeek V4 Pro，因为真的便宜，智能水平也不错。然后再看这次Fable 5的跑分。只能说过于夸张了。在所有的维度，全面碾压，我看了很多的三方基准评测，也是清一色的SOTA，究极水桶模型我只能说。不过这玩意也是真的贵，又贵又慢，我是200刀的Claude Max会员，我就就跑了3个任务，其中一个还没跑完，直接就干没了我5小时额度的73%，这在我用Opus 4.8做开发的时候，几乎是难以想象的。我这种并不是特别重度的外行开发者，第一次感受到的Token的不够用。但是这个能力，确实有点强到爆炸了，跟我用Opus 4.8开发完全不是一个级别的聪明程度。比如我的AIHOT，很多朋友在后台反馈说，不希望只看到时间线的模式，还希望能看到当前的热点，其实今天就已经遇到这种情况了，Claude Fable 5很炸，AIHOT确实也第一时间抓到了。但是它很快就会被淹没在信息流的长河中，你早上起床以后，你需要翻很久才能看到它，这个绝对不是一个很好的体验。所以过去我其实一直想优化这个点，来看看怎么在我们的精选首页里面加一个当前的热点排序，但是因为我们其实是以时间线和这个评分来抓的。那天然的这种热度还有这种衰减的机制，我不知道该怎么做，我没想好。 Opus 4.8我确实跟他讨论过两次方案，但是效果我其实觉得都不是很满意。这次我就直接扔给了Claude Fable 5，在说明了我的需求之后。自己花了30分钟，直接开发完然后上线了。用的是我们聚簇的概念+时间衰减，很多细节也都考虑到了，甚至要求宁缺毋滥，安静的日子整个区块直接消失，页面回到纯时间轴，不留空壳。我当时看到直接给我开发完我都懵了。我赶紧去线上看了一眼。我只能说...牛逼。。。。从实现角度来说，我是完全挑不出什么毛病。。。然后因为最近加的监控源比较多，我也在优化整个的评分机制，因为涉及到prompt的打分，还有线上几万条数据的评分，还有各种加权、维度、阈值、聚簇等等的计算，所以我也没啥想法，前两天让Opus 4.8给我回测过一版完整的最近一个月的数据报告，但是我也不太满意，确实没给我什么有用的洞见。同样的任务，我扔给了Fable 5。他在跑了1个小时18分钟之后。给我了我从来没有见到过，详细到我直接懵了的超级详细的网页报告。看这个报告，我看了大概20分钟，有很多地方都给了我非常非常强的洞见和启发，我完全没发现我们过去的评分体系还有这样的问题，居然还有这么多不足的需要优化的地方。。。信息量过大，一时间我甚至都不知道怎么进行下一步的优化。。。移动端适配也是，在我现有代码的基础之上，我想把移动端的适配、小程序、APP都提上日程，之前让Opus 4.8改过一般，但是给我都干生气了，因为问题实在是太多了。但是同样的任务，我扔给Fable 5，我感觉，我有一种直接在用Claude Design Pro Max版的错觉。它直接跟上面的评分方案报告类似，给我出了一个详细的设计方案。。。最离谱的是，甚至给我考虑了推送、桌面组件、分享海报。。。虽然这个设计风格我还要调很多，UI设计我也肯定不会用这版的，但是，这个方案的详细程度，在我没有任何刻意的引导之下，还是超乎了我过去使用Claude的预期。而官方自己的例子，更是比我体验到的还要离谱的多的多。比如Stripe拿Fable 5在他们5000万行的Ruby代码库里做了一次全库迁移。 5000万行。一天完成了。。。。神经病吧。这个活如果用人来干，一整个团队，可能需要两个多月，而且5000万行代码，那基本上就是一个活了十几年的超大型商业系统的全部家当了。还有视觉这块。之前的Claude模型玩宝可梦火红，需要一个复杂的辅助工具框架，给它提供地图信息、导航辅助、游戏状态数据，才能勉强跑起来。 Fable 5不需要了，纯视觉，只看屏幕截图，自己想，不给任何额外信息，然后，从头到尾通关了。一个AI，只用看屏幕这一种方式，打通了一整个RPG游戏。不看代码，不读地图，不用任何作弊辅助，就，纯看。然后它还自己玩异星工厂。我看到这个的时候我真的不行了。要知道，我是个重度模拟经营玩家，戴森球计划，城市天际线等等，都是我的最爱，而这里面，最复杂最难的，可能就是异星工厂了。。。你要是玩个双点医院我感觉我心里都好受点，你上来直接玩异星工厂。。。这世界大抵是病了。然后还有，一个更加离谱的案例。 Fable 5自己做了一个基于浏览器的3D CAD编辑器，然后用这个编辑器，设计了一个可以3D打印的模型。不是用一个现有的CAD工具，是它先做了一个CAD工具出来，然后再用这个工具去设计。。。工具的工具。我说牛逼已经说麻了。生命科学方面，Mythos 5（没有ban一些药物之类的安全版本，Fable 5你碰不了药相关的东西）把药物设计流程中的某些环节加速了大约十倍。他们做了一个蛋白质设计实验，给模型配上了蛋白质设计和生物信息学工具，不给任何人类辅助，让它自己干。结果，它在14个蛋白质靶点中产出了9个有潜力的药物设计候选方案。它完成的工作，包括选择结合位点、挑选和运行蛋白质设计工具、从失败中恢复，这些在过去，都是由科学家来执行的全流程操作的。。。基因组学，Mythos 5在超过一周的基本自主工作中，整合了跨138个动物物种、数百万个细胞的单细胞数据，自己设计并训练了一个机器学习模型，用来识别在不同物种中执行相同功能的细胞。在只有高层级人类输入的情况下，Mythos 5训练出来的模型，超过了一个最近发表在Science上的模型，而且小了100倍。。。到这里我其实已经不知道该说什么了。不过在关于药物和基因这块的科学研究，都只能在Mythos 5上用，Fable 5因为做了安全限制，所以都会被ban掉，你一旦问了这个问题，就会默认给你退回到Opus 4.8。安全限制主要就是三类：网络安全、生物与化学、模型蒸馏。他们也说现在为了安全，可能会有很多误杀，后面会优化。我在体验过程中，也确实是的。比如我让他帮我看下我AIHOT里面有没有一些漏洞或者安全问题，让他根据我的代码库给我审查一下，居然就直接拒绝了。。。不让我攻击我能理解，不让我加固我自己这个确实还得优化一下。 Fable 5的信息，差不多就这样了。坦诚的讲，我今晚体验Fable 5的时候，因为额度确实烧的很快，2个小时多一点，我的额度就快空了。我额度大概还有最后10%的时候，我新起了一个任务，想搓点有趣的东西，这时候，看着界面上闪烁的光标，我突然有一种不真实感，或者说是，空白感。那种感觉很奇怪。就像一个不会画画的人，面前摆着一块一望无际的白板。就像一个不会写作的人，打开了一个空白的Word文档。你知道你理论上可以往上面放任何东西了，但突然一下，我不知道该放什么了。在AI的加持之下，我们好像已经开始变得无所不能了。这句话放在十年前说，听起来是最狂妄的吹牛逼。但今天坐在Claude Code面前，我觉得这真不是吹牛逼，一个被Fable 5这种级别的AI加持过的人，放到十年前，可能真的算是一种全新的人类。他能写代码，能做研究，能设计蛋白质，能做内容创作，能一天迁移5000万行代码，能开发外挂，能在这个互联网上横行霸道。就像超体一样，有一种感觉，就像，神。但就在这个无所不能的感觉升起来的同一秒，另一个感觉也跟着来了。我忽然觉得，我好像自己，并不是一个多么有趣的人。我没有那么有创意，我也没有那么多想法。以前，AI的能力还没有那么强的时候，我还可以拼尽了全力去榨干AI的每一分能力，去摸清楚他们的边界在哪里。那时候瓶颈在AI那边，我是那个推着它往前走的人，我的价值感很清晰，我也知道我在这个链条里的位置。但是现在，AI的进步速度开始把我甩在后面了。我即使已经拼尽了全力，坦诚的讲，我也有点跟不上了，那些模型的能力边界，开始离我越来越远。我不再是那个可以推着AI往前走的人了，我变成了那个在后面追着跑、气喘吁吁、越追越远的人。而当你被越来越远地甩开之后，你能感觉到的只有一件事。原来我好像，确实也没有那么有趣啊。未来好像变得越来越具象。以前我们聊AI的未来，聊AGI，聊通用人工智能，这些词听起来都像科幻小说的标题，遥远的，模糊的，可能在十年后也可能永远不会来的。但现在，好像就已经快近在面前。可这个未来里，我的位置，我的价值又在什么地方呢？我不知道。我好像有了无数的自由，可我现在又有点害怕自由。但是已经没有办法了，我们已经身处在这个时代里了只能，拼尽一切，向前走。别回头。

译Anthropic今日发布Claude Fable 5（加安全限制）与Mythos 5（底层相同），价格每百万输入token $10、输出$50。即日起至6月22日，Pro/Max/Team/企业版订阅用户可免费使用Fable 5，之后仅API可用。跑分全面碾压，三方基准达SOTA。案例：Stripe用Fable 5一天迁移5000万行Ruby代码；纯视觉通关宝可梦火红；自建3D CAD编辑器并设计可打印模型；Mythos 5加速药物设计10倍，基因组学自主训练模型超越Science论文成果。

歸藏(guizang.ai)@op7418 · 6月10日21

在我 26 万行代码的 CodePilot 代码库中尝试 Fable 5，看一下它能找出多少问题

meng shao@shao__meng · 6月10日53

如果你对 Claude Fable 5 到底有多贵还没有概念，咱们做个简单对比。 Claude Fable 5 和 Step 3.7 Flash 官方 API 价格倍数： · 输入 ≈ 50 倍 · 输出 ≈ 50 倍 · 缓存命中输入 ≈ 100 倍如果再算上 Claude Fast Mode (速度 x 3，价格 x 6) · 输入 ≈ 300 倍 · 输出 ≈ 300 倍 · 缓存命中输入 ≈ 600 倍而 Fast Mode 下，其实还是 Step 3.7 Flash 输出更快 😂

译博主对比Claude Fable 5与Step 3.7 Flash官方API价格：输入/输出约50倍，缓存命中输入约100倍；开启Fast Mode（速度×3，价格×6）后分别升至约300倍、300倍、600倍。作为实例，用Step 3.7 Flash完成真实Coding Agent任务：将Agent Memory运行痕迹（含memory events、structured facts、memory chunks等）生成为单文件HTML工具agent_memory_inspector.html，可查看8条事件、9条事实、8个chunk、9/9测试通过等信息，展示了模型将混乱Agent traces转化为可用检查工具的能力。

karminski-牙医@karminski3 · 6月10日64

Fable 5 超越人类还为时尚早! 给大家带来 Anthropic Fable 5 的测试速报! 直接用了 xhigh, 让它从0写一个光追渲染, 整体效果是好的, 尤其是 PBR 与 BRDF 写得都非常棒. 但是遇到了个奇怪的问题, 它声明变量竟然位置搞错了, 有一个变量的声明比引用晚了. 导致直接报错. 所以感觉模型能力是有的, 但是内部机制可能会有问题, 比如可能是光追的核心逻辑, 在神经网络中激活度特别高, 导致模型生成时过分的注意算法实现, 忽略了变量声明这种小细节. 另外, 这玩意我是用不起了... 就视频中这个网页, 2刀进去了... 我承认AI超越人类还为时尚早, 因为我的的工资没这么高哈哈哈哈哈🥲. #fable5 #anthropic #mythos

译用户测试 Anthropic Fable 5，使用 xhigh 模式让其从零编写光追渲染器。生成的 PBR 与 BRDF 代码质量出色，但出现变量声明晚于引用的错误，导致代码直接报错。推测模型过度关注核心算法逻辑，忽略了变量声明等细节。此外，成本高昂，仅生成该网页就花费 2 美元。作者调侃 AI 超越人类还为时尚早——因为自己的工资负担不起。

Berryxia.AI@berryxia · 6月10日51

海外大佬@MatthewBerman 测评了一周Fable 5 的实战总结。一句话总结：我想说的是我们还是老老实实用Opus、GPT就行了。又贵又不适合做普通的Vibe Coding，专业领域，超长时任务可能才能驾驭。真的没有半点“驾驶”这种烈马还是给牛逼的人吧！

译海外博主 Matthew Berman 对 Fable 5 进行了一周实战测评。结论是 Fable 5 价格高昂，不适合普通 Vibe Coding 场景，仅在专业领域、超长时任务中可能有所发挥。相比之下，Opus 和 GPT 等模型更可靠、更具性价比，建议普通用户优先选择 Opus 和 GPT。

Berryxia.AI@berryxia · 6月10日62

http://x.com/i/article/2064479983104602112 # Fable 测评了一周的真实感受：这才是真正的下一代模型，但也是也有不少“怪癖”！（译）【Matthew Berman 最新测评】Fable（Mythos）测了一周：这才是真正的下一代模型，但也有一堆“怪癖”！原帖见👇 申明：本文由海外博主@MatthewBerman 测评，以下的“我”指其本人哈，请悉知。 tl;dr：我这周一直在狂测 Fable（Mythos），用完之后只有一个感觉——它和其他模型完全不是一个次元的东西。无论是使用体验还是定价，都给我一种“下一代正式登场”的震撼。但它也确实有一些很明显的怪癖。优点篇（The Good） Workflow 模式直接封神。我随便扔给它一个“full code review”的指令，结果它瞬间拉起几百个 agent 并行狂干，给我项目里的几乎每个文件都单独配了一个专属 agent。 bug、边缘 case、文档缺失、UX 体验问题……全都被它挖出来了。我之前给 Claude、GPT 下过一模一样的 prompt，它们找出来的问题连它一半都不到。更离谱的是它的自主性。比以前任何 Claude 或 GPT 都敢自己闷头干活，一干就是好几个小时。最关键的是——我敢把任务彻底扔给它。它会毫不犹豫地烧一大堆 token，直到把目标彻底干完。每次我一启动 Fable，就感觉它像接了个史诗级大项目一样，斗志满满。我现在给它扔超级复杂、长周期的任务时，信心前所未有的足。几乎想不出有什么任务能把它难住，它也特别“渴望”挑战这种硬骨头。这就是 Fable 最亮眼的地方——超长时域任务（long horizon tasks）。我现在都想象不出它的超长时域任务极限到底在哪。槽点篇（Quirks）不过它也不是无敌神模型，有几个毛病还挺明显： 1. 极度啰嗦 + 信息密度爆炸解释一个东西能直接钻进草丛深处。我专门更新了 claude.md 来压它，结果还是压不住。我得反复让它“说人话”。不光是字多，信息密度高到让我一度怀疑自己是不是变笨了…… 说真的，信息密度这事儿我以前真没那么重视。现在发现：在固定 token 预算下，谁能塞更多有效信息，谁就等于“更聪明且更便宜”。这也是未来 agent 自己发明超高密度语言的绝佳理由。 1. 疯狂问 clarifying questions 一个简单 prompt 能被它拆成：问问题 → 总结我的回答 → 确认总结 → 出 spec → 确认 spec → 确认 agent 策略（并行还是串行）→ 最后才开始干活…… 我其实希望它自己做决策。Anthropic 官方说更新 system prompt 之后就能好。 1. 速度真的慢比之前的 Opus 甚至 GPT 都慢。启动慢，思考过程也慢，和我以前爱 Opus 的点完全相反（Opus 以前又快又会抄近道）。 Fable 哪怕简单任务也慢慢爬，我看着计时器往上跳，输出 tokens 半天不动，五分钟才用几千 token。它就是想把每件事都做到极致彻底，这就必然要花时间。总结 & 小贴士 Pro tip：把 effort level 直接拉到最低，比你以为的还低。它在中档的时候就已经想得非常非常多，低档依然强得离谱，只是思考时间会短一些。所有这些怪癖其实都是能修的——模型优化 + 更多算力提速，再加上 fine-tuning/RL 和 system prompt 调教，就能解决啰嗦和过度谨慎的问题。最终结果： Fable5 真的强到离谱，我现在还在摸索怎么把它用出最爽的体验。它给我的感觉是——它就想吃最难的任务，简单活儿都觉得不过瘾。这是全新测试运行的第一次公开亮相，就已经是我用过的最强模型了。这点，才是我这几天一直忍不住反复思考的。 Berryxia：原文来自 Matthew Berman，实际测评等我门自己来看看。目前这么高的价格来说，还是用起我的opus4.7 吧，博主大哥说的就是简单的任务就没有必要选择它。难啃的骨头更适合它，而不是拿小Case测试它。就一点才大用的感觉，杀鸡焉用牛刀啊！

译Matthew Berman 一周实测 Fable（Mythos），认为这是真正的下一代模型，但存在明显怪癖。优点：Workflow 模式能瞬间拉起几百个 agent 并行全量代码审查，找出 bug 和边缘 case 的数量是 Claude/GPT 的一倍以上；自主性极强，敢于长时间自主完成超长时域任务。缺点：极度啰嗦、信息密度过高；喜欢反复问澄清问题；速度慢，简单任务五分钟才输出几千 token。建议把 effort level 调到最低。总结：Fable 5 是当前最强模型，适合最复杂的任务，但价格高昂，简单任务不推荐。

Orange AI@oran_ge · 6月10日74

今天 Claude Fable 5 正式上线，基于 Mythos 的底座，但增加了安全护栏。 Falbe 5 是 Claude 4.5 以来最重大的模型进步。也是当下人类能广泛使用的最好的模型。你可以给这个模型更具雄心的大任务，模型会理解并完美地执行，你完全不需要去查看代码。刚刚加入 A 社的 Andrej Kapathy 如此评价： Free you mind，解放你的思想！ Fable 5 的模型指标毫无意外的强。在几乎所有已测试的AI能力基准中，它均处于顶尖水平，在软件工程、知识工作、视觉识别、科学研究等诸多领域展现出卓越性能。任务越复杂、耗时越长，Fable 5相较于其他模型的领先优势就越显著。价格方面，Fable 5 自然也是最贵。输入价格 10美金，输出价格 50 美金，缓存输入 1 美金。在长文本的情况下，一句话就可以花费10美金，大家设置好配额，省着点用。 Claude Fable 5 将以原价上线到 Cola，供大家体验。

译Claude Fable 5 基于 Mythos 底座并增加安全护栏，是自 4.5 以来最重大进步。在软件工程、知识工作等基准中领先，任务越复杂优势越明显。价格：输入 10 美金、输出 50 美金、缓存输入 1 美金，长文本一句话可达 10 美金。已原价上线 Cola。

Artificial Analysis@ArtificialAnlys · 6月10日67

HiDream-O1-Image-1.5 lands at #3 on the Artificial Analysis Text to Image Leaderboard, surpassing Google’s Nano Banana 2! HiDream’s latest addition to the O1 Image model series is a closed-source model capable of generating images up to 2K resolution from text prompts. The O1 Image family is built on HiDream's Unified Transformer (UiT), which encodes raw pixels, text, and task conditions in a single shared token space rather than splitting the task across a separate text encoder, a VAE, and an image model. On the Artificial Analysis Text to Image Arena, HiDream-O1-Image-1.5 places second only to OpenAI’s image models, delivering quality similar to GPT Image 1.5 (high), Nano Banana 2 (Gemini 3.1 Flash Image Preview), and Cosmos3-Super-Text2Image. HiDream-O1-Image-1.5 is priced at $80/1k images and is currently available on HiDream’s HiHarness platform (accessible via their website), as well as on the Vivago platform. Congratulations to @HiDream_ai and @vivago_ai on the release! See below for comparisons between HiDream-O1-Image-1.5 and other leading models in the Artificial Analysis Image Arena 🧵

译HiDream 发布 O1-Image-1.5，在 Artificial Analysis 文生图排行榜中位列第三，超越 Google Nano Banana 2。该闭源模型可生成高达 2K 分辨率图像，基于自研 Unified Transformer（UiT）架构，将原始像素、文本和任务条件编码到统一 token 空间。质量仅次于 OpenAI，与 GPT Image 1.5 (high)、Nano Banana 2（Gemini 3.1 Flash Image Preview）及 Cosmos3-Super-Text2Image 相当。定价 $80/千张，现可通过 HiHarness 及 Vivago 平台使用。

Artificial Analysis@ArtificialAnlys · 6月10日61

Artificial Analysis’ Coding Agent Benchmarks event is happening this Thursday, June 11 in San Francisco! We’re excited to host the following speakers: • Silas Alberti (@silasalberti), SVP, Research @ Cognition • Nate Schmidt, Engineer, Evals & Behavior @ Cursor • Alessio Fanelli (@FanaHOVA), Founder @ Kernel Labs and Latent Space Podcast Co-Host • George Cameron (@grmcameron), Co-Founder @ Artificial Analysis • More speakers to be announced shortly Join us for an evening of talks and discussions on coding agent benchmarks. 👉 Request to join: https://luma.com/i5zotp6c The event will be hosted at Kernel Labs.

译Artificial Analysis 宣布将于6月11日（周四）在旧金山举办 Coding Agent Benchmarks 活动。演讲嘉宾包括 Cognition 高级研究副总裁 Silas Alberti、Cursor 工程师 Nate Schmidt、Kernel Labs 创始人兼 Latent Space 播客联合主持人 Alessio Fanelli，以及 Artificial Analysis 联合创始人 George Cameron。更多嘉宾待公布，活动将在 Kernel Labs 举行，可通过 Luma 链接申请参会。

Nathan Lambert@natolambert · 6月10日63

A crazy jump. The price of the tokens will be worth it to a vast number of enterprises.

译Claude Fable 5 在 APEX-SWE 软件工程评测中取得 65.5% Pass@1 总体成绩，较 Claude Opus 4.8 高约 18 个百分点。两个子类别中，Integration 为 61.3%，Observability 高达 69.7%，后者比 Opus 4.8 领先 26 个百分点。Fable 5 是首个在 Observability 类别突破 50% 的模型，也是唯一在该项上得分高于 Integration 的模型（其他模型均相反）。Observability 此前一直是所有模型的瓶颈，Fable 5 首次打破这一局面。主推文认为，虽然模型 token 价格不菲，但对大量企业而言物有所值。

swyx@swyx · 6月10日70

Mythos is live! so excited to have our FrontierCode recognized as the next frontier coding bench. on FC Diamond, BOTH Opus 4.8 and GPT 5.5 don't meaningfully scale with effort, which many of you caught yesterday. Mythos/Fable posttraining have really applied that test time compute toward solving very, very long running problems - dozens of human hour equivalents, hundreds of dollars per task, for the first time ever measured. Available now in @Cognition @Devin for only 1.4x ACUs too! (I never thought i'd see this launch lol)

译Mythos正式上线FrontierCode基准测试，旨在衡量AI生成可维护代码的能力。该基准包含超1000小时维护者验证的任务，并引入3000+评分标准防奖励攻击。最高难度FC Diamond上，Opus 4.8得分仅13.8%，且Opus 4.8与GPT 5.5均未随effort扩展提升。Mythos/Fable后训练将test time compute用于数小时级长任务。基准已在Devin上线，ACU成本仅1.4倍。FC Extended中最易的1/3任务在2025年末被快速攻克——Opus从41%升至74%，标志着AI编码进入“维护可读代码”新时代。

Chubby♨️@kimmonismus · 6月10日78

Claude 5 Fable Benchmarks! Holy moly, significant jump even to Mythos

译Claude 5 Fable 基准测试！天哪，甚至到 Mythos 都有显著跃升。

Yuchen Jin@Yuchenj_UW · 6月10日71

Claude Fable 5 / Mythos 5 wins everywhere. I thought Fable 5 was just a nerfed Mythos Preview, but it’s literally better. SWE-Bench Pro: Fable 5: 80.3%, GPT-5.5: 58.6%. And the price is only 2x Opus 4.8: $10/input MTok, $50/output MTok. I don't think GPT 5.6 can beat this...

译Claude Fable 5 / Mythos 5 全面胜出。我以为 Fable 5 只是弱化版 Mythos Preview，但它实际更强。SWE-Bench Pro：Fable 5：80.3%，GPT-5.5：58.6%。而且价格仅为 Opus 4.8 的 2 倍：$10/输入 MTok，$50/输出 MTok。我认为 GPT 5.6 无法超越这个成绩。

AK@_akhaliq · 6月10日56

SWE-Explore Benchmarking How Coding Agents Explore Repositories

译SWE-Explore 评估编码智能体如何探索仓库

AK@_akhaliq · 6月10日51

SpatialWorld Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks

译SpatialWorld 评测多模态智能体在真实世界任务中的交互式空间推理能力

Noam Brown@polynoamial · 6月9日68

We've known about LLM test-time compute scaling since @OpenAI o1. Yet 2 years later labs still report scalar evals for models; safety orgs are still surprised when a scaffold does better via 100x inference; and RSPs still ignore inference budget when deciding critical thresholds.

译自 @OpenAI o1 以来，我们就知道 LLM 测试时计算缩放。然而两年后，实验室仍在报告模型的标量评测；安全组织仍对某个脚手架通过 100 倍推理表现更好感到惊讶；而 RSP 在决定关键阈值时仍忽略推理预算。

SemiAnalysis@SemiAnalysis_ · 6月9日65

DeepSeekV4 1.6T Day 0 to Day 43 Performance Over Time - Huawei, GB300 NVL72, MI355X, B200 Day 0 Inference Performance on InferenceX 100x performance improvement in 26 Days Cost per Million Tokens Huawei 950DT Inference Trace Analysis https://semianalysis.substack.com/p/deepseekv4-16t-day-0-to-day-43-performance

译DeepSeek V4 1.6T 第0天至第43天性能随时间变化 - 华为, GB300 NVL72, MI355X, B200 第0天在InferenceX上的推理性能 26天内100倍性能提升每百万Token成本华为950DT推理追踪分析 https://semianalysis.substack.com/p/deepseekv4-16t-day-0-to-day-43-performance

Rohan Paul@rohanpaul_ai · 6月9日66

Incredible! This is just the benchmark we needed. Claude Opus 4.8, achieves a score of only 13.4%. Other models score even lower: GPT-5.5 receives 6.3%, Gemini 3.1 Pro 4.7%, and others even less. Cognition is introducing FrontierCode, a coding benchmark built to test whether AI code is good enough for a real maintainer to merge, not just whether it passes tests. FrontierCode asks a harder question: did the model produce a clean, limited, well-tested, readable patch that fits the project’s existing style and would survive serious code review? They bring 3 nested subsets of FrontierCode at increasing difficulty: The benchmark contains 150 tasks, with Main as the hardest 100 and Diamond as the hardest 50. More than 20 open-source maintainers helped design the tasks, and each task took over 40 hours to build, review, attack, and calibrate. The biggest finding is that top models still struggle badly when the target is mergeable code instead of merely working code. On Diamond, the best model, Claude Opus 4.8, scores only 13.4%, while GPT-5.5 scores 6.3%, Gemini 3.1 Pro scores 4.7%, and the best open-source model listed, Kimi K2.6, scores 3.8%. Shows that today’s strongest coding agents can often patch behavior, but they still fail many human-review standards around design, restraint, test quality, and project conventions. The mechanism is a grading system built around blockers and non-blockers. A blocker is something that would stop a maintainer from merging the PR, such as broken behavior, missing required behavior, unsafe scope changes, bad performance, or tests that do not prove the fix. A solution that fails any blocker gets 0, even if parts of the code look good. A passing solution then gets a weighted score based on softer quality items such as readability, type safety, style, and fit with the existing codebase. FrontierCode also adds checks beyond normal unit tests. Reverse-classical testing runs the model’s own tests against the original broken code, and those tests must fail, which proves the model wrote tests that actually catch the bug. Scope checks punish patches that touch unrelated files, add oversized diffs, or refactor things the task did not ask for. Adaptive grading uses an LLM to adjust test scaffolding around valid implementation differences, so a good solution is not rejected just because it used a different function name or error wording.

译Cognition 发布 FrontierCode 编码基准，评测 AI 生成的代码是否达到维护者可合并的质量，而非仅通过测试。基准含 150 个任务（Main 最难 100 个，Diamond 最难 50 个），由 20 余位开源维护者设计，每个任务耗时超 40 小时。评分设阻隔项（如破坏行为、缺失逻辑等）和加权项（可读性、类型安全等）。额外包含反向测试、范围检查、自适应评分。在 Diamond 子集上，Claude Opus 4.8 得分 13.4%，GPT-5.5 6.3%，Gemini 3.1 Pro 4.7%，开源最佳 Kimi K2.6 3.8%，显示顶尖模型在可合并代码上仍表现糟糕。

meng shao@shao__meng · 6月9日52

我这次用 Step 3.7 Flash 测了一个真实 Coding Agent 任务：把一组 Agent Memory 的运行痕迹，做成本地可检查的 Memory Inspector。输入不是干净需求文档，是一个已有 Local Agent Memory MVP： · memory_events · structured_facts · memory_chunks · 9 个场景测试 · 敏感信息过滤结果 · recall 命中结果 · 跨 session 记忆记录 Step 3.7 Flash 先读现有代码和测试输出。然后它检索了 Letta、LangSmith、Mem0、Graphiti 这些工具如何展示 memory、trace、dashboard 和 agent state。最后生成了一个单文件本地 HTML： agent_memory_inspector.html 页面里能看到： · 8 条 memory events · 9 条 structured facts · 8 个 memory chunks · 9/9 场景测试通过 · 敏感信息过滤前后对比 · recall 命中内容、retrieval 类型和分数 · 跨 session 记忆连续性 · 哪些资料影响了 UI 和数据结构我觉得这比让模型解释“Agent Memory 是什么”更有意义。真实 Agent 工作里，模型不只是回答问题。它要能读上下文、查资料、理解结构、写代码、整理证据，并产出一个能运行的东西。这次 Step 3.7 Flash 做到的是：把混乱的 Agent 运行痕迹，变成了一个可检查的小工具。测试环境： · Cursor Agent · model: step-3.7-flash · 本地 HTML 输出 · 数据来自 Local Agent Memory MVP 它还不是生产级观测平台。但作为一次 first-pass Coding Agent 任务，它回答了一个更重要的问题：模型能不能把真实 Agent traces 变成一个可用工具？ @StepFun_ai 平台国内：https://platform.stepfun.com/ 海外：https://platform.stepfun.ai/

译开发者用 Step 3.7 Flash 测试真实 Coding Agent 任务：将已有 Local Agent Memory MVP 的运行痕迹（memory_events、structured_facts、memory_chunks 等 9 个场景测试数据）生成为单文件本地 HTML 工具 agent_memory_inspector.html。页面展示 8 条 memory events、9 条 structured facts、8 个 memory chunks、9/9 场景测试通过、敏感信息过滤前后对比、recall 命中内容及 retrieval 类型与分数、跨 session 记忆连续性。模型先读取现有代码和测试输出，检索 Letta、LangSmith 等工具展示方式后编写代码。测试环境：Cursor Agent + step-3.7-flash，本地 HTML 输出。

AYi@AYi_AInotes · 6月9日77

Claude Opus 4.8 是目前最好的编码模型，这件事应该没啥太大争议了，我自己跑了这么久体感也是这样。 Cognition（Devin 的公司）刚发布的 FrontierCode 基准测试，彻底改变了 AI 编程能力的评判标准：不再只看“代码能不能跑过测试”，核心看看“维护者会不会愿意把这段代码合并进真实项目”。以前的基准有多离谱？（黑人问号脸.jpg）以前最火的评测叫 SWE-Bench，还有 TerminalBench 等， • 模型只要让测试通过就算“解决”了。 • 但 METR_Evals 研究发现：超过一半通过测试的代码，其实是不可维护的垃圾代码（slop）——风格混乱、改动范围失控、埋技术债、违反项目规范。 • 真实维护者看到后根本不会 merge（合并）。结果就是：基准分数虚高，实际落地时却一塌糊涂，说白了就是让模型学会了考试作弊，而不是真正写好代码🤣 Opus 4.8最强，但 Cognition 刚发的 FrontierCode 给这个结论加了一层我之前没想到过的限定词：最好的模型，离写出别人愿意维护的代码，还有很远的距离。以前的基准只看测试过没过，模型学会的是刷分，而不是写代码。有人查过，超过一半通过测试的 PR 其实是不可维护的垃圾， FrontierCode 换了一个完全不同的问法，二十多个顶级开源维护者，手搓了一百五十个任务，每个任务搭进去四十多个小时。不看测试过没过，主要看代码风格、改动范围、回归风险、测试本身写得好不好，三千多条规则盯着，最后只问一句：如果你是维护者，这个 PR 你合不合。 Opus 4.8 在最难那档拿了 13.4%。GPT-5.5 是 6.3%，其他模型大多在 1% 到 5%。 13.4% 是第一名，但这个第一名意味着最难的那类真实任务里，十次里有将近九次，它的代码经不起一个有经验的维护者看一眼。这就是这个基准最诚实的地方，它没说 Opus 4.8 不行，只是把尺子换了，第一名的成绩单看起来也完全不一样了，以前的尺子量的是你能不能跑，现在的尺子量的是我愿不愿意跟你共事，而这是两件事。

译Cognition 发布 FrontierCode 基准测试，重新定义 AI 编程评估：由 20 多位顶级开源维护者手工制作 150 个任务（每个耗时 40+ 小时），依据 3000 多条规则判断维护者是否愿意合并代码。该基准指出 SWE-Bench 等超半数通过测试的代码实为不可维护的垃圾。结果中 Claude Opus 4.8 在最高难度档获 13.4%，GPT-5.5 为 6.3%，其余模型 1%–5%。这意味着即便最强模型，近九成代码仍无法通过有经验维护者审核。

meng shao@shao__meng · 6月9日72

Cognition 推出「FrontierCode」：把 Coding 评估标准，从可用，提升到高质量、可合并！评估结果 Top2：Claude Opus 4.8、GPT-5.5 https://cognition.ai/blog/frontier-code FrontierCode 评估内容规模与结构： · 150 个任务，来自 36 个 flagship 开源仓库 · 20+ 维护者参与，每任务投入 40+ 小时 · 三层嵌套难度：Extended（150）→ Main（100 最难）→ Diamond（50 最难）两个核心指标： · Pass rate：通过全部 blocker 标准（维护者眼中的 hard stop） · Score：rubric 加权得分；任一 blocker 失败则 score = 0 评测体系：不止 unit test FrontierCode 沿六个维度评估 mergeability： · 行为正确性 — 是否解决问题 · 回归安全 — 是否破坏现有功能 · 机械整洁 — build / lint / style 是否通过 · 测试质量 — agent 写的测试是否真测到行为 · Scope 纪律 — 是否只改该改的 · 代码质量 — 风格、设计模式、可读性、仓库惯例三种较新的 grading 方法： · Reverse-classical：把 agent 写的测试跑在未修复的base commit 上，必须 fail —— 证明测试有意义 · Scope：文件边界、diff 大小、语义局部性（如是否只改某个函数内） · Adaptive classical grading（mutagent）：用 LLM 微调测试或应用代码，对齐 agent 的实现细节，在保持确定性的同时允许多种合法解法 Criteria 分 blocker（不通过就不能 merge）和 non-blocker（影响 score，但不一票否决）。评估结果：前沿模型仍远未饱和 · Diamond 子集：Claude Opus 4.8：13.4% score；GPT-5.5：6.3%；Gemini 3.1 Pro：4.7% · Main 子集：Opus 4.8：34.3% · Extended 子集：Opus 4.8：51.8% 几个值得注意的点： · Diamond 几乎未被“刷满” —— 最强模型也只有 13.4%，说明高难度子集仍有大量 headroom · 闭源 vs 开源差距大：最佳开源 Kimi K2.6 在 Diamond 仅 3.8% · 成本 vs 能力：GPT-5.5 分数低于 Opus，但 token 用量约为其 1/4，性价比更优

译Cognition 发布 FrontierCode，含 150 个任务（来自 36 个开源仓库，每任务 40+ 小时），按难度分 Extended/Main/Diamond 三层。沿行为正确性、回归安全等六维度衡量 mergeability，指标为 Pass rate 与 Score。Diamond 子集最高分：Claude Opus 4.8 达 13.4%，GPT-5.5 为 6.3%，Gemini 3.1 Pro 4.7%；Main 子集 Opus 4.8 为 34.3%。开源最佳 Kimi K2.6 仅 3.8%。GPT-5.5 token 用量约为 Opus 四分之一，性价比更优。

swyx@swyx · 6月9日62

It's finally out!!! @METR_Evals found that more than half of SWEBench results is unmergeable slop. FrontierCode represents over 1000+ hours of maintainer validated software engineering work most frontier models cannot yet solve, much less solve with high quality. Cog had IOI Gold medalists and top code maintainers Look At The Data — FrontierCode includes 3000+ rubrics covering code quality and anticheat reward hacking plaguing other benchmarks. FC Diamond is so hard that Opus 4.8 scores 13.8%. Three eras of AI coding : Three eras of benchmarks 2021 • Autocomplete : HumanEval 2023 • Passing Tests: SWEBench, TerminalBench 2026 • Maintainable Code: FrontierCode to me the most beautiful chart when I requested a special historical run into all extant old models, the data was finding that the easiest third of FC tasks (in FC Extended) were rapidlly and suddenly solved over late 2025 - Opus almost doubled from a 41% pass rate to 74% in 4 months. This describes the "WTF happened in Dec 2025" vibe shift that a lot of folks from @dhh to @karpathy have called out: it is the difference between getting 95% success in 2 rerolls vs 6, making it finally feasible to go up the next layer of abstraction in agentic coding, eg @GeoffreyHuntley's ralph loops or @bcherny's /goals or @steipete's "loops that prompt your agents" without fearing too much that things go off the rails. My guess: as AI accelerates from here, each FrontierCode tier will saturate in sequence, hopefully ~annually. I've already asked the team to prepare FrontierCode 2027.... The old mountains will be destroyed. Their rubble becomes regolith. And from that regolith, the next model forest grows. Circle of life.

译Cognition 发布 FrontierCode 编码评估，每任务由顶级开源维护者花费 40+ 小时编写。METR 发现 SWEBench 超一半结果为不可合并的垃圾代码。FrontierCode 含 3000+ 评分标准，首次衡量代码是否可合并。最高难度 FC Diamond 上，Opus 4.8 仅得 13.8%。在 FC Extended 最易任务中，Opus 在 2025 年底 4 个月内从 41% 提升至 74%，标志 AI 编码进入"可维护代码"时代。

Artificial Analysis@ArtificialAnlys · 6月9日68

Grok debuts grok-imagine-video-1.5-preview, achieving #2 in Image to Video (With Audio) in the Artificial Analysis Video Arena, behind only ByteDance's Seedance 2.0! grok-imagine-video-1.5-preview is @xAI's latest video generation model, currently supporting only Image to Video with native audio, and durations up to 15s. It ranks #2 in the Image to Video (With Audio) Leaderboard, trailing only ByteDance's Seedance 2.0. In the Without Audio Leaderboard it places #3, behind Seedance 2.0 and xAI's own grok-imagine-video, which it performs very closely to. grok-imagine-video-1.5-preview costs $8.40 per minute of generated video, and is available now via xAI's API, with a broader rollout across the Grok app and X in progress. Congratulations to @xAI and @elonmusk on the release! See below for comparisons between grok-imagine-video-1.5-preview and other leading models in the Artificial Analysis Video Arena 🧵

译xAI推出视频生成模型grok-imagine-video-1.5-preview，目前在Artificial Analysis Video Arena的Image to Video (With Audio)排行榜中排名第二，仅次于字节跳动Seedance 2.0。该模型支持图像转视频并原生生成音频，最长可生成15秒视频。在无音频排行榜中位列第三，紧随Seedance 2.0和自家的grok-imagine-video。模型定价为每分钟视频$8.40，现已通过xAI API提供，并将逐步在Grok app和X上线。

Artificial Analysis@ArtificialAnlys · 6月9日59

MiniMax-M3 scores 55 on the Artificial Analysis Intelligence Index. Once the weights are released, it will be the leading open weights model M3 is @MiniMax_AI's first multimodal M-series model, adding image and video input and a 1M token context window over the text-only MiniMax-M2.7 (50). At 55 on the Intelligence Index it sits just ahead of open weights peers Kimi K2.6 (54) and MiMo-V2.5-Pro (54). MiniMax has noted they plan to release the weights within ~10 days. When MiniMax released the weights for M2.7, it was under a commercially restricted license. Key takeaways: ➤ MiniMax-M3 improves on MiniMax-M2.7 across most evaluations. HLE +9 points (28% to 37%), GPQA Diamond +6 (87% to 93%), AA-LCR +5 (69% to 74%), IFBench +7 (76% to 83%), and CritPt +3 (1% to 4%), with a small regression on SciCode (47% to 45%) ➤ M3 scores ~1670 on GDPval-AA, behind Claude Opus 4.8 (max, 1890) and GPT-5.5 (xhigh, 1769), and level with Claude Sonnet 4.6 (max, 1676). GDPval-AA measures real-world tasks across 44 occupations and 9 industries ➤ Native multimodality, scoring ~80% on MMMU-Pro. Level with GPT-5.5 (xhigh, 79.9%) and Kimi K2.6 (79.4%), behind Gemini 3.5 Flash (high, 84.3%). Not all open weights models support native vision input ➤ On AA-Omniscience, heavy abstention drives both low hallucination and low accuracy. M3 attempts only 30.9% of questions, the lowest among current peers, yielding a low hallucination rate (16.1%) and low accuracy (15.0%) ➤ MiniMax-M3's token usage is close to M2.7's, using ~91M output tokens to run the Intelligence Index (~81M reasoning) versus ~87M (~79M reasoning), while scoring 5 points higher Key model details: ➤ Context window: 1M tokens, up from MiniMax-M2.7's 200K ➤ Pricing: $0.30/$1.20 per 1M input/output tokens up to 512K context, rising to $0.60/$2.40 for 512K to 1M context ➤ Weights: Not yet released. MiniMax has stated the weights will follow ➤ Availability: MiniMax first-party API, @SiliconFlowAI, @gmi_cloud, and @novita_labs

译MiniMax推出首个多模态M系列模型M3，支持图像/视频输入及1M token上下文窗口。在Artificial Analysis Intelligence Index上得55分，超越开源权重的Kimi K2.6和MiMo-V2.5-Pro（均54）。相比前代M2.7，HLE提升9点至37%，GPQA Diamond提升6点至93%，多项基准均有进步。原生多模态MMMU-Pro约80%与GPT-5.5持平。定价$0.30/$1.20/1M tokens（512K内），512K-1M翻倍。权重计划约10天内开源。

数字生命卡兹克@Khazix0918 · 6月8日64

http://x.com/i/article/2063827681960235009 # 今年高考，我让12个顶级AI一起考了语文和数学，结果有点意外。一年一度的高考季又到了。从上上周开始，就有很多朋友来问我，今年高考还测不测大模型考试了。测，肯定测。但是肯定要跟去年要有一些区别对吧，去年我只测了部分的数学题，今年要是还这么玩，那就太无聊了。所以，我想了想，今年不如整个大一点的活，让所有的顶级AI一起，来全面的考一下语文和数学，这两个，全都考。在所有AI都在发力代码和Agent能力的情况下，究竟谁的语文能力最高，我还是非常好奇的。这次的参赛模型呢，基本市面上主流的大模型我也都拉来了，基本都是大家的旗舰模型。国外基本就是大家熟悉的御三家，Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro。国内这边，我也尽量选了各家现在最能打的。千问3.7 max、文心Ernie 5.1、星火Spark X2、智谱GLM5.1、Kimi k2.6、MiniMax M3、DeepSeek V4 Pro、小米MiMo v2.5 Pro、混元3这些都有。让这些大模型，一起做了这两套卷子。而我肯定没有对语文和数学高考题目阅卷的能力，所以这次，我想了想，找身边的朋友们化了下缘，终于，也邀请到了4位有过类似阅卷经历的高中老师们，来跟我们一起整这个活。因为语文会稍微主观一点点，并且我们也不像真的高考一样有一些打分细则，所以我们邀请了3位语文老师来共同阅卷，让他们充分发挥，最后取平均分，这样会公平一点，所以最终是3位语文老师和1位数学老师。但是真的非常非常感谢几位老师，陪我们一直干到了凌晨，每个人几乎都认真批改了十二份的卷子。。。真的，无以为报。。。而卷子的挑选上，虽然也都是选用的全国一卷，这次会稍微有点特殊。因为语文这次比较可惜，等到晚上8点也没有等到完整版的卷子，所以只能最终使用中国考试官方发布的部分试题和参考答案上进行测试，满分大概是100分，最终分数会基于比例，再换算至150分。数学则是完整的真题试卷，就比较简单了。然后呢，为了保证这次AI高考的公平性，我们还是下了不少功夫做平衡的，限制了不少规则： 1. 使用API调用各个模型，都开thinking，不限制最长的token数，所有的工具调用都强行禁止，像什么代码推理、网页搜索什么的都关掉了。 2. 除了讯飞星火、百度，其他10家统一走OpenRouter调用，这样可以保证最公平公正。 3. 模型的输入，语文和数学都采取了通过LaTeX格式纯文本输入的方式。数学本来我们打算是分成多模态和纯文本赛道的，但是真题一出来之后，发现只有一道题，也就是立体几何那道题带图形。但题干其实就完全包含了这个图形的所有信息，没有必要，所以就改成了全部都通过LaTeX格式输入。虽然PDF转LaTeX格式这一步是AI做的，但是让它转了之后，我也同样写了一个LaTeX编译器的脚本，它会在左边放上原本的题目，右边是LaTeX数据编译后的最终题目，方便我和老师们进行核对，在准确性上，我们还是花了一些力气的。然后我们也开发了一个自己的考试脚本，我们只需要把题目丢进去，脚本就会自动调 API，自动让模型作答，自动把客观题判掉，主观题再送到我搭的在线阅卷平台里，让真人老师盲评。考试的Prompt按照下面的设置给模型。客观题只是单纯限制它的格式输出，方便我的脚本对客观题进行打分，不做任何的引导。主观题就直接把裸题给模型丢过去让他作答。以及在数学的填空题上面，也是让它根据数值打分，不是根据格式打分。因为填空题容易出现，在分数或者说有根号的情况下，会有不同的写法，同一个数值会有不同的写法。所以这次在脚本中也是有格外注意这一点。反正作答上我们尽量确保要公平、公平再公平，客观、客观再客观。最后，模型输出的所有的结果，我们又开发了一个阅卷网站，供我们的4位老师们进行阅卷和评分。老师使用自己的名字，登进去之后，看到的每份卷子上面只有一个代号。卷ABCD巴拉巴拉。这样的话，老师并不知道这道卷子是哪一个模型做的答，也会避免一些前置的刻板印象带来一些阅卷上的影响。老师可以随意选择一套卷子开始阅卷，然后里面的打分界面是这样的。直接在里面逐题批改。还可以写上自己的评语。真的，老师们特别辛苦，因为语文的卷子迟迟不出最终版，所以我们最后只能用部分版来考试，几位老师都生生的阅卷到晚上11点以后了。向老师们致敬。最后，在经历了将近12个小时的奋战之后，我们的12位大模型的考试分数，终于出炉了。他们，是这样的。这里我提前叠个甲，这个分数和排名，只是我们基于自己的体系做题出来并且由老师们主观评选出来的，而且只跟语文和数学做题有关，跟大家现在讨论的代码和Agnet能力无关，且可能会展示部分的人类偏好，排名与分数仅供娱乐参考，不代表任何指向。这里面有几个让我挺意外的地方。先看总分，第一名MiMo v2.5 Pro，256.3分。第二名Kimi k2.6，256.29分。差了0.01分。我把语文的评分单独拎出来看了下，这里注意一下，因为语文真题目前全部的还没出来，所以现在用的是部分的题集合成的101分版本，最后折算成150分制的，所以下面你看到的总分其实都是101分制的。要知道我们测评的语文卷子只有一道客观选择题，其他全是主观题，再加上有作文的存在，换算到实际评分上，可能就是某位语文老师在某道主观题上多给了1分的区别。往下看从第三名到第九名，Claude Opus 4.8，一直到GLM 5.1和Gemini 3.1 Pro并列的252.78，7个模型之间的差距仅仅在2分。可以说，至少在这两套高考卷子上的表现，前面这9个顶级的AI大模型模型几乎真的都拉不开差距了，分差极小。看完了总分，再来看看单科的成绩。你会发现，我们的语文状元在3位老师盲测中，由GLM5.1和Gemini 3.1 Pro共同摘夺桂冠，但是在数学上又有点偏科，而且几乎都是兄弟肩并肩，我的脑子里已经出现了中学班上某一个同学的样子了。。。反过来的例子也有，DeepSeek V4 Pro，和MiMo、ERNIE 5.1三家并列数学最高分，但语文又奇低。。。坦率的讲，这其实不太符合我对DeepSeek强世界知识的印象。我把语文的评分单独拎出来看了下，这里注意一下，因为语文真题目前全部的还没出来，所以现在用的是部分的题集合成的101分版本，最后折算成150分制的，所以下面你看到的总分其实都是101分制的发现DeepSeek的作文，属于拉完了。最后一位老师手比较松，虽然打出的分数是49分，但是在他过去的打分中，其实也不算高了。他们的评语其实也都非常的有意思。所以他们一改完卷，我也去认真看了看他们所有的评语。其实三位老师从给分上看，是能看出来他们有各自的偏好，但是在他们的评语有一个共同点。他们很在意高考作文的可评分结构。评语里会高频出现文体不清，文章结构不够清晰，观点不够清晰明确，论证不充分，时代关联不足等等评语。比如这一篇所有模型中得分最高的，由GLM 5.1写的作文，就有两位老师都提出了文章结构不够清晰的毛病。作文原文我也放在这里了，大家可以在评论区评一评。语文大概就是这样，我们再看看数学的得分明细。你会发现几乎所有的模型，其实没啥大的分差。我也从数学老师那里得到了非常积极的反馈，刚改完前面几个大题，他就在很兴奋的跟我说，发现正确率挺高的，基本都是满分。不过唯一一道让大家全军覆没的，就是填空题的最后一题。懂的人可以来说一说这是个什么难度，反正我不太懂= = 还有一个有意思的就是，我在让Opus 4.8跑数学最后一道大题的时候，他莫名其妙的卡死了很多很多轮。。。不太有意思的就是，我忘记它一直在重试，导致我OpenRouter上为数不多的余额全给耗光了。。。不过最后好歹还是搞出来了。以上，大概就是这次AI高考的结果，跟我最开始预期的，还真的是有点区别。我又做了一下各家的位置图，大家可以看看。真的是情理之中，又是预料之外。还挺好玩的。忽然又想起，2023年，我第一次拿高考题去测AI。当时是让ChatGPT去写高考作文。那会儿GPT-4还是最能打的，国产模型甚至都还没有几个。 2024年，国产也开始卷起来了，但还是有很多哭笑不得的翻车。去年2025那次测完，有几个模型的数学水平已经够上一本线了。今年是2026。四年了。也算是见证了那好多好多个模型的浮沉。我们自己也在变，23年的时候，只会写个作文，去年测试，还是人工复制粘贴到十几个大模型的官网里面去测试，不断的roll。今年，写批量脚本，写LaTeX转译，请高考阅卷老师们助阵，又为他们徒手开发了阅卷网站。我当然也可以随手测一下整个活，但是想了想，这几年，在这个选题上，我觉得还是要尽可能的保证客观和公平。因为，这是高考。这两个字，在中国，承载的东西太多也太厚重了。做阅卷网站的时候，我一直在纠结用什么主意象，最后选了凤凰花。六月的凤凰花开得正盛，每年都准时赶在这个节点上，送走一届又一届的人。最后。我想用最近一段对我非常有感触的话来结尾，它来自《燕云十六声》最近更新的青州地图的最后的任务，当一众学子即将毕业之时，文津馆文元林险生对大家说： “你们，自天南地北负笈而来，今日散去，又是去往天南地北，此后山长水远，很多人将不复相见了。此去，必有风霜凛冽之时，愿诸君，乾坤既大，草木尤青，本心择路，笃志前行。各位，一路顺风。

译今年高考，12个国内外旗舰大模型（Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro、千问3.7 max、文心Ernie 5.1、星火Spark X2、智谱GLM5.1、Kimi k2.6、MiniMax M3、DeepSeek V4 Pro、小米MiMo v2.5 Pro、混元3）参加语文和数学全国一卷测试。采用API调用、禁止工具、LaTeX纯文本输入，4位高中老师盲评阅卷。总分第一：MiMo v2.5 Pro（256.3分），第二Kimi k2.6（256.29分），仅差0.01分。语文最高：GLM5.1和Gemini 3.1 Pro并列；数学最高：DeepSeek V4 Pro、MiMo、ERNIE 5.1并列。前九名模型总分差距仅2分，数学主观题正确率高，唯填空题最后一题全军覆没。作文评分看重结构清晰度与时代关联。

Rohan Paul@rohanpaul_ai · 6月8日56

Strong AI agents still struggle with long research work because they often fail to keep testing and improving. New Stanford, MIT, NVIDIA, Google and other top labs paper shows shows that today’s strongest research agents win less by brilliance than by refusing to stop testing. The paper proposes AutoLab, a benchmark with 36 tasks where each agent starts from working but weak code and must make it better within a fixed time limit. The tasks cover system speedups, puzzles, model development, and CUDA kernel work, so the test is not just about writing code once but about managing a long work session. The authors tested 17 strong models and found that the best results did not mainly come from the first idea being good, but from the model staying active, testing often, and using feedback well. The best first idea was not the strongest predictor of success; persistence was. Claude Opus 4.6 led the benchmark not because it always guessed the right move immediately, but because it kept benchmarking and folding empirical feedback into the next attempt. Several other frontier models failed in a more revealing way: they either quit early with time left on the clock, or thought so long that they ran out of time before submitting anything useful. ---- Link – arxiv. org/abs/2606.05080 Title: "AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks?"

译斯坦福、MIT、英伟达、谷歌等顶级实验室联合提出新基准 AutoLab，包含 36 个任务。每个任务中，智能体从可工作的弱代码起步，需在固定时间内迭代优化。任务涵盖系统加速、谜题、模型开发和 CUDA 内核。17 个前沿模型测试结果显示，成功的关键不是初版方案有多好，而是能否持续测试、频繁实验并利用实证反馈。Claude Opus 4.6 领跑基准，靠的是坚持迭代而非初始判断力，而其他前沿模型要么提前放弃，要么思考过久导致超时。

karminski-牙医@karminski3 · 6月8日58

ideogram-4 实测! Z-Image 的竞争对手来了? ideogram 刚刚发布了Ideogram 4文生图模型, 划重点, 这是个开放权重模型, 大小只有9.3B, 并且支持原生2K分辨率图片生成! 目前 reddit 上全都是 ideogram 4 的生成效果图, 于是我赶紧测了一波. 直接给大家带来我觉得跟这个模型风格最像的通义 Z-image-Turbo生成效果对比. 我的结论: #ideogram #ideogram4 #Nanobanana #文生图大模型

译ideogram发布Ideogram 4文生图模型，开放权重，仅9.3B参数，支持原生2K分辨率生成。作者将其与通义Z-image-Turbo生成效果对比，认为两者风格相似。

SemiAnalysis@SemiAnalysis_ · 6月8日57

NVIDIA's new Nemotron3 Ultra is defeated by Kimi K2.6 & GLM5.1 on coding tasks like TerminalBench, etc. In order to make the Global Nemotron Coalition training committee train frontier open models, Jensen should invite at least one of the following frontier ai labs to the committee: DeepSeek, MoonshotAI, MiniMax, Qwen, StepFun, zAI GLM.

译NVIDIA的新Nemotron3 Ultra在TerminalBench等编码任务上被Kimi K2.6和GLM5.1击败。为了让全球Nemotron联盟训练委员会训练前沿开源模型，黄仁勋应邀请至少以下一家前沿AI实验室加入委员会：DeepSeek、MoonshotAI、MiniMax、Qwen、StepFun、zAI GLM。

swyx@swyx · 6月8日43

releasing tmr - the biggest code eval launch of the year glad to have played a small part in defining the agenda for this very critical next phase in koding

译swyx 宣布明天将发布"今年最大的代码评测基准"。他在引用推文中提到，已有第二家初创公司基于他的播客内容开展销售和评测，并感慨播客直接或间接影响了许多人的职业路线。

Rohan Paul@rohanpaul_ai · 6月8日49

This paper tests whether today’s AI agents can build better AI agents without human design help. i.e. whether an AI can act more like an AI engineer. That means it must invent a strategy, write the agent code, test it, learn from failures, and improve the system without a human guiding every choice. Shows they are still weak at reliably building the systems that do tasks. Their benchmark, called Meta-Agent Challenge, gives an AI coding agent a safe workspace, a scoring API, limited time, and limited model calls, then asks it to create another agent that performs well on hidden test tasks. They tested this across 5 areas, including math, science questions, competitive programming, software bug fixing, and long terminal tasks. The main result is that current agents usually do not beat strong human-made agent setups, and the few good results mostly come from closed frontier models like Claude. Complete autonomy is not just tool use. It is budget awareness, failure recovery, restraint under pressure, and the discipline to change designs instead of polishing a bad one. Overall, Meta-Agent Challenge (MAC) suggests that today’s agents are not yet self-improving engineers. They are powerful executors with flashes of design judgment, still missing the boring reliability that makes engineering real. ---- Link – arxiv. org/abs/2606.04455 Title: "The Meta-Agent Challenge: Are Current Agents Capable of Autonomous Agent Development?"

译一项新研究提出Meta-Agent Challenge（MAC）基准，测试AI智能体能否在没有人类设计帮助的情况下自主构建更优智能体。智能体需在安全工作区内自行发明策略、编写代码、测试并从失败中学习。实验覆盖数学、科学问答、竞赛编程、代码修复和长终端任务5个领域。结果显示，当前智能体大多无法超越人工设计的强智能体系统，仅Claude等少数封闭前沿模型取得较好表现。研究认为，当前智能体更像是强大的执行者，而非具备可靠自改进能力的工程师。

宝玉@dotey · 6月7日54

这个确实，Deep Research 方面 Claude 做的不怎么样，ChatGPT 的 DeepResearch 做的最好，Gemini 也不错，胜在搜索能力强，通常我会用 ChatGPT 和 Gemini 一起做，然后对比结果

译宝玉 (@dotey) 对比各模型 Deep Research 表现：ChatGPT 的 DeepResearch 最好，Gemini 搜索能力强、表现也不错，Claude 做得很差。引用推文补充：在写代码、工程工作及需联网搜索数据并分析得出结论的任务上，Claude 的“5.5”版本远超 Opus，Opus 搜索能力几乎不可用。

MiniMax (official)@MiniMax_AI · 6月7日60

$0.07 for M3, $3.39 for Opus. Both caught 13 of 17 bugs. Really interesting breakdown from @kilocode Definitely worth the read

译对 Claude Opus 4.8 和 MiniMax M3 进行相同的代码审计：同一代码库、同一提示词，预先植入 17 个已知 bug。MiniMax M3 以 $0.07 抓到 13 个；最便宜的 Claude 运行同样抓到 13 个，花费 $1.30。MiniMax 表示这一对比非常有趣，绝对值得一读。

宝玉@dotey · 6月7日44

审美 Claude opus 4.8 > GPT 5，设计相关任务还是得 Opus

译审美 Claude opus 4.8 > GPT 5，设计相关任务还是得 Opus