6月18日

08:01

ginobefun@hongming731

智谱开源 GLM-5.2，Code Arena 全球可用模型第一，Solid 1M 无损上下文，FrontierSWE 仅比 Claude Opus 4.8 低 1%。OpenAI 将 GPT-5.4 接入智能化学 AI Maria，近乎自主优化 Chan-Lam 偶联反应，平均产率从 16.6% 升至 25.2%。MiniMax 创始人闫俊杰称 M2.7 消耗量超预期 10 倍，M3 目标让用户无限使用 Sonnet/Opus 级别模型。

MCP/工具其他开源生态

07:44

Andrew Milich@milichab

尝试在代码审查中使用 Grok Build 0.1

Kilo: http://x.com/i/article/2067331577449791488

大佬观点编码

07:19

DogeDesigner@cb_doge

Grok Imagine 1.5 太棒了！！ 🔥

xAI 图像生成大佬观点

07:19

Artificial Analysis@ArtificialAnlys

Claude Fable 5 成本最高：运行 AI 智能指数需 $6.2K

Artificial Analysis 将 Claude Fable 5 列为有史以来基准测试成本最高的模型，运行其 Intelligence Index 需 $6.2K，是第二贵模型 Opus 4.8（$3.7K）的 1.7 倍、GPT-5.5（$2.9K）的 2.2 倍。该模型 Intelligence Index 得分 60，领先 Opus 4.8（56）和 GPT-5.5（55）。定价 $10/$50 每百万输入/输出 tokens，为 Opus 4.8 的 2 倍，仅低于 GPT-5.5 Pro（$30/$180）。缓存价格同步翻倍：缓存读取 $1/M、写入 $12.5/M，而 Opus 4.8 分别为 $0.5/$6.25。Intelligence Index 成本前三高的模型目前均为 Claude。

Anthropic 推理评测/基准

07:14

MiniMax (official)@MiniMax_AI

MiniMax 官方转发用户 @coldopn 的体验：前沿模型已不再仅限于 Anthropic 和 OpenAI。通过将一张插图截图输入 Kilo Code，切换至 MiniMax M3 模型，仅凭一句"将此截图动画化为可工作的黑洞模拟器"的提示词，M3 即生成了完整的黑洞模拟器。整个推理过程仅花费 0.53 美元，展现了 M3 强大的视觉理解与生成能力。

Brian Turcotte: Frontier doesn't only mean Anthropic and OpenAI anymore. I built this black hole simulator by simply dropping an illustr...

GitHub 多模态编码评测/基准

07:13

Hacker News 热门（buzzing.cc 中文翻译）

一个机器人正朝你飞奔而来：你想让它运行在Claude还是Grok上？

实验将11个大语言模型放入自建2D吃鸡游戏中，进行30轮对战。Grok 4.1 Fast以13胜（每胜0.97美元）夺冠，第二名Claude Sonnet 4.6仅5胜（每胜26.78美元），成本相差27倍。GPT 5.4击杀数最高（38次），但仅获2胜排第二。GPT 5.4-mini、DeepSeek 4 Flash和Kimi K2.6共花费57美元，零胜场。游戏包含武器、护甲、载具及缩圈机制，模型可编辑自身人格和记忆文件，彼此仅以字母代称。传统基准未能预测胜负，揭示出模型在“获胜”与“杀人”能力之外的决策差异。

智能体 Anthropic xAI 评测/基准

06:49

宝玉@dotey

AI邮件助手的内外循环：自进化写作风格

一篇介绍AI自动回复邮件的“内循环”与“外循环”设计的文章。内循环是定时任务每2小时检查新邮件，自动检索相关上下文生成草稿但不发送，供用户手动修改后发出；外循环则是自进化的Skill，每次用户对草稿的修改都会被Agent记录，用于不断优化写作风格Skill，使其生成内容更符合用户习惯。作者类比了自己以前手动提炼写作风格Skill的做法，指出该方案将迭代过程自动化，形成持续改进的闭环。

Gabriel Chua: http://x.com/i/article/2067086994455601152

智能体大佬观点