全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「评测/基准」清除

6月17日周三

08:06Artificial Analysis20AI指数v4.1发布并启动旧金山活动

08:00HuggingFace Daily Papers（社区热门论文）53VLA是否还记得基础知识？衡量视觉-语言-动作模型中常识与世界知识的保留程度

08:00HuggingFace Daily Papers（社区热门论文）48WorldLines：长时程有状态具身智能体的基准与建模

06:35Ethan Mollick29Ethan Mollick 批评 Intelligence Index v4.1 基准更新

05:56Chubby♨️69GLM-5.2登顶Design Arena，开源回归

03:55elvis56GLM-5.2登顶Design Arena，超越Claude Fable 5

03:53MiniMax (official)25MiniMax M3 世界杯预测独中平局

03:35Ethan Mollick32GLM-5.2 Deep Think Max 对比 GPT-5.2

02:33Rohan Paul72新论文揭示大推理模型存在"生产-评估差距"

01:32OpenAI31OpenAI 评估团队谈模型评估重要性

6月16日周二

23:48fofr24Omni同样擅长文本处理

19:59The Decoder：AI News（RSS）43爱沙尼亚语言研究所发布基准测试：衡量AI模型对俄罗斯宣传的易感性

13:58OpenRouter：Announcements（RSS）75精选免费LLM API比较：速率限制、模型与真实成本（2026）

13:00IT之家（RSS）66谷歌更新Android Bench榜单：Gemini 3.5 Flash成本最贵，约为DeepSeek V4 Flash的17.5倍

10:21公众号：数字生命卡兹克69精选毕业生陷入AI检测荒诞循环：手写摘要被判99%AI率，AI写部分0%

10:20Artificial Analysis60Artificial Analysis Intelligence Index v4.1 发布：转向智能体任务评测

09:59Berkeley RDI：Blog（AI 安全与评测）83精选伯克利RDI发布Agents' Last Exam基准

09:19meng shao69Cua 和 Snorkel AI 联合发布 Cua-Bench：首个公开 KiCad 任务数据集

08:37Epoch AI47Claude Fable 5 在ECI以161分领先GPT-5.5 Pro

08:00HuggingFace Daily Papers（社区热门论文）53LegalHalluLens：面向可信法律AI的类型化幻觉审计与校准多智能体辩论

08:00HuggingFace Daily Papers（社区热门论文）53CEO-Bench：智能体能玩长期游戏吗？

00:59AYi68Seedance 2.0比Grok贵近4倍，视频生成质量却不输

00:13Rohan Paul54Heidi Evidence 小模型匹配 Sonnet 4.6 临床搜索质量

00:00Berkeley RDI：Blog（AI 安全与评测）68精选SageCTF：最强大CTF挑战AI智能体

6月15日周一

23:42Ethan Mollick53AI数学测试解7/10难题仍被指未达标

21:18Chubby♨️45AI编辑器与专业剪辑师4小时剪辑对比：84%一致

08:00HuggingFace Daily Papers（社区热门论文）37CoffeeBench：长期异构多智能体经济系统中的大语言模型智能体基准测试

08:00HuggingFace Daily Papers（社区热门论文）53MyPCBench：面向个性化电脑使用智能体的基准测试

07:45Ethan Mollick47新论文表明通用模型胜专业医疗AI

01:59Hacker News 热门（buzzing.cc 中文翻译）72精选里约热内卢市政府 AI 模型 Rio3.5 在基准测试中击败 Qwen3.7

6月14日周日

23:44Rohan Paul68德克萨斯大学论文：AI 智能体部署后可靠性随时间下降

17:11The Decoder：AI News（RSS）59AI编码智能体虽能定位正确文件，但常错过关键代码行，研究显示

08:00HuggingFace Daily Papers（社区热门论文）53谁在翻转？自我与跨模型反驳揭示LLM答案不稳定性

01:10Rohan Paul65Adaline 2.0 发布：AI 智能体自我改进层

6月13日周六

21:47数字生命卡兹克71实测GLM-5.2：国产Coding模型新高峰

21:30公众号：数字生命卡兹克59实测GLM-5.2，国产Coding模型的又一座新高峰。

20:27The Verge：AI（RSS）60苹果新 AI 照片编辑工具大体可用，有利有弊

18:33The Decoder：AI News（RSS）35Claude Fable 5 在 FrontierMath 最难题目上超越 GPT-5.5 13 个百分点

17:54公众号：龙猫LongCat（美团）54WBench：面向交互式视频世界模型的首个系统性多轮评测基准

17:54公众号：卡尔的AI沃茨5813个顶级AI重考2026高考数学，咋还没一个拿到满分

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月17日

08:06

Artificial Analysis@ArtificialAnlys

20

为庆祝 Artificial Analysis Intelligence Index v4.1 发布，我们将于 6 月 29 日在旧金山汇聚前沿 AI 领域的研究人员、工程师和构建者。欢迎加入我们，共度一个关于 AI 评估、模型智能以及成本、速度与性能之间权衡的晚间讨论。申请参加 👇 https://luma.com/qdl9mr2e

08:00

HuggingFace Daily Papers（社区热门论文）

53

VLA是否还记得基础知识？衡量视觉-语言-动作模型中常识与世界知识的保留程度

为评估视觉-语言-动作模型微调后是否保留常识与事实知识，研究提出Act2Answer轻量协议，将知识评测转为动作答题：智能体通过单次物体放置动作选择答案，获得低控制偏差的动作接地成功率。在涵盖多种常识类别的测试集上，对7个VLA模型与9个VLM基线进行排名。结果显示，VLA在简单概念上表现稳健，但在语义丰富类别上与源VLM差距较大；VQA共训练与更好知识保留相关；答案相关信号在VLA中层最强，上层衰减。

具身智能论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

48

WorldLines：长时程有状态具身智能体的基准与建模

WorldLines是一个项目驱动的长时程家庭辅助具身智能体基准。它构建包含对话、动作、执行反馈、物体与设备状态变化的长期家庭轨迹，并转化为证据关联样本用于Memory QA和具身任务规划。同时提出ObsMem，一个基于观察者的记忆框架，维护可见性感知记忆和动作原生状态痕迹以支持状态感知决策。实验揭示了部分可观测性、被覆盖的世界状态及将长期记忆转化为具身规划方面的持续挑战，而ObsMem为此场景提供了更强的参考架构。

具身智能论文/研究评测/基准

06:35

Ethan Mollick@emollick

29

新版 GDPval-AA v2 成为 Intelligence Index v4.1 权重最高的评估，升级将 ELO 基线重置为人类 1000 分，引入前沿模型法官轮换面板，回合上限从 100 提升至 250。Claude Fable 5（有回退）以 1818 分领先，但当前不可用；Claude Opus 4.8 得 1638 分，GPT-5.5 （xhigh）得 1531 分。Ethan Mollick 批评：AI 评估 AI 在取自另一闭卷基准的公开问题上表现意义有限，且人类 ELO 设定方式不透明，认为更新前后均非良好基准。

Artificial Analysis: GDPval-AA v2 is the highest weighted evaluation in the Intelligence Index v4.1. The upgrade re-baselines ELO to human pe...

大佬观点评测/基准

05:56

Chubby♨️@kimmonismus

69

GLM-5.2 以 Elo 1360 在 Design Arena 代码类别中跃居第一，超越现已下架的 Claude Fable 5，且权重开放。这是自该榜单启动以来代码类别的最高 Elo 分数之一，较之前提升了 4 个名次和 27 Elo 分。 Open Source is so back. Let's freaking go

Design Arena: BREAKING: GLM-5.2 is now 1st on Design Arena. With an Elo of 1360, GLM-5.2 has jumped ahead of the now unavailable Claud...

开源生态编码评测/基准

03:55

elvis@omarsar0

56

智谱发布GLM-5.2，在Design Arena评测中跃居第1名，Elo评分1360，超过已下架的Claude Fable 5，提升4个名次和27 Elo分。该模型为开源权重。DAIR.AI创始人Elvis Saravia表示若属实则令人印象深刻，并称已在内部用例测试，后续将汇报结果。

Design Arena: BREAKING: GLM-5.2 is now 1st on Design Arena. With an Elo of 1360, GLM-5.2 has jumped ahead of the now unavailable Claud...

模型发布编码评测/基准

03:53

MiniMax (official)@MiniMax_AI

25

MiniMax 的 M3 模型在卡塔尔 vs 瑞士的世界杯比赛中正确预测平局，成为五个模型和一位人类预测中唯一正确的选择。Kilo CLI 分析显示，该基准刻意排除博彩赔率，因此瑞士 64% 的市场赔率未被纳入。M3 依据双方相同的 WWDLW 记录、卡塔尔更高的原始评分以及瑞士更强的联赛水平做出判断。主推文同时提问"FWC-Bench when？"，暗示可能推出新基准测试。

Kilo: Qatar vs Switzerland. Five models and one human predicted. Everyone took a side. @MiniMax_AI's M3 took the draw, and it ...

推理评测/基准

03:35

Ethan Mollick@emollick

32

Ethan Mollick 将 7 个月前的 GPT-5.2 与新款 GLM-5.2 Deep Think Max 进行对比，用同一提示词要求生成可运行于 Twigl 的着色器（描绘哥特塔楼无限城市半淹于风暴海洋）。GLM-5.2 出现了若干错误。此前 Ethan 曾提前体验 GPT-5.2，并展示了 GPT-5.2 Pro 单次生成的该着色器版本。

Ethan Mollick: Had early access to GPT-5.2. Its an impressive model. Here is GPT 5.2 Pro's version of "create a visually interesting sh...

多模态评测/基准

02:33

Rohan Paul@rohanpaul_ai

72

新论文揭示大推理模型存在"生产-评估差距"

一篇新论文揭示了大型推理模型的“生产-评估差距”：模型能解出数学题并得到正确答案，但在评估他人推理时，即便逻辑有缺失步骤、前提颠倒或循环论证等明显缺陷，只要最终答案正确，模型也往往判定为合格。作者提出VAIR（有效答案-无效推理）基准验证该问题。这种现象称为“答案确认偏差”，模型仅凭正确答案而非有效逻辑评判推理。与人类相比，模型从解题到评估的能力下降更显著，表明AI可能成为制造看似合理论点的自信引擎，而非真正理解自身产出的推理引擎。

安全/对齐推理论文/研究评测/基准

01:32

OpenAI@OpenAI

31

我们来聊聊评估。我们一直在寻找更好的方法来衡量和预测模型进展，尤其是在基准测试逐渐饱和或被钻空子的时候。领导我们前沿评估团队的 @tejalpatwardhan 与 @andrewmayne 谈到了评估为何重要，以及接下来模型需要被评判的标准。

OpenAI 大佬观点评测/基准

6月16日

23:48

fofr@fofrAI

24

你知道吗，Omni 也擅长文本处理。

OpenAI 多模态评测/基准

19:59

The Decoder：AI News（RSS）

43

爱沙尼亚语言研究所发布基准测试：衡量AI模型对俄罗斯宣传的易感性

爱沙尼亚语言研究所发布基准测试，用75个问题覆盖14种宣传叙事，以中立、偏颇和操纵三种措辞测试60个AI模型，评分1-5分（1分代表重复俄方话术）。Claude Opus 4.5作为评估模型。结果显示Anthropic的Claude模型居首，Nvidia Nemotron 3和阿里Qwen 3.6 Plus紧随，Mistral Medium 3.5排在底部三分之一。测试期间模型无网络搜索权限。结果与Newsguard研究一致：Mistral的持续性虚假信息率达36.67%，该公司正以200亿欧元估值谈判30亿欧元融资。

Anthropic 安全/对齐评测/基准

13:58

OpenRouter：Announcements（RSS）

精选75

免费LLM API比较：速率限制、模型与真实成本（2026）

13个平台提供免费LLM API，含永久免费层与试用额度。OpenRouter拥有20+免费模型，单密钥无需信用卡；Groq以约320 tokens/秒运行Llama 3.3 70B；Google AI Studio支持1M上下文；Mistral实验层约10亿token/月但需同意数据训练；Cerebras约1M token/天；GitHub Models提供GPT-4o、Claude 3.5 Sonnet等前沿模型。各免费层有速率限制、数据训练授权、上下文缩减等隐藏成本，建议早期测试2-3个方案并设置故障转移。

评测/基准部署/工程

推荐理由：免费 LLM API 不是免费的，这篇文章把 13 家平台的隐藏成本、速率限制和真实可用性都算清楚了，想省钱的开发者值得花五分钟看一遍。

13:00

IT之家（RSS）

66

谷歌更新Android Bench榜单：Gemini 3.5 Flash成本最贵，约为DeepSeek V4 Flash的17.5倍

谷歌更新Android Bench榜单，GPT-5.5以74分居首，GPT-5.4与Gemini 3.1 Pro Preview并列第二（72.4分），Claude Opus 4.7（68.7分）和Opus 4.6（66.6分）分列第四、第五。谷歌自家Gemini 3.5 Flash仅获63.7分排第六，平均Token消耗3.559亿，单次运行成本147.1美元，为榜单最贵模型。成本仅为其约1/3的Gemini 3.1 Pro Preview性价比更高。DeepSeek V4 Flash以52.7分排第12，单次运行成本仅8.4美元，后者成本仅为前者的1/17.5。

DeepSeek Google 编码评测/基准

10:21

公众号：数字生命卡兹克

精选69

毕业生陷入AI检测荒诞循环：手写摘要被判99%AI率，AI写部分0%

当前毕业生面临论文AIGC率检测荒诞困境。学生手写摘要被判定99%AI率，纯AI写部分却为0%。学校要求AIGC率不超40%，学生用Claude反复修改并花上百元检测费（维普20元/篇，知网/万方2元/千字符），最终降至36.1%。答辩时老师要求改回学术表达，AI率回升至37.21%。同一论文在不同平台检测结果差异巨大（48%、44%、59%）。部分平台提供降重收费服务，少数学校已改用AI使用声明表替代一刀切检测。

现象/趋势评测/基准

推荐理由：作者通过一个毕业生的真实经历，把AIGC检测的荒谬性扒得干净利落——这不是技术问题，是一刀切懒政的代价。看完你会理解为什么「证明你是人」比写论文更难。

10:20

Artificial Analysis@ArtificialAnlys

60

Artificial Analysis Intelligence Index v4.1 发布：转向智能体任务评测

Artificial Analysis 发布 Intelligence Index v4.1，转向智能体任务。升级 Terminal-Bench 2.1、τ³-Bench Banking、GDPval-AA v2（Elo 重基线、引入前沿模型评审、回合上限增至250），移除饱和的 IFBench。新增每任务成本、时间、输出 token 指标及缓存 token 影响。关键结果：Claude Fable 5（60分）领先但不可用；可用模型中 Claude Opus 4.8（max）56分居首，GPT-5.5（xhigh）55分。开源 DeepSeek V4 Pro 与 MiniMax M3 均44分。成本方面，Opus 4.8 每任务 $1.78，GPT-5.5 $0.99，DeepSeek V4 Pro 仅 $0.04。时间方面，Grok 4.3 最快（1.5分钟），Opus 4.8 需6.4分钟，GPT-5.5 需3.7分钟，Gemini 3.1 Pro Preview 以1.6分钟得46分。

智能体 Anthropic DeepSeek 推理

09:59

Berkeley RDI：Blog（AI 安全与评测）

精选83

伯克利RDI发布Agents' Last Exam基准

2026年6月，伯克利RDI发布Agents’ Last Exam（ALE）基准，包含1,500余项源于真实工作的任务，覆盖55个非体力职业。对Fable 5、GPT-5.5、Composer 2.5等前沿智能体的测评显示：在最困难层级成功率均为0%；整体任务表现接近，但单任务成本差异巨大（Fable 5约$15.70，GPT-5.5约$3.80，Composer 2.5约$1.33）。CLI子集ALE-CLI最佳通过率仅25.2%。主要失败模式是智能体未验证输出即宣称完成。数据集、代码及CLI子集已开源。

智能体 arXiv Hugging Face 开源生态

推荐理由：在Fable 5发布后，Berkeley的ALE基准首次大规模量化了agent在专业任务上的真实水平，最难任务0%成功率的结果值得所有押注agent落地的团队冷静下来。

09:19

meng shao@shao__meng

69

Cua 和 Snorkel AI 联合发布 Cua-Bench：首个公开 KiCad 任务数据集

Cua 与 Snorkel AI 联合发布 Cua-Bench，首个公开数据集聚焦电子设计工具 KiCad，含 25 道由执业电气工程师编写并复核的任务。测试中，GPT-5.5 完全通过 6/25（24%），Claude Sonnet 4.5 和 Haiku 4.5 各通过 5/25（20%）。所有成功任务均为局部修改，16 道从零搭建任务全部失败。瓶颈在执行层：导航开销大（~84%）、操作粒度过细（~84%）、视图控制混乱（~76%）、布线未完成（~72%）、自我验证不可靠。步数上限并非主因。根因分布：规划 ~40%、感知 ~22%、导航低效 ~19%、领域知识 ~11%、工具/API ~8%，全程零 API 错误。

Cua: 1/ Today we're launching Cua-Bench with @SnorkelAI: a benchmark for computer-use agents on professional software, open f...

智能体 Anthropic OpenAI 评测/基准

08:37

Epoch AI@EpochAIResearch

47

Claude Fable 5 在 Epoch Capabilities Index 上取得新高分161！这以1分优势击败了GPT-5.5 Pro，也是Anthropic一年多来首次在该指数上领先。

Anthropic OpenAI 推理评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

53

LegalHalluLens：面向可信法律AI的类型化幻觉审计与校准多智能体辩论

法律AI聚合幻觉率约52%，但掩盖了错误集中方向。LegalHalluLens审计框架包含：类型化幻觉档案（数字、时间、义务权利、事实四类）、风险方向指数（RDI）及校准辩论管线。在510份合同、249,252条款实例中，同一模型内义务/数字类与时间类幻觉率差距达38-40个百分点；两个均报告52%幻觉率的系统RDI可能相反。辩论管线将虚假检测减少45%，以4B参数匹配商业API。类型档案和RDI暴露隐藏失败模式，作为多智能体辩论校准输入。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

53

CEO-Bench：智能体能玩长期游戏吗？

CEO-Bench通过模拟初创公司500天运营，评估AI智能体在不确定性中规划、获取信息、适应变化和协调多目标的能力。智能体需通过Python接口管理定价、营销、预算等决策，并处理嘈杂数据库。最强模型（Claude Opus 4.8、GPT-5.5）虽能编写复杂代码预测现金流、挖掘客户偏好，但仅勉强使余额维持起始的100万美元以上，无法持续盈利。该基准首次衡量驱动长期自适应进展所需的智能。

智能体论文/研究评测/基准

00:59

AYi@AYi_AInotes

68

用户对比Seedance 2.0与Grok的视频生成效果，发现Seedance 2.0价格贵近4倍，质量却不相上下；仅用一句话提示词测试Grok对中国古装风格理解，结果超预期。引用推文指出，GPT Image 2加Grok的混合工作流性价比极高：SuperGrok月费30美元，目前有3个月67%优惠，单条短片几乎零边际成本。角色风格一致性由GPT Image 2把控，出图后丢进Grok做动态效果即可。

AYi: GPT Image 2 加 Grok简直是目前玩AI视频的性价比之王,而且grok还能给你加字幕,真的厉害,@grok bro你还藏了多少我不知道的? 自从Seedance一直涨价我就没续订会员了, 本来以为 Seedance 2.0 是当...

OpenAI xAI 多模态视频

00:13

Rohan Paul@rohanpaul_ai

54

Heidi Evidence 小模型匹配 Sonnet 4.6 临床搜索质量

临床搜索工具 Heidi Evidence 表示，六周前其自研小模型在临床搜索任务中匹配了前沿规模模型 Sonnet 4.6 的质量。方法是通过临床医生的偏好反馈训练，而非单纯扩大模型规模。在匿名测试中，医生面对同一医学问题、两个匿名答案，选择 Heidi 小模型答案的概率为 49.9%。Heidi 指出，医学领域的关键难点在于知道何时搜索、引用什么、说多少，以及模糊答案何时比不回答更糟。

Tom Kelly: There's been debate in the last couple days about whether general models beat specialized medical AI. It's the wrong que...

Anthropic 数据/训练评测/基准

00:00

Berkeley RDI：Blog（AI 安全与评测）

精选68

SageCTF：最强大CTF挑战AI智能体

UC Santa Barbara与UC Berkeley团队基于OpenSage框架构建了CTF专用智能体SageCTF。在DEF CON CTF 2026资格赛中，SageCTF以单人玩家身份尝试15道挑战，成功攻克7道、恢复8个flag，总计1,743分，排名前5%，超越全部自评“不使用AI”或“低AI”的175支团队。在50道近期CTF挑战的对比测试中，SageCTF以Claude-Opus-4.6为主模型，在相同预算（每道$200/10小时）下解出39道，而Claude Code仅解出13道，且Claude Code的解出全部被SageCTF覆盖。技术核心包括AI自生成拓扑、多智能体通信、分层记忆及多模型协同编排。

智能体推理论文/研究评测/基准

推荐理由：SageCTF 在 DEF CON CTF 排进前 5%，是 AI agent 在顶级安全竞赛中的首次重大突破。OpenSage 的自构建多智能体架构和十小时持续探索的能力，给做复杂推理工具的人提供了真参考。

6月15日

23:42

Ethan Mollick@emollick

53

奇怪的标题--我不确定解决10个极其困难的新问题中的7个就意味着AI"没有完成任务"，而15个月前大语言模型还不会做数学。但实际研究很有趣，揭示了AI在数学中的缺陷与成功。https://1stproof.org/assets/docs/report.pdf 【引用 @Nature】：人工智能经历了其最严谨的数学测试，然而它并未完成任务 https://go.nature.com/4oqlNk6

nature: Artificial intelligence has undergone its most scrupulous maths test yet, and it did not live up to the task https://go....

大佬观点推理评测/基准

21:18

Chubby♨️@kimmonismus

45

一款基于Premiere Pro重构的AI视频编辑器，与专业剪辑师共同剪辑同一4小时视频项目，两者84%的剪辑操作相同。AI编辑器可在数分钟内完成草稿，节省约60%的准备工作时间。最后约16%的差异点仍需要人类判断。该工具在Key & Peele、Beast Games等项目幕后剪辑师中进行了测试。

Tom Kim: We rebuilt Premiere Pro from scratch for AI agents. Not a toy that generates clips. A real editor that watches footage, ...

产品更新视频评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

37

CoffeeBench：长期异构多智能体经济系统中的大语言模型智能体基准测试

CoffeeBench评估大语言模型智能体在长期多智能体经济系统中的表现。模拟由两个农民、两个烘焙师和两个零售商组成的90天异构企业经济，每个智能体通过通信和交易最大化累计净收入。评测模型控制一个咖啡烘焙师，其余由固定参考智能体控制。测试多个开源和专有LLM，所有模型均优于不采取行动的被动基线，多数实现正净收入。表现更好的模型通信更频繁，而Claude Haiku 4.5出现空闲漂移失败模式，反复选择不作为。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

53

MyPCBench：面向个性化电脑使用智能体的基准测试

MyPCBench在预置17个模拟真实网页应用及完整桌面栈的Linux环境中，基于《办公室》角色Michael Scott单一画像生成184个任务，测试电脑使用智能体的个人助手能力。6款闭源与开源模型在同一“电脑+bash”工具界面下评测，最佳模型Claude Opus 4.6仅完全解决55.4%任务，是唯一超过50%的模型。失败集中在跨多应用与长轨迹任务。环境、任务集与智能体框架已开源。

智能体 arXiv 论文/研究评测/基准

07:45

Ethan Mollick@emollick

47

这是一条关于新论文辩论的优秀方法论线程，该论文表明通用模型能击败专业医疗AI（同时也很好地概述了医疗AI基准测试的挑战。）

Adam Rodman: The TL;DR who don't want to sit through a virtual lab meeting with me: "This study provides directional data about the r...

大佬观点评测/基准

01:59

Hacker News 热门（buzzing.cc 中文翻译）

精选72

里约热内卢市政府 AI 模型 Rio3.5 在基准测试中击败 Qwen3.7

里约热内卢市政府开发的 AI 模型 Rio3.5，在近期基准测试中超越了 Qwen3.7。该消息源自 Hacker News 上的一篇帖子，指出 Rio3.5 在多项评测中表现优于 Qwen3.7。目前尚未公开具体的测试细节或基准名称。

Hugging Face 开源/仓库模型发布评测/基准

推荐理由：一个市政府 IT 部门训练的模型在基准测试中击败了 Qwen3.7，这让人重新审视谁在参与前沿模型竞争。如果结果可复现，可能是今年最意外的黑马。

6月14日

23:44

Rohan Paul@rohanpaul_ai

68

德克萨斯大学论文：AI 智能体部署后可靠性随时间下降

德克萨斯大学论文指出，AI 智能体在部署后即使模型不变，也会因长期记忆的摘要压缩、相似记忆混淆、事实更新失效及维护操作而可靠性下降。例如药物剂量可能变成“每日用药”，相似客户记录混淆，已取消订阅仍保留，日程可能因维护消失。论文提出 AgingBench 基准测试，评估智能体在多次会话中的可靠性。研究强调“增加更多记忆”往往是错误修复——问题可能在于从未写入、写入后被挤掉、或写入后未被信任使用。论文将部署智能体重新定义为类似老化基础设施的系统。

智能体安全/对齐论文/研究评测/基准

17:11

The Decoder：AI News（RSS）

59

AI编码智能体虽能定位正确文件，但常错过关键代码行，研究显示

AI编码智能体Claude Code和Codex能可靠找到正确文件，但漏掉其中大部分关键代码行。新的SWE-Explore基准首次将代码搜索与实际修复分开测试，证明缺乏足够上下文时，即使最佳修复方案也会失败。

智能体编码评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

53

谁在翻转？自我与跨模型反驳揭示LLM答案不稳定性

针对7个前沿模型、57个MMLU科目的研究发现，模型在被给出针对正确答案的合理反驳后，翻转率介于17.5%至97.3%之间，标准准确率指标无法捕捉稳定性差异。自归因（告知模型这是其先前回答）一致提升翻转率，平均+7.1pp，最高+18.7pp。跨模型池化错误选项论证并选取每道题最有效的反驳，比单一源模型构成更强挑战。基于此构建的MaxFlip挑战集，相比标准自生成挑战进一步将翻转率提升至多+23.6pp。协议、挑战记录和MaxFlip已开源。

推理论文/研究评测/基准

01:10

Rohan Paul@rohanpaul_ai

65

Adaline 2.0 发布：AI 智能体自我改进层

Adaline 2.0 推出 AI 智能体自我改进层，将生产流量和用户反馈痕迹自动转化为行为聚类，进而生成评估（Evals）、合成边缘场景数据，并基于此产出新的智能体候选版本。开发者只需审核胜出版本即可上线。该工具无需人工逐条检查异常对话，可自动发现人类难以想到的评估用例。

Arsh Shah Dilbagi: Introducing Adaline 2.0 - The Agent Self-Improvement Layer Adaline turns Traces into Behaviors, Behaviors surface Issues...

智能体产品更新评测/基准

6月13日

21:47

数字生命卡兹克@Khazix0918

71

实测GLM-5.2：国产Coding模型新高峰

美国商务部以国家安全为由要求Anthropic限制外国公民访问Fable 5和Mythos 5，Anthropic直接关停两模型。同日智谱发布GLM 5.2并开源，推出需抢购的Coding Plan，下周上线API。实测：上下文窗口扩至1M，400-500k长度准确性和指令遵循与Claude差距不大；代码工程能力极稳、幻觉低；小型任务21分钟结果与Opus 4.8相同但速度慢约两倍。缺憾：纯文本、无多模态、推理慢。作者认为这是国产Coding模型新高峰，推荐GLM 5.2 + Claude Code框架。

开源生态编码评测/基准

21:30

公众号：数字生命卡兹克

59

实测GLM-5.2，国产Coding模型的又一座新高峰。

在Anthropic的Fable 5因美国商务部要求全面关停当日，智谱发布GLM 5.2并宣布继续开源。该模型上下文长度增至1M，在编码和智能体任务上表现突出：10万行代码的监控BUG排查耗时21分钟，结果与Claude Opus 4.8一致（后者fast模式仅需6分钟）；400-500k长上下文下准确性和指令遵循接近Claude。GLM 5.2为纯文本模型，无多模态能力，已通过Coding Plan订阅开放（限额需抢），下周将提供API并开源。

智能体 Anthropic DeepSeek 编码

20:27

The Verge：AI（RSS）

60

苹果新 AI 照片编辑工具大体可用，有利有弊

iOS 27 开发者测试版为 iPhone 带来首批原生 AI 照片编辑功能。相比谷歌 Pixel 手机的同类工具，新功能显得较为温和，但标志着 iPhone 原生照片应用在编辑能力上的转折点。苹果可能将在面向公众发布前继续调整这些功能。

图像生成评测/基准

18:33

The Decoder：AI News（RSS）

35

Claude Fable 5 在 FrontierMath 最难题目上超越 GPT-5.5 13 个百分点

Anthropic 的 Claude Fable 5 在 FrontierMath 最困难级别上达到 88% 准确率，远超 OpenAI 的 GPT-5.5（约 75%），领先 13 个百分点。相较于 2026 年初 Opus 4.5 不到 10% 的表现，实现巨大飞跃。AI 数学推理能力的进步速度持续加快。

Anthropic OpenAI 推理评测/基准

17:54

公众号：龙猫LongCat（美团）

54

WBench：面向交互式视频世界模型的首个系统性多轮评测基准

美团 LongCat 团队推出 WBench，首个面向交互式视频世界模型的系统性多轮评测基准。包含 289 个测试案例、1058 个交互轮次，覆盖导航、主体动作、事件编辑、视角切换四种交互方式，从视频质量、设定遵循度、交互遵循度、一致性、物理真实性五维度评测 20 个前沿模型（包括 Kling 3.0、HY-World 1.5、Genie 3 等）。核心发现：无全能模型，导航能力与画质无关；多轮交互后所有模型性能下降，导航平均分下降 33 点；开源模型 HY-World 1.5 导航能力突出；视角切换最难（平均分 30.7）。WBench 已开源。

arXiv GitHub 开源生态视频

17:54

公众号：卡尔的AI沃茨

58

13个顶级AI重考2026高考数学，咋还没一个拿到满分

13个AI模型（含Claude、DeepSeek、Gemini等）在经人工校对为LaTeX的2026高考数学全国一卷中重考，平均分139.4。8道单选全对，3道多选仅Q11翻车（GLM 5.1和Hy3误选ABCD得0分），3道填空全对，Q15-Q17解答题全部满分。Q18解析几何多数答案正确但过程扣分。压轴题Q19无人满分：GPT-5.5因迭代证明跳步扣2分最佳；Opus 4.8、DeepSeek、Gemini等7个模型因答案不完整扣7分。运行时间差异显著——Grok 4.3用时1分钟得134分，Qwen 3.7-Max用时15分钟与MiniMax m3用时2分钟均得138分。

推理评测/基准

1…4 567 8…22