AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「评测/基准」清除
6月17日周三
08:06Artificial Analysis20AI指数v4.1发布并启动旧金山活动
08:00HuggingFace Daily Papers(社区热门论文)53VLA是否还记得基础知识?衡量视觉-语言-动作模型中常识与世界知识的保留程度
08:00HuggingFace Daily Papers(社区热门论文)48WorldLines:长时程有状态具身智能体的基准与建模
06:35Ethan Mollick29Ethan Mollick 批评 Intelligence Index v4.1 基准更新
05:56Chubby♨️69GLM-5.2登顶Design Arena,开源回归
03:55elvis56GLM-5.2登顶Design Arena,超越Claude Fable 5
03:53MiniMax (official)25MiniMax M3 世界杯预测独中平局
03:35Ethan Mollick32GLM-5.2 Deep Think Max 对比 GPT-5.2
02:33Rohan Paul72新论文揭示大推理模型存在"生产-评估差距"
01:32OpenAI31OpenAI 评估团队谈模型评估重要性
6月16日周二
23:48fofr24Omni同样擅长文本处理
19:59The Decoder:AI News(RSS)43爱沙尼亚语言研究所发布基准测试:衡量AI模型对俄罗斯宣传的易感性
13:58OpenRouter:Announcements(RSS)75精选免费LLM API比较:速率限制、模型与真实成本(2026)
13:00IT之家(RSS)66谷歌更新Android Bench榜单:Gemini 3.5 Flash成本最贵,约为DeepSeek V4 Flash的17.5倍
10:21公众号:数字生命卡兹克69精选毕业生陷入AI检测荒诞循环:手写摘要被判99%AI率,AI写部分0%
10:20Artificial Analysis60Artificial Analysis Intelligence Index v4.1 发布:转向智能体任务评测
09:59Berkeley RDI:Blog(AI 安全与评测)83精选伯克利RDI发布Agents' Last Exam基准
09:19meng shao69Cua 和 Snorkel AI 联合发布 Cua-Bench:首个公开 KiCad 任务数据集
08:37Epoch AI47Claude Fable 5 在ECI以161分领先GPT-5.5 Pro
08:00HuggingFace Daily Papers(社区热门论文)53LegalHalluLens:面向可信法律AI的类型化幻觉审计与校准多智能体辩论
08:00HuggingFace Daily Papers(社区热门论文)53CEO-Bench:智能体能玩长期游戏吗?
00:59AYi68Seedance 2.0比Grok贵近4倍,视频生成质量却不输
00:13Rohan Paul54Heidi Evidence 小模型匹配 Sonnet 4.6 临床搜索质量
00:00Berkeley RDI:Blog(AI 安全与评测)68精选SageCTF:最强大CTF挑战AI智能体
6月15日周一
23:42Ethan Mollick53AI数学测试解7/10难题仍被指未达标
21:18Chubby♨️45AI编辑器与专业剪辑师4小时剪辑对比:84%一致
08:00HuggingFace Daily Papers(社区热门论文)37CoffeeBench:长期异构多智能体经济系统中的大语言模型智能体基准测试
08:00HuggingFace Daily Papers(社区热门论文)53MyPCBench:面向个性化电脑使用智能体的基准测试
07:45Ethan Mollick47新论文表明通用模型胜专业医疗AI
01:59Hacker News 热门(buzzing.cc 中文翻译)72精选里约热内卢市政府 AI 模型 Rio3.5 在基准测试中击败 Qwen3.7
6月14日周日
23:44Rohan Paul68德克萨斯大学论文:AI 智能体部署后可靠性随时间下降
17:11The Decoder:AI News(RSS)59AI编码智能体虽能定位正确文件,但常错过关键代码行,研究显示
08:00HuggingFace Daily Papers(社区热门论文)53谁在翻转?自我与跨模型反驳揭示LLM答案不稳定性
01:10Rohan Paul65Adaline 2.0 发布:AI 智能体自我改进层
6月13日周六
21:47数字生命卡兹克71实测GLM-5.2:国产Coding模型新高峰
21:30公众号:数字生命卡兹克59实测GLM-5.2,国产Coding模型的又一座新高峰。
20:27The Verge:AI(RSS)60苹果新 AI 照片编辑工具大体可用,有利有弊
18:33The Decoder:AI News(RSS)35Claude Fable 5 在 FrontierMath 最难题目上超越 GPT-5.5 13 个百分点
17:54公众号:龙猫LongCat(美团)54WBench:面向交互式视频世界模型的首个系统性多轮评测基准
17:54公众号:卡尔的AI沃茨5813个顶级AI重考2026高考数学,咋还没一个拿到满分
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月17日
08:06
Artificial Analysis@ArtificialAnlys
20
为庆祝 Artificial Analysis Intelligence Index v4.1 发布,我们将于 6 月 29 日在旧金山汇聚前沿 AI 领域的研究人员、工程师和构建者。 欢迎加入我们,共度一个关于 AI 评估、模型智能以及成本、速度与性能之间权衡的晚间讨论。 申请参加 👇 https://luma.com/qdl9mr2e
评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
53
VLA是否还记得基础知识?衡量视觉-语言-动作模型中常识与世界知识的保留程度

为评估视觉-语言-动作模型微调后是否保留常识与事实知识,研究提出Act2Answer轻量协议,将知识评测转为动作答题:智能体通过单次物体放置动作选择答案,获得低控制偏差的动作接地成功率。在涵盖多种常识类别的测试集上,对7个VLA模型与9个VLM基线进行排名。结果显示,VLA在简单概念上表现稳健,但在语义丰富类别上与源VLM差距较大;VQA共训练与更好知识保留相关;答案相关信号在VLA中层最强,上层衰减。

具身智能论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
48
WorldLines:长时程有状态具身智能体的基准与建模

WorldLines是一个项目驱动的长时程家庭辅助具身智能体基准。它构建包含对话、动作、执行反馈、物体与设备状态变化的长期家庭轨迹,并转化为证据关联样本用于Memory QA和具身任务规划。同时提出ObsMem,一个基于观察者的记忆框架,维护可见性感知记忆和动作原生状态痕迹以支持状态感知决策。实验揭示了部分可观测性、被覆盖的世界状态及将长期记忆转化为具身规划方面的持续挑战,而ObsMem为此场景提供了更强的参考架构。

具身智能论文/研究评测/基准
06:35
Ethan Mollick@emollick
29
新版 GDPval-AA v2 成为 Intelligence Index v4.1 权重最高的评估,升级将 ELO 基线重置为人类 1000 分,引入前沿模型法官轮换面板,回合上限从 100 提升至 250。Claude Fable 5(有回退)以 1818 分领先,但当前不可用;Claude Opus 4.8 得 1638 分,GPT-5.5 (xhigh) 得 1531 分。Ethan Mollick 批评:AI 评估 AI 在取自另一闭卷基准的公开问题上表现意义有限,且人类 ELO 设定方式不透明,认为更新前后均非良好基准。

Artificial Analysis: GDPval-AA v2 is the highest weighted evaluation in the Intelligence Index v4.1. The upgrade re-baselines ELO to human pe...

大佬观点评测/基准
05:56
Chubby♨️@kimmonismus
69
GLM-5.2 以 Elo 1360 在 Design Arena 代码类别中跃居第一,超越现已下架的 Claude Fable 5,且权重开放。这是自该榜单启动以来代码类别的最高 Elo 分数之一,较之前提升了 4 个名次和 27 Elo 分。 Open Source is so back. Let's freaking go

Design Arena: BREAKING: GLM-5.2 is now 1st on Design Arena. With an Elo of 1360, GLM-5.2 has jumped ahead of the now unavailable Claud...

开源生态编码评测/基准
03:55
elvis@omarsar0
56
智谱发布GLM-5.2,在Design Arena评测中跃居第1名,Elo评分1360,超过已下架的Claude Fable 5,提升4个名次和27 Elo分。该模型为开源权重。DAIR.AI创始人Elvis Saravia表示若属实则令人印象深刻,并称已在内部用例测试,后续将汇报结果。

Design Arena: BREAKING: GLM-5.2 is now 1st on Design Arena. With an Elo of 1360, GLM-5.2 has jumped ahead of the now unavailable Claud...

模型发布编码评测/基准
03:53
MiniMax (official)@MiniMax_AI
25
MiniMax 的 M3 模型在卡塔尔 vs 瑞士的世界杯比赛中正确预测平局,成为五个模型和一位人类预测中唯一正确的选择。Kilo CLI 分析显示,该基准刻意排除博彩赔率,因此瑞士 64% 的市场赔率未被纳入。M3 依据双方相同的 WWDLW 记录、卡塔尔更高的原始评分以及瑞士更强的联赛水平做出判断。主推文同时提问"FWC-Bench when?",暗示可能推出新基准测试。

Kilo: Qatar vs Switzerland. Five models and one human predicted. Everyone took a side. @MiniMax_AI's M3 took the draw, and it ...

推理评测/基准
03:35
Ethan Mollick@emollick
32
Ethan Mollick 将 7 个月前的 GPT-5.2 与新款 GLM-5.2 Deep Think Max 进行对比,用同一提示词要求生成可运行于 Twigl 的着色器(描绘哥特塔楼无限城市半淹于风暴海洋)。GLM-5.2 出现了若干错误。此前 Ethan 曾提前体验 GPT-5.2,并展示了 GPT-5.2 Pro 单次生成的该着色器版本。

Ethan Mollick: Had early access to GPT-5.2. Its an impressive model. Here is GPT 5.2 Pro's version of "create a visually interesting sh...

多模态评测/基准
02:33
Rohan Paul@rohanpaul_ai
72
新论文揭示大推理模型存在"生产-评估差距"

一篇新论文揭示了大型推理模型的“生产-评估差距”:模型能解出数学题并得到正确答案,但在评估他人推理时,即便逻辑有缺失步骤、前提颠倒或循环论证等明显缺陷,只要最终答案正确,模型也往往判定为合格。作者提出VAIR(有效答案-无效推理)基准验证该问题。这种现象称为“答案确认偏差”,模型仅凭正确答案而非有效逻辑评判推理。与人类相比,模型从解题到评估的能力下降更显著,表明AI可能成为制造看似合理论点的自信引擎,而非真正理解自身产出的推理引擎。

安全/对齐推理论文/研究评测/基准
01:32
OpenAI@OpenAI
31
我们来聊聊评估。 我们一直在寻找更好的方法来衡量和预测模型进展,尤其是在基准测试逐渐饱和或被钻空子的时候。 领导我们前沿评估团队的 @tejalpatwardhan 与 @andrewmayne 谈到了评估为何重要,以及接下来模型需要被评判的标准。
OpenAI大佬观点评测/基准
6月16日
23:48
fofr@fofrAI
24
你知道吗,Omni 也擅长文本处理。
OpenAI多模态评测/基准
19:59
The Decoder:AI News(RSS)
43
爱沙尼亚语言研究所发布基准测试:衡量AI模型对俄罗斯宣传的易感性

爱沙尼亚语言研究所发布基准测试,用75个问题覆盖14种宣传叙事,以中立、偏颇和操纵三种措辞测试60个AI模型,评分1-5分(1分代表重复俄方话术)。Claude Opus 4.5作为评估模型。结果显示Anthropic的Claude模型居首,Nvidia Nemotron 3和阿里Qwen 3.6 Plus紧随,Mistral Medium 3.5排在底部三分之一。测试期间模型无网络搜索权限。结果与Newsguard研究一致:Mistral的持续性虚假信息率达36.67%,该公司正以200亿欧元估值谈判30亿欧元融资。

Anthropic安全/对齐评测/基准
13:58
OpenRouter:Announcements(RSS)
精选75
免费LLM API比较:速率限制、模型与真实成本(2026)

13个平台提供免费LLM API,含永久免费层与试用额度。OpenRouter拥有20+免费模型,单密钥无需信用卡;Groq以约320 tokens/秒运行Llama 3.3 70B;Google AI Studio支持1M上下文;Mistral实验层约10亿token/月但需同意数据训练;Cerebras约1M token/天;GitHub Models提供GPT-4o、Claude 3.5 Sonnet等前沿模型。各免费层有速率限制、数据训练授权、上下文缩减等隐藏成本,建议早期测试2-3个方案并设置故障转移。

评测/基准部署/工程

推荐理由:免费 LLM API 不是免费的,这篇文章把 13 家平台的隐藏成本、速率限制和真实可用性都算清楚了,想省钱的开发者值得花五分钟看一遍。
13:00
IT之家(RSS)
66
谷歌更新Android Bench榜单:Gemini 3.5 Flash成本最贵,约为DeepSeek V4 Flash的17.5倍

谷歌更新Android Bench榜单,GPT-5.5以74分居首,GPT-5.4与Gemini 3.1 Pro Preview并列第二(72.4分),Claude Opus 4.7(68.7分)和Opus 4.6(66.6分)分列第四、第五。谷歌自家Gemini 3.5 Flash仅获63.7分排第六,平均Token消耗3.559亿,单次运行成本147.1美元,为榜单最贵模型。成本仅为其约1/3的Gemini 3.1 Pro Preview性价比更高。DeepSeek V4 Flash以52.7分排第12,单次运行成本仅8.4美元,后者成本仅为前者的1/17.5。

DeepSeekGoogle编码评测/基准
10:21
公众号:数字生命卡兹克
精选69
毕业生陷入AI检测荒诞循环:手写摘要被判99%AI率,AI写部分0%

当前毕业生面临论文AIGC率检测荒诞困境。学生手写摘要被判定99%AI率,纯AI写部分却为0%。学校要求AIGC率不超40%,学生用Claude反复修改并花上百元检测费(维普20元/篇,知网/万方2元/千字符),最终降至36.1%。答辩时老师要求改回学术表达,AI率回升至37.21%。同一论文在不同平台检测结果差异巨大(48%、44%、59%)。部分平台提供降重收费服务,少数学校已改用AI使用声明表替代一刀切检测。

现象/趋势评测/基准

推荐理由:作者通过一个毕业生的真实经历,把AIGC检测的荒谬性扒得干净利落——这不是技术问题,是一刀切懒政的代价。看完你会理解为什么「证明你是人」比写论文更难。
10:20
Artificial Analysis@ArtificialAnlys
60
Artificial Analysis Intelligence Index v4.1 发布:转向智能体任务评测

Artificial Analysis 发布 Intelligence Index v4.1,转向智能体任务。升级 Terminal-Bench 2.1、τ³-Bench Banking、GDPval-AA v2(Elo 重基线、引入前沿模型评审、回合上限增至250),移除饱和的 IFBench。新增每任务成本、时间、输出 token 指标及缓存 token 影响。关键结果:Claude Fable 5(60分)领先但不可用;可用模型中 Claude Opus 4.8(max)56分居首,GPT-5.5(xhigh)55分。开源 DeepSeek V4 Pro 与 MiniMax M3 均44分。成本方面,Opus 4.8 每任务 $1.78,GPT-5.5 $0.99,DeepSeek V4 Pro 仅 $0.04。时间方面,Grok 4.3 最快(1.5分钟),Opus 4.8 需6.4分钟,GPT-5.5 需3.7分钟,Gemini 3.1 Pro Preview 以1.6分钟得46分。

智能体AnthropicDeepSeek推理
09:59
Berkeley RDI:Blog(AI 安全与评测)
精选83
伯克利RDI发布Agents' Last Exam基准

2026年6月,伯克利RDI发布Agents’ Last Exam(ALE)基准,包含1,500余项源于真实工作的任务,覆盖55个非体力职业。对Fable 5、GPT-5.5、Composer 2.5等前沿智能体的测评显示:在最困难层级成功率均为0%;整体任务表现接近,但单任务成本差异巨大(Fable 5约$15.70,GPT-5.5约$3.80,Composer 2.5约$1.33)。CLI子集ALE-CLI最佳通过率仅25.2%。主要失败模式是智能体未验证输出即宣称完成。数据集、代码及CLI子集已开源。

智能体arXivHugging Face开源生态

推荐理由:在Fable 5发布后,Berkeley的ALE基准首次大规模量化了agent在专业任务上的真实水平,最难任务0%成功率的结果值得所有押注agent落地的团队冷静下来。
09:19
meng shao@shao__meng
69
Cua 和 Snorkel AI 联合发布 Cua-Bench:首个公开 KiCad 任务数据集

Cua 与 Snorkel AI 联合发布 Cua-Bench,首个公开数据集聚焦电子设计工具 KiCad,含 25 道由执业电气工程师编写并复核的任务。测试中,GPT-5.5 完全通过 6/25(24%),Claude Sonnet 4.5 和 Haiku 4.5 各通过 5/25(20%)。所有成功任务均为局部修改,16 道从零搭建任务全部失败。瓶颈在执行层:导航开销大(~84%)、操作粒度过细(~84%)、视图控制混乱(~76%)、布线未完成(~72%)、自我验证不可靠。步数上限并非主因。根因分布:规划 ~40%、感知 ~22%、导航低效 ~19%、领域知识 ~11%、工具/API ~8%,全程零 API 错误。

Cua: 1/ Today we're launching Cua-Bench with @SnorkelAI: a benchmark for computer-use agents on professional software, open f...

智能体AnthropicOpenAI评测/基准
08:37
Epoch AI@EpochAIResearch
47
Claude Fable 5 在 Epoch Capabilities Index 上取得新高分161! 这以1分优势击败了GPT-5.5 Pro,也是Anthropic一年多来首次在该指数上领先。
AnthropicOpenAI推理评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
53
LegalHalluLens:面向可信法律AI的类型化幻觉审计与校准多智能体辩论

法律AI聚合幻觉率约52%,但掩盖了错误集中方向。LegalHalluLens审计框架包含:类型化幻觉档案(数字、时间、义务权利、事实四类)、风险方向指数(RDI)及校准辩论管线。在510份合同、249,252条款实例中,同一模型内义务/数字类与时间类幻觉率差距达38-40个百分点;两个均报告52%幻觉率的系统RDI可能相反。辩论管线将虚假检测减少45%,以4B参数匹配商业API。类型档案和RDI暴露隐藏失败模式,作为多智能体辩论校准输入。

智能体论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
53
CEO-Bench:智能体能玩长期游戏吗?

CEO-Bench通过模拟初创公司500天运营,评估AI智能体在不确定性中规划、获取信息、适应变化和协调多目标的能力。智能体需通过Python接口管理定价、营销、预算等决策,并处理嘈杂数据库。最强模型(Claude Opus 4.8、GPT-5.5)虽能编写复杂代码预测现金流、挖掘客户偏好,但仅勉强使余额维持起始的100万美元以上,无法持续盈利。该基准首次衡量驱动长期自适应进展所需的智能。

智能体论文/研究评测/基准
00:59
AYi@AYi_AInotes
68
用户对比Seedance 2.0与Grok的视频生成效果,发现Seedance 2.0价格贵近4倍,质量却不相上下;仅用一句话提示词测试Grok对中国古装风格理解,结果超预期。引用推文指出,GPT Image 2加Grok的混合工作流性价比极高:SuperGrok月费30美元,目前有3个月67%优惠,单条短片几乎零边际成本。角色风格一致性由GPT Image 2把控,出图后丢进Grok做动态效果即可。

AYi: GPT Image 2 加 Grok简直是目前玩AI视频的性价比之王,而且grok还能给你加字幕,真的厉害,@grok bro你还藏了多少我不知道的? 自从Seedance一直涨价我就没续订会员了, 本来以为 Seedance 2.0 是当...

OpenAIxAI多模态视频
00:13
Rohan Paul@rohanpaul_ai
54
Heidi Evidence 小模型匹配 Sonnet 4.6 临床搜索质量

临床搜索工具 Heidi Evidence 表示,六周前其自研小模型在临床搜索任务中匹配了前沿规模模型 Sonnet 4.6 的质量。方法是通过临床医生的偏好反馈训练,而非单纯扩大模型规模。在匿名测试中,医生面对同一医学问题、两个匿名答案,选择 Heidi 小模型答案的概率为 49.9%。Heidi 指出,医学领域的关键难点在于知道何时搜索、引用什么、说多少,以及模糊答案何时比不回答更糟。

Tom Kelly: There's been debate in the last couple days about whether general models beat specialized medical AI. It's the wrong que...

Anthropic数据/训练评测/基准
00:00
Berkeley RDI:Blog(AI 安全与评测)
精选68
SageCTF:最强大CTF挑战AI智能体

UC Santa Barbara与UC Berkeley团队基于OpenSage框架构建了CTF专用智能体SageCTF。在DEF CON CTF 2026资格赛中,SageCTF以单人玩家身份尝试15道挑战,成功攻克7道、恢复8个flag,总计1,743分,排名前5%,超越全部自评“不使用AI”或“低AI”的175支团队。在50道近期CTF挑战的对比测试中,SageCTF以Claude-Opus-4.6为主模型,在相同预算(每道$200/10小时)下解出39道,而Claude Code仅解出13道,且Claude Code的解出全部被SageCTF覆盖。技术核心包括AI自生成拓扑、多智能体通信、分层记忆及多模型协同编排。

智能体推理论文/研究评测/基准

推荐理由:SageCTF 在 DEF CON CTF 排进前 5%,是 AI agent 在顶级安全竞赛中的首次重大突破。OpenSage 的自构建多智能体架构和十小时持续探索的能力,给做复杂推理工具的人提供了真参考。
6月15日
23:42
Ethan Mollick@emollick
53
奇怪的标题--我不确定解决10个极其困难的新问题中的7个就意味着AI"没有完成任务",而15个月前大语言模型还不会做数学。 但实际研究很有趣,揭示了AI在数学中的缺陷与成功。https://1stproof.org/assets/docs/report.pdf 【引用 @Nature】:人工智能经历了其最严谨的数学测试,然而它并未完成任务 https://go.nature.com/4oqlNk6

nature: Artificial intelligence has undergone its most scrupulous maths test yet, and it did not live up to the task https://go....

大佬观点推理评测/基准
21:18
Chubby♨️@kimmonismus
45
一款基于Premiere Pro重构的AI视频编辑器,与专业剪辑师共同剪辑同一4小时视频项目,两者84%的剪辑操作相同。AI编辑器可在数分钟内完成草稿,节省约60%的准备工作时间。最后约16%的差异点仍需要人类判断。该工具在Key & Peele、Beast Games等项目幕后剪辑师中进行了测试。

Tom Kim: We rebuilt Premiere Pro from scratch for AI agents. Not a toy that generates clips. A real editor that watches footage, ...

产品更新视频评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
37
CoffeeBench:长期异构多智能体经济系统中的大语言模型智能体基准测试

CoffeeBench评估大语言模型智能体在长期多智能体经济系统中的表现。模拟由两个农民、两个烘焙师和两个零售商组成的90天异构企业经济,每个智能体通过通信和交易最大化累计净收入。评测模型控制一个咖啡烘焙师,其余由固定参考智能体控制。测试多个开源和专有LLM,所有模型均优于不采取行动的被动基线,多数实现正净收入。表现更好的模型通信更频繁,而Claude Haiku 4.5出现空闲漂移失败模式,反复选择不作为。

智能体论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
53
MyPCBench:面向个性化电脑使用智能体的基准测试

MyPCBench在预置17个模拟真实网页应用及完整桌面栈的Linux环境中,基于《办公室》角色Michael Scott单一画像生成184个任务,测试电脑使用智能体的个人助手能力。6款闭源与开源模型在同一“电脑+bash”工具界面下评测,最佳模型Claude Opus 4.6仅完全解决55.4%任务,是唯一超过50%的模型。失败集中在跨多应用与长轨迹任务。环境、任务集与智能体框架已开源。

智能体arXiv论文/研究评测/基准
07:45
Ethan Mollick@emollick
47
这是一条关于新论文辩论的优秀方法论线程,该论文表明通用模型能击败专业医疗AI(同时也很好地概述了医疗AI基准测试的挑战。)

Adam Rodman: The TL;DR who don't want to sit through a virtual lab meeting with me: "This study provides directional data about the r...

大佬观点评测/基准
01:59
Hacker News 热门(buzzing.cc 中文翻译)
精选72
里约热内卢市政府 AI 模型 Rio3.5 在基准测试中击败 Qwen3.7

里约热内卢市政府开发的 AI 模型 Rio3.5,在近期基准测试中超越了 Qwen3.7。该消息源自 Hacker News 上的一篇帖子,指出 Rio3.5 在多项评测中表现优于 Qwen3.7。目前尚未公开具体的测试细节或基准名称。

Hugging Face开源/仓库模型发布评测/基准

推荐理由:一个市政府 IT 部门训练的模型在基准测试中击败了 Qwen3.7,这让人重新审视谁在参与前沿模型竞争。如果结果可复现,可能是今年最意外的黑马。
6月14日
23:44
Rohan Paul@rohanpaul_ai
68
德克萨斯大学论文:AI 智能体部署后可靠性随时间下降

德克萨斯大学论文指出,AI 智能体在部署后即使模型不变,也会因长期记忆的摘要压缩、相似记忆混淆、事实更新失效及维护操作而可靠性下降。例如药物剂量可能变成“每日用药”,相似客户记录混淆,已取消订阅仍保留,日程可能因维护消失。论文提出 AgingBench 基准测试,评估智能体在多次会话中的可靠性。研究强调“增加更多记忆”往往是错误修复——问题可能在于从未写入、写入后被挤掉、或写入后未被信任使用。论文将部署智能体重新定义为类似老化基础设施的系统。

智能体安全/对齐论文/研究评测/基准
17:11
The Decoder:AI News(RSS)
59
AI编码智能体虽能定位正确文件,但常错过关键代码行,研究显示

AI编码智能体Claude Code和Codex能可靠找到正确文件,但漏掉其中大部分关键代码行。新的SWE-Explore基准首次将代码搜索与实际修复分开测试,证明缺乏足够上下文时,即使最佳修复方案也会失败。

智能体编码评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
53
谁在翻转?自我与跨模型反驳揭示LLM答案不稳定性

针对7个前沿模型、57个MMLU科目的研究发现,模型在被给出针对正确答案的合理反驳后,翻转率介于17.5%至97.3%之间,标准准确率指标无法捕捉稳定性差异。自归因(告知模型这是其先前回答)一致提升翻转率,平均+7.1pp,最高+18.7pp。跨模型池化错误选项论证并选取每道题最有效的反驳,比单一源模型构成更强挑战。基于此构建的MaxFlip挑战集,相比标准自生成挑战进一步将翻转率提升至多+23.6pp。协议、挑战记录和MaxFlip已开源。

推理论文/研究评测/基准
01:10
Rohan Paul@rohanpaul_ai
65
Adaline 2.0 发布:AI 智能体自我改进层

Adaline 2.0 推出 AI 智能体自我改进层,将生产流量和用户反馈痕迹自动转化为行为聚类,进而生成评估(Evals)、合成边缘场景数据,并基于此产出新的智能体候选版本。开发者只需审核胜出版本即可上线。该工具无需人工逐条检查异常对话,可自动发现人类难以想到的评估用例。

Arsh Shah Dilbagi: Introducing Adaline 2.0 - The Agent Self-Improvement Layer Adaline turns Traces into Behaviors, Behaviors surface Issues...

智能体产品更新评测/基准
6月13日
21:47
数字生命卡兹克@Khazix0918
71
实测GLM-5.2:国产Coding模型新高峰

美国商务部以国家安全为由要求Anthropic限制外国公民访问Fable 5和Mythos 5,Anthropic直接关停两模型。同日智谱发布GLM 5.2并开源,推出需抢购的Coding Plan,下周上线API。实测:上下文窗口扩至1M,400-500k长度准确性和指令遵循与Claude差距不大;代码工程能力极稳、幻觉低;小型任务21分钟结果与Opus 4.8相同但速度慢约两倍。缺憾:纯文本、无多模态、推理慢。作者认为这是国产Coding模型新高峰,推荐GLM 5.2 + Claude Code框架。

开源生态编码评测/基准
21:30
公众号:数字生命卡兹克
59
实测GLM-5.2,国产Coding模型的又一座新高峰。

在Anthropic的Fable 5因美国商务部要求全面关停当日,智谱发布GLM 5.2并宣布继续开源。该模型上下文长度增至1M,在编码和智能体任务上表现突出:10万行代码的监控BUG排查耗时21分钟,结果与Claude Opus 4.8一致(后者fast模式仅需6分钟);400-500k长上下文下准确性和指令遵循接近Claude。GLM 5.2为纯文本模型,无多模态能力,已通过Coding Plan订阅开放(限额需抢),下周将提供API并开源。

智能体AnthropicDeepSeek编码
20:27
The Verge:AI(RSS)
60
苹果新 AI 照片编辑工具大体可用,有利有弊

iOS 27 开发者测试版为 iPhone 带来首批原生 AI 照片编辑功能。相比谷歌 Pixel 手机的同类工具,新功能显得较为温和,但标志着 iPhone 原生照片应用在编辑能力上的转折点。苹果可能将在面向公众发布前继续调整这些功能。

图像生成评测/基准
18:33
The Decoder:AI News(RSS)
35
Claude Fable 5 在 FrontierMath 最难题目上超越 GPT-5.5 13 个百分点

Anthropic 的 Claude Fable 5 在 FrontierMath 最困难级别上达到 88% 准确率,远超 OpenAI 的 GPT-5.5(约 75%),领先 13 个百分点。相较于 2026 年初 Opus 4.5 不到 10% 的表现,实现巨大飞跃。AI 数学推理能力的进步速度持续加快。

AnthropicOpenAI推理评测/基准
17:54
公众号:龙猫LongCat(美团)
54
WBench:面向交互式视频世界模型的首个系统性多轮评测基准

美团 LongCat 团队推出 WBench,首个面向交互式视频世界模型的系统性多轮评测基准。包含 289 个测试案例、1058 个交互轮次,覆盖导航、主体动作、事件编辑、视角切换四种交互方式,从视频质量、设定遵循度、交互遵循度、一致性、物理真实性五维度评测 20 个前沿模型(包括 Kling 3.0、HY-World 1.5、Genie 3 等)。核心发现:无全能模型,导航能力与画质无关;多轮交互后所有模型性能下降,导航平均分下降 33 点;开源模型 HY-World 1.5 导航能力突出;视角切换最难(平均分 30.7)。WBench 已开源。

arXivGitHub开源生态视频
17:54
公众号:卡尔的AI沃茨
58
13个顶级AI重考2026高考数学,咋还没一个拿到满分

13个AI模型(含Claude、DeepSeek、Gemini等)在经人工校对为LaTeX的2026高考数学全国一卷中重考,平均分139.4。8道单选全对,3道多选仅Q11翻车(GLM 5.1和Hy3误选ABCD得0分),3道填空全对,Q15-Q17解答题全部满分。Q18解析几何多数答案正确但过程扣分。压轴题Q19无人满分:GPT-5.5因迭代证明跳步扣2分最佳;Opus 4.8、DeepSeek、Gemini等7个模型因答案不完整扣7分。运行时间差异显著——Grok 4.3用时1分钟得134分,Qwen 3.7-Max用时15分钟与MiniMax m3用时2分钟均得138分。

推理评测/基准
‹ 上一页
1…45678…22
下一页 ›