6月30日

18:26

HuggingFace Daily Papers（社区热门论文）

BeyondArena是首个统一的表格数据整体基准，支持IID、时序、分组等任务，覆盖不同样本量、特征维度及含文本或高基数特征的数据集。配合Data Foundry框架，在11个模型与142个数据集上的评测显示：现有表格基础模型在中小规模IID数据上表现优秀，但传统树模型和深度学习模型在非IID、大规模、高维数据集上仍占主导。该基准旨在引导模型研究应对表格数据中最具挑战性的场景。

数据/训练论文/研究评测/基准

15:02

IT之家（RSS）

AI 老板 500 天模拟经营：多数模型亏惨，Claude Fable 5 独占鳌头

普林斯顿大学发布 CEO-Bench 基准测试，模拟创业公司 500 天经营，启动资金 100 万美元，评估 AI 模型担任 CEO 的能力。多数模型在 500 天后破产。最佳单次运行中，Claude Fable 5 期末现金达 4715 万美元，是唯一多次运行均高于初始余额的模型；Claude Opus 4.8 为 2778 万美元，GPT-5.5 为 2130 万美元。Grok 4.20 平均仅存活 28 天，DeepSeek V4 Pro 和 Gemini 3 Flash 亦全部破产。基于规则的基准模型最终余额为 1580 万美元。

智能体 Anthropic 推理评测/基准

12:27

Berryxia.AI@berryxia

乔纳森的OpenAI 首作产品，真的没有什么新鲜玩意了。

OpenAI 评测/基准

12:26

HuggingFace Daily Papers（社区热门论文）

SafePyramid：上下文策略防护的分层安全基准

SafePyramid是一款安全基准，包含1,000轮多领域对话、3,000条应用特定策略及61,699条自然语言规则。评估分三级：L0单规则理解、L1规则依赖推理、L2全新策略框架适应。测试10个前沿大语言模型与5个可配置策略防护，发现上下文策略防护仍极具挑战。最佳模型GPT-5.5完整识别违规规则的准确率在L0、L1、L2上分别仅为54.0%、35.3%和12.9%。

OpenAI 安全/对齐论文/研究评测/基准

07:28

Rohan Paul@rohanpaul_ai

Arena AI排行榜年营收达1亿美元

Arena 的 AI 排行榜从 UC Berkeley 研究项目起步，通过让用户匿名对比两个模型答案并投票，积累了大规模人类偏好数据集。该平台随后将这一公开测试引擎包装为商业服务 AI Evaluations，为客户提供更深入的分析。模型厂商迫切需要高质量的人类偏好信号，因为微小的排名提升就能决定用户选择、企业合同和投资者关注。如今 Arena 已成为年化收入 1 亿美元的业务。

行业动态评测/基准

02:35

Hacker News 热门（buzzing.cc 中文翻译）

精选75

Qwen 3.6 27B 是本地开发的理想选择

Qwen 3.6 27B 是一款密集参数本地大语言模型，原生支持 256k 上下文。在 Macbook Max M5 上运行 llama.cpp Q8_0 量化版（含多 token 预测）可达 30 tokens/s；用户反馈在 RTX 5090 上 Q6_K 量化可达 50 tokens/s。它可通过单个提示完成创意诗歌、用 pnpm 生成六边形扫雷游戏等任务，作者称其为首个真正具备通用智能的本地模型。另有一个 MoE 变体 35B A3B，但作者推荐 27B 版本。

开源生态端侧评测/基准

推荐理由：一篇详实的 Qwen 3.6 27B 实战评测，从创意写作到代码生成都测了，还给出了 llama.cpp 部署命令和性能数据，想本地跑模型的开发者可以直接抄作业。

6月29日

23:31

StepFun@StepFun_ai

Step 3.7 Flash 在 Claw-Eval General 自主智能体评测中排名第二。我们在多步执行和长周期任务鲁棒性方面表现强劲，排名仅次于 Claude Opus 4.6。这是面向真实世界智能体工作负载的有前景的信号。

智能体评测/基准

22:04

elvis@omarsar0

LLM-as-a-Judge 在约10分钟内解释完毕。学会构建AI验证器和裁判是当今最重要的新兴AI技能之一。这里提供一个快速介绍，以及在哪里学习如何应用LLM-as-a-Judge。

推理教程/实践评测/基准

16:17

Chubby♨️@kimmonismus

AA-Briefcase评分显示AI智能指数级加速，开源差距约半年

基于Artificial Analysis的AA-Briefcase评分（模拟多周复杂咨询任务），@emollick 绘制前沿曲线发现：闭源AI模型发展呈指数级增长且加速，开源模型（尤其中国）仍落后约半年。但乐观预测，年底前可能出现“神话级”开源变体。

Ethan Mollick: I took the new AA-Briefcase scores from @ArtificialAnlys (basically having the AI do multi-week consulting gigs with a l...

开源生态现象/趋势评测/基准

14:34

Hacker News 热门（buzzing.cc 中文翻译）

HackerRank 将其 ATS 开源，评分不稳定引发争议

HackerRank 将其 ATS（申请人跟踪系统）开源。开发者测试发现，默认模型 gemma3:4b 在 temperature 0.1 下对同一份简历运行 100 次，得分范围 66–99。若公司分数线设为 85，简历有 65% 的概率被刷掉。改用 Gemini 后分数集中在 48–64，若分数线 60 仍有 28% 的失败率。评分标准中“工作经验”项始终给出 25/25 满分（即使只有一个实习），而“个人项目”项波动巨大。作者指出，LLM 适合解析简历结构，但无法稳定评判经验价值，AI 筛选实质是运气过滤。

GitHub 开源生态评测/基准

13:34

karminski-牙医@karminski3

Flash系列模型横评：Gemini-3.5-Flash、Step-3.7-Flash、DeepSeek-V4-Flash

推文对三款Flash级模型（Gemini-3.5-Flash、Step-3.7-Flash、DeepSeek-V4-Flash）进行横评。这些模型定位为多智能体系统和RAG系统的驱动模型。评测维度包括Agent Loop迭代能力、Agent能力、前端/后端、空间理解、美学、性价比等。Gemini-3.5-Flash更适合前端页面、建模等“漂亮活”。Step-3.7-Flash极具性价比，在Agent测试中Token效率极高（用最少Token完成最多任务），适合作为OpenClaw、Hermes等Agent框架的驱动模型。DeepSeek-V4-Flash后端能力出色，适合写脚本或驱动ClaudeCode用于AI-Ops。

智能体 DeepSeek Google 评测/基准

13:22

Ethan Mollick@emollick

根据@ArtificialAnlys的AA-Briefcase评估（让AI执行多周咨询任务），@emollick绘制了开放与封闭模型的前沿曲线，显示令人惊讶的快速进步，且开放权重模型与封闭模型之间存在明显差距。

Ethan Mollick: I took the new AA-Briefcase scores from @ArtificialAnlys (basically having the AI do multi-week consulting gigs with a l...

大佬观点开源生态评测/基准

12:52

Ethan Mollick@emollick

我采用了 @ArtificialAnlys 最新的 AA-Briefcase 评分（基本上是让 AI 完成为期数周、复杂度高的咨询任务），并绘制了开放与封闭模型的前沿曲线： 1）令人意外的是，进展迅速！ 2）开放权重差距清晰可见。

大佬观点现象/趋势评测/基准

06:57

Rohan Paul@rohanpaul_ai

研究：AI智能体缺乏真正记忆系统，现有评测忽略记忆自身性能

一篇新论文指出AI智能体目前缺乏真正的记忆系统。现有测试只检查最终答案，忽略了记忆系统本身的性能。论文将智能体记忆拆分为存储、事实提取、有用记忆检索、旧/冲突记忆维护四部分，在12个记忆系统、5个工作负载、11个数据集上评测。核心发现：没有一种记忆设计能在所有场景胜出——图记忆擅长关联事实，混合系统善于过滤搜索，原始痕迹则在精确动作历史记录中表现最佳。

智能体论文/研究评测/基准

05:33

Hacker News 热门（buzzing.cc 中文翻译）

GLM 5.2 在 IDOR 检测中超越 Claude Code

Semgrep 团队用 IDOR 基准测试比较开源模型与前沿编码智能体。GLM 5.2（智谱 AI，开源权重，MIT 许可）以 39% F1 成绩超越 Claude Code（32%），每发现一个漏洞成本约 0.17 美元，但仍低于 Semgrep 多模态流水线（53–61% F1）。GLM 5.2 采用 MoE 架构，总参数 7500 亿，每 token 仅激活约 400 亿，支持 200K 至 1M token 上下文。在 Terminal-Bench 2.1 上得分 81.0（GLM 5.1 为 63.5，Claude Opus 4.8 为 85.0），SWE-bench Pro 上达 62.1。定价约为同类前沿模型的六分之一。Z.ai 披露 GLM 5.2 在训练中存在更多奖励黑客行为，已构建反黑客防护。

安全/对齐开源生态编码评测/基准

04:57

Rohan Paul@rohanpaul_ai

PlanBench-XL：评估LLM智能体在大规模工具生态中的长程规划能力

论文提出PlanBench-XL基准，包含327个任务和1,665个工具，测试LLM智能体在工具难以发现时完成长程工具使用任务的能力。GPT-5.4常规准确率为51.90%，最困难的blocked设置降至11.36%。核心思路是让智能体同时从已知向前推理和从需求向后推理，而非依赖显式工具路径。论文还加入破损或误导性工具，考验智能体在路径失败时自主切换策略。

智能体论文/研究评测/基准

6月28日

20:13

fofr@fofrAI

Gemini 3.5 Flash 是一个很棒的工作马模型，尤其适合子智能体。它坚定、快速，能完成任务。

智能体 Google 评测/基准

19:27

DogeDesigner@cb_doge

BREAKING： Elon Musk 确认 Grok 4.5 现已在 SpaceX 和 Tesla 进入私有 beta。 • 早期评估显示性能接近，甚至可能超过 Opus • 基于 xAI 的 1.5T V9 基础模型 • 训练中加入了 Cursor 数据 • Grok Build 工具每天都在改进 • 今年每月将发布从头训练的新模型 SpaceXAI 的节奏简直疯狂。

模型发布评测/基准

18:40

The Decoder：AI News（RSS）

精选70

仅有三个AI模型在500天创业测试中盈利超过起始资本

普林斯顿大学推出CEO-Bench基准测试，让AI智能体在模拟环境中运营订阅软件公司NovaMind 500天，起始资金100万美元。14个测试模型中，仅Claude Fable 5（最佳轮次盈利4715万美元）、Claude Opus 4.8（2780万美元）和GPT-5.5（2130万美元）在最佳运行中超过起始资本。一个不调用语言模型的简单规则启发式方法通过固定定价、配额和针对性开发达到1576万美元，超越除上述三款外的所有模型。多数模型无法保持连贯策略，在模拟结束前破产。该测试旨在衡量AI的长期战略决策能力。

智能体论文/研究评测/基准

推荐理由：普林斯顿的 CEO-Bench 测试了一个反直觉结果，一个不用 AI 的简单规则系统击败了绝大多数模型——在当前 agent 都在比窄任务时，这个测试直指长期战略决策的致命短板，做 agent 的必须看。

18:00

公众号：卡尔的AI沃茨

主动型Agent Vida：读取屏幕与文件上下文，实现电脑全托管

主动型Agent Vida通过读取电脑屏幕、苹果原生应用及文件系统获取完整上下文，用户无需提供详细背景即可自动理解项目，优化提示语并生成可直接用于Claude Code或ChatGPT的生产级Prompt。还能在群聊中结合历史消息自动回复，扫描全盘查找重复文件，重新设计Obsidian架构以区分本地与iCloud存储，通过定时任务整理Downloads文件夹，以及通过浏览器自动化分析邮件并分类。与Computer Use不同，Vida通过双击Option键零帧起手启动。

智能体端侧评测/基准

13:21

Ethan Mollick@emollick

针对AI研究论文因同行评审周期长导致结果过时的问题，一篇医疗AI论文开源其评估框架（GitHub： health-ai-readiness-eval）。@yishan 用该框架在最新模型上复现测试：GPT-5.5 Pro 在放射影像解读中得分79/100，优于论文原始最佳模型（69/100），但未达到论文设定的"适合可靠医疗使用"标准（需抗扰动、识别信息不足、给出临床合理推理）。@yishan 未能完整复现定性评估，但基本测试表明最新模型虽有提升，尚不足以可靠用于临床。他呼吁所有AI论文开源实验框架，以便社区持续验证。

Yishan: A big problem with research studies on AI models is that given how long the peer review process is, the results are alwa...

OpenAI 多模态推理评测/基准

12:01

Yuchen Jin@Yuchenj_UW

我的 OpenAI 哥们刚刚发布了最权威的基准测试。

OpenAI 评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

精选82

OSWorld2.0：长时域真实世界计算机使用工作流基准

OSWorld2.0 发布，包含108个长时域计算机使用工作流，覆盖日常与专业任务。每项任务用户中位数约1.6小时完成，Claude Opus 4.7（最大思考）平均需318次工具调用（OSWorld 1.0约30次）。基准聚焦流交互、动态环境、跨源推理、隐式状态推断、视觉空间精度等真实挑战。任务基于真实输入工件和状态化用户档案，附安全报告。500步二元完成指标下，Claude Opus 4.8（最大思考+批量调用）得分最高仅20.6%（部分54.8%）；GPT-5.5更省token但约13%。结果表明当前智能体远未达专业级：瓶颈不在基本GUI控制或编码，而是丢失约束、错过中途信息、猜测而非询问、跳过验证，尤其依赖隐藏状态时最差。

智能体论文/研究评测/基准

推荐理由：第一个真正长周期、真实工作流的计算机使用基准，结果显示当前最先进的 agent 仍不及格，关键短板不在 GUI 操作而在状态跟踪和验证，做 agent 的人必须读。

04:50

Ethan Mollick@emollick

令人烦恼的是，OpenAI 似乎没有为 GPT 5.6 提供 GDPval 指标。这是衡量经济价值工作的最佳指标之一。

OpenAI 大佬观点评测/基准