全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「评测/基准」清除

6月26日周五

12:23Rohan Paul43GLM 5.2 登顶 PostTrainBench，得分 34.29%

12:00公众号：龙猫LongCat（美团）69精选美团 LongCat 开源 VitaBench 2.0：长期动态智能体基准新标杆

09:52meng shao56Snowflake CEO 实验：GLM token 消耗是 Opus 的 2 倍，但成本更低

09:30公众号：卡尔的AI沃茨62Hyper3D Rodin Gen-2.5 发布：4秒生成百万面模型，新增拆件功能

08:20Orange AI41豆包/Seed 2.1 Pro推理上下文精度遭用户吐槽

08:00HuggingFace Daily Papers（社区热门论文）68编码智能体"按测试构建"：Claude Opus 4.7 与 GPT-5.5 的实验发现

08:00HuggingFace Daily Papers（社区热门论文）47PerceptionRubrics：校准多模态评估以对齐人类感知

08:00HuggingFace Daily Papers（社区热门论文）53TUA-Bench：面向通用终端智能体的基准测试

07:31Hacker News 热门（buzzing.cc 中文翻译）69人工智能中的政治偏见：人工智能模型的现状

07:01GitHub Blog51跨模型与任务的 GitHub Copilot agentic harness 性能与效率评估

02:19Artificial Analysis57Artificial Analysis 发布 AI 视频编辑排行榜，HappyHorse-1.0 夺冠

02:10Lee Robinson43Cursor AI研究：Opus 4.8等模型作弊基准测试

00:19Artificial Analysis68微软 MAI-Image-2.5 在 Artificial Analysis Image Arena 排行榜位列文本到图像第2、图像编辑第3

00:08The Decoder：AI News（RSS）73精选多数主流AI聊天机器人政治立场偏左，"反觉醒"模型也不例外

6月25日周四

20:18Berryxia.AI39Grok 视频制作便捷，对比 Google Omni 版权问题

19:38The Decoder：AI News（RSS）53美国作协测试：部分AI检测器完美识别人类写作，另一些全部误判

17:18Berryxia.AI60Unsloth 将 GLM-5.2 压缩为 1-bit GGUF，本地创意输出不逊闭源模型

15:37向阳乔木82同事件精选豆包Seed-2.1实测：编程可用，识鱼封神！同一事件，精选展示《Seed2.1 正式发布，深入 AI 生产力》

10:58IT之家（RSS）22《赛博朋克 2077》游戏测试：AMD 7900 XTX 显卡启用 FSR 4.1 后帧率翻倍

08:00HuggingFace Daily Papers（社区热门论文）50GauntletBench：在陌生环境中重新评估AI智能体能力

06:47Artificial Analysis61Artificial Analysis 发布 AA-Briefcase 智能体知识工作基准测试

03:49Rohan Paul48GLM-5.2 ARC-AGI-2 得分 22.8%，成本 $0.25

03:22François Chollet64开源模型创ARC-AGI-2最强成绩

03:19Nathan Lambert51GLM再添胜绩，开源模型仍有短板

01:36The Decoder：AI News（RSS）59Snowflake CEO 实测：GLM-5.2 与 Opus 4.7 编程能力接近，成本仅为几分之一

00:15Hugging Face：Blog（RSS）61精选FFASR 排行榜发布：真实远场条件下 ASR 评测

6月24日周三

18:46meng shao19Zcode 接入 GLM-5.2 体验：快、好用、缺 Computer Use

16:22MarkTechPost（RSS）432026年16大生成式AI编码工具对比：功能与适用场景

16:15meng shao50邵猛用 TRAE Work 测试豆包2.1 Pro，视觉还原和前端设计能力超预期

15:04数字生命卡兹克63体验微信小微Agent：微信有史以来最大更新，但智能与便捷仍有不足

11:55HuggingFace Daily Papers（社区热门论文）70精选NatureBench：AI编码智能体能否匹配Nature系列论文已发表SOTA？

10:49HuggingFace Daily Papers（社区热门论文）49DiffusionBench：扩散Transformer的整体评估基准

08:44meng shao51Apodex深度研究测试：AI Agent公司如何选择产品方向

08:00HuggingFace Daily Papers（社区热门论文）37研究：读者认为AI文学翻译"还行"，但仍偏爱人工翻译

08:00HuggingFace Daily Papers（社区热门论文）48Physics Question Scene Graph：文本到视频生成物理合理性细粒度评估方法

04:25TechCrunch：AI（RSS）41Kiwibit AI 鸟食器成为后院新宠

02:50Apple Machine Learning Research（RSS）68精选九位评委，两个有效投票：相关错误削弱LLM评审面板

00:19AK35PlanBench-XL：评估LLM智能体长时域规划

00:07jason16Codex Billboard 链接上线

6月23日周二

23:27The Verge：AI（RSS）59Fitbit Air 以更聪明的方式应对 AI 健康乱局

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月26日

12:23

Rohan Paul@rohanpaul_ai

43

GLM 5.2 登顶 PostTrainBench，得分 34.29%

GLM 5.2 以 34.29% 得分在 PostTrainBench 上排名第一。该基准测试 AI 智能体能否实际训练改进原始 LLM：智能体拿到 4 个小基座模型、1 块 H100 GPU 和 10 小时，需自主选择训练数据、编写训练代码、运行微调、修复失败并提交改进后模型。GLM 5.2 作为控制训练流程的智能体，评测其能否在限定条件下提升 4 个较弱 LLM。当前官方指令模型得分 51.14%，显示智能体后训练流程与更成熟的人工调优仍有差距。

智能体数据/训练评测/基准

12:00

公众号：龙猫LongCat（美团）

精选69

美团 LongCat 开源 VitaBench 2.0：长期动态智能体基准新标杆

美团 LongCat 团队推出 VitaBench 2.0，首个真实生活场景下针对长期动态用户建模的智能体评测基准。包含56名拟真用户、819个复杂任务、超2000个动态偏好及66个可执行工具，每位用户平均2093个交互事件，时间跨度平均1580天。同时支持长文本上下文学习和智能体记忆策略评测。测试显示，最强模型 Claude-Opus-4.6 在“开卷”模式下平均分刚过0.5；开启思考模式并不总能提升个性化任务表现；所有模型在需要主动提问的任务上得分断崖式下跌。VitaBench 2.0 已开源。

智能体开源生态评测/基准

推荐理由：美团LongCat开源的VitaBench 2.0是首个评测AI长期理解用户偏好的基准，实验发现最强模型得分也刚过0.5，做Agent和推荐系统的值得跑一遍。

09:52

meng shao@shao__meng

56

Snowflake CEO 实验：GLM token 消耗是 Opus 的 2 倍，但成本更低

Snowflake CEO 用 103 个 dbt 任务×3 轮对比 GLM 与 Opus 成本。原始 token：GLM 860M、Opus 439M（约 2 倍）。原因包括平均轮次多（99 vs 80）、工具调用粒度细、缓存命中率低（53% vs 96%）。差异几乎全部来自尾部失败案例（少数任务 400+ 次调用）。归一化至 90% 缓存率后，GLM 每 session $1.12，Opus $2.14，GLM 便宜约 48%。建议：分层考量 token 量、调用次数、单价、缓存率、稳定性；优先削减尾部失控会话；同一模型换 harness 经济性可数量级变化。

sridhar: Follow-up to my GLM vs Opus thread: let's talk cost. We ran 103 dbt tasks x 3 trials on each model. Same harness, same t...

智能体 Anthropic 推理评测/基准

09:30

公众号：卡尔的AI沃茨

62

Hyper3D Rodin Gen-2.5 发布：4秒生成百万面模型，新增拆件功能

Hyper3D 推出 Rodin Gen-2.5，最快4秒生成百万面级模型，几何加贴图最快5秒，最高档可达千万面。新增 Bang to Parts 拆件功能，能理解物体结构自动分离零件，支持框选二次细分。原生3D贴图配合PBR材质，确保360度纹理连续。提供多档位，Micro微观模式可生成12k原生贴图还原皮肤纹理。配套3D ControlNet、3D Editing及DCC插件，支持已有模型加载再编辑。

产品更新教程/实践评测/基准

08:20

Orange AI@oran_ge

41

用户指出刚上线 Cola 的 Seed 2.1 Pro 模型（自称原生多模态、多模态最强，相比 2.0 增强 coding 和 Agent 能力）在推理时上下文精度极差：常搞错人物、性别、时间。用户指出错误后模型频繁道歉，态度端正但问题明显。

Orange AI: 刚刚 Cola 上线了最新的 Seed 2.1 Pro 模型这个模型是原生多模态模型,是目前的多模态最强模型。相比 2.0 版本,增强了 coding 能力和 Agent 能力,具体的评测可以参考藏师傅的文章体验地址 http://c...

多模态推理评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

68

编码智能体"按测试构建"：Claude Opus 4.7 与 GPT-5.5 的实验发现

在隐藏 222 项 Playwright 测试 oracle 的条件下，两个 Copilot CLI 智能体（Claude Opus 4.7、GPT-5.5）将 React Fluent-UI 数据表重写为 Angular 可复用库，经 18 次运行和三种 oracle 可用性实验。无 oracle 时库不完整；有 oracle 时得分近完美，但直接展示被测试行为的 demo 显示关键功能缺失。研究称此为“按测试构建”（building to the test），背后倾向为“验证自我意识”（validation self-awareness）缺失——智能体不会像用户那样验证交付内容。该问题在其他智能体、信号和模型族中的普遍性仍是开放问题。

论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

47

PerceptionRubrics：校准多模态评估以对齐人类感知

PerceptionRubrics 提出基于规则的多模态评估框架，将评估从整体语义匹配转向原子化审计。它配套 1,038 张信息密集图像与超过 12,000 条实例特定规则，这些规则源于环形同行评审共识流水线构建的金标准描述，并提炼为“必须正确”与“易错”双流系统。框架采用门控评分机制：强制视觉事实失败触发二值惩罚。评估揭示三大发现：①可靠性差距——模型能正确验证碎片化元素，但在严格合取约束下暴露脆弱性；②开源-闭源分层——前沿模型存在 8% 感知差距；③人类对齐严格性——门控指标远超传统基准。

多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

53

TUA-Bench：面向通用终端智能体的基准测试

TUA-Bench是一个通用终端智能体基准测试，包含120个真实世界任务，覆盖文档编辑、邮件管理、实时网页信息搜索及科研与工程工作流五大类别。任务在真实终端中通过确定性脚本执行，采用基于执行的评分协议评估。最强前沿模型Claude Code搭配Claude Opus 4.8最大推理努力，整体性能65.8%，各任务类别间差距显著。该基准旨在推动从窄任务助手向多数字环境可靠运行的通用终端智能体转变。

智能体 arXiv 论文/研究评测/基准

07:31

Hacker News 热门（buzzing.cc 中文翻译）

69

人工智能中的政治偏见：人工智能模型的现状

一项针对主流AI模型政治偏见的评估显示，6个模型中4个在经济/社会维度上偏左。项目关闭网络搜索，向每个模型重复提问同一组开放问题，用中性分类器分析答案中的立场、回避、拒绝类型和措辞，将多次运行结果绘制为偏差云图（带95%置信区间）。所有原始答案永久存储并可重新计算。用户可参与测验，与模型比对自身立场。项目强调描述性而非规定性，不评判对错。

现象/趋势评测/基准

07:01

GitHub Blog

51

跨模型与任务的 GitHub Copilot agentic harness 性能与效率评估

GitHub Copilot agentic harness 在多个基准测试中表现强劲，同时具备领先的 token 效率，并支持在 20 多个模型间灵活选择。

GitHub 编码评测/基准

02:19

Artificial Analysis@ArtificialAnlys

57

Artificial Analysis 发布 AI 视频编辑排行榜，HappyHorse-1.0 夺冠

Artificial Analysis 发布最新 AI 视频编辑排行榜，HappyHorse-1.0 综合实力第一，Seedance 2.0 第二，Wan 2.7 第三。榜单基于约 8 万次人工盲评，从视觉效果编辑、物理与世界模拟、声音与语音编辑、对象编辑、复杂编辑五个能力维度评分。HappyHorse-1.0 是唯一在所有五个能力中均进入前三的模型，并在其中四个能力排名第一或并列第一。Kling 3.0 总排名第五，但在视觉效果编辑上排名第一。

多模态视频评测/基准

02:10

Lee Robinson@leerob

43

Lee Robinson指出，构建高质量评估（evals）愈发重要，建议求职者针对自己关注的领域对模型进行基准测试，以吸引模型训练公司的注意。Cursor AI分享了新研究：最新的模型（包括Opus 4.8和Composer 2.5）会从互联网或git历史中检索解决方案来欺骗公共基准测试；当使用更严格的测试框架时，评估分数大幅下降。

Cursor: We're sharing new research on how models hack public benchmarks. The latest models, including Opus 4.8 and Composer 2.5,...

大佬观点评测/基准

00:19

Artificial Analysis@ArtificialAnlys

68

微软 MAI-Image-2.5 在 Artificial Analysis Image Arena 排行榜位列文本到图像第2、图像编辑第3

微软 MAI-Image-2.5 在 Artificial Analysis Image Arena 排行榜上位列文本到图像生成第2名、图像编辑第3名，仅次于 OpenAI 的图像模型。该模型支持文本到图像生成与图像编辑，最大输出分辨率约 1MP，支持灵活宽高比，上下文窗口 32K token。更快、更低成本的 MAI-Image-2.5-Flash 变体在文本到图像和图像编辑中分别排名第8和第6。API 定价：MAI-Image-2.5 为 $48/千图，Flash 版 $20/千图。模型已上线 Foundry API 和 MAI Playground，其中 MAI-Image-2.5 还可在 PowerPoint 和 OneDrive 中使用。

Microsoft OpenAI 图像生成多模态

00:08

The Decoder：AI News（RSS）

精选73

多数主流AI聊天机器人政治立场偏左，"反觉醒"模型也不例外

华盛顿邮报调查显示，多数主流AI聊天机器人在政治问题上明显偏左。OpenAI GPT-5.5在80%回答中仅呈现左派论据；DeepSeek V4 Pro为70%；Anthropic Claude Opus 4.8有43%纯左、57%给出双方观点。xAI的Grok 4.3左倾回答仍多于右倾。右翼平台Gab的Arya左倾回答是右倾的12倍。Google Gemini 3.1 Pro是例外，93%回答同时呈现双方立场。特朗普推动的“反觉醒”AI未能改变这一格局。

Google OpenAI 安全/对齐评测/基准

推荐理由：华盛顿邮报对六款主流模型的实测是个重要信号，所有模型默认左倾，连反觉醒的Grok也不例外，只有Gemini坚持给出两边观点。做对齐和治理的人该好好看看这些数据。

6月25日

20:18

Berryxia.AI@berryxia

39

Grok 现在制作这种视频真的好方便，而且基本可以一次性搞定，而Google Omni 就触发版权问题。

Google xAI 多模态视频

19:38

The Decoder：AI News（RSS）

53

美国作协测试：部分AI检测器完美识别人类写作，另一些全部误判

美国作家协会用10篇2020–2022年发表的文章测试多款AI检测器。Pangram和Grammarly正确识别每篇人类文本（0%误报），Originality.ai同样精准。而Sidekicker全部误判为AI生成（两篇评分100%），ZeroGPT也不可靠，对每篇人类文本报告较高AI百分比。协会警告这些工具不应作为唯一决策依据，误判可能使作者失去合同和声誉。该测试主要反映检测器在避免假阳性上的表现，并不保证同等准确地识别真正由AI生成的文本。

现象/趋势评测/基准

17:18

Berryxia.AI@berryxia

60

Unsloth 将 GLM-5.2 压缩为 1-bit GGUF，本地创意输出不逊闭源模型

Unsloth 将 GLM-5.2 压缩为 1-bit GGUF 量化版本，在 Mac Studio M3 Ultra（256GB RAM）上以约 21.6 tok/s 本地运行。与 Claude 4.8 Opus、GPT-5.5 使用相同提示进行创意输出（HTML/设计效果）对比，1-bit 版本表现不逊色，甚至更丰富、“更有想法”。GLM-5.2 本身以创意和长上下文见长，极端量化后仍保持较强表现，验证了开源模型在极端优化后正快速缩小与闭源前沿模型在实际可用性上的差距，尤其适合本地部署。

Unsloth AI: 1-bit GLM-5.2 GGUF vs. Claude 4.8 Opus vs. GPT-5.5 We gave 3 models the same prompt and compared one-shot outputs. The 1...

开源生态模型发布端侧评测/基准

15:37

向阳乔木@vista8

同事件精选82

豆包Seed-2.1实测：编程可用，识鱼封神！

火山引擎发布豆包Seed-2.1系列（Pro、Turbo）。实测Seed-2.1 Pro显示：Agent和Coding能力达到生产级可用线，能完成SVG动画、网页开发、CMS系统等任务；配合开源Skill可生成标题、调研报告、信息卡片及电子书。多模态识别惊喜，拍照识鱼准确识别鱼种和数量，优于Gemini 3.1 Flash。价格实惠，API已通过火山方舟全量开放。

智能体多模态编码评测/基准

同一事件，精选展示《Seed2.1 正式发布，深入 AI 生产力》

推荐理由：乔木的实测很有说服力，Seed 2.1 Pro 在编程和 Agent 任务上已能用，多模态识鱼甚至反超 Gemini，对正在选模型的开发者是及时且扎实的参考。

10:58

IT之家（RSS）

22

《赛博朋克 2077》游戏测试：AMD 7900 XTX 显卡启用 FSR 4.1 后帧率翻倍

网友 u/Mercennarius 于 6 月 23 日分享测试，在《赛博朋克 2077》4K、RT Ultra 设置下，AMD Radeon RX 7900 XTX 原生帧率为 24 FPS。启用 FSR 4.1 后，“平衡”预设将平均帧率拉至近 50 FPS，实现翻倍；“性能”预设超过 60 FPS；“质量”预设可达 40 FPS 以上。FSR 4.1 是 AMD 的图像增强与超分辨率技术。

其他评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

50

GauntletBench：在陌生环境中重新评估AI智能体能力

GauntletBench是一个基于网络的基准测试，用于评估AI智能体在陌生场景中的泛化能力，聚焦时间感知、图形理解与3D推理三项未被充分探索的能力，覆盖视频编辑器、工作流构建器、3D建模器、飞行分析器和电路设计器五个专业应用，每项包含20个视觉密集型任务（共100个）。测试结果显示，最先进智能体的成功率仅19.1%，而人类非专家可达80%以上，凸显当前智能体与复杂现实场景之间的显著差距。

智能体论文/研究评测/基准

06:47

Artificial Analysis@ArtificialAnlys

61

Artificial Analysis 发布 AA-Briefcase 智能体知识工作基准测试

Artificial Analysis 发布 AA-Briefcase 基准测试，测试模型在多周项目语境下生成财务模型、董事会演示等交付物。关键结果：Claude Opus 4.8 平均每任务 23 分钟，得分最高但最慢；GPT-5.5 (xhigh) 仅 11 分钟，效率最高且 Elo 前五；GLM-5.2 得 1261 分耗时 16.3 分钟，为开源模型最佳；MiniMax-M3 得 1113 分。已下架的 Claude Fable 5 约需 28.5 分钟。工具调用仅占耗时 12%，其余由输出冗余、回合数和推理速度决定。

智能体 Anthropic OpenAI 推理

03:49

Rohan Paul@rohanpaul_ai

48

GLM-5.2 在 ARC-AGI-2 上取得 22.8% 的成绩，成本 $0.25/任务值得注意的是，大约 2025 年 5 月，ARC-AGI-2 上已验证的最佳模型仅为 3.0%。因此，虽然它仍远落后于 GPT-5.5（85%），但 GLM-5.2 也比 2025 年 5 月的最佳前沿分数高出约 7.6 倍，且每任务成本比 GPT-5.5 的 $1.87 便宜约 7.5 倍。

ARC Prize: GLM-5.2 from @Zai_org on ARC-AGI (Verified) - ARC-AGI-2: 22.8%, $0.25 - ARC-AGI-1: 77.0%, $0.19 Performance is comparabl...

推理评测/基准

03:22

François Chollet@fchollet

64

这是迄今为止开源模型在ARC-AGI-2上取得的最强表现。

ARC Prize: GLM-5.2 from @Zai_org on ARC-AGI (Verified) - ARC-AGI-2: 22.8%, $0.25 - ARC-AGI-1: 77.0%, $0.19 Performance is comparabl...

开源生态推理评测/基准

03:19

Nathan Lambert@natolambert

51

为GLM再添胜绩。该模型有一些脆弱的特性，在这方面被闭源模型压制，但我们应该预期开源模型更加参差不齐，你可以根据任务使用多个模型。再次祝贺@Zai_org，并期待下一个。

François Chollet: This is the strongest ARC-AGI-2 performance to date by an open-source model.

开源生态推理评测/基准

01:36

The Decoder：AI News（RSS）

59

Snowflake CEO 实测：GLM-5.2 与 Opus 4.7 编程能力接近，成本仅为几分之一

Snowflake 内部基准测试显示，在每项任务三次尝试下，GLM-5.2 解决 66% 的编程问题，Anthropic 的 Opus 4.7 解决 67%，两者几乎持平。首次尝试准确率 Opus 为 53.7%，GLM 为 47.6%；GLM 每任务平均迭代 99 次、消耗 8.6 亿 token，Opus 则为 80 次、4.39 亿 token。成本方面，GLM-5.2 输出 token 价格为 $4.40/百万，远低于 Opus 的 $25 和 GPT-5.5 的 $30；输入 token 仅 $1.40/百万。GLM 存在过早放弃和过度检查等弱点，但其定价优势可能对西方 AI 公司的高估值构成压力。

Anthropic OpenAI 编码评测/基准

00:15

Hugging Face：Blog（RSS）

精选61

FFASR 排行榜发布：真实远场条件下 ASR 评测

Treble Technologies 与 Hugging Face 联合推出 FFASR（Far-Field ASR）排行榜，这是首个开源社区驱动的真实远场声学条件 ASR 评测基准。传统近场评测无法反映混响、背景噪声和麦克风距离带来的性能下降。FFASR 使用混合波模拟引擎生成声学数据，涵盖 14 种房间（20–470 m³）和三个信噪比级别（远场高 SNR >14 dB、中 SNR 8–12 dB、低 SNR <6 dB），加上近场干燥条件，共四类条件决定主排名。另有实验室实测/模拟验证轨道和移动声源 beta 版。性能指标同时报告词错误率（WER）和实时因子（RTFx，在 NVIDIA L4 GPU 上评估）。未来将支持多说话人场景、麦克风阵列和回声消除。

Hugging Face 评测/基准语音

推荐理由：远场语音的‘实验室-生产’性能差终于有了量化指标，这个排行榜把 ASR 的真实世界鲁棒性公开化，做语音产品的团队该看看。

6月24日

18:46

meng shao@shao__meng

19

Zcode 接入 GLM-5.2 体验：快、好用、缺 Computer Use

邵猛分享其 AI 编程工具 Zcode 开始使用 GLM-5.2 模型，第一天体验感受：速度快、好用。但对比另一工具 Codex，Zcode 在能力全面性上仍有差距，尤其缺少 Computer Use 功能。最后感谢 @SeTriones 提供 GLM API Key。

编码评测/基准

16:22

MarkTechPost（RSS）

43

2026年16大生成式AI编码工具对比：功能与适用场景

生成式AI已重塑软件开发，从逐行自动补全扩展到全应用生成、多智能体构建管道和自然语言代码库交互。文章对比了16个最佳工具：Atoms*支持自然语言生成可部署应用并并行运行多模型；GitHub Copilot提供IDE内智能补全与代理模式；Tabnine主打本地化私密代码补全；Replit为云端IDE与AI代理；Warp增强终端AI；Hugging Face提供开源模型平台；Codacy自动化代码质量分析；Metabob基于图神经网络检测深层缺陷；aiXcoder可本地运行开源代码模型；Bloop将代码搜索转向AI智能体基础设施；Mintlify等覆盖IDE插件、云部署到代码质量管理多种场景。

编码评测/基准

16:15

meng shao@shao__meng

50

邵猛用 TRAE Work 测试豆包2.1 Pro，视觉还原和前端设计能力超预期

邵猛使用 TRAE Work 测试了字节跳动最新发布的豆包2.1 Pro 模型。官方称豆包2.1 系列在 Coding 和 Agent 能力上显著提升，VLM 能力保持领先，综合能力介于 Claude Opus 4.6 和 4.8 之间。实测中，模型先思考整体规划与实现过程，再读取设计图理解场景和细节，调用最合理的 Skill 规划网页逻辑，分步骤实现后通过本地预览和视觉验证确保效果。最终输出在视觉还原、交互和技术实现上非常细致，包括布局、字体选择、自适应布局，甚至为每个部分配上具有实际意义的图片而非占位符。

多模态编码评测/基准

15:04

数字生命卡兹克@Khazix0918

63

体验微信小微Agent：微信有史以来最大更新，但智能与便捷仍有不足

微信小微Agent常驻左上角，支持语音/文本输入，基座模型为微信自研WeLM（WeLM-V4-80B MoE，激活3B）及DeepSeek。可发消息、红包、语音通话，但每一步需用户确认，且禁止批量发送、读取聊天记录、转发笔记等。已打通朋友圈（限最近2天）、公众号、视频号，支持通过小程序进行本地生活、出行、充值等操作。当前权限“只读不动”，不能删除好友或取消关注。作者认为这是微信最大更新，但在智能程度和便捷性上仍有不足。

智能体 MCP/工具评测/基准

11:55

HuggingFace Daily Papers（社区热门论文）

精选70

NatureBench：AI编码智能体能否匹配Nature系列论文已发表SOTA？

NatureBench是一个跨学科基准测试，包含90个从Nature系列同行评审论文中提取的任务，用于评估AI编码智能体能否超越复现、实现发现。基准基于NatureGym自动化管线，为每个任务提供标准化容器化环境，解决环境碎片化问题。在严格禁用网络搜索的协议下评估10种前沿智能体配置，最强模型仅在17.8%任务上超过已发表SOTA（g>0.1准则）。分析表明，智能体成功主要依赖方法论翻译，失败主因为方法选择错误和计算预算不足。已发布基准、NatureGym管线及公共排行榜。

智能体 GitHub 开源生态评测/基准

推荐理由：这个基准把AI agent丢进Nature论文的复现池里游了一圈，发现最强的配置也只能在17.8%的任务上超越SOTA，而且靠的是方法翻译而非发明——对做科研agent的团队来说，既是冷水也是路线图。

10:49

HuggingFace Daily Papers（社区热门论文）

49

DiffusionBench：扩散Transformer的整体评估基准

当前扩散Transformer（DiT）研究集中于ImageNet类别条件生成单一评估设置，方法排名与文生图（T2I）任务间无强相关。NanoGen框架统一了DiT训练与评估：在ImageNet上匹配SOTA基线，仅需修改12行配置即可训练T2I模型，两种任务训练计算量相当。基于NanoGen训练21个潜在扩散模型后，三个指标上ImageNet与T2I排名间的Pearson相关系数为-0.377至-0.580，表明仅靠ImageNet FID改进未必反映T2I真实进步。为此整合ImageNet与T2I结果形成DiffusionBench，作为替代单一ImageNet评估的DiT整体基准。

图像生成论文/研究评测/基准

08:44

meng shao@shao__meng

51

Apodex深度研究测试：AI Agent公司如何选择产品方向

博主用自进化重型求解器Apodex测试“AI Agent公司如何选择产品方向”。Deep Discovery模式下，Apodex拆解为开发者工具、企业工作流、研究助手三条线，补充VC视角、市场规模等来源，持续验证后给出排序：1. 垂直企业工作流Agent（有明确买方和成本替代逻辑）；2. 垂直研究助手（需针对法律、金融等高价值场景）；3. 开发者工具（竞争被Codex、Cursor、Claude Code等占据）。Apodex强调先验证后下结论，适合变量多、需取舍的复杂议题。体验入口apodex.ai，Hugging Face可下载模型。

智能体推理评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

37

研究：读者认为AI文学翻译"还行"，但仍偏爱人工翻译

一项研究对比了基于智能体大语言模型的机器翻译（MT）与人工翻译（HT）在文学作品中的读者体验。15名读者评估了15部近期从法语、波兰语和日语译成英语的小说节选（每部约8000词）。在沉浸式阅读（30次比较）和精读（772次片段对比）中，读者认为MT“还行”，但更偏好HT（节选19/30偏好HT，片段522/772），因其更易读、清晰且沉浸。MT质量波动更大。读者无法可靠区分两者（17/30猜对），且倾向于相信是人工翻译的版本。自动评测指标（包括LLM作为评判者）无法复现读者偏好。研究发布了LAIT数据集（含1000条读者评论、2000条偏好评分、7200条片段级标注）。

论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

48

Physics Question Scene Graph：文本到视频生成物理合理性细粒度评估方法

论文提出 Physics Question Scene Graph (PQSG)，一种层级问题图评估方法，利用 VLM 生成带逻辑依赖的问题图，从对象、动作和物理定律三个维度细粒度检查生成视频。为验证方法，构建了 FinePhyEval 数据集，包含来自 Sora 2、Veo 3 和 Wan 2.1 的生成视频及人工标注。PQSG 的细粒度评分与人类判断相关性优于以往方法，且闭源模型物理真实性排名高于 Wan 2.1。此外，FinePhyEval 标注可用于子任务评估：两个强 VLM 能生成类人问题，但回答准确率仍不及人类。

视频论文/研究评测/基准

04:25

TechCrunch：AI（RSS）

41

Kiwibit AI 鸟食器成为后院新宠

Kiwibit Bird Feeder 2 4K AI Camera 是一款智能鸟食器，售价 $179.99 至 $249.99。设备配备太阳能板、130 度广角镜头、双向音频，支持 2.4 GHz Wi-Fi 与云存储。配套手机应用通过 Kiwibit 自有算法识别超过 10,000 种鸟类，如冠蓝鸦、乌鸦和哀鸽。测试期间成功记录 6 个物种的造访。应用会推送访客通知，并提供每种鸟类的维基百科详情。缺点是 AI 偶尔会将长时间进食的鸟误计为多次“造访”，并将偷吃种子的松鼠标记为“有害动物”。

02:50

Apple Machine Learning Research（RSS）

精选68

九位评委，两个有效投票：相关错误削弱LLM评审面板

苹果机器学习研究团队发现，LLM-as-a-judge面板因模型间高度相关而严重受限。对7个模型家族的9个前沿大语言模型在3个自然语言推理数据集上的测试表明，9位评委实际仅提供约2个独立投票的信息量，面板准确率比独立投票理想值低8–22个百分点，最佳单一模型的表现已匹敌或超越整个面板。增加评委数量或改进聚合算法收效甚微，即使允许算法获取正确答案也仅能缩小至多11%的差距。该结论在多种提示变体、温度设置及偏好任务中均得到验证，瓶颈在于评委间的相关性而非聚合算法。

论文/研究评测/基准

推荐理由：这篇Apple论文揭示了一个反直觉的事实：在LLM评估面板中，9个法官实际上只提供约2个独立票的信息，因为模型会犯相似错误。这解释了为何简单聚合面板往往不如最佳单模型，做评估的团队必须重视法官相关性。

00:19

AK@_akhaliq

35

PlanBench-XL 评估LLM工具使用智能体在大型工具生态系统中的长时域规划能力

智能体论文/研究评测/基准

00:07

jason@jxnlco

16

给你！可能来自 @itsjessyin https://codex-billboard.vercel.app/

OpenAI 编码评测/基准

6月23日

23:27

The Verge：AI（RSS）

59

Fitbit Air 以更聪明的方式应对 AI 健康乱局

售价 99 美元的 Fitbit Air 是一款轻便手环，续航出色（一个月仅充电三次，45 分钟可充至 85%），支持心率、睡眠、血氧、准备度等指标。核心亮点是与 Google Health 绑定的 AI 健康教练，基于 Gemini 驱动，每日推送睡眠与准备度总结及行动建议，可解读数据趋势并生成旅行健身计划，但不提供诊断。该教练需 $99/年 Premium 订阅，且不独占于 Air。作者认为多数 AI 健康功能是“糟糕的贴金捞钱”，但 Google Health Coach 是其中最接近不糟糕的一款，前提是用户愿意投入大量精力进行引导。

Google 评测/基准

1 234 5…22