6月17日

08:00

HuggingFace Daily Papers（社区热门论文）

为评估视觉-语言-动作模型微调后是否保留常识与事实知识，研究提出Act2Answer轻量协议，将知识评测转为动作答题：智能体通过单次物体放置动作选择答案，获得低控制偏差的动作接地成功率。在涵盖多种常识类别的测试集上，对7个VLA模型与9个VLM基线进行排名。结果显示，VLA在简单概念上表现稳健，但在语义丰富类别上与源VLM差距较大；VQA共训练与更好知识保留相关；答案相关信号在VLA中层最强，上层衰减。

具身智能论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

WorldLines：长时程有状态具身智能体的基准与建模

WorldLines是一个项目驱动的长时程家庭辅助具身智能体基准。它构建包含对话、动作、执行反馈、物体与设备状态变化的长期家庭轨迹，并转化为证据关联样本用于Memory QA和具身任务规划。同时提出ObsMem，一个基于观察者的记忆框架，维护可见性感知记忆和动作原生状态痕迹以支持状态感知决策。实验揭示了部分可观测性、被覆盖的世界状态及将长期记忆转化为具身规划方面的持续挑战，而ObsMem为此场景提供了更强的参考架构。

具身智能论文/研究评测/基准

6月16日

19:59

The Decoder：AI News（RSS）

爱沙尼亚语言研究所发布基准测试：衡量AI模型对俄罗斯宣传的易感性

爱沙尼亚语言研究所发布基准测试，用75个问题覆盖14种宣传叙事，以中立、偏颇和操纵三种措辞测试60个AI模型，评分1-5分（1分代表重复俄方话术）。Claude Opus 4.5作为评估模型。结果显示Anthropic的Claude模型居首，Nvidia Nemotron 3和阿里Qwen 3.6 Plus紧随，Mistral Medium 3.5排在底部三分之一。测试期间模型无网络搜索权限。结果与Newsguard研究一致：Mistral的持续性虚假信息率达36.67%，该公司正以200亿欧元估值谈判30亿欧元融资。

Anthropic 安全/对齐评测/基准

13:58

OpenRouter：Announcements（RSS）

精选75

免费LLM API比较：速率限制、模型与真实成本（2026）

13个平台提供免费LLM API，含永久免费层与试用额度。OpenRouter拥有20+免费模型，单密钥无需信用卡；Groq以约320 tokens/秒运行Llama 3.3 70B；Google AI Studio支持1M上下文；Mistral实验层约10亿token/月但需同意数据训练；Cerebras约1M token/天；GitHub Models提供GPT-4o、Claude 3.5 Sonnet等前沿模型。各免费层有速率限制、数据训练授权、上下文缩减等隐藏成本，建议早期测试2-3个方案并设置故障转移。

评测/基准部署/工程

推荐理由：免费 LLM API 不是免费的，这篇文章把 13 家平台的隐藏成本、速率限制和真实可用性都算清楚了，想省钱的开发者值得花五分钟看一遍。

13:00

IT之家（RSS）

谷歌更新Android Bench榜单：Gemini 3.5 Flash成本最贵，约为DeepSeek V4 Flash的17.5倍

谷歌更新Android Bench榜单，GPT-5.5以74分居首，GPT-5.4与Gemini 3.1 Pro Preview并列第二（72.4分），Claude Opus 4.7（68.7分）和Opus 4.6（66.6分）分列第四、第五。谷歌自家Gemini 3.5 Flash仅获63.7分排第六，平均Token消耗3.559亿，单次运行成本147.1美元，为榜单最贵模型。成本仅为其约1/3的Gemini 3.1 Pro Preview性价比更高。DeepSeek V4 Flash以52.7分排第12，单次运行成本仅8.4美元，后者成本仅为前者的1/17.5。

DeepSeek Google 编码评测/基准

10:21

公众号：数字生命卡兹克

精选69

毕业生陷入AI检测荒诞循环：手写摘要被判99%AI率，AI写部分0%

当前毕业生面临论文AIGC率检测荒诞困境。学生手写摘要被判定99%AI率，纯AI写部分却为0%。学校要求AIGC率不超40%，学生用Claude反复修改并花上百元检测费（维普20元/篇，知网/万方2元/千字符），最终降至36.1%。答辩时老师要求改回学术表达，AI率回升至37.21%。同一论文在不同平台检测结果差异巨大（48%、44%、59%）。部分平台提供降重收费服务，少数学校已改用AI使用声明表替代一刀切检测。

现象/趋势评测/基准

推荐理由：作者通过一个毕业生的真实经历，把AIGC检测的荒谬性扒得干净利落——这不是技术问题，是一刀切懒政的代价。看完你会理解为什么「证明你是人」比写论文更难。

09:59

Berkeley RDI：Blog（AI 安全与评测）

精选83

伯克利RDI发布Agents' Last Exam基准

2026年6月，伯克利RDI发布Agents’ Last Exam（ALE）基准，包含1,500余项源于真实工作的任务，覆盖55个非体力职业。对Fable 5、GPT-5.5、Composer 2.5等前沿智能体的测评显示：在最困难层级成功率均为0%；整体任务表现接近，但单任务成本差异巨大（Fable 5约$15.70，GPT-5.5约$3.80，Composer 2.5约$1.33）。CLI子集ALE-CLI最佳通过率仅25.2%。主要失败模式是智能体未验证输出即宣称完成。数据集、代码及CLI子集已开源。

智能体 arXiv Hugging Face 开源生态

推荐理由：在Fable 5发布后，Berkeley的ALE基准首次大规模量化了agent在专业任务上的真实水平，最难任务0%成功率的结果值得所有押注agent落地的团队冷静下来。

08:00

HuggingFace Daily Papers（社区热门论文）

LegalHalluLens：面向可信法律AI的类型化幻觉审计与校准多智能体辩论

法律AI聚合幻觉率约52%，但掩盖了错误集中方向。LegalHalluLens审计框架包含：类型化幻觉档案（数字、时间、义务权利、事实四类）、风险方向指数（RDI）及校准辩论管线。在510份合同、249,252条款实例中，同一模型内义务/数字类与时间类幻觉率差距达38-40个百分点；两个均报告52%幻觉率的系统RDI可能相反。辩论管线将虚假检测减少45%，以4B参数匹配商业API。类型档案和RDI暴露隐藏失败模式，作为多智能体辩论校准输入。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

CEO-Bench：智能体能玩长期游戏吗？

CEO-Bench通过模拟初创公司500天运营，评估AI智能体在不确定性中规划、获取信息、适应变化和协调多目标的能力。智能体需通过Python接口管理定价、营销、预算等决策，并处理嘈杂数据库。最强模型（Claude Opus 4.8、GPT-5.5）虽能编写复杂代码预测现金流、挖掘客户偏好，但仅勉强使余额维持起始的100万美元以上，无法持续盈利。该基准首次衡量驱动长期自适应进展所需的智能。

智能体论文/研究评测/基准

00:00

Berkeley RDI：Blog（AI 安全与评测）

精选68

SageCTF：最强大CTF挑战AI智能体

UC Santa Barbara与UC Berkeley团队基于OpenSage框架构建了CTF专用智能体SageCTF。在DEF CON CTF 2026资格赛中，SageCTF以单人玩家身份尝试15道挑战，成功攻克7道、恢复8个flag，总计1,743分，排名前5%，超越全部自评“不使用AI”或“低AI”的175支团队。在50道近期CTF挑战的对比测试中，SageCTF以Claude-Opus-4.6为主模型，在相同预算（每道$200/10小时）下解出39道，而Claude Code仅解出13道，且Claude Code的解出全部被SageCTF覆盖。技术核心包括AI自生成拓扑、多智能体通信、分层记忆及多模型协同编排。

智能体推理论文/研究评测/基准

推荐理由：SageCTF 在 DEF CON CTF 排进前 5%，是 AI agent 在顶级安全竞赛中的首次重大突破。OpenSage 的自构建多智能体架构和十小时持续探索的能力，给做复杂推理工具的人提供了真参考。

6月15日

08:00

HuggingFace Daily Papers（社区热门论文）

CoffeeBench：长期异构多智能体经济系统中的大语言模型智能体基准测试

CoffeeBench评估大语言模型智能体在长期多智能体经济系统中的表现。模拟由两个农民、两个烘焙师和两个零售商组成的90天异构企业经济，每个智能体通过通信和交易最大化累计净收入。评测模型控制一个咖啡烘焙师，其余由固定参考智能体控制。测试多个开源和专有LLM，所有模型均优于不采取行动的被动基线，多数实现正净收入。表现更好的模型通信更频繁，而Claude Haiku 4.5出现空闲漂移失败模式，反复选择不作为。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

MyPCBench：面向个性化电脑使用智能体的基准测试

MyPCBench在预置17个模拟真实网页应用及完整桌面栈的Linux环境中，基于《办公室》角色Michael Scott单一画像生成184个任务，测试电脑使用智能体的个人助手能力。6款闭源与开源模型在同一“电脑+bash”工具界面下评测，最佳模型Claude Opus 4.6仅完全解决55.4%任务，是唯一超过50%的模型。失败集中在跨多应用与长轨迹任务。环境、任务集与智能体框架已开源。

智能体 arXiv 论文/研究评测/基准

01:59

Hacker News 热门（buzzing.cc 中文翻译）

精选72

里约热内卢市政府 AI 模型 Rio3.5 在基准测试中击败 Qwen3.7

里约热内卢市政府开发的 AI 模型 Rio3.5，在近期基准测试中超越了 Qwen3.7。该消息源自 Hacker News 上的一篇帖子，指出 Rio3.5 在多项评测中表现优于 Qwen3.7。目前尚未公开具体的测试细节或基准名称。

Hugging Face 开源/仓库模型发布评测/基准

推荐理由：一个市政府 IT 部门训练的模型在基准测试中击败了 Qwen3.7，这让人重新审视谁在参与前沿模型竞争。如果结果可复现，可能是今年最意外的黑马。

6月14日