AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「评测/基准」清除
6月13日周六
10:35Artificial Analysis53Intelligence Frontier 图表首次出现倒退
08:00HuggingFace Daily Papers(社区热门论文)49CODA-BENCH:代码智能体能处理数据密集型任务吗?
07:44AI Notkilleveryoneism Memes ⏸️65AI一年内攻克几乎全部最难数学题
07:34Rohan Paul45NVIDIA 发布首个智能体 AI 基准 AgentPerf:GB300 NVL72 每兆瓦处理智能体数是 H200 的 20 倍
06:34Artificial Analysis59Artificial Analysis 发布 AA-AgentPerf 基准,首批测试 DeepSeek V4 Pro 推理能效
06:34Rohan Paul73Nature Medicine 研究:通用大语言模型在临床任务上已超越专用医疗 AI
04:21Chubby♨️24Fable 5领先或止于GPT-5.6
03:33Ethan Mollick57Claude Fable 5 FrontierMath 成绩亮眼
03:26Epoch AI41Claude Fable 5 FrontierMath 得分 87-88%
02:32Rohan Paul43AGENTCL:面向语言智能体持续学习的严格评估
01:56Epoch AI64FrontierMath v2 上线,GPT-5.5 与 Google AI 领先
01:55The Verge:AI(RSS)62Siri现在变好了吗?
01:28The Decoder:AI News(RSS)38Anthropic Claude Fable 5:价格翻倍,性能仅提升5.7%
00:00Hugging Face:Blog(RSS)74精选olmo-eval:面向模型开发循环的评估工作台
6月12日周五
23:02Ethan Mollick72前沿LLM在医学评估中超越专业临床AI工具
20:18HuggingFace Daily Papers(社区热门论文)56IndustryBench-MIPU:面向工业产品的多图像属性提取基准
15:03Artificial Analysis60Artificial Analysis 更新 Coding Agent Index:DeepSWE 替换 SWE-Bench Pro,Claude Code with Fable 5 登顶
12:00HuggingFace Daily Papers(社区热门论文)67EvoArena:面向动态环境的LLM智能体记忆演化基准与EvoMem记忆范式
12:00HuggingFace Daily Papers(社区热门论文)69EvoBrowseComp:基于动态知识的搜索智能体评测基准
11:32AK67智能体的最后考试
09:30Rohan Paul56单卡实测:DiffusionGemma 速度是 Gemma4 的 4 倍,但事实错误多 6 倍
08:00HuggingFace Daily Papers(社区热门论文)64MVEB:大规模视频嵌入基准
08:00HuggingFace Daily Papers(社区热门论文)49PhoneHarness:混合GUI、CLI与工具动作的手机智能体基准与执行框架
06:03elvis2510岁孩子体验Codex称"这就是未来"
05:17Hacker News 热门(buzzing.cc 中文翻译)52Claude Fable 5 在编码任务中表现中等
02:02Artificial Analysis61Artificial Analysis 联合 NVIDIA 发布 AI 护栏基准测试
01:55Noam Brown63GPT-5.5 在 Agents' Last Exam 基准中排名第一,最难任务所有智能体成功率 0%
00:30AK58TRL-Bench:标准化表格编码器表示级评估
00:16OpenRouter74同事件精选OpenRouter 基准测试探索器支持帕累托曲线同一事件,精选展示《OpenRouter 基准探索器:10项帕累托曲线》
6月11日周四
23:46OpenRouter77精选OpenRouter 基准探索器:10项帕累托曲线
14:30IT之家(RSS)60苹果 CoreAI 端侧 AI 引擎测试:小模型解码速度是 MLX 的 2.47 倍,大模型性能持平
12:58HuggingFace Daily Papers(社区热门论文)68Claw-SWE-Bench:评估OpenClaw风格智能体框架编程能力的多语言基准
10:25Rohan Paul63LLM安全法官在不同安全标准与危害类别上判定不一致
09:30IT之家(RSS)63外媒体验苹果 iOS 27 全新 Siri AI:回复简洁,不套近乎
08:55Rohan Paul67Agents' Last Exam 基准:AI 智能体在真实专家任务中远未达标
08:00HuggingFace Daily Papers(社区热门论文)48DailyReport:面向日常搜索任务的开放搜索智能体评估基准
08:00HuggingFace Daily Papers(社区热门论文)38电子表格下一步操作预测评估基准与框架
08:00HuggingFace Daily Papers(社区热门论文)76精选对抗性重新包装:仅修改呈现层即可欺骗AI同行评审
02:13OpenRouter63OpenRouter大逃杀实验:最友善AI模型惨败
00:44Chubby♨️43Fable 5一次性生成类似晨风风格的游戏
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月13日
10:35
Artificial Analysis@ArtificialAnlys
53
今天是我们 Intelligence Frontier 图表首次出现回退。
现象/趋势评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
49
CODA-BENCH:代码智能体能处理数据密集型任务吗?

CODA-BENCH 是首个同时评估代码智能体在代码与数据两方面能力的基准测试,专为数据密集型环境设计。该基准基于 Kaggle 生态系统搭建,包含数百个数据集,共 1009 个任务,覆盖 31 个社区。每个任务环境平均拥有 980 个文件,模拟真实的数据规模与噪声。对现有高级智能体的评估显示,即使表现最佳的系统也难以有效整合数据发现与代码执行,成功率仅为 61.1%,暴露了当前智能体在处理数据密集型任务时的能力缺口。

智能体数据/训练评测/基准
07:44
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
65
一年之内,AI从几乎无法解决任何最难数学问题,发展到几乎能解决所有它们。

Epoch AI: Claude Fable 5 scores very well on FrontierMath: Tiers 1-4 (v2), reaching 87% on Tiers 1-3 and 88% on Tier 4. This conti...

Anthropic推理评测/基准
07:34
Rohan Paul@rohanpaul_ai
45
NVIDIA 发布首个智能体 AI 基准 AgentPerf:GB300 NVL72 每兆瓦处理智能体数是 H200 的 20 倍

NVIDIA 首次在 AgentPerf(由 Artificial Analysis 开发)中评测智能体 AI。该基准测试的不是传统 token 生成速度,而是每兆瓦可同时运行且保持响应性的编码智能体数量。工作负载模拟真实编码智能体路径(长链模型调用、代码编辑、命令运行、工具延迟、增长上下文),涵盖 12+ 编程语言,请求长度 5K–131K tokens(平均 27K)。结果:GB300 NVL72 在最低服务层每兆瓦达 61.4K 并发智能体,H200 仅为 2.6K(20 倍提升)。性能提升源于 72 GPU 通过 NVLink 组成的机架级系统,配合软件优化(MoE 专家分布、通信与计算重叠、大批量保持)。

评测/基准部署/工程
06:34
Artificial Analysis@ArtificialAnlys
59
Artificial Analysis 发布 AA-AgentPerf 基准,首批测试 DeepSeek V4 Pro 推理能效

Artificial Analysis 发布新基准 AA-AgentPerf,首批结果覆盖 DeepSeek V4 Pro 在 NVIDIA Blackwell(GB300、B300)、Hopper(H200)及 AMD MI355X 上的推理能效。核心指标为每兆瓦承载的并发智能体数(要求 20 tokens/s 且 TTFT≤10s):GB300(机架级解耦)达 61,354,B300(单节点解耦)21,053,MI355X 3,551,H200 2,594。基准使用真实编码 agent 轨迹(最多 200 轮、序列超 100K tokens),允许 KV cache 复用、推测解码等生产优化并验证精度。测试显示 Blackwell 机架级比单节点能效高约 3 倍,且代际大幅领先 Hopper;MI355X 配置较早且未稳定启用推测解码,仍有优化空间。

DeepSeek推理评测/基准
06:34
Rohan Paul@rohanpaul_ai
73
Nature Medicine 研究:通用大语言模型在临床任务上已超越专用医疗 AI

《自然·医学》一项研究发现,通用大语言模型在经医生评审的临床任务上已超越专用医疗 AI 产品。研究对比了 OpenEvidence、UpToDate Expert AI 与 GPT-5.2、Gemini 3.1 Pro、Claude Opus 4.6 在医学考试题、医生风格回答及实时临床提问上的表现。在来自真实临床场景的 100 个脱敏医生问题中,盲审医生更偏好前沿模型,尤其在其回答的完整性和清晰度方面。

AnthropicGoogleOpenAI论文/研究
04:21
Chubby♨️@kimmonismus
24
观察图表,我认为 Fable 5 只会保持领先直到 GPT-5.6。 其次,我认为该基准测试很快就会完全饱和。

Epoch AI: Claude Fable 5 scores very well on FrontierMath: Tiers 1-4 (v2), reaching 87% on Tiers 1-3 and 88% on Tier 4. This conti...

AnthropicOpenAI推理评测/基准
03:33
Ethan Mollick@emollick
57
Claude Fable 5 在 FrontierMath 基准测试(Tiers 1-4, v2)中表现优异,Tiers 1-3 得分 87%,Tier 4 得分 88%,延续了 Anthropic 模型数学能力快速提升的趋势。主推文评论道:"图形的形状越来越熟悉了。"

Epoch AI: Claude Fable 5 scores very well on FrontierMath: Tiers 1-4 (v2), reaching 87% on Tiers 1-3 and 88% on Tier 4. This conti...

Anthropic推理评测/基准
03:26
Epoch AI@EpochAIResearch
41
Claude Fable 5 在 FrontierMath(Tiers 1-4,v2)上得分很高,在 Tiers 1-3 上达到 87%,在 Tier 4 上达到 88%。这延续了 Anthropic 模型在数学上快速提升的趋势。
Anthropic推理评测/基准
02:32
Rohan Paul@rohanpaul_ai
43
AGENTCL:面向语言智能体持续学习的严格评估

AGENTCL 提出评估 AI 智能体是否真正从经验学习,而非单纯累积信息。通过构建组合任务流(前序任务包含可被后续任务复用的代码片段、研究证据或工作流),与无固定复用线索的随意任务流对比。关键发现:当前记忆方法在任务连接明显时可复用过去经验,但当任务差异较大时仍难以避免混淆。论文旨在为智能体持续学习提供更清晰的测评标准。

智能体论文/研究评测/基准
01:56
Epoch AI@EpochAIResearch
64
FrontierMath: Tiers 1-4 (v2) 现已上线。 我们完成了一项审计,修正了 42% 的问题中的错误。排名相似,但整体得分更高。目前的领先者是 GPT-5.5 (xhigh),在 Tiers 1-3 上达到 85%,以及 Google 的 AI co-mathematician,在 Tier 4 上达到 76%。
GoogleOpenAI推理评测/基准
01:55
The Verge:AI(RSS)
62
Siri现在变好了吗?

苹果发布了新版Siri AI,The Verge编辑David和Nilay在The Vergecast中分享了初期体验。过去十几年Siri在"部分功能勉强可用"和"彻底翻车"之间摇摆,而新版Siri AI在多数任务上表现足够出色,尽管没有带来突破性创新,但相比过往已发生质变。

评测/基准语音
01:28
The Decoder:AI News(RSS)
38
Anthropic Claude Fable 5:价格翻倍,性能仅提升5.7%

Claude Fable 5 在 Artificial Analysis Intelligence Index 中取得 64.9 分,在十项基准测试中有五项创下纪录。相比 Opus 4.8,性能提升仅 5.7%,但 token 价格翻倍。安全过滤与回退路由功能进一步推高了成本。

Anthropic评测/基准
00:00
Hugging Face:Blog(RSS)
精选74
olmo-eval:面向模型开发循环的评估工作台

olmo-eval 是基于 OLMES 标准构建的评估工作台,专为 LLM 持续开发中的反复评测场景设计。相比 OLMES,它减少了新增评测的实现工作量,支持 agentic 和多轮评测作为一等用例,并允许根据基准需求选择轻量直接运行或容器化隔离运行。采用模块化架构,模型、工具、容器环境、辅助模型均可独立替换。评测结果同时报告分数、标准误差和最小可检测效应。与 Harbor 侧重于发布不同,olmo-eval 聚焦开发阶段快速迭代,可逐问题对比检查点输出以区分真实改进与噪声。

Hugging Face产品更新开源生态评测/基准

推荐理由:做模型训练的人会感谢这个工具,它把评估从一次性打分变成能持续对比的流程,按题对比两个 checkpoint 的功能很实用,但如果你不训模型,这篇可以跳过。
6月12日
23:02
Ethan Mollick@emollick
72
一项发表在Nature Medicine的研究显示,通用前沿大语言模型(Google、OpenAI、Anthropic)在医学信息评估中全面优于专门的临床AI工具(OpenEvidence和UpToDate)。12名美国临床医生进行随机盲测,Frontier LLMs在三项评估中均胜出。临床AI工具的表现与自动启用的Google Search AI Overview在RCQ测试中相当。

Eric Topol: For medical information, general AI frontier models (Google, OpenAI, Anthropic) outperformed specialized @EvidenceOpen a...

AnthropicGoogleOpenAI论文/研究
20:18
HuggingFace Daily Papers(社区热门论文)
56
IndustryBench-MIPU:面向工业产品的多图像属性提取基准

IndustryBench-MIPU是首个大规模多图像工业产品理解基准,聚焦结构化属性提取——从产品图像中恢复属性-值对。基准涵盖18个工业类别、4,559个产品、27,652张图像和103,703条标注,通过多模型共识与三级质量审核构建。在9个多模态大语言模型上的评估显示:单图像属性提取精度达86–94%,但产品级多图像召回最高仅49.9%;从单图像转向多图像提取时,召回率下降15–34个百分点。多图像完整性是核心瓶颈,而非单图像准确率。数据集与代码已公开。

arXiv多模态论文/研究评测/基准
15:03
Artificial Analysis@ArtificialAnlys
60
Artificial Analysis 更新 Coding Agent Index:DeepSWE 替换 SWE-Bench Pro,Claude Code with Fable 5 登顶

Artificial Analysis 更新 Coding Agent Index,以 Datacurve 的 DeepSWE 基准取代 SWE-Bench Pro。DeepSWE 从头编写测试任务,而非改编自公开 GitHub issue/PR,避免训练数据泄露;原 SWE-Bench Pro 存在模型从仓库提交历史恢复修复的作弊问题。换基准后排名变动:Codex with GPT-5.5 (xhigh) 从 65 升至 76,超过 Claude Code with Opus 4.8 (max) 的 73;新发布的 Claude Code with Fable 5 (max) 以 77 分直接登顶。

智能体AnthropicOpenAI编码
12:00
HuggingFace Daily Papers(社区热门论文)
67
EvoArena:面向动态环境的LLM智能体记忆演化基准与EvoMem记忆范式

EvoArena是一个基准套件,将环境变化建模为终端、软件和社交领域的渐进更新序列,用于评估LLM智能体在动态环境中的表现。实验显示,当前智能体在EvoArena上的平均准确率仅为39.6%。EvoMem是一种基于补丁的记忆范式,通过结构化更新历史记录记忆演化,使智能体根据记忆变化推理环境演变。EvoMem在EvoArena上带来平均1.5%的性能提升,在GAIA和LoCoMo上分别提升6.1%和4.8%,并将EvoArena链级准确率提升3.7%。机制分析表明,EvoMem改善了记忆中的证据捕获,更完整地保留演化环境状态。

智能体论文/研究评测/基准
12:00
HuggingFace Daily Papers(社区热门论文)
69
EvoBrowseComp:基于动态知识的搜索智能体评测基准

EvoBrowseComp 提出包含 400 英文和 400 中文无污染复杂问题的动态基准,问题通过实时网络遍历合成。其采用三智能体协作框架:QA 合成智能体从实时网页检索知识生成问答对;信息过滤智能体按可信度和流行度过滤以阻止参数捷径;高层指导智能体将问题形式化为推理图减少逻辑冗余。该框架支持自动合成与定期更新,防止污染并保持时效性。实验表明该基准难度极高,需广泛横向搜索能力,为可自动更新的高难度评测建立了可扩展范式。

智能体arXiv论文/研究评测/基准
11:32
AK@_akhaliq
67
智能体的最后考试
智能体评测/基准
09:30
Rohan Paul@rohanpaul_ai
56
单卡实测:DiffusionGemma 速度是 Gemma4 的 4 倍,但事实错误多 6 倍

atomic[.]chat 在单张 H100(FP8)上对比 DiffusionGemma 26B A4B 与 Gemma4 26B A4B 在事实性写作任务中的表现。DiffusionGemma 速度达 763 tok/s(3.7 秒),是 Gemma4(218 tok/s,15.1 秒)的 4 倍,但错误率显著更高。在 Steve Jobs 传记、Tetris 历史和 BeOS 故事三项任务中,Gemma4 答对 45 个事实、错 5 个;DiffusionGemma 仅对 33 个、错 28 个。主题越冷门错误越多:Jobs 4 错、Tetris 12 错、BeOS 12 错,例如将 Jobs 母亲写为 Clara Clley、为 Tetris 发明者虚构同事 Geri Gulovik、将 BeBox 价格误报为 $9,999(实价 $1,600)。原因在于 DiffusionGemma 一次生成 256 tokens 并多轮抛光,只追求文本流畅性而非事实准确性。Google 官方也建议在事实重要时使用常规 Gemma4。

atomic.chat: Diffusion Gemma is 4x faster, but makes 6x more mistakes! We benchmarked the new diffusion LLM against its autoregressiv...

Google评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
64
MVEB:大规模视频嵌入基准

MVEB是一个包含23项任务的视频嵌入基准,涵盖分类、零样本分类、聚类、对分类、检索及视频问答。对33个模型的评估显示无单一模型主导:基于MLLM的嵌入在分类、聚类、对分类和问答上领先;多模态绑定方法在检索和零样本分类上领先;缺乏对比适应的生成式MLLM在跨模态任务上崩溃。对比纯视频与音视频评估表明,音频的贡献取决于数据标注来源:标签来自双模态时音频有帮助,仅来自视觉时则有害,差距达6个百分点且跨模型家族一致。MVEB衍生自184项任务的MVEB+池,在降低评估成本的同时保持任务多样性,并集成到MTEB生态系统中。代码和排行榜已开源。

GitHub多模态视频评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
49
PhoneHarness:混合GUI、CLI与工具动作的手机智能体基准与执行框架

PhoneHarness是一个面向手机智能体的混合动作基准与执行框架,支持GUI、CLI和主机端工具动作的混合路由与可审计执行轨迹。其评测集PhoneHarness Bench要求智能体完成带有可观察副作用的移动工作流,而非仅输出合理答案。在标注评测集上,PhoneHarness达到75.0%通过率,超出最强非PhoneHarness设置12.9个百分点。结果表明,可靠的手机自动化依赖动作表面路由与可验证执行,而非单纯的视觉GUI控制。

智能体论文/研究评测/基准
06:03
elvis@omarsar0
25
今天让我10岁的孩子体验了Codex。 他脸上的兴奋说明了一切。 在用Claude Code CLI折腾了一会儿之后,今天他说:"这就是未来,爸爸。" Codex团队打造了一个漂亮的应用程序。
OpenAI编码评测/基准
05:17
Hacker News 热门(buzzing.cc 中文翻译)
52
Claude Fable 5 在编码任务中表现中等

Claude Fable 5 在编码任务中取得中等水平结果,Hacker News 上获 109 个点赞。

Anthropic安全/对齐编码评测/基准
02:02
Artificial Analysis@ArtificialAnlys
61
Artificial Analysis 联合 NVIDIA 发布 AI 护栏基准测试

随着用户和企业赋予 AI 模型与智能体更高自主权,其输入输出护栏的重要性持续上升。Artificial Analysis 与 NVIDIA 合作,在三个开放数据集上独立基准测试了护栏与审核模型,评估检测质量、延迟以及在捕获不安全内容与过度拒绝安全内容之间的权衡。结果显示无模型全面领先,且业内仍缺乏统一评判标准。该研究被视为这一日益重要的评估问题的早期探索。

安全/对齐评测/基准
01:55
Noam Brown@polynoamial
63
OpenAI 研究员 Noam Brown 表示,GPT-5.5 在 Agents' Last Exam(ALE)基准中排名第一,且按模型 token、成本或墙钟时间衡量同样表现最佳。ALE 由 @dawnsongtweets 团队创建,是一个滚动基准,包含超过 1500 个专家任务、覆盖 55 个职业,测试 AI 智能体能否执行实际经济价值工作。评估对象包括 GPT-5.5、Fable 5、Composer 2.5 等前沿系统。结果显示:当前智能体能解决部分专业任务,但在需要持续推理和深度专业知识的最难层级,所有被测前沿智能体(包括 Fable 5)成功率为 0%。

Dawn Song: Everyone says the latest AI agents will be "job-ready" soon, especially after the release of Fable 5 this week. But is t...

OpenAI大佬观点评测/基准
00:30
AK@_akhaliq
58
TRL-Bench 标准化跨范式表格编码器的表示级评估
数据/训练论文/研究评测/基准
00:16
OpenRouter@OpenRouter
同事件精选74
使用我们的基准测试探索器,为 10 个不同基准(包括 @ArtificialAnlys 和 @Designarena)绘制帕累托曲线: https://openrouter.ai/rankings#benchmarks
产品更新评测/基准
同一事件,精选展示《OpenRouter 基准探索器:10项帕累托曲线》
推荐理由:以前比模型得一个个表格翻,这次 OpenRouter 直接画帕累托前沿,对每天在几个模型间纠结的人是个真工具,可以常驻标签页。
6月11日
23:46
OpenRouter@OpenRouter
精选77
使用我们的基准探索器,为10个不同基准绘制帕累托曲线。 更多功能即将推出!https://openrouter.ai/rankings#benchmarks
产品更新评测/基准

推荐理由:老是纠结选哪个模型又便宜又好用?OpenRouter 这个基准浏览器把性能和价格画成帕累托曲线,一眼看出性价比之王,选型党必备。
14:30
IT之家(RSS)
60
苹果 CoreAI 端侧 AI 引擎测试:小模型解码速度是 MLX 的 2.47 倍,大模型性能持平

苹果在 WWDC 2026 推出 CoreAI 引擎,接替 CoreML,主攻端侧大语言模型推理。首批测试显示,M4 Mac 上运行 Qwen3 0.6B 时 CoreAI 解码速度约是 MLX 的 2.47 倍,iPhone 17 Pro 上约 1.6 倍;但模型升至 Qwen3 8B(M4 Max)时优势缩至 5%。持续负载下 iPhone 17 Pro GPU 降频,CoreML 配合苹果神经引擎(ANE)性能保持率反超。横向对比,谷歌 LiteRT-LM 运行 Gemma 达 55.4 tok/s,RAM 仅 641 MB,而 MLX 占用 2900 MB。

产品更新推理端侧评测/基准
12:58
HuggingFace Daily Papers(社区热门论文)
68
Claw-SWE-Bench:评估OpenClaw风格智能体框架编程能力的多语言基准

Claw-SWE-Bench是一个多语言SWE-bench风格基准和适配器协议,用于在公平设置下比较通用智能体框架(claws)的编程能力。完整基准包含350个GitHub issue解决实例,覆盖8种语言和43个仓库,来源于SWE-bench-Multilingual和SWE-bench-Verified-Mini。同时发布80实例的Lite子集用于快速验证。在完整基准上,OpenClaw搭配最小适配器仅得19.1% Pass@1,而完整适配器使用相同GLM 5.1骨干达到73.4%,表明适配器设计至关重要。模型选择改变Pass@1达29.4个百分点,框架选择改变27.4个百分点;相似精度的系统总API成本差异巨大。Claw-SWE-Bench将框架和成本核算作为SWE风格编码智能体评估的第一类维度。

智能体开源/仓库编码评测/基准
10:25
Rohan Paul@rohanpaul_ai
63
LLM安全法官在不同安全标准与危害类别上判定不一致

一项新研究指出,用大语言模型评判其他模型回答是否安全的“LLM安全法官”存在严重不稳定:将相同回答翻译或改写后,法官可能给出不同安全判定。在暴力、极端内容等明显危害场景下表现较好,但在需结合上下文判断的金融建议、信用评估、文化敏感回复等场景中可靠性显著下降。不同法官之间也常出现分歧,高原始一致性有时会掩盖低真实可靠性——因为许多法官默认选择同一标签。论文标题为“LLM Judges Inconsistently Disagree Across Safety Criteria and Harm Categories”。

arXiv安全/对齐论文/研究评测/基准
09:30
IT之家(RSS)
63
外媒体验苹果 iOS 27 全新 Siri AI:回复简洁,不套近乎

外媒 The Verge 体验苹果 iOS 27 全新 Siri AI,发现其回复极为简洁,不套近乎。相比谷歌 Gemini 热情外放、ChatGPT 力求沉稳但仍拉近距离,Siri AI 只回答问题,不作闲聊引导。例如问“最近怎么样”,Siri AI 直接建议开启设置搜索新闻;问天气时提示美国国家气象局已发布极端高温预警;问“你能做我的朋友吗”回答“无论顺逆境,我都会做你的朋友”;问“你喜欢我吗”回答“我觉得你很不错”。苹果将 Siri AI 定位为实用工具,新版需等到今年秋季 iOS 27 正式推送后全面开放。

评测/基准语音
08:55
Rohan Paul@rohanpaul_ai
67
Agents' Last Exam 基准:AI 智能体在真实专家任务中远未达标

一篇新论文提出“Agents’ Last Exam”基准,测试 AI 智能体完成真实专家工作的能力。任务来自工程、金融、医学、法律、媒体、科学等 55 个数字工作领域的实际项目,要求智能体使用文件、浏览器、命令行、桌面软件等常规工具产出可交付成果。评测采用自动检查或严格评分标准。结果显示,当前最强智能体在最难任务层级的平均完全通过率仅 2.6%,远低于其基准测试分数所暗示的水平。论文指出,基准成功尚未转化为广泛的职场能力。

智能体arXiv论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
48
DailyReport:面向日常搜索任务的开放搜索智能体评估基准

DailyReport 是一个用于评估搜索智能体(Search Agents)在日常搜索任务中能力的开放基准。它包含 150 个开放式任务和 3,546 条级联评分规则,将每个任务分解为子任务,并在可分离维度上进行细粒度评分。通过级联性能归因和以用户为中心的聚合,得到每个维度的可解释分数及用户偏好分数。在 17 个智能体系统上的测试结果显示,当前系统仍未达到用户期望。数据集和代码已公开。

智能体论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
38
电子表格下一步操作预测评估基准与框架

针对电子表格中预测用户后续操作的功能缺失,该研究提出新的评估基准。手动从公开语料库整理52个操作序列(共计12K条操作),通过参数化启发式与LLM精炼生成。在线评估方法在每个用户操作后要求模型进行预测,接受或拒绝预测结果,接受则更新后续操作,直至目标电子表格达成。基线预测器涵盖零样本LLM、微调SLM与经典模型。实验分析了已保存操作与假阳性、效率、用户画像、触发条件和上下文等关键属性。

论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
精选76
对抗性重新包装:仅修改呈现层即可欺骗AI同行评审

研究提出对抗性重新包装攻击,在不改动科学证据(方法、实验、数据等)的前提下,仅修改摘要、贡献定位、相关工作、讨论和叙事结构等呈现层内容,并利用AI审稿人反馈进行闭环搜索。在三种主流AI审稿系统上,攻击成功率达75.1%,平均得分提高+1.21/10。策略中,相关工作重定位和分析性讨论扩展等结构性改动效果显著优于表面编辑。分析揭示两种失败模式:AI审稿人更易被亮点打动而非被说服,且会将“看起来解决了限制”与“实际解决”相混淆。研究发布了无污染滚动基准和攻击框架用于测试内容锚定性。

arXiv安全/对齐论文/研究评测/基准

推荐理由:这篇论文戳破一个令人不安的真相:AI 审稿人可以被纯粹的文字包装欺骗,不碰证据就能大幅拉升评分。它把论文呈现本身变成了一枚可优化的攻击面,做学术出版与 AI 评估的人都要正视这个结构性缺陷。
02:13
OpenRouter@OpenRouter
63
OpenRouter开发者@jjacky构建了Royale: Last Agent Stand--一个专属AI智能体的大逃杀游戏,让11个LLM在零和竞争环境中自由对抗30轮。结果发现,最"友善"的模型输得最惨,而最意想不到的模型反而获胜。该实验揭示了传统基准测试无法捕捉的现象:在特定任务中,AI过于友善可能成为劣势。

jacky: no benchmark will tell you this: LLMs can be /too/ nice unsurprisingly, in a competitive zero-sum setting, being nice ca...

智能体现象/趋势评测/基准
00:44
Chubby♨️@kimmonismus
43
一个更现实的单次生成游戏的例子。要求Fable 5以《上古卷轴5:晨风》的风格重新创建一个游戏。它一次性生成了任务、货币、战斗、日志和小地图。而且它成功了。
编码评测/基准
‹ 上一页
1…56789…22
下一页 ›