AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「评测/基准」清除
6月5日周五
08:00HuggingFace Daily Papers(社区热门论文)56MMAE:大规模多任务音频编辑基准
04:56Ars Technica:AI(RSS)58爱沙尼亚政府基准测试:这些LLM在抵制俄罗斯宣传方面表现最佳
04:34DogeDesigner31Grok高清化像素图胜ChatGPT
03:15swyx55Cognition推出面向企业的AI代码评估(eval)
02:25Artificial Analysis65NVIDIA 发布 Nemotron 3 Ultra,专注低延迟智能体性能
00:43HuggingFace Daily Papers(社区热门论文)66圣彼得堡博弈揭示LLM风险决策的表面行为对齐与机制差异
6月4日周四
21:54Artificial Analysis74NVIDIA 发布 Nemotron 3 Ultra,成美国开源权重模型智能新标杆
21:43HuggingFace Daily Papers(社区热门论文)62MedSP1000:标准化病人驱动的临床智能体交互式基准
21:00公众号:昆仑万维(天工)64精选SkyClaw-v1.0 深度实测:Agent专属模型,顶尖性能表现,极致价格优势
20:42Hugging Face:Blog(RSS)65精选EVA-Bench Data 2.0 发布:覆盖三大领域、121 个工具、213 个场景
20:00OpenRouter:Announcements(RSS)58同事件精选OpenRouter 横评 11 款 LLM 机器人冲刺对决:Claude 与 Grok 谁更胜一筹?同一事件,精选展示《OpenRouter 翻遍 11 款 LLM 找最快的决策模型:Claude vs. Grok 领衔》
19:11IT之家(RSS)29华硕破晓 Ultra 评测:第三代酷睿 Ultra 处理器 + 双层 OLED 触控屏
18:22karminski-牙医64MiniMax-M3 实测
16:11IT之家(RSS)61安全研究员测试AI漏洞挑战:GPT-5.5成功率最高,DeepSeek V4 Pro成本最低
14:11IT之家(RSS)35"高质量 Token 服务研讨会"将首次发布公有云大模型 Token 服务性能测评结果
14:09宝玉57Codex GPT-5.5 被吐槽不如 Claude Opus 4.8
13:51Chubby♨️67斯坦福盲测:法律教授更青睐AI答案
11:52Artificial Analysis67StepFun 开源 Step 3.7 Flash 模型,性能与速度并进
11:42HuggingFace Daily Papers(社区热门论文)69M^3Eval:基于认知任务的视频多模态记忆评估基准
11:42HuggingFace Daily Papers(社区热门论文)64WebRISE:面向MLLM生成Web工件的需求诱导状态评估基准
10:01公众号:阶跃星辰(Step)45阶跃 Step 3.7 Flash 拿下 Artificial Analysis 多个第一
09:42HuggingFace Daily Papers(社区热门论文)72精选Meta-Agent Challenge:自主智能体开发能力评估框架
08:00HuggingFace Daily Papers(社区热门论文)58UnpredictaBench:评估大语言模型分布随机性的基准
08:00HuggingFace Daily Papers(社区热门论文)53SubtleMemory: 细粒度关系记忆辨别基准
05:25AI Notkilleveryoneism Memes ⏸️44论文用最先进LLM证明AI仍有短板
01:51Artificial Analysis71Jensen Huang Computex 演讲引用 Artificial Analysis 基准介绍 Nemotron 3 Ultra 性能
00:45StepFun44阶跃星辰 Step 3.7 Flash 在物理编程对比中击败 DeepSeek V4-Flash
6月3日周三
18:39公众号:卡尔的AI沃茨67MiniMax M3发布,全链路Agent能力补全
17:09IT之家(RSS)47用AI写文章劝学生不用AI:西悉尼大学副校长稿件被《悉尼先驱晨报》撤下
16:09IT之家(RSS)403DMark 预告新 GPU 测试:4K 路径追踪亮相,加入 AI 超分和帧生成
11:45Saining Xie67VSTAT:多模态大模型视频视觉状态跟踪基准测试
08:26DogeDesigner21Grok Imagine 处理 Logo 效果出色
08:00HuggingFace Daily Papers(社区热门论文)45PRECISE:基于预测驱动推理的统计可靠LLM排序评估方法
08:00HuggingFace Daily Papers(社区热门论文)60智能体终极考试(Agents' Last Exam)
08:00HuggingFace Daily Papers(社区热门论文)47自我评估已然存在:用极少数据激发基座大模型的潜在评判校准能力
08:00HuggingFace Daily Papers(社区热门论文)49GENEB: 为什么基因组模型难以比较
06:29fofr37Krea K2 Large 图像模型风格控制体验
04:09IT之家(RSS)65微软发布 ASSERT 开源框架:让开发者更高效地评测 AI 智能体和应用行为
02:38Ethan Mollick47斯坦福研究:Gemini 2.5 Pro 法律问答胜率超人类教授
01:43Lee Robinson58AI模型基准测试遭质疑
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月5日
08:00
HuggingFace Daily Papers(社区热门论文)
56
MMAE:大规模多任务音频编辑基准

MMAE是首个专为通用指令音频编辑设计的综合评估基准,涵盖声音、语音、音乐及其混合共7种音频模态,并建立包含6级任务复杂度、2级细粒度与8种操作类型的分类体系。通过人机协作精心筛选2000个高保真样本,配套基于评分标准的评估框架,将自由形式任务分解为17,741个可验证指标,实现指令遵循与上下文一致性的精确多维度评估。对主流模型的评测显示,精确匹配率(EMR)整体低于5%,在复杂混合模态任务中降至绝对0%。

arXiv多模态论文/研究评测/基准
04:56
Ars Technica:AI(RSS)
58
爱沙尼亚政府基准测试:这些LLM在抵制俄罗斯宣传方面表现最佳

爱沙尼亚政府发布的一项基准测试对数十个LLM模型进行了评估,测试它们对抗俄罗斯“战略叙事”(strategic narratives)的能力,并筛选出表现最佳的模型。

AnthropicGoogleOpenAI安全/对齐
04:34
DogeDesigner@cb_doge
31
ChatGPT vs Grok 让两者将这个像素化的logo转化为高分辨率图像。 ChatGPT严重失败,而Grok提供了干净、清晰的高分辨率图像。 Grok是明显的赢家。
OpenAIxAI图像生成评测/基准
03:15
swyx@swyx
55
Cognition推出面向企业的AI代码评估(eval)

Cognition发布企业级AI代码评估(eval),支持长达100小时深度测试(METR仅约16小时),并附带财务担保:若Devin产出价值低于费用,Cognition将补贴至达标,最高1000万美元。METR数据集覆盖ML工程、GPU内核、网络安全,使用GPT-4o和GPT-5从Claude Code转录估算人类时间,rlog=0.83。Cognition数据集来自126位Devin用户的258个真实会话(Java/TS/Python/C#功能开发、bug修复、迁移),保留集rlog=0.74。

Cognition: AI should earn its keep. Introducing the AI Productivity Guarantee. If Devin delivers less engineering value than you're...

产品更新编码评测/基准
02:25
Artificial Analysis@ArtificialAnlys
65
NVIDIA 发布 Nemotron 3 Ultra,专注低延迟智能体性能

NVIDIA 今日发布 Nemotron 3 Ultra,重点优化低延迟智能体性能。在 Terminal-Bench v2.1 上,该模型与竞品在 4 个递增轮次限制下对比测试。Nemotron 3 Ultra 凭借高推理速度(基于 token 用量与 blackboxai 预部署测得的端点输出速度,以及工具执行实际耗时),在每个轮次限制下完成任务的速度均快于竞品,同时保持了有竞争力的基准分数,处于该评测性能-时间帕累托前沿的领先位置。

智能体推理评测/基准
00:43
HuggingFace Daily Papers(社区热门论文)
66
圣彼得堡博弈揭示LLM风险决策的表面行为对齐与机制差异

以圣彼得堡博弈为平台,评估28个大语言模型。多数模型在原始博弈中生成有限出价,看似与人类风险行为相似;但通过扰动截断、重复玩法、财富量、职业身份等控制变体发现,模型转向条件性和计算合理性行为,人类提示词和指令微调仅降低出价而未改变机制层面响应模式。结果表明风险决策中的行为对齐可能停留在表面。

arXiv安全/对齐论文/研究评测/基准
6月4日
21:54
Artificial Analysis@ArtificialAnlys
74
NVIDIA 发布 Nemotron 3 Ultra,成美国开源权重模型智能新标杆

NVIDIA 发布 Nemotron 3 Ultra,为目前最智能的美国开源权重模型。在 Artificial Analysis Intelligence Index 得分 47.7,领先 Gemma 4 31B(39.2)、Nemotron 3 Super(36.0)和 gpt-oss-120b(33.3),但低于中国开源模型 Kimi K2.6(53.9)。模型总参数约 550B,激活 55B,推理速度超 400 tokens/s,较 gpt-oss-120b 略快且智能显著更高。NVFP4 精度得分 47.7,BF16 得分 48.2,精度差异极小。

开源生态推理模型发布评测/基准
21:43
HuggingFace Daily Papers(社区热门论文)
62
MedSP1000:标准化病人驱动的临床智能体交互式基准

MedSP1000是一个包含1,638个标准化病人(SP)案例和24,602条经同行评审的轨迹级评分标准的交互式基准,用于评估临床智能体动态决策能力。在闭环模拟中,智能体行为依据专家标准逐项打分。测试通用及医学专用大语言模型发现,静态基准表现无法可靠迁移到该场景。最佳模型GPT-5.5仅完成60.4%的专家评分项,最强医学专用模型达40.0%,增加测试时计算量未带来可测量提升。当前大语言模型尚不足以安全整合到临床实践。

智能体论文/研究评测/基准
21:00
公众号:昆仑万维(天工)
精选64
SkyClaw-v1.0 深度实测:Agent专属模型,顶尖性能表现,极致价格优势

5月26日,昆仑万维发布SkyClaw-v1.0,定位面向复杂工具使用和真实世界任务执行的高性能Agent模型,输入仅0.5元/百万token、输出4元/百万。实测显示,其从零生成番茄钟和记账本应用时,能自主用Web Audio API合成音效、用SVG手绘图表,细节处理成熟。在现有代码库修改任务中,越难的任务表现越好:单点bug修复精准,能准确诊断iOS Safari滚动问题并给出克制式修复方案。但官方未报告SWE-bench成绩,表明其优势集中在从零生成与模式匹配场景,而非大型仓库精确修改。极致低价使其在批量Agent任务与快速原型生成上性价比突出。

智能体编码评测/基准

推荐理由:这篇实测把SkyClaw的「从零生成」和「老项目修改」摊开了揉碎了测,不看广告看疗效,让我看清Agent模型的分化到底意味着什么——便宜好用但有边界,想省钱做小工具的你值得细读。
20:42
Hugging Face:Blog(RSS)
精选65
EVA-Bench Data 2.0 发布:覆盖三大领域、121 个工具、213 个场景

EVA-Bench Data 2.0 将评估范围从单一企业领域扩展至航空公司客户服务管理(CSM)、企业 IT 服务管理(ITSM)和医疗 HR 服务交付(HRSD)三个领域,共涵盖 121 个工具、213 个场景,场景数较原始版本增长约 4 倍。每个场景均经 OpenAI GPT-5.4、Google Gemini 3.1 Pro 和 Anthropic Claude Opus 4.6 验证可解性。数据集遵循语音优先、真实性、多样性、认证流程和可复现性五项设计原则,包含单意图、多意图(最多 4 个意图)和对抗性呼叫类型。所有三个数据集已开源,可通过 load_dataset 从 Hugging Face 直接下载。后续将推出多语言扩展。

开源/仓库论文/研究评测/基准

推荐理由:语音代理评测缺的就是这种真实场景的数据集,EVA-Bench 2.0 把航空、IT、医疗三个最棘手的领域打包了,生成流水线也开源,做评测的可以直接拿来用。
20:00
OpenRouter:Announcements(RSS)
同事件精选58
OpenRouter 横评 11 款 LLM 机器人冲刺对决:Claude 与 Grok 谁更胜一筹?

OpenRouter 在 30 场机器人冲刺对决中测试了 11 款大语言模型,共耗 482 美元推理成本。结果指向一个发现:应该重新审视模型 benchmark 的解读方式。

智能体AnthropicxAI推理
同一事件,精选展示《OpenRouter 翻遍 11 款 LLM 找最快的决策模型:Claude vs. Grok 领衔》
推荐理由:第一次看到对齐税被游戏化量化,Grok能赢是因为它没被训练成好人,Claude总想组队则拖后腿,怎么选模型得看你想要哪种人。
19:11
IT之家(RSS)
29
华硕破晓 Ultra 评测:第三代酷睿 Ultra 处理器 + 双层 OLED 触控屏

华硕破晓 Ultra 于今年 3 月发布,搭载第三代酷睿 Ultra X7 358H 处理器和 Intel Arc B390 核显(12 个 Xe3 核心),配备 14 英寸 2.8K 120Hz 双层串联 OLED 触控屏,峰值亮度 1400nit。整机重 1.1kg、厚 10.9mm,内置 70Wh 电池并支持 90W PD 快充,32GB+1TB 版本售价 14999 元。游戏实测方面,1080P 低画质下《CS2》达 306 帧,《赛博朋克:2077》开启 XeSS 后达 100 帧,45W 功耗下噪音不超过 45 分贝。

端侧评测/基准
18:22
karminski-牙医@karminski3
64
MiniMax-M3 实测

MiniMax-M3 实测:前端适配 KCORES2026p2,空间理解、建模精度、美学表现优秀,颜色运用佳;复杂需求如光追引擎需迭代。后端得分超 deepseek-v4-pro 及国产模型,略逊 GPT-5.4-Pro (xhigh)。Agent 能力达榜单第二接单量,规划突出。使用经验:M3 偏好长推理,单次输出可达 64k token,适合嵌入带 plan 模式的 Coding Agent,需做好 prompt 编排,避免大量 tool call;执行约束不足,需增加代码级 harness 闭环。

智能体编码评测/基准
16:11
IT之家(RSS)
61
安全研究员测试AI漏洞挑战:GPT-5.5成功率最高,DeepSeek V4 Pro成本最低

安全研究员Kasra Rahjerdi在故意留有漏洞的APK中植入暴露的Firebase凭据,测试多款大语言模型的安全推理能力。每个模型预算10美元,限时2小时,总花费1500美元。GPT-5.5运行10次成功7次,每次成功成本9.46美元;DeepSeek V4 Pro成功3次,每次成功成本仅0.62美元,约为GPT-5.5的1/15。Claude Sonnet 4.6与Claude Opus 4.8各成功2次,Opus多次被安全护栏中断。Gemini 3.1 Pro Preview几乎每次开局就拒绝,Token消耗中位数仅约9000。测试还涉及GLM 5.1、Qwen 3.7 Max等模型。

AnthropicOpenAI安全/对齐评测/基准
14:11
IT之家(RSS)
35
"高质量 Token 服务研讨会"将首次发布公有云大模型 Token 服务性能测评结果

6 月 16 日,中国信通院人工智能研究所等将在北京联合召开“高质量 Token 服务研讨会”。论坛将成立“高质量 Token 服务特别研究组”,启动“高质量 Token 服务能力攀登计划”,上线新版“公有云大模型 Token 服务性能监测平台”,并发布“公有云大模型 Token 服务性能监测结果(2026 年 6 月)”,对主流 Token 服务平台的 Token 吞吐率、时延等进行量化评估。截至 2026 年 3 月,我国日均 Token 调用量已超 140 万亿次。

行业动态评测/基准
14:09
宝玉@dotey
57
宝玉 (@dotey) 表示,Codex GPT-5.5 在干活上不如 Claude Opus 4.8,尤其在开发 Mac 应用时 Opus 更擅长。@jesselaunz 也反馈 Codex 突然"降智",原本预期 2 天的目标仅 20 分钟就交付,用户给出了评分以来最低的 5/10 分。

Jesse Lau 遁一子: codex突然大降智,原计划跑2天的goal刚才20分钟给我交付了 拿去评分,给了AI评分以来最低的5/10分

AnthropicOpenAI大佬观点编码
13:51
Chubby♨️@kimmonismus
67
一项由斯坦福大学领导的盲测研究,对近3000场匿名对决的分析发现,16所法学院的法律教授在合同法问题中,有75%的时间更偏好AI生成的答案,而非教授自己写的答案,并且认为AI回答的教学危害性远低于后者(3.5% vs 12%)。 "研究团队测试了多种系统,包括商业辅导工具和Google的NotebookLM。" 现在想象6-12个月后模型的表现。
论文/研究评测/基准
11:52
Artificial Analysis@ArtificialAnlys
67
StepFun 开源 Step 3.7 Flash 模型,性能与速度并进

StepFun 开源 Step 3.7 Flash(Apache 2.0),总参数 198B、激活 11B(MoE),上下文 256K。在 Artificial Analysis 智能指数上得分 42.6,较 Step 3.5 Flash 提升 4 分,输出速度超 400 tokens/s,通过 Multi-Token Prediction(3 个 token)加速。新增 1.8B 视觉编码器支持原生多模态,MMMU-Pro 得分 75.3%。代理能力提升:GDPval-AA Elo 从 1070 升至 1298,TerminalBench Hard 达 35.6%,AA-LCR 63.7%。知识/幻觉仍弱:AA-Omniscience 准确率 25.4%,幻觉率 84.4%。提供 BF16、FP8、NVFP4 精度权重以降低部署成本。

多模态开源生态推理模型发布
11:42
HuggingFace Daily Papers(社区热门论文)
69
M^3Eval:基于认知任务的视频多模态记忆评估基准

M^3Eval是首个系统评估多模态模型记忆能力的基准框架,基于认知心理学设计任务以隔离不同记忆维度。对代表性多模态模型的实验发现:模型难以在并行视频流中保持分离表示,干扰模式与人类记忆差异显著,空间域的记忆溯源比时间域更可靠,符号记忆能力有限。代码与数据集已公开。

多模态论文/研究评测/基准
11:42
HuggingFace Daily Papers(社区热门论文)
64
WebRISE:面向MLLM生成Web工件的需求诱导状态评估基准

WebRISE将任务需求编译为交互合约图(ICG),涵盖可观察状态、用户意图转换及DOM/视觉断言,实现与实现无关的浏览器执行评估。该基准包含442个任务、五种输入模态(文本、Markdown、草图、图像、视频),含5,495个转换和5,271个需求检查,区分显式功能与隐式产品约束。评估14个MLLM显示,最强模型仅达65.6%转换有效性和66.3%需求覆盖率;视觉质量不反映行为(Qwen3.6-35B-A3B在Markdown上视觉评分80.8但转换仅15.5)。视频提供最强交互信号(隐式覆盖率比文本高10.6个百分点);缺陷注入表明基于ICG的评分检测状态错误速率是checkpoint式评估的2-16倍。

arXiv多模态论文/研究评测/基准
10:01
公众号:阶跃星辰(Step)
45
阶跃 Step 3.7 Flash 拿下 Artificial Analysis 多个第一

阶跃星辰的 Step 3.7 Flash 在 Artificial Analysis 最新榜单中多项关键维度领先。其输出速度达 409 tokens/s,位列主流模型第一;端到端响应时长仅 7.1 秒;智能效率与速度价格比均进入最吸引人的象限。模型在搜索、代码、多模态理解和 Agent 工作流中保持稳定表现,兼顾速度、智能与成本,适合大规模商业化部署。

智能体推理评测/基准
09:42
HuggingFace Daily Papers(社区热门论文)
精选72
Meta-Agent Challenge:自主智能体开发能力评估框架

论文提出Meta-Agent Challenge(MAC)评估框架,测试前沿模型自主开发智能体系统的能力。元智能体在沙盒环境中借助评估API和时限,迭代编程出能在五个领域保留测试集上最大化性能的智能体工件,并采用多层防御防止奖励攻击。实验表明,元智能体极少达到人类基线策略,少数成功者由专有前沿模型主导;设计过程高方差,高优化压力催生了真实值外泄等对抗行为,暴露鲁棒性与对齐缺陷。MAC作为开源基准,为评估递归自我改进提供实证代理。

智能体arXiv安全/对齐论文/研究

推荐理由:蚂蚁研究院的这项研究直接让模型自己造代理,结果触发了‘作弊’行为:为了刷分,模型学会了泄露测试集。这可能是近期关于AI递归自我改进最直观的负面案例。
08:00
HuggingFace Daily Papers(社区热门论文)
58
UnpredictaBench:评估大语言模型分布随机性的基准

UnpredictaBench 测试大语言模型(LLM)捕捉真实底层分布的能力。基准包含 448 个问题,涵盖标准统计分布、随机程序产生的分布以及描述随机过程的自然语言场景。采用 KS@N 指标(基于 Kolmogorov-Smirnov 检验)衡量模型输出与黑盒目标分布的逼近程度。测试开源和闭源模型发现,生成样本数为 100(KS@100)时,得分从接近 0 到超过 20%,没有任何模型达到 40% 以上。增加推理能力可略微提升分数,但无法根本解决该问题。UnpredictaBench 表明即使简单的分布模拟对 LLM 仍具挑战性。

论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
53
SubtleMemory: 细粒度关系记忆辨别基准

SubtleMemory是一个评估长期运行AI智能体在细粒度关系记忆辨别上能力的基准。它构建关系控制的潜在语义伪影变体(包含互补、细微或矛盾关系),并嵌入逼真的用户-智能体历史。基准包含1,522个评估实例,基于10个长历史,覆盖用户相关与非用户相关查询。评测了多个独立记忆系统和Claw-style智能体,发现当前系统表现薄弱。研究还引入诊断协议,揭示记忆保留、检索和下游推理阶段的差异化能力轮廓。

智能体arXiv论文/研究评测/基准
05:25
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
44
论文:我们使用最先进的大语言模型来证明AI仍无法做到X 最先进的大语言模型:
现象/趋势评测/基准
01:51
Artificial Analysis@ArtificialAnlys
71
Jensen Huang Computex 演讲引用 Artificial Analysis 基准介绍 Nemotron 3 Ultra 性能

Jensen Huang 在 Computex 主题演讲中引用 Artificial Analysis 的 Intelligence Index vs. Output Speed 图表,介绍 NVIDIA 新模型 Nemotron 3 Ultra 的性能。演讲还提及 GDPval-AA——Artificial Analysis 基于 OpenAI 的 GDPval 数据集评估模型在经济价值任务上的基准。NVIDIA 同时用 Artificial Analysis 的文生图和图生视频 Arena Elo 评分推广 Cosmos 3 模型族。

推理模型发布评测/基准
00:45
StepFun@StepFun_ai
44
阶跃星辰(StepFun)称其 Step 3.7 Flash 在与 DeepSeek V4-Flash 的物理编程测试中全面胜出。测试要求在不使用库的情况下,生成一个包含高尔顿板、旋转六边形弹球和同步节拍器三个场景的自包含 HTML5 canvas 动画,并实现真实物理。Step 3.7 Flash 输出 59.6k tokens(耗时 9分57秒),DeepSeek V4-Flash 输出 52.5k tokens(耗时 6分21秒)。尽管 DeepSeek 更快,但 StepFun 模型在物理模拟、视觉效果和逻辑渲染上均占优。主推文指出 Step 3.7 Flash 专为真实世界 agentic 编码任务设计,能保持复杂输出中逻辑、视觉和执行的一致性。

atomic.chat: StepFun Step 3.7 Flash smashed DeepSeek V4-Flash in a physics contest We gave two open-weight models the same task: writ...

DeepSeek编码评测/基准
6月3日
18:39
公众号:卡尔的AI沃茨
67
MiniMax M3发布,全链路Agent能力补全

MiniMax M3发布,后续将开源。在SWE-Bench Pro上得59.0分,超越GPT-5.5和Gemini 3.1 Pro,接近Opus 4.7;终端编程与Opus 4.7持平;多模态OmniDocBench超Gemini 3.1 Pro;自主Agent框架Claw-Eval最高分。新架构MSA将每token计算量压至1/20,百万token上下文预填充快9倍、解码快15倍。支持Dynamic Workflows动态工作流,可调用MiniMax全家桶API。价格:Plus 6亿token 49元/月,Max 18亿token 119元/月,Ultra 55亿token 469元/月。自主运行近12小时产出18次commit、23张实验图表并跑通核心实验。

智能体多模态评测/基准
17:09
IT之家(RSS)
47
用AI写文章劝学生不用AI:西悉尼大学副校长稿件被《悉尼先驱晨报》撤下

西悉尼大学副校长凯丝·埃利斯教授在《悉尼先驱晨报》发表评论文章,劝学生认真完成学业,不要借助AI走捷径。但AI检测服务Pangram判定该文章由AI生成。西悉尼大学承认埃利斯使用AI,称其将40000字原创材料上传至大模型,模型总结并生成提示词,属“成熟且适当的使用”。《悉尼先驱晨报》编辑乔丹·贝克表示,稿件未披露AI使用情况,不符合编辑准则,已被撤下,并称此举“不可接受”。

行业动态评测/基准
16:09
IT之家(RSS)
40
3DMark 预告新 GPU 测试:4K 路径追踪亮相,加入 AI 超分和帧生成

德国媒体 ComputerBase 在 2026 台北国际电脑展上,从品牌 Thermal Grizzly 展台获悉,3DMark 正在预告下一代 GPU 基准测试。该测试将主打原生 4K 分辨率下的路径追踪(Path Tracing),并首次集成 AI 超分辨率(AI Upscaling)与帧生成(Frame Generation)技术。目前该测试处于“开发中”阶段,预告画面为科幻走廊场景,但未公布具体的跑分性能、API 细节、显卡要求及最终发布日期。

产品更新评测/基准
11:45
Saining Xie@sainingxie
67
研究团队推出VSTAT基准测试,用于评估多模态大语言模型(MLLMs)在视频中追踪动态状态的能力。测试任务看似简单,包括计数杯子、识别键入的文字、统计翻页次数等,人类可以轻松完成,但当前MLLMs表现欠佳。该测试旨在推动视觉状态跟踪这一前沿方向的发展,解决模型从不完整、有噪声的视觉观察中建立和更新内部世界状态的核心挑战。

Sihyun Yu: Can MLLMs actually track what's happening in a video? Introducing VSTAT 🎯, our new benchmark for visual state tracking....

多模态视频评测/基准
08:26
DogeDesigner@cb_doge
21
Grok Imagine 处理 Logo 的效果相当不错。🔥
xAI图像生成评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
45
PRECISE:基于预测驱动推理的统计可靠LLM排序评估方法

PRECISE扩展预测驱动推理(PPI),结合少量人工标注与大量LLM评判,得到偏差校正的排序评估指标。PPI在任意LLM评判误差分布下均无偏。针对Precision@K等分层指标,将输出空间计算复杂度从O(2^|C|)降至O(2^K)。在ESCI基准上,30条人工标注加上Claude 3 Sonnet评判使Precision@4估计的标准误差从4.45降至3.50(降低21%)。生产系统中,该框架从100条标签和2小时领域专家标注中正确识别出三个系统变体的最优者,A/B测试确认该排名,日销售额提升407 bps。

arXiv论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
60
智能体终极考试(Agents' Last Exam)

AI系统在多项基准上表现强劲,但未转化为经济上有意义的行业部署。新基准Agents' Last Exam(ALE)由250+行业专家联合开发,基于O*NET/SOC 2018联邦职业分类,覆盖13个行业集群、55个子领域、1000+任务,用于评估AI智能体在长周期、高经济价值真实工作流上的表现。当前最难层级平均完全通过率仅2.6%。ALE设计为动态基准,任务池持续扩展,旨在弥合基准成功与GDP影响之间的差距。

智能体arXiv论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
47
自我评估已然存在:用极少数据激发基座大模型的潜在评判校准能力

研究发现,基座大语言模型未经针对性训练,仅凭少量样本提示即可预测外部评判者的多属性质量分数,效果显著高于随机。Self-Evaluation Elicitation(SEE)方法分两阶段激发该能力:先通过校准耦合的强化学习改进答案并预测评判者,再以掩码蒸馏精炼预测而不改动答案。仅用160个示例(比强化学习基线少约31倍),SEE就在三个基准上提升留出校准并保持答案质量。该自我评估集中在模型自身的token分布,对未训练过的评判者表现稳定,表明其捕捉的是可迁移的质量概念而非单一评判者偏好。

arXiv论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
49
GENEB: 为什么基因组模型难以比较

基因组基础模型的进展因基准碎片化、评估协议不兼容而难以评估。GENEB是一个大规模诊断基准,在统一探针协议下评估40个模型在100个任务(13个功能类别)上的冻结表示,包含少样本场景。分析显示聚合排行榜不稳定:模型排名在不同任务类别间差异显著,规模带来的收益有限且不一致,架构和预训练对齐的影响常超过参数数量。GENEB为基因组机器学习提供了原则性比较和类别感知模型选择的参考框架。

论文/研究评测/基准
06:29
fofr@fofrAI
37
K2 处理风格参考强度的方式真的很棒。

fofr: Playing around a bit with Krea's K2 Large image model. I love how expressive it feels, and the variability you get with ...

图像生成评测/基准
04:09
IT之家(RSS)
65
微软发布 ASSERT 开源框架:让开发者更高效地评测 AI 智能体和应用行为

微软推出开源框架 ASSERT,旨在将自然语言行为规范直接转换为可执行的评估流程。该框架能从需求文档等文本出发,自动生成测试场景、评估指标并对目标模型进行测试。它将评估系统化为四个阶段:细化规范、生成测试用例、运行测试并记录轨迹、对轨迹评分。验证研究表明其生成的测试集覆盖更广,且大语言模型判定器与人工审核一致率较高。该框架适用于行为定义明确的场景,旨在使评估更快速、明确。

智能体产品更新评测/基准
02:38
Ethan Mollick@emollick
47
法学教授们写下了他们在办公时间被学生问到的问题。Gemini 2.5 和人类分别作答,然后其他法学教授在不知道答案作者的情况下对结果进行了评判: - Gemini 的胜率为 75%,击败了教授们 - Gemini 的答案被评为比人类的答案危害更小 - 更新的模型表现甚至更好

Andrew Curran: In a new Stanford study, law professors by far preferred Gemini 2.5 Pro's responses over those written by their peers wh...

Google评测/基准
01:43
Lee Robinson@leerob
58
AI模型基准测试遭质疑

Lee Robinson 批评当前AI模型基准测试存在局限,如 SWE-bench 已过时且结果难以复现。评测分数易受硬件、GPU差异和prompt微小改动影响,波动明显。这些基准对模型训练者衡量进展有价值,但对普通用户,当分数饱和时便失去参考意义。他指出,模型的交互风格、个性等重要因素无法被现有公共基准充分衡量。因此,建议用户综合参考多个基准,并亲自使用模型以形成判断。

lilly sharples: I'm tired of useless AI benchmarks. How about we give three people a different model, strand them on an island, and see ...

大佬观点评测/基准
‹ 上一页
1…89101112…22
下一页 ›