AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「评测/基准」清除
5月27日周三
09:31Qwen68同事件精选Qwen3.7-Max代码竞技场排名第四,与Claude Opus 4.6持平同一事件,精选展示《Qwen3.7-Max:面向智能体时代的最新专有模型》
09:27Berryxia.AI72Bonsai Studio:iPhone端侧离线图像生成应用上线
08:29meng shao63开发者 AlexFinn 在长期并行对比后,为何选择转向 Codex?
08:00HuggingFace Daily Papers(社区热门论文)57LLM论文评审的人类对齐性与可博弈性研究
08:00HuggingFace Daily Papers(社区热门论文)55A Matter of TASTE: 提升AI智能体评测基准的覆盖率与难度
08:00HuggingFace Daily Papers(社区热门论文)50多场景长语音生成综合评测基准
01:07Artificial Analysis60Gemini 3.5 Flash速度与agent能力提升,但成本显著增加
5月26日周二
19:58meng shao53腾讯Marvis被吐槽:隐私权限过度且Agent能力差
14:11IT之家(RSS)63国产第一:阿里 Qwen3.7-Max 模型 AI 编程能力超 Claude Opus 4.6
10:18HuggingFace Daily Papers(社区热门论文)63MetaphorVU:迈向隐喻视频理解
09:48karminski-牙医67智谱GLM-5.1-highspeed发布,实时语音编程响应仅需3秒
08:00HuggingFace Daily Papers(社区热门论文)56OmniInteract:实时全模态助手的真实场景流式交互基准测试
08:00HuggingFace Daily Papers(社区热门论文)50在采样中迷失:通过词汇覆盖度分数(WCS)评估大语言模型的词汇可达性
08:00HuggingFace Daily Papers(社区热门论文)61Chartographer:用于评估视觉语言模型的反事实图表生成
04:54Ethan Mollick56AI评估挑战:数学问题单一,亟需多样化难题库
5月25日周一
21:58Hacker News 热门(buzzing.cc 中文翻译)69既然谷歌已不再是曾经的谷歌,有哪些替代的搜索引擎?
15:58The Decoder:AI News(RSS)55AI models often give the right answers but point to the wrong sources
11:17karminski-牙医58数字人模型本地都能跑了吗?
08:00HuggingFace Daily Papers(社区热门论文)58你的智能体也在老化:部署系统的智能体寿命工程
08:00HuggingFace Daily Papers(社区热门论文)64AgentHijack:针对电脑使用代理在常见环境干扰下的鲁棒性评测基准
5月24日周日
23:06TechCrunch:AI(RSS)46我试用了亚马逊Bee可穿戴设备:既着迷又有些毛骨悚然
21:51meng shao45腾讯Marvis智能体模拟办公室动画引热议
08:00HuggingFace Daily Papers(社区热门论文)58SimuWoB:模拟真实移动应用以实现快速可靠的GUI智能体评测
07:51Ethan Mollick44GPT-5.5 Pro事实核查能力出色但细节控
5月23日周六
15:51Alibaba Cloud61Qwen3.7-Max多模态能力飞跃,评测超越GPT与Claude
06:41Simon Willison 博客33pydantic-monty 调查
04:05Artificial Analysis58Cursor Composer 2.5在成本与效率上实现突破性优势
02:05Artificial Analysis61Cartesia的Sonic-3.5语音合成模型在AI评测榜夺冠
01:30Apple Machine Learning Research(RSS)66精选VSAS-Bench:视觉流式辅助模型的实时评估基准
00:05TechCrunch:AI(RSS)46我们试用了Google的AI眼镜,它们已接近成熟
5月22日周五
23:50向阳乔木36在AJ安利下,歸藏买了安克 AI 录音豆。 在歸藏安利下,我也买了。 初步体验,这是目前个人最喜欢、最实用的 AI 硬件产品。 就是绳子带着不舒服,打算淘宝换个。
20:56Hacker News 热门(buzzing.cc 中文翻译)38Antigravity 2.0 在 OpenSCAD 建筑 3D 大型语言模型基准测试中位居榜首
18:19Qwen66前沿模型智能体任务测试:Qwen 3.7-Max 展现显著优势
11:14HuggingFace Daily Papers(社区热门论文)63感知还是偏见:多模态大语言模型能否超越人格的第一印象?
10:14HuggingFace Daily Papers(社区热门论文)66通过结构化表发现实现多样化模型发现
10:14HuggingFace Daily Papers(社区热门论文)64TerminalWorld:在真实终端任务上评测智能体
08:00HuggingFace Daily Papers(社区热门论文)55EvalVerse:面向专业电影视频生成的流程感知与专家校准基准测试
08:00HuggingFace Daily Papers(社区热门论文)58迈向评测工程:ML评测框架的野外实证研究
08:00HuggingFace Daily Papers(社区热门论文)50SkillEvolBench:评估从情景经验到程序性技能的演进
03:32TechCrunch:AI(RSS)64Google已非往日之Google,六款值得尝试的搜索引擎
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月27日
09:31
Qwen@Alibaba_Qwen
同事件精选68
🚀🚀 Qwen3.7-Max 刚刚在 Code Arena 上升至第 4 名,与 Claude Opus 4.6 持平,是榜单上排名最高的中国实验室!@arena 更多内容即将发布。敬请期待。🕶️

Arena.ai: Qwen3.7 Max (20250517) debuts at #4 in Code Arena: Frontend - the top-ranked Chinese lab on the board, surpassing GLM-5....

模型发布编码评测/基准
同一事件,精选展示《Qwen3.7-Max:面向智能体时代的最新专有模型》
推荐理由:Qwen3.7-Max 在 Code Arena 前端任务上排第四,跟 Claude Opus 4.6 打平,国产模型第一次在 agentic web dev 摸到第一梯队,做 Web Agent 的可以认真看看。
09:27
Berryxia.AI@berryxia
72
Bonsai Studio:iPhone端侧离线图像生成应用上线

PrismML发布官方iOS应用Bonsai Studio,用户可免费下载,在iPhone上本地离线运行其Bonsai Image 4B扩散模型。该模型基于FLUX.2 Klein,其1-bit压缩版仅0.93GB,比全精度版小8.3倍。在iPhone 15 Pro及以上机型生成512×512图像耗时约几十秒,内存占用约1.5GB。应用支持多种风格,但中文文字生成目前为乱码。Android用户可通过WebGPU网页版体验。

Berryxia.AI: 兄弟们,端侧生图模型又有新东西了! 之前有客户端Drawthing 客户端也是支持iPad 手机进行文生图~ 今天PrismML也来了一个好玩的... 他们发布了1-bit和Ternary版本的Bonsai Image 4B扩散模型。 1-...

图像生成端侧评测/基准
08:29
meng shao@shao__meng
63
开发者 AlexFinn 在长期并行对比后,为何选择转向 Codex?

开发者 AlexFinn 在连续两个月、每天数小时并行使用 Codex 和 Claude Code 后,决定转向 Codex。其核心原因在于 Codex 拥有强大的自测闭环功能:每次代码改动后,它会在内置浏览器中自动验证,形成“改→测→修”的自动化循环。这一机制将首次交付有 bug 的改动比例从约 40% 显著降低至 ≤3%,可靠性大幅提升,更利于开发者保持心流。他建议开发者不要对任何公司忠诚,应始终使用当下最好的工具。

Alex Finn: I'm 100% Codex pilled now Been using Codex and Claude Code side by side hours a day for 2 months straight No longer usin...

智能体编码评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
57
LLM论文评审的人类对齐性与可博弈性研究

该研究基于2025 ACL Rolling Review (ARR)的论文,实证评估了大语言模型(LLM)生成的论文评审意见。研究发现,LLM评审与人类评审的对齐程度有限,且在不同提示词和模型之间存在显著差异。此外,当作者采用基于LLM评审意见的迭代修改工作流时,可以有效“博弈”LLM评审,使高达35%的论文的总分获得统计意义上的显著提升。

安全/对齐论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
55
A Matter of TASTE: 提升AI智能体评测基准的覆盖率与难度

针对现有智能体评测基准(如τ^2-Bench)因难度饱和而难以评估能力上限的问题,研究提出TASTE方法。该方法通过反转传统任务构建流程,利用基于LLM判断有效性信号训练的自适应对比n-gram模型生成有效工具序列,经聚类筛选与迭代难度演化,自动构建出工具覆盖更广、难度更高的τ^c-Bench基准。对11组智能体/大语言模型对的评估显示,多个在τ^2-Bench上接近饱和的模型在τ^c-Bench上性能大幅下降,且生成任务要求的唯一工具组合数量显著增加,表明现有基准高分常反映测试集饱和而非模型稳健能力。

智能体论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
50
多场景长语音生成综合评测基准

SwanBench-Speech是一个针对长语音生成的综合评测基准,涵盖长语音生成和对话生成,覆盖声学、语义和表现力挑战。该基准包含1,101个样本,横跨17种常见语音场景,并从上述三个维度定义了包含7个指标的自动化评测方案。实验揭示,当前模型在高表达性场景下表现依然吃力,且在一致性与层次感上与真实录音存在明显差距。

论文/研究评测/基准语音
01:07
Artificial Analysis@ArtificialAnlys
60
Gemini 3.5 Flash速度与agent能力提升,但成本显著增加

Gemini 3.5 Flash在速度与agent能力上实现进步,实测输出速度可达约280 output tokens/sec,在GDPVal-AA agent任务中ELO提升至约1650,相比Gemini 3 Flash有显著提升。但代价是成本增加约5倍,主要因token单价上涨(为Gemini 3.5 Flash的3倍)以及使用量更高。

智能体Google推理评测/基准
5月26日
19:58
meng shao@shao__meng
53
腾讯Marvis被吐槽:隐私权限过度且Agent能力差

腾讯AI智能体产品Marvis被用户卸载。主要问题在于:1)隐私风险高,初始化时过度索要权限,获取了用户全部的App列表和文件清单(并做了分类);2)实际Agent能力与输出效果不佳。其交互界面虽有创意(如模拟办公室的小动画,Agent会摸鱼),但核心执行效果一言难尽,导致用户因担忧数据隐私而选择放弃使用。

meng shao: 腾讯的 Marvis 今天手痒我真的去试了试 怎么说呢?确实是我手痒了,这手得剁 😂 整个软件,就这个 Agent 模拟办公室的 dashboard 小动画也有些意思,Marvis 这个项目经理,收到任务后,会小跑到需要调用的 Agent...

智能体安全/对齐评测/基准
14:11
IT之家(RSS)
63
国产第一:阿里 Qwen3.7-Max 模型 AI 编程能力超 Claude Opus 4.6
编码评测/基准
10:18
HuggingFace Daily Papers(社区热门论文)
63
MetaphorVU:迈向隐喻视频理解

为系统评估多模态大语言模型(MLLMs)对隐喻视频的理解能力,研究团队提出了首个专项基准测试 MetaphorVU-Bench。实验发现,当前 MLLMs 在隐喻视频理解上表现不佳,远未达到人类水平,主要缺陷在于跨域映射能力不足。为此,团队构建了一个隐喻知识图谱进行映射增强,并提出了推理时增强框架 MetaphorBoost,该框架实现了性能的持续提升。

arXiv多模态论文/研究评测/基准
09:48
karminski-牙医@karminski3
67
智谱GLM-5.1-highspeed发布,实时语音编程响应仅需3秒

智谱发布了推理速度极快的GLM-5.1-highspeed版本。测试者发现其生成代码的速度已超过人类打字速度,因此构建了一个语音转文本的编程交互场景。从用户说完语音指令到代码修改完成、页面渲染,整个链路(包括语音识别、模型判断并发与prefill、tool call修改代码)耗时约3秒。这种量级的速度提升带来了全新的实时交互可能性。该模型目前正向部分企业用户提供内测。

编码评测/基准语音
08:00
HuggingFace Daily Papers(社区热门论文)
56
OmniInteract:实时全模态助手的真实场景流式交互基准测试

OmniInteract是一个用于评估实时全模态大语言模型的流式交互基准。它包含250个视频,定义了1,430个需要模型在线响应的时段:1,062个涵盖实时、主动与嵌套场景的单问单答时段,以及368个多问多答时段。模型必须处理原始音视频流,且无法预知未来内容。评估使用交互感知质量-时效性F1分数等指标。实验表明,当前模型在流式交互上表现薄弱,最优的整体IA-QTF1分数仅为0.368。

arXiv多模态论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
50
在采样中迷失:通过词汇覆盖度分数(WCS)评估大语言模型的词汇可达性

研究指出,工业标准的采样默认参数(如 Top-p、Top-k 和 Min-p)无意中充当了审查机制,过滤掉了许多低频但高信息量的人类词汇,导致大语言模型生成的文本趋于同质化。研究团队提出了词汇覆盖度分数(WCS)来量化这一现象,它衡量了上下文语境中被标准采样过滤器修剪掉的人类词汇比例。通过审计开放权重模型,该研究识别出被解码器排除在可达范围之外的逻辑词汇选项,为在文本连贯性与词汇丰富度之间寻找平衡提供了诊断框架。

论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
61
Chartographer:用于评估视觉语言模型的反事实图表生成

现有图表问答基准测试存在局限,模型可能依赖捷径或背景知识而非视觉推理来回答问题。为严格评估视觉推理能力,研究提出了“反事实图表”方法,即在保持图表-问答任务不变的前提下,改变底层图表及其答案。为此,研究引入了Chartographer框架,该框架能将图表逆向工程为可执行代码,验证重建保真度,生成种子可控的变体,并从可执行的问答逻辑中推导新答案。通过将此框架应用于现有数据集,研究评估了专有及开源视觉语言模型的变化敏感性与泛化能力。结果表明,反事实图表揭示了单一图表测试所隐藏的失败:模型在正确回答原始图表后,往往无法在更新图表需要全新视觉推理路径时成功泛化。

多模态论文/研究评测/基准
04:54
Ethan Mollick@emollick
56
AI评估挑战:数学问题单一,亟需多样化难题库

推文指出,当前用于推动AI能力发展的困难问题过于集中于数学领域(如Erdős问题)。虽然数学易于验证,但其成果对日常生活的直接影响不够明确。作者呼吁需要为包括工程、经济、物理、生物等在内的更多领域建立困难问题库,并配套制定相应的评估方法,以让AI智能体处理更复杂、答案更不明确的任务。

大佬观点数据/训练评测/基准
5月25日
21:58
Hacker News 热门(buzzing.cc 中文翻译)
69
既然谷歌已不再是曾经的谷歌,有哪些替代的搜索引擎?

当谷歌搜索引擎功能发生转变后,TechCrunch 文章推荐了可供用户尝试的替代性搜索引擎选项。

搜索评测/基准
15:58
The Decoder:AI News(RSS)
55
AI models often give the right answers but point to the wrong sources

北京大学研究人员发现,GPT 和 Gemini 等主流大语言模型在进行文档分析时,经常引用无法支持其答案的文本段落。即便答案本身正确,被引用的证据也常是错误的。研究人员将此现象称为“归因幻觉”,并指出这是法律和医疗等受监管领域的风险。为此,他们提出了首个系统性测试该问题的新基准 CiteVQA。

GoogleOpenAI安全/对齐论文/研究
11:17
karminski-牙医@karminski3
58
数字人模型本地都能跑了吗?

美团发布数字人模型LongCat-Video-avatar-1.5,可通过图片和音频生成口播视频。demo仅支持5秒480p视频。实测中人物嘴部遮挡案例效果与SOTA有差距,主要在口型。最大分辨率720p,但可AI提升至4K。模型本地部署可行,对动漫人物泛化,但体积大,int8量化需16G显存。

多模态视频评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
58
你的智能体也在老化:部署系统的智能体寿命工程

本文提出了AgingBench,一个用于评估AI智能体长期可靠性的纵向基准。部署后的智能体会因交互历史压缩、记忆检索等机制而逐渐老化。AgingBench通过时间依赖图和反事实探针诊断记忆管道问题。测试发现老化现象复杂:行为测试可能正常,但事实精度已下降;相同错误答案可能需要不同的修复策略。结论是可靠的智能体部署需要生命周期评估与机制级诊断,而不仅是更强的基础模型。

智能体论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
64
AgentHijack:针对电脑使用代理在常见环境干扰下的鲁棒性评测基准

AgentHijack 是一个评测基准,用于评估由多模态大语言模型驱动的电脑使用代理在动态环境干扰下的鲁棒性。该基准设置了 9 种可配置的常见干扰来模拟真实世界中的不理想场景。实验发现,即使轻微的干扰也会导致代理性能显著下降,凸显了增强其鲁棒性的必要性。为此,研究提出了一个改进框架 AgentHijack-Agent,它结合了具有增强定位能力的动作生成器以及负责行为总结和环境检查的观察者模块。

智能体论文/研究评测/基准
5月24日
23:06
TechCrunch:AI(RSS)
46
我试用了亚马逊Bee可穿戴设备:既着迷又有些毛骨悚然

亚马逊推出了AI可穿戴设备Bee,与其他同类产品类似,它在提供便利性的同时也引发了用户对隐私的担忧,这种便利与隐私焦虑的矛盾结合显得十分奇特。

评测/基准语音
21:51
meng shao@shao__meng
45
腾讯Marvis智能体模拟办公室动画引热议

腾讯的Marvis项目展示了一个AI智能体模拟办公室的Dashboard动画。动画中,项目经理Marvis在收到任务后会小跑到需要调用的AI智能体面前沟通,后者开始工作后,Marvis会返回工位监控进度;闲置的智能体则会模拟“摸鱼”玩游戏。该设计调侃了常见的职场生态。不过,对于该智能体的实际任务执行结果,推文作者表示体验不佳,“一言难尽”。

智能体评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
58
SimuWoB:模拟真实移动应用以实现快速可靠的GUI智能体评测

SimuWoB是一个为移动GUI智能体设计的完全合成基准测试,包含120个跨越不同类型和难度等级的任务。它通过一个框架生成高保真任务和虚拟环境,并为每个任务自动提供有效奖励;环境以无后端的网页形式部署,可通过URL访问,以实现高效、可复现的评估。实验显示,在最先进的移动GUI智能体上,平均成功率仅为27.92%,长视野任务的成功率降至17.82%,揭示了当前智能体在复杂场景下的不足。与真实世界样本任务的评估结果对比表明,基于此合成环境的评估具有良好的泛化能力。

智能体论文/研究评测/基准
07:51
Ethan Mollick@emollick
44
GPT-5.5 Pro是一个非常可靠的事实核查工具。我可以把整章内容丢给它,它能准确找出每一个关键参考文献。唯一的烦恼是它过于注重细微差别,经常返回"大体思路正确,但你没有考虑到微小细节X"这类反馈。
OpenAI推理评测/基准
5月23日
15:51
Alibaba Cloud@alibaba_cloud
61
阿里云Qwen团队新发布的Qwen3.7-Max模型在极短时间内(不到一个月)实现了多模态生成能力的惊人进步。独立测试显示,该模型已从此前表现落后,跃升至在特定测试中与Gemini 3.5 Flash持平,并超越了GPT-5.5与Claude Opus 4.7。其渲染的图像(如足球运动员与足球)在比例和真实感上表现尤为突出,展现出卓越的空间推理能力。

GMI Cloud: Salute to the Qwen team 🫡 We tested Qwen 3.7-Max, Gemini 3.5 Flash, GPT-5.5, and Claude Opus 4.7. The biggest shock cam...

GoogleOpenAI多模态评测/基准
06:41
Simon Willison 博客
33
pydantic-monty 调查

作者时隔数月重新评估 Monty,一个用 Rust 实现的 Python 沙箱子集。他使用 Claude Code 审查了该项目的最新版本,确认其资源限制设置(如 max_duration_secs、max_memory 等)运作如预期。

安全/对齐评测/基准
04:05
Artificial Analysis@ArtificialAnlys
58
Cursor Composer 2.5在成本与效率上实现突破性优势

基准测试显示,Cursor Composer 2.5在编程任务中展现出卓越的成本与效率优势。其单任务成本仅为Claude Opus 4.7的1/3至1/18,更是GPT-5.5的1/5至1/32。这一低成本源于其极高的token使用效率:完成全部测试仅消耗1.6M token,远低于同类模型的5.7M。效率方面,其平均任务完成时间约9分钟,比行业平均水平快约1.3倍,其快速版本更可将时间缩短至约7分钟。

智能体编码评测/基准
02:05
Artificial Analysis@ArtificialAnlys
61
Cartesia的Sonic-3.5语音合成模型在AI评测榜夺冠

Cartesia公司最新发布的语音合成模型Sonic-3.5在Artificial Analysis Speech Arena排行榜上位居第一,超越了Inworld Realtime TTS 1.5 Max和Google Gemini 3.1 Flash TTS等竞品。该模型支持42种语言(包括9种印度语言),提供超过500种声音选择。评测数据显示,Sonic-3.5以1,218的Elo分数领先,表现出自然的语音效果和准确的文本跟随能力。其定价为每百万字符39美元,高于竞品;生成速度为每秒105.5字符,介于其他两者之间。

评测/基准语音
01:30
Apple Machine Learning Research(RSS)
精选66
VSAS-Bench:视觉流式辅助模型的实时评估基准

现有视觉语言模型框架主要在离线场景下评估性能,但实时视觉助手所依赖的流式模型还需考量额外指标,如反映响应时效性的“主动性”和捕捉随时间推移响应稳定性的“一致性”。为此,研究团队提出了VSAS-Bench,这是一个新的评估基准,专门针对流式视觉语言模型在实时交互任务中的表现,填补了当前评估方法在动态、持续生成场景下的空白。

多模态论文/研究评测/基准

推荐理由:苹果搞了个实时视觉助手的评估基准,把离线评测拉到了流式场景,多模态 agent 和实时 VLM 方向的研究者值得跟进一下评估方法。
00:05
TechCrunch:AI(RSS)
46
我们试用了Google的AI眼镜,它们已接近成熟

Google展示了运行Android XR操作系统的原型智能眼镜,该设备能将Gemini AI驱动的翻译、导航及其他信息直接叠加并显示在用户视野中。这标志着可穿戴设备从“后置屏幕”向“前置视窗”交互模式的重要演进,其核心在于将实时AI处理能力与日常视觉场景深度融合。

Google多模态评测/基准
5月22日
23:50
向阳乔木@vista8
36
在AJ安利下,歸藏买了安克 AI 录音豆。 在歸藏安利下,我也买了。 初步体验,这是目前个人最喜欢、最实用的 AI 硬件产品。 就是绳子带着不舒服,打算淘宝换个。
端侧评测/基准语音
20:56
Hacker News 热门(buzzing.cc 中文翻译)
38
Antigravity 2.0 在 OpenSCAD 建筑 3D 大型语言模型基准测试中位居榜首

Antigravity 2.0 在 OpenSCAD 建筑 3D 大型语言模型基准测试中夺得第一。该模型在生成符合 OpenSCAD 语法的建筑三维代码任务上,显著优于其他参与评估的模型,标志着其在该专业领域的领先地位。

图像生成评测/基准
18:19
Qwen@Alibaba_Qwen
66
近期一项针对前沿AI模型在真实智能体任务上的测试显示,Qwen 3.7-Max在效果与成本方面全面领先。该任务要求模型自主编写并迭代优化一个能自我训练的Tetris机器人程序。在10轮自我改进中,Qwen 3.7-Max仅花费1.32美元,便将机器人性能提升了56%。相比之下,Claude Opus 4.7花费12.15美元提升了28%,GPT-5.5花费2.85美元提升了7%。结果表明,在需要长时间自主推理、代码阅读与迭代的复杂智能体循环场景中,Qwen Max具备极强的成本效益比与自我改进能力。

atomic.chat: Qwen 3.7-max beats Opus 4.7 and GPT-5.5 We tested three frontier models on a real agentic task: write a Tetris bot that ...

智能体推理评测/基准
关联讨论 9 条公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:OpenRouter (@OpenRouter)IT之家(RSS)
11:14
HuggingFace Daily Papers(社区热门论文)
63
感知还是偏见:多模态大语言模型能否超越人格的第一印象?

多模态大语言模型在需要人格感知的人机交互中应用广泛,但现有评估仅关注大五人格分数的预测。本研究提出了一个新的接地人格推理任务,并发布了包含1104个视频的MM-OCEAN数据集。研究通过三层评估框架对27个模型进行测试,发现一个关键的“偏见鸿沟”:在所有模型中,有51%的正确评分并未基于检索到的行为线索,且整体证据归因率仅在0-33.5%之间。这表明模型往往只是“猜对”了分数,而非基于正确的推理依据,为未来提升模型的接地社交认知能力指明了方向。

arXiv多模态论文/研究评测/基准
10:14
HuggingFace Daily Papers(社区热门论文)
66
通过结构化表发现实现多样化模型发现

针对现有模型搜索系统结果同质化的问题,本文提出 StructuredSemanticSearch 框架。该框架将语义基线与结构化表发现相结合,通过表格发现算子检索相关模型卡片表格,并控制预算以公平比较文本与表格检索效果。创新性地采用方向感知的表格集成技术,生成紧凑的集成视图。评估采用基于“要点”的可审计协议,在597个查询上的实验表明,该结构化感知方法相比纯语义基线,能显著提升证据覆盖率和结果多样性,为动态模型库的评估提供了可扩展的路径。

搜索论文/研究评测/基准
10:14
HuggingFace Daily Papers(社区热门论文)
64
TerminalWorld:在真实终端任务上评测智能体

研究团队发布了TerminalWorld,一个可扩展的数据引擎,能自动从大量真实终端录制中逆向工程生成高保真的评估任务。该引擎处理了80,870份录制,产出了涵盖18个类别、1,280个唯一命令的1,530个任务基准。其中包含一个经过人工复核的200个任务子集。测试显示,当前先进的模型与智能体在真实终端工作流上表现欠佳,最高通过率仅为62.5%。该基准衡量的能力与现有专家设计基准的相关性很弱(r=0.20),凸显其独特价值。引擎的自动化设计使其具备真实性与可扩展性,数据与代码已开源。

智能体开源/仓库论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
55
EvalVerse:面向专业电影视频生成的流程感知与专家校准基准测试

生成式视频模型正迈向专业电影合成,但现有评估主要关注“是否正确”,忽略了“是否优秀”的电影质感。为此,本文提出EvalVerse,一个全面、流程感知且经专家校准的评估框架。它首先将评估体系与专业电影制作流程(前期、制作、后期)对齐;其次利用大规模人工标注数据集凝练专家判断;最后通过专家校准微调将知识注入视觉语言模型(VLM),使其能进行明确的思维链(CoT)推理。该框架在兼容基础“正确性”指标的同时,将评估显著扩展至“优秀度”,并覆盖多镜头序列与视听整合等复杂任务,为奖励模型等未来研究提供了基础。

视频论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
58
迈向评测工程:ML评测框架的野外实证研究

研究者对57个机器学习评测框架进行了实证分析,提出一个五阶段框架模型,并分类了16,560个操作问题。研究发现,大多数挑战集中在规范阶段,占问题的41.4%。未实现的功能、文档缺失和输入验证不足这三类根本原因,合计占已分类问题的61.7%。不同工作流阶段的根本原因各异:环境不兼容和外部依赖失效占配置阶段问题的36.2%;算法错误与验证缺失则是评估阶段的主导原因。

arXiv论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
50
SkillEvolBench:评估从情景经验到程序性技能的演进

该研究提出了SkillEvolBench,一个用于评估大语言模型智能体能否将情景经验提炼为可复用程序性技能的诊断基准。基准包含180个任务,分布在六个真实智能体环境中。测试发现,当前智能体通常只能局部适应,很少能形成稳健的可复用技能。基于技能的条件有时能改善获取或重放,但在冻结部署任务下表现不稳定。原始轨迹重用经常优于蒸馏的技能,表明当前的抽象过程丢弃了对未来任务仍有用的上下文和程序性线索。研究基于十个模型配置和三个智能体工具包,指出仅写入更多技能或更大的资源库并不足够。

智能体arXiv论文/研究评测/基准
03:32
TechCrunch:AI(RSS)
64
Google已非往日之Google,六款值得尝试的搜索引擎

Google即将全面引入AI概览功能,这将显著改变其搜索结果呈现方式。这一变化可能引发部分用户不满,尤其针对过度依赖AI生成的摘要式回答。与此同时,多家搜索引擎如DuckDuckGo、Brave Search等凭借隐私保护、去广告化或传统列表式结果等差异化特性,正吸引寻求替代方案的用户。市场动态显示,搜索引擎竞争正从技术功能向用户体验维度拓展。

Google搜索评测/基准
‹ 上一页
1…1112131415…22
下一页 ›