AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「评测/基准」清除
6月3日周三
01:17Artificial Analysis62Krea 2 Medium在AI文生图排行榜位列第6,性能与定价引发关注
01:14Krea57Krea 2 登顶独立实验室图像模型榜首
6月2日周二
21:13The Verge:AI(RSS)64Gemini Spark:迄今最令人震撼与恐惧的AI体验
17:44Rohan Paul65多数视频模型看起来比它们实际理解的要好
08:00HuggingFace Daily Papers(社区热门论文)50GridVQA-X:评估多模态可解释性方法的框架
08:00HuggingFace Daily Papers(社区热门论文)64OVO-S-Bench:面向多模态大语言模型流式空间智能的分层基准
06:30宝玉61Cursor 为团队用户提升使用额度
06:00宝玉59Cursor 在为用户增加使用额度。
04:08The Verge:AI(RSS)59Gemini的新AI智能体与Google演示一样好
01:18MiniMax (official)54MiniMax m3在BU Bench上提升26%
01:11Artificial Analysis61AA-WER Streaming 基准测试发布
6月1日周一
21:09karminski-牙医56Qwen3.7-Max实测:后端能力登顶
19:17MiniMax (official)62MiniMax M3 SVG生成能力惊艳,闭源优势减弱
16:17MiniMax (official)53MiniMax M3 免费体验,性能媲美 Opus-4.7
12:35Artificial Analysis81NVIDIA发布最大Nemotron 3模型Nemotron 3 Ultra
08:00HuggingFace Daily Papers(社区热门论文)64利用感知扰动和奖励建模缓解多模态大语言模型评估中的感知判断偏差
06:16swyx39评估分析平台将升级为持续学习平台
5月31日周日
16:17The Decoder:AI News(RSS)60AI 搜索代理往往只是确认其已知信息,而非真正研究网络
10:33DogeDesigner70Grok Imagine Video 1.5 Preview 登顶视频生成榜单
10:17Chubby♨️59Opus 4.8 在 DeepSWE 上相比 Opus 4.7 有扎实提升,并降低每任务平均成本
08:00HuggingFace Daily Papers(社区热门论文)70精选ChartArena:跨语言、场景与格式的图表解析基准测试
05:49MarkTechPost(RSS)572026年最佳文本转语音(TTS)模型:基于基准测试的对比
04:47Rohan Paul60本地运行的大语言模型比较:小参数MoE模型在智能体工具调用任务上击败大模型
04:45elvis55GPT-5.6效率前沿预测
5月30日周六
23:46TechCrunch:AI(RSS)51我让 Google 的 24/7 AI 助手 Gemini Spark 上岗,它确实挺好用
23:14Ethan Mollick61开源模型真实能力与评测表现存差距
15:21IT之家(RSS)49AI 社会自治测试:Grok 四天崩溃、Gemini 犯罪率最高
11:40Tibo24你选择相信评测还是朋友推荐?
08:00HuggingFace Daily Papers(社区热门论文)51论大语言模型适应性的局限:模型内化先验对标注任务性能的影响
08:00HuggingFace Daily Papers(社区热门论文)54SuperMemory-VQA:面向长时记忆的自我中心视觉问答基准
08:00HuggingFace Daily Papers(社区热门论文)65RoboStressBench:面向具身场景物理视觉压力的VLM鲁棒性基准测试
04:46Chubby♨️56开源模型与闭源前沿差距仅四个月
02:26MiniMax (official)43MiniMax M2.7与CyOps代码生成对比评测
00:15TechCrunch:AI(RSS)38Kiwibot 的 AI 驱动智能喂鸟器是我的新后院伙伴
5月29日周五
18:15The Verge:AI(RSS)52Adobe的对话式AI智能体是一个平庸的设计实习生
16:34Berryxia.AI42Opus 4.7与4.8直观感受对比不明显
14:30HuggingFace Daily Papers(社区热门论文)69ChildVox: 一个用于理解和表征儿童期声音的语音、音频与大型音频-语言模型基准
12:29HuggingFace Daily Papers(社区热门论文)65YOCAUSAL: 视频生成距世界模型有多远?一个因果关系的视角
11:40StepFun72阶跃星辰 Step 3.7 Flash 多模态模型上线 ModelScope
11:29HuggingFace Daily Papers(社区热门论文)75精选WorldMemArena:通过行动-世界交互循环评估多模态智能体记忆
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月3日
01:17
Artificial Analysis@ArtificialAnlys
62
Krea 2 Medium在AI文生图排行榜位列第6,性能与定价引发关注

Krea AI自研的文生图模型Krea 2 Medium在Artificial Analysis排行榜上位列第6,仅落后于OpenAI、Google和NVIDIA的模型。值得注意的是,体积更小、速度更快的Medium版本在排名上超过了定位更强大的Large版本。两款模型均支持通过API进行风格迁移和创意控制等操作,生成1K分辨率图像。定价方面,Krea 2 Medium为30美元/千张,Krea 2 Large为60美元/千张。

图像生成模型发布评测/基准
01:14
Krea@krea_ai
57
Krea 2 现已上线 @ArtificialAnlys 独立研究实验室排名第一的图像模型,全球文本到图像排行榜第六。 开源版本正在制作中,即将推出。
图像生成开源生态评测/基准
6月2日
21:13
The Verge:AI(RSS)
64
Gemini Spark:迄今最令人震撼与恐惧的AI体验

Google推出了名为Gemini Spark的新一代AI智能体。它是一个始终保持在线的agentic产品,野心在于成为解决各类问题的“万能答案”。在实际测试中,Spark在旅行规划这一典型AI用例上,展现了与以往AI截然不同的能力。此前,AI规划行程通常只能提供最通用、最表层的建议;而Spark则表现出更深层次的、主动的代理能力,其体验被作者形容为“迄今最令人震撼与恐惧”。

智能体Google评测/基准
17:44
Rohan Paul@rohanpaul_ai
65
多数视频模型看起来比它们实际理解的要好

美团LongCat发布视频世界模型评测基准WBench。该基准将测试重点从画面美观转向控制、多轮记忆、指令遵循和物理合理性等核心能力。它包含289个案例、1058个交互轮次,评估了20个模型在导航、主体动作、事件编辑等5个维度的表现,共使用22项自动指标。研究发现,没有任何模型能在所有维度上占据主导,这表明现有系统尚未将高质量渲染、可靠控制、长期记忆与物理规则遵循整合为稳定能力。WBench的设计能区分失败是源于渲染、场景设置、控制还是物理问题,并指出导航能力与视觉质量基本无关。

多模态视频评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
50
GridVQA-X:评估多模态可解释性方法的框架

GridVQA-X是首个专门评估跨模态可解释性的诊断框架。它通过封闭世界合成逻辑生成具有数学保证的解释,并训练了相同架构的对照模型:M_pure(学习稳健的空间关系推理)和M_{spur}(被迫依赖跨模态捷径)。实验发现,现有广泛使用的可解释性方法无法区分这两种模型,无法捕捉真正的跨模态协同,反而可能错误表示多模态模型的实际决策过程,凸显了当前多模态可解释性方法在忠实捕捉跨模态推理方面的关键缺陷。

多模态论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
64
OVO-S-Bench:面向多模态大语言模型流式空间智能的分层基准

OVO-S-Bench是一个完全人工标注的流式空间智能基准,包含1,680个问题,覆盖348个源视频。标注由12名标注员经过约804人小时的多轮质量审核完成。每个问题带有查询时间戳与证据区间,模型仅能看到查询前的视频前缀。问题分为四个抽象层级:瞬时自我中心感知、时空上下文追踪、空间模拟与推理、以及全中心映射。在38个开源与闭源MLLM上,Gemini-3.1-Pro得分59.2,落后人类专家(86.6)27个百分点,全中心映射是主要瓶颈。流式与空间微调MLLM的表现不及它们的基础模型,且链式推理会在缺乏流式依据时放大空间错误。

多模态论文/研究评测/基准
06:30
宝玉@dotey
61
Cursor 为团队用户提升使用额度

Cursor 宣布提升所有团队用户使用额度,并推出 Premium 团队席位。用户反馈其 Agent 模式效果好,支持多任务并行、灵活选择各类模型,且 Plan 模式步骤详细。对比中,用户认为其表现优于 Claude Desktop,略低于 Codex App。当前不足包括不支持 /goal 与手机版,且调试功能仅限内置浏览器。

Cursor: We're increasing usage limits for every Teams user. Inspired by the success of our Ultra plan, we're also introducing a ...

智能体编码评测/基准
06:00
宝玉@dotey
59
Cursor 在为用户增加使用额度。

Cursor 宣布为所有 Teams 用户提升使用额度,并受其 Ultra 计划启发,将推出一个提供 5 倍用量、价格 3 倍的 Premium 团队席位。有用户分享了重度使用其 Agent 的体验,认为效果不错,亮点包括:可开启多任务并行的 multitask 模式、能灵活选择各种模型(如 composer 2.5),以及步骤详细的 Plan 模式配合使用效果稳定。目前不足之处是不支持 /goal、手机版,以及缺乏类似 Codex 的 Chrome use 和 Computer use 调试功能,仅有内置浏览器调试。

Cursor: We're increasing usage limits for every Teams user. Inspired by the success of our Ultra plan, we're also introducing a ...

智能体编码评测/基准
04:08
The Verge:AI(RSS)
59
Gemini的新AI智能体与Google演示一样好

Google推出了Gemini智能体Spark,它可以在后台为用户执行多步骤任务。评测显示其效果显著,但存在成本和隐私方面的权衡。该智能体支持“24/7”自主运行,但始终由用户控制,并被设计在采取重大行动前先征询用户意见。

智能体Google评测/基准
01:18
MiniMax (official)@MiniMax_AI
54
BU Bench上提升26% 👀 还有更多

Alexander Yue: MiniMax m3 is a huge 26% improvement on BU Bench with browsercode, and shows promise for some potential future improveme...

模型发布评测/基准
01:11
Artificial Analysis@ArtificialAnlys
61
AA-WER Streaming 基准测试发布

Artificial Analysis 团队推出 AA-WER Streaming 基准,用于评估流式语音转文本模型在语音智能体场景中的表现,主要考察准确性与延迟。流式模型需要在这两者间取得平衡。测评结果显示,Cartesia Ink-2 在最终转录准确性上领先,词错率为 3.59%,延迟为 210ms;ElevenLabs Scribe v2 Realtime 以 3.64% 词错率和 140ms 延迟紧随其后;Deepgram Flux 延迟最低(约 20ms),但词错率为 7.36%。这三家模型处于准确性-延迟帕累托前沿。

评测/基准语音
6月1日
21:09
karminski-牙医@karminski3
56
Qwen3.7-Max实测:后端能力登顶

Qwen3.7-Max实测显示其前端测试能力较3.6版本有显著进步。后端能力测试在34个参与模型中表现突出,以6947分登顶,远超此前GPT-5.5-Pro(xhigh)的4000分,且是唯一实现IVF-PQ + ADC索引方案的模型。测试也指出其输出分布稳定性有待提升,建议使用中多加review代码。此外,其Agent能力已达到第一梯队水平,并可实际用于构建AI磁盘恢复系统等工程任务。

智能体编码评测/基准
19:17
MiniMax (official)@MiniMax_AI
62
我可以整天看SVG测试!快用M3多发点给我 👀

WorldofAI: Minimax M3 is excellent at SVG generation, reaching close to Gemini 3.5 Flash levels and beating Opus 4.7 on SVG-Bench. ...

图像生成开源生态评测/基准
16:17
MiniMax (official)@MiniMax_AI
53
太棒了 🙌 快去 @orca_build 里用 @opencode 试试 M3 【引用 @JinjingLiang】:MiniMax M3 让我惊艳 我一直在 @orca_build 里用 @opencode 智能体免费使用它 目前主要做 UI 任务和代码审查,但感觉性能与 Opus-4.7 不相上下 没想到它这么好用。(而且目前免费)

Jinjing Liang: Blown away by MiniMax M3 I've been using it for free inside @orca_build with the @opencode agent Mostly UI tasks & code ...

开源/仓库编码评测/基准
12:35
Artificial Analysis@ArtificialAnlys
81
NVIDIA发布最大Nemotron 3模型Nemotron 3 Ultra

NVIDIA在Computex上发布了Nemotron 3 Ultra,总参数达550B(激活参数55B),是目前最大的Nemotron 3模型。该模型在美国开放权重模型中智能性最强,在Artificial Analysis Intelligence Index评测中得分为48,超越了Gemma 4 31B(39分),但仍落后于月之暗面(Kimi)的K2.6(54分)。在推理速度方面,其在预发布端点上超过了300 tokens/s,远高于同级别中国模型通常的50-100 tokens/s。该模型将提供BF16权重及NVFP4量化版本以提升推理性能。

开源/仓库推理模型发布评测/基准
关联讨论 10 条X:Kim (@kimmonismus)HuggingFace Daily Papers(社区热门论文)IT之家(RSS)Hugging Face:Blog(RSS)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)Hacker News 热门(buzzing.cc 中文翻译)LMSYS:Blog(Chatbot Arena 团队)X:Artificial Analysis (@ArtificialAnlys)
08:00
HuggingFace Daily Papers(社区热门论文)
64
利用感知扰动和奖励建模缓解多模态大语言模型评估中的感知判断偏差

多模态大语言模型作为评估者时,若视觉证据与文本线索冲突,模型倾向于奖励看似合理但感知错误的答案,即感知判断偏差。本文构建感知扰动评估数据集,通过最小编辑的反事实响应隔离感知错误并提供可验证监督;提出结合GRPO结构化奖励与批量排序目标的统一训练框架,无需显式成对标签即可实现全局排序一致性。实验表明该方法显著提升评估的感知忠实度、排序一致性与人类对齐度。

安全/对齐论文/研究评测/基准
06:16
swyx@swyx
39
每家评估/分析初创公司都将在2026年经历一次性的代际升级,转型为持续学习平台。许多公司会失败,但一如既往,有品味的公司会胜出。
大佬观点现象/趋势评测/基准
5月31日
16:17
The Decoder:AI News(RSS)
60
AI 搜索代理往往只是确认其已知信息,而非真正研究网络

哈尔滨工业大学研究人员发现,包括 GPT-5.4 和 Kimi K2.6 在内的领先 AI 搜索代理,在已有的基准测试上并未进行太多真正的网络研究。它们主要利用网络来确认其在训练阶段已学到的知识。研究团队使用名为 LiveBrowseComp 的新基准测试得出了该结论,此测试仅涉及过去 90 天内的事件。当模型无法依赖既有记忆时,其表现显著下降,现有的性能排名也随之改变。

搜索论文/研究评测/基准
10:33
DogeDesigner@cb_doge
70
新消息:Grok Imagine Video 1.5 Preview 刚刚在 Video Arena 的图生视频基准测试中排名第一。 相比之前的 Grok Imagine Video 模型,分数大幅提升了 52 分,超越了 Seedance 2.0、HappyHorse 和 Veo 3.1。 xAI 进展迅速。🚀
xAI模型发布视频评测/基准
10:17
Chubby♨️@kimmonismus
59
Anthropic 的 Opus 4.8 在 DeepSWE 基准测试中表现较 Opus 4.7 有显著提升,同时降低了每项任务的平均成本。具体而言,在默认高思考努力(xhigh)设置下,其得分比 Opus 4.7 xhigh 高出 6%。然而,GPT-5.5 xhigh 在该项测试中仍以明显优势领先,且成本更低。推文作者对 OpenAI 近期的模型发布印象深刻,并期待 GPT-5.6,同时也开始认可 Opus 4.8,认为当前正处于两家前沿实验室持续推出真正令人印象深刻模型的时刻。

Datacurve: Opus 4.8 is now on DeepSWE. On the default high thinking effort, it scores 6% higher than Opus 4.7 xhigh, while also low...

AnthropicOpenAI编码评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
精选70
ChartArena:跨语言、场景与格式的图表解析基准测试

ChartArena 是一个旨在系统评估图表解析模型的双语基准测试。它覆盖了八种图表家族(包括数字图表与流程图等结构),并针对数字渲染、打印照片和手绘照片三种场景进行评估。数据集采用人机协作标注流程,并设计了格式无关的评估协议,将不同模型输出映射到标准化语义空间进行评分。对26个多模态大语言模型的评估显示,前沿闭源模型如Gemini 3.1 Pro领先,开源系统正快速追赶;文档解析模型在数字图表上表现尚可,但在图表结构上明显不足;专业解析器仍局限于特定图表类型。雷达图和手绘场景对所有模型都尤其具有挑战性。

GitHub多模态论文/研究评测/基准

推荐理由:ChartArena 把图表评测从柱状图/折线图拉到了流程图和手绘照片,终于能测出 MLLM 在真实文档场景下的真实水平,做文档解析的团队该认真看一下。
05:49
MarkTechPost(RSS)
57
2026年最佳文本转语音(TTS)模型:基于基准测试的对比

文章对2026年领先的商用与开源权重文本转语音(TTS)模型进行了排名对比。评估维度包括语音质量、延迟、成本、语言覆盖范围及许可协议,旨在帮助工程师根据具体应用场景选择合适的模型。

多模态评测/基准语音
04:47
Rohan Paul@rohanpaul_ai
60
本地运行的大语言模型比较:小参数MoE模型在智能体工具调用任务上击败大模型

在MacBook Pro M5 Max 64GB上的本地测试中,Liquid的LFM2.5-8B-A1B模型在需要完成7个工具调用的旅行规划任务上,显著优于OpenAI的gpt-oss-20b。LFM2.5-8B-A1B仅使用4.8GB内存,以266tok/s的速度成功完成了全部7/7工具调用,耗时6.9秒。相比之下,gpt-oss-20b消耗了11GB内存,仅完成3/7工具调用,速度为146tok/s,耗时15秒。这表明,一个活跃参数规模更小(1B)的MoE模型,通过更精准的训练,在工具调用这一智能体任务上可以战胜活跃参数规模约其2.5倍的更大模型。

atomic.chat: Liquid's LFM2.5-8B-A1B smashed OpenAI's gpt-oss-20b on tool calling We ran both locally on a MacBook Pro M5 Max, 64GB, a...

MCP/工具端侧评测/基准
04:45
elvis@omarsar0
55
效率前沿! 你认为 GPT-5.6 会落在哪里?

CHOI: Claude Opus 4.8 has landed on DeepSWE Bench, posting a 58% Pass@1 and taking #2 overall behind GPT-5.5. It continues a b...

AnthropicOpenAI大佬观点评测/基准
5月30日
23:46
TechCrunch:AI(RSS)
51
我让 Google 的 24/7 AI 助手 Gemini Spark 上岗,它确实挺好用

Google 推出的 AI 助手 Gemini Spark 可用于自动化日常任务,例如总结邮箱内容和规划本地活动。目前尚不清楚 Google 将其作为独立产品推出的原因。

智能体Google评测/基准
23:14
Ethan Mollick@emollick
61
Epoch AI 使用其综合指标 Epoch Capabilities Index 测量发现,开源模型与闭源模型的能力差距平均约为三个月。但主推文作者对此表示怀疑,认为开源大语言模型的实际表现(尤其是在分布外任务上)比评测分数所显示的更为脆弱,真实的体感差距可能远不止三四个月。

Epoch AI: We measure the gap using the Epoch Capabilities Index, our aggregate measure of model capability. Compared to our last a...

大佬观点开源生态评测/基准
15:21
IT之家(RSS)
49
AI 社会自治测试:Grok 四天崩溃、Gemini 犯罪率最高
智能体AnthropicGoogle安全/对齐
11:40
Tibo@thsottiaux
24
你还会相信评测基准吗,还是只听朋友的?是什么让你尝试一个新模型?
其他评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
51
论大语言模型适应性的局限:模型内化先验对标注任务性能的影响

在零样本标注与LLM-as-a-judge任务中,LLM内化先验与用户指令存在交互。针对社交媒体、游戏、新闻和论坛数据集的毒性检测实验发现,近三分之二的零样本错误无法通过提示纠正,总体纠正率仅34.8%,高置信度错误尤为顽固。当给出错误任务定义时,LLM会遵循定义但置信度不变。新提出的定义特定熟悉度(DSF)衡量模型内部概念与任务定义的对齐程度,在控制数据集混淆后与性能呈正相关(partial r=+0.41),而三种记忆指标(ROUGE-L、BERTScore、嵌入向量余弦相似度)均未显示正相关。这表明基于提示的纠正存在根本局限,定义对齐比文本记忆更重要。

论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
54
SuperMemory-VQA:面向长时记忆的自我中心视觉问答基准

SuperMemory-VQA 是一个用于评估 AI 助手长期记忆能力的自我中心 VQA 数据集,包含 52.9 小时 AI 眼镜日常活动记录,同步 RGB 视频、音频转录、眼动追踪、IMU 和 SLAM 轨迹。经人工验证的标注流程生成了 4853 个接地问答对,覆盖物体/位置记忆、意图回忆、视觉场景重构、时间线重建、对话记忆和上下文检索,每题均为多项选择并含“不可回答”选项以测试抗幻觉能力。对主流智能体和大语言模型的基准测试显示,现有系统在真实世界记忆任务上远未可靠,需设计仅当证据充分时才作答的接地 AI 记忆架构。

arXiv多模态论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
65
RoboStressBench:面向具身场景物理视觉压力的VLM鲁棒性基准测试

RoboStressBench是一个用于评估视觉语言模型在具身场景中对物理视觉压力鲁棒性的基准测试。它从逆向图形学角度出发,将视觉压力系统性地分解为材质、视角、光照和几何四个基于物理的维度。该研究通过对先进模型的全面评估,揭示了特定压力下的失败模式,并发现不同物理因素对识别、推理和规划等能力的影响存在差异。此外,研究还引入了一种压力感知智能体求解器,它能在推理前检测视觉压力源并调用视觉编辑技能,以提升模型在复杂场景中的鲁棒性。

具身智能多模态论文/研究评测/基准
04:46
Chubby♨️@kimmonismus
56
根据 EpochAI 的研究,开源权重模型落后于前沿闭源模型四个月。 四个月。这非常短暂。同时也令人印象深刻。

Epoch AI: We took another look at the capability gap between open-weight and proprietary models. Since the start of the year, open...

开源生态评测/基准
02:26
MiniMax (official)@MiniMax_AI
43
MiniMax M2.7 + CyOps = 评分说明一切 💪

Leo Fan (mainnet arc): I gave the same Go MMRPG backend spec to two coding agents and then asked Claude to judge the performance. CC (with Sonn...

智能体编码评测/基准
00:15
TechCrunch:AI(RSS)
38
Kiwibot 的 AI 驱动智能喂鸟器是我的新后院伙伴

Kiwibot 推出一款 AI 驱动的智能喂鸟器,用户可以通过配套应用记录并收集遇到的鸟类物种,玩法类似在 Pokémon 中收集宝可梦。

多模态端侧评测/基准
5月29日
18:15
The Verge:AI(RSS)
52
Adobe的对话式AI智能体是一个平庸的设计实习生

Adobe正在beta测试的Firefly AI Assistant是一个对话式AI智能体,定位为设计工作流的中间人,旨在帮助用户处理繁琐任务同时保留创作控制权。然而,初步体验表明其功能表现平庸,未能令人印象深刻。

智能体图像生成评测/基准
16:34
Berryxia.AI@berryxia
42
Opus 4.7 VS Opus 4.8 直观感受没有很强烈的对比~
Anthropic评测/基准
14:30
HuggingFace Daily Papers(社区热门论文)
69
ChildVox: 一个用于理解和表征儿童期声音的语音、音频与大型音频-语言模型基准

ChildVox 是一个用于评估AI模型对儿童多样化声学信号理解能力的新基准。它覆盖了从出生到学龄的完整发展轨迹,包含生理声音、非语言发声、规范音节和口语语言。该基准整合了17个儿童音频与语音数据集中的20多个子任务,实现了系统性跨语料库、跨领域比较。我们评估了自监督、面向ASR及大型音频-语言模型三类基础模型,任务涵盖生理声音分类、发声与规范音节建模、语音质量评估与识别。结果表明,ChildVox提供了一套高性能模型,能够识别广泛的儿童声学信号,支持下游应用,如表征儿童语言水平和追踪语音发展。

论文/研究评测/基准语音
12:29
HuggingFace Daily Papers(社区热门论文)
65
YOCAUSAL: 视频生成距世界模型有多远?一个因果关系的视角

本文提出YOCAUSAL,一个受认知科学“违反期望”范式启发的两层级基准测试,用于评估视频扩散模型(VDMs)的因果理解能力。Level 1通过零成本的时间反转真实视频构建反事实样本,引入“反转惊奇指数”(RSI)量化模型对时间箭头的感知。Level 2引入“因果认知指数”(CCI),利用视觉语言模型将数据集分层,以区分真正的因果推理与时间偏差。对13个先进VDMs的评估表明,感知时间箭头并不等同于理解因果关系,当前模型在因果认知方面与人类水平仍存在显著差距。

arXiv推理视频论文/研究
11:40
StepFun@StepFun_ai
72
阶跃星辰发布的多模态模型 Step 3.7 Flash 已在 ModelScope 平台上线。该模型采用 198B 总参数的 MoE 架构,每个 token 激活 11B 参数,推理速度最高达 400 tok/s,支持 256K 上下文窗口,并提供低、中、高三个推理级别以平衡速度与效果。其在 ClawEval-1.1 榜单位列第一(67.1分),在 SWE-bench Pro 上排名第二(56.3分)。模型具备原生多模态能力,由语言骨干与视觉编码器组成,原生支持解析密集UI、图表及财报。该模型采用 Apache 2.0 协议开源,并兼容 vLLM 等多种推理框架。

ModelScope: Thrilled to welcome Step 3.7 Flash landing on ModelScope, a 198B sparse MoE VLM from @StepFun_ai 🔥🤖 https://modelscope...

智能体多模态开源/仓库模型发布
11:29
HuggingFace Daily Papers(社区热门论文)
精选75
WorldMemArena:通过行动-世界交互循环评估多模态智能体记忆

针对现有基准无法精确诊断多模态智能体记忆在动态环境中的具体失败阶段,研究提出了“行动-世界交互循环”记忆模型,并构建了WorldMemArena基准。该基准包含400个多会话多模态任务,涵盖“终身进化”和“智能体执行”两类场景,支持对记忆写入、维护、检索和使用的阶段级评估。研究首次对长上下文、RAG等手工设计系统与基于框架的记忆智能体进行直接比较,发现记忆写入与存储质量的提升不直接带来性能改善,且多模态记忆在利用视觉证据及跨领域稳定性上仍存在挑战。

智能体多模态论文/研究评测/基准

推荐理由:首个能定位多模态 Agent 记忆“写、维、取、用”哪一步出问题的基准,头对头比较长上下文、RAG 和自管理记忆,结论是写得好未必用得上,做 Agent 的值得认真看。
‹ 上一页
1…910111213…22
下一页 ›