6月3日

01:17

Artificial Analysis@ArtificialAnlys

Krea AI自研的文生图模型Krea 2 Medium在Artificial Analysis排行榜上位列第6，仅落后于OpenAI、Google和NVIDIA的模型。值得注意的是，体积更小、速度更快的Medium版本在排名上超过了定位更强大的Large版本。两款模型均支持通过API进行风格迁移和创意控制等操作，生成1K分辨率图像。定价方面，Krea 2 Medium为30美元/千张，Krea 2 Large为60美元/千张。

图像生成模型发布评测/基准

01:14

Krea@krea_ai

Krea 2 现已上线 @ArtificialAnlys 独立研究实验室排名第一的图像模型，全球文本到图像排行榜第六。开源版本正在制作中，即将推出。

图像生成开源生态评测/基准

6月2日

21:13

The Verge：AI（RSS）

Gemini Spark：迄今最令人震撼与恐惧的AI体验

Google推出了名为Gemini Spark的新一代AI智能体。它是一个始终保持在线的agentic产品，野心在于成为解决各类问题的“万能答案”。在实际测试中，Spark在旅行规划这一典型AI用例上，展现了与以往AI截然不同的能力。此前，AI规划行程通常只能提供最通用、最表层的建议；而Spark则表现出更深层次的、主动的代理能力，其体验被作者形容为“迄今最令人震撼与恐惧”。

智能体 Google 评测/基准

17:44

Rohan Paul@rohanpaul_ai

多数视频模型看起来比它们实际理解的要好

美团LongCat发布视频世界模型评测基准WBench。该基准将测试重点从画面美观转向控制、多轮记忆、指令遵循和物理合理性等核心能力。它包含289个案例、1058个交互轮次，评估了20个模型在导航、主体动作、事件编辑等5个维度的表现，共使用22项自动指标。研究发现，没有任何模型能在所有维度上占据主导，这表明现有系统尚未将高质量渲染、可靠控制、长期记忆与物理规则遵循整合为稳定能力。WBench的设计能区分失败是源于渲染、场景设置、控制还是物理问题，并指出导航能力与视觉质量基本无关。

多模态视频评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

GridVQA-X：评估多模态可解释性方法的框架

GridVQA-X是首个专门评估跨模态可解释性的诊断框架。它通过封闭世界合成逻辑生成具有数学保证的解释，并训练了相同架构的对照模型：M_pure（学习稳健的空间关系推理）和M_{spur}（被迫依赖跨模态捷径）。实验发现，现有广泛使用的可解释性方法无法区分这两种模型，无法捕捉真正的跨模态协同，反而可能错误表示多模态模型的实际决策过程，凸显了当前多模态可解释性方法在忠实捕捉跨模态推理方面的关键缺陷。

多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

OVO-S-Bench：面向多模态大语言模型流式空间智能的分层基准

OVO-S-Bench是一个完全人工标注的流式空间智能基准，包含1,680个问题，覆盖348个源视频。标注由12名标注员经过约804人小时的多轮质量审核完成。每个问题带有查询时间戳与证据区间，模型仅能看到查询前的视频前缀。问题分为四个抽象层级：瞬时自我中心感知、时空上下文追踪、空间模拟与推理、以及全中心映射。在38个开源与闭源MLLM上，Gemini-3.1-Pro得分59.2，落后人类专家（86.6）27个百分点，全中心映射是主要瓶颈。流式与空间微调MLLM的表现不及它们的基础模型，且链式推理会在缺乏流式依据时放大空间错误。

多模态论文/研究评测/基准

06:30

宝玉@dotey

Cursor 为团队用户提升使用额度

Cursor 宣布提升所有团队用户使用额度，并推出 Premium 团队席位。用户反馈其 Agent 模式效果好，支持多任务并行、灵活选择各类模型，且 Plan 模式步骤详细。对比中，用户认为其表现优于 Claude Desktop，略低于 Codex App。当前不足包括不支持 /goal 与手机版，且调试功能仅限内置浏览器。

Cursor: We're increasing usage limits for every Teams user. Inspired by the success of our Ultra plan, we're also introducing a ...

智能体编码评测/基准

06:00

宝玉@dotey

Cursor 在为用户增加使用额度。

Cursor 宣布为所有 Teams 用户提升使用额度，并受其 Ultra 计划启发，将推出一个提供 5 倍用量、价格 3 倍的 Premium 团队席位。有用户分享了重度使用其 Agent 的体验，认为效果不错，亮点包括：可开启多任务并行的 multitask 模式、能灵活选择各种模型（如 composer 2.5），以及步骤详细的 Plan 模式配合使用效果稳定。目前不足之处是不支持 /goal、手机版，以及缺乏类似 Codex 的 Chrome use 和 Computer use 调试功能，仅有内置浏览器调试。

Cursor: We're increasing usage limits for every Teams user. Inspired by the success of our Ultra plan, we're also introducing a ...

智能体编码评测/基准

04:08

The Verge：AI（RSS）

Gemini的新AI智能体与Google演示一样好

Google推出了Gemini智能体Spark，它可以在后台为用户执行多步骤任务。评测显示其效果显著，但存在成本和隐私方面的权衡。该智能体支持“24/7”自主运行，但始终由用户控制，并被设计在采取重大行动前先征询用户意见。

智能体 Google 评测/基准

01:18

MiniMax (official)@MiniMax_AI

BU Bench上提升26% 👀 还有更多

Alexander Yue: MiniMax m3 is a huge 26% improvement on BU Bench with browsercode, and shows promise for some potential future improveme...

模型发布评测/基准

01:11

Artificial Analysis@ArtificialAnlys

AA-WER Streaming 基准测试发布

Artificial Analysis 团队推出 AA-WER Streaming 基准，用于评估流式语音转文本模型在语音智能体场景中的表现，主要考察准确性与延迟。流式模型需要在这两者间取得平衡。测评结果显示，Cartesia Ink-2 在最终转录准确性上领先，词错率为 3.59%，延迟为 210ms；ElevenLabs Scribe v2 Realtime 以 3.64% 词错率和 140ms 延迟紧随其后；Deepgram Flux 延迟最低（约 20ms），但词错率为 7.36%。这三家模型处于准确性-延迟帕累托前沿。

评测/基准语音

6月1日

21:09

karminski-牙医@karminski3

Qwen3.7-Max实测：后端能力登顶

Qwen3.7-Max实测显示其前端测试能力较3.6版本有显著进步。后端能力测试在34个参与模型中表现突出，以6947分登顶，远超此前GPT-5.5-Pro（xhigh）的4000分，且是唯一实现IVF-PQ + ADC索引方案的模型。测试也指出其输出分布稳定性有待提升，建议使用中多加review代码。此外，其Agent能力已达到第一梯队水平，并可实际用于构建AI磁盘恢复系统等工程任务。

智能体编码评测/基准

19:17

MiniMax (official)@MiniMax_AI

我可以整天看SVG测试！快用M3多发点给我 👀

WorldofAI: Minimax M3 is excellent at SVG generation, reaching close to Gemini 3.5 Flash levels and beating Opus 4.7 on SVG-Bench. ...

图像生成开源生态评测/基准

16:17

MiniMax (official)@MiniMax_AI

太棒了 🙌 快去 @orca_build 里用 @opencode 试试 M3 【引用 @JinjingLiang】：MiniMax M3 让我惊艳我一直在 @orca_build 里用 @opencode 智能体免费使用它目前主要做 UI 任务和代码审查，但感觉性能与 Opus-4.7 不相上下没想到它这么好用。（而且目前免费）

Jinjing Liang: Blown away by MiniMax M3 I've been using it for free inside @orca_build with the @opencode agent Mostly UI tasks & code ...

开源/仓库编码评测/基准

12:35

Artificial Analysis@ArtificialAnlys

NVIDIA发布最大Nemotron 3模型Nemotron 3 Ultra

NVIDIA在Computex上发布了Nemotron 3 Ultra，总参数达550B（激活参数55B），是目前最大的Nemotron 3模型。该模型在美国开放权重模型中智能性最强，在Artificial Analysis Intelligence Index评测中得分为48，超越了Gemma 4 31B（39分），但仍落后于月之暗面（Kimi）的K2.6（54分）。在推理速度方面，其在预发布端点上超过了300 tokens/s，远高于同级别中国模型通常的50-100 tokens/s。该模型将提供BF16权重及NVFP4量化版本以提升推理性能。

开源/仓库推理模型发布评测/基准

关联讨论 10 条