Krea AI自研的文生图模型Krea 2 Medium在Artificial Analysis排行榜上位列第6,仅落后于OpenAI、Google和NVIDIA的模型。值得注意的是,体积更小、速度更快的Medium版本在排名上超过了定位更强大的Large版本。两款模型均支持通过API进行风格迁移和创意控制等操作,生成1K分辨率图像。定价方面,Krea 2 Medium为30美元/千张,Krea 2 Large为60美元/千张。
Krea AI自研的文生图模型Krea 2 Medium在Artificial Analysis排行榜上位列第6,仅落后于OpenAI、Google和NVIDIA的模型。值得注意的是,体积更小、速度更快的Medium版本在排名上超过了定位更强大的Large版本。两款模型均支持通过API进行风格迁移和创意控制等操作,生成1K分辨率图像。定价方面,Krea 2 Medium为30美元/千张,Krea 2 Large为60美元/千张。
Google推出了名为Gemini Spark的新一代AI智能体。它是一个始终保持在线的agentic产品,野心在于成为解决各类问题的“万能答案”。在实际测试中,Spark在旅行规划这一典型AI用例上,展现了与以往AI截然不同的能力。此前,AI规划行程通常只能提供最通用、最表层的建议;而Spark则表现出更深层次的、主动的代理能力,其体验被作者形容为“迄今最令人震撼与恐惧”。
美团LongCat发布视频世界模型评测基准WBench。该基准将测试重点从画面美观转向控制、多轮记忆、指令遵循和物理合理性等核心能力。它包含289个案例、1058个交互轮次,评估了20个模型在导航、主体动作、事件编辑等5个维度的表现,共使用22项自动指标。研究发现,没有任何模型能在所有维度上占据主导,这表明现有系统尚未将高质量渲染、可靠控制、长期记忆与物理规则遵循整合为稳定能力。WBench的设计能区分失败是源于渲染、场景设置、控制还是物理问题,并指出导航能力与视觉质量基本无关。
GridVQA-X是首个专门评估跨模态可解释性的诊断框架。它通过封闭世界合成逻辑生成具有数学保证的解释,并训练了相同架构的对照模型:M_pure(学习稳健的空间关系推理)和M_{spur}(被迫依赖跨模态捷径)。实验发现,现有广泛使用的可解释性方法无法区分这两种模型,无法捕捉真正的跨模态协同,反而可能错误表示多模态模型的实际决策过程,凸显了当前多模态可解释性方法在忠实捕捉跨模态推理方面的关键缺陷。
OVO-S-Bench是一个完全人工标注的流式空间智能基准,包含1,680个问题,覆盖348个源视频。标注由12名标注员经过约804人小时的多轮质量审核完成。每个问题带有查询时间戳与证据区间,模型仅能看到查询前的视频前缀。问题分为四个抽象层级:瞬时自我中心感知、时空上下文追踪、空间模拟与推理、以及全中心映射。在38个开源与闭源MLLM上,Gemini-3.1-Pro得分59.2,落后人类专家(86.6)27个百分点,全中心映射是主要瓶颈。流式与空间微调MLLM的表现不及它们的基础模型,且链式推理会在缺乏流式依据时放大空间错误。
Cursor 宣布提升所有团队用户使用额度,并推出 Premium 团队席位。用户反馈其 Agent 模式效果好,支持多任务并行、灵活选择各类模型,且 Plan 模式步骤详细。对比中,用户认为其表现优于 Claude Desktop,略低于 Codex App。当前不足包括不支持 /goal 与手机版,且调试功能仅限内置浏览器。
We're increasing usage limits for every Teams user. Inspired by the success of our Ultra plan, we're also introducing a ...
Cursor 宣布为所有 Teams 用户提升使用额度,并受其 Ultra 计划启发,将推出一个提供 5 倍用量、价格 3 倍的 Premium 团队席位。有用户分享了重度使用其 Agent 的体验,认为效果不错,亮点包括:可开启多任务并行的 multitask 模式、能灵活选择各种模型(如 composer 2.5),以及步骤详细的 Plan 模式配合使用效果稳定。目前不足之处是不支持 /goal、手机版,以及缺乏类似 Codex 的 Chrome use 和 Computer use 调试功能,仅有内置浏览器调试。
We're increasing usage limits for every Teams user. Inspired by the success of our Ultra plan, we're also introducing a ...
Google推出了Gemini智能体Spark,它可以在后台为用户执行多步骤任务。评测显示其效果显著,但存在成本和隐私方面的权衡。该智能体支持“24/7”自主运行,但始终由用户控制,并被设计在采取重大行动前先征询用户意见。
MiniMax m3 is a huge 26% improvement on BU Bench with browsercode, and shows promise for some potential future improveme...
Artificial Analysis 团队推出 AA-WER Streaming 基准,用于评估流式语音转文本模型在语音智能体场景中的表现,主要考察准确性与延迟。流式模型需要在这两者间取得平衡。测评结果显示,Cartesia Ink-2 在最终转录准确性上领先,词错率为 3.59%,延迟为 210ms;ElevenLabs Scribe v2 Realtime 以 3.64% 词错率和 140ms 延迟紧随其后;Deepgram Flux 延迟最低(约 20ms),但词错率为 7.36%。这三家模型处于准确性-延迟帕累托前沿。
Qwen3.7-Max实测显示其前端测试能力较3.6版本有显著进步。后端能力测试在34个参与模型中表现突出,以6947分登顶,远超此前GPT-5.5-Pro(xhigh)的4000分,且是唯一实现IVF-PQ + ADC索引方案的模型。测试也指出其输出分布稳定性有待提升,建议使用中多加review代码。此外,其Agent能力已达到第一梯队水平,并可实际用于构建AI磁盘恢复系统等工程任务。
Minimax M3 is excellent at SVG generation, reaching close to Gemini 3.5 Flash levels and beating Opus 4.7 on SVG-Bench. ...
Blown away by MiniMax M3 I've been using it for free inside @orca_build with the @opencode agent Mostly UI tasks & code ...
NVIDIA在Computex上发布了Nemotron 3 Ultra,总参数达550B(激活参数55B),是目前最大的Nemotron 3模型。该模型在美国开放权重模型中智能性最强,在Artificial Analysis Intelligence Index评测中得分为48,超越了Gemma 4 31B(39分),但仍落后于月之暗面(Kimi)的K2.6(54分)。在推理速度方面,其在预发布端点上超过了300 tokens/s,远高于同级别中国模型通常的50-100 tokens/s。该模型将提供BF16权重及NVFP4量化版本以提升推理性能。
关联讨论 10 条X:Kim (@kimmonismus)HuggingFace Daily Papers(社区热门论文)IT之家(RSS)Hugging Face:Blog(RSS)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)Hacker News 热门(buzzing.cc 中文翻译)LMSYS:Blog(Chatbot Arena 团队)X:Artificial Analysis (@ArtificialAnlys)多模态大语言模型作为评估者时,若视觉证据与文本线索冲突,模型倾向于奖励看似合理但感知错误的答案,即感知判断偏差。本文构建感知扰动评估数据集,通过最小编辑的反事实响应隔离感知错误并提供可验证监督;提出结合GRPO结构化奖励与批量排序目标的统一训练框架,无需显式成对标签即可实现全局排序一致性。实验表明该方法显著提升评估的感知忠实度、排序一致性与人类对齐度。
哈尔滨工业大学研究人员发现,包括 GPT-5.4 和 Kimi K2.6 在内的领先 AI 搜索代理,在已有的基准测试上并未进行太多真正的网络研究。它们主要利用网络来确认其在训练阶段已学到的知识。研究团队使用名为 LiveBrowseComp 的新基准测试得出了该结论,此测试仅涉及过去 90 天内的事件。当模型无法依赖既有记忆时,其表现显著下降,现有的性能排名也随之改变。
Opus 4.8 is now on DeepSWE. On the default high thinking effort, it scores 6% higher than Opus 4.7 xhigh, while also low...
ChartArena 是一个旨在系统评估图表解析模型的双语基准测试。它覆盖了八种图表家族(包括数字图表与流程图等结构),并针对数字渲染、打印照片和手绘照片三种场景进行评估。数据集采用人机协作标注流程,并设计了格式无关的评估协议,将不同模型输出映射到标准化语义空间进行评分。对26个多模态大语言模型的评估显示,前沿闭源模型如Gemini 3.1 Pro领先,开源系统正快速追赶;文档解析模型在数字图表上表现尚可,但在图表结构上明显不足;专业解析器仍局限于特定图表类型。雷达图和手绘场景对所有模型都尤其具有挑战性。
文章对2026年领先的商用与开源权重文本转语音(TTS)模型进行了排名对比。评估维度包括语音质量、延迟、成本、语言覆盖范围及许可协议,旨在帮助工程师根据具体应用场景选择合适的模型。
在MacBook Pro M5 Max 64GB上的本地测试中,Liquid的LFM2.5-8B-A1B模型在需要完成7个工具调用的旅行规划任务上,显著优于OpenAI的gpt-oss-20b。LFM2.5-8B-A1B仅使用4.8GB内存,以266tok/s的速度成功完成了全部7/7工具调用,耗时6.9秒。相比之下,gpt-oss-20b消耗了11GB内存,仅完成3/7工具调用,速度为146tok/s,耗时15秒。这表明,一个活跃参数规模更小(1B)的MoE模型,通过更精准的训练,在工具调用这一智能体任务上可以战胜活跃参数规模约其2.5倍的更大模型。
Liquid's LFM2.5-8B-A1B smashed OpenAI's gpt-oss-20b on tool calling We ran both locally on a MacBook Pro M5 Max, 64GB, a...
Claude Opus 4.8 has landed on DeepSWE Bench, posting a 58% Pass@1 and taking #2 overall behind GPT-5.5. It continues a b...
Google 推出的 AI 助手 Gemini Spark 可用于自动化日常任务,例如总结邮箱内容和规划本地活动。目前尚不清楚 Google 将其作为独立产品推出的原因。
We measure the gap using the Epoch Capabilities Index, our aggregate measure of model capability. Compared to our last a...
在零样本标注与LLM-as-a-judge任务中,LLM内化先验与用户指令存在交互。针对社交媒体、游戏、新闻和论坛数据集的毒性检测实验发现,近三分之二的零样本错误无法通过提示纠正,总体纠正率仅34.8%,高置信度错误尤为顽固。当给出错误任务定义时,LLM会遵循定义但置信度不变。新提出的定义特定熟悉度(DSF)衡量模型内部概念与任务定义的对齐程度,在控制数据集混淆后与性能呈正相关(partial r=+0.41),而三种记忆指标(ROUGE-L、BERTScore、嵌入向量余弦相似度)均未显示正相关。这表明基于提示的纠正存在根本局限,定义对齐比文本记忆更重要。
SuperMemory-VQA 是一个用于评估 AI 助手长期记忆能力的自我中心 VQA 数据集,包含 52.9 小时 AI 眼镜日常活动记录,同步 RGB 视频、音频转录、眼动追踪、IMU 和 SLAM 轨迹。经人工验证的标注流程生成了 4853 个接地问答对,覆盖物体/位置记忆、意图回忆、视觉场景重构、时间线重建、对话记忆和上下文检索,每题均为多项选择并含“不可回答”选项以测试抗幻觉能力。对主流智能体和大语言模型的基准测试显示,现有系统在真实世界记忆任务上远未可靠,需设计仅当证据充分时才作答的接地 AI 记忆架构。
RoboStressBench是一个用于评估视觉语言模型在具身场景中对物理视觉压力鲁棒性的基准测试。它从逆向图形学角度出发,将视觉压力系统性地分解为材质、视角、光照和几何四个基于物理的维度。该研究通过对先进模型的全面评估,揭示了特定压力下的失败模式,并发现不同物理因素对识别、推理和规划等能力的影响存在差异。此外,研究还引入了一种压力感知智能体求解器,它能在推理前检测视觉压力源并调用视觉编辑技能,以提升模型在复杂场景中的鲁棒性。
We took another look at the capability gap between open-weight and proprietary models. Since the start of the year, open...
I gave the same Go MMRPG backend spec to two coding agents and then asked Claude to judge the performance. CC (with Sonn...
Kiwibot 推出一款 AI 驱动的智能喂鸟器,用户可以通过配套应用记录并收集遇到的鸟类物种,玩法类似在 Pokémon 中收集宝可梦。
Adobe正在beta测试的Firefly AI Assistant是一个对话式AI智能体,定位为设计工作流的中间人,旨在帮助用户处理繁琐任务同时保留创作控制权。然而,初步体验表明其功能表现平庸,未能令人印象深刻。
ChildVox 是一个用于评估AI模型对儿童多样化声学信号理解能力的新基准。它覆盖了从出生到学龄的完整发展轨迹,包含生理声音、非语言发声、规范音节和口语语言。该基准整合了17个儿童音频与语音数据集中的20多个子任务,实现了系统性跨语料库、跨领域比较。我们评估了自监督、面向ASR及大型音频-语言模型三类基础模型,任务涵盖生理声音分类、发声与规范音节建模、语音质量评估与识别。结果表明,ChildVox提供了一套高性能模型,能够识别广泛的儿童声学信号,支持下游应用,如表征儿童语言水平和追踪语音发展。
本文提出YOCAUSAL,一个受认知科学“违反期望”范式启发的两层级基准测试,用于评估视频扩散模型(VDMs)的因果理解能力。Level 1通过零成本的时间反转真实视频构建反事实样本,引入“反转惊奇指数”(RSI)量化模型对时间箭头的感知。Level 2引入“因果认知指数”(CCI),利用视觉语言模型将数据集分层,以区分真正的因果推理与时间偏差。对13个先进VDMs的评估表明,感知时间箭头并不等同于理解因果关系,当前模型在因果认知方面与人类水平仍存在显著差距。
Thrilled to welcome Step 3.7 Flash landing on ModelScope, a 198B sparse MoE VLM from @StepFun_ai 🔥🤖 https://modelscope...
针对现有基准无法精确诊断多模态智能体记忆在动态环境中的具体失败阶段,研究提出了“行动-世界交互循环”记忆模型,并构建了WorldMemArena基准。该基准包含400个多会话多模态任务,涵盖“终身进化”和“智能体执行”两类场景,支持对记忆写入、维护、检索和使用的阶段级评估。研究首次对长上下文、RAG等手工设计系统与基于框架的记忆智能体进行直接比较,发现记忆写入与存储质量的提升不直接带来性能改善,且多模态记忆在利用视觉证据及跨领域稳定性上仍存在挑战。