Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...
Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...
阿里巴巴最新发布的Qwen3.7预览版在Arena社区排行榜上表现突出。在基于百万真实用户投票的Text Arena中,Qwen3.7 Max Preview总榜排名第13,使阿里巴巴位列实验室第6名,并在数学、专家咨询、软件与IT、编程等细分领域进入前十。同时,在Vision Arena中,Qwen3.7 Plus Preview总榜排名第16,助力阿里巴巴升至实验室第5名。此次排名并非实验室内部测试,而是社区实际交互的体现,标志着阿里在模型的文本与视觉综合能力上实现了重要进步。
Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...
Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...
In the Vision Arena, Qwen3.7 Plus Preview makes @Alibaba_Qwen the #5 lab, ranking #16 overall.
Hugging Face 发布开放 AI 智能体排行榜,用于比较完整智能体系统而非仅底层模型,并同时报告成功率和每次任务成本。排行榜统一了六项已有基准测试(SWE-Bench Verified、BrowseComp+、AppWorld、tau2-Bench Airline & Retail、tau2-Bench Telecom),覆盖代码修复、网络研究、个人任务、客服和技术支持。通过统一协议,各智能体系统以相同接口连接所有基准。结果显示相同模型搭配不同智能体系统会产生显著不同的分数和成本。配套 Exgentic 框架用于运行和复现评估,相关论文开源。
大疆推出第二代扫地机器人ROMO 2系列,包含P2透明旗舰版、A2进阶版及S V2标准版,售价区间4299元至6499元。该系列在核心性能上全面升级,吸力从初代的25000Pa大幅提升至36000Pa,涨幅达44%,并搭载123°超大外摆机械臂。产品设计在延续透明基站风格的基础上,将机身调整为半透明纯白,更贴近家居环境。此外,水箱版机型支持后续单独购买套件升级自动上下水功能。
Chronicles-OCR 是业界首个覆盖“七体之变”的中国古文字识别评测基准,用于评估大模型对三千年汉字的识别能力。
5月18日,中国信息通信研究院泰尔终端实验室启动首批“人工智能营销客服平台能力”测评单位征集。随着技术迭代与行业应用深化,该平台已从智能问答工具发展为涵盖客户触达、知识检索、智能问答、坐席协同、营销运营、服务质检和运营管理的综合性平台。本次测评将重点评估平台技术架构、功能完整性、数据安全等内容,面向智能客服平台、智能营销平台等多类单位征集首批参与方。
OmniPro是首个联合评估全模态感知、主动响应和多样化视频理解任务的基准。它包含2700个人工验证样本,覆盖9个子任务、3个认知层级和6项基础能力,其中84%样本依赖语音或非语音音频信号,并标注模态隔离标签。该基准引入探测和在线双模式评估协议,以全面测试内容理解和主动能力。对11个模型的评估揭示:音频信号能提升性能但模型利用效率差异大;性能随时间下降,长程鲁棒性不足;非语音音频感知仍是当前最薄弱环节。
AI评估正经历结构性变革,因大语言模型日益作为交互系统部署,但现有评估实践仍基于静态响应基准,难以适应持续交互新模式。本文主张交互式评估应被视为独立原则性范式,其证据来源从单一响应转变为交互生成轨迹,评估过程需涵盖流程性、可恢复性、协调性、鲁棒性和系统级表现。基于此定义,提出双轴分类法、设计原则和报告标准,通过典型案例分析揭示轨迹层面评估挑战,为构建系统化交互评估框架提供理论基础。
本周,公司尝试了包括Devin、Mistral、Grok、Perplexity在内的多种AI工具,大多数因价值有限将被快速淘汰。但Perplexity AI的企业Slack集成表现惊人,优于Claude,能直接在Slack中发送图像并返回详细研究报告与可视化内容。目前,公司96%的token预算仍流向Anthropic(Claude提供商),但基于使用模式,部分预算可能转向Perplexity。作者希望Claude的Slack集成也能添加类似功能,以提升效率。
分析显示,在Apple Silicon芯片(如M2 Ultra)上本地运行Llama 3.1 405B等大型语言模型,其成本高于使用OpenRouter等云端API服务。具体而言,本地运行每百万tokens成本约为0.73美元,而通过OpenRouter仅需0.59美元,成本高出约24%。这突显了对于大规模模型推理,云端服务目前可能比高端本地硬件更具经济性。
现有研究缺乏对实时双工全模态交互的系统评估。为此,本文提出Omni-DuplexEval基准,包含660个带人工标注的视频,涵盖实时描述和主动提醒两大场景共9个现实任务,所有问题均为开放式。研究同时引入了基于LLM-as-a-Judge的自动评估框架,能够联合评估响应内容与时机。实验表明,当前最优模型在主动提醒任务上表现不佳,最佳模型总体得分仅39.6%,揭示了模型在协调响应时机与内容质量方面的核心挑战。
针对现有抽象推理基准依赖人工标注或易测记忆而非真实推理的问题,本研究提出A2RBench自动生成管道,涵盖生成、扩展、评估与分析四个阶段。生成阶段利用大语言模型创建需要真实推理的任务;扩展阶段通过复用已验证规则扩展任务变体以实现规模化。为消除生成过程中的幻觉,建立了理论框架,证明程序化验证(即测试逆操作能否完美还原正向操作,保证循环一致性)可确保任务的唯一解。对主流大模型的评估显示:当前模型在抽象推理上存在根本缺陷,顶尖模型在代表性子集上的表现(39.8%)远低于人类水平(68.5%);模型在处理3D复杂任务时表现远低于2D和1D任务,揭示了对高维任务理解不足;此外,输入信息复杂度的提升反而可能简化推理过程。
Slides Arena发布了基于370多万真实使用场景的Agentic Slides排行榜。Anthropic的Opus 4.7及其思考版本包揽前两名,Zai_org的GLM 5.1位列第三,共同确立了该领域的SOTA。此次评估并非实验室基准测试,而是针对软可验证、创意密集且需要完整逻辑与设计感的真实幻灯片生成场景,证实了Claude系列在智能体设计方面的领先优势。
BREAKING: The results are in for Slides Arena... @AnthropicAI and @Zai_org models continue to lead the way in soft-verif...
WorldReasonBench新基准测试评估AI视频生成器的物理和逻辑合理性,而非图像质量。ByteDance的Seedance 2.0在该测试中领先,超过Veo 3.1和Sora 2。商业模型的得分大约是开源模型的两倍,逻辑推理是所有模型中最困难的类别,表现差距显著。这表明AI视频生成器虽能产生惊艳视觉效果,但尚未实现从像素生成器到真实世界模型的飞跃。
Hermes Agent vs OpenClaw using Qwen 35B Local Model We asked agents to scrape GitHub star history for both tools, find w...
本研究针对现有查询聚类方法因依赖表面语义而无法准确捕捉LLM潜在能力需求的问题,提出了证据校准查询聚类(ECC)算法。ECC通过有限的模型后验比较校准语义嵌入,弥合表面语义与实际能力要求的差距。它利用Bradley-Terry模型参数化的能力画像描述聚类,并通过可训练的混合权重处理混合能力需求的查询,从而构建灵活的、能力感知的聚类结构。实验表明,ECC显著提升了LLM能力排序质量,相比人工标注和嵌入基线方法平均提升17.64和18.02个百分点,并在查询路由等下游任务中表现有效。
针对智能体在真实工作流中需处理多模态输入、调用工具并自我修正的需求,研究团队推出了MM-ToolBench基准。该基准包含来自客户服务与智能创作两大类共100个可执行任务,覆盖20个细分领域,由27个MCP服务器提供324个工具支持。其核心设计理念是“闭环多模态验证”,即智能体必须执行工具、检查输出制品并在不符合要求时进行自我修正。实验表明,该基准极具挑战性,例如Claude Opus 4.6的成功率仅为32.0%,远低于94.0%的人类基准。它旨在为评估和推进下一代全模态工具使用智能体奠定基础。
Hermes Agent vs OpenClaw using Qwen 35B Local Model We asked agents to scrape GitHub star history for both tools, find w...
科技媒体9to5Google在评测Fitbit Air智能手环时,发现其内置的付费AI健康教练Health Coach出现幻觉,虚构了一段不存在的5.2英里(约8.4公里)跑步记录。该AI不仅承认捏造,还将责任推给用户,暗示可能是用户漏记。这项月费10美元的服务因此被指可靠性存疑,削弱了订阅价值。Fitbit Air手环重约12克,原定5月26日开售,而Google Health应用计划5月19日上线,谷歌仍有机会在发布前优化模型、减少幻觉。
研究团队推出MEMLENS基准,系统评估大型视觉语言模型在多模态多轮对话中的长时记忆能力。该基准包含789个问题,涵盖五大记忆能力,并在四种标准上下文长度下测试。评估27个长上下文模型和7个记忆增强代理后发现:长上下文模型在短对话中表现良好但随对话延长性能下降;记忆代理长度稳定性好但损失视觉保真度。多轮推理任务将多数系统性能限制在30%以下,表明需结合长上下文注意力与结构化多模态检索的混合架构。
研究团队推出FutureSim基准,通过按时间顺序重放真实世界事件(如新闻文章),评估AI智能体在动态开放环境中的长期适应能力。智能体需在模拟的2026年1月至3月期间,基于实时信息预测未来事件。测试结果显示,前沿智能体表现差异显著,最佳预测准确率仅为25%,多数模型的评分甚至低于不作预测的基准。该基准为研究长时域测试时适应、搜索、记忆及不确定性推理等方向提供了真实场景,旨在推动衡量AI在现实世界中长期开放适应能力的进展。
针对生成视频模型作为隐式世界模型时几何一致性评估的挑战,研究团队提出了PDI-Bench定量评估框架。该框架通过分割与点追踪获取物体中心观测,利用单目重建将其提升至3D世界坐标,并通过计算投影几何残差来量化评估尺度-深度对齐、3D运动一致性与3D结构刚性三个关键维度。团队构建了PDI-Dataset以支持系统评测。测试表明,PDI能一致地揭示当前先进视频生成模型中未被常见感知指标捕获的几何缺陷,为推进物理基础视频生成提供了诊断工具。代码与数据集已开源。
Higgsfield的Supercomputer平台允许用户以自然语言描述任务,系统从61种生产技能中自动选取,并将子任务路由至GPT-4o、Claude Opus、Gemini及多种图像视频模型并行处理。它能生成长达60分钟的视频,原生集成Obsidian构建持久化知识库,并通过27个平台连接器连接各类工具。平台运行于云端GPU基础设施,支持品牌标识锁定和后台任务调度。其技能在使用中通过版本追踪和评估测试不断自我改进,用户可通过浏览器或Telegram直接访问,无需本地设置。
How Supercomputer works: 1. Access via browser or Telegram. No local setup 2. Describe your task 3. Orchestrates LLMs an...
EVA-Bench是一个端到端语音智能体评估框架,解决了模拟真实对话与测量全范围语音故障两大挑战。它通过动态多轮机器对话和自动验证进行仿真,并提出了衡量任务完成度、音频保真度的EVA-A指标,以及评估对话体验的EVA-X指标。框架包含三个领域的213个场景及鲁棒性测试集,采用区分峰值与可靠能力的测量方法。在12个系统的测试中发现,无系统能在两项核心指标上同时超过0.5,峰值与可靠性能差距显著,且口音与噪声扰动暴露出明显的鲁棒性缺陷。该框架已开源。
BREAKING: MiMo V2.5 Pro (Thinking) takes 3rd overall out of open weights models on Design Arena. MiMo V2.5 Pro (Thinking...
BREAKING: MiMo V2.5 Pro (Thinking) takes 3rd overall out of open weights models on Design Arena. MiMo V2.5 Pro (Thinking...
Get笔记的价值被严重低估,其会员年费仅99元,性价比极高。核心功能在于用户只需提供链接,即可解读来自小宇宙、B站、抖音、YouTube、TikTok等多个平台的内容,并能获取原始转写文本。此外,它还通过提供Skill和Cli工具,允许用户将Codex分析功能接入自己的网站,实现了服务的深度集成与扩展。
前段时间参与了 Doubao-Seed-2.0-lite 0428 内测。 这个版本升级,增加了音频理解,能同时支持图片、视频、音频、文本四种输入,成为豆包大模型家族首款全模态理解模型。 除了全模态理解,据说 Agent、Coding、GU...
本研究针对图像编辑中抽象指令(如情绪)评估的空白,首次系统定义了抽象图像编辑的分类体系,并提出Entity-Rubrics评估框架。该框架将抽象编辑拆解为独立的实体级评估,其结果与人类判断高度一致。同时,发布了首个跨场景的抽象图像编辑基准AbstractEdit。对11个模型的测试显示,现有架构难以平衡编辑意图与原图保持,常出现编辑不足或过度编辑。研究表明,结合先进LLM文本编码器与迭代思考机制是提升性能的关键。该范式未来可拓展为奖励模型,助力模型理解抽象指令,推动更自然的多模态交互。
测试Ethan_Yang_AI团队开发的Knowly,其解读YouTube视频和arXiv论文的效果令人惊艳。尽管存在免费额度略少、向量处理稍慢的不足,但其产品交互和解读效果均不逊色于NotebookLM。其配套的Chrome插件在用户数尚少时即被谷歌列入精选,彰显了产品实力。
AIIQ.org网站上线,通过12个基准测试在抽象、数学、编程和学术四个维度评估流行大模型,智能估算其IQ分数。EQ由EQ-Bench和Arena Elo加权计算,并对Anthropic模型施加200分惩罚。网站提供IQ与成本、EQ的对比图及3D分析,以人类智力标准衡量AI综合能力。
用户实测腾讯元宝的群聊总结功能,发现其与预期存在较大差距。该功能无法自动进群总结,需用户手动多选聊天记录并转发给元宝,且存在操作上限不明确的问题。生成的总结内容被批评为机械的文本拼凑,缺乏AI应有的智能分析与提炼能力。用户指出,最核心的需求是能将元宝直接拉入群聊并自动梳理每日重点,但目前这一简单需求并未得到实现。
研究团队推出长期记忆评估基准LongMemEval-V2,旨在直接检验智能体内化特定环境经验的能力。该基准包含451个手工问题,涵盖五项核心记忆能力,并配有多达500条轨迹的历史数据。研究提出了基于检索增强生成的高效记忆方法AgentRunbook-R,以及调用编码智能体收集证据的AgentRunbook-C。实验表明,AgentRunbook-C以72.5%的平均准确率取得最佳性能,显著优于基线方法,但延迟成本较高。该基准为开发面向环境经验的长期记忆系统提供了具有挑战性的测试平台。
The top 5 labs in Text Arena rankings by category show that frontier models have distinct strengths and tradeoffs. #1 @A...
本研究审计了多模态物理评测流程,发现了三个未被察觉的构建问题:训练评估数据污染、翻译漂移以及选择题饱和。为解决这些问题,团队发布了四个关键成果:经严格审计的多模态语料库PhysCorp-A、闭式强化学习池PhysR1Corp、包含新题型与双语子集的评测集PhysOlym-A,以及基于Qwen3-VL-8B-Thinking冷启动的参考方案Physics-R1。该方案在审计语料库上将8B基座模型在PhysOlym-A上的得分提升至26.3,在PhysReason上提升至39.6,超越了Qwen3-VL-32B与Gemini 2.5 Pro。