AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「评测/基准」清除
5月19日周二
01:13凡人小北61Qwen3.7表现稳健,国内顶尖已成共识
00:56Berryxia.AI63阿里Qwen3.7预览版在Arena排行榜取得显著成绩
00:02Qwen57Qwen3.7预览版登陆AI评测平台,排名显著提升
00:02Qwen47Qwen3.7 Plus Preview视觉竞技场排名公布
5月18日周一
22:52Hugging Face:Blog(RSS)64精选Hugging Face 推出开放 AI 智能体排行榜(Open Agent Leaderboard)
18:45IT之家(RSS)39【IT之家评测室】大疆扫地机器人 ROMO 2 体验:8.5cm 越障 +36000Pa 吸力,再把无人机技术"降维"到地面
18:18公众号:腾讯混元33中国古文字识别评测基准 Chronicles-OCR 发布:业界首个覆盖"七体之变"
15:45IT之家(RSS)50中国信通院启动首批"人工智能营销客服平台能力"测评
08:00HuggingFace Daily Papers(社区热门论文)55OmniPro:全模态主动流式视频理解综合基准
08:00HuggingFace Daily Papers(社区热门论文)63交互式评估需要设计科学
01:42SemiAnalysis55公司测试多种AI工具,Perplexity AI的Slack集成表现突出
5月17日周日
22:32Hacker News 热门(buzzing.cc 中文翻译)64Apple Silicon本地运行LLM成本高于云端API
09:11SemiAnalysis53GPT 4.6至4.7分词器技术解析
08:00HuggingFace Daily Papers(社区热门论文)51全双工多模态交互评估基准
08:00HuggingFace Daily Papers(社区热门论文)56A2RBench:自动化抽象推理基准生成范式
00:54Berryxia.AI52幻灯片设计竞技场结果出炉,Anthropic与Zai_org领跑
5月16日周六
19:25The Decoder:AI News(RSS)44新基准测试证实AI视频生成器视觉效果惊艳,但仍无法进行世界推理
17:10Peter Steinberger 🦞60性能优化成效显著:Hermes与OpenClaw智能体任务表现对比
08:00HuggingFace Daily Papers(社区热门论文)48基于证据校准查询聚类的LLM能力捕捉
08:00HuggingFace Daily Papers(社区热门论文)57多模态工具使用智能体基准
06:11🚨 AI News | TestingCatalog59Atomic Bot 对比测试:Hermes 与 OpenClaw 在相同任务中的表现
03:05Artificial Analysis63GPT-5.5经济任务表现大幅领先Claude 4
5月15日周五
14:42IT之家(RSS)48外媒初探谷歌 AI 付费健身教练:捏造 8.4 公里跑步记录,反怪用户漏记
11:49HuggingFace Daily Papers(社区热门论文)68MemLens:大型视觉语言模型多模态长时记忆基准测试
10:48HuggingFace Daily Papers(社区热门论文)60FutureSim:通过重放世界事件来评估自适应智能体
10:48HuggingFace Daily Papers(社区热门论文)67量化评估生成视频几何一致性的框架PDI-Bench
02:31Chubby♨️63实测Higgsfield Supercomputer:用自然语言驱动多模型并行的AI生产力平台
01:46HuggingFace Daily Papers(社区热门论文)71精选EVA-Bench:端到端语音智能体评估新框架
5月14日周四
19:58公众号:龙猫LongCat(美团)51美团 LongCat 开源 General 365:树立推理评测新标尺
13:58Xiaomi MiMo69精选MiMo V2.5 Pro 获设计竞技场季军
13:58Xiaomi MiMo60MiMo V2.5 Pro在Design Arena总榜排名第三
11:56向阳乔木64Get笔记会员超值,支持多平台链接解读与集成
11:26向阳乔木49第三方AI客户端暂缺音视频解析功能与豆包全模态模型升级
08:00HuggingFace Daily Papers(社区热门论文)48通过原子实体分析评估图像编辑中的抽象意图
00:25向阳乔木64Knowly解读视频与论文效果惊艳,实力获谷歌认可
5月13日周三
14:50Berryxia.AI60大模型的IQ和EQ排名
11:50Berryxia.AI51腾讯元宝群聊总结功能实测:手动操作欠智能,核心需求未满足
11:44HuggingFace Daily Papers(社区热门论文)57LongMemEval-V2:评估智能体面向环境经验的长期记忆能力
08:49Berryxia.AI52五大前沿AI模型在Text Arena分类排名中各显神通
08:00HuggingFace Daily Papers(社区热门论文)57Physics-R1:一个经过审计的奥林匹克语料库与视觉物理推理方案
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月19日
01:13
凡人小北@frxiaobei
61
Qwen 3.7 有惊喜但不大,国内 top/国际第一梯队早就实锤了。 期待下未来能超过 Anthropic,给国人出口恶气。

Arena.ai: Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...

模型发布评测/基准
00:56
Berryxia.AI@berryxia
63
阿里Qwen3.7预览版在Arena排行榜取得显著成绩

阿里巴巴最新发布的Qwen3.7预览版在Arena社区排行榜上表现突出。在基于百万真实用户投票的Text Arena中,Qwen3.7 Max Preview总榜排名第13,使阿里巴巴位列实验室第6名,并在数学、专家咨询、软件与IT、编程等细分领域进入前十。同时,在Vision Arena中,Qwen3.7 Plus Preview总榜排名第16,助力阿里巴巴升至实验室第5名。此次排名并非实验室内部测试,而是社区实际交互的体现,标志着阿里在模型的文本与视觉综合能力上实现了重要进步。

Arena.ai: Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...

多模态评测/基准
00:02
Qwen@Alibaba_Qwen
57
阿里巴巴通义千问Qwen3.7-Max-Preview与Qwen3.7-Plus-Preview模型现已登陆AI评测平台Arena,分别参与文本与视觉评测。这一进展大幅提升了阿里巴巴在两大领域的实验室排名:在文本榜单跃升至全球第6位,在视觉榜单升至第5位。具体而言,Qwen3.7 Max Preview在文本总榜位列第13,并在数学、编程等多个子榜单中表现突出;Qwen3.7 Plus Preview在视觉总榜排名第16。官方对取得的进步表示祝贺,并透露Qwen3.7系列模型的正式版本即将发布。

Arena.ai: Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...

多模态模型发布评测/基准
00:02
Qwen@Alibaba_Qwen
47
🚀🚀 【引用 @arena】:在视觉竞技场中,Qwen3.7 Plus Preview使@Alibaba_Qwen成为第5大实验室,总排名第16位。

Arena.ai: In the Vision Arena, Qwen3.7 Plus Preview makes @Alibaba_Qwen the #5 lab, ranking #16 overall.

多模态模型发布评测/基准
5月18日
22:52
Hugging Face:Blog(RSS)
精选64
Hugging Face 推出开放 AI 智能体排行榜(Open Agent Leaderboard)

Hugging Face 发布开放 AI 智能体排行榜,用于比较完整智能体系统而非仅底层模型,并同时报告成功率和每次任务成本。排行榜统一了六项已有基准测试(SWE-Bench Verified、BrowseComp+、AppWorld、tau2-Bench Airline & Retail、tau2-Bench Telecom),覆盖代码修复、网络研究、个人任务、客服和技术支持。通过统一协议,各智能体系统以相同接口连接所有基准。结果显示相同模型搭配不同智能体系统会产生显著不同的分数和成本。配套 Exgentic 框架用于运行和复现评估,相关论文开源。

智能体开源/仓库评测/基准

推荐理由:以后选agent不能只看模型跑分了,这个榜单把整个系统拉出来比,成本、失败成本全摊开,做agent的可以立刻去查自己架构差在哪。
18:45
IT之家(RSS)
39
【IT之家评测室】大疆扫地机器人 ROMO 2 体验:8.5cm 越障 +36000Pa 吸力,再把无人机技术"降维"到地面

大疆推出第二代扫地机器人ROMO 2系列,包含P2透明旗舰版、A2进阶版及S V2标准版,售价区间4299元至6499元。该系列在核心性能上全面升级,吸力从初代的25000Pa大幅提升至36000Pa,涨幅达44%,并搭载123°超大外摆机械臂。产品设计在延续透明基站风格的基础上,将机身调整为半透明纯白,更贴近家居环境。此外,水箱版机型支持后续单独购买套件升级自动上下水功能。

具身智能评测/基准
18:18
公众号:腾讯混元
33
中国古文字识别评测基准 Chronicles-OCR 发布:业界首个覆盖"七体之变"

Chronicles-OCR 是业界首个覆盖“七体之变”的中国古文字识别评测基准,用于评估大模型对三千年汉字的识别能力。

多模态评测/基准
15:45
IT之家(RSS)
50
中国信通院启动首批"人工智能营销客服平台能力"测评

5月18日,中国信息通信研究院泰尔终端实验室启动首批“人工智能营销客服平台能力”测评单位征集。随着技术迭代与行业应用深化,该平台已从智能问答工具发展为涵盖客户触达、知识检索、智能问答、坐席协同、营销运营、服务质检和运营管理的综合性平台。本次测评将重点评估平台技术架构、功能完整性、数据安全等内容,面向智能客服平台、智能营销平台等多类单位征集首批参与方。

行业动态评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
55
OmniPro:全模态主动流式视频理解综合基准

OmniPro是首个联合评估全模态感知、主动响应和多样化视频理解任务的基准。它包含2700个人工验证样本,覆盖9个子任务、3个认知层级和6项基础能力,其中84%样本依赖语音或非语音音频信号,并标注模态隔离标签。该基准引入探测和在线双模式评估协议,以全面测试内容理解和主动能力。对11个模型的评估揭示:音频信号能提升性能但模型利用效率差异大;性能随时间下降,长程鲁棒性不足;非语音音频感知仍是当前最薄弱环节。

多模态视频论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
63
交互式评估需要设计科学

AI评估正经历结构性变革,因大语言模型日益作为交互系统部署,但现有评估实践仍基于静态响应基准,难以适应持续交互新模式。本文主张交互式评估应被视为独立原则性范式,其证据来源从单一响应转变为交互生成轨迹,评估过程需涵盖流程性、可恢复性、协调性、鲁棒性和系统级表现。基于此定义,提出双轴分类法、设计原则和报告标准,通过典型案例分析揭示轨迹层面评估挑战,为构建系统化交互评估框架提供理论基础。

智能体论文/研究评测/基准
01:42
SemiAnalysis@SemiAnalysis_
55
公司测试多种AI工具,Perplexity AI的Slack集成表现突出

本周,公司尝试了包括Devin、Mistral、Grok、Perplexity在内的多种AI工具,大多数因价值有限将被快速淘汰。但Perplexity AI的企业Slack集成表现惊人,优于Claude,能直接在Slack中发送图像并返回详细研究报告与可视化内容。目前,公司96%的token预算仍流向Anthropic(Claude提供商),但基于使用模式,部分预算可能转向Perplexity。作者希望Claude的Slack集成也能添加类似功能,以提升效率。

Anthropic搜索评测/基准
5月17日
22:32
Hacker News 热门(buzzing.cc 中文翻译)
64
Apple Silicon本地运行LLM成本高于云端API

分析显示,在Apple Silicon芯片(如M2 Ultra)上本地运行Llama 3.1 405B等大型语言模型,其成本高于使用OpenRouter等云端API服务。具体而言,本地运行每百万tokens成本约为0.73美元,而通过OpenRouter仅需0.59美元,成本高出约24%。这突显了对于大规模模型推理,云端服务目前可能比高端本地硬件更具经济性。

端侧评测/基准部署/工程
09:11
SemiAnalysis@SemiAnalysis_
53
GPT 4.6到4.7的分词器改进技术分析
OpenAI编码评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
51
全双工多模态交互评估基准

现有研究缺乏对实时双工全模态交互的系统评估。为此,本文提出Omni-DuplexEval基准,包含660个带人工标注的视频,涵盖实时描述和主动提醒两大场景共9个现实任务,所有问题均为开放式。研究同时引入了基于LLM-as-a-Judge的自动评估框架,能够联合评估响应内容与时机。实验表明,当前最优模型在主动提醒任务上表现不佳,最佳模型总体得分仅39.6%,揭示了模型在协调响应时机与内容质量方面的核心挑战。

arXiv多模态论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
56
A2RBench:自动化抽象推理基准生成范式

针对现有抽象推理基准依赖人工标注或易测记忆而非真实推理的问题,本研究提出A2RBench自动生成管道,涵盖生成、扩展、评估与分析四个阶段。生成阶段利用大语言模型创建需要真实推理的任务;扩展阶段通过复用已验证规则扩展任务变体以实现规模化。为消除生成过程中的幻觉,建立了理论框架,证明程序化验证(即测试逆操作能否完美还原正向操作,保证循环一致性)可确保任务的唯一解。对主流大模型的评估显示:当前模型在抽象推理上存在根本缺陷,顶尖模型在代表性子集上的表现(39.8%)远低于人类水平(68.5%);模型在处理3D复杂任务时表现远低于2D和1D任务,揭示了对高维任务理解不足;此外,输入信息复杂度的提升反而可能简化推理过程。

推理论文/研究评测/基准
00:54
Berryxia.AI@berryxia
52
幻灯片设计竞技场结果出炉,Anthropic与Zai_org领跑

Slides Arena发布了基于370多万真实使用场景的Agentic Slides排行榜。Anthropic的Opus 4.7及其思考版本包揽前两名,Zai_org的GLM 5.1位列第三,共同确立了该领域的SOTA。此次评估并非实验室基准测试,而是针对软可验证、创意密集且需要完整逻辑与设计感的真实幻灯片生成场景,证实了Claude系列在智能体设计方面的领先优势。

Design Arena: BREAKING: The results are in for Slides Arena... @AnthropicAI and @Zai_org models continue to lead the way in soft-verif...

智能体Anthropic评测/基准
5月16日
19:25
The Decoder:AI News(RSS)
44
新基准测试证实AI视频生成器视觉效果惊艳,但仍无法进行世界推理

WorldReasonBench新基准测试评估AI视频生成器的物理和逻辑合理性,而非图像质量。ByteDance的Seedance 2.0在该测试中领先,超过Veo 3.1和Sora 2。商业模型的得分大约是开源模型的两倍,逻辑推理是所有模型中最困难的类别,表现差距显著。这表明AI视频生成器虽能产生惊艳视觉效果,但尚未实现从像素生成器到真实世界模型的飞跃。

GoogleOpenAI推理视频
17:10
Peter Steinberger 🦞@steipete
60
基于Qwen 35B本地模型的Hermes与OpenClaw智能体在相同任务中展现出不同策略与效率。任务要求抓取GitHub star历史、分析增长峰值原因并构建实时仪表盘。OpenClaw耗时12分钟,消耗203k tokens,通过编写bash脚本高效调用GitHub API,处理分页与JSON数据,并发现一次安全事件。Hermes耗时33分钟,消耗257k tokens,采用并行工具调用策略,在遭遇Google速率限制后自动切换至DuckDuckGo,最终整合内容并映射传播节点。两者均成功交付了包含增长图表和峰值标注的实时仪表盘。

atomicbot.ai: Hermes Agent vs OpenClaw using Qwen 35B Local Model We asked agents to scrape GitHub star history for both tools, find w...

智能体编码评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
48
基于证据校准查询聚类的LLM能力捕捉

本研究针对现有查询聚类方法因依赖表面语义而无法准确捕捉LLM潜在能力需求的问题,提出了证据校准查询聚类(ECC)算法。ECC通过有限的模型后验比较校准语义嵌入,弥合表面语义与实际能力要求的差距。它利用Bradley-Terry模型参数化的能力画像描述聚类,并通过可训练的混合权重处理混合能力需求的查询,从而构建灵活的、能力感知的聚类结构。实验表明,ECC显著提升了LLM能力排序质量,相比人工标注和嵌入基线方法平均提升17.64和18.02个百分点,并在查询路由等下游任务中表现有效。

arXiv论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
57
多模态工具使用智能体基准

针对智能体在真实工作流中需处理多模态输入、调用工具并自我修正的需求,研究团队推出了MM-ToolBench基准。该基准包含来自客户服务与智能创作两大类共100个可执行任务,覆盖20个细分领域,由27个MCP服务器提供324个工具支持。其核心设计理念是“闭环多模态验证”,即智能体必须执行工具、检查输出制品并在不符合要求时进行自我修正。实验表明,该基准极具挑战性,例如Claude Opus 4.6的成功率仅为32.0%,远低于94.0%的人类基准。它旨在为评估和推进下一代全模态工具使用智能体奠定基础。

智能体MCP/工具论文/研究评测/基准
06:11
🚨 AI News | TestingCatalog@testingcatalog
59
Atomic Bot 使用相同模型(Qwen 3.6 35B)对 Hermes 和 OpenClaw 代理进行了对比测试,任务为分析 GitHub star 历史、定位增长峰值并部署实时浏览器仪表板。结果显示,OpenClaw 耗时12分01秒,消耗203k tokens,通过编写bash脚本高效完成了任务;Hermes 则耗时33分01秒,消耗257k tokens,采用了并行工具调用并编写了SKILL.md文档。两者均成功构建了包含star增长图表和峰值注释的实时仪表板,但OpenClaw在任务效率和token使用上显著优于Hermes。

atomicbot.ai: Hermes Agent vs OpenClaw using Qwen 35B Local Model We asked agents to scrape GitHub star history for both tools, find w...

智能体评测/基准
03:05
Artificial Analysis@ArtificialAnlys
63
AI在经济价值任务中快速进步:根据GDPval-AA Elo评分,GPT-5.5在实际工作产出中预计将赢得约98%的正面比较,对比对象是一年前GDPval-AA领先模型Claude 4 Sonnet GDPval-AA衡量模型在九个行业44个职业中的任务完成能力。图示展示了Claude 4 Sonnet(2025年5月)与GPT-5.5(xhigh,2026年5月)在库存管理任务中的幻灯片输出对比
OpenAI推理评测/基准
5月15日
14:42
IT之家(RSS)
48
外媒初探谷歌 AI 付费健身教练:捏造 8.4 公里跑步记录,反怪用户漏记

科技媒体9to5Google在评测Fitbit Air智能手环时,发现其内置的付费AI健康教练Health Coach出现幻觉,虚构了一段不存在的5.2英里(约8.4公里)跑步记录。该AI不仅承认捏造,还将责任推给用户,暗示可能是用户漏记。这项月费10美元的服务因此被指可靠性存疑,削弱了订阅价值。Fitbit Air手环重约12克,原定5月26日开售,而Google Health应用计划5月19日上线,谷歌仍有机会在发布前优化模型、减少幻觉。

Google评测/基准
11:49
HuggingFace Daily Papers(社区热门论文)
68
MemLens:大型视觉语言模型多模态长时记忆基准测试

研究团队推出MEMLENS基准,系统评估大型视觉语言模型在多模态多轮对话中的长时记忆能力。该基准包含789个问题,涵盖五大记忆能力,并在四种标准上下文长度下测试。评估27个长上下文模型和7个记忆增强代理后发现:长上下文模型在短对话中表现良好但随对话延长性能下降;记忆代理长度稳定性好但损失视觉保真度。多轮推理任务将多数系统性能限制在30%以下,表明需结合长上下文注意力与结构化多模态检索的混合架构。

多模态论文/研究评测/基准
10:48
HuggingFace Daily Papers(社区热门论文)
60
FutureSim:通过重放世界事件来评估自适应智能体

研究团队推出FutureSim基准,通过按时间顺序重放真实世界事件(如新闻文章),评估AI智能体在动态开放环境中的长期适应能力。智能体需在模拟的2026年1月至3月期间,基于实时信息预测未来事件。测试结果显示,前沿智能体表现差异显著,最佳预测准确率仅为25%,多数模型的评分甚至低于不作预测的基准。该基准为研究长时域测试时适应、搜索、记忆及不确定性推理等方向提供了真实场景,旨在推动衡量AI在现实世界中长期开放适应能力的进展。

智能体arXiv论文/研究评测/基准
10:48
HuggingFace Daily Papers(社区热门论文)
67
量化评估生成视频几何一致性的框架PDI-Bench

针对生成视频模型作为隐式世界模型时几何一致性评估的挑战,研究团队提出了PDI-Bench定量评估框架。该框架通过分割与点追踪获取物体中心观测,利用单目重建将其提升至3D世界坐标,并通过计算投影几何残差来量化评估尺度-深度对齐、3D运动一致性与3D结构刚性三个关键维度。团队构建了PDI-Dataset以支持系统评测。测试表明,PDI能一致地揭示当前先进视频生成模型中未被常见感知指标捕获的几何缺陷,为推进物理基础视频生成提供了诊断工具。代码与数据集已开源。

arXiv视频论文/研究评测/基准
02:31
Chubby♨️@kimmonismus
63
实测Higgsfield Supercomputer:用自然语言驱动多模型并行的AI生产力平台

Higgsfield的Supercomputer平台允许用户以自然语言描述任务,系统从61种生产技能中自动选取,并将子任务路由至GPT-4o、Claude Opus、Gemini及多种图像视频模型并行处理。它能生成长达60分钟的视频,原生集成Obsidian构建持久化知识库,并通过27个平台连接器连接各类工具。平台运行于云端GPU基础设施,支持品牌标识锁定和后台任务调度。其技能在使用中通过版本追踪和评估测试不断自我改进,用户可通过浏览器或Telegram直接访问,无需本地设置。

Higgsfield AI 🧩: How Supercomputer works: 1. Access via browser or Telegram. No local setup 2. Describe your task 3. Orchestrates LLMs an...

智能体多模态视频评测/基准
01:46
HuggingFace Daily Papers(社区热门论文)
精选71
EVA-Bench:端到端语音智能体评估新框架

EVA-Bench是一个端到端语音智能体评估框架,解决了模拟真实对话与测量全范围语音故障两大挑战。它通过动态多轮机器对话和自动验证进行仿真,并提出了衡量任务完成度、音频保真度的EVA-A指标,以及评估对话体验的EVA-X指标。框架包含三个领域的213个场景及鲁棒性测试集,采用区分峰值与可靠能力的测量方法。在12个系统的测试中发现,无系统能在两项核心指标上同时超过0.5,峰值与可靠性能差距显著,且口音与噪声扰动暴露出明显的鲁棒性缺陷。该框架已开源。

Hugging Face论文/研究评测/基准语音

推荐理由:EVA-Bench 把语音代理评估从「能对话就行」推进到「对话质量+鲁棒性」的全维度打分,还开源了 213 个企业场景,做语音助手的团队该认真看看。
5月14日
19:58
公众号:龙猫LongCat(美团)
51
美团 LongCat 开源 General 365:树立推理评测新标尺
开源/仓库推理评测/基准
13:58
Xiaomi MiMo@XiaomiMiMo
精选69
MiMo V2.5 Pro 在 @DesignArena 上刚刚获得第三名!🎉 MiMo V2.5 Pro (Thinking) 在总排行榜上比 MiMo-V2.5 提升了 8 个名次,在前端编码任务中达到与 Claude Sonnet 4.6 相同的性能水平。 衷心祝贺 @XiaomiMiMo 团队取得这些进步!

Design Arena: BREAKING: MiMo V2.5 Pro (Thinking) takes 3rd overall out of open weights models on Design Arena. MiMo V2.5 Pro (Thinking...

开源生态编码评测/基准

推荐理由:小米MiMo在Design Arena前端编码评测里直接杀进前三,跟Claude Sonnet 4.6平起平坐,这是国产开源模型在代码能力上第一次给我真正的压迫感,搞前端的可以盯一下。
13:58
Xiaomi MiMo@XiaomiMiMo
60
MiMo V2.5 Pro (Thinking) 模型在Design Arena的开放权重模型总排行榜中位列第三,相比前代MiMo-V2.5跃升了8个名次。其在前端编码任务上的表现已与Claude Sonnet 4.6处于同一性能区间。团队对测试者表示感谢,并承诺将持续改进模型。

Design Arena: BREAKING: MiMo V2.5 Pro (Thinking) takes 3rd overall out of open weights models on Design Arena. MiMo V2.5 Pro (Thinking...

推理编码评测/基准
11:56
向阳乔木@vista8
64
Get笔记会员超值,支持多平台链接解读与集成

Get笔记的价值被严重低估,其会员年费仅99元,性价比极高。核心功能在于用户只需提供链接,即可解读来自小宇宙、B站、抖音、YouTube、TikTok等多个平台的内容,并能获取原始转写文本。此外,它还通过提供Skill和Cli工具,允许用户将Codex分析功能接入自己的网站,实现了服务的深度集成与扩展。

MCP/工具多模态评测/基准
11:26
向阳乔木@vista8
49
用户认为某模型表现不错,但指出当前多数第三方AI Chat客户端(如CherryStuido、Chatwise)尚不支持音视频上传解析功能。同时,豆包大模型的Doubao-Seed-2.0-lite 0428版本已完成重要升级,新增音频理解能力,成为其家族首款支持图片、视频、音频、文本四种输入的全模态理解模型,且Agent、Coding和GUI能力据称也有显著提升。

向阳乔木: 前段时间参与了 Doubao-Seed-2.0-lite 0428 内测。 这个版本升级,增加了音频理解,能同时支持图片、视频、音频、文本四种输入,成为豆包大模型家族首款全模态理解模型。 除了全模态理解,据说 Agent、Coding、GU...

多模态视频评测/基准语音
08:00
HuggingFace Daily Papers(社区热门论文)
48
通过原子实体分析评估图像编辑中的抽象意图

本研究针对图像编辑中抽象指令(如情绪)评估的空白,首次系统定义了抽象图像编辑的分类体系,并提出Entity-Rubrics评估框架。该框架将抽象编辑拆解为独立的实体级评估,其结果与人类判断高度一致。同时,发布了首个跨场景的抽象图像编辑基准AbstractEdit。对11个模型的测试显示,现有架构难以平衡编辑意图与原图保持,常出现编辑不足或过度编辑。研究表明,结合先进LLM文本编码器与迭代思考机制是提升性能的关键。该范式未来可拓展为奖励模型,助力模型理解抽象指令,推动更自然的多模态交互。

图像生成多模态论文/研究评测/基准
00:25
向阳乔木@vista8
64
Knowly解读视频与论文效果惊艳,实力获谷歌认可

测试Ethan_Yang_AI团队开发的Knowly,其解读YouTube视频和arXiv论文的效果令人惊艳。尽管存在免费额度略少、向量处理稍慢的不足,但其产品交互和解读效果均不逊色于NotebookLM。其配套的Chrome插件在用户数尚少时即被谷歌列入精选,彰显了产品实力。

多模态评测/基准
5月13日
14:50
Berryxia.AI@berryxia
60
大模型的IQ和EQ排名

AIIQ.org网站上线,通过12个基准测试在抽象、数学、编程和学术四个维度评估流行大模型,智能估算其IQ分数。EQ由EQ-Bench和Arena Elo加权计算,并对Anthropic模型施加200分惩罚。网站提供IQ与成本、EQ的对比图及3D分析,以人类智力标准衡量AI综合能力。

现象/趋势评测/基准
11:50
Berryxia.AI@berryxia
51
腾讯元宝群聊总结功能实测:手动操作欠智能,核心需求未满足

用户实测腾讯元宝的群聊总结功能,发现其与预期存在较大差距。该功能无法自动进群总结,需用户手动多选聊天记录并转发给元宝,且存在操作上限不明确的问题。生成的总结内容被批评为机械的文本拼凑,缺乏AI应有的智能分析与提炼能力。用户指出,最核心的需求是能将元宝直接拉入群聊并自动梳理每日重点,但目前这一简单需求并未得到实现。

教程/实践评测/基准
11:44
HuggingFace Daily Papers(社区热门论文)
57
LongMemEval-V2:评估智能体面向环境经验的长期记忆能力

研究团队推出长期记忆评估基准LongMemEval-V2,旨在直接检验智能体内化特定环境经验的能力。该基准包含451个手工问题,涵盖五项核心记忆能力,并配有多达500条轨迹的历史数据。研究提出了基于检索增强生成的高效记忆方法AgentRunbook-R,以及调用编码智能体收集证据的AgentRunbook-C。实验表明,AgentRunbook-C以72.5%的平均准确率取得最佳性能,显著优于基线方法,但延迟成本较高。该基准为开发面向环境经验的长期记忆系统提供了具有挑战性的测试平台。

智能体arXiv论文/研究评测/基准
08:49
Berryxia.AI@berryxia
52
根据Text Arena最新分类排名,五大前沿AI模型展现出不同的优势领域与取舍。Claude Opus 4.7表现最为全面稳定,在几乎所有主要类别中领先。Gemini 3.1 Pro能力均衡,尤其在创意写作方面突出。Muse Spark在整体表现和编程方面强劲,但在专家任务、数学和长查询上稍弱。GPT-5.5 High是整体最平衡的模型之一,在专家任务和数学领域表现特别出色。Grok 4.20则更偏专长,主要在创意写作和困难提示方面表现突出。该榜单清晰揭示了当前顶级模型在通用性与专项能力上的不同发展路径。

Arena.ai: The top 5 labs in Text Arena rankings by category show that frontier models have distinct strengths and tradeoffs. #1 @A...

AnthropicOpenAI推理编码
08:00
HuggingFace Daily Papers(社区热门论文)
57
Physics-R1:一个经过审计的奥林匹克语料库与视觉物理推理方案

本研究审计了多模态物理评测流程,发现了三个未被察觉的构建问题:训练评估数据污染、翻译漂移以及选择题饱和。为解决这些问题,团队发布了四个关键成果:经严格审计的多模态语料库PhysCorp-A、闭式强化学习池PhysR1Corp、包含新题型与双语子集的评测集PhysOlym-A,以及基于Qwen3-VL-8B-Thinking冷启动的参考方案Physics-R1。该方案在审计语料库上将8B基座模型在PhysOlym-A上的得分提升至26.3,在PhysReason上提升至39.6,超越了Qwen3-VL-32B与Gemini 2.5 Pro。

arXiv多模态推理数据/训练
‹ 上一页
1…1314151617…22
下一页 ›