AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「评测/基准」清除
5月2日周六
15:41Elon Musk39Grok Voice语音助手现用于星链系统
13:49TestingCatalog News 🗞66谷歌Gemini新模型现身,性能大幅提升
06:47François Chollet37加入ARC基金会加速AGI发展
05:47François Chollet56最新模型ARC-AGI-3得分仍低于1%
03:47François Chollet70精选强化学习双刃剑效应:已知领域提升性能,未知领域易致模型幻觉
5月1日周五
19:15PixVerse49文本生成视频模型对比:SeeDance 2.0与HappyHorse 1.0
18:47The Decoder:AI News(RSS)58GPT-5.5 在网络攻击测试中与 Claude Mythos 匹敌,英国 AI 安全研究所发现
15:47TestingCatalog News 🗞55Grok 4.3跃居AI分析指数第七位
14:40Rohan Paul43LongCat团队发布LARYBench基准,评估AI模型能否从视频中真正学习动作
14:14HuggingFace Daily Papers(社区热门论文)59Claw-Eval-Live:面向动态真实工作流的实时智能体基准
14:14Artificial Analysis57三大开源模型上周齐发,与顶尖闭源模型差距缩小至6分内
11:14HuggingFace Daily Papers(社区热门论文)55InteractWeb-Bench:多模态智能体能在交互式网站生成中摆脱盲目执行吗?
08:44elvis58DeepSeek-V4-Pro 在智能体编码任务中表现惊艳
08:16Ethan Mollick61xAI发布性价比更高的Grok 4.3,性能提升但不及中国最新开源模型
08:00HuggingFace Daily Papers(社区热门论文)51WildTableBench:针对真实场景表格图像理解的多模态基础模型基准评测
07:45OpenRouter68精选Grok-4.3上线OpenRouter 性价比提升显著
04:39Rohan Paul58前沿AI能以超人速度自主实施端到端复杂网络攻击
04:12Chubby♨️60本地LLM游戏开发对决:Gemma 4 31B 在效率与逻辑上胜过 Qwen 3.6 27B
03:14Artificial Analysis65蚂蚁集团开源Ling 2.6 1T模型,性价比与智能取得平衡
03:14Artificial Analysis46GPT-5.5 Pro以更低成本实现性能微升,在尖端科学评估中领先
02:42Chubby♨️46GPT-5.5在多步网络攻击模拟中比肩Claude Mythos
01:44Sam Altman43GPT-5.5性能比肩Claude Mythos
00:13Artificial Analysis64阿里发布Qwen3.6系列开源模型,27B版本成150B参数以下最强开源模型
4月30日周四
22:11Artificial Analysis56腾讯发布开源推理模型Hy3-preview,综合评分42分落后于近期同类模型
19:10阿绎 AYi64百度文心5.1 Preview登顶LMArena文本榜引思考
16:09SemiAnalysis53GB300 NVL72 在 DeepSeek-V4 Pro 上性能超 B200 6.5 倍
08:00HuggingFace Daily Papers(社区热门论文)47EDU-CIRCUIT-HW:在真实大学STEM课程学生手写解答上评估多模态大语言模型
08:00HuggingFace Daily Papers(社区热门论文)55WindowsWorld:一个以流程为中心的专业跨应用环境自主GUI代理基准
06:08Ethan Mollick56Gemini文档功能初具雏形,尚未达前沿水平
05:13Anthropic:Research(发表成果 · 网页)63精选使用BioMysteryBench评估Claude的生物信息学研究能力
01:39Hugging Face:Blog(RSS)62精选AI评估正成为新的算力瓶颈
4月29日周三
22:45向阳乔木37测试显示图片模型仅凭直觉输出
22:10Hacker News 热门(buzzing.cc 中文翻译)48他让人工智能计算碳水化合物27000次。它两次给出的答案都不一样。
17:08Chubby♨️44Xiami mimo模型开源超越Opus 4.5
17:08Chubby♨️63GPT-5.5非专业版超越GPT-5.4专业版
15:35阿绎 AYi66蚂蚁Ling-2.6-1T模型以高效能低成本引领AI生产落地竞争
14:38HuggingFace Daily Papers(社区热门论文)54AutoResearchBench:评估AI智能体在复杂科学文献发现中的基准
10:38HuggingFace Daily Papers(社区热门论文)48DV-World:真实场景下的数据可视化智能体评测基准
10:30OpenRouter38音频输入新榜:Gemini包揽前七
09:35阿绎 AYi76精选蚂蚁发布Ling-2.6系列模型,以极致token效率推动AI生产落地竞赛
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月2日
15:41
Elon Musk@elonmusk
39
Grok Voice 目前正被 Starlink 使用 【引用 @XFreeze】:Grok Voice 在 τ-voice 基准测试中占据绝对优势 Grok 得分为 67.3%,而 Gemini 为 43.8%,GPT Realtime 为 35.3% 这遥遥领先于竞争对手,优势巨大 目前最优秀的实时推理语音助手

X Freeze: Grok Voice brutally dominates the top of the τ-voice Bench Grok scores 67.3%, while Gemini sits at 43.8% and GPT Realtim...

xAI评测/基准语音
13:49
TestingCatalog News 🗞@testingcatalog
66
谷歌新的Gemini Flash模型已在LM Arena上出现。同时,Vertex AI客户收到邮件,Gemini 3.1 Flash Lite即将正式发布。引用推文指出,虽然模型在竞技场中仍显示为"Gemini 3 Flash",但其输出质量已跃升两个层级,性能更接近当前的Gemini 3.1 Pro,是一次重大升级,实际版本可能是3.1、3.2或3.5 Flash。

can: 🚨 Google updated Gemini 3 Flash in arena It still has the same name "Gemini 3 Flash". However, output quality is two ti...

Google模型发布评测/基准
06:47
François Chollet@fchollet
37
若你希望帮助世界理解AGI并加速其到来,可以考虑加入ARC Prize基金会。 目前开放两个职位:Game Platform Engineering Lead,以及Model Testing & Analysis Lead https://arcprize.org/jobs
行业动态评测/基准
05:47
François Chollet@fchollet
56
最新一批模型在ARC-AGI-3上的得分目前仍低于1%。 到今年年底,得分会达到多少呢?

ARC Prize: GPT-5.5 & Opus 4.7 on ARC-AGI-3 - GPT-5.5: 0.43% - Opus 4.7: 0.18% We found 3 failure modes: - True local effect, false ...

AnthropicOpenAI推理评测/基准
03:47
François Chollet@fchollet
精选70
强化学习在已知领域能提升模型性能,但在未知领域可能导致模型产生幻觉,误以为在执行其他训练过的任务。这一现象在GPT-5.5等大模型的ARC AGI 3基准测试中有所体现,其得分仅为0.43%,与Claude 4.6、Gemini 3.1等模型表现相近。分析指出GPT-5.5的主要失败原因包括:局部效应正确但世界模型错误、从训练数据中提取的抽象层级不当,以及虽解决问题却未强化奖励机制。深入分析此类失败案例,有助于全面理解大模型在特定模态上的能力局限与改进方向。

Chris: GPT-5.5 Scores .43% on ARC AGI 3! - GPT-5.5: 0.43% - Opus 4.7: 0.18% - GPT-5.4: 0.20% - Claude 4.6: 0.45% - Gemini 3.1: ...

OpenAI大佬观点推理评测/基准

推荐理由:Chollet 用 ARC AGI 3 冷冰冰的数字撕开了 RL 的局限,GPT-5.5 0.43% 的得分说明在未知领域模型会做完全不相干的事,比任何安全论文都来得更直击要害。
5月1日
19:15
PixVerse@PixVerse_
49
主推文感谢了用户@TomLikesRobots分享的文本生成视频模型对比。对比在SeeDance 2.0和HappyHorse 1.0之间进行,使用了统一的提示词来生成具有低保真、温馨、赛璐珞风格动漫美学的视频。其中,HappyHorse由@PixVerse_提供,目前对会员免费。由于两个模型自带的音频效果不佳,创作者最终使用@Suno来生成背景音轨。

TomLikesRobots🤖: SeeDance 2.0 vs HappyHorse 1.0 Very quick text-to_video comparison. Which do you prefer? Universal Prompt: "Aesthetic: l...

多模态评测/基准
18:47
The Decoder:AI News(RSS)
58
GPT-5.5 在网络攻击测试中与 Claude Mythos 匹敌,英国 AI 安全研究所发现

英国 AI 安全研究所评估发现,OpenAI 的 GPT-5.5 成为第二个能够自主完成完整网络攻击模拟的 AI 模型。其表现与 Anthropic 的 Claude Mythos 几乎持平,后者目前仍仅限小范围使用。GPT-5.5 现已通过 ChatGPT 和 API 向公众广泛提供。

AnthropicOpenAI安全/对齐评测/基准
15:47
TestingCatalog News 🗞@testingcatalog
55
Grok 4.3 在 Artificial Analysis Index 中升至第 7 位,超越了 Meta 的 Muse Spark。

Artificial Analysis: This release shows increased cost efficiency to run the Artificial Analysis Intelligence Index, with Grok 4.3 sitting co...

xAI推理评测/基准
14:40
Rohan Paul@rohanpaul_ai
43
LongCat团队发布LARYBench基准,评估AI模型能否从视频中真正学习动作

LongCat团队推出LARYBench基准,旨在评估AI模型是否从视频中真正学习动作,而非仅在后端机器人策略中表现良好。该基准聚焦模型从视频提取的潜在动作表示,通过超过120万视频片段等数据,将评估拆分为动作分类与控制回归两个清晰测试。关键发现是,通用自监督视觉模型(如V-JEPA 2和DINOv3)表现优于专用具身模型,表明强大视觉表示已蕴含丰富动作知识,且潜在特征空间比像素重建更利于机器人控制映射。这为利用丰富视频数据解决机器人训练数据稀缺问题提供了新方向。

具身智能论文/研究评测/基准
14:14
HuggingFace Daily Papers(社区热门论文)
59
Claw-Eval-Live:面向动态真实工作流的实时智能体基准

Claw-Eval-Live 是一个用于评估工作流智能体的实时基准,它将可定期刷新的公共需求信号层与可复现的时间戳快照相分离。该基准基于当前版本中 ClawHub Top-500 技能构建了 105 项涵盖商业服务与本地工作空间修复的受控任务。评估过程全面记录执行轨迹、审计日志、服务状态与运行后产物,并综合使用确定性检查与结构化大模型评判。在对 13 个前沿模型的公开统一测试中,领先模型仅通过 66.7% 的任务,无一达到 70%。失败多集中于人力资源、管理及多系统业务工作流,而本地修复任务相对容易但仍有提升空间。结果表明,工作流智能体评估需同时基于新鲜的外部需求与可验证的智能体执行动作。

智能体论文/研究评测/基准
14:14
Artificial Analysis@ArtificialAnlys
57
三大开源模型上周齐发,与顶尖闭源模型差距缩小至6分内

上周,Kimi K2.6、MiMo V2.5 Pro和DeepSeek V4 Pro三大领先开源模型发布,在Artificial Analysis Intelligence Index上得分达52-54分,与顶尖闭源模型GPT-5.5的60分差距缩小至6分以内,相比一年前22分的开源模型进步显著。这些模型均为万亿参数规模的MoE架构。然而,在复杂推理、智能体编码及知识准确性方面,开源模型与闭源模型仍存在明显差距。例如在HLE、CritPt和TerminalBench Hard等专项评估中得分大幅落后;在Omniscience评估中,DeepSeek V4 Pro的幻觉问题尤为突出。

DeepSeekOpenAI开源生态推理
11:14
HuggingFace Daily Papers(社区热门论文)
55
InteractWeb-Bench:多模态智能体能在交互式网站生成中摆脱盲目执行吗?

本文针对非专业低代码用户指令模糊、质量低的现实瓶颈,提出了首个多模态交互式网站生成基准InteractWeb-Bench。该基准通过四类用户智能体与基于人物角色的指令扰动,系统模拟了包含模糊、冗余和矛盾在内的多样化用户行为,并提供了一个支持澄清、实现、验证和提交统一行动的交互式执行环境,以实现迭代式意图细化与代码合成。大量实验表明,当前前沿的多模态大语言模型智能体仍受困于“盲目执行”模式,在意图识别与自适应交互方面存在明显局限。

智能体多模态编码论文/研究
08:44
elvis@omarsar0
58
DeepSeek-V4-Pro 在智能体编码任务中表现惊艳

测试者使用 DeepSeek-V4-Pro 在 Pi 编码智能体上构建了一个 LLM 知识库,对其开箱即用的表现感到震撼。这是首个在推理能力上媲美 Claude 和 Codex 的开源权重模型,且成本效益高,支持 100 万上下文长度。该模型无需复杂配置即可在基础框架中直接运行,擅长智能体编码和知识密集型推理任务,能跨公司文档、论坛、论文和代码库进行多步骤研究、代码生成与上下文推理。其高效运行得益于 Fireworks 的市场最快推理速度及混合注意力设计,将 KV 缓存降至 10%,推理计算量减少近 4 倍,实现了快速且低成本的实践部署。

智能体DeepSeek开源生态推理
08:16
Ethan Mollick@emollick
61
xAI发布Grok 4.3,其在Artificial Analysis智能指数得分53,性能优于Grok 4.20、Muse Spark等模型。核心改进在于"性价比":输入与输出价格较前代分别降低约40%和60%,且基准测试套件运行成本下降。该版本在GDPval-AA等现实智能体任务上表现显著提升,指令遵循与客服任务强劲。但推文指出,其表现仍落后于最新的中国开源模型,并批评GDPval-AA测试本身价值有限。

Artificial Analysis: xAI has launched Grok 4.3, achieving 53 on the Artificial Analysis Intelligence Index with improved agentic performance,...

大佬观点行业动态评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
51
WildTableBench:针对真实场景表格图像理解的多模态基础模型基准评测

本文提出了首个针对真实世界自然场景表格图像的问答基准WildTableBench。该基准包含从在线论坛和网站收集的402张高信息密度表格图像,以及涵盖五大类别、17种子类型的928个人工标注验证问题。研究对21个前沿的专有和开源多模态基础模型进行了评估,结果显示仅有一个模型准确率超过50%,其余模型准确率介于4.1%至49.9%之间。诊断分析进一步揭示了模型在结构感知和数值推理方面存在的持续弱点。该基准为深入评估和提升表格图像理解能力提供了重要的诊断工具。

多模态论文/研究评测/基准
07:45
OpenRouter@OpenRouter
精选68
@xai 的新模型 Grok-4.3 现已在 OpenRouter 上线! Grok-4.3 以比 Grok-4.2 更低的价格发布,同时在代理性能上实现大幅跃升:在 @ArtificialAnlys 的 GDPval-AA 基准上 ELO 分数提升 321 点至 1500,尽管价格更低,但仍超越了其他顶级模型。
智能体xAI模型发布评测/基准

推荐理由:Grok-4.3 降价但性能反升,agentic 跑分直接到 1500,如果之前觉得 Grok 贵而没试过,这次可以上车了。
04:39
Rohan Paul@rohanpaul_ai
58
前沿AI能以超人速度自主实施端到端复杂网络攻击

前沿AI已能以超人速度和近乎零边际成本自主完成端到端的复杂专家级网络攻击链。在AISI的网络安全评估中,GPT-5.5与Mythos Preview表现相当,均远超GPT-4o等早期模型。GPT-5.5在包含32个步骤的企业网络攻击模拟中成功完成端到端攻击,而人类专家需约20小时。在一项人类专家需12小时完成的反向工程任务中,GPT-5.5仅用11分钟、花费1.73美元即告解决。

AI Security Institute: OpenAI's GPT-5.5 is the second model to complete one of our multi-step cyber-attack simulations end-to-end 🧵

OpenAI安全/对齐评测/基准
04:12
Chubby♨️@kimmonismus
60
本地LLM游戏开发对决:Gemma 4 31B 在效率与逻辑上胜过 Qwen 3.6 27B

在@atomic_chat_hq平台的本地LLM游戏开发竞赛中,Gemma 4 31B与Qwen 3.6 27B于MacBook Pro M5 Max上对决。尽管Qwen生成速度更快(32 tokens/秒)且回答更具创意,但Gemma仅用3分51秒和6209个token,输出了更简短、清晰、逻辑性强的答案。在具体的吃豆人游戏逻辑实现上,Gemma在点击反应、与墙壁/幽灵的交互及粒子效果处理方面表现更优。作者强调此为单次测试,Qwen或可通过调整设置提升表现,并邀请社区验证。

开源生态推理评测/基准
03:14
Artificial Analysis@ArtificialAnlys
65
蚂蚁集团开源Ling 2.6 1T模型,性价比与智能取得平衡

蚂蚁集团InclusionAI实验室发布开源非推理模型Ling 2.6 1T。该模型拥有1万亿参数,在Artificial Analysis Intelligence Index上得分为34分,较前代Ling-1T提升15分,智能水平接近DeepSeek V3.2等同类模型。其在科学推理与知识任务上表现扎实,GPQA得分达75%。模型运行效率较高,执行该指数仅需约1600万输出tokens,成本效益突出,通过官方API运行全套指数成本约95美元。但其事实可靠性较弱,在AA-Omniscience基准上得分为-51分,主要因幻觉率高达92%。模型权重已在Hugging Face公开。

开源生态评测/基准
03:14
Artificial Analysis@ArtificialAnlys
46
GPT-5.5 Pro以更低成本实现性能微升,在尖端科学评估中领先

在名为CritPt的尖端科学评估中,GPT-5.5 Pro (xhigh) 以比前代GPT-5.4 Pro (xhigh) 低60%的成本和令牌使用量,实现了0.5个百分点的性能提升,将得分推至30.5%。CritPt评估包含全球30多家机构的60多名研究人员贡献的研究生级别物理问题。自2025年11月发布以来,最高分从Gemini 3 Pro Preview的9%跃升至GPT-5.4 Pro的30%。OpenAI指出,GPT-5.5 Pro相比GPT-5.5“使用了更多计算资源进行深度思考,以提供更稳定的优质答案”。该模型每令牌定价相同,但通过使用更少的令牌完成了评估。

OpenAI推理评测/基准
02:42
Chubby♨️@kimmonismus
46
GPT-5.5在多层网络攻击模拟方面与Claude Mythos旗鼓相当? OpenAI:年度回归。

AI Security Institute: OpenAI's GPT-5.5 is the second model to complete one of our multi-step cyber-attack simulations end-to-end 🧵

AnthropicOpenAI安全/对齐评测/基准
01:44
Sam Altman@sama
43
lisan 多说点我们的坏话 你太客气了 【引用 @scaling01】:GPT-5.5 is on par with Claude Mythos - GPT-5.5 平均通过率 71.4% (±8.0%) - Mythos Preview 68.6% (±8.7%) - GPT-5.5 在 11 分钟内以 1.73 美元成本完成了一项人类专家需约 12 小时的任务

Lisan al Gaib: GPT-5.5 is on par with Claude Mythos - GPT-5.5 average pass rate of 71.4% (±8.0%) - Mythos Preview 68.6% (±8.7%) - GPT-5...

OpenAI大佬观点评测/基准
00:13
Artificial Analysis@ArtificialAnlys
64
阿里发布Qwen3.6系列开源模型,27B版本成150B参数以下最强开源模型

阿里巴巴开源了Qwen3.6系列两款模型:27B密集模型和35B A3B混合专家模型。其中,Qwen3.6 27B在Artificial Analysis智能指数上得分46,成为150B参数以下最智能的开源模型,领先于Gemma 4 31B等。但其运行完整测试消耗的输出token约为后者的3.7倍,成本高出约21倍。两款模型均采用Apache 2.0许可,支持262K上下文,具备多模态能力。值得注意的是,其幻觉率较前代大幅下降,但准确率基本持平。更大的Plus和Max Preview版本未开源。

多模态开源生态推理评测/基准
4月30日
22:11
Artificial Analysis@ArtificialAnlys
56
腾讯发布开源推理模型Hy3-preview,综合评分42分落后于近期同类模型

腾讯发布开源混合专家模型Hy3-preview,总参数量2950亿,激活参数量210亿。其在Artificial Analysis综合智能指数上得分42,落后于近期开源的GLM-5.1、DeepSeek V4 Flash及Qwen3.6 27B等推理模型。具体评测表现不均衡:在真实世界任务基准GDPval-AA上落后于主要竞品,但在研究级物理评测CritPt上与高分模型GLM-5.1持平;其相对弱项在于AA-Omniscience指数,幻觉率较高。模型采用Tencent HY社区许可协议,商业使用受限,已在Hugging Face和SiliconFlowAI平台提供。

开源/仓库推理模型发布评测/基准
19:10
阿绎 AYi@AYi_AInotes
64
LMArena文本榜显示,百度文心5.1 Preview以1476分位列国内第一、全球前十五,成为榜单中唯一国产模型,排名超过GPT-5.5等。尽管当前AI热点集中于Agent、多模态等领域,但DeepSeek V4与文心5.1 Preview仍以文本为核心。文章强调,文本能力是大模型的基础,代码、推理等多模态能力均从中"生长",文本差距直接决定上层能力水平,因此仍是衡量模型差距的关键分水岭。

Berryxia.AI: 今天看到一条容易被刷掉的消息,但越想越觉得有意思。 LMArena 文本榜最新更新,文心 5.1 Preview 拿下 1476 分,国内第一,全球前十五唯一国产模型,排在 GPT-5.5 和 DeepSeek-V4-Pro 前面。 这事本...

DeepSeek评测/基准
16:09
SemiAnalysis@SemiAnalysis_
53
GB300 NVL72 在 DeepSeek-V4 Pro 上性能超 B200 6.5 倍

在 DeepSeek-V4 Pro 1.6T 模型上,采用机架级解耦设计的 GB300 NVL72 系统性能达到 B200 的 6.5 倍。这一高吞吐配置得益于 DeepSeek-AI 的 MegaMoe 内核,该内核将专家分派、专家组合及 GEMM 运算完全融合并重叠至单一内核中。性能突破由 Radixark、LMSYS 和 NVIDIA AI 的工程师团队快速实现。CoreWeave 为此项开源性能优化贡献了临时的 GB300 NVL72 机架资源,使整个社区受益。

DeepSeek推理评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
47
EDU-CIRCUIT-HW:在真实大学STEM课程学生手写解答上评估多模态大语言模型

研究团队发布了EDU-CIRCUIT-HW数据集,包含1300多份大学STEM课程的真实学生手写解答。该研究利用专家核对的转录文本与评分报告,同步评估了多种多模态大语言模型的上游识别准确性与下游自动评分性能。评估发现,模型识别的手写内容中存在大量潜在错误,表明其在高风险教育场景中用于自动评分等理解型任务的可靠性不足。一项案例研究表明,通过识别错误模式进行预先检测与纠正,仅需极少人工干预(例如将3.3%的作业交由人工评分),即可有效提升AI评分系统的鲁棒性。代码与数据集已开源。

arXivGitHub多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
WindowsWorld:一个以流程为中心的专业跨应用环境自主GUI代理基准

WindowsWorld是一个跨应用工作流基准,旨在系统评估GUI代理在模拟真实专业活动的复杂多步骤任务中的性能。该基准采用由16种职业引导的多智能体框架,生成包含四个难度级别及中间检查的任务,经人工审核后在模拟环境中执行。基准包含181个任务,平均每个任务有5.0个子目标,覆盖17种常用桌面应用,其中78%为跨应用任务。实验结果显示,当前领先的大模型与代理在跨应用任务上表现不佳(成功率低于21%),远低于简单单应用任务;在需要跨三个及以上应用进行条件判断与推理的任务中大多失败,且执行效率低下。相关代码、基准数据与评估资源已开源。

智能体arXiv论文/研究评测/基准
06:08
Ethan Mollick@emollick
56
Gemini现在可以创建文档了,这是个不错的开始,但尚未达到前沿水平,正如你从我"霍格沃茨杠杆收购"测试中看到的那样。 PowerPoint比NotebookLM差得多,电子表格功能简陋,仍然没有思考轨迹,它的思考也不够深入。
Google评测/基准
05:13
Anthropic:Research(发表成果 · 网页)
精选63
使用BioMysteryBench评估Claude的生物信息学研究能力

Anthropic团队开发了BioMysteryBench生物信息学基准测试,用于评估Claude在分析真实数据集、解决开放式研究问题上的能力。测试发现,Claude的生物学科学能力正快速迭代,当前模型表现已与人类专家相当,最新模型甚至解决了部分专家小组未能破解的问题,且有时策略迥异。该基准旨在应对科学评估的固有挑战,如生物学研究中存在多种合理的“正确”方法,以及研究决策的高度主观性。

Anthropic论文/研究评测/基准

推荐理由:Anthropic 用 99 道真实生物信息学题测 Claude,发现最新模型在人类解不出的难题上也能答对 30%,而且解题策略和人类完全不同。做生物信息的同行值得看看这个 benchmark 的设计思路,比刷分数字有意思得多。
01:39
Hugging Face:Blog(RSS)
精选62
AI评估正成为新的算力瓶颈

AI评估成本已突破关键阈值,正重塑其可及性。Holistic Agent Leaderboard花费约4万美元运行了2万多次智能体推演,单次前沿模型测试成本可达2829美元。研究显示,相同任务成本差异可达33倍,脚手架选择是核心成本驱动因素。虽然静态基准可通过压缩技术实现百倍成本缩减,但智能体评估因轨迹长、噪声大而压缩有限。高支出未必带来更好结果:例如在GAIA测试中,2828美元方案准确率28.5%,而1686美元方案反达57.6%。当评估包含模型训练时,成本将完全超越常规API框架。

Hugging Face现象/趋势评测/基准

推荐理由:这篇把分散的评估成本数据拉通了算总账,曾经便宜的评测现在动辄上万美元,独立评估正被价格挤出牌桌,做Agent的人必须意识到排行榜的代价。
4月29日
22:45
向阳乔木@vista8
37
测了,确实不行,感觉是单独训练的图片模型? 速度快到不行,没思考过程,系统1凭感觉直出,哈哈哈哈。

Elaina: Tested using this image.

图像生成评测/基准
22:10
Hacker News 热门(buzzing.cc 中文翻译)
48
他让人工智能计算碳水化合物27000次。它两次给出的答案都不一样。

一项测试显示人工智能在计算碳水化合物摄入量时存在显著不一致性。测试要求AI进行27000次计算,结果每次答案均不相同,无法保证重复性。这一发现突显了AI系统在精确计算任务中的不可靠性,尤其对医疗健康管理等需要高可靠性的领域构成挑战。测试基于糖尿病技术网站的文章,相关讨论在Hacker News上获得116点关注,引发对AI算法稳定性的质疑。

评测/基准
17:08
Chubby♨️@kimmonismus
44
Xiami mimo-v2.5 pro MIT许可证在竞技场上超越了Opus 4.5 了不起的成就。
开源/仓库模型发布评测/基准
17:08
Chubby♨️@kimmonismus
63
GPT-5.5 pro 在 Epoch 基准测试中实现了显著飞跃。然而更令人兴奋的是,GPT-5.5(非 pro 版)超越了 GPT-5.4 pro。 【引用 @EpochAIResearch】:GPT-5.5 Pro 在 Epoch 能力指数上创下 159 分的新高分!ECI 是我们的统计工具,它将多个基准测试整合到一个统一的量表中。

Epoch AI: GPT-5.5 Pro achieves a new high score of 159 on the Epoch Capabilities Index! ECI is our statistical tool that combines ...

OpenAI推理模型发布评测/基准
15:35
阿绎 AYi@AYi_AInotes
66
蚂蚁Ling-2.6-1T模型以高效能低成本引领AI生产落地竞争

蚂蚁集团推出的Ling-2.6-1T模型在免费测试期表现突出,处理复杂任务速度可比竞品快6倍,并具备主动思辨能力。其核心优势在于极高的token效率,能将成本降至可比模型的四分之一,同时综合智能接近GPT-5.4非推理水平,实现了高智能与低生产成本的结合。该模型在SWE-bench、AIME26等生产相关评测中领先,擅长代码、Agent编排等实际应用。蚂蚁依托支付宝场景与海量数据,通过开放API策略推动行业竞争重点从刷榜转向生产落地。

阿绎 AYi: 说个暴论,2026 年 AI 行业的转折点,不是 GPT-5.5,也不是 o3,是蚂蚁@AntLingAGI 刚刚发布的 Ling-2.6-1T。 我用 Ling-2.6-1T 跑了一个查理芒格的 100 个思维模型的硬核任务, 结果真的太...

大佬观点开源生态推理评测/基准
14:38
HuggingFace Daily Papers(社区热门论文)
54
AutoResearchBench:评估AI智能体在复杂科学文献发现中的基准

为评估AI智能体在自主科学研究中的文献发现能力,研究者推出了AutoResearchBench基准测试平台。它包含两项任务:“深度研究”需通过多步探索定位特定论文;“广度研究”需全面收集满足条件的论文系列。该基准具有研究导向性、文献聚焦性和开放探索性三大特点,对智能体的科学理解与精细推理能力提出高要求。实验显示,即使最强大的大语言模型在深度研究任务上准确率仅为9.39%,在广度研究任务上的IoU指标仅为9.31%,凸显了任务的艰巨性。相关数据集与代码已开源。

智能体论文/研究评测/基准
10:38
HuggingFace Daily Papers(社区热门论文)
48
DV-World:真实场景下的数据可视化智能体评测基准

针对现有基准在环境隔离、任务单一和意图假设完美等方面的局限,本文提出了DV-World基准。该基准包含260个任务,旨在真实工作流中评估数据可视化智能体。它涵盖三大领域:支持原生电子表格图表创建与诊断的DV-Sheet、要求跨编程范式重构可视化以适应新数据的DV-Evolution,以及通过模拟模糊需求测试主动意图对齐的DV-Interact。基准采用结合数值对齐与多模态大模型语义视觉评判的混合评估框架。实验表明,当前最先进模型整体表现不足50%,凸显其处理真实世界复杂挑战的能力存在严重缺陷。DV-World为引导智能体发展企业级综合专业知识提供了现实测试平台。

智能体编码论文/研究评测/基准
10:30
OpenRouter@OpenRouter
38
新的公开排名:音频输入功能! @GoogleDeepMind 的 Gemini 模型本周包揽前 7 名(!!),其中 Gemini 3 和 2.5 Flash 模型处理了 >50% 的提示词。
DeepMind产品更新评测/基准语音
09:35
阿绎 AYi@AYi_AInotes
精选76
蚂蚁发布Ling-2.6系列模型,以极致token效率推动AI生产落地竞赛

蚂蚁集团发布Ling-2.6系列模型,通过MoE架构与Fast-Thinking机制,将推理激活率降至7%,在实现接近GPT-5.4非推理水平综合智能的同时,大幅降低token成本。该模型在SWE-bench Verified等真实Agent场景测试中表现领先,旨在解决Agent规模化应用的成本痛点。目前已在OpenRouter提供免费API并即将开源,推动行业焦点从刷榜转向生产落地。其高效率特性尤其适合高频任务,在部分任务中速度比Claude Sonnet 4.6快6倍、成本低50倍。

阿绎 AYi: 后续来了兄弟们,卧槽真的太炸了,同样的任务,同样的配置,速度比Claude Sonnet 4.6还快 6 倍,成本低约 50 倍, openrouter 和 官方 API 均限时免费 1 周使用时间,白嫖的机会,冲啊兄弟们! 我上周那条讲E...

智能体推理评测/基准

推荐理由:把 token 成本砍到对手四分之一而智能分不降,Agent 规模化终于有了真正的成本解决方案,做 Agent 的必看。
‹ 上一页
1…1617181920…22
下一页 ›