AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 480 条
全部一手资讯X论文
标签「评测/基准」清除
Chubby♨️@kimmonismus · 4月29日44

Xiami mimo-v2.5 pro MIT license surpasses Opus 4.5 on arena Amazing achievement.

译Xiami mimo-v2.5 pro MIT许可证在竞技场上超越了Opus 4.5 了不起的成就。

Chubby♨️@kimmonismus · 4月29日63

GPT-5.5 pro represents a significant leap in the Epoch benchmark. Even more exciting, however, is that GPT-5.5 (non-pro) surpasses GPT-5.4 pro.

译GPT-5.5 pro 在 Epoch 基准测试中实现了显著飞跃。然而更令人兴奋的是,GPT-5.5(非 pro 版)超越了 GPT-5.4 pro。 [引用 @EpochAIResearch]:GPT-5.5 Pro 在 Epoch 能力指数上创下 159 分的新高分!ECI 是我们的统计工具,它将多个基准测试整合到一个统一的量表中。

阿绎 AYi@AYi_AInotes · 4月29日66

兄弟们,蚂蚁的这个新模型免费期是到4月30号, 趁着白嫖窗口期,我刚用Ling-2.6-1T跑了个硬核任务,推理速度快得惊人,质量也很顶🤯 让它帮我整理查理芒格的100个思维模型,它只用了40秒。 同样的prompt,DeepSeek V4 Pro跑了整整4分钟,速度快了整整6倍。 但这还不是最牛的地方, 最牛的是没有上来就直接甩给我一个100条的清单, 它写的第一句话是,100个思维模型这个说法,芒格本人从未明确列出过,这是后人归纳出来的象征性集合。 一个响应速度如此之快的模型,会主动停下来,先质疑你任务,进行自我思辨,这才是真正的推理能力,真正好用的大模型,不能只是跑得快🤣

译蚂蚁集团推出的Ling-2.6-1T模型在免费测试期表现突出,处理复杂任务速度可比竞品快6倍,并具备主动思辨能力。其核心优势在于极高的token效率,能将成本降至可比模型的四分之一,同时综合智能接近GPT-5.4非推理水平,实现了高智能与低生产成本的结合。该模型在SWE-bench、AIME26等生产相关评测中领先,擅长代码、Agent编排等实际应用。蚂蚁依托支付宝场景与海量数据,通过开放API策略推动行业竞争重点从刷榜转向生产落地。

OpenRouter@OpenRouter · 4月29日38

New public rankings: Audio Input! @GoogleDeepMind's Gemini models take the top 7 (!!) slots this week, with Gemini 3 and 2.5 Flash models processing >50% of prompts.

译新的公开排名:音频输入功能! @GoogleDeepMind 的 Gemini 模型本周包揽前 7 名(!!),其中 Gemini 3 和 2.5 Flash 模型处理了 >50% 的提示词。

阿绎 AYi@AYi_AInotes · 4月29日76

说个暴论,2026 年 AI 行业的转折点,不是 GPT-5.5,也不是 o3,是蚂蚁@AntLingAGI 刚刚发布的 Ling-2.6-1T。 我用 Ling-2.6-1T 跑了一个查理芒格的 100 个思维模型的硬核任务, 结果真的太炸了,具体大家看视频演示。 当大家都在卷参数、卷推理分、卷更长上下文, 只有它反其道而行之,把 token 效率 当成了第一公民。 最震撼的是这组数据:在 Artificial Analysis 全评测中, 它展现出极高的智能-输出比(生成 16M tokens), 整体 token 成本可降至可比模型的约四分之一, 综合智能却接近 GPT-5.4 的非推理水平, 直接落在所有模型都梦寐以求的“高智能 + 极低生产成本”象限。 这才是真正的生产级 AI,而不是实验室刷榜玩具。 Agent 时代最大的痛点从来不是模型不够聪明,而是用不起。 一个复杂任务调用十几次模型、几十次工具、拉几百 K 上下文, token 成本指数级爆炸,很多 Agent 方案一到规模化就死掉, Ling 把这个天花板直接抬高了数倍。 它走的是和 o1 类模型完全相反的路线:别人靠慢思考堆 token 刷榜, 靠 MoE 优化的 Fast-Thinking 机制实现又快又准。 写代码、搭 UI、编排 Agent、多步工作流——我们每天 90% 的事, 根本不需要深度多跳推理,需要的是精确、稳定、快、便宜。 而这些,Ling 全部做到了:SWE-bench Verified SOTA 级表现(72.2+)、AIME26 高分、指令遵循和工具调用榜单全面领先。 蚂蚁的底气很简单:背靠支付宝 13 亿用户 + 全世界最复杂的金融支付场景,天然拥有海量真实 Agentic 数据。 Ling 系列从一开始就不是为了刷榜,而是为了每天处理上亿次生产请求而生。 更狠的是它的打法:OpenRouter 已上线一周免费 API(262K 上下文), 官方确认即将开放权重——这明显在抢生态,和当年 DeepSeek 路数一样, 但这次握着的是生产级效率这个最大杀器。 这意味着2026 年的游戏规则彻底变了:不再是谁参数多谁牛,而是谁能在真实生产成本下跑赢。 过去的刷榜竞赛已进入尾声, 真正的生产落地竞赛才刚刚开始。

译蚂蚁集团发布Ling-2.6系列模型,通过MoE架构与Fast-Thinking机制,将推理激活率降至7%,在实现接近GPT-5.4非推理水平综合智能的同时,大幅降低token成本。该模型在SWE-bench Verified等真实Agent场景测试中表现领先,旨在解决Agent规模化应用的成本痛点。目前已在OpenRouter提供免费API并即将开源,推动行业焦点从刷榜转向生产落地。其高效率特性尤其适合高频任务,在部分任务中速度比Claude Sonnet 4.6快6倍、成本低50倍。

Rohan Paul@rohanpaul_ai · 4月29日54

GPT-5.5 Pro just posted the highest Epoch AI's ECI score yet at 159, which means it now leads their combined measure of general model capability across many separate tests. ECI matters because single benchmarks are easy to game or overfit, while a pooled index tries to measure whether a model is getting broadly better at many kinds of reasoning at once rather than just spiking on one exam. GPT-5.5 Pro and GPT-5.5 also solved 2 Tier 4 problems that no earlier model had solved.

译GPT-5.5 Pro在Epoch AI的ECI指数中获得159分,创下该综合能力评分的新纪录,表明其在多项测试中的整体模型能力目前领先。ECI指数旨在通过整合多个基准测试来评估模型的广泛推理能力,避免单一测试易被针对性优化的问题。此外,GPT-5.5 Pro与GPT-5.5共同解决了两个此前未有模型能处理的Tier 4级别难题。

Epoch AI@EpochAIResearch · 4月29日59

GPT-5.5 Pro achieves a new high score of 159 on the Epoch Capabilities Index! ECI is our statistical tool that combines multiple benchmarks into a unified scale.

译GPT-5.5 Pro 在 Epoch Capabilities Index 上创下 159 分的新高分!ECI 是我们的统计工具,它将多个基准测试整合到一个统一的量表中。

阿绎 AYi@AYi_AInotes · 4月28日48

Damn,DeepSeek V4 Pro质量是Claude的85%,价格只有七分之一。 今天用ZenMux同屏PK模式跑了马斯克100个思维模型的硬核任务,结果直接刷新认知🤯🤯🤯 DeepSeek直接甩出完整结构化表格,每个模型拆成是什么为什么案例落地四栏,逻辑丝滑纯母语表达,一点翻译腔都没有。 Claude文笔确实更细腻,但后半段开始瞎编参考文献,我随手查了三个全是不存在的。 两者质量差5分,价格差7倍,折扣期差距还会更大。 结论非常清晰,80%的日常工作写代码做调研搭框架,全部扔给DeepSeek。 剩下20%需要顶级文笔和深度创意的活,再切回Claude。 就这么简单,整体API费用直接省70%以上。 最香的是ZenMux上的免费版,不用去官网排队抢额度,打开就能用,1M上下文拉满,速度还比官方快。 链接放这了直接冲:https://zenmux.ai/deepseek/deepseek-v4-pro-free #DeepSeekV4 #ZenMux #Claude #大模型 #AI生产力

译通过ZenMux平台的PK模式实测,DeepSeek V4 Pro在处理结构化任务(如马斯克思维模型分析)时,输出逻辑清晰、表达母语化,质量达到Claude的85%,但价格仅为其七分之一。作者建议将80%的日常工作(如写代码、调研)交由DeepSeek处理,20%需要顶级文笔的任务使用Claude,可节省70%以上API费用。ZenMux提供免费测试额度、PK对比模式、保险赔付和可观测性工具,帮助用户规避依赖单一API厂商的风险并提升选型效率。

elvis@omarsar0 · 4月27日59

Don't try to build a self-improving AI agent without evals. You are just wasting time and compute. An agent can't improve from traces it can't evaluate. This is why it's exciting to see @FutureAGI_ going fully open source with their platform. It combines the best of all the eval tools and methods in one stack. They've shipped a set of tools to make it easier for AI devs to reliably ship self-improving agents. There is a lot to like here: - Evals for hallucination, groundedness, PII, toxicity, tool-use correctness, bias, and any custom metric. Every evaluator is readable and modifiable, not a black-box score. No vendor lock-in to worry about. - Six prompt optimization algorithms (GEPA, PromptWizard, ProTeGi, and others) that take production traces and feed them back as training signals. - Multi-turn simulation before launch, including voice agents through LiveKit, VAPI, Retell, and Pipecat. You stress test edge cases before users ever hit them. - Real-time guardrails for jailbreaks, prompt injection, and PII leaks. - OpenTelemetry-native tracing with 4+ languages (Python, TypeScript, Java, and C#), 50+ framework instrumentors (LangChain, LlamaIndex, CrewAI, AutoGen, DSPy, Haystack). - An OpenAI-compatible gateway with 100+ providers, routing strategies, and caching. If self-improving agents are the direction the field is moving, we need eval infrastructures we can actually trust and build on top of. This is that infrastructure, and now it's open. Check it out here: http://github.com/future-agi/future-agi Generous free tier cloud-based offer here: https://shorturl.at/cxYOd

译构建自进化AI代理必须依赖可靠的评估体系,否则将浪费资源。@FutureAGI_ 开源其平台,整合了领先的评估工具与方法,为开发者提供完整基础设施。该平台涵盖幻觉、毒性、偏见等多维度可修改评估器,集成六种提示优化算法,支持多轮模拟测试与实时安全防护,并提供多语言追踪及兼容OpenAI的网关。其开源特性旨在建立可信任的评估基础,推动自进化AI代理领域发展。

Kimi.ai@Kimi_Moonshot · 4月27日50

Kimi K2.6 is now #1 on OpenRouter's weekly LLM Leaderboard 🏆 A huge thank you to every developer building with Kimi. We'll keep our heads down and keep shipping.

译Kimi K2.6 现已登上 OpenRouter 每周 LLM 排行榜首位 🏆 衷心感谢每一位使用 Kimi 进行开发的开发者。我们将继续埋头苦干,持续交付。

karminski-牙医@karminski3 · 4月27日50

给大家同步一下DeepSeek-V4 的测试进度,目前前面几项大家熟悉的测试都已经跑完了,还缺少大家期待的GPT-5.5-Pro (我去攒点银子), xiaomi-mimo, hunyuan-3-preview 的测试,这几个正在跑了。 然后这次我还增加了【大模型工程能力测试】,说下测试核心设计思路: 首先工程项目我选择了酒馆(SillyTavern-1.17.0),然后写的需求文档是让被测试大模型给酒馆增加一个支持实时解释器的数值系统。大家都知道酒馆其实搭配各种插件其实是可以实现数值系统的,比如RPG数值系统。 但是,大模型是没办法凭空创造数值逻辑的,所以本次的需求就是让大模型通过tool_call可以创建新的数值系统,比如属性,状态,天赋等等,并且定义数值与现有数值系统的逻辑,即,它可以注入一段js代码,与已有的js代码交互,形成新的逻辑。 比如现在只有hp,数值100/100, 然后AI可以通过调用我们的数值系统,创建一个新的状态,叫做中毒,中毒状态持续10个tik, 然后每个tik会减少10点生命值。这一切全是我们的数值系统在AI创建这个js代码逻辑后自动执行的,不需要AI再接管。 这样一来是可以大大拓展可玩性,二来是大模型不会因为玩家【求求你了我快寄了给我加1000HP】轻松实现作弊。 然后,我还需要魔改terminal coding cli (本次使用的是kimi cli), 即,大模型需要使用魔改后的kimi-cli 来fork一份酒馆源代码来实现我们这个新需求,而这个魔改的kimi-cli 可以监督大模型的实现过程,统计大模型的token使用,使用工具的情况和能力,最终再运行我们专门为这个需求定制的黑盒测试,实现真正的【工程级别分析】。酒馆源代码足足有20万行,纯js也有13万行,作为测试项目工程量足够大了。 除此之外,我还魔改了酒馆源代码模板(就是AI要fork那一份),增加了酒馆cli模式,这个模式可以让被测试大模型实现harness闭环,即模型修改完代码了,可以进入cli模式自己玩酒馆测试一下,看看对不对,从而反复迭代自己的代码,还顺便考验了大模型的 Agent能力。 总之,还请大家稍安勿躁,我会尽快放出测试视频。【跪谢大家】 #deepseekv4

译作者同步了DeepSeek-V4的测试进度,并重点介绍了一项新设计的“大模型工程能力测试”。该测试以约20万行代码的SillyTavern项目为基础,要求大模型通过tool_call创建新的数值系统(如属性、状态),并能注入JS代码与现有系统交互。测试使用魔改的kimi-cli来监督实现过程、统计token与工具使用情况,并运行定制黑盒测试。此外,通过为酒馆增加CLI模式,测试还评估了大模型的Agent能力,使其能自行测试并迭代代码。目前测试仍在进行中。

François Chollet@fchollet · 4月27日53

No, the top score if you didn't account for action efficiency would be 100%, achievable with 20 lines of Python. All you need is to brute-force the state space. Please stop spreading complete disinformation.

译不,如果不考虑行动效率,最高分将是100%,用20行Python代码就能实现。你只需要暴力枚举状态空间。请停止传播完全虚假的信息。 [引用 @scaling01]:62.1% on ARC-AGI-3 would be the score if they used the same scoring as ARC-AGI-1/2

François Chollet@fchollet · 4月27日61

(we tested this, it scored sub-1%)

译(我们测试过,得分低于1%) [引用 @scaling01]:有可能GPT-5.5-xhigh配合工具已经解决了ARC-AGI-3

阿绎 AYi@AYi_AInotes · 4月26日42

有条件一定要用最好的AI大模型Claude opus 4.7!!! 这个印度开发老哥把Claude代码功能讲的太细了🤩🤩🤩 中文字幕版已做好,兄弟们请查收! 每个程序员和AI玩家都应该知道的12个Claude代码功能: - CLAUDE.md - Permissions - Plan Mode - Checkpoints - Skills - Hooks - MCP - Plugins - Context - Slash Commands - Compaction - Subagents 如果担心 Claude 封号,不建议别用中转站, 我的解决方案是聚合平台 ,目前在用 Zenmux,亲测安全稳定好用,国内不用梯子都可以直连,所有最新的大模型都是发布当天就上̋(ˊ•͈ꇴ•͈ˋ)

译一位印度开发者详细介绍了Claude的12个关键代码功能,包括CLAUDE.md、Plan Mode、MCP等,并建议开发者使用AI模型聚合平台。针对Claude可能封号的风险,推荐使用Zenmux平台,该平台集成了包括Claude Opus、GPT-5.4和DeepSeek V4 Pro在内的多种最新大模型,国内可直连。平台提供PK对比模式、保险赔付机制和详细的可观测性工具。特别指出,DeepSeek V4 Pro在Zenmux上目前有免费额度,经测试能处理大部分Claude的工作流,建议用户自行测试以进行模型选型。

elvis@omarsar0 · 4月26日53

Great paper on improving proactive agents.

译研究提出PARE框架,通过将应用程序建模为具有状态导航和状态相关操作的有限状态机,实现对主动式AI代理的更真实评估。基于此构建的PARE-Bench基准包含143项跨通信、生产力等领域的任务,测试代理的情境观察、目标推断、干预时机及多应用协调能力。该工作弥补了当前主流基准将应用视为扁平API、忽略真实交互状态性与顺序性的缺陷,为衡量代理能否推断用户未言明目标并在正确时刻行动提供了原则性方法。

elvis@omarsar0 · 4月26日63

NEW paper from Microsoft. This is an important read. (bookmark it) The work introduces DELEGATE-52, a benchmark simulating long document-editing workflows across 52 professional domains like coding, crystallography, and music notation. Across 19 tested models, even frontier ones (Gemini 3.1 Pro, Claude 4.6 Opus, GPT-5.4) corrupted an average of 25% of document content by the end of long workflows. Agentic tool use didn't help. Lots of other insights in this one. Check it out below... Paper: https://arxiv.org/abs/2604.15597 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译微软新论文引入DELEGATE-52基准,模拟52个专业领域的长文档编辑工作流。测试19个模型,包括Gemini 3.1 Pro、Claude 4.6 Opus和GPT-5.4等前沿模型,发现在长工作流结束时平均损坏25%的文档内容。代理工具使用未能改善表现。论文还提供了其他相关见解。

Orange AI@oran_ge · 4月25日24

用惯 Opus 之后再用 V4 ... 欸,写作能力太差了 有种时光倒流半年的感觉

阿绎 AYi@AYi_AInotes · 4月25日54

兄弟们,DeepSeek V4 Pro在ZenMux上免费放开了,登录就能跑,实测能替掉你80%的Claude活。视频是我早上实测的和Claude opus 4.7同时跑一个昨SaaS产品网站的任务,效果真的炸裂! 说个前情,老朋友都知道我今年Claude被封过一次号,那之后我就想通一件事——API这种东西绑死在单一厂商手里是给自己埋雷,付费用户说封就封,申诉通道石沉大海,深夜破防一次就够了。 从那之后我转战聚合平台,试了一圈最后留在ZenMux,半年用下来没再折腾过。 所以这次V4 Pro在ZenMux上免费开放,对我来说不是又一个新模型上线,是我一直在用的平台又多了一张能打的牌,顺手就想推给兄弟们。 先说V4 Pro到底值不值得冲, 这几天X上吹V4 Pro的推刷屏了,参数跑分价格屠杀,都是同一个模板。 但对我这种每个月真金白银付API账单的人来说,跑分都是虚的,能不能替掉我手头项目里的Claude调用才是真问题。 免费窗口就是用来验证这件事的, 我这昨天就干了一件事——用ZenMux的PK模式把V4 Pro、GPT-5.4、Claude Opus 4.6摆在同一屏,拿自己项目里最头疼的prompt开跑,三栏并排输出,谁快谁慢谁token烧得少一眼看完。 四个场景跑完结论很清晰——日常80%的活V4 Pro能接,便宜到让我下不去手再用Opus,剩下20%极限稳定性的关键链路我还是留给Claude兜底。 这就是模型分层,上周讲Ling的时候也提过这个逻辑,2026年不存在一个模型打天下,只存在你工具箱里的模型组合。 顺便说说ZenMux这平台为啥值得留下来。 PK模式是第一个杀手锏,三家模型同屏对比这种功能市面上很少有平台做,每次选模型省我一整个下午,比自己写脚本调三家API再人肉对比快十倍。 真正让我踏实的是保险赔付机制,模型输出异常或者延时拉胯,平台自动检测并补偿。 被Claude封过号之后再看到这个设计,感觉完全不一样,出问题有人兜底,不用再深夜破防。 再加上日志、成本、用量、性能四个维度的可观测性做得细,每一笔钱烧在哪、每一次请求卡在哪点开就能看,调prompt和选型的时候非常好使。 回到这次的白嫖窗口, DeepSeek V4 Pro和Flash都有免费版,每天有用量限制但够你跑测试。 这几天想验证要不要换模型的兄弟,别再刷跑分推了,自己扔几个真实prompt进去跑一遍,十分钟你就知道该不该换,比谁的测评都诚实🌚 免费入口老规矩评论区自取⬇️ #DeepSeekV4 #ZenMux #AI #大模型 #Agent

译作者通过ZenMux平台的PK模式,将DeepSeek V4 Pro与GPT-5.4、Claude Opus 4.6进行同屏实测对比。结果显示,在日常项目中,V4 Pro能处理约80%的任务,且成本显著低于Claude Opus;剩余20%对稳定性要求极高的关键任务则仍由Claude兜底。作者认为模型分层策略至关重要,未来将是模型组合的时代。他推荐ZenMux平台,因其PK对比功能、输出异常保险赔付机制及细致的成本观测工具,能有效提升效率并规避单一API供应商风险。目前V4 Pro和Flash版均有免费测试额度。

向阳乔木@vista8 · 4月25日42

彭兄发的分享,可能转自杨攀的tgo群。 对非顶级AI编程(GPT,claude)模型体感评价: 1、过 entry 梯队:glm-5.1 ~= kimi-k2.6 > deepseek-v4-pro > qwen-3.6-max-preview 2、没过 entry 梯队:mimo-v2.5-pro > qwen-3.6-plus > hy-3 > grok-4.20

译彭兄发的分享,可能转自杨攀的tgo群。 对非顶级AI编程(GPT,Claude)模型主观体验评价: 1、通过入门门槛梯队:glm-5.1 ~= kimi-k2.6 > deepseek-v4-pro > qwen-3.6-max-preview 2、未通过入门门槛梯队:mimo-v2.5-pro > qwen-3.6-plus > hy-3 > grok-4.20

SemiAnalysis@SemiAnalysis_ · 4月25日61

The Coding Assistant Breakdown: More Tokens Please, Hands On With GPT 5.5, Opus 4.7, DeepSeek V4, Why Benchmarks Are Bad, and Who's Going to Win READ NOW: https://newsletter.semianalysis.com/p/the-coding-assistant-breakdown-more?r=54gphk

译编程助手深度解析: 需要更多Token, GPT 5.5实战体验, Opus 4.7版本, DeepSeek V4模型, 为何基准测试存在缺陷, 以及谁将胜出 立即阅读: https://newsletter.semianalysis.com/p/the-coding-assistant-breakdown-more?r=54gphk

karminski-牙医@karminski3 · 4月24日43

来了老铁们. 我刚到家,已经开始测了.... 白天在山里赫然收到推送DSv4发了,这会也回不去下也下不来。爬的我脑瓜子嗡嗡的.... 一会先放速报哈,完整测评视频全部评测完毕放出,本次内容会包括近半年所有大模型的编程能力横评。 #deepseekv4

译作者在收到DeepSeek-V4的推送后,已开始对其进行测试。本次测评将重点关注其编程能力,并计划将其与近半年来发布的其他主流大模型(如GPT、Claude、LLaMA等)进行横向比较。完整的评测视频将在所有测试完成后发布,目前会先放出速报。

Ethan Mollick@emollick · 4月24日54

Here's DeepSeek v4 Pro. Added to the playable gallery as well.

译这是 DeepSeek v4 Pro。也已加入可玩模型库。 [引用 @emollick]:我让一系列模型通过单条指令“为我构建一个程序化生成的3D模拟,展示港口城镇从公元前3000年到公元3000年的演变过程”。 完整模型库可在此体验:https://hg-20f7d1a3ce.netlify.app 或在此阅读我关于 GPT-5.5 的文章:https://www.oneusefulthing.org/p/sign-of-the-future-gpt-55?r=i5f7&utm_medium=ios&triedRedirect=true

Ethan Mollick@emollick · 4月24日45

My first two TiKZ Sparks unicorns from DeepSeek v4. (Expert mode, from the DeepSeek site, which is supposed to be v4 Pro according to the release)

译我的前两个来自 DeepSeek v4 的 TiKZ Sparks 独角兽。 (专家模式,来自 DeepSeek 网站,根据发布说明应为 v4 Pro)

Chubby♨️@kimmonismus · 4月24日63

Deepseek v4 pro Evals. Roughly on par with GPT-5.4 xhigh and opus 4.6 max

译Deepseek v4 pro 评测。大致与 GPT-5.4 xhigh 和 opus 4.6 max 相当

小互@xiaohu · 4月24日57

一张图了解 GPT 5.5 在 Artificial Analysis 独立评测里,GPT-5.5 重回第一,以 3 分优势打破和 Anthropic、Google 的三方僵局 API 定价每百万输入 5 美元、输出 30 美元,比 GPT-5.4 翻了一倍,但 token 消耗减少约 40% GPT-5.5 自己写算法优化了自己,让 token 生成速度提升超过 20% 知识准确率 57% 创史上新高,但幻觉率高达 86%...

译在独立评测中,GPT-5.5以3分优势超越Anthropic和Google的模型,重回性能榜首。其API定价大幅上涨,输入与输出费用分别达到每百万5美元和30美元,但token消耗减少了约40%。模型通过自我编写的算法进行了优化,使token生成速度提升超过20%。尽管知识准确率达到57%的历史新高,但其幻觉率也高达86%,显示出性能与可靠性之间的显著矛盾。

Epoch AI@EpochAIResearch · 4月22日

Opus 4.7 scores 156 on ECI, our tool for combining multiple benchmarks onto a single scale. This puts it a bit ahead of Opus 4.6 and a bit behind only GPT-5.4, Gemini 3.1 Pro, and GPT-5.4 Pro. Thread with individual scores and commentary.

译Opus 4.7 在 ECI 上获得 156 分,这是我们用于将多个基准测试整合到单一量表的工具。这使它略高于 Opus 4.6,仅略低于 GPT-5.4、Gemini 3.1 Pro 和 GPT-5.4 Pro。包含各项分数和评论的线程。

AK@_akhaliq · 4月22日39

MathNet a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval paper: https://huggingface.co/papers/2604.18584

译MathNet 一个用于数学推理与检索的全球多模态基准 论文: https://huggingface.co/papers/2604.18584

SemiAnalysis@SemiAnalysis_ · 4月21日

Right now, InferenceX benchmarks are showing the worst these chips will actually perform. No prefix caching, no multi-turn, all random data. The real gains haven't even been measured yet.

译目前,InferenceX 基准测试显示的是这些芯片的实际最差性能。无前缀缓存,无多轮对话,全为随机数据。真正的提升甚至尚未测量。

DogeDesigner@cb_doge · 4月20日

NEWS: Grok just posted the lowest hallucination rate ever recorded, only 17% on the AA-Omniscience benchmark. Beating: Claude → 36% Gemini → 50% ChatGPT → 89%

译消息:Grok 刚刚创下有史以来最低的幻觉率,在 AA-Omniscience 基准测试中仅为 17%。 击败了: Claude → 36% Gemini → 50% ChatGPT → 89%

karminski-牙医@karminski3 · 4月19日

花费106刀测试! Claude-Opus-4.7 到底更新了啥? 给大家带来 Claude-Opus-4.7 的视觉能力+前端+后端能力测试! 本次测试多模态前端测试采用 pass@3 (相同prompt运行3次取最好结果), 复杂前端测试采用 pass@6, 后端能力测试采用 pass@3. 从测试来看 Claude-Opus-4.7 最大的提升都是视觉能力提升带来的, 包括颜色识别, 细微的画面元素, 都比 Opus-4.6 有明显的提升, 甚至空间理解也变强了. 我觉得用来替代 GPT-5.4-Pro 进行多模态前端交互设计非常不错 (毕竟价格在那摆着). 但是在其余考验硬实力的测试上均有不同程度的下降, 甚至这个下降我觉得不是因为模型能力导致的(只要prompt做更具体的提示, 比如跟他说你要用xxx算法实现), 它其实是能写出来的. 但是如果用在 Harness 场景, 让它自己采取最优的算法自己去实现和验证, 通常就得不到比 Opus-4.6 更好的结果了. 为什么会这样? 核心问题我觉得是这次即使是给到 xhigh 的 reasoning effort 可能它的思考空间(budget)也是不太够的(具体表现就是感觉模型偷懒了), 它的能力强, 但是需要更多的思考才能达到更强的水平. (阴谋论一波这也是为什么官方出了 xhigh 这个 reasoning level). 所以在实际使用中, 如果遇到性能下降问题, 只能反复提示它, 让他跨多个会话反复思考, 才能达到预期的效果. 最后本次测试所有API调用均在 openrouter 完成, 总计开销在 106USD 左右. #claudeopus47 #opus47 #anthropic #claude #opus

译花费106美元在OpenRouter上实测Claude-Opus-4.7显示,其视觉能力较4.6版本显著提升,在颜色识别、细节捕捉和空间理解方面表现突出,可替代GPT-4o Pro用于多模态前端任务。但在后端硬实力测试中表现下滑,核心问题在于即使开启xhigh reasoning effort,模型的思考预算仍显不足,导致"偷懒"现象。实际使用中需通过反复提示和跨会话思考才能发挥最佳性能。

Ethan Mollick@emollick · 4月19日

What I find very funny about these “leaks” is that they don’t even bother to get ballpark benchmarks to feed into the image generators. Ask the model to look up real data, at least. Its easy! Like GPQA is over 90% for all recent models.

译我觉得这些"泄露"很好笑的是,他们甚至懒得弄个大体准确的基准测试数据来输入到图像生成器里。至少让模型查一下真实数据吧。这很简单! 比如 GPQA 在所有近期模型上都超过 90% 了。

SemiAnalysis@SemiAnalysis_ · 4月19日

At GTC 2024, Jensen said that GB200 NVL72 was 35x faster than Hopper. Nobody believed it and thought it was classic fake Jensen Math. When we tested the performance of it, it wasn't just 35x faster, it was over 50x times faster even against an strong Hopper baseline with all of the inference optimization composed together like MTP, Disagg prefill, wideEP, etc. View the nuanced results at InferenceX dot com.

译在 GTC 2024 上,Jensen 表示 GB200 NVL72 比 Hopper 快 35 倍。没人相信,认为这是经典的 fake Jensen Math。当我们测试其性能时,它不仅快了 35 倍,即使面对采用了 MTP、Disagg prefill、wideEP 等所有推理优化组合的强大 Hopper 基线,也快了 50 倍以上。在 InferenceX.com 查看详细结果。

Chubby♨️@kimmonismus · 4月18日

Opus 4.7 does seem to have improved, and its adaptive thinking now uses more tokens. However, compared to Opus 4.6, it still performs significantly worse.

译Opus 4.7 确实似乎有所改进,其自适应思考现在使用了更多 tokens。 然而,与 Opus 4.6 相比,它的表现仍然明显更差。

AK@_akhaliq · 4月18日55

DR3-Eval Towards Realistic and Reproducible Deep Research Evaluation paper: https://huggingface.co/papers/2604.14683

译DR3-Eval 迈向现实且可复现的深度研究评估 论文: https://huggingface.co/papers/2604.14683

Chubby♨️@kimmonismus · 4月17日

Opus 4.7 consumes approximately 1.3 times as many tokens. The instructions must be very precise. Many are complaining about a "rushed release." In the Bullshit Benchmark, it performs worse than Opus 4.6. The mood is very mixed. Anthropic may have done OpenAI a big favor with this. Spud is expected next week. And if the release is done right, it could overshadow Opus and catapult ChatGPT back to the top. h/t @petergostev for the benchmark and image

译Opus 4.7 消耗的 token 数量约为原来的 1.3 倍。指令必须非常精确。许多人在抱怨这是一次"仓促发布"。在 Bullshit Benchmark 中,它的表现比 Opus 4.6 更差。反响非常两极分化。 Anthropic 这次可能帮了 OpenAI 一个大忙。Spud 预计下周发布。如果发布得当,它可能会盖过 Opus 的风头,让 ChatGPT 重回巅峰。 h/t @petergostev 提供基准测试和图片

Chubby♨️@kimmonismus · 4月17日31

😥

译😥 [引用 @kimmonismus]:好吧,什么鬼,我直说了。把4.6还给我。 这到底是什么鬼东西。 我越用4.7越恼火。这真是个仓促的发布。

Chubby♨️@kimmonismus · 4月17日

Hold on, something doesnt add up here. Opus 4.7 got much worse in needle in the haystack? need to dig into this

译等等,这里有些不对劲。Opus 4.7 在大海捞针测试中的表现差了很多?需要深挖一下

AK@_akhaliq · 4月17日39

GameWorld Towards Standardized and Verifiable Evaluation of Multimodal Game Agents paper: https://huggingface.co/papers/2604.07429

译GameWorld 迈向标准化且可验证的多模态游戏智能体评估 论文: https://huggingface.co/papers/2604.07429

Deedy@deedydas · 4月16日

Opus 4.7 benchmarks colored by ranking. – Strong coding (SWE-Bench) bump – Strong Computer use bump – Strong visual reasoning (CharXiv) bump – Weak Terminal Bench bump – BrowseComp regression Slots in between 4.6 and Mythos. [Chart generated by 4.7]

译Opus 4.7 基准测试按排名着色。 – 编程(SWE-Bench)大幅提升 – 计算机使用大幅提升 – 视觉推理(CharXiv)大幅提升 – Terminal Bench 小幅提升 – BrowseComp 退步 介于 4.6 和 Mythos 之间。 [图表由 4.7 生成]

AK@_akhaliq · 4月16日49

GlotOCR Bench OCR Models Still Struggle Beyond a Handful of Unicode Scripts paper: https://huggingface.co/papers/2604.12978

译GlotOCR Bench OCR 模型在少数 Unicode 文字体系之外仍表现不佳 paper: https://huggingface.co/papers/2604.12978

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
4月29日
17:08
Chubby♨️@kimmonismus
44
Xiami mimo-v2.5 pro MIT许可证在竞技场上超越了Opus 4.5 了不起的成就。
开源/仓库模型发布评测/基准
17:08
Chubby♨️@kimmonismus
63
GPT-5.5 pro 在 Epoch 基准测试中实现了显著飞跃。然而更令人兴奋的是,GPT-5.5(非 pro 版)超越了 GPT-5.4 pro。 【引用 @EpochAIResearch】:GPT-5.5 Pro 在 Epoch 能力指数上创下 159 分的新高分!ECI 是我们的统计工具,它将多个基准测试整合到一个统一的量表中。

Epoch AI: GPT-5.5 Pro achieves a new high score of 159 on the Epoch Capabilities Index! ECI is our statistical tool that combines ...

OpenAI推理模型发布评测/基准
15:35
阿绎 AYi@AYi_AInotes
66
蚂蚁Ling-2.6-1T模型以高效能低成本引领AI生产落地竞争

蚂蚁集团推出的Ling-2.6-1T模型在免费测试期表现突出,处理复杂任务速度可比竞品快6倍,并具备主动思辨能力。其核心优势在于极高的token效率,能将成本降至可比模型的四分之一,同时综合智能接近GPT-5.4非推理水平,实现了高智能与低生产成本的结合。该模型在SWE-bench、AIME26等生产相关评测中领先,擅长代码、Agent编排等实际应用。蚂蚁依托支付宝场景与海量数据,通过开放API策略推动行业竞争重点从刷榜转向生产落地。

阿绎 AYi: 说个暴论,2026 年 AI 行业的转折点,不是 GPT-5.5,也不是 o3,是蚂蚁@AntLingAGI 刚刚发布的 Ling-2.6-1T。 我用 Ling-2.6-1T 跑了一个查理芒格的 100 个思维模型的硬核任务, 结果真的太...

大佬观点开源生态推理评测/基准
10:30
OpenRouter@OpenRouter
38
新的公开排名:音频输入功能! @GoogleDeepMind 的 Gemini 模型本周包揽前 7 名(!!),其中 Gemini 3 和 2.5 Flash 模型处理了 >50% 的提示词。
DeepMind产品更新评测/基准语音
09:35
阿绎 AYi@AYi_AInotes
精选76
蚂蚁发布Ling-2.6系列模型,以极致token效率推动AI生产落地竞赛

蚂蚁集团发布Ling-2.6系列模型,通过MoE架构与Fast-Thinking机制,将推理激活率降至7%,在实现接近GPT-5.4非推理水平综合智能的同时,大幅降低token成本。该模型在SWE-bench Verified等真实Agent场景测试中表现领先,旨在解决Agent规模化应用的成本痛点。目前已在OpenRouter提供免费API并即将开源,推动行业焦点从刷榜转向生产落地。其高效率特性尤其适合高频任务,在部分任务中速度比Claude Sonnet 4.6快6倍、成本低50倍。

阿绎 AYi: 后续来了兄弟们,卧槽真的太炸了,同样的任务,同样的配置,速度比Claude Sonnet 4.6还快 6 倍,成本低约 50 倍, openrouter 和 官方 API 均限时免费 1 周使用时间,白嫖的机会,冲啊兄弟们! 我上周那条讲E...

智能体推理评测/基准

推荐理由:把 token 成本砍到对手四分之一而智能分不降,Agent 规模化终于有了真正的成本解决方案,做 Agent 的必看。
07:07
Rohan Paul@rohanpaul_ai
54
GPT-5.5 Pro在Epoch AI的ECI指数中获得159分,创下该综合能力评分的新纪录,表明其在多项测试中的整体模型能力目前领先。ECI指数旨在通过整合多个基准测试来评估模型的广泛推理能力,避免单一测试易被针对性优化的问题。此外,GPT-5.5 Pro与GPT-5.5共同解决了两个此前未有模型能处理的Tier 4级别难题。

Epoch AI: GPT-5.5 Pro achieves a new high score of 159 on the Epoch Capabilities Index! ECI is our statistical tool that combines ...

OpenAI推理评测/基准
02:09
Epoch AI@EpochAIResearch
59
GPT-5.5 Pro 在 Epoch Capabilities Index 上创下 159 分的新高分!ECI 是我们的统计工具,它将多个基准测试整合到一个统一的量表中。
OpenAI模型发布评测/基准
4月28日
23:35
阿绎 AYi@AYi_AInotes
48
DeepSeek V4 Pro质量是Claude的85%,价格只有七分之一。

通过ZenMux平台的PK模式实测,DeepSeek V4 Pro在处理结构化任务(如马斯克思维模型分析)时,输出逻辑清晰、表达母语化,质量达到Claude的85%,但价格仅为其七分之一。作者建议将80%的日常工作(如写代码、调研)交由DeepSeek处理,20%需要顶级文笔的任务使用Claude,可节省70%以上API费用。ZenMux提供免费测试额度、PK对比模式、保险赔付和可观测性工具,帮助用户规避依赖单一API厂商的风险并提升选型效率。

阿绎 AYi: 兄弟们,DeepSeek V4 Pro在ZenMux上免费放开了,登录就能跑,实测能替掉你80%的Claude活。视频是我早上实测的和Claude opus 4.7同时跑一个昨SaaS产品网站的任务,效果真的炸裂! 说个前情,老朋友都知道我...

DeepSeek现象/趋势编码评测/基准
4月27日
21:58
elvis@omarsar0
59
开源评估平台FutureAGI助力构建可信自进化AI代理

构建自进化AI代理必须依赖可靠的评估体系,否则将浪费资源。@FutureAGI_ 开源其平台,整合了领先的评估工具与方法,为开发者提供完整基础设施。该平台涵盖幻觉、毒性、偏见等多维度可修改评估器,集成六种提示优化算法,支持多轮模拟测试与实时安全防护,并提供多语言追踪及兼容OpenAI的网关。其开源特性旨在建立可信任的评估基础,推动自进化AI代理领域发展。

智能体产品更新开源生态评测/基准
17:20
Kimi.ai@Kimi_Moonshot
50
Kimi K2.6 现已登上 OpenRouter 每周 LLM 排行榜首位 🏆 衷心感谢每一位使用 Kimi 进行开发的开发者。我们将继续埋头苦干,持续交付。
开源生态模型发布评测/基准
14:21
karminski-牙医@karminski3
50
DeepSeek-V4测试进度同步及新增大模型工程能力测试

作者同步了DeepSeek-V4的测试进度,并重点介绍了一项新设计的“大模型工程能力测试”。该测试以约20万行代码的SillyTavern项目为基础,要求大模型通过tool_call创建新的数值系统(如属性、状态),并能注入JS代码与现有系统交互。测试使用魔改的kimi-cli来监督实现过程、统计token与工具使用情况,并运行定制黑盒测试。此外,通过为酒馆增加CLI模式,测试还评估了大模型的Agent能力,使其能自行测试并迭代代码。目前测试仍在进行中。

智能体DeepSeek编码评测/基准
07:25
François Chollet@fchollet
53
不,如果不考虑行动效率,最高分将是100%,用20行Python代码就能实现。你只需要暴力枚举状态空间。请停止传播完全虚假的信息。 【引用 @scaling01】:62.1% on ARC-AGI-3 would be the score if they used the same scoring as ARC-AGI-1/2

Lisan al Gaib: 62.1% on ARC-AGI-3 would be the score if they used the same scoring as ARC-AGI-1/2

大佬观点推理评测/基准
07:25
François Chollet@fchollet
61
(我们测试过,得分低于1%) 【引用 @scaling01】:有可能GPT-5.5-xhigh配合工具已经解决了ARC-AGI-3

Lisan al Gaib: there's a chance ARC-AGI-3 is already solved with GPT-5.5-xhigh + tools

大佬观点推理评测/基准
4月26日
17:21
阿绎 AYi@AYi_AInotes
42
印度开发者详解Claude代码功能,推荐聚合平台Zenmux

一位印度开发者详细介绍了Claude的12个关键代码功能,包括CLAUDE.md、Plan Mode、MCP等,并建议开发者使用AI模型聚合平台。针对Claude可能封号的风险,推荐使用Zenmux平台,该平台集成了包括Claude Opus、GPT-5.4和DeepSeek V4 Pro在内的多种最新大模型,国内可直连。平台提供PK对比模式、保险赔付机制和详细的可观测性工具。特别指出,DeepSeek V4 Pro在Zenmux上目前有免费额度,经测试能处理大部分Claude的工作流,建议用户自行测试以进行模型选型。

阿绎 AYi: 兄弟们,DeepSeek V4 Pro在ZenMux上免费放开了,登录就能跑,实测能替掉你80%的Claude活。视频是我早上实测的和Claude opus 4.7同时跑一个昨SaaS产品网站的任务,效果真的炸裂! 说个前情,老朋友都知道我...

大佬观点评测/基准部署/工程
04:52
elvis@omarsar0
53
研究提出PARE框架,通过将应用程序建模为具有状态导航和状态相关操作的有限状态机,实现对主动式AI代理的更真实评估。基于此构建的PARE-Bench基准包含143项跨通信、生产力等领域的任务,测试代理的情境观察、目标推断、干预时机及多应用协调能力。该工作弥补了当前主流基准将应用视为扁平API、忽略真实交互状态性与顺序性的缺陷,为衡量代理能否推断用户未言明目标并在正确时刻行动提供了原则性方法。

DAIR.AI: Great paper on improving proactive agents. (bookmark it) Proactive agents act before you do. But how do you evaluate som...

智能体论文/研究评测/基准
01:02
elvis@omarsar0
63
微软论文揭示AI长文档编辑工作流普遍损坏内容

微软新论文引入DELEGATE-52基准,模拟52个专业领域的长文档编辑工作流。测试19个模型,包括Gemini 3.1 Pro、Claude 4.6 Opus和GPT-5.4等前沿模型,发现在长工作流结束时平均损坏25%的文档内容。代理工具使用未能改善表现。论文还提供了其他相关见解。

论文/研究评测/基准部署/工程
4月25日
21:05
Orange AI@oran_ge
24
用惯 Opus 之后再用 V4 … 欸,写作能力太差了 有种时光倒流半年的感觉
大佬观点评测/基准
13:00
阿绎 AYi@AYi_AInotes
54
DeepSeek V4 Pro在ZenMux平台免费开放,实测可替代大部分Claude任务

作者通过ZenMux平台的PK模式,将DeepSeek V4 Pro与GPT-5.4、Claude Opus 4.6进行同屏实测对比。结果显示,在日常项目中,V4 Pro能处理约80%的任务,且成本显著低于Claude Opus;剩余20%对稳定性要求极高的关键任务则仍由Claude兜底。作者认为模型分层策略至关重要,未来将是模型组合的时代。他推荐ZenMux平台,因其PK对比功能、输出异常保险赔付机制及细致的成本观测工具,能有效提升效率并规避单一API供应商风险。目前V4 Pro和Flash版均有免费测试额度。

DeepSeek教程/实践评测/基准
09:10
向阳乔木@vista8
42
彭兄发的分享,可能转自杨攀的tgo群。 对非顶级AI编程(GPT,Claude)模型主观体验评价: 1、通过入门门槛梯队:glm-5.1 ~= kimi-k2.6 > deepseek-v4-pro > qwen-3.6-max-preview 2、未通过入门门槛梯队:mimo-v2.5-pro > qwen-3.6-plus > hy-3 > grok-4.20
大佬观点编码评测/基准
06:45
SemiAnalysis@SemiAnalysis_
61
编程助手深度解析: 需要更多Token, GPT 5.5实战体验, Opus 4.7版本, DeepSeek V4模型, 为何基准测试存在缺陷, 以及谁将胜出 立即阅读: https://newsletter.semianalysis.com/p/the-coding-assistant-breakdown-more?r=54gphk
现象/趋势编码评测/基准
4月24日
19:37
karminski-牙医@karminski3
43
DeepSeek-V4发布,编程能力横评即将出炉

作者在收到DeepSeek-V4的推送后,已开始对其进行测试。本次测评将重点关注其编程能力,并计划将其与近半年来发布的其他主流大模型(如GPT、Claude、LLaMA等)进行横向比较。完整的评测视频将在所有测试完成后发布,目前会先放出速报。

DeepSeek现象/趋势评测/基准
12:24
Ethan Mollick@emollick
54
这是 DeepSeek v4 Pro。也已加入可玩模型库。 【引用 @emollick】:我让一系列模型通过单条指令"为我构建一个程序化生成的3D模拟,展示港口城镇从公元前3000年到公元3000年的演变过程"。 完整模型库可在此体验:https://hg-20f7d1a3ce.netlify.app 或在此阅读我关于 GPT-5.5 的文章:https://www.oneusefulthing.org/p/sign-of-the-future-gpt-55?r=i5f7&utm_medium=ios&triedRedirect=true

Ethan Mollick: I had a range of models "build me a procedurally generated 3D simulation showing the evolution of a harbor town from 300...

DeepSeek现象/趋势评测/基准
11:54
Ethan Mollick@emollick
45
我的前两个来自 DeepSeek v4 的 TiKZ Sparks 独角兽。 (专家模式,来自 DeepSeek 网站,根据发布说明应为 v4 Pro)
DeepSeek大佬观点评测/基准
11:24
Chubby♨️@kimmonismus
63
Deepseek v4 pro 评测。大致与 GPT-5.4 xhigh 和 opus 4.6 max 相当

Chubby♨️: DEEEPSEEK 4 RELEASED!! Holy!! Lets go

DeepSeek模型发布评测/基准
10:44
小互@xiaohu
57
GPT-5.5评测重回榜首,性能提升但幻觉率仍高

在独立评测中,GPT-5.5以3分优势超越Anthropic和Google的模型,重回性能榜首。其API定价大幅上涨,输入与输出费用分别达到每百万5美元和30美元,但token消耗减少了约40%。模型通过自我编写的算法进行了优化,使token生成速度提升超过20%。尽管知识准确率达到57%的历史新高,但其幻觉率也高达86%,显示出性能与可靠性之间的显著矛盾。

OpenAI模型发布评测/基准
4月22日
01:45
Epoch AI@EpochAIResearch
Opus 4.7 在 ECI 上获得 156 分,这是我们用于将多个基准测试整合到单一量表的工具。这使它略高于 Opus 4.6,仅略低于 GPT-5.4、Gemini 3.1 Pro 和 GPT-5.4 Pro。包含各项分数和评论的线程。
AnthropicOpenAI评测/基准
00:14
AK@_akhaliq
39
MathNet 一个用于数学推理与检索的全球多模态基准 论文: https://huggingface.co/papers/2604.18584
推理论文/研究评测/基准
4月21日
09:13
SemiAnalysis@SemiAnalysis_
目前,InferenceX 基准测试显示的是这些芯片的实际最差性能。无前缀缓存,无多轮对话,全为随机数据。真正的提升甚至尚未测量。
评测/基准部署/工程
4月20日
00:38
DogeDesigner@cb_doge
消息:Grok 刚刚创下有史以来最低的幻觉率,在 AA-Omniscience 基准测试中仅为 17%。 击败了: Claude → 36% Gemini → 50% ChatGPT → 89%
xAI评测/基准
4月19日
17:08
karminski-牙医@karminski3
106美元实测Claude-Opus-4.7:视觉飞跃但推理偷懒

花费106美元在OpenRouter上实测Claude-Opus-4.7显示,其视觉能力较4.6版本显著提升,在颜色识别、细节捕捉和空间理解方面表现突出,可替代GPT-4o Pro用于多模态前端任务。但在后端硬实力测试中表现下滑,核心问题在于即使开启xhigh reasoning effort,模型的思考预算仍显不足,导致"偷懒"现象。实际使用中需通过反复提示和跨会话思考才能发挥最佳性能。

Anthropic多模态编码评测/基准
13:05
Ethan Mollick@emollick
我觉得这些"泄露"很好笑的是,他们甚至懒得弄个大体准确的基准测试数据来输入到图像生成器里。至少让模型查一下真实数据吧。这很简单! 比如 GPQA 在所有近期模型上都超过 90% 了。
大佬观点现象/趋势评测/基准
03:37
SemiAnalysis@SemiAnalysis_
在 GTC 2024 上,Jensen 表示 GB200 NVL72 比 Hopper 快 35 倍。没人相信,认为这是经典的 fake Jensen Math。当我们测试其性能时,它不仅快了 35 倍,即使面对采用了 MTP、Disagg prefill、wideEP 等所有推理优化组合的强大 Hopper 基线,也快了 50 倍以上。在 InferenceX.com 查看详细结果。
评测/基准部署/工程
4月18日
19:44
Chubby♨️@kimmonismus
Opus 4.7 确实似乎有所改进,其自适应思考现在使用了更多 tokens。 然而,与 Opus 4.6 相比,它的表现仍然明显更差。
Anthropic推理评测/基准
00:28
AK@_akhaliq
55
DR3-Eval 迈向现实且可复现的深度研究评估 论文: https://huggingface.co/papers/2604.14683
智能体论文/研究评测/基准
4月17日
17:44
Chubby♨️@kimmonismus
Opus 4.7 消耗的 token 数量约为原来的 1.3 倍。指令必须非常精确。许多人在抱怨这是一次"仓促发布"。在 Bullshit Benchmark 中,它的表现比 Opus 4.6 更差。反响非常两极分化。 Anthropic 这次可能帮了 OpenAI 一个大忙。Spud 预计下周发布。如果发布得当,它可能会盖过 Opus 的风头,让 ChatGPT 重回巅峰。 h/t @petergostev 提供基准测试和图片

Chubby♨️: The mood regarding the Opus 4.7 update has shifted. If I had to guess, I'd say 60% are disappointed with the latest upda...

AnthropicOpenAI推理评测/基准
17:44
Chubby♨️@kimmonismus
31
😥 【引用 @kimmonismus】:好吧,什么鬼,我直说了。把4.6还给我。 这到底是什么鬼东西。 我越用4.7越恼火。这真是个仓促的发布。

Chubby♨️: ok wtf, i say it. give me back 4.6 what the heck is this sh*t. The more i use 4.7 the more annoyed i am. this is such a ...

大佬观点评测/基准
01:44
Chubby♨️@kimmonismus
等等,这里有些不对劲。Opus 4.7 在大海捞针测试中的表现差了很多?需要深挖一下
Anthropic评测/基准
00:08
AK@_akhaliq
39
GameWorld 迈向标准化且可验证的多模态游戏智能体评估 论文: https://huggingface.co/papers/2604.07429
智能体论文/研究评测/基准
4月16日
23:44
Deedy@deedydas
Opus 4.7 基准测试按排名着色。 - 编程(SWE-Bench)大幅提升 - 计算机使用大幅提升 - 视觉推理(CharXiv)大幅提升 - Terminal Bench 小幅提升 - BrowseComp 退步 介于 4.6 和 Mythos 之间。 【图表由 4.7 生成】
智能体Anthropic推理编码
01:37
AK@_akhaliq
49
GlotOCR Bench OCR 模型在少数 Unicode 文字体系之外仍表现不佳 paper: https://huggingface.co/papers/2604.12978
多模态论文/研究评测/基准
‹ 上一页
1…9101112
下一页 ›