AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 480 条
全部一手资讯X论文
标签「评测/基准」清除
Artificial Analysis@ArtificialAnlys · 5月23日58

Cursor Composer 2.5's is 3–18x cheaper than Opus 4.7 in Claude Code (medium reasoning), and 5–32x cheaper than GPT-5.5 in Codex (medium) based on API pricing This low Cost per Task isn't just driven by relatively low token pricing, it's also driven by low relatively low token usage compared to other leading models. @cursor_ai Composer 2.5 only used 1.6M token to complete our Coding Agent Index benchmarks, while other models used up to 5.7M. This lower token usage also contributes to a low Time per Task. Across the Coding Agent Index configurations shown, average Time per Task was ~12 minutes. Composer 2.5 completed tasks in ~9 minutes on average, making it ~1.3x faster than average, while Composer 2.5 Fast completed tasks in ~7 minutes, making it ~1.8x faster than the average across agents. Link to full benchmark results below

译基准测试显示,Cursor Composer 2.5在编程任务中展现出卓越的成本与效率优势。其单任务成本仅为Claude Opus 4.7的1/3至1/18,更是GPT-5.5的1/5至1/32。这一低成本源于其极高的token使用效率:完成全部测试仅消耗1.6M token,远低于同类模型的5.7M。效率方面,其平均任务完成时间约9分钟,比行业平均水平快约1.3倍,其快速版本更可将时间缩短至约7分钟。

Artificial Analysis@ArtificialAnlys · 5月23日61

Cartesia’s Sonic-3.5 takes the #1 spot on the Artificial Analysis Speech Arena Leaderboard, surpassing Inworld Realtime TTS 1.5 Max and Google’s Gemini 3.1 Flash TTS Sonic-3.5 is the latest TTS model from @cartesia . It supports 42 languages, including 9 Indian languages, with 500+ voices available out of the box. The model has been highly preferred among voters in the TTS Arena, with its demonstrated naturalness and accurate transcript following. Key takeaways: ➤ Quality: Sonic-3.5 has an Elo score of 1,218 (+16/-16) based on 1,144 arena appearances, placing it ahead of Inworld Realtime TTS 1.5 Max at 1,194 and Gemini 3.1 Flash TTS at 1,209 ➤ Pricing: Sonic-3.5 is priced at $39/1M characters, a premium compared to Gemini 3.1 Flash TTS at $18.3/1M characters, and Inworld Realtime TTS 1.5 Max at $35/1M characters ➤ Speed: 105.5 characters per second, compared to 205 characters per second for Inworld Realtime TTS 1.5 Max and 26.3 characters per second for Gemini 3.1 Flash TTS See more details and listen to samples below 🧵

译Cartesia公司最新发布的语音合成模型Sonic-3.5在Artificial Analysis Speech Arena排行榜上位居第一,超越了Inworld Realtime TTS 1.5 Max和Google Gemini 3.1 Flash TTS等竞品。该模型支持42种语言(包括9种印度语言),提供超过500种声音选择。评测数据显示,Sonic-3.5以1,218的Elo分数领先,表现出自然的语音效果和准确的文本跟随能力。其定价为每百万字符39美元,高于竞品;生成速度为每秒105.5字符,介于其他两者之间。

向阳乔木@vista8 · 5月22日36

在AJ安利下,歸藏买了安克 AI 录音豆。 在歸藏安利下,我也买了。 初步体验,这是目前个人最喜欢、最实用的 AI 硬件产品。 就是绳子带着不舒服,打算淘宝换个。

Qwen@Alibaba_Qwen · 5月22日66

👀👀

译近期一项针对前沿AI模型在真实智能体任务上的测试显示,Qwen 3.7-Max在效果与成本方面全面领先。该任务要求模型自主编写并迭代优化一个能自我训练的Tetris机器人程序。在10轮自我改进中,Qwen 3.7-Max仅花费1.32美元,便将机器人性能提升了56%。相比之下,Claude Opus 4.7花费12.15美元提升了28%,GPT-5.5花费2.85美元提升了7%。结果表明,在需要长时间自主推理、代码阅读与迭代的复杂智能体循环场景中,Qwen Max具备极强的成本效益比与自我改进能力。

Chubby♨️@kimmonismus · 5月22日49

1/ I have been spending time with SenseNova U1, a native multimodal model series released by @SenseTime_Al. It is built on an architecture called NEO-unify that processes images and text together in one single system. It is a big change from the usual way of handing tasks off between separate components. Look at this thread 🧵:

译1/ 我最近在体验 SenseNova U1,这是 @SenseTime_Al 发布的原生多模态模型系列。 它基于一种名为 NEO-unify 的架构构建,该架构在一个统一系统中同时处理图像和文本。这与通常在不同组件间传递任务的方式有很大不同。 请看这个帖子 🧵:

Chubby♨️@kimmonismus · 5月21日42

1/ I finally tried building my own tool with KroWork to see if this "Chat-to-software" thing is as easy as they say. I asked the agent, Kro, for a news dashboard, and updating to the latest version lets you see the full KroWork thought process mapping out the system logic. It uses the Kro Browser Bridge Chrome extension to hook directly into the browser for live automation. The entire app generation was done in like five minutes. No code, just a prompt. Plus, because it actually compiles into real local software, running it repeatedly doesn't consume any tokens.

译作者体验了KroWork平台的“对话生成软件”功能。他通过自然语言提示Kro代理,要求创建一个新闻仪表盘。该工具更新后可展示其系统逻辑的思维映射过程,并借助Kro Browser Bridge扩展程序实现浏览器实时操作。整个应用生成过程仅耗时约五分钟,全程无需编写代码。关键在于,由于生成结果是编译后的真实本地软件,后续运行不会消耗任何token。

Berryxia.AI@berryxia · 5月21日71

兄弟们,Qwen 3.7 Max 发布了,是拉是夯? 我们来使用「经典AI模型二叉树Prompt 」进行一个测试吧! 这里分别使用了深度思考和快速模式测试(见视频) 之前的Gemini 3.5 Flash的结果也可以看原贴哈。 你们可以去测试一下不同的模型的表现~ 👇🏻Prompt: 编写一段HTML模拟程序,借助画布绘制递归分形二叉树。从单根主干开始,以递归方式分出左右枝干,枝干长度逐步缩减,角度产生小幅随机偏移。 实现树木从主干逐步生长至枝叶繁茂的动画效果,随后让树木如同随风般轻轻摇曳。

译新发布的Qwen 3.7 Max正被用户通过“递归分形二叉树”生成测试进行评估。该测试要求模型编写HTML代码,模拟树木从生长到摇曳的动画。此前,Gemini 3.5 Flash已用同一测试进行了展示,其生成完整动画耗时77.56秒,效果被评测者认为惊艳。该测试已成为比较不同AI模型代码生成与创意能力的一种常见方式,用户可借此对比各模型的表现。

Alibaba Cloud@alibaba_cloud · 5月21日76

Qwen3.7-Max just landed at 56.6 on the Artificial Analysis Intelligence Index — a solid 4.8pt jump over Qwen3.6-Max-Preview. @ArtificialAnlys Sharper sci reasoning, stronger agentic chops, better coding, and it hallucinates less.

译阿里巴巴推出其最新闭源旗舰大模型Qwen3.7 Max,在Artificial Analysis智能指数上获得56.6分,较上代预览版提升4.8分,是其迄今最接近国际顶尖水平的模型。此次分数提升主要得益于科学推理、代理和编码能力的增强,其中模型的幻觉率大幅降低(从44.2%降至22.9%)是主要贡献因素。模型的上下文窗口已扩展至100万tokens,仍仅支持文本输入输出,具体定价尚未公布。

AYi@AYi_AInotes · 5月21日77

http://x.com/i/article/2057300084354670592 # 用我的神级Prompt测试了Gemini 3.5 Flash,确认了一件事:Google直接宣告AI 大模型纯聊天时代彻底终结了! 这篇文章跟大家只捞干货,核心三部分:Gemini 3.5 Flash 到底强在哪?怎么免费玩上?我自用的 Gemini 神级提示词开源,8大场景直接拿去用!文章最后放了宝藏彩蛋给大家! # 目录 ## 一、Gemini 3.5 Flash 到底强在哪? ## 核心数据:289 tokens/s 是什么概念 ## 二、战略判断:Google 为什么不再卷 benchmark ## 三、上手体验:Gemini 3.5 Flash免费入口 +玩法 ## 四、自用神级Gemini Prompt开源: 1. KERNEL-X 终极动态专家系统 1. HE COMPILER IDENTITY (全栈编译器人格) 1. 唯一需要的Vibe Coding提示词 1. Naval Ravikant分身(决策神器,哲学/人生Prompt) 1. AI工作流程专家系统提示词 1. 认知挖掘提示词 1. 深度研究报告Prompt 1. 神级反思Prompt ## 五、写在最后:这轮 AI 竞赛的终局是什么 # 一、核心数据 289 tokens/s 是什么概念 - 速度:289 tokens/s(3.1 Pro 的 2.1 倍,GPT-4o 的 4 倍) - 智能:AA Intelligence Index 55(3.1 Pro 是 57) - 幻觉:暴降 31 个百分点,可靠性质的飞跃 - Agent 能力:GDPval-AA Elo 1656(3.1 Pro 1314),MCP 多步工作流 83.6% - 一句话:Flash 首次同时把速度、智能、可靠性三个维度拉满 我尽量讲人话把这些数字意味着什么跟大家说明白讲清楚: 289 tokens/s 的输出速度:你按下回车,还没来得及切回微信看一眼消息,3000 字已经写完了,3.1 Pro 这时候还在思考人生,GPT-4o 和 Claude Opus 直接被甩开 4 倍。 智能指数 55:离四个月前还是旗舰的 3.1 Pro 只差 2 分。 幻觉率暴降 31 个百分点,这个数字最离谱,以前用 Flash 做 Agent 我心里始终有根弦,因为它会编。 现在我让它跑多步工作流,自己不确定的地方它会主动停下来问,跟以前硬编的路数完全不同,属于质的变化。 # 二、战略判断 ## Google 为什么不再卷 benchmark? 说实话,在 Flash 出之前,我每次开新对话都要纠结半天, 用 Pro,等它思考完够泡一杯咖啡, 用 Flash,又怕它在关键步骤上幻觉一下,前面跑的全白费, 三年了,快和准只能选一个,我们从 GPT-3.5 忍到现在。 Flash 这次第一次把这两件事同时解决了。 # 三、免费上手体验 我自己测 Flash 用的是 ZenMux,这也是我一直跑模型的聚合平台。 昨晚刷到它已经免费上线3.5 Flash,顺手就接着测了一天,打开就能用,不用 API、不用翻墙。 它有个多模型 PK 功能,同一个 prompt 能同时丢给 Flash、Claude、GPT 看谁出得好。 我后面那 8 个压箱底的 prompt,有几个就是在这种 PK 模式下磨出来的。 但我也得说一下边界,免得有人冲进去发现不对。 Flash 不是万能的,我让它写长文(3000+字以上)的时候,后半段质量肉眼可见地往下掉,逻辑会开始飘,真要写深度长文我还是会回 Pro,毕竟Flash 是速度型选手,不是耐力型选手。 我现在的分工是:Agent 跑流程、批量处理、即时对话——全交给 Flash,深度思考、长文创作、复杂推理这些还是 Pro。 这套搭配跑了一天,体感是: 聊天框时代的纠结,在这一天里消失了。 # 四、自用神级Gemini Prompt开源 ZenMux 上已经开放免费体验,不用折腾API不用翻墙,打开就能跑:https://zenmux.ai/invite/DIX0WC 用以下给大家开源的最顶的经过实战检验的提示词尽情体验Gemini 3.5 Flash的强大吧。 ## KERNEL-X 终极动态专家系统(我的王炸提示词,迭代了10版) ## 全栈现实编译器Prompt—把模糊的现实需求,编译为逻辑严密、概念独创、且极具透明度的“高维智力资产 ## 这是你唯一需要的Vibe Coding提示词: # 读懂纳瓦尔需要十年,我用 1 条提示词把它封装成了财富与清醒操作系统 ## 复杂问题分析Prompt 神级反思Prompt ## AI工作流程专家系统提示词 ## 深度研究报告Prompt ## 五、写在最后:这轮 AI 竞赛的终局是什么 写到这,我想聊一个更大的问题。 Gemini 3.5 Flash 这次发布,最让我在意的不是 289 tokens/s,也不是幻觉率暴降 31 个百分点,这些数字半年后就会被新的数字盖过去。 最让我在意的是 Google 这次出手的逻辑变了。 以前的逻辑是:我的模型比你聪明,所以你应该用我。 OpenAI 和 Anthropic 到现在还在玩这套——GPT-5 传闻、Claude 的推理深度、各种 benchmark 军备竞赛,比的是智商。 Google 这次的逻辑是:我不跟你比谁更聪明了,我比的是谁能让 AI 真正跑起来。 289 tokens/s 意味着什么?意味着 Agent 从一个“理论上有用”的东西,变成了“今天下午就能塞进工作流”的东西。一个人坐在电脑前,五分鐘跑完十几个步骤、调几次工具、回头修正自己的错误——这件事以前只存在于 Demo 视频里,现在变成真的了。 这才是终局的雏形。 聊天的终局是 Agent。Agent 的终局是基础设施。 什么意思?当 AI 快到一定程度、可靠到一定程度、便宜到一定程度——它就不再是一个“产品”了。 它是水电煤。你不会每天早上起来想“今天要不要用一点电”,你只是按下开关。 AI 的未来也是一样:你不会再纠结用哪个模型、切哪个窗口、等它思考几秒钟——你只需要一个动作,它已经把活干完了。 Google 这次干的,就是把“按下开关”这个动作往前推了一大步。 那 OpenAI 和 Anthropic 在干嘛? 说实话,他们不是没看到这个趋势,是他们船的惯性太大。 旗舰模型推理成本高、推理时间长、商业模式绑在“更聪明的模型”这条线上——转向的速度型产品,会动自己的旗舰定价体系,这不是技术问题,是商业枷锁。 所以 Flash 这次的对手,其实不是 GPT-4o 或者 Claude Opus,是 Google 自己的过去——那个只会在 benchmark 上跟人拼刺刀的 Google。 Google 终于不用“聪明”来证明自己了,它开始用“快”来定义游戏规则。 最后聊一句对你我的影响, Agent 这件事,门槛已经从“技术能力”转移到了“想象力”。 以前你得会搭 LangChain、会写工具调用链、会被各种框架的坑绊倒,才能跑起来一个勉强能用的 Agent。现在门槛降到了——你能不能想清楚一个任务,然后花五分钟跟模型说清楚。 说到底,AI 竞赛的终局不是谁赢了谁,是有一天你回头看,发现那些曾经需要半天的事情,现在你只需要一句话, 而这一天,比所有人以为的都要近。 ## 彩蛋时刻 分享一个宝藏提示词网站,跟强大的Gemini 3.5非常搭,绝对能解决你工作、生活、学习中的大部分问题和困惑! http://prompts.chat —— 目前最强开源免费 AI Prompt 社区! 上千条高质量提示词,按行业/场景直接分类: - AI Agents(目前我用的最多的让我直接起飞) - 商业分析、写作、代码、营销、图像生成…… 搜索关键词秒出最优模板,复制粘贴就能用! 特点: - 完全免费 + 开源 - 社区驱动,每天都有新神 prompt - 支持自建私有库(团队/隐私党福音) - GitHub 15.8万星,OpenAI、Hugging Face 大佬都点赞 再也不用自己瞎琢磨提示词了,效率直接拉满,强烈推荐呀

译Gemini 3.5 Flash实现了289 tokens/s的输出速度(约为GPT-4o的4倍),同时将幻觉率大幅降低31%,首次在速度、智能和可靠性上达成平衡。这标志着AI发展从单纯比拼模型“智商”的基准竞赛,转向追求“能用起来”的实用主义。高速与可靠性的结合,使得能够执行复杂多步任务的AI Agent从理论走向现实,可能重塑行业竞争格局,未来AI将如同基础设施一般无缝融入工作流。

宝玉@dotey · 5月21日68

这位博主做了系列 Google Omni vs Seedance 2.0的对比视频,看起来差距还是蛮明显

Artificial Analysis@ArtificialAnlys · 5月21日37

Artificial Analysis benchmarks were featured in yesterday’s Gemini 3.5 Flash launch Yesterday @GoogleDeepMind released Gemini 3.5 Flash at Google I/O '26 and our benchmarks were used by @sundarpichai to highlight the model’s leading position on the Intelligence vs. Speed Pareto frontier. We have full benchmarks across intelligence, speed, token usage and cost on the Artificial Analysis website

译Artificial Analysis基准测试被纳入昨日Gemini 3.5 Flash的发布 昨日@GoogleDeepMind在Google I/O '26上发布了Gemini 3.5 Flash,我们的基准测试被@sundarpichai用于展示该模型在智能与速度帕累托前沿的领先地位。我们在Artificial Analysis网站上提供了涵盖智能、速度、token使用量和成本的完整基准测试数据。

歸藏(guizang.ai)@op7418 · 5月21日40

用了几天 Mac 版豆包输入法,已经离不开了。 准确性、中英文混合输入、专业名词的识别,响应速度,都是市面上最顶的。 我现在手机上已经离不开豆包输入法了,一直在等待桌面端上线。前几天发现 MacOS 版终于来了,赶紧下载试了一下。 我觉得表现最好的就是多语言混合输入。 我日常会涉及到非常多中英文混合输入的场景,因为我们这个行业很多词没有翻译,比如说 Claude Code、AntiGravity、Perplexity,这种词和中文混合的时候,就非常难以去润色和识别。 豆包在这方面处理得巨好。 之前我用其他语音输入法,它主要有两个问题: 首先是过度优化: 它有时候改动非常大,比如在跟朋友聊天时,它会突然给一段非常正式的 Markdown 格式,让人很难接受。而且它还会批量自动添加无序列表和有序列表,修改起来非常麻烦。 然后是无法实时预览: 必须等全部说完、润色完,才会给出一整段结果。当你一次说五六百字时,很难审查其中的细节。如果其中有一两个词识别错了,很难在润色后的长文本里精准找到并修改,导致很多时候错误的信息就直接发出去了。 相比之下,豆包输入法在这两点上效果非常好: 它会实时出结果,生成完成后还会再润色一遍,这样你能清晰地看到输出文案及其对应的变化。 它不会乱加 Markdown 格式或列表,用起来很省心。 此外,豆包的识别速度极快,基本上是“言出法随”,说完立刻就能吐字,润色也很快。我现在手机上已经离不开它了,这下电脑端上线也必须得用了。 期待豆包输入法后续的版本能够支持自定义提示词润色。比如在一些特定的、独特的场景下,通过自定义提示词让它生成对应的格式,这个功能还是挺需要的。 但总的来说,从识别本身的硬功夫来看,豆包已经做得无可挑剔了。

译豆包输入法Mac版上线后,用户试用体验极佳,称其在准确性、中英文混合输入、专业名词识别和响应速度方面均为市面顶尖。与其他输入法相比,它解决了过度优化和无法实时预览的痛点,实现“言出法随”的快速输出与实时润色,避免乱加Markdown格式。对于如Claude Code、AntiGravity、Perplexity等专业术语与中文混合的场景,豆包输入法处理出色,用户已完全依赖其手机和电脑端。未来期待支持自定义提示词润色功能,但目前识别能力已无可挑剔。

Artificial Analysis@ArtificialAnlys · 5月21日69

Cohere launches open weights model Command A+ that achieves 37 on the Artificial Analysis Intelligence Index The release of Command A+ places @Cohere in line with Claude 4.5 Haiku on the Intelligence Index, and just above NVIDIA Nemotron 3 Super and Gemini 3.1 Flash-Lite. Key Takeaways: ➤ Command A+ ranks first on AA-Omniscience Non-Hallucination at 86%, ~3 percentage points ahead of the next-best model. Its AA-Omniscience Accuracy is 9%, so the headline AA-Omniscience score lands at -4, demonstrating a similar archetype to Claude 4.5 Haiku, where the model knows its limits ➤ On Cohere’s API, Command A+ (~281 output tokens per second) is faster than several comparable open-weights and small to mid-sized proprietary models (e.g., GPT-5.4 nano, Claude 4.5 Haiku, and Grok 4.3), but still slower than Gemini 3.1 Flash-Lite Preview, which outputs 304 tokens per second ➤ Command A+ trails its peer set on scientific reasoning (HLE ~11%, GPQA Diamond ~76%) and on coding (Terminal-Bench Hard ~25%, SciCode ~38%), consistent with gaps on the hardest science and agentic coding benchmarks ➤ It supports visual reasoning and scores 63% on MMMU-Pro (between Claude 4.5 Haiku at 59% and GPT-5.4 nano (xhigh) at 65%)

译Cohere发布了开源权重模型Command A+,其在AI分析智能指数上的得分与Claude 4.5 Haiku持平。该模型核心优势为极低的幻觉率,在相关榜单上以86%领先,体现出模型“知其不知”的可靠性。在速度方面,其API输出速度超过GPT-5.4 nano等多款模型,但仍略逊于Gemini 3.1 Flash-Lite。模型在科学推理与代码生成等高难度任务上表现稍弱,但具备视觉推理能力,性能位于Claude 4.5 Haiku与GPT-5.4 nano之间。

Berryxia.AI@berryxia · 5月20日72

特么现在Flash ≠便宜了啊? 仅仅是快了吧~ Google把Gemini 3.5 Flash直接扔出来后,Artificial Analysis测完直接给出了最扎心的结论: 它在Intelligence vs Speed的Pareto前沿上,把整个行业又往前推了一大截。 Intelligence Index拿到55分,比Gemini 3 Flash高9分,直接超过Grok 4.3和Claude Sonnet 4.6。 Agentic任务(GDPval-AA)Elo评分飙到1656,远超前代。 幻觉率从92%暴降到61%。 输出速度超280 tokens/s,比上一代快70%。 多模态也继续领跑,MMMU-Pro 84%。 看起来几乎完美。 但代价是:跑一次Artificial Analysis Intelligence Index的成本,是Gemini 3 Flash的5.5倍,比Gemini 3.1 Pro贵75%。 定价直接3倍($1.5/$9 per 1M input/output)。 “Flash”这个名字,本来代表又快又便宜。 现在它代表:你终于可以用更快的速度,拿到真正旗舰级的智能,但你得为这个组合付更多钱。 Google这次是把顶级智能塞进了Flash系列,还是在用价格重新定义什么叫“轻量”? 完整基准在这里:https://artificialanalysis.ai/models/gemini-3-5-flash

译Google发布的Gemini 3.5 Flash在性能上实现飞跃,智能指数达55分,超越Grok 4.3等竞品,幻觉率大幅下降,输出速度超280 tokens/s。然而,其运行成本是前代的5.5倍,定价显著提高,引发对“Flash”是否仍代表“便宜”的讨论。该模型已在ZenMux平台开放免费体验,实际测试显示效果惊艳,在多项Agent和多模态榜单中表现顶尖,标志着顶级智能与极致速度的新结合。

Berryxia.AI@berryxia · 5月20日73

兄弟们!今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了! 我第一时间用它跑了那个经典的「AI模型递归二叉树生长测试」. 同一个 prompt,不同模型画出的树形态完全不一样。(见视频) Gemini 3.5 Flash 从输入提示词到生成完整 HTML 动画网页(树干慢慢长出、分支递归展开、最后随风摇摆),全程只用了 77.56 秒! 整体效果非常惊艳:树形态自然优雅、生长动画丝滑、视频和内容呈现都顶级! 熟悉的老朋友都知道,ZenMux 每次新模型都是 ZeroDelay 首发. Google I/O 2026 今天刚发布,现在立刻就能通过 API 调用! 还有免费额度可以白嫖~速度是真的没话说,还完美保留了旗舰级模型的能力。 专为 Agent 设计,在 MCP Atlas、Toolathlon、Finance Agent 等多项榜单直接拿下第一! 多模态理解也极强:MMMU-Pro 83.6%、CharXiv Reasoning 84.2%,全面超越上一代 Gemini 3.1 Pro。完全兼容主流 API 格式,无需改动现有工具链。 支持按量计费 + Builder 套餐。 👇 直接体验 正式版 → http://zenmux.ai/google/gemini-3.5-flash 免费试用 → http://zenmux.ai/google/gemini-3.5-flash-free

译Gemini 3.5 Flash现已在ZenMux平台免费开放试用。该模型在经典的递归二叉树生长测试中表现惊艳,仅用77.56秒便生成了完整的HTML动画网页,展现了顶级的响应速度与生成质量。其在MCP Atlas、Toolathlon等多项Agent榜单中位列第一,多模态理解能力(如MMMU-Pro得分83.6%)也全面超越上一代模型。模型完全兼容主流API格式,并提供按量计费和Builder套餐选择。

Berryxia.AI@berryxia · 5月20日57

兄弟们! 今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了! 我第一时间用它跑了那个经典的「AI模型递归二叉树生长测试」. 同一个 Prompt,不同模型画出的树形态完全不一样。(见视频) Gemini 3.5 Flash 从输入提示词到生成完整 HTML 动画网页(树干慢慢长出、分支递归展开、最后随风摇摆),全程只用了 77.56 秒! 整体效果非常惊艳:树形态自然优雅、生长动画丝滑、视频和内容呈现都顶级! 熟悉的老朋友都知道,ZenMux 每次新模型都是 ZeroDelay 首发. Google I/O 2026 今天刚发布,现在立刻就能通过 API 调用! 还有免费额度可以白嫖~ 速度是真的没话说,还完美保留了旗舰级模型的能力。 专为 Agent 设计,在 MCP Atlas、Toolathlon、Finance Agent 等多项榜单直接拿下第一! 多模态理解也极强:MMMU-Pro 83.6%、CharXiv Reasoning 84.2%,全面超越上一代 Gemini 3.1 Pro。 完全兼容主流 API 格式,无需改动现有工具链。 支持按量计费 + Builder 套餐。 👇 直接体验 正式版 → http://zenmux.ai/google/gemini-3.5-flash 免费试用 → http://zenmux.ai/google/gemini-3.5-flash-free

译Google I/O 2026 发布了新一代模型 Gemini 3.5 Flash,ZenMux 平台已第一时间提供 API 接入并开放免费试用。实测中,该模型仅用时 77.56 秒即完成一段复杂 HTML 递归二叉树生长动画,生成效果流畅自然。其性能全面升级,在多项 Agent 专属评测榜单中位列第一,多模态理解能力(MMMU-Pro 达 83.6%)也显著超越前代。模型完全兼容主流 API 格式,支持按量计费与套餐方案,便于开发者快速接入。

Berryxia.AI@berryxia · 5月20日65

兄弟们! 今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了! 我第一时间用它跑了那个经典的「AI模型递归二叉树生长测试」. 同一个 Prompt ,不同模型画出的树形态完全不一样。(见视频-Prompt见评论区) Gemini 3.5 Flash 从输入提示词到生成完整 HTML 动画网页(树干慢慢长出、分支递归展开、最后随风摇摆),全程只用了 77.56 秒! 整体效果非常惊艳:树形态自然优雅、生长动画丝滑、视频和内容呈现都顶级! 熟悉的老朋友都知道,ZenMux 每次新模型都是 ZeroDelay 首发. Google I/O 2026 今天刚发布,现在立刻就能通过 API 调用! 还有免费额度可以白嫖~ 速度是真的没话说,还完美保留了旗舰级模型的能力。 专为 Agent 设计,在 MCP Atlas、Toolathlon、Finance Agent 等多项榜单直接拿下第一! 多模态理解也极强:MMMU-Pro 83.6%、CharXiv Reasoning 84.2%,全面超越上一代 Gemini 3.1 Pro。 完全兼容主流 API 格式,无需改动现有工具链。 支持按量计费 + Builder 套餐。 👇 直接体验 正式版 → http://zenmux.ai/google/gemini-3.5-flash 免费试用 → http://zenmux.ai/google/gemini-3.5-flash-free

译Gemini 3.5 Flash已在ZenMux平台首发并提供免费体验。该模型从提示词到生成完整HTML动画仅用77.56秒,速度极快且效果出色。其专为Agent设计,在MCP Atlas、Toolathlon等多项榜单中排名第一。多模态理解能力显著提升,MMMU-Pro达83.6%,全面超越上一代模型。该模型兼容主流API格式,支持按量计费和Builder套餐,可无缝集成现有工具链。

elvis@omarsar0 · 5月20日64

Very interesting results from this NanoGPT-Bench eval. There is so much talk about self-improving agents. But can coding agents do real AI R&D? @IntologyAI reports that Codex, Claude Code, and Autoresearch recover only 9.3% of human progress. Coding agents spend more of their compute on hyperparameter tuning. In fact, coding agents rarely attempt algorithmic research at all. Claude Code and Autoresearch both reason more about algorithmic research, but still dodge implementation. Read more here: https://www.intology.ai/blog/nanogpt-bench

译IntologyAI发布的NanoGPT-Bench评估显示,Codex、Claude Code和Autoresearch等编程代理在AI研发任务中,仅能恢复人类近9.3%的进展。这些代理的大部分算力消耗在超参数调优上,对核心的算法研究投入甚少。其中Claude Code和Autoresearch在推理中稍有涉及算法研究,但在实际代码实现层面依然不足。该评估基于NanoGPT Speedrun竞赛,采用标准化的五个月世界纪录窗口,完全自主端到端进行,以控制模型依赖和数据污染。结果表明,当前编程代理在自主执行真正AI研发的能力上仍有很大局限。

meng shao@shao__meng · 5月20日56

Google 真的要把宝都押在每年的 I/O 上啊,Gemini 3.1 拉了几个月后,Gemini 3.5 憋到 I/O 终于发布了 Gemini 3.5 Flash 各项评测几乎全面超越 Gemini 3.1 Pro,还更快,更便宜,你就说 Gemini 3.1 有多拉吧,哦,不对,Gemini 3.5 有多强吧 😂

François Chollet@fchollet · 5月20日62

Gemini

译Gemini [引用 @arcprize]:Gemini 3.5 Flash ARC-AGI(已验证) ARC-AGI-2: - 高配:72.1%,$0.85 - 最低配:8.9%,$0.11 ARC-AGI-1: - 高配:92.5%,$0.42 - 最低配:48.8%,$0.06 Gemini 3.5 Flash在ARC-AGI测试中与GPT-5.5(中配)表现相当

Ethan Mollick@emollick · 5月20日68

Also had some early access to Gemini 3.5 Flash. Very fast for a flash model and very capable, though not as powerful as a full frontier model. I added it to the gallery or procedurally generated one-shot towns (it made one error that it corrected): https://hg-20f7d1a3ce.netlify.app/#gemini-3-5-flash

译也获得了 Gemini 3.5 Flash 的早期访问权限。作为 Flash 模型,它速度非常快且能力很强,尽管不如完整的前沿模型强大。 我已将其添加到程序生成的单次城镇画廊中(它出现了一个错误并自行修正):https://hg-20f7d1a3ce.netlify.app/#gemini-3-5-flash

🚨 AI News | TestingCatalog@testingcatalog · 5月20日30

Gemini Omni test 🔥 One of the best "Cyberpunk hacker robot" videos I've seen so far. It handled scene composition much better than the latest Veo model.

译Gemini Omni测试 🔥 这是我目前见过的最棒的“赛博朋克黑客机器人”视频之一。它在场景构图方面比最新的Veo模型处理得更好。

向阳乔木@vista8 · 5月20日41

Gemini Omni Flash 效果很拉胯啊! 提示词:生成墨比斯风格的科幻动画短片,银河系搭车客指南 好像根本没理解第二句话...

歸藏(guizang.ai)@op7418 · 5月20日50

谷歌 Gemini Omni Flash 视频编辑测试。 你们应该能猜到我原始视频是在哪儿录的,反正效果远不如 SeeDance 2.0

译用户测试了谷歌新上线的Gemini Omni Flash的视频编辑功能,但实际效果并不理想。用户提及原始视频来源,并明确表示其效果远不如SeeDance 2.0。同时,该推文引用了另一条关于Gemini Omni Flash已上线Flow平台的信息,表明其具备了一定的可用性。整体来看,尽管新模型可用,但用户对其当前的视频编辑能力持保留态度,并认为在效果上与特定竞品存在差距。

歸藏(guizang.ai)@op7418 · 5月19日44

Gemini 的 iOS 应用改版了,不得不说,谷歌的 iOS 开发水平确实比他们的网页和客户端高一大截。 整体的质感、细节都非常好,而且对于 iOS 液态玻璃的应用也很好。 就是完全没有为中文、日文和韩文这些语言做排版的适配,那个 live 里边的中文感觉字和字之间有空格,这太蛋疼了。

译谷歌Gemini iOS应用进行了界面改版,其整体质感、细节处理以及对iOS液态玻璃特性的应用获得了积极评价,开发水平被认为高于其网页端和客户端。但主要问题在于应用未对中文、日文、韩文等语言进行排版适配,导致中文显示时字间距异常。此外,作为上下文,Gemini网页版近期也进行了大改版,整体布局向GPT靠拢,将功能整合至加号菜单,并调整了视觉样式,其灰色背景的设计引发了部分关于辨识度与可读性的讨论。

Alibaba Cloud@alibaba_cloud · 5月19日60

🚀🚀Qwen3.7 Preview lands on Arena! ⚡️⚡️Here come Qwen3.7-Plus-Preview. Alibaba now #5 in Vision.🎨 Can't wait to release Qwen3.7 series models!Stay tuned! @arena

译🚀🚀Qwen3.7预览版登陆竞技场! ⚡️⚡️Qwen3.7-Plus-Preview来了。阿里巴巴现在在视觉领域排名第五。🎨 迫不及待要发布Qwen3.7系列模型了!敬请期待!@arena

karminski-牙医@karminski3 · 5月19日54

Qwen3.7! 就在今天! ArenAI (就是之前的 LMArena), 刚刚发布了 Qwen3.7-Max-Preview 在 ArenAI 的内测跑分. 整体排名在第13, 处于目前版本国模SOTA. 本次提升最高的是数学能力, 达到了总榜第7, 编程水平在第10. 另外视觉能力测试也来到了第16. 我直接试了一下 ArenaAI 上面的 Qwen3.7-Max-Preview, 题目是一个使用 three.js 画一个软盘蓝图的场景, 主要考察大模型的前端+空间理解+建模能力. 直接看我两张 Qwen3.6-Plus 和 Qwen3.7-Max-Preview 的生成对比 (注意这个图上的元素完全是代码绘制的, 不是大模型生成的图片). 能看到Qwen3.7 在空间理解和指令遵循上有了很大的提升, 能保持所有元素都在同一轴向上(能完成这一点是巨大的进步, 目前 DeepSeek-V4-Pro 还有这方面的问题). 并且摆放顺序和每个标签的标记也是准确的, 以及背景的网点效果也还原了(这就是指令遵循的提升体现). 当然不足的地方也有很多, 比如这个软盘的一些不规则图形的细节刻画还是差了一些. 但是是瑕不掩瑜的. 稍后正式发布后给大家带来 Qwen3.7-Max 的详细评测! (另外值得注意的是 ArenaAI 给 meta 的新模型 Muse Spark 给到了第5的超高位置. 而目前社区中这个模型一点水花都没有. 我也没API能测这个模型. 所以 ArenaAI 的评分还是仅供参考.) #阿里千问 #qwen37 #qwen37max

译Qwen3.7-Max-Preview在ArenaAI内测中排名第13,为当前版本国产模型最佳。其数学能力(第7)与编程能力(第10)提升显著。实测显示,在前端代码生成任务中,Qwen3.7在空间理解和指令遵循上较前代(Qwen3.6)有巨大进步,能更准确地维持元素轴向与标记。文章同时指出,ArenaAI评分仅供参考,其为Meta新模型Muse Spark给出的高排名(第5)与社区现状不符。

karminski-牙医@karminski3 · 5月19日53

Qwen3.7! 就在今天! ArenAI (就是之前的 LMArena), 刚刚发布了 Qwen3.7-Max-Preview 在 ArenAI 的内测跑分. 整体排名在第13, 处于目前版本国模SOTA. 本次提升最高的是数学能力, 达到了总榜第7, 编程水平在第10. 另外视觉能力测试也来到了第16. 我直接试了一下 ArenaAI 上面的 Qwen3.7-Max-Preview, 题目是一个使用 three.js 画一个软盘蓝图的场景, 主要考察大模型的前端+空间理解+建模能力. 直接看我两张 Qwen3.6-Plus 和 Qwen3.7-Max-Preview 的生成对比 (注意这个图上的元素完全是代码绘制的, 不是大模型生成的图片). 能看到Qwen3.7 在空间理解和指令遵循上有了很大的提升, 能保持所有元素都在同一轴向上(能完成这一点是巨大的进步, 目前 DeepSeek-V4-Pro 还有这方面的问题). 并且摆放顺序和每个标签的标记也是准确的, 以及背景的网点效果也还原了(这就是指令遵循的提升体现). 当然不足的地方也有很多, 比如这个软盘的一些不规则图形的细节刻画还是差了一些. 但是是瑕不掩瑜的. 稍后正式发布后给大家带来 Qwen3.7-Max 的详细评测! (另外值得注意的是 ArenaAI 给 meta 的新模型 Muse Spark 给到了第5的超高位置. 而目前社区中这个模型一点水花都没有. 我也没API能测这个模型. 所以 ArenaAI 的评分还是仅供参考.) #阿里千问 #qwen37 #qwen37max

译阿里千问今日推出Qwen3.7-Max-Preview,在ArenAI(原LMArena)内测中排名第13,为国内模型最高水平。模型数学能力显著提升,位列总榜第7;编程能力排名第10;视觉能力测试升至第16。作者实测显示,在前端代码生成场景中,Qwen3.7的空间理解与指令遵循能力进步明显,元素轴向一致性优于DeepSeek-V4-Pro等模型。此外,ArenaAI给Meta新模型Muse Spark的异常高评分引发关注,但该评分仅供参考。

凡人小北@frxiaobei · 5月19日61

Qwen 3.7 有惊喜但不大,国内 top/国际第一梯队早就实锤了。 期待下未来能超过 Anthropic,给国人出口恶气。

Berryxia.AI@berryxia · 5月19日63

兄弟们,这次不是第一名的榜单哦! 阿里最新的Qwen 3.7 也来了… Arena最新排行榜直接把Qwen3.7的实力摆上来了。 Alibaba_Qwen的Qwen3.7 Max Preview在Text Arena总榜排到第13位,实验室总排名冲到第6。 细分赛道更狠: 数学第7 专家领域第9 软件与IT第9 编程第10 Vision Arena里,Qwen3.7 Plus Preview也杀到总榜第16,实验室排名直接第5。 这不是实验室闭门数据,而是Arena上百万真实用户投票跑出来的社区榜单。 Alibaba这次用Qwen3.7 Preview把文本和视觉能力同时往前推了一大步。 以前大家还在讨论谁是第一梯队,现在Alibaba已经用实际排名把自己的位置又往上提了一截。 完整榜单在这里:https://arena.ai/leaderboard

译阿里巴巴最新发布的Qwen3.7预览版在Arena社区排行榜上表现突出。在基于百万真实用户投票的Text Arena中,Qwen3.7 Max Preview总榜排名第13,使阿里巴巴位列实验室第6名,并在数学、专家咨询、软件与IT、编程等细分领域进入前十。同时,在Vision Arena中,Qwen3.7 Plus Preview总榜排名第16,助力阿里巴巴升至实验室第5名。此次排名并非实验室内部测试,而是社区实际交互的体现,标志着阿里在模型的文本与视觉综合能力上实现了重要进步。

Qwen@Alibaba_Qwen · 5月19日57

🚀🚀Qwen3.7 Preview lands on Arena ! Here come Qwen3.7-Max-Preview & Qwen3.7-Plus-Preview. Alibaba now #6 lab in Text, #5 in Vision.⚡️⚡️ Can't wait to release Qwen3.7 series models!Stay tuned! @arena

译阿里巴巴通义千问Qwen3.7-Max-Preview与Qwen3.7-Plus-Preview模型现已登陆AI评测平台Arena,分别参与文本与视觉评测。这一进展大幅提升了阿里巴巴在两大领域的实验室排名:在文本榜单跃升至全球第6位,在视觉榜单升至第5位。具体而言,Qwen3.7 Max Preview在文本总榜位列第13,并在数学、编程等多个子榜单中表现突出;Qwen3.7 Plus Preview在视觉总榜排名第16。官方对取得的进步表示祝贺,并透露Qwen3.7系列模型的正式版本即将发布。

Qwen@Alibaba_Qwen · 5月19日47

🚀🚀

译🚀🚀 [引用 @arena]:在视觉竞技场中,Qwen3.7 Plus Preview使@Alibaba_Qwen成为第5大实验室,总排名第16位。

SemiAnalysis@SemiAnalysis_ · 5月18日55

This week, the company has been trying out all types of different AI tools including Devin, Mistral, Grok, Perplexity, Cerebras Public API, etc in addition to the typical Claude & ChatGPT/Codex tools. Most of them we will probably churn from very rapidly as it has negative value add, but one tool that has been shocking better than Claude is @AravSrinivas 's @perplexity_ai Computer enterprise slack integration. It has the ability to send images and send back detailed research reports & visualization directly in slack.We currently have over 96% of the token budget/KPI going towards Anthropic but based on usage patterns, some may shift towards Perplexity. I wish @_catwu would try out Perplexity's enterprise slack integration & add all the features to Claude slack integration too.

译本周,公司尝试了包括Devin、Mistral、Grok、Perplexity在内的多种AI工具,大多数因价值有限将被快速淘汰。但Perplexity AI的企业Slack集成表现惊人,优于Claude,能直接在Slack中发送图像并返回详细研究报告与可视化内容。目前,公司96%的token预算仍流向Anthropic(Claude提供商),但基于使用模式,部分预算可能转向Perplexity。作者希望Claude的Slack集成也能添加类似功能,以提升效率。

SemiAnalysis@SemiAnalysis_ · 5月17日53

Technical breakdown of tokenizer improvements from GPT 4.6 to 4.7

译GPT 4.6到4.7的分词器改进技术分析

Berryxia.AI@berryxia · 5月17日52

兄弟们,这个PPT设计打榜有点意外啊! GLM5.2 居然仅次于opus4.7 啊! Slides Arena 的结果刚刚出炉。 Design Arena 基于 370 万+ 真实创作者的真实使用场景,跑出了 Agentic Slides 的最新排行榜。 1st:Opus 4.7 by @AnthropicAI 2nd:Opus 4.7(Thinking)by @AnthropicAI 3rd:GLM 5.1 by @Zai_org Anthropic 直接包揽前两名,Zai_org 紧随其后,把 Agentic Slides 的 SOTA 牢牢握在手里。 这不是实验室 benchmark,是真实世界里大家真正在用的幻灯片生成场景,软可验证、创意密集、需要完整逻辑和设计感。 以前大家觉得 Agentic 设计还是 Claude 的强项,现在它用真实数据把这件事彻底坐实了。 完整实时排行榜在这里:https://www.designarena.ai/leaderboard/agentic-slides

译Slides Arena发布了基于370多万真实使用场景的Agentic Slides排行榜。Anthropic的Opus 4.7及其思考版本包揽前两名,Zai_org的GLM 5.1位列第三,共同确立了该领域的SOTA。此次评估并非实验室基准测试,而是针对软可验证、创意密集且需要完整逻辑与设计感的真实幻灯片生成场景,证实了Claude系列在智能体设计方面的领先优势。

Peter Steinberger 🦞@steipete · 5月16日60

Looks like our focus on performance paid off.

译基于Qwen 35B本地模型的Hermes与OpenClaw智能体在相同任务中展现出不同策略与效率。任务要求抓取GitHub star历史、分析增长峰值原因并构建实时仪表盘。OpenClaw耗时12分钟,消耗203k tokens,通过编写bash脚本高效调用GitHub API,处理分页与JSON数据,并发现一次安全事件。Hermes耗时33分钟,消耗257k tokens,采用并行工具调用策略,在遭遇Google速率限制后自动切换至DuckDuckGo,最终整合内容并映射传播节点。两者均成功交付了包含增长图表和峰值标注的实时仪表盘。

🚨 AI News | TestingCatalog@testingcatalog · 5月16日59

Atomic Bot put Hermes and OpenClaw head-to-head on the exact same task, running the same model (Qwen 3.6 35B) with the same goal: analyzing GitHub history, mapping growth spikes, and shipping a live dashboard in the browser. Key metrics to watch for 👀 > Time to complete the task > Tokens spent > Quality of the final result (dashboard in browser)

译Atomic Bot 使用相同模型(Qwen 3.6 35B)对 Hermes 和 OpenClaw 代理进行了对比测试,任务为分析 GitHub star 历史、定位增长峰值并部署实时浏览器仪表板。结果显示,OpenClaw 耗时12分01秒,消耗203k tokens,通过编写bash脚本高效完成了任务;Hermes 则耗时33分01秒,消耗257k tokens,采用了并行工具调用并编写了SKILL.md文档。两者均成功构建了包含star增长图表和峰值注释的实时仪表板,但OpenClaw在任务效率和token使用上显著优于Hermes。

Artificial Analysis@ArtificialAnlys · 5月16日63

AI is making rapid progress in economically valuable tasks: based on their GDPval-AA Elo scores, GPT-5.5 is expected to win ~98% of head-to-head comparisons on realistic work outputs against Claude 4 Sonnet, the leading model in GDPval-AA a year ago GDPval-AA measures how well models complete tasks across nine industries and 44 occupations. The graphic shows slide outputs for an Inventory Management task from Claude 4 Sonnet (May 2025) against GPT-5.5 (xhigh, May 2026).

译AI在经济价值任务中快速进步:根据GDPval-AA Elo评分,GPT-5.5在实际工作产出中预计将赢得约98%的正面比较,对比对象是一年前GDPval-AA领先模型Claude 4 Sonnet GDPval-AA衡量模型在九个行业44个职业中的任务完成能力。图示展示了Claude 4 Sonnet(2025年5月)与GPT-5.5(xhigh,2026年5月)在库存管理任务中的幻灯片输出对比

Chubby♨️@kimmonismus · 5月15日63

I've been testing Higgsfield's Supercomputer for the past few days, and it genuinely caught me off guard. You type a task in plain language. The system picks from 61 production skills, routes each sub-task to the best available model (GPT-5.5, Claude Opus, Gemini, Seedance, Veo, Kling, and more), runs them in parallel, and delivers finished assets. I pointed it at my own X post analytics, expecting something generic. It came back with senior-analyst-grade breakdowns: median engagement rates, hook score analysis, content pattern detection. Properly useful output, not a summary paragraph. A few things that really surprised me: - It generates up to 60 (!) minutes of video from a single prompt - Native Obsidian integration for persistent knowledge (the "LLM wiki" concept Karpathy floated recently, already shipping, and which I was building myself just recently) - 27 platform connectors (Slack, Drive, Notion, YouTube, Frame. io, the full stack) - Brand and identity locks persist across sessions, so your outputs stay consistent over time - Skills actually improve with use, version-tracked and eval-tested The whole thing runs cloud-side on GPU-colocated infrastructure, which means generations keep running even if you close the browser. Scheduled tasks just work without a local machine.

译Higgsfield的Supercomputer平台允许用户以自然语言描述任务,系统从61种生产技能中自动选取,并将子任务路由至GPT-4o、Claude Opus、Gemini及多种图像视频模型并行处理。它能生成长达60分钟的视频,原生集成Obsidian构建持久化知识库,并通过27个平台连接器连接各类工具。平台运行于云端GPU基础设施,支持品牌标识锁定和后台任务调度。其技能在使用中通过版本追踪和评估测试不断自我改进,用户可通过浏览器或Telegram直接访问,无需本地设置。

Xiaomi MiMo@XiaomiMiMo · 5月14日69

MiMo V2.5 Pro just placed 3rd on @DesignArena! 🎉

译MiMo V2.5 Pro 在 @DesignArena 上刚刚获得第三名!🎉 MiMo V2.5 Pro (Thinking) 在总排行榜上比 MiMo-V2.5 提升了 8 个名次,在前端编码任务中达到与 Claude Sonnet 4.6 相同的性能水平。 衷心祝贺 @XiaomiMiMo 团队取得这些进步!

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月23日
04:05
Artificial Analysis@ArtificialAnlys
58
Cursor Composer 2.5在成本与效率上实现突破性优势

基准测试显示,Cursor Composer 2.5在编程任务中展现出卓越的成本与效率优势。其单任务成本仅为Claude Opus 4.7的1/3至1/18,更是GPT-5.5的1/5至1/32。这一低成本源于其极高的token使用效率:完成全部测试仅消耗1.6M token,远低于同类模型的5.7M。效率方面,其平均任务完成时间约9分钟,比行业平均水平快约1.3倍,其快速版本更可将时间缩短至约7分钟。

智能体编码评测/基准
02:05
Artificial Analysis@ArtificialAnlys
61
Cartesia的Sonic-3.5语音合成模型在AI评测榜夺冠

Cartesia公司最新发布的语音合成模型Sonic-3.5在Artificial Analysis Speech Arena排行榜上位居第一,超越了Inworld Realtime TTS 1.5 Max和Google Gemini 3.1 Flash TTS等竞品。该模型支持42种语言(包括9种印度语言),提供超过500种声音选择。评测数据显示,Sonic-3.5以1,218的Elo分数领先,表现出自然的语音效果和准确的文本跟随能力。其定价为每百万字符39美元,高于竞品;生成速度为每秒105.5字符,介于其他两者之间。

评测/基准语音
5月22日
23:50
向阳乔木@vista8
36
在AJ安利下,歸藏买了安克 AI 录音豆。 在歸藏安利下,我也买了。 初步体验,这是目前个人最喜欢、最实用的 AI 硬件产品。 就是绳子带着不舒服,打算淘宝换个。
端侧评测/基准语音
18:19
Qwen@Alibaba_Qwen
66
近期一项针对前沿AI模型在真实智能体任务上的测试显示,Qwen 3.7-Max在效果与成本方面全面领先。该任务要求模型自主编写并迭代优化一个能自我训练的Tetris机器人程序。在10轮自我改进中,Qwen 3.7-Max仅花费1.32美元,便将机器人性能提升了56%。相比之下,Claude Opus 4.7花费12.15美元提升了28%,GPT-5.5花费2.85美元提升了7%。结果表明,在需要长时间自主推理、代码阅读与迭代的复杂智能体循环场景中,Qwen Max具备极强的成本效益比与自我改进能力。

atomic.chat: Qwen 3.7-max beats Opus 4.7 and GPT-5.5 We tested three frontier models on a real agentic task: write a Tetris bot that ...

智能体推理评测/基准
关联讨论 9 条公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:OpenRouter (@OpenRouter)IT之家(RSS)
02:26
Chubby♨️@kimmonismus
49
1/ 我最近在体验 SenseNova U1,这是 @SenseTime_Al 发布的原生多模态模型系列。 它基于一种名为 NEO-unify 的架构构建,该架构在一个统一系统中同时处理图像和文本。这与通常在不同组件间传递任务的方式有很大不同。 请看这个帖子 🧵:
多模态评测/基准
5月21日
23:56
Chubby♨️@kimmonismus
42
KroWork五分钟生成本地新闻仪表盘

作者体验了KroWork平台的“对话生成软件”功能。他通过自然语言提示Kro代理,要求创建一个新闻仪表盘。该工具更新后可展示其系统逻辑的思维映射过程,并借助Kro Browser Bridge扩展程序实现浏览器实时操作。整个应用生成过程仅耗时约五分钟,全程无需编写代码。关键在于,由于生成结果是编译后的真实本地软件,后续运行不会消耗任何token。

编码评测/基准
23:11
Berryxia.AI@berryxia
71
Qwen 3.7 Max与Gemini 3.5 Flash生成二叉树测试对比

新发布的Qwen 3.7 Max正被用户通过“递归分形二叉树”生成测试进行评估。该测试要求模型编写HTML代码,模拟树木从生长到摇曳的动画。此前,Gemini 3.5 Flash已用同一测试进行了展示,其生成完整动画耗时77.56秒,效果被评测者认为惊艳。该测试已成为比较不同AI模型代码生成与创意能力的一种常见方式,用户可借此对比各模型的表现。

Berryxia.AI: 兄弟们! 今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了! 我第一时间用它跑了那个经典的「AI模型递归二叉树生长测试」. 同一个 Prompt ,不同模型画出的树形态完全不一样。(见视频-Prompt见评论区) G...

推理编码评测/基准
22:12
Alibaba Cloud@alibaba_cloud
76
阿里巴巴推出其最新闭源旗舰大模型Qwen3.7 Max,在Artificial Analysis智能指数上获得56.6分,较上代预览版提升4.8分,是其迄今最接近国际顶尖水平的模型。此次分数提升主要得益于科学推理、代理和编码能力的增强,其中模型的幻觉率大幅降低(从44.2%降至22.9%)是主要贡献因素。模型的上下文窗口已扩展至100万tokens,仍仅支持文本输入输出,具体定价尚未公布。

Artificial Analysis: Alibaba's new Qwen3.7 Max model scores 56.6 on the Artificial Analysis Intelligence Index, 4.8 points higher than Qwen3....

智能体推理模型发布编码
关联讨论 9 条公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:OpenRouter (@OpenRouter)IT之家(RSS)
13:03
AYi@AYi_AInotes
77
Gemini 3.5 Flash:速度、智能与可靠性三重突破,开启AI实用主义新时代

Gemini 3.5 Flash实现了289 tokens/s的输出速度(约为GPT-4o的4倍),同时将幻觉率大幅降低31%,首次在速度、智能和可靠性上达成平衡。这标志着AI发展从单纯比拼模型“智商”的基准竞赛,转向追求“能用起来”的实用主义。高速与可靠性的结合,使得能够执行复杂多步任务的AI Agent从理论走向现实,可能重塑行业竞争格局,未来AI将如同基础设施一般无缝融入工作流。

智能体GoogleMCP/工具评测/基准
关联讨论 18 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)IT之家(RSS)X:Berry Xia (@berryxia)X:Jeff Dean (@JeffDean)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Rohan Paul (@rohanpaul_ai)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:Kim (@kimmonismus)
07:48
宝玉@dotey
68
这位博主做了系列 Google Omni vs Seedance 2.0的对比视频,看起来差距还是蛮明显

Ratul Ali: Google Omni vs Seedance 2.0 😳 Olympic Diving Test - Seedance 2.0 also wins this test!🔥 Prompt👇 Female Olympic diver f...

Google图像生成视频评测/基准
03:36
Artificial Analysis@ArtificialAnlys
37
Artificial Analysis基准测试被纳入昨日Gemini 3.5 Flash的发布 昨日@GoogleDeepMind在Google I/O '26上发布了Gemini 3.5 Flash,我们的基准测试被@sundarpichai用于展示该模型在智能与速度帕累托前沿的领先地位。我们在Artificial Analysis网站上提供了涵盖智能、速度、token使用量和成本的完整基准测试数据。
Google行业动态评测/基准
00:14
歸藏(guizang.ai)@op7418
40
Mac版豆包输入法试用体验

豆包输入法Mac版上线后,用户试用体验极佳,称其在准确性、中英文混合输入、专业名词识别和响应速度方面均为市面顶尖。与其他输入法相比,它解决了过度优化和无法实时预览的痛点,实现“言出法随”的快速输出与实时润色,避免乱加Markdown格式。对于如Claude Code、AntiGravity、Perplexity等专业术语与中文混合的场景,豆包输入法处理出色,用户已完全依赖其手机和电脑端。未来期待支持自定义提示词润色功能,但目前识别能力已无可挑剔。

端侧评测/基准语音
00:06
Artificial Analysis@ArtificialAnlys
69
Cohere推出开源权重模型Command A+,智能指数得分达37

Cohere发布了开源权重模型Command A+,其在AI分析智能指数上的得分与Claude 4.5 Haiku持平。该模型核心优势为极低的幻觉率,在相关榜单上以86%领先,体现出模型“知其不知”的可靠性。在速度方面,其API输出速度超过GPT-5.4 nano等多款模型,但仍略逊于Gemini 3.1 Flash-Lite。模型在科学推理与代码生成等高难度任务上表现稍弱,但具备视觉推理能力,性能位于Claude 4.5 Haiku与GPT-5.4 nano之间。

开源/仓库模型发布评测/基准
5月20日
22:08
Berryxia.AI@berryxia
72
性能飞跃但成本激增,Gemini 3.5 Flash重新定义"轻量"?

Google发布的Gemini 3.5 Flash在性能上实现飞跃,智能指数达55分,超越Grok 4.3等竞品,幻觉率大幅下降,输出速度超280 tokens/s。然而,其运行成本是前代的5.5倍,定价显著提高,引发对“Flash”是否仍代表“便宜”的讨论。该模型已在ZenMux平台开放免费体验,实际测试显示效果惊艳,在多项Agent和多模态榜单中表现顶尖,标志着顶级智能与极致速度的新结合。

Berryxia.AI: 兄弟们! 今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了! 我第一时间用它跑了那个经典的「AI模型递归二叉树生长测试」. 同一个 Prompt ,不同模型画出的树形态完全不一样。(见视频-Prompt见评论区) G...

Google多模态推理评测/基准
18:07
Berryxia.AI@berryxia
73
兄弟们!今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了!

Gemini 3.5 Flash现已在ZenMux平台免费开放试用。该模型在经典的递归二叉树生长测试中表现惊艳,仅用77.56秒便生成了完整的HTML动画网页,展现了顶级的响应速度与生成质量。其在MCP Atlas、Toolathlon等多项Agent榜单中位列第一,多模态理解能力(如MMMU-Pro得分83.6%)也全面超越上一代模型。模型完全兼容主流API格式,并提供按量计费和Builder套餐选择。

智能体Google多模态评测/基准
13:05
Berryxia.AI@berryxia
57
Gemini 3.5 Flash 发布,已可在 ZenMux 免费体验

Google I/O 2026 发布了新一代模型 Gemini 3.5 Flash,ZenMux 平台已第一时间提供 API 接入并开放免费试用。实测中,该模型仅用时 77.56 秒即完成一段复杂 HTML 递归二叉树生长动画,生成效果流畅自然。其性能全面升级,在多项 Agent 专属评测榜单中位列第一,多模态理解能力(MMMU-Pro 达 83.6%)也显著超越前代。模型完全兼容主流 API 格式,支持按量计费与套餐方案,便于开发者快速接入。

Google多模态评测/基准
13:05
Berryxia.AI@berryxia
65
Gemini 3.5 Flash上线,极速性能全面进化

Gemini 3.5 Flash已在ZenMux平台首发并提供免费体验。该模型从提示词到生成完整HTML动画仅用77.56秒,速度极快且效果出色。其专为Agent设计,在MCP Atlas、Toolathlon等多项榜单中排名第一。多模态理解能力显著提升,MMMU-Pro达83.6%,全面超越上一代模型。该模型兼容主流API格式,支持按量计费和Builder套餐,可无缝集成现有工具链。

Google编码评测/基准
09:02
elvis@omarsar0
64
编程代理在AI研发任务中的表现评估

IntologyAI发布的NanoGPT-Bench评估显示,Codex、Claude Code和Autoresearch等编程代理在AI研发任务中,仅能恢复人类近9.3%的进展。这些代理的大部分算力消耗在超参数调优上,对核心的算法研究投入甚少。其中Claude Code和Autoresearch在推理中稍有涉及算法研究,但在实际代码实现层面依然不足。该评估基于NanoGPT Speedrun竞赛,采用标准化的五个月世界纪录窗口,完全自主端到端进行,以控制模型依赖和数据污染。结果表明,当前编程代理在自主执行真正AI研发的能力上仍有很大局限。

Intology: Can coding agents do research? We release NanoGPT-Bench, an internal eval we've used to test agents on an AI R&D problem...

智能体论文/研究评测/基准
08:44
meng shao@shao__meng
56
Gemini 3.5发布,性能全面超越前代

Google 真的要把宝都押在每年的 I/O 上啊,Gemini 3.1 拉了几个月后,Gemini 3.5 憋到 I/O 终于发布了 Gemini 3.5 Flash 各项评测几乎全面超越 Gemini 3.1 Pro,还更快,更便宜,你就说 Gemini 3.1 有多拉吧,哦,不对,Gemini 3.5 有多强吧 😂

Google DeepMind: Introducing Gemini 3.5: our newest family of models combining frontier intelligence with real-world action. The first re...

智能体Google编码评测/基准
03:01
François Chollet@fchollet
62
Gemini 【引用 @arcprize】:Gemini 3.5 Flash ARC-AGI(已验证) ARC-AGI-2: - 高配:72.1%,$0.85 - 最低配:8.9%,$0.11 ARC-AGI-1: - 高配:92.5%,$0.42 - 最低配:48.8%,$0.06 Gemini 3.5 Flash在ARC-AGI测试中与GPT-5.5(中配)表现相当

ARC Prize: Gemini 3.5 Flash ARC-AGI (Verified) ARC-AGI-2: - High: 72.1%, $0.85 - Minimal: 8.9%, $0.11 ARC-AGI-1: - High: 92.5%, $0....

Google多模态推理评测/基准
02:29
Ethan Mollick@emollick
68
也获得了 Gemini 3.5 Flash 的早期访问权限。作为 Flash 模型,它速度非常快且能力很强,尽管不如完整的前沿模型强大。 我已将其添加到程序生成的单次城镇画廊中(它出现了一个错误并自行修正):https://hg-20f7d1a3ce.netlify.app/#gemini-3-5-flash
Google评测/基准
00:34
🚨 AI News | TestingCatalog@testingcatalog
30
Gemini Omni测试 🔥 这是我目前见过的最棒的"赛博朋克黑客机器人"视频之一。它在场景构图方面比最新的Veo模型处理得更好。
Google视频评测/基准
00:26
向阳乔木@vista8
41
Gemini Omni Flash 效果很拉胯啊! 提示词:生成墨比斯风格的科幻动画短片,银河系搭车客指南 好像根本没理解第二句话…
Google多模态评测/基准
00:09
歸藏(guizang.ai)@op7418
50
用户测试了谷歌新上线的Gemini Omni Flash的视频编辑功能,但实际效果并不理想。用户提及原始视频来源,并明确表示其效果远不如SeeDance 2.0。同时,该推文引用了另一条关于Gemini Omni Flash已上线Flow平台的信息,表明其具备了一定的可用性。整体来看,尽管新模型可用,但用户对其当前的视频编辑能力持保留态度,并认为在效果上与特定竞品存在差距。

歸藏(guizang.ai): 哇! 谷歌新视频模型 Gemini Omni Flash 已经上线 FLow

Google视频评测/基准
5月19日
14:05
歸藏(guizang.ai)@op7418
44
Gemini iOS应用改版质感优秀,中文适配缺失引吐槽

谷歌Gemini iOS应用进行了界面改版,其整体质感、细节处理以及对iOS液态玻璃特性的应用获得了积极评价,开发水平被认为高于其网页端和客户端。但主要问题在于应用未对中文、日文、韩文等语言进行排版适配,导致中文显示时字间距异常。此外,作为上下文,Gemini网页版近期也进行了大改版,整体布局向GPT靠拢,将功能整合至加号菜单,并调整了视觉样式,其灰色背景的设计引发了部分关于辨识度与可读性的讨论。

歸藏(guizang.ai): 哇!Gemini 网页版大改版了,整体布局跟 GPT 真像啊 之前的那堆功能都收到了加号里面。左侧的字体和间距都变小了,展示内容更多了 聊天的页面背景变成了灰色,感觉辨识度下降了,可读性比原来差我觉得。

Google评测/基准
11:10
Alibaba Cloud@alibaba_cloud
60
🚀🚀Qwen3.7预览版登陆竞技场! ⚡️⚡️Qwen3.7-Plus-Preview来了。阿里巴巴现在在视觉领域排名第五。🎨 迫不及待要发布Qwen3.7系列模型了!敬请期待!@arena

Arena.ai: In the Vision Arena, Qwen3.7 Plus Preview makes @Alibaba_Qwen the #5 lab, ranking #16 overall.

多模态模型发布评测/基准
03:55
karminski-牙医@karminski3
54
Qwen3.7内测跑分出炉,空间理解与指令遵循大幅提升

Qwen3.7-Max-Preview在ArenaAI内测中排名第13,为当前版本国产模型最佳。其数学能力(第7)与编程能力(第10)提升显著。实测显示,在前端代码生成任务中,Qwen3.7在空间理解和指令遵循上较前代(Qwen3.6)有巨大进步,能更准确地维持元素轴向与标记。文章同时指出,ArenaAI评分仅供参考,其为Meta新模型Muse Spark给出的高排名(第5)与社区现状不符。

多模态推理评测/基准
02:55
karminski-牙医@karminski3
53
Qwen3.7! 就在今天!

阿里千问今日推出Qwen3.7-Max-Preview,在ArenAI(原LMArena)内测中排名第13,为国内模型最高水平。模型数学能力显著提升,位列总榜第7;编程能力排名第10;视觉能力测试升至第16。作者实测显示,在前端代码生成场景中,Qwen3.7的空间理解与指令遵循能力进步明显,元素轴向一致性优于DeepSeek-V4-Pro等模型。此外,ArenaAI给Meta新模型Muse Spark的异常高评分引发关注,但该评分仅供参考。

多模态推理编码评测/基准
01:13
凡人小北@frxiaobei
61
Qwen 3.7 有惊喜但不大,国内 top/国际第一梯队早就实锤了。 期待下未来能超过 Anthropic,给国人出口恶气。

Arena.ai: Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...

模型发布评测/基准
00:56
Berryxia.AI@berryxia
63
阿里Qwen3.7预览版在Arena排行榜取得显著成绩

阿里巴巴最新发布的Qwen3.7预览版在Arena社区排行榜上表现突出。在基于百万真实用户投票的Text Arena中,Qwen3.7 Max Preview总榜排名第13,使阿里巴巴位列实验室第6名,并在数学、专家咨询、软件与IT、编程等细分领域进入前十。同时,在Vision Arena中,Qwen3.7 Plus Preview总榜排名第16,助力阿里巴巴升至实验室第5名。此次排名并非实验室内部测试,而是社区实际交互的体现,标志着阿里在模型的文本与视觉综合能力上实现了重要进步。

Arena.ai: Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...

多模态评测/基准
00:02
Qwen@Alibaba_Qwen
57
阿里巴巴通义千问Qwen3.7-Max-Preview与Qwen3.7-Plus-Preview模型现已登陆AI评测平台Arena,分别参与文本与视觉评测。这一进展大幅提升了阿里巴巴在两大领域的实验室排名:在文本榜单跃升至全球第6位,在视觉榜单升至第5位。具体而言,Qwen3.7 Max Preview在文本总榜位列第13,并在数学、编程等多个子榜单中表现突出;Qwen3.7 Plus Preview在视觉总榜排名第16。官方对取得的进步表示祝贺,并透露Qwen3.7系列模型的正式版本即将发布。

Arena.ai: Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...

多模态模型发布评测/基准
00:02
Qwen@Alibaba_Qwen
47
🚀🚀 【引用 @arena】:在视觉竞技场中,Qwen3.7 Plus Preview使@Alibaba_Qwen成为第5大实验室,总排名第16位。

Arena.ai: In the Vision Arena, Qwen3.7 Plus Preview makes @Alibaba_Qwen the #5 lab, ranking #16 overall.

多模态模型发布评测/基准
5月18日
01:42
SemiAnalysis@SemiAnalysis_
55
公司测试多种AI工具,Perplexity AI的Slack集成表现突出

本周,公司尝试了包括Devin、Mistral、Grok、Perplexity在内的多种AI工具,大多数因价值有限将被快速淘汰。但Perplexity AI的企业Slack集成表现惊人,优于Claude,能直接在Slack中发送图像并返回详细研究报告与可视化内容。目前,公司96%的token预算仍流向Anthropic(Claude提供商),但基于使用模式,部分预算可能转向Perplexity。作者希望Claude的Slack集成也能添加类似功能,以提升效率。

Anthropic搜索评测/基准
5月17日
09:11
SemiAnalysis@SemiAnalysis_
53
GPT 4.6到4.7的分词器改进技术分析
OpenAI编码评测/基准
00:54
Berryxia.AI@berryxia
52
幻灯片设计竞技场结果出炉,Anthropic与Zai_org领跑

Slides Arena发布了基于370多万真实使用场景的Agentic Slides排行榜。Anthropic的Opus 4.7及其思考版本包揽前两名,Zai_org的GLM 5.1位列第三,共同确立了该领域的SOTA。此次评估并非实验室基准测试,而是针对软可验证、创意密集且需要完整逻辑与设计感的真实幻灯片生成场景,证实了Claude系列在智能体设计方面的领先优势。

Design Arena: BREAKING: The results are in for Slides Arena... @AnthropicAI and @Zai_org models continue to lead the way in soft-verif...

智能体Anthropic评测/基准
5月16日
17:10
Peter Steinberger 🦞@steipete
60
基于Qwen 35B本地模型的Hermes与OpenClaw智能体在相同任务中展现出不同策略与效率。任务要求抓取GitHub star历史、分析增长峰值原因并构建实时仪表盘。OpenClaw耗时12分钟,消耗203k tokens,通过编写bash脚本高效调用GitHub API,处理分页与JSON数据,并发现一次安全事件。Hermes耗时33分钟,消耗257k tokens,采用并行工具调用策略,在遭遇Google速率限制后自动切换至DuckDuckGo,最终整合内容并映射传播节点。两者均成功交付了包含增长图表和峰值标注的实时仪表盘。

atomicbot.ai: Hermes Agent vs OpenClaw using Qwen 35B Local Model We asked agents to scrape GitHub star history for both tools, find w...

智能体编码评测/基准
06:11
🚨 AI News | TestingCatalog@testingcatalog
59
Atomic Bot 使用相同模型(Qwen 3.6 35B)对 Hermes 和 OpenClaw 代理进行了对比测试,任务为分析 GitHub star 历史、定位增长峰值并部署实时浏览器仪表板。结果显示,OpenClaw 耗时12分01秒,消耗203k tokens,通过编写bash脚本高效完成了任务;Hermes 则耗时33分01秒,消耗257k tokens,采用了并行工具调用并编写了SKILL.md文档。两者均成功构建了包含star增长图表和峰值注释的实时仪表板,但OpenClaw在任务效率和token使用上显著优于Hermes。

atomicbot.ai: Hermes Agent vs OpenClaw using Qwen 35B Local Model We asked agents to scrape GitHub star history for both tools, find w...

智能体评测/基准
03:05
Artificial Analysis@ArtificialAnlys
63
AI在经济价值任务中快速进步:根据GDPval-AA Elo评分,GPT-5.5在实际工作产出中预计将赢得约98%的正面比较,对比对象是一年前GDPval-AA领先模型Claude 4 Sonnet GDPval-AA衡量模型在九个行业44个职业中的任务完成能力。图示展示了Claude 4 Sonnet(2025年5月)与GPT-5.5(xhigh,2026年5月)在库存管理任务中的幻灯片输出对比
OpenAI推理评测/基准
5月15日
02:31
Chubby♨️@kimmonismus
63
实测Higgsfield Supercomputer:用自然语言驱动多模型并行的AI生产力平台

Higgsfield的Supercomputer平台允许用户以自然语言描述任务,系统从61种生产技能中自动选取,并将子任务路由至GPT-4o、Claude Opus、Gemini及多种图像视频模型并行处理。它能生成长达60分钟的视频,原生集成Obsidian构建持久化知识库,并通过27个平台连接器连接各类工具。平台运行于云端GPU基础设施,支持品牌标识锁定和后台任务调度。其技能在使用中通过版本追踪和评估测试不断自我改进,用户可通过浏览器或Telegram直接访问,无需本地设置。

Higgsfield AI 🧩: How Supercomputer works: 1. Access via browser or Telegram. No local setup 2. Describe your task 3. Orchestrates LLMs an...

智能体多模态视频评测/基准
5月14日
13:58
Xiaomi MiMo@XiaomiMiMo
精选69
MiMo V2.5 Pro 在 @DesignArena 上刚刚获得第三名!🎉 MiMo V2.5 Pro (Thinking) 在总排行榜上比 MiMo-V2.5 提升了 8 个名次,在前端编码任务中达到与 Claude Sonnet 4.6 相同的性能水平。 衷心祝贺 @XiaomiMiMo 团队取得这些进步!

Design Arena: BREAKING: MiMo V2.5 Pro (Thinking) takes 3rd overall out of open weights models on Design Arena. MiMo V2.5 Pro (Thinking...

开源生态编码评测/基准

推荐理由:小米MiMo在Design Arena前端编码评测里直接杀进前三,跟Claude Sonnet 4.6平起平坐,这是国产开源模型在代码能力上第一次给我真正的压迫感,搞前端的可以盯一下。
‹ 上一页
1…678910…12
下一页 ›