基准测试显示,Cursor Composer 2.5在编程任务中展现出卓越的成本与效率优势。其单任务成本仅为Claude Opus 4.7的1/3至1/18,更是GPT-5.5的1/5至1/32。这一低成本源于其极高的token使用效率:完成全部测试仅消耗1.6M token,远低于同类模型的5.7M。效率方面,其平均任务完成时间约9分钟,比行业平均水平快约1.3倍,其快速版本更可将时间缩短至约7分钟。
基准测试显示,Cursor Composer 2.5在编程任务中展现出卓越的成本与效率优势。其单任务成本仅为Claude Opus 4.7的1/3至1/18,更是GPT-5.5的1/5至1/32。这一低成本源于其极高的token使用效率:完成全部测试仅消耗1.6M token,远低于同类模型的5.7M。效率方面,其平均任务完成时间约9分钟,比行业平均水平快约1.3倍,其快速版本更可将时间缩短至约7分钟。
Cartesia公司最新发布的语音合成模型Sonic-3.5在Artificial Analysis Speech Arena排行榜上位居第一,超越了Inworld Realtime TTS 1.5 Max和Google Gemini 3.1 Flash TTS等竞品。该模型支持42种语言(包括9种印度语言),提供超过500种声音选择。评测数据显示,Sonic-3.5以1,218的Elo分数领先,表现出自然的语音效果和准确的文本跟随能力。其定价为每百万字符39美元,高于竞品;生成速度为每秒105.5字符,介于其他两者之间。
Qwen 3.7-max beats Opus 4.7 and GPT-5.5 We tested three frontier models on a real agentic task: write a Tetris bot that ...
关联讨论 9 条公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:OpenRouter (@OpenRouter)IT之家(RSS)作者体验了KroWork平台的“对话生成软件”功能。他通过自然语言提示Kro代理,要求创建一个新闻仪表盘。该工具更新后可展示其系统逻辑的思维映射过程,并借助Kro Browser Bridge扩展程序实现浏览器实时操作。整个应用生成过程仅耗时约五分钟,全程无需编写代码。关键在于,由于生成结果是编译后的真实本地软件,后续运行不会消耗任何token。
新发布的Qwen 3.7 Max正被用户通过“递归分形二叉树”生成测试进行评估。该测试要求模型编写HTML代码,模拟树木从生长到摇曳的动画。此前,Gemini 3.5 Flash已用同一测试进行了展示,其生成完整动画耗时77.56秒,效果被评测者认为惊艳。该测试已成为比较不同AI模型代码生成与创意能力的一种常见方式,用户可借此对比各模型的表现。
兄弟们! 今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了! 我第一时间用它跑了那个经典的「AI模型递归二叉树生长测试」. 同一个 Prompt ,不同模型画出的树形态完全不一样。(见视频-Prompt见评论区) G...
Alibaba's new Qwen3.7 Max model scores 56.6 on the Artificial Analysis Intelligence Index, 4.8 points higher than Qwen3....
关联讨论 9 条公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:OpenRouter (@OpenRouter)IT之家(RSS)Gemini 3.5 Flash实现了289 tokens/s的输出速度(约为GPT-4o的4倍),同时将幻觉率大幅降低31%,首次在速度、智能和可靠性上达成平衡。这标志着AI发展从单纯比拼模型“智商”的基准竞赛,转向追求“能用起来”的实用主义。高速与可靠性的结合,使得能够执行复杂多步任务的AI Agent从理论走向现实,可能重塑行业竞争格局,未来AI将如同基础设施一般无缝融入工作流。
关联讨论 18 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)IT之家(RSS)X:Berry Xia (@berryxia)X:Jeff Dean (@JeffDean)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Rohan Paul (@rohanpaul_ai)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:Kim (@kimmonismus)Google Omni vs Seedance 2.0 😳 Olympic Diving Test - Seedance 2.0 also wins this test!🔥 Prompt👇 Female Olympic diver f...
豆包输入法Mac版上线后,用户试用体验极佳,称其在准确性、中英文混合输入、专业名词识别和响应速度方面均为市面顶尖。与其他输入法相比,它解决了过度优化和无法实时预览的痛点,实现“言出法随”的快速输出与实时润色,避免乱加Markdown格式。对于如Claude Code、AntiGravity、Perplexity等专业术语与中文混合的场景,豆包输入法处理出色,用户已完全依赖其手机和电脑端。未来期待支持自定义提示词润色功能,但目前识别能力已无可挑剔。
Cohere发布了开源权重模型Command A+,其在AI分析智能指数上的得分与Claude 4.5 Haiku持平。该模型核心优势为极低的幻觉率,在相关榜单上以86%领先,体现出模型“知其不知”的可靠性。在速度方面,其API输出速度超过GPT-5.4 nano等多款模型,但仍略逊于Gemini 3.1 Flash-Lite。模型在科学推理与代码生成等高难度任务上表现稍弱,但具备视觉推理能力,性能位于Claude 4.5 Haiku与GPT-5.4 nano之间。
Google发布的Gemini 3.5 Flash在性能上实现飞跃,智能指数达55分,超越Grok 4.3等竞品,幻觉率大幅下降,输出速度超280 tokens/s。然而,其运行成本是前代的5.5倍,定价显著提高,引发对“Flash”是否仍代表“便宜”的讨论。该模型已在ZenMux平台开放免费体验,实际测试显示效果惊艳,在多项Agent和多模态榜单中表现顶尖,标志着顶级智能与极致速度的新结合。
兄弟们! 今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了! 我第一时间用它跑了那个经典的「AI模型递归二叉树生长测试」. 同一个 Prompt ,不同模型画出的树形态完全不一样。(见视频-Prompt见评论区) G...
Gemini 3.5 Flash现已在ZenMux平台免费开放试用。该模型在经典的递归二叉树生长测试中表现惊艳,仅用77.56秒便生成了完整的HTML动画网页,展现了顶级的响应速度与生成质量。其在MCP Atlas、Toolathlon等多项Agent榜单中位列第一,多模态理解能力(如MMMU-Pro得分83.6%)也全面超越上一代模型。模型完全兼容主流API格式,并提供按量计费和Builder套餐选择。
Google I/O 2026 发布了新一代模型 Gemini 3.5 Flash,ZenMux 平台已第一时间提供 API 接入并开放免费试用。实测中,该模型仅用时 77.56 秒即完成一段复杂 HTML 递归二叉树生长动画,生成效果流畅自然。其性能全面升级,在多项 Agent 专属评测榜单中位列第一,多模态理解能力(MMMU-Pro 达 83.6%)也显著超越前代。模型完全兼容主流 API 格式,支持按量计费与套餐方案,便于开发者快速接入。
Gemini 3.5 Flash已在ZenMux平台首发并提供免费体验。该模型从提示词到生成完整HTML动画仅用77.56秒,速度极快且效果出色。其专为Agent设计,在MCP Atlas、Toolathlon等多项榜单中排名第一。多模态理解能力显著提升,MMMU-Pro达83.6%,全面超越上一代模型。该模型兼容主流API格式,支持按量计费和Builder套餐,可无缝集成现有工具链。
IntologyAI发布的NanoGPT-Bench评估显示,Codex、Claude Code和Autoresearch等编程代理在AI研发任务中,仅能恢复人类近9.3%的进展。这些代理的大部分算力消耗在超参数调优上,对核心的算法研究投入甚少。其中Claude Code和Autoresearch在推理中稍有涉及算法研究,但在实际代码实现层面依然不足。该评估基于NanoGPT Speedrun竞赛,采用标准化的五个月世界纪录窗口,完全自主端到端进行,以控制模型依赖和数据污染。结果表明,当前编程代理在自主执行真正AI研发的能力上仍有很大局限。
Can coding agents do research? We release NanoGPT-Bench, an internal eval we've used to test agents on an AI R&D problem...
Google 真的要把宝都押在每年的 I/O 上啊,Gemini 3.1 拉了几个月后,Gemini 3.5 憋到 I/O 终于发布了 Gemini 3.5 Flash 各项评测几乎全面超越 Gemini 3.1 Pro,还更快,更便宜,你就说 Gemini 3.1 有多拉吧,哦,不对,Gemini 3.5 有多强吧 😂
Introducing Gemini 3.5: our newest family of models combining frontier intelligence with real-world action. The first re...
Gemini 3.5 Flash ARC-AGI (Verified) ARC-AGI-2: - High: 72.1%, $0.85 - Minimal: 8.9%, $0.11 ARC-AGI-1: - High: 92.5%, $0....
哇! 谷歌新视频模型 Gemini Omni Flash 已经上线 FLow
谷歌Gemini iOS应用进行了界面改版,其整体质感、细节处理以及对iOS液态玻璃特性的应用获得了积极评价,开发水平被认为高于其网页端和客户端。但主要问题在于应用未对中文、日文、韩文等语言进行排版适配,导致中文显示时字间距异常。此外,作为上下文,Gemini网页版近期也进行了大改版,整体布局向GPT靠拢,将功能整合至加号菜单,并调整了视觉样式,其灰色背景的设计引发了部分关于辨识度与可读性的讨论。
哇!Gemini 网页版大改版了,整体布局跟 GPT 真像啊 之前的那堆功能都收到了加号里面。左侧的字体和间距都变小了,展示内容更多了 聊天的页面背景变成了灰色,感觉辨识度下降了,可读性比原来差我觉得。
In the Vision Arena, Qwen3.7 Plus Preview makes @Alibaba_Qwen the #5 lab, ranking #16 overall.
Qwen3.7-Max-Preview在ArenaAI内测中排名第13,为当前版本国产模型最佳。其数学能力(第7)与编程能力(第10)提升显著。实测显示,在前端代码生成任务中,Qwen3.7在空间理解和指令遵循上较前代(Qwen3.6)有巨大进步,能更准确地维持元素轴向与标记。文章同时指出,ArenaAI评分仅供参考,其为Meta新模型Muse Spark给出的高排名(第5)与社区现状不符。
阿里千问今日推出Qwen3.7-Max-Preview,在ArenAI(原LMArena)内测中排名第13,为国内模型最高水平。模型数学能力显著提升,位列总榜第7;编程能力排名第10;视觉能力测试升至第16。作者实测显示,在前端代码生成场景中,Qwen3.7的空间理解与指令遵循能力进步明显,元素轴向一致性优于DeepSeek-V4-Pro等模型。此外,ArenaAI给Meta新模型Muse Spark的异常高评分引发关注,但该评分仅供参考。
Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...
阿里巴巴最新发布的Qwen3.7预览版在Arena社区排行榜上表现突出。在基于百万真实用户投票的Text Arena中,Qwen3.7 Max Preview总榜排名第13,使阿里巴巴位列实验室第6名,并在数学、专家咨询、软件与IT、编程等细分领域进入前十。同时,在Vision Arena中,Qwen3.7 Plus Preview总榜排名第16,助力阿里巴巴升至实验室第5名。此次排名并非实验室内部测试,而是社区实际交互的体现,标志着阿里在模型的文本与视觉综合能力上实现了重要进步。
Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...
Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...
In the Vision Arena, Qwen3.7 Plus Preview makes @Alibaba_Qwen the #5 lab, ranking #16 overall.
本周,公司尝试了包括Devin、Mistral、Grok、Perplexity在内的多种AI工具,大多数因价值有限将被快速淘汰。但Perplexity AI的企业Slack集成表现惊人,优于Claude,能直接在Slack中发送图像并返回详细研究报告与可视化内容。目前,公司96%的token预算仍流向Anthropic(Claude提供商),但基于使用模式,部分预算可能转向Perplexity。作者希望Claude的Slack集成也能添加类似功能,以提升效率。
Slides Arena发布了基于370多万真实使用场景的Agentic Slides排行榜。Anthropic的Opus 4.7及其思考版本包揽前两名,Zai_org的GLM 5.1位列第三,共同确立了该领域的SOTA。此次评估并非实验室基准测试,而是针对软可验证、创意密集且需要完整逻辑与设计感的真实幻灯片生成场景,证实了Claude系列在智能体设计方面的领先优势。
BREAKING: The results are in for Slides Arena... @AnthropicAI and @Zai_org models continue to lead the way in soft-verif...
Hermes Agent vs OpenClaw using Qwen 35B Local Model We asked agents to scrape GitHub star history for both tools, find w...
Hermes Agent vs OpenClaw using Qwen 35B Local Model We asked agents to scrape GitHub star history for both tools, find w...
Higgsfield的Supercomputer平台允许用户以自然语言描述任务,系统从61种生产技能中自动选取,并将子任务路由至GPT-4o、Claude Opus、Gemini及多种图像视频模型并行处理。它能生成长达60分钟的视频,原生集成Obsidian构建持久化知识库,并通过27个平台连接器连接各类工具。平台运行于云端GPU基础设施,支持品牌标识锁定和后台任务调度。其技能在使用中通过版本追踪和评估测试不断自我改进,用户可通过浏览器或Telegram直接访问,无需本地设置。
How Supercomputer works: 1. Access via browser or Telegram. No local setup 2. Describe your task 3. Orchestrates LLMs an...
BREAKING: MiMo V2.5 Pro (Thinking) takes 3rd overall out of open weights models on Design Arena. MiMo V2.5 Pro (Thinking...