We measure the gap using the Epoch Capabilities Index, our aggregate measure of model capability. Compared to our last a...
We measure the gap using the Epoch Capabilities Index, our aggregate measure of model capability. Compared to our last a...
We took another look at the capability gap between open-weight and proprietary models. Since the start of the year, open...
I gave the same Go MMRPG backend spec to two coding agents and then asked Claude to judge the performance. CC (with Sonn...
Thrilled to welcome Step 3.7 Flash landing on ModelScope, a 198B sparse MoE VLM from @StepFun_ai 🔥🤖 https://modelscope...
Anthropic 旗舰模型 Claude Opus 4.8 现已在 ZenMux 平台提供免费体验。实测中,该模型根据提示词一次生成可运行的 HTML 网页,仅用 Three.js 内置几何体纯手搓出一架包含后掠机翼、四台发动机、可收放起落架等复杂结构的高细节波音 747-400,比例精准、效果惊艳。模型在 SWE-bench、Terminal-Bench、Agentic Coding 等多项榜单排名第一,代码与多模态理解能力较上一代有显著提升。ZenMux 平台以 ZeroDelay 方式首发新模型,并提供限时免费额度。
Claude-Opus-4.8 刚刚发布,用户使用光线追踪渲染一个多光源多材质3D场景的全新测试集进行了实测。在 xhigh 设置下,初始去噪渲染效果不错,但发现一处本应垂直撞墙的光源移动轨迹呈水平,疑似模型空间理解能力下降。在 medium 设置下,因生成的 shader 有问题,测试直接失败无法完成。详细测试报告将后续发布。
测试评估了AI金融建模智能体在构建苹果公司历史与预测财务报表这一真实分析师任务中的表现。其中,工具Primer表现突出,关键在于其生成了可审计的关联财务系统,而非逐单元格拼接的表格。Primer将Excel视为最终输出格式,先构建完整的三表模型,再将其转化为结构化记录(如收入、成本、假设、公式链接等),使AI能直接查询和验证财务逻辑。这指出专业AI智能体的价值将更多取决于其产出物能否通过审计。
http://x.com/i/article/2053566242338795520
ANTHROPIC 🔥: CLAUDE OPUS 4.8 IS ROLLING OUT TO ALL USERS. The release also includes an updated Thinking effort selector...
Anthropic 正式发布了 Claude Opus 4.8 模型。该模型在人工智能分析公司的 GDPval-AA 基准(专注于智能体的现实工作任务)上,以“max”努力设置获得了 1890 分。这一成绩比前代 Opus 4.7 高出 137 分,并以 121 分的优势领先于次优模型 GPT-5.5 xhigh。在直接对比中,这意味着 Opus 4.8 对 GPT-5.5 xhigh 拥有约 67% 的胜率。Anthropic 在模型公开发布前,为人工智能分析公司提供了早期访问权限以进行评测。
关联讨论 17 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)X:Claude Devs (@ClaudeDevs)X:Boris Cherny (@bcherny)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)X:洪明 (@hongming731)The Decoder:AI News(RSS)X:OpenRouter (@OpenRouter)X:Thariq (@trq212)X:Kim (@kimmonismus)X:Claude (@claudeai)X:Rohan Paul (@rohanpaul_ai)MarkTechPost(RSS)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)X:宝玉 (@dotey)AA-WER Streaming是一个新基准,用于测量流式语音转文本模型在语音智能体场景下的准确率与延迟。该测试基于约8小时音频,报告词错误率与延迟。关键结果显示:Cartesia Ink-2(语义端点)在最终转录中准确率最高(WER 3.59%,延迟0.21秒);ElevenLabs Scribe v2 Realtime在首次部分转录中准确率最高(WER 3.65%,延迟0.13秒);Deepgram Flux在速度上领先,最终和首次部分转录延迟分别为0.020秒和0.019秒。
阿里通义千问(Qwen)推出了新的文本到图像(T2I)评测基准Qwen-Image-Bench。该基准包含56个细粒度评估维度,并配备与人类对齐度达ρ=0.92的评判模型Q-Judger。其核心理念是将T2I模型评价从基础的“提示词对齐”,提升至关注“真实世界保真度”和“创意生成能力”两大支柱,通过1000条测试提示词能更清晰地区分现有SOTA模型表现。该基准为开发者、提示词工程师及企业提供了一个更贴近实际创作需求的新评估框架。
Qwen @Alibaba_Qwen just dropped a new Text to Image benchmark + a judge model https://huggingface.co/collections/Qwen/qw...
Artificial Analysis and IBM Research are launching ITBench-AA, the first in a new series of benchmarks evaluating models...
Artificial Analysis and IBM Research are launching ITBench-AA, the first in a new series of benchmarks evaluating models...
Artificial Analysis and IBM Research are launching ITBench-AA, the first in a new series of benchmarks evaluating models...
关联讨论 1 条Hugging Face:Blog(RSS)Many developers have suspected for months that GPT-5.5 outperforms Claude Sonnet for coding. But SWE-Bench reported near...
http://x.com/i/article/2059284537503285248
Datacurve发布了新编程基准DeepSWE,旨在揭示模型在长期软件工程任务上的真实能力差距。在该基准上,GPT-5.5得分为70%,而GPT-5.4为56%,Claude Opus 4.7为54%,突显了模型间的显著差异。与旧有基准不同,DeepSWE使用原创任务,要求智能体在代码库中自主搜索、理解设计并修改多个文件。其解决方案所需代码量是SWE-bench Pro的5.5倍,输出token约2倍,反映了开发者日常工作中的实际挑战。
Today we're releasing DeepSWE, a new standard for agentic coding benchmarks. On public leaderboards, top models often lo...
Today we're releasing DeepSWE, a new standard for agentic coding benchmarks. On public leaderboards, top models often lo...
Artificial Analysis与IBM Research联合推出ITBench-AA,首个评估AI智能体在企业IT任务中表现的基准,首发任务为站点可靠性工程(SRE)。该基准包含59项Kubernetes事件响应任务,所有前沿模型得分均未超过50%。其中,Claude Opus 4.7以47%领先,GPT-5.5得46%,通义千问(Qwen3.7 Max)得42%。开源模型中,智谱GLM-5.1(推理)得分40%,与Gemini 3.5 Flash持平;深度求索(DeepSeek V4 Pro)得38%。分析还发现,模型推理轮次差异近3倍,但更长轮次并不保证更高准确率。
腾讯HY实验室与四家机构发布了专门测试AI对中国古文字识别能力的基准Chronicles-OCR,包含2800张专家标注图像,覆盖甲骨文、金文等七大类。测试显示,28个前沿多模态模型集体表现不佳:VLLM在甲骨文上准确率仅14%,GPT-5与Gemini 2.5 Pro得分近零。值得注意的是,开启推理模式反而损害性能,因模型实为识别龟壳、青铜器等载体(准确率96.7%),而非真正识别字符本身。
The best VLLM scores only 14% on oracle bone script recognition. Chronicles-OCR, a new ancient Chinese character benchma...
Phoronix发布了NVIDIA Vera CPU的首份公开基准测试。这款ARM架构数据中心处理器拥有88个Olympus核心,专为智能体AI(Agentic AI)所需的代码执行、工具调用与数据管道设计。测试数据显示,Vera编译Linux内核耗时20秒,为测试最快。其整体性能较Intel Xeon 6980P提升约1.55倍,较AMD EPYC 9575F平均领先约10%。内存方面,Vera采用LPDDR5X,提供高达1.2 TB/s的带宽,每核内存带宽是传统x86 CPU的4倍以上,且在STREAM TRIAD测试中达到了90%的峰值带宽利用率。与上一代Grace CPU相比,Vera性能平均提升1.63倍。该处理器预计于2026年H2出货给合作伙伴。
DeepSWE新基准模拟了真实的长链编程任务,如定位文件、复现bug和验证修复,挑战了旧有基准的局限性。测试显示,在顶级模型上分数差异模糊的SWE-Bench,被新基准拉开了差距:GPT-5.5达到70%,而Claude Opus为54%。研究发现,使用简单的mini-swe-agent即可取得与复杂定制工具相当的成绩,表明许多高分可能源于提示词工程。该基准作者@theo评论称,这是首个与真实编码体验相符的评测。
This is the first code bench that actually aligns with how it feels to use these models coding.
测试显示,Qwen3.7-max 在 Code Arena 上的编程得分仅次于 Anthropic 模型。使用该模型通过 Rust 开发了一款磁盘恢复软件,实测运行流畅。该软件设计了三层恢复功能,并利用该模型智能重建文件名和内容。
Qwen3.7 Max (20250517) debuts at #4 in Code Arena: Frontend - the top-ranked Chinese lab on the board, surpassing GLM-5....
Qwen3.7 Max (20250517) debuts at #4 in Code Arena: Frontend - the top-ranked Chinese lab on the board, surpassing GLM-5....
同一事件,精选展示《Qwen3.7-Max:面向智能体时代的最新专有模型》PrismML发布官方iOS应用Bonsai Studio,用户可免费下载,在iPhone上本地离线运行其Bonsai Image 4B扩散模型。该模型基于FLUX.2 Klein,其1-bit压缩版仅0.93GB,比全精度版小8.3倍。在iPhone 15 Pro及以上机型生成512×512图像耗时约几十秒,内存占用约1.5GB。应用支持多种风格,但中文文字生成目前为乱码。Android用户可通过WebGPU网页版体验。
兄弟们,端侧生图模型又有新东西了! 之前有客户端Drawthing 客户端也是支持iPad 手机进行文生图~ 今天PrismML也来了一个好玩的... 他们发布了1-bit和Ternary版本的Bonsai Image 4B扩散模型。 1-...
开发者 AlexFinn 在连续两个月、每天数小时并行使用 Codex 和 Claude Code 后,决定转向 Codex。其核心原因在于 Codex 拥有强大的自测闭环功能:每次代码改动后,它会在内置浏览器中自动验证,形成“改→测→修”的自动化循环。这一机制将首次交付有 bug 的改动比例从约 40% 显著降低至 ≤3%,可靠性大幅提升,更利于开发者保持心流。他建议开发者不要对任何公司忠诚,应始终使用当下最好的工具。
I'm 100% Codex pilled now Been using Codex and Claude Code side by side hours a day for 2 months straight No longer usin...
Gemini 3.5 Flash在速度与agent能力上实现进步,实测输出速度可达约280 output tokens/sec,在GDPVal-AA agent任务中ELO提升至约1650,相比Gemini 3 Flash有显著提升。但代价是成本增加约5倍,主要因token单价上涨(为Gemini 3.5 Flash的3倍)以及使用量更高。
腾讯AI智能体产品Marvis被用户卸载。主要问题在于:1)隐私风险高,初始化时过度索要权限,获取了用户全部的App列表和文件清单(并做了分类);2)实际Agent能力与输出效果不佳。其交互界面虽有创意(如模拟办公室的小动画,Agent会摸鱼),但核心执行效果一言难尽,导致用户因担忧数据隐私而选择放弃使用。
腾讯的 Marvis 今天手痒我真的去试了试 怎么说呢?确实是我手痒了,这手得剁 😂 整个软件,就这个 Agent 模拟办公室的 dashboard 小动画也有些意思,Marvis 这个项目经理,收到任务后,会小跑到需要调用的 Agent...
智谱发布了推理速度极快的GLM-5.1-highspeed版本。测试者发现其生成代码的速度已超过人类打字速度,因此构建了一个语音转文本的编程交互场景。从用户说完语音指令到代码修改完成、页面渲染,整个链路(包括语音识别、模型判断并发与prefill、tool call修改代码)耗时约3秒。这种量级的速度提升带来了全新的实时交互可能性。该模型目前正向部分企业用户提供内测。
推文指出,当前用于推动AI能力发展的困难问题过于集中于数学领域(如Erdős问题)。虽然数学易于验证,但其成果对日常生活的直接影响不够明确。作者呼吁需要为包括工程、经济、物理、生物等在内的更多领域建立困难问题库,并配套制定相应的评估方法,以让AI智能体处理更复杂、答案更不明确的任务。
美团发布数字人模型LongCat-Video-avatar-1.5,可通过图片和音频生成口播视频。demo仅支持5秒480p视频。实测中人物嘴部遮挡案例效果与SOTA有差距,主要在口型。最大分辨率720p,但可AI提升至4K。模型本地部署可行,对动漫人物泛化,但体积大,int8量化需16G显存。
腾讯的Marvis项目展示了一个AI智能体模拟办公室的Dashboard动画。动画中,项目经理Marvis在收到任务后会小跑到需要调用的AI智能体面前沟通,后者开始工作后,Marvis会返回工位监控进度;闲置的智能体则会模拟“摸鱼”玩游戏。该设计调侃了常见的职场生态。不过,对于该智能体的实际任务执行结果,推文作者表示体验不佳,“一言难尽”。
Salute to the Qwen team 🫡 We tested Qwen 3.7-Max, Gemini 3.5 Flash, GPT-5.5, and Claude Opus 4.7. The biggest shock cam...