BREAKING: MiMo V2.5 Pro (Thinking) takes 3rd overall out of open weights models on Design Arena. MiMo V2.5 Pro (Thinking...
BREAKING: MiMo V2.5 Pro (Thinking) takes 3rd overall out of open weights models on Design Arena. MiMo V2.5 Pro (Thinking...
Get笔记的价值被严重低估,其会员年费仅99元,性价比极高。核心功能在于用户只需提供链接,即可解读来自小宇宙、B站、抖音、YouTube、TikTok等多个平台的内容,并能获取原始转写文本。此外,它还通过提供Skill和Cli工具,允许用户将Codex分析功能接入自己的网站,实现了服务的深度集成与扩展。
前段时间参与了 Doubao-Seed-2.0-lite 0428 内测。 这个版本升级,增加了音频理解,能同时支持图片、视频、音频、文本四种输入,成为豆包大模型家族首款全模态理解模型。 除了全模态理解,据说 Agent、Coding、GU...
测试Ethan_Yang_AI团队开发的Knowly,其解读YouTube视频和arXiv论文的效果令人惊艳。尽管存在免费额度略少、向量处理稍慢的不足,但其产品交互和解读效果均不逊色于NotebookLM。其配套的Chrome插件在用户数尚少时即被谷歌列入精选,彰显了产品实力。
AIIQ.org网站上线,通过12个基准测试在抽象、数学、编程和学术四个维度评估流行大模型,智能估算其IQ分数。EQ由EQ-Bench和Arena Elo加权计算,并对Anthropic模型施加200分惩罚。网站提供IQ与成本、EQ的对比图及3D分析,以人类智力标准衡量AI综合能力。
用户实测腾讯元宝的群聊总结功能,发现其与预期存在较大差距。该功能无法自动进群总结,需用户手动多选聊天记录并转发给元宝,且存在操作上限不明确的问题。生成的总结内容被批评为机械的文本拼凑,缺乏AI应有的智能分析与提炼能力。用户指出,最核心的需求是能将元宝直接拉入群聊并自动梳理每日重点,但目前这一简单需求并未得到实现。
The top 5 labs in Text Arena rankings by category show that frontier models have distinct strengths and tradeoffs. #1 @A...
Announcing agentic performance benchmarking for Speech to Speech models on Artificial Analysis. We use τ-Voice to measur...
🎤 Keynote announcement: @percyliang (Percy Liang), Professor of Computer Science at @Stanford, founding director of the...
The first ProgramBench task was just solved by GPT 5.5 high/xhigh. Interestingly, high/xhigh picked two different langua...
Artificial Analysis推出语音智能体基准测试𝜏-Voice,用于评估客服场景中的工具调用与多轮对话能力。测试显示,当前最强语音到语音模型仅能端到端解决约一半的真实任务,与文本智能体存在明显差距。语音通道因口音、噪音、网络问题及需快速响应、保持对话一致性而更具挑战。在模拟航空、零售、电信领域的真实音频条件下,xAI的Grok Voice Think Fast 1.0以52.1%的成功率领先,平均对话时长5.6分钟;OpenAI与Google的模型紧随其后。该基准补充了现有的大规模音频智能测试与对话自然度评估体系。
We are conducting an AI-assisted review of FrontierMath: Tiers 1-4. This has flagged fatal errors in about a third of pr...
Artificial Analysis发布Coding Agent指数,首次将AI模型与Cursor CLI等具体编码环境组合评估。测试基于SWE-Bench-Pro等三大真实编码基准。结果显示,Opus 4.7在Cursor CLI上以61分领先,开源模型GLM-5.1最佳为53分,但仍落后顶尖闭源模型。成本与效率差异显著:每任务成本最高相差30多倍,耗时相差7倍。该榜单揭示了不同组合在性能、成本与效率上的巨大差异,为开发者选择编码助手提供了实用参考。
Announcing the Artificial Analysis Coding Agent Index! Our new coding agent benchmarks measure how combinations of agent...
First update to PACT, my head-to-head LLM negotiation benchmark! 20-round buyer-seller bargaining game: each round the A...
人工智能分析发布编码代理基准指数,评估不同模型与执行框架组合在三大编码基准中的表现。Opus 4.7在Cursor CLI中以61分领先,GPT-5.5与Opus 4.7在其它框架中得分60紧随其后。开源模型GLM-5.1在Claude Code中获得53分,表现竞争但仍显著落后顶尖闭源模型。经济性差异悬殊:每任务成本从Composer 2的0.07美元到GLM-5.1的2.26美元不等,后者因任务循环令牌使用高达480万;任务耗时差异超7倍,Opus 4.7仅需6分钟而Kimi K2.6需40分钟。缓存命中率普遍较高,影响实际运行成本。
ProgramBench是Meta、斯坦福和哈佛团队推出的高难度AI代码生成基准测试。它要求AI仅根据二进制文件及文档,在无法反编译和联网的条件下,从零重写原程序。测试项目涵盖从jq到FFmpeg、SQLite乃至PHP编译器级别。目前表现最佳的Claude Opus在“接近完成”指标上仅达3%,GPT-5和Gemini系列通过率均为零,凸显了AI在复杂软件工程任务上的巨大挑战。
@Miles_Brundage I am actually extremely excited about robotics, but have not been able to figure out whether the major l...
Holy sh*t! That jump! So the next model after Mythos will work a whole 8 hour work day at 80% success rate, I assume.
StepFun's new StepAudio 2.5 TTS ranks #3 on the Artificial Analysis Speech Arena Leaderboard, only behind Inworld's Real...
Hermes Agent is now #1 on the Global @OpenRouter token rankings. While our journey together has just begun, we'd like to...
We evaluated an early version of Claude Mythos Preview for risk assessment during a limited window in March 2026. We est...
StepFun 推出的 StepAudio 2.5 TTS 模型在 Artificial Analysis 语音竞技场排行榜中位列第三,仅次于 Inworld Realtime TTS 1.5 Max 和 Google Gemini 3.1 Flash TTS。该模型语音自然度显著提升,以 1187 的 Elo 评分超越 Eleven v3。其定价为每百万字符 85 美元,高于领先模型;生成速度为每秒 37.6 字符,介于竞品之间。模型提供全局上下文提示和行内情感标签两种控制语音表现的方式。
OpenAI的GPT-5.5 Cyber在网络安全能力上迅速缩小与Claude Mythos的差距,耗时仅数周而非数年。在AISI的专家网络任务中,两者表现接近,GPT-5.5 Cyber通过率甚至略高,且每token成本显著更低。但Mythos在公开实践案例上仍占优势,如协助Mozilla进行大规模Firefox漏洞排查。2026年正成为OpenAI的强势回归之年,其模型性能更强、成本效益更高,且一系列决策时机精准,展现出强劲复苏态势。
Scale AI发布SWE Atlas最终榜单“Refactoring”,专门测试AI agent大规模重构代码而不破坏系统的能力。任务难度顶尖,代码改动量远超以往基准。Claude Opus 4.7配合Claude Code夺得第一。结果显示,即使前沿模型也常在重构时留下死代码、残留垃圾或漏掉调用点。国产模型中GLM-5排名最高(第8位),其次是Kimi和Minmax。榜单揭示核心挑战:写新功能容易,但干净优雅地重构老代码难十倍,真正顶级的agent需具备强大的“修代码”能力。
Today we're releasing Refactoring, the final leaderboard of our SWE Atlas suite. This new leaderboard is the ultimate te...
GPT Image 2.0模型发布后持续展现惊人能力,无需参考图即可根据名称或IP生成高质量内容,尤其在二次元画风上表现卓越,被社区认为远超Banana 2等模型。Labnana社区现已将GPT Image 2.0的免费体验作为长期福利,用户通过签到和邀请获取积分即可基本满足使用需求。
Your AI workflow passed every test. Two weeks later, quality drops. No errors. Just silent drift. The fix isn't more pre...
根据@lyricwai的llmsnare基准测试及Base44的“挫败指数”排名,Anthropic的Opus 4.6模型以1.3的指数位居榜首,显示其用户满意度最高,甚至超越了其后续版本Opus 4.7(指数1.5)。Sonnet 4.6以1.4位列第二。该测试每日消耗近100美元,结论表明新版模型在关键用户体验指标上可能出现倒退。
http://x.com/i/article/2051782974098886656
开源测试套件iFixAi通过模拟真实产品场景的测试夹具,为AI代理在部署前提供可重复、标准化的可靠性评估。它在五大风险类别下运行32项检查,评估模型是否捏造事实、遵循不安全指令、无故更改答案、隐藏不确定性或在措辞微调时行为不一致。其核心价值在于可重复性,能完整保存模型、提示词、评判标准和输入,确保不同工程师可复现相同结果。该工具主要目标并非证明AI绝对安全,而是用于捕捉性能退化、公平比较不同供应商模型,并为合规团队提供基于证据的客观报告。
http://x.com/i/article/2052027135619919876
一篇关于Claude Mythos和GPT-5.5的分析文章指出,两者在网络安全能力上基本持平,GPT-5.5可能更具成本效益。Mythos在部分通用基准和SWE-bench Pro上略微领先,但并未形成显著的能力突破。分析认为Mythos的性能符合既往趋势,并非偏离趋势的巨大飞跃。与此同时,OpenAI近期发布了多项出色产品,这反衬出Claude Mythos为何仍保持高度保密状态。
New post from @natalia__coelho on Mythos. She analyzes its capabilities using publicly reported benchmark results to det...
BREAKING: MiMo-V2.5 by @Xiaomi is #6 overall out of open weight models on Design Arena! This has an Elo of 1297 and is i...
📢Keynote announcement: @andykonwinski (Andy Konwinski), co-founder of Databricks and Perplexity AI, founder of @LaudeIn...