We conducted cyber evaluations of Claude Mythos Preview and found that it is the first model to complete an AISI cyber r...
Meta推出免费视觉模型Muse Spark,擅长visual grounding、图像文字识别与网页设计,能精准计数物体并生成边界框。但Meta采用dodgy增长策略,未经用户同意向Instagram好友推送通知。其推理能力虽solid但非顶尖,不及GPT与Claude。凭借庞大分发渠道和免费策略,Muse Spark对大型AI实验室构成长期威胁,尤其在消费级市场可能重塑竞争格局。
KellyBench基准测试检验了主流LLM在英超赛季投注中的长期预测与风险管理能力。所有参测模型均遭遇亏损,部分资金归零。Claude Opus 4.6以-11% ROI表现最佳,GPT-5.4为-13.6%。该测试通过100-150场动态赛季模拟,暴露出现有AI在持续决策中的连贯性、数据适应性与风险控制方面存在显著缺陷。
We benchmarked every major AI model at poker. GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro, Grok 4 and more. All played 5,00...
Artificial Analysis 发布 APEX-Agents-AA 排行榜,基于 Mercor 的 APEX-Agents 基准评估 AI 代理在长周期专业任务(投资银行、管理咨询、公司法)的表现。测试通过 Stirrup 框架和 MCP 工具执行 452 个任务,涵盖消息回复、文档处理等。结果显示 GPT-5.4 以 33.3% 领先,Claude Opus 4.6 (33.0%) 和 Gemini 3.1 Pro Preview (32%) 紧随其后,三强竞争激烈。评分采用 LLM 评判和 pass@1 标准。
针对真实场景任务需求,我们发布了AI Agent全景概览报告,涵盖通用办公、编程、聊天机器人、演示文稿、OCR、数据分析及客户支持七大类别。报告详细梳理了各类Agent在文件类型处理、系统集成、浏览器自动化、自定义模型支持及开源状态等关键维度的能力差异。这仅是Agent基准测试的开端,后续将持续推出更多定量分析,深入评估各场景下Agent的实际表现与适用性。
开发者澄清该测试并非让大模型模拟数据库,而是要求其从零编写代码实现高性能向量数据库,重点考验体系结构、数据库、索引性能调优及 Agent 等编程能力。评测框架 vector-db-bench 已开源,详细测评视频即将发布。
@karminski3 你这只是在测试recall和记忆力啊 agi真正需要的是推理能力,思考能力,原创能力,解决问题的能力 现在还没有人可以超过claude
AA-AgentPerf是面向Agent时代的AI硬件基准测试,采用真实Agent工作负载(支持200轮交互和超10万token序列),而非合成查询。该基准允许KV cache重用、分离式预填充/解码等生产级优化技术,测量每加速器、每kW TDP、每小时成本及每机架的最大并发用户数。支持从单卡到整机架的各类架构,首批覆盖gpt-oss-120b和DeepSeek V3.2模型,旨在为AI硬件采购与部署提供真实性能参考。
Inworld、ElevenLabs 与 MiniMax 继续领跑 TTS 排行榜,今年发布的模型包揽前五中的四席。当前领先模型在简单文本上逼真度显著提升,用户偏好差异主要体现在声音风格选择上。评估方法已加强机器人投票过滤,并新增基于95%置信区间的排名范围。具体指标方面,Inworld TTS 1.5 Max 以1,238 Elo分居首,Kokoro 82M v1.0以$0.65/百万字符成为价格最低选项,WaveNet则以每秒419字符领先批处理速度。
1/n I'm really excited to share that our @OpenAI reasoning system got a perfect score of 12/12 during the 2025 ICPC Worl...
1/n I'm really excited to share that our @OpenAI reasoning system got a perfect score of 12/12 during the 2025 ICPC Worl...
关联讨论 1 条Google DeepMind:Blog(RSS)推文指出计算机视觉(ImageNet)和自然语言处理(MMLU、HLE、SWEBench)已建立标准化基准体系,而机器人学仍缺乏统一评估标准,存在硬件、任务定义、评分体系混乱的问题。由ImageNet创造者开发的BEHAVIOR项目基于Isaac Sim物理引擎,旨在建立可复现的机器人学统一基准。该项目已启动首届NeurIPS 2025挑战赛,期望成为推动领域进步的标志性信号。
(1/N) How close are we to enabling robots to solve the long-horizon, complex tasks that matter in everyday life? 🚨 We a...
What a show! The Kaggle Game Arena AI Chess Exhibition Tournament is complete, and the winner is O3 🏆! A huge thank you...
We introduce LiveCodeBench Pro, a live, exceptionally challenging benchmark comprising competitive programming problems ...