JamSet和JamBench是基于Godot引擎的首个项目级游戏代码框架数据集与基准。从24万仓库筛选出8133个验证项目,其中300个手动验证为JamBench。定义主题驱动生成与代码补全任务,用编译通过率、结构完整性(SCS)、行为对齐(BAS)评估。9个前沿模型评测显示项目规模增大导致运行时通过率从80.4%(小项目)降至5.7%(大项目)。代码智能体提升编译率但未改善运行时行为,瓶颈在架构设计。实验验证JamSet作为训练数据有效。所有数据与代码已公开。
JamSet和JamBench是基于Godot引擎的首个项目级游戏代码框架数据集与基准。从24万仓库筛选出8133个验证项目,其中300个手动验证为JamBench。定义主题驱动生成与代码补全任务,用编译通过率、结构完整性(SCS)、行为对齐(BAS)评估。9个前沿模型评测显示项目规模增大导致运行时通过率从80.4%(小项目)降至5.7%(大项目)。代码智能体提升编译率但未改善运行时行为,瓶颈在架构设计。实验验证JamSet作为训练数据有效。所有数据与代码已公开。
Counsel是首个公开的智能体任务元评估数据集,包含开源权重LLMJ在tau-bench(客服)和DA-Code(编程)两个基准上的过程级批评及对应人类元评估。人类标注者将批评标记为“完全准确”“位置正确但推理欠佳”或“不应标记”,一致性达Krippendorff alpha 0.78。研究发现更强评判模型和更多推理努力均能提升与人类的一致性:最强模型位置标注一致率约88%,推理标注约65%。数据集使用开源权重模型生成并采用宽松许可,可用于校准、改进或训练面向智能体的LLMJ。
Announcing AA-Briefcase, the benchmark for the next era of agentic knowledge work AA-Briefcase is our new benchmark for ...
Artificial Analysis 推出新基准 AA-Briefcase,用于评估模型在长期知识工作项目中的智能体能力。基准包含 4 个私有场景(每项目需处理 25000+ Slack 消息、3500+ 邮件等碎片化上下文)及一个公开演示场景。评测结果:Claude Fable 5 以 Elo 1587 领先,其次为 Claude Opus 4.8(1356)、Opus 4.7 及智谱 GLM 5.2(max,1266)。成本方面,Claude Fable 5 平均每任务 $31,Opus 4.8 为 $10.40,GPT-5.5 (xhigh) 为 $3.68,GLM 5.2 (max) 为 $2.40,DeepSeek V4 Flash (max) 仅约 $0.04。所有模型中仅 3% 的任务满足全部标准,31/91 个任务无模型得分超 50%,显示真实世界复杂性仍是挑战。最佳性价比为开源权重模型 GLM-5.2 (max) 和 DeepSeek V4 Pro (max)。
Wisedocs 发布 Medical Long Context Reasoning (MLCR) 基准,测试 LLM 对真实医疗档案的长文档推理能力。评测包含 250 个问题,横跨 6 个难度等级,另设私有保留集,涵盖复杂医学推理、幻觉检测及单次查询中的并行提问。Wisedocs 同步开源 10 个合成病例、低三级问题及评估工具。Artificial Analysis 将合作上线该基准。
Introducing MLCR, a novel Medical Long Context Reasoning benchmark. Our eval measures the ability of LLMs to answer real...
每周超2.3亿用户通过ChatGPT获取健康信息。GPT-5.5 Instant在健康评估中表现显著提升,最具挑战性评测上达到前沿Thinking模型水平,已面向所有免费用户开放。基于医生编写的HealthBench和HealthBench Professional评估,其回复在准确性、安全性和沟通质量上优于医生手写回复及早期模型,故障模式发生率更低。近两个月生产流量显示,健康类回复事实性问题率下降71%。
关联讨论 3 条The Decoder:AI News(RSS)X:Rohan Paul (@rohanpaul_ai)X:Greg Brockman (@gdb)GLM-5.2 在 Design Arena 上取得第一,Elo 达 1360,超越已关服的 Claude Fable 5。模型为开源权重,排名上升 4 位,Elo 提升 27 分,创下代码类历史最高分。
BREAKING: GLM-5.2 is now 1st on Design Arena. With an Elo of 1360, GLM-5.2 has jumped ahead of the now unavailable Claud...
Introducing LifeSciBench, a benchmark for measuring and improving how well AI supports real-world life science research....
推文测试了 Grok imagine 1.5 的动作生成效果,认为其相比 seedance2.0 稍弱,但进步明显、潜力较大,并归因于 Elon 收购 Cursor 后的效益最先在 Grok 显现。
长上下文大语言模型的KV缓存随序列和批次线性增长,成为内存和延迟瓶颈。Google与NYU的TurboQuant采用数据无关随机旋转与最优标量量化,在3–4 bit位宽实现近乎无损,4×压缩下Needle-in-a-Haystack全精度召回。Together AI的OSCAR使用注意感知旋转校准,INT2(2.28有效比特)下精度不崩溃,集成SGLang,Qwen3-32B上仅差0.02分,GLM-4.7-FP8匹配BF16,解码速度提升约3倍,KV缓存内存减少约8倍。Apple的EpiCache则针对两者均未解决的多轮对话场景。两者在各自目标位宽上各有优劣,具有理论互补潜力。
美团智能创作团队构建了覆盖“生成—编辑—评判”全链路的海报生成技术体系。PosterCraft(ICLR 2026)通过四阶段级联优化实现端到端高美感海报生成,文字渲染准确率接近顶级闭源商业系统;PosterOmni(CVPR 2026)以单一统一模型覆盖扩图、补全、比例调整、风格迁移等六类设计任务;PosterReward(CVPR 2026)是首个专门面向海报质量的奖励模型,在专项评测基准上达86%准确率。三者相互协同,已全部开源至MeiGen-AI仓库,并在美团外卖套餐图生成、品牌IP袋鼠团团等业务中落地。
OpenAI 推出 LifeSciBench,包含 750 个由博士级科学家编写的任务,覆盖 7 个工作流和 7 个生物领域。每个任务配有提示、支撑材料及 19,020 条原子化评分标准,约 79% 的任务需多步推理(平均 4 步)。评估五个模型中,领域专用模型 GPT-Rosalind 通过率 36.1% 领先,其后 GPT-5.5 为 25.7%、Gemini 3.1 Pro 为 23.6%、GPT-5.4 为 20.7%、Grok 4.3 为 13.0%。1,062 份附件(序列、图表、PDF 等)使模型表现明显下降。453 位评审验证一致性超 96%。
本文对Physics-IQ基准进行系统审查,指出其缺陷并提出三项改进:优化提示词与真实数据质量以减少混淆因素,引入样本级评分系统使每个样本和指标权重相等。改进后的Physics-IQ Verified基准优化了57.6%的样本和34.8%的提示词。在六种图像到视频生成模型的对比研究中,排名出现中等但有意义的变化(Kendall's τ=0.46)。基准代码已开源。
RNG-Bench是一个评估多模态大语言模型在闭环交互中重建过去观测并据此行动能力的基准套件,包含Matching Pairs和3D Maze两个互补游戏。基准通过网格大小、视觉模式和观测模态三个难度轴控制复杂度,并引入对决赛制消除实例方差及Memory Gap指标分离遗忘与决策错误。最难配置需约128K tokens上下文和每轮350张图像,前沿模型尚未饱和。Memory Gap分析显示主要错误源于遗忘。微调Qwen3.5-9B可提升该基准性能并迁移至现有基准,不损失通用多模态能力。
@nutlope 让 Kimi K2.7 Code 和 Claude Fable 5 各生成 12 个落地页并排对比。初始两者均有“AI 生成感”;为 Kimi 设置自定义 Design Inspiration MCP Server(利用多模态能力)后质量显著提升。成本上,B2B SaaS 单页 Kimi 仅 4 美分,Claude Fable 1.09 美元(约 27 倍差);平均 Kimi 比 Fable 便宜约 16 倍、比 Opus 便宜约 8 倍,总成本降低 94%。质量由 GPT-5.5 评分(0-100),Claude Fable 略高但差距小,Kimi 性价比突出。实验表明,结合高质量视觉参考后,开源模型已足以支持实际落地页工作流,批量迭代优势显著。
http://x.com/i/article/2067278912984436736
苹果 GPTK 4 引入 Agentic AI 能力,通过 GitHub 开源智能体技能自动应用 Metal 最佳实践。测试显示,在 M3 Max MacBook Pro(48GB 内存/40 核 GPU)上,《赛博朋克 2077》通过 DirectX 12 转 Metal 4 帧率比 Metal 3 提升 10%;《反恐精英 2》帧率高于上一版。MacBook Neo 低设置运行《荒野大镖客 2》,GPTK 4 平均 35fps,较 GPTK 3 的 28fps 提升 25%。《007 初露锋芒》在 GPTK 3 下崩溃,现可运行至 60–70fps(1080p/中画质/FSR 质量),但每次启动需等待 20 分钟着色器编译。
StylisticBias 是一个用于评估多模态大语言模型(MLLM)属性级社会偏见的可控基准。研究团队生成500张逼真基础人脸,每张创建约50个单属性变体,共约25K图像,通过固定身份、逐次改变单一视觉属性来测量特定线索如何影响模型判断。在6个MLLM、25个二元社会判断场景中,年龄和体型主导身份层面效应,时尚风格等视觉线索引发最大属性层面偏移;约15个属性解释了近80%的总变异。模型在与社会经济和外貌语义对齐的判断中敏感性最强。StylisticBias基准及代码、数据集已开源。
Artificial Analysis 将 Claude Fable 5 列为有史以来基准测试成本最高的模型,运行其 Intelligence Index 需 $6.2K,是第二贵模型 Opus 4.8($3.7K)的 1.7 倍、GPT-5.5($2.9K)的 2.2 倍。该模型 Intelligence Index 得分 60,领先 Opus 4.8(56)和 GPT-5.5(55)。定价 $10/$50 每百万输入/输出 tokens,为 Opus 4.8 的 2 倍,仅低于 GPT-5.5 Pro($30/$180)。缓存价格同步翻倍:缓存读取 $1/M、写入 $12.5/M,而 Opus 4.8 分别为 $0.5/$6.25。Intelligence Index 成本前三高的模型目前均为 Claude。
Frontier doesn't only mean Anthropic and OpenAI anymore. I built this black hole simulator by simply dropping an illustr...
实验将11个大语言模型放入自建2D吃鸡游戏中,进行30轮对战。Grok 4.1 Fast以13胜(每胜0.97美元)夺冠,第二名Claude Sonnet 4.6仅5胜(每胜26.78美元),成本相差27倍。GPT 5.4击杀数最高(38次),但仅获2胜排第二。GPT 5.4-mini、DeepSeek 4 Flash和Kimi K2.6共花费57美元,零胜场。游戏包含武器、护甲、载具及缩圈机制,模型可编辑自身人格和记忆文件,彼此仅以字母代称。传统基准未能预测胜负,揭示出模型在“获胜”与“杀人”能力之外的决策差异。
BREAKING: GLM-5.2 is now 1st on Design Arena. With an Elo of 1360, GLM-5.2 has jumped ahead of the now unavailable Claud...
2026 年 6 月,OpenAI 联合 173 位博士级生命科学家发布 LifeSciBench 评测基准,涵盖 750 个真实研究任务,覆盖证据处理、分析、设计优化等七个工作流及七个生物领域。每项任务配有约 25 条细化评分标准(共 19,020 条),评估模型的科学正确性与实用价值。79% 的任务需多步推理,53% 要求解读图表、PDF 等附件数据,旨在衡量 AI 在复杂、不确定的研究任务中的实际能力,而非仅回答结构化问题。
关联讨论 1 条X:OpenAI (@OpenAI)智谱发布 GLM-5.2(最大推理努力),在 CritPt 基准(未发表研究级物理问题)上得分 20.9%,与 Claude Opus 4.8 持平,远超其他开放权重模型。DeepSeek V4 Pro 仅得 12.9%;GLM-5.2 同时超越 GPT-5.5、Gemini 3.1 Pro 和 Claude Opus 4.7 等专有模型。仅 GPT-5.5 Pro 以 30.6% 领先。相比十周前 GLM-5.1 的 4.6%,实现 4.5 倍代际提升。
智谱AI于2026年6月发布开源推理模型GLM-5.2 (max),总参数753B,活跃参数40B,支持文本输入输出,上下文窗口1M tokens。在Artificial Analysis Intelligence Index上以51分位居同类92款模型第一。输出速度111 tokens/s(第15/92)。价格输入$1.40/百万tokens、输出$4.40/百万tokens,属较贵一档;缓存命中$0.26/百万tokens(便宜81%)。模型权重以MIT协议开源发布于HuggingFace。
Snapshot 发布售价 2195 美元的智能眼镜 Specs,47mm 版重 132 克,52mm 版重 136 克,远高于传统眼镜(15-25 克)和主流智能眼镜(40-70 克)。CEO Evan Spiegel 称其旨在帮人摆脱屏幕、更融入世界,但镜头反光暴露了内置显示屏。厚重镜框和夸张镜腿设计醒目,无法低调。文章对比认为 Meta Ray-Ban 因外观普通更易成功,而 Snap 将 Specs 定位为高端时尚设备,由时尚摄影师 Steven Meisel 拍摄广告,模特包括 Kaia Gerber、Hoyeon 等,目标用户为早期采用者而非大众市场。
CyberGym-E2E 是一个包含920个真实漏洞、覆盖139个开源项目的大规模端到端网络安全基准。任务要求AI智能体在真实代码库中自行定位漏洞、生成触发崩溃的概念验证并编写补丁。测试表明:若直接给出漏洞位置,最强配置可修复约80%漏洞;但若需自行发现,端到端成功率急剧下降——Claude Opus 4.5仅19.2%,最新模型在37%-66%之间。智能体可能发现替代漏洞,且存在部分浅层补丁。所有漏洞已事先公开披露并修复。
Meta在Facebook应用中推出AI Mode搜索,利用公开帖子回答复杂查询。实测显示基础推荐尚可,但存在严重幻觉:推荐奥斯汀的咖啡店给明尼阿波利斯行程,并错误引用社区泳池周末闭馆(实际周末开放)。AI曾就“1月6日国会骚乱者是否为爱国者”给出可疑答复。作为规划工具,AI Mode能发现用户未注意的活动,但地理错误和引用不实让结果大打折扣。
GLM-5.2 在 Artificial Analysis Intelligence Index v4.1 上得分 51,领先 MiniMax-M3(44)、DeepSeek V4 Pro(max,44)和 Kimi K2.6(43)。模型总参数 744B,活跃参数 40B,上下文窗口 1M tokens,API 定价每百万输入/输出/缓存命中 token 分别为 $1.4/$4.4/$0.26。科学推理显著提升:HLE 得分 40%(+12)、CritPt 21%(+16)。GDPval-AA v2 得分 1524,与 GPT-5.5(xhigh)持平。每任务输出 43k tokens(其中 37k 推理),每任务成本约 $0.46,位于智能 vs 成本帕累托前沿。采用 MIT 许可证,可通过 DeepInfra、Novita 等第三方平台使用。
Z ai 发布 GLM-5.2(744B 总参数/40B 活跃参数),在 Artificial Analysis Intelligence Index v4.1 上得分 51,超越 MiniMax-M3、DeepSeek V4 Pro 和 Kimi K2.6。科学推理大幅提升:CritPt +16、HLE +12、GPQA Diamond 达 89%。GDPval-AA v2 得分 1524,与 GPT-5.5 (xhigh reasoning) 相当。上下文窗口扩展至 1M tokens,MIT 许可证。第一方 API 定价 $1.4/$4.4/$0.26 每百万输入/输出/缓存命中 token,每任务成本约 $0.46,处于智能 vs 成本帕累托前沿。
Grok Imagine Video 1.5 实测: 复刻《权力的游戏》Tyrion 经典法庭演讲,效果真的有点吊炸,完全不输seedance 2, 整个场景真实感、物理表现和原生音频都拉满了……面部微表情、布料动态、火把光影互动都很自然
Grok Imagine Video 1.5 is here Our new image-to-video model with sharper realism, better physics and faster generations ...
Artificial Analysis 昨日发布 Intelligence Index v4.1 更新,主要变化有三项:升级的评测 Terminal-Bench 2.1、τ³-Bench Banking 和 GDPval-AA v2;提供每项任务的成本、时间与模型 token 消耗数据,并展示这些指标与智能水平的权衡;新增缓存输入 token 报告,显示特定模型使用的缓存 token 量及其对成本的影响。
智谱 GLM-5.2 正式发布和开源了,基准测试成绩相当吓人 核心定位是处理长周期任务,并且有稳定的 100 万上下文,模型还引入了思考力度控制。 架构层面,GLM-5.2 提出了 IndexShare 机制,每四层稀疏注意力共享同一个 i...
大语言模型在逻辑推理基准上表现良好,但中文环境下的鲁棒性未知。研究团队提出中英文对齐基准ChLogic,包含通用对齐集(60条命题)、困难对齐集(40道难题)及纯中文集(15类语言现象),每个对齐项含一条英文参考和五种中文实现。在Qwen3、Ministral和GLM上的实验显示中英文性能持续存在差距。将中文回译成英文可提升通用集表现,但在困难集上效果混杂,Qwen3-32B和GLM-5.1翻译后性能反而下降。这表明中文实现、翻译伪影和模型特定行为共同影响多语言逻辑推理。
Fable: "write me a rhyming poem with six four line stanzas, each stanza removes another vowel. the first has no u, the s...
本周特斯拉向车辆推送监督版 FSD v14.3.4,但导航仍是最大短板。系统频繁拐错弯、错过高速出口、选低效路线、误报限速,因导航问题人工接管次数甚至超过基础操作。问题源于多源数据拼接冲突、难以从人工修正中学习、路线推理缺乏人类直觉。不靠谱的导航阻碍网约车落地、增加安全风险,并持续消耗消费者信任。
为评估视觉-语言-动作模型微调后是否保留常识与事实知识,研究提出Act2Answer轻量协议,将知识评测转为动作答题:智能体通过单次物体放置动作选择答案,获得低控制偏差的动作接地成功率。在涵盖多种常识类别的测试集上,对7个VLA模型与9个VLM基线进行排名。结果显示,VLA在简单概念上表现稳健,但在语义丰富类别上与源VLM差距较大;VQA共训练与更好知识保留相关;答案相关信号在VLA中层最强,上层衰减。