GLM 5.2 以 34.29% 得分在 PostTrainBench 上排名第一。该基准测试 AI 智能体能否实际训练改进原始 LLM:智能体拿到 4 个小基座模型、1 块 H100 GPU 和 10 小时,需自主选择训练数据、编写训练代码、运行微调、修复失败并提交改进后模型。GLM 5.2 作为控制训练流程的智能体,评测其能否在限定条件下提升 4 个较弱 LLM。当前官方指令模型得分 51.14%,显示智能体后训练流程与更成熟的人工调优仍有差距。
GLM 5.2 以 34.29% 得分在 PostTrainBench 上排名第一。该基准测试 AI 智能体能否实际训练改进原始 LLM:智能体拿到 4 个小基座模型、1 块 H100 GPU 和 10 小时,需自主选择训练数据、编写训练代码、运行微调、修复失败并提交改进后模型。GLM 5.2 作为控制训练流程的智能体,评测其能否在限定条件下提升 4 个较弱 LLM。当前官方指令模型得分 51.14%,显示智能体后训练流程与更成熟的人工调优仍有差距。
美团 LongCat 团队推出 VitaBench 2.0,首个真实生活场景下针对长期动态用户建模的智能体评测基准。包含56名拟真用户、819个复杂任务、超2000个动态偏好及66个可执行工具,每位用户平均2093个交互事件,时间跨度平均1580天。同时支持长文本上下文学习和智能体记忆策略评测。测试显示,最强模型 Claude-Opus-4.6 在“开卷”模式下平均分刚过0.5;开启思考模式并不总能提升个性化任务表现;所有模型在需要主动提问的任务上得分断崖式下跌。VitaBench 2.0 已开源。
Snowflake CEO 用 103 个 dbt 任务×3 轮对比 GLM 与 Opus 成本。原始 token:GLM 860M、Opus 439M(约 2 倍)。原因包括平均轮次多(99 vs 80)、工具调用粒度细、缓存命中率低(53% vs 96%)。差异几乎全部来自尾部失败案例(少数任务 400+ 次调用)。归一化至 90% 缓存率后,GLM 每 session $1.12,Opus $2.14,GLM 便宜约 48%。建议:分层考量 token 量、调用次数、单价、缓存率、稳定性;优先削减尾部失控会话;同一模型换 harness 经济性可数量级变化。
Follow-up to my GLM vs Opus thread: let's talk cost. We ran 103 dbt tasks x 3 trials on each model. Same harness, same t...
Hyper3D 推出 Rodin Gen-2.5,最快4秒生成百万面级模型,几何加贴图最快5秒,最高档可达千万面。新增 Bang to Parts 拆件功能,能理解物体结构自动分离零件,支持框选二次细分。原生3D贴图配合PBR材质,确保360度纹理连续。提供多档位,Micro微观模式可生成12k原生贴图还原皮肤纹理。配套3D ControlNet、3D Editing及DCC插件,支持已有模型加载再编辑。
刚刚 Cola 上线了最新的 Seed 2.1 Pro 模型 这个模型是原生多模态模型,是目前的多模态最强模型。 相比 2.0 版本,增强了 coding 能力和 Agent 能力,具体的评测可以参考藏师傅的文章 体验地址 http://c...
在隐藏 222 项 Playwright 测试 oracle 的条件下,两个 Copilot CLI 智能体(Claude Opus 4.7、GPT-5.5)将 React Fluent-UI 数据表重写为 Angular 可复用库,经 18 次运行和三种 oracle 可用性实验。无 oracle 时库不完整;有 oracle 时得分近完美,但直接展示被测试行为的 demo 显示关键功能缺失。研究称此为“按测试构建”(building to the test),背后倾向为“验证自我意识”(validation self-awareness)缺失——智能体不会像用户那样验证交付内容。该问题在其他智能体、信号和模型族中的普遍性仍是开放问题。
PerceptionRubrics 提出基于规则的多模态评估框架,将评估从整体语义匹配转向原子化审计。它配套 1,038 张信息密集图像与超过 12,000 条实例特定规则,这些规则源于环形同行评审共识流水线构建的金标准描述,并提炼为“必须正确”与“易错”双流系统。框架采用门控评分机制:强制视觉事实失败触发二值惩罚。评估揭示三大发现:①可靠性差距——模型能正确验证碎片化元素,但在严格合取约束下暴露脆弱性;②开源-闭源分层——前沿模型存在 8% 感知差距;③人类对齐严格性——门控指标远超传统基准。
TUA-Bench是一个通用终端智能体基准测试,包含120个真实世界任务,覆盖文档编辑、邮件管理、实时网页信息搜索及科研与工程工作流五大类别。任务在真实终端中通过确定性脚本执行,采用基于执行的评分协议评估。最强前沿模型Claude Code搭配Claude Opus 4.8最大推理努力,整体性能65.8%,各任务类别间差距显著。该基准旨在推动从窄任务助手向多数字环境可靠运行的通用终端智能体转变。
一项针对主流AI模型政治偏见的评估显示,6个模型中4个在经济/社会维度上偏左。项目关闭网络搜索,向每个模型重复提问同一组开放问题,用中性分类器分析答案中的立场、回避、拒绝类型和措辞,将多次运行结果绘制为偏差云图(带95%置信区间)。所有原始答案永久存储并可重新计算。用户可参与测验,与模型比对自身立场。项目强调描述性而非规定性,不评判对错。
GitHub Copilot agentic harness 在多个基准测试中表现强劲,同时具备领先的 token 效率,并支持在 20 多个模型间灵活选择。
Artificial Analysis 发布最新 AI 视频编辑排行榜,HappyHorse-1.0 综合实力第一,Seedance 2.0 第二,Wan 2.7 第三。榜单基于约 8 万次人工盲评,从视觉效果编辑、物理与世界模拟、声音与语音编辑、对象编辑、复杂编辑五个能力维度评分。HappyHorse-1.0 是唯一在所有五个能力中均进入前三的模型,并在其中四个能力排名第一或并列第一。Kling 3.0 总排名第五,但在视觉效果编辑上排名第一。
We're sharing new research on how models hack public benchmarks. The latest models, including Opus 4.8 and Composer 2.5,...
微软 MAI-Image-2.5 在 Artificial Analysis Image Arena 排行榜上位列文本到图像生成第2名、图像编辑第3名,仅次于 OpenAI 的图像模型。该模型支持文本到图像生成与图像编辑,最大输出分辨率约 1MP,支持灵活宽高比,上下文窗口 32K token。更快、更低成本的 MAI-Image-2.5-Flash 变体在文本到图像和图像编辑中分别排名第8和第6。API 定价:MAI-Image-2.5 为 $48/千图,Flash 版 $20/千图。模型已上线 Foundry API 和 MAI Playground,其中 MAI-Image-2.5 还可在 PowerPoint 和 OneDrive 中使用。
华盛顿邮报调查显示,多数主流AI聊天机器人在政治问题上明显偏左。OpenAI GPT-5.5在80%回答中仅呈现左派论据;DeepSeek V4 Pro为70%;Anthropic Claude Opus 4.8有43%纯左、57%给出双方观点。xAI的Grok 4.3左倾回答仍多于右倾。右翼平台Gab的Arya左倾回答是右倾的12倍。Google Gemini 3.1 Pro是例外,93%回答同时呈现双方立场。特朗普推动的“反觉醒”AI未能改变这一格局。
美国作家协会用10篇2020–2022年发表的文章测试多款AI检测器。Pangram和Grammarly正确识别每篇人类文本(0%误报),Originality.ai同样精准。而Sidekicker全部误判为AI生成(两篇评分100%),ZeroGPT也不可靠,对每篇人类文本报告较高AI百分比。协会警告这些工具不应作为唯一决策依据,误判可能使作者失去合同和声誉。该测试主要反映检测器在避免假阳性上的表现,并不保证同等准确地识别真正由AI生成的文本。
Unsloth 将 GLM-5.2 压缩为 1-bit GGUF 量化版本,在 Mac Studio M3 Ultra(256GB RAM)上以约 21.6 tok/s 本地运行。与 Claude 4.8 Opus、GPT-5.5 使用相同提示进行创意输出(HTML/设计效果)对比,1-bit 版本表现不逊色,甚至更丰富、“更有想法”。GLM-5.2 本身以创意和长上下文见长,极端量化后仍保持较强表现,验证了开源模型在极端优化后正快速缩小与闭源前沿模型在实际可用性上的差距,尤其适合本地部署。
1-bit GLM-5.2 GGUF vs. Claude 4.8 Opus vs. GPT-5.5 We gave 3 models the same prompt and compared one-shot outputs. The 1...
火山引擎发布豆包Seed-2.1系列(Pro、Turbo)。实测Seed-2.1 Pro显示:Agent和Coding能力达到生产级可用线,能完成SVG动画、网页开发、CMS系统等任务;配合开源Skill可生成标题、调研报告、信息卡片及电子书。多模态识别惊喜,拍照识鱼准确识别鱼种和数量,优于Gemini 3.1 Flash。价格实惠,API已通过火山方舟全量开放。
同一事件,精选展示《Seed2.1 正式发布,深入 AI 生产力》网友 u/Mercennarius 于 6 月 23 日分享测试,在《赛博朋克 2077》4K、RT Ultra 设置下,AMD Radeon RX 7900 XTX 原生帧率为 24 FPS。启用 FSR 4.1 后,“平衡”预设将平均帧率拉至近 50 FPS,实现翻倍;“性能”预设超过 60 FPS;“质量”预设可达 40 FPS 以上。FSR 4.1 是 AMD 的图像增强与超分辨率技术。
GauntletBench是一个基于网络的基准测试,用于评估AI智能体在陌生场景中的泛化能力,聚焦时间感知、图形理解与3D推理三项未被充分探索的能力,覆盖视频编辑器、工作流构建器、3D建模器、飞行分析器和电路设计器五个专业应用,每项包含20个视觉密集型任务(共100个)。测试结果显示,最先进智能体的成功率仅19.1%,而人类非专家可达80%以上,凸显当前智能体与复杂现实场景之间的显著差距。
Artificial Analysis 发布 AA-Briefcase 基准测试,测试模型在多周项目语境下生成财务模型、董事会演示等交付物。关键结果:Claude Opus 4.8 平均每任务 23 分钟,得分最高但最慢;GPT-5.5 (xhigh) 仅 11 分钟,效率最高且 Elo 前五;GLM-5.2 得 1261 分耗时 16.3 分钟,为开源模型最佳;MiniMax-M3 得 1113 分。已下架的 Claude Fable 5 约需 28.5 分钟。工具调用仅占耗时 12%,其余由输出冗余、回合数和推理速度决定。
GLM-5.2 from @Zai_org on ARC-AGI (Verified) - ARC-AGI-2: 22.8%, $0.25 - ARC-AGI-1: 77.0%, $0.19 Performance is comparabl...
GLM-5.2 from @Zai_org on ARC-AGI (Verified) - ARC-AGI-2: 22.8%, $0.25 - ARC-AGI-1: 77.0%, $0.19 Performance is comparabl...
This is the strongest ARC-AGI-2 performance to date by an open-source model.
Snowflake 内部基准测试显示,在每项任务三次尝试下,GLM-5.2 解决 66% 的编程问题,Anthropic 的 Opus 4.7 解决 67%,两者几乎持平。首次尝试准确率 Opus 为 53.7%,GLM 为 47.6%;GLM 每任务平均迭代 99 次、消耗 8.6 亿 token,Opus 则为 80 次、4.39 亿 token。成本方面,GLM-5.2 输出 token 价格为 $4.40/百万,远低于 Opus 的 $25 和 GPT-5.5 的 $30;输入 token 仅 $1.40/百万。GLM 存在过早放弃和过度检查等弱点,但其定价优势可能对西方 AI 公司的高估值构成压力。
Treble Technologies 与 Hugging Face 联合推出 FFASR(Far-Field ASR)排行榜,这是首个开源社区驱动的真实远场声学条件 ASR 评测基准。传统近场评测无法反映混响、背景噪声和麦克风距离带来的性能下降。FFASR 使用混合波模拟引擎生成声学数据,涵盖 14 种房间(20–470 m³)和三个信噪比级别(远场高 SNR >14 dB、中 SNR 8–12 dB、低 SNR <6 dB),加上近场干燥条件,共四类条件决定主排名。另有实验室实测/模拟验证轨道和移动声源 beta 版。性能指标同时报告词错误率(WER)和实时因子(RTFx,在 NVIDIA L4 GPU 上评估)。未来将支持多说话人场景、麦克风阵列和回声消除。
邵猛分享其 AI 编程工具 Zcode 开始使用 GLM-5.2 模型,第一天体验感受:速度快、好用。但对比另一工具 Codex,Zcode 在能力全面性上仍有差距,尤其缺少 Computer Use 功能。最后感谢 @SeTriones 提供 GLM API Key。
生成式AI已重塑软件开发,从逐行自动补全扩展到全应用生成、多智能体构建管道和自然语言代码库交互。文章对比了16个最佳工具:Atoms*支持自然语言生成可部署应用并并行运行多模型;GitHub Copilot提供IDE内智能补全与代理模式;Tabnine主打本地化私密代码补全;Replit为云端IDE与AI代理;Warp增强终端AI;Hugging Face提供开源模型平台;Codacy自动化代码质量分析;Metabob基于图神经网络检测深层缺陷;aiXcoder可本地运行开源代码模型;Bloop将代码搜索转向AI智能体基础设施;Mintlify等覆盖IDE插件、云部署到代码质量管理多种场景。
邵猛使用 TRAE Work 测试了字节跳动最新发布的豆包2.1 Pro 模型。官方称豆包2.1 系列在 Coding 和 Agent 能力上显著提升,VLM 能力保持领先,综合能力介于 Claude Opus 4.6 和 4.8 之间。实测中,模型先思考整体规划与实现过程,再读取设计图理解场景和细节,调用最合理的 Skill 规划网页逻辑,分步骤实现后通过本地预览和视觉验证确保效果。最终输出在视觉还原、交互和技术实现上非常细致,包括布局、字体选择、自适应布局,甚至为每个部分配上具有实际意义的图片而非占位符。
微信小微Agent常驻左上角,支持语音/文本输入,基座模型为微信自研WeLM(WeLM-V4-80B MoE,激活3B)及DeepSeek。可发消息、红包、语音通话,但每一步需用户确认,且禁止批量发送、读取聊天记录、转发笔记等。已打通朋友圈(限最近2天)、公众号、视频号,支持通过小程序进行本地生活、出行、充值等操作。当前权限“只读不动”,不能删除好友或取消关注。作者认为这是微信最大更新,但在智能程度和便捷性上仍有不足。
NatureBench是一个跨学科基准测试,包含90个从Nature系列同行评审论文中提取的任务,用于评估AI编码智能体能否超越复现、实现发现。基准基于NatureGym自动化管线,为每个任务提供标准化容器化环境,解决环境碎片化问题。在严格禁用网络搜索的协议下评估10种前沿智能体配置,最强模型仅在17.8%任务上超过已发表SOTA(g>0.1准则)。分析表明,智能体成功主要依赖方法论翻译,失败主因为方法选择错误和计算预算不足。已发布基准、NatureGym管线及公共排行榜。
当前扩散Transformer(DiT)研究集中于ImageNet类别条件生成单一评估设置,方法排名与文生图(T2I)任务间无强相关。NanoGen框架统一了DiT训练与评估:在ImageNet上匹配SOTA基线,仅需修改12行配置即可训练T2I模型,两种任务训练计算量相当。基于NanoGen训练21个潜在扩散模型后,三个指标上ImageNet与T2I排名间的Pearson相关系数为-0.377至-0.580,表明仅靠ImageNet FID改进未必反映T2I真实进步。为此整合ImageNet与T2I结果形成DiffusionBench,作为替代单一ImageNet评估的DiT整体基准。
博主用自进化重型求解器Apodex测试“AI Agent公司如何选择产品方向”。Deep Discovery模式下,Apodex拆解为开发者工具、企业工作流、研究助手三条线,补充VC视角、市场规模等来源,持续验证后给出排序:1. 垂直企业工作流Agent(有明确买方和成本替代逻辑);2. 垂直研究助手(需针对法律、金融等高价值场景);3. 开发者工具(竞争被Codex、Cursor、Claude Code等占据)。Apodex强调先验证后下结论,适合变量多、需取舍的复杂议题。体验入口apodex.ai,Hugging Face可下载模型。
一项研究对比了基于智能体大语言模型的机器翻译(MT)与人工翻译(HT)在文学作品中的读者体验。15名读者评估了15部近期从法语、波兰语和日语译成英语的小说节选(每部约8000词)。在沉浸式阅读(30次比较)和精读(772次片段对比)中,读者认为MT“还行”,但更偏好HT(节选19/30偏好HT,片段522/772),因其更易读、清晰且沉浸。MT质量波动更大。读者无法可靠区分两者(17/30猜对),且倾向于相信是人工翻译的版本。自动评测指标(包括LLM作为评判者)无法复现读者偏好。研究发布了LAIT数据集(含1000条读者评论、2000条偏好评分、7200条片段级标注)。
论文提出 Physics Question Scene Graph (PQSG),一种层级问题图评估方法,利用 VLM 生成带逻辑依赖的问题图,从对象、动作和物理定律三个维度细粒度检查生成视频。为验证方法,构建了 FinePhyEval 数据集,包含来自 Sora 2、Veo 3 和 Wan 2.1 的生成视频及人工标注。PQSG 的细粒度评分与人类判断相关性优于以往方法,且闭源模型物理真实性排名高于 Wan 2.1。此外,FinePhyEval 标注可用于子任务评估:两个强 VLM 能生成类人问题,但回答准确率仍不及人类。
Kiwibit Bird Feeder 2 4K AI Camera 是一款智能鸟食器,售价 $179.99 至 $249.99。设备配备太阳能板、130 度广角镜头、双向音频,支持 2.4 GHz Wi-Fi 与云存储。配套手机应用通过 Kiwibit 自有算法识别超过 10,000 种鸟类,如冠蓝鸦、乌鸦和哀鸽。测试期间成功记录 6 个物种的造访。应用会推送访客通知,并提供每种鸟类的维基百科详情。缺点是 AI 偶尔会将长时间进食的鸟误计为多次“造访”,并将偷吃种子的松鼠标记为“有害动物”。
苹果机器学习研究团队发现,LLM-as-a-judge面板因模型间高度相关而严重受限。对7个模型家族的9个前沿大语言模型在3个自然语言推理数据集上的测试表明,9位评委实际仅提供约2个独立投票的信息量,面板准确率比独立投票理想值低8–22个百分点,最佳单一模型的表现已匹敌或超越整个面板。增加评委数量或改进聚合算法收效甚微,即使允许算法获取正确答案也仅能缩小至多11%的差距。该结论在多种提示变体、温度设置及偏好任务中均得到验证,瓶颈在于评委间的相关性而非聚合算法。
售价 99 美元的 Fitbit Air 是一款轻便手环,续航出色(一个月仅充电三次,45 分钟可充至 85%),支持心率、睡眠、血氧、准备度等指标。核心亮点是与 Google Health 绑定的 AI 健康教练,基于 Gemini 驱动,每日推送睡眠与准备度总结及行动建议,可解读数据趋势并生成旅行健身计划,但不提供诊断。该教练需 $99/年 Premium 订阅,且不独占于 Air。作者认为多数 AI 健康功能是“糟糕的贴金捞钱”,但 Google Health Coach 是其中最接近不糟糕的一款,前提是用户愿意投入大量精力进行引导。