14:40

karminski-牙医@karminski3

DeepSWE 基准测试发布，GLM-5.2 与 Kimi-K2.7-Code 分别成为国产编程 SOTA 与性价比 SOTA

DeepSWE 基准测试发布榜单，GLM-5.2 为国产编程大模型 SOTA，Kimi-K2.7-Code 为性价比 SOTA。该榜单与 SWE-Bench-verified 不同：问题由人工针对开源项目制造，可避免数据泄露；每个问题需修改上百行代码，考验模型规划能力，且不提供工具指引，更贴近真实工程场景。覆盖 TypeScript、Go、Python、JavaScript、Rust 等多种语言，而非仅 Python。榜单于 5 月发布。

编码评测/基准

14:08

向阳乔木@vista8

海立老师写书速度真快，开源了第三本书《Deep Agents in Action》。如果你对Agent开发感兴趣，可收藏学习，很好的资料。

Harry Zhang: A gift to the Chinese developer community for anyone building agents on @LangChain: After 2 books on the ecosystem, I op...

智能体教程/实践

14:08

Hacker News 热门（buzzing.cc 中文翻译）

AI末日论被指为行业高估值提供依据，GLM-5.2等实际技术进展被忽略

作者在Berkeley观察到AI圈陷入“末日论”狂热，认为Anthropic等公司通过渲染AI急速发展、递归自我改进可能提前到来等恐慌来支撑估值，而非聚焦实际技术。相比之下，GLM-5.2博客展示了渐进改进的技术进步，该模型与Opus 4.8和GPT-5.5相当。作者称当前系统的估值建立在未来假设而非现实之上，并质疑这种通过末日叙事驱动泡沫的做法应被追究责任，呼吁反思如何构建可持续的经济与社会。

大佬观点现象/趋势

14:08

Rohan Paul@rohanpaul_ai

Nature研究：AI或削弱专业人士硬技能

一项发表于《自然》的研究指出，AI虽能节省时间，但可能削弱专业人士依赖的硬技能。波兰结肠镜研究显示，引入AI工作流后，有经验内镜医师独立操作的腺瘤检出率从28.4%降至22.4%。AI并非让人瞬间疏忽，而是改变了技能培养的“摩擦”机制——从主动搜索变为被动确认。类似现象也出现在软件开发中：一项2026年随机研究发现，AI辅助虽帮开发者完成任务，但过度委派削弱了概念理解、代码阅读和调试能力。

数据/训练现象/趋势

14:06

AYi@AYi_AInotes

Tom Osman用Codex自动完成App全功能测试与修复

Tom Osman用Codex的/goal功能，一条指令让AI自动将App所有功能拆解为用户故事，覆盖105个页面路由和67个API，生成183个用户故事。AI循环执行扫描、写测试、运行、自动修复、回归测试、补漏，持续4.5小时完成质量闭环。@gdb称这是“用Codex测试App中的每一个功能”。该流程从AI辅助写代码升级为AI自主负责质量，但局限是仅基于现有代码测试，可能固化错误或产生幻觉，大项目成本高，最终需人类把关。

Greg Brockman: codex for testing every single feature in your app:

智能体教程/实践编码

14:06

AYi@AYi_AInotes

GLM-5.2 母公司智谱股价半年涨约16倍，因测评对比改变默认选项

智谱年初上市，股价从约131.50 HKD涨至约2,094 HKD，YTD涨幅约1,492%。背后由GLM-5.2与Fable 5测评对比驱动：同一任务下GLM-5.2效果达Fable 5九成，但价格不到$0.10（Fable 5约$5），价差五十倍。该对比改变了设计探索默认选项——当开源模型做到“够好且便宜到可以随便用”，用户优先选择低成本方案。GLM-5.2此次正好踩上这条线。

AYi: 难怪今天智谱股票突突突疯长26%, 刚刷到一个GLM-5.2和Fable 5的测评, 同一个任务,同一句 prompt,同一张参考图, Fable 5 确实更精致,间距、质感、整体完成度, 一眼就能看出差距, 但 GLM-5.2 做出来的东...

图像生成大佬观点开源生态