DeepSWE 基准测试发布榜单,GLM-5.2 为国产编程大模型 SOTA,Kimi-K2.7-Code 为性价比 SOTA。该榜单与 SWE-Bench-verified 不同:问题由人工针对开源项目制造,可避免数据泄露;每个问题需修改上百行代码,考验模型规划能力,且不提供工具指引,更贴近真实工程场景。覆盖 TypeScript、Go、Python、JavaScript、Rust 等多种语言,而非仅 Python。榜单于 5 月发布。
DeepSWE 基准测试发布榜单,GLM-5.2 为国产编程大模型 SOTA,Kimi-K2.7-Code 为性价比 SOTA。该榜单与 SWE-Bench-verified 不同:问题由人工针对开源项目制造,可避免数据泄露;每个问题需修改上百行代码,考验模型规划能力,且不提供工具指引,更贴近真实工程场景。覆盖 TypeScript、Go、Python、JavaScript、Rust 等多种语言,而非仅 Python。榜单于 5 月发布。
A gift to the Chinese developer community for anyone building agents on @LangChain: After 2 books on the ecosystem, I op...
作者在Berkeley观察到AI圈陷入“末日论”狂热,认为Anthropic等公司通过渲染AI急速发展、递归自我改进可能提前到来等恐慌来支撑估值,而非聚焦实际技术。相比之下,GLM-5.2博客展示了渐进改进的技术进步,该模型与Opus 4.8和GPT-5.5相当。作者称当前系统的估值建立在未来假设而非现实之上,并质疑这种通过末日叙事驱动泡沫的做法应被追究责任,呼吁反思如何构建可持续的经济与社会。
一项发表于《自然》的研究指出,AI虽能节省时间,但可能削弱专业人士依赖的硬技能。波兰结肠镜研究显示,引入AI工作流后,有经验内镜医师独立操作的腺瘤检出率从28.4%降至22.4%。AI并非让人瞬间疏忽,而是改变了技能培养的“摩擦”机制——从主动搜索变为被动确认。类似现象也出现在软件开发中:一项2026年随机研究发现,AI辅助虽帮开发者完成任务,但过度委派削弱了概念理解、代码阅读和调试能力。
Tom Osman用Codex的/goal功能,一条指令让AI自动将App所有功能拆解为用户故事,覆盖105个页面路由和67个API,生成183个用户故事。AI循环执行扫描、写测试、运行、自动修复、回归测试、补漏,持续4.5小时完成质量闭环。@gdb称这是“用Codex测试App中的每一个功能”。该流程从AI辅助写代码升级为AI自主负责质量,但局限是仅基于现有代码测试,可能固化错误或产生幻觉,大项目成本高,最终需人类把关。
codex for testing every single feature in your app:
智谱年初上市,股价从约131.50 HKD涨至约2,094 HKD,YTD涨幅约1,492%。背后由GLM-5.2与Fable 5测评对比驱动:同一任务下GLM-5.2效果达Fable 5九成,但价格不到$0.10(Fable 5约$5),价差五十倍。该对比改变了设计探索默认选项——当开源模型做到“够好且便宜到可以随便用”,用户优先选择低成本方案。GLM-5.2此次正好踩上这条线。
难怪今天智谱股票突突突疯长26%, 刚刷到一个GLM-5.2和Fable 5的测评, 同一个任务,同一句 prompt,同一张参考图, Fable 5 确实更精致,间距、质感、整体完成度, 一眼就能看出差距, 但 GLM-5.2 做出来的东...
作者在端午节假期用Claude Opus 4.8重构AI新闻聚合站AIHOT的聚簇机制,消耗2000多万token,耗时一天屡次改阈值(0.72→0.71)、补多语言等边界情况仍问题百出。对比怀念已被下架的Claude Fable 5——后者只需给模糊目标就能自动跑完并填坑。由此总结:管理AI与管理人本质相同——越强的模型(如Fable 5)给方向即可(愿景/策略层),越弱的模型(如Opus 4.8、GPT-5.5、GLM-5.2)则需更细执行层指引,错配层级正是痛苦根源。
2026年世界杯小组赛,佛得角2:2战平乌拉圭,此前0:0逼平西班牙。赛前12家大模型全部预测乌拉圭胜,0家预测平局或佛得角胜,命中率0%。佛得角连续两场让AI预测模型翻车:AI依赖历史战绩、世界排名、球员身价等量化指标,而佛得角的团队执行力、防守纪律和反击效率难以被数字描述,成为系统性的预测盲区。
2026年6月,Claude和GPT在Artificial Analysis智能排行榜上领先,但Claude推出ID验证促使作者重新评估。开放模型可通过本地或OpenRouter等第三方部署,虽存在隐私、成本与速度问题,但性能与顶级闭源模型仅差几个月,类似2008年Linux与Windows的差距但更小。作者认为转向开放模型的生产力损失是短期且可接受的,并非不可逾越的障碍。
GLM-5.2 已在 X 平台讨论多日,被称作最强开源模型,性能接近 Claude Fable 5。作者下载了类似 Codex 的 Zcode 工具,可免费试用(无需充值 Coding Plan),但第二条消息即遭遇限制或故障。
http://x.com/i/article/2067849694232080384
spotted in the west village: the carrie bradshaw-ification of codex
过去企业招聘偏爱简历完美、面试回答高度结构化的候选人。如今生成式AI让求职者轻松做到这些,无论是否有真实能力。面试表现变得可无限扩展且几乎免费,这对招聘方构成严重问题。
作者用Claude Opus 4.8重构AIHOT聚簇算法,消耗约2000万token,但Opus 4.8在只有模糊目标时漏洞百出,需不断审查修补。对比曾被下架的Claude Fable 5,后者能直接理解模糊目标并优雅完成方案。作者将AI管理类比员工管理:不同能力层级需不同管理颗粒度——Prompt Engineering对应执行层指令,Harness Engineering对应策略层目标加约束,Fable 5已能承接愿景层目标。引用任正非“让听得见炮声的人做决策”,并指出未来模型(GPT-5.6、Fable 6等)将迫使管理者聚焦“思考应该思考什么”。
Anthropic Claude Code 负责人 Fiona Fung 称工程师每季度交付代码量是 AI 普及前的 8 倍,采用常驻远程会话和定时 agent 自动生成 PR,以 bad/sad 质量框架守住质量。苹果 WWDC26 上库克卸任,John Ternus 接任;AI 权力重构:John Giannandrea 离开,Mike Rockwell 接手 Siri 并向 Craig Federighi 汇报,从谷歌挖来 Amar Subramanya 主导自研模型。新一代 Apple Foundation Models 包括端侧 30B 参数 AFM 3 Core 和 200B MoE AFM 3 Core Advanced,云端 AFM Cloud Pro,端侧需 iPhone 17 Pro 等设备。GitHub 公开内部数据分析智能体 Qubot,采用三层架构,返回正确答案速度提升 3 倍。
Anthropic Claude Code负责人称工程师每季度代码量增8倍,编码不再是瓶颈。WWDC26苹果Siri主管更换,AFM模型含30亿端侧+200亿MoE,股价跌超5%。GitHub公开内部数据分析Agent Qubot三层架构,查询快3倍。GLM-5.2通过前沿模型直觉检验。DeepSeek核心论文研究者53.5%为本土培养。腾讯混元发现SFT后15.3%样本未被有效学习。
http://x.com/i/article/2068851376151777280
Hermes Bible 将 Hermes Agent 169 页官方文档整合一体,提炼出 24 个可直接抄的真实工作流(如 Jira 到 PR 自动过渡),支持 ⌘K 即时搜索定位章节,社区可分享工作流并展示个人资料页。解决官方文档分散、优质工作流沉没在 X 和 Discord 的问题。
http://x.com/i/article/2042547855865585664
CD Projekt Red 联合 CEO 米哈乌·诺瓦科夫斯基透露,完全由 AI 生成的游戏即将问世。他接触的多家 AI 工作室能快速批量产出游戏,有工作室自称一周内可做 40 个游戏原型甚至完成一整部游戏,其中一款成品很快上线。诺瓦科夫斯基认为,这类纯 AI 游戏即便质量尚可,也无法复刻人工开发的独特感染力,且玩家能轻易识别 AI 素材带来的违和感。AI 辅助开发可以接受,但纯 AI 制作并非行业发展正道。
kunchenguid发布45分钟视频,讲解每天交付40-50个生产级PR的工作流。四层:1)终端中心(WezTerm+tmux+Neovim);2)船员入职:全局memory精简27行,项目级memory由agent自写;3)协作:语音输入OpenSuperWhisper,AXI标准(MCP比CLI多耗3倍token+2倍延迟),Lavish交互式HTML工件;4)验证:no-mistakes流水线在隔离worktree中对抗式review+E2E测试。并行用treehouse管理worktree,First Mate元agent调度。
many people asked me to make a video about my complete agentic engineering workflow excited to share it's finally here!!...
欧洲2031场景分析警告,若不建立自主前沿AI能力将面临经济与战略脆弱。欧洲误读DeepSeek R1,以为小团队可替代算力,但推理模型有效且算力仍决定规模化。欧洲宣布€200亿InvestAI但分散数年,远不及美国超大规模厂商数据中心支出。美国AI算力17.3GW vs 欧洲1.4GW,导致芯片、实验和模型差距。欧洲人才流向硅谷,最强AI公司融资规模远逊美国。政策制定者因数据保护限制使用前沿工具,企业采用AI因碎片法规和保守管理滞后。主权采购政策在缺乏强大本土供应商时反削弱竞争力。低估推理访问战略瓶颈——美国未来可能限制算力供应。欧洲在ASML等半导体环节有杠杆但未转化为谈判筹码。
本书是构建自主AI系统的全栈实践参考。前半部分涵盖LLM基础(Transformer、GPU系统、SFT/LoRA/MoE训练、模型压缩、推理优化)及对齐与推理层(RLHF、PPO/DPO/GRPO、奖励建模、链式推理与测试时扩展)。后半部分专注智能体AI:智能体训练与轨迹RL、RAG与Agentic RAG、记忆系统、设计模式、MCP与A2A协议、多智能体架构,以及开发框架、UI设计、评估与生产部署。每章配理论基础、实现指南、代码示例和原始文献。
LLM 虽大幅降低自建成本,但未归零。以年薪 $200k 的工程师为例,团队花至少2周用 Claude 自建 Jira 替代品后,每月还需2小时维护,需37个月才能收回月费 $400 的购买成本。而像 Salesforce 每座 $500/月、50 座共 $25k/月,足以雇佣 1.5 名全职工程师自建,使自建更接近合理决策。因此存在一个“可行区域”:当软件足够复杂、LLM 重构不易且定价不过高时,购买仍优于自建。
大语言模型默认无状态,构建智能体需借助记忆机制。七种记忆类型包括:工作记忆(上下文窗口内临时存储提示词、消息、工具输出)、语义记忆(长期存储用户偏好、事实)、情节记忆(记录过去事件与任务结果用于经验学习)、程序记忆(存储技能、工作流与行为规则)、外部/检索记忆(通过向量数据库在推理时拉取信息,即RAG)、参数记忆(嵌入模型权重中的世界知识与推理模式)、前瞻记忆(记忆未来意图与计划目标)。每种记忆对应不同时间尺度与实现方式,组合使用可构建更强的自主智能体系统。
@PeterDiamandis AI probably exceeds the sum of all human intelligence in 4 or 5 years
Bro it's June 2026. Stop hand editing your prompts. Hold down the dictation button and ramble for 10 minutes. Give the m...
摩根士丹利开始向数据中心开发商推销杠杆贷款市场。继投资级债券、项目融资、私人信贷、高收益债之后,通常用于LBO的杠杆贷款也涌入AI基建。摩根士丹利预计2026年AI相关债务发行或超5700亿美元,截至5月底已达约2360亿美元,是去年同期的4倍。NYU教授Damodaran对比互联网泡沫指出,AI资本支出规模史无前例,且大量由债务而非股权融资,一旦调整,违约将蔓延至社会,风险远超股价暴跌。
dot-com bubble vs. a possible AI bubble. From the famous "Dean of Valuation", Professor Aswath Damodaran, of NYU Stern S...