Bloomberg纪录片揭秘Anthropic:坚持“安全优先”,拒绝国防部无护栏要求被拉黑;Claude Code团队6个月100%代码由AI编写,Cowork发布致单日2850亿美元软件股市值蒸发。Dario维持预判:AI 1–5年内消除约50%初级白领岗位,并给出10–25%文明崩溃概率。被限制模型Mythos发现数千高危漏洞。Anthropic支持对华芯片出口管制,呼吁发布前强制第三方测试。
Bloomberg纪录片揭秘Anthropic:坚持“安全优先”,拒绝国防部无护栏要求被拉黑;Claude Code团队6个月100%代码由AI编写,Cowork发布致单日2850亿美元软件股市值蒸发。Dario维持预判:AI 1–5年内消除约50%初级白领岗位,并给出10–25%文明崩溃概率。被限制模型Mythos发现数千高危漏洞。Anthropic支持对华芯片出口管制,呼吁发布前强制第三方测试。
AI编码智能体Claude Code和Codex能可靠找到正确文件,但漏掉其中大部分关键代码行。新的SWE-Explore基准首次将代码搜索与实际修复分开测试,证明缺乏足够上下文时,即使最佳修复方案也会失败。
模型能力是根本,Harness层相对容易补齐且无需过多垂直领域。Claude Design将很快合并至Claude Desktop。未来模型能力足够时,Codex会在Codex App以Plugin集成Codex Design。针对开源Open Design方案,若使用Claude Code的模型能否达到类似工程能力?这是该讨论中提出的问题。
@dotey 模型能力与Harness是相辅相成的。 宝玉这篇对这两个的解释太通透了。另外,宝玉怎么看开源的Open Design之类的?如果他用上了Claude Code的模型,是否也能达到类似的工程能力呢?
宝玉分享了 Claude Design 与 Claude Code 联动的实际案例:在 Claude Design 上修改字幕编辑器 UI 设计稿后,导出 zip 并用 git diff 查看变更,然后通过一句提示让 Claude Code 参考设计目录变更自动修改 Swift 代码,全程只需手动同步设计文件。他解释为何 Codex 没有类似产品:Claude Design 依赖 Claude Opus 4.8 模型同时具备 UI/UX 设计和系统架构设计能力,能一次性交付可交互原型(含数据结构、状态管理、交互逻辑);而 GPT-5.5 还做不到。Harness 层可复制,模型层才是关键门槛。
为啥 Codex 还不推出类似 Codex Design 的产品? Anthropic 最近推出了 Claude Design,是我除了编程之外用得最多的 Agent,也推荐过很多次。效果真的好:你用一句话描述想要的 App,它直接给你生成...
GLM-5.2 is Fully Open, Frontier Intelligence Belongs to Everyone Today, the sudden restriction of certain frontier model...
同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》长期运行编码智能体核心从提示转向控制系统。Elvis Saravia在DAIR.AI Academy session中详解Claude Code的/goal模式:人类指定最终状态、成功证据、约束与预算,目标作为“合同”而非长提示。评估器成为第一类组件——明确任务用确定性检查(测试、lint、基准),模糊任务用智能体评估器(判断报告、UI设计),两者结合降低幻觉。验证器定义信任边界:外部检查(测试套件、类型检查、浏览器运行、截图对比)提供不可绕过的证据。
http://x.com/i/article/2065876120965111808
GLM 5.2 版本已正式发布。该消息来自 Hacker News 的一则热门讨论,帖子获得 111 个 HN 积分。页面包含一张发布图片,但未提供具体功能或更新内容。
同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》一篇关于在家低成本学习AI编程的实践分享,讨论了借助免费或低价AI编码工具进行自学的方法,避免高昂课程费用。
Really excited to open source a new project: Omnigent, a meta-harness for AI agents. It lets you build multi-agent codin...
/architect项目将Fable token减少80%,由Fable进行协调和审核,Codex负责构建任务。
作者用 Codex 的 Goal 指令,耗时 24 分钟开发了一个娱乐网站,提供 2026 年世界杯赛程订阅服务。网站支持个性化日历订阅,可按赛程、48 支球队、12 个小组、小组赛分别订阅;生成 ICS 日历文件包含开赛前 30 分钟提醒。立即订阅链接见推文。
智谱今日推出AI编程工具ZCode 3.0,全面切换自研ZCode Agent内核,深度适配GLM-5.2,优化长程推理、工具调用及大型工程执行链路,后续版本不再维护第三方Agent。GLM-5.2作为智谱迄今最强开源模型,支持1M上下文,已向GLM Coding Plan用户开放;订阅用户专享150%应用内配额。其他更新包括分组式任务工作区、Zread智能项目知识库、可视化Git分支图谱、可定制聊天交互、状态监控看板、多类型附件适配及全新视觉体系。
GLM-5.2 is Fully Open, Frontier Intelligence Belongs to Everyone Today, the sudden restriction of certain frontier model...
用户向 Gemini 提交一个长提示词,五分钟后返回一个功能完整的预览窗口和一条“信道不可恢复损坏”的 Bug 消息。Gemini 提供“修复 Bug”按钮,用户点击后,233 秒内模型自行诊断并解决了“阻塞”和“竞态条件”问题,用户完全无需理解技术细节。整个过程只靠单次提示词驱动。
美国商务部以国家安全为由要求Anthropic限制外国公民访问Fable 5和Mythos 5,Anthropic直接关停两模型。同日智谱发布GLM 5.2并开源,推出需抢购的Coding Plan,下周上线API。实测:上下文窗口扩至1M,400-500k长度准确性和指令遵循与Claude差距不大;代码工程能力极稳、幻觉低;小型任务21分钟结果与Opus 4.8相同但速度慢约两倍。缺憾:纯文本、无多模态、推理慢。作者认为这是国产Coding模型新高峰,推荐GLM 5.2 + Claude Code框架。
华为在 HDC 2026 期间发布 DevEco Code,这是一款面向 HarmonyOS 开发场景的 AI Agent 工具,支持代码编写、编译构建、设备运行、文档查阅、运行时调试及 ArkTS 问题修复。DevEco Code 基于开源项目 OpenCode 扩展,保留了其终端交互、配置体系、Provider / MCP / Skill / Plugin 等能力,并针对 HarmonyOS 工程新增了 DevEco Studio、Hvigor、HDC、Skill、HarmonyOS 知识库、ArkTS 检查和设备调试集成。集成的工具包括 build_project、start_app、hdc_log、verify_ui、check_ets_files、arkts_knowledge_search、switch_cwd 等。
在Anthropic的Fable 5因美国商务部要求全面关停当日,智谱发布GLM 5.2并宣布继续开源。该模型上下文长度增至1M,在编码和智能体任务上表现突出:10万行代码的监控BUG排查耗时21分钟,结果与Claude Opus 4.8一致(后者fast模式仅需6分钟);400-500k长上下文下准确性和指令遵循接近Claude。GLM 5.2为纯文本模型,无多模态能力,已通过Coding Plan订阅开放(限额需抢),下周将提供API并开源。
Intelligence should be open, accessible, and ready to build with, empowering every developer, everywhere. GLM-5.2 is now...
GLM-5.2 是智谱迄今能力最强的开源模型,支持真正可用的 1M 上下文,在长程任务中继续保持领先,并被智谱称为最强的国产 Coding 模型。今晚 5:21 起面向 GLM Coding Plan 全量用户开放(覆盖 Lite、Pro、Max、团队版)。API 将于下周上线,模型下周正式开源,遵循 MIT 协议。
同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》Intelligence should be open, accessible, and ready to build with, empowering every developer, everywhere. GLM-5.2 is now...
Moonshot AI发布Kimi K2.7 Code,一款拥有1万亿参数的开源权重编程模型。在编程基准测试上仍落后于GPT-5.5和Claude Opus 4.8,但每个token的价格比竞争对手低最多12倍。核心问题在于:同等预算下额外获得的运行次数能否弥补质量差距。
Intelligence should be open, accessible, and ready to build with, empowering every developer, everywhere. GLM-5.2 is now...
智谱(Z.ai)发布新旗舰模型 GLM-5.2,现已对 GLM Coding Plan 用户(Lite/Pro/Max/Team 计划)开放。该模型具备强大编程能力、可用的 1M 上下文支持,并延续长程任务优势。API 和聊天机器人服务将于下周上线,模型也将于下周以 MIT 许可证正式开源。
关联讨论 8 条公众号:智谱(GLM)X:硅基流动 SiliconFlow (@SiliconFlowAI)Simon Willison 博客The Decoder:AI News(RSS)Nathan Lambert:Interconnects(RSS)智谱:研究(网页内嵌数据)Hugging Face:Blog(RSS)Hacker News 热门(buzzing.cc 中文翻译)SemiAnalysis 购买了 Anthropic 和 OpenAI 的全部订阅方案,模拟高强度编码任务直至触及每周上限。月费 200 美元的 Claude Max 20x 方案,按 API 价格换算最高可消耗约值 8000 美元的 token;ChatGPT Pro 20x 方案对应最高约值 14000 美元的 token。用户通过订阅可获取 40 至 70 倍的 API 价值,该机构指出这种价格体系在重度用户持续榨满上限后可能难以长期维持。
推文指出90%的人买VPS只对比配置,忽略IP类型和纯净度。用于运行Claude Code、Codex等长期任务,或登录Claude、Google等对环境挑剔的账号时,脏IP轻则限流断连,重则触发风控封号。作者分享了一套免费筛选流程:使用三个网页工具,三十秒即可检测VPS的IP底细,从看懂结果到下单选购全程无需写命令。文章最后还提到许多场景无需自建VPS,避免为折腾而折腾。
http://x.com/i/article/2065392505554677760
Moonshot AI 以 Modified MIT 许可证开源了 Kimi K2.7-Code,一款专注编程的智能体模型,基于 Kimi K2.6,拥有 256K 上下文窗口,推理 token 使用量降低约 30%。在六项基准测试中均优于 K2.6,其中在 Kimi Code Bench v2 上提升 21.8%。该模型可通过 Kimi API 和 Kimi Code 获取。
Peter Steinberger 分享了 Codex 在其项目 crabbox 中的应用体验。Codex 在 crabbox 内部运行,同时构建 crabbox 自身。它已连续4天在多处代码树中非停止循环运行。所有构建均为端到端可验证,使得项目几乎能够自我构建。Codex 还能通过浏览器/电脑使用自动注册所需服务。作者的主要工作仅剩添加信用卡信息和关闭不合适的内容。
Kimi 发布并开源最新编码模型 Kimi-K2.7-Code。相比 K2.6,该模型在 Kimi Code Bench v2 提升 21.8%,Program Bench 提升 11%,MLS Bench Lite 提升 31.5%。核心改进是解决编码模型“过度思考”问题,推理 token 使用量降低 30%,long-horizon 编码任务的指令跟随和端到端成功率显著提升。权重与代码已上传 Hugging Face,支持通过 Kimi API 和 Kimi Code 使用,同时开放 Beta 计划。团队预告即将推出 6x High-Speed Mode,进一步提升编码效率。
🌘 Kimi-K2.7-Code, our latest coding model, is now released and open-sourced! 🔷 Improved coding & agent performance ove...
Cursor 团队为训练 Composer 模型构建了一个始终运行的 Agent 舰队系统。主 Agent(Fleet Manager)在远程机器上运行,通过 SSH 连接数百台子 Agent 机器,利用本地工具和磁盘文件“inbox”实现状态共享与协调。每轮循环检查舰队健康,将故障推送至 Slack/PagerDuty,并主动终止或重启进程。子 Agent 并行执行研究实验。系统基于此前长运行 Agent 研究,主 Agent 拥有编码 ML 实验隐性知识的 Skills。核心是使用 Cursor 自身产品,通过 inbox 文件与 Skills 实现大规模 Agent 协同与自我管理。
http://x.com/i/article/2065439304785039360
Anthropic首份全美AI民调覆盖51993人:48%期待AI攻克癌症,64%担心失业,仅15%信任AI公司自行开发。黄仁勋以发电机类比AI工厂,提出五层产业蛋糕(能源/芯片/设施/模型/应用),每个计算单元含72颗芯片、造价约400万美元。月之暗面开源Kimi K2.7 Code编程模型,相比K2.6平均token消耗减少30%,Kimi Code Bench v2提升21.8%,Program-Bench提升11%,MLS Bench Lite提升31.5%。
KIMI K2.7 Code正式发布,为编程/Agent专项模型,架构与K2.6一致,属后训练优化版本。在kimi自测的kimi-code-bench-v2上较K2.6提升11%,其他Agent测试项目同样有提升。适用场景包括编程任务以及需要Agent参与的验证任务(如简历筛选、PR审查等)。