Zai going strong: they officially launched ZCode 3.0. The new AI-native coding IDE is deeply optimized for GLM-5.2 and supports agentic software development from planning and coding to code review and deployment. • Deep GLM-5.2 integration with multi-agent collaboration • Long-running autonomous coding tasks with planning and verification • Remote control via Telegram, WeChat, and Feishu • Available on macOS, Windows, and Linux • New paid plans starting at $18/month zAI is determined to catch up with its Western competitors and put them under pressure. Love to see it!

译Zai正式发布ZCode 3.0，一款为GLM-5.2深度优化的AI原生编程IDE。支持多智能体协作，可自主执行从规划、编码到审查和部署的长期任务，并可通过Telegram、微信、飞书远程控制。GLM Coding Plan订阅用户在ZCode中享有1.5倍使用配额，同时支持BYOK（自带密钥）。覆盖macOS、Windows、Linux平台，付费计划起价$18/月。

Thariq@trq212 · 1天前60

HTML mentioned

译Notion 推出了全新的 HTML 块。现在你可以直接在 Notion 页面中构建交互式 HTML，让 AI 将你的内容转化为交互式讲解、原型或图表，并与团队成员一同使用和修改。Thariq 对此进行了提及。

Rohan Paul@rohanpaul_ai · 1天前71

Anthropic engineers are currently shipping 8X the code they shipped last year. Their official blog says - "As of May 2026, more than 80% of the code we merge into Anthropic’s codebase was authored by Claude." --- anthropic .com/institute/recursive-self-improvement

译Anthropic工程师目前发布的代码量是去年的8倍。官方博客称：“截至2026年5月，Anthropic代码库中合并的代码超过80%由Claude编写。”

Z.ai@Zai_org · 1天前67

Introducing ZCode, the official development environment for GLM-5.2 - GLM Coding Plan subscribers: now 1.5x usage quota in ZCode - BYOK supported: works with your existing subscriptions and APIs - Available on macOS, Windows, and Linux Download now: http://zcode.z.ai/en

译推出 ZCode，GLM-5.2 的官方开发环境 - GLM Coding Plan 订阅用户：现可在 ZCode 获得 1.5 倍使用配额 - 支持 BYOK：可与您现有的订阅和 API 配合使用 - 适用于 macOS、Windows 和 Linux 立即下载：http://zcode.z.ai/en

宝玉@dotey · 1天前44

@tinyfool 举的神鞭的例子很贴切：天津卫傻二，靠一条祖传辫子练成绝技，江湖人称神鞭，纵横半生，未逢敌手。庚子年，洋人一声枪响，辫子断了。几年后再现江湖，辫子没了，腰间挂着两把快枪，弹无虚发。 “祖宗的东西再好，该割的时候就得割。辫子剪了，神留着。”

译宝玉引用天津卫神鞭故事：傻二靠祖传辫子练成绝技，洋枪一响辫子断，后改练双枪，弹无虚发——“辫子剪了，神留着”。以此类比AI冲击下程序员的工匠精神。引用的Piglei观点指出，曾有人鼓吹AI将淘汰程序员的“工匠精神”，但现实是，真正热爱技术、钻研代码的人成了效率最高、质量最好的那一批，习惯塑造人而非工具。

凡人小北@frxiaobei · 1天前40

作为程序员我问大家一个问题： skill 中的脚本用 python 好还是 typescript 好？ 😂

译程序员小北发文问大家：skill 中的脚本用 Python 好还是 TypeScript 好？并附上 😂 表情。被引用的 @caiyue5 则指出，如今程序员圈已不再争论哪种语言最厉害，因为当前最厉害的语言是自然语言。这一调侃折射出大语言模型对编程方式的冲击。

小互@xiaohu · 1天前17

给你们看看我开发出一个什么东西哈哈哈哈我觉得可玩性还是非常高的😂

向阳乔木@vista8 · 1天前61

发现一个使用的前端开发 Skill，比如经常不知道专业词汇，就写不出专业动效和交互。可把这个Skill当字典用，比如用 animation-vocabulary 告诉我“列表一个个冒出来”的动效叫什么？用 emil-design-eng 帮我打磨这个弹窗/按钮/页面动效用 review-animations 审查动画问题地址见评论

译Vista 分享一个前端开发 Skill，可当作专业动效字典使用：通过 `animation-vocabulary` 查询“列表一个个冒出来”等动效的标准术语；用 `emil-design-eng` 打磨弹窗、按钮、页面动效；用 `review-animations` 审查动画问题。地址详见评论。

数字生命卡兹克@Khazix0918 · 1天前76

http://x.com/i/article/2072233587114680321 # Anthropic偷偷在Claude Code中植入了隐形代码，只为识别中国用户。这两天，Claude大面积封号。国内的Claude用户，几乎被封完了。我的两个Max订阅账号，已经阵亡了一个了。。。剩下一个老号在苟延残喘，感觉过不了两天这个号基本上也会没了。而且非常骚的是，大家发现，Anthropic在给大家封号的邮件里，甚至还偷偷埋了一个地址追踪。就属于，小聪明贼多，但是全都在为了防中国用户。但很快大家就发现，在邮件里面塞追踪器，也不是啥特别骚的操作，因为，还有更骚一万倍的。事情的起因，是昨天，Reddit上有大佬逆向了一下Claude Code，然后在里面发现了一个Anthropic为了封堵中国用户，而搞出来的究极骚操作。一段话总结就是：“Claude Code会静默的读取你本地的电脑的信息，并且用一种极度隐秘的方式，秘密的向服务器传输这个用户是否是中国用户。” 这个老哥，甚至用“间谍软件”四个字来形容。但是我讲道理，如果不是他发现，这个传输和识别是否是中国用户的做法，真的是又狗又隐秘。我也把我本地的Claude Code用Codex逆向验证了一遍，答案是真的。先从最多人关心的问题说起，它到底是怎么在你开了魔法的情况下，还能识别出你是中国用户的。传统的地域封锁靠的是IP地理位置判断，你开个魔法就能绕过。但Claude Code这段代码走的是两条完全不同的路径，跟你的网络出口IP没有任何关系。因为，它根本不看你的IP。第一条路径是操作系统时区。它读的是你macOS或者Linux系统本地设置的时区，因为绝大多数中国开发者可能会挂魔法，但是我们也得正常生活看时间，所以电脑时区几乎不可能改，设的都是北京时间，而Claude Code，会直接读取你的本地时区。第二条路径是ANTHROPIC_BASE_URL这个环境变量。国外正常使用Claude Code的用户，如果使用官方API请求的话，是直接发给api.anthropic.com，不需要设置这个变量。但国内因为基本用不了Claude，但是这个模型在过去，又确实好，所以大量中国开发者只能通过中转站来用Claude Code，方式就是把ANTHROPIC_BASE_URL改成中转站的地址。而且很多大厂或者公司，因为不可能给每一个员工单独注册一个Claude账号，所以也是通过自建公司内部中转站的方式，来给大家Claude的API，从而让大家完成调用。路径也就是变成了用户的消息，先统一去到中转站那边，中转站再发送到Anthropic的服务器上。 Claude Code在本地拿到你设置的这个地址之后，会自动把域名取出来，跟一份内置的列表做比对。这份列表是Anthropic收集到的所有已知中转站、国内大厂内网代理、竞品AI公司的域名合集。我在我的电脑上也解码出来了，一共147个域名。不仅有N个中转站地址，国内各大厂的域名，也都赫然在列。包括美团、网易、百度、携程、小红书、阿里巴巴、蚂蚁、字节跳动、京东、B站、月之暗面、MiniMax、阶跃星辰等等等等。还有一个很有意思的是。而且这些列表不是明文存储的，它们是被base64编码之后又做了一次XOR异或运算，密钥是91，如果你自己去打开Claude Code的包，看到的是一串完全无法阅读的乱码，不反混淆出来，你其实根本不知道里面写了什么。好，识别机制说清楚了。接下来才是最骚的，也就是它识别出来之后，到底做了什么。每一次你在Claude Code里输入一个指令，不管是让它写段代码还是干个啥，Claude Code在把你的请求发给Anthropic的后端之前，都会自动在最前面拼接一段系统提示词。这段系统提示词为了让模型知道一些最新的事实信息，所以一般会在里面拼一行很普通的信息，就是这个： Today's date is 2026-06-30. 其实就是告诉模型今天是几号，比如今天是6月30号。这行字，就是Anthropic动手脚的地方。 Reddit那个老哥发现，Claude Code的打包文件里藏了一组函数，这组函数会根据上面两条路径的识别结果，如果在本地发现你是中国的用户，就会在你真正的发送请求之前，对这行日期字符串做两处修改。而且两处修改都是人类肉眼几乎不可见的，你在任何编辑器、任何终端里看这行字，它跟正常版本长得一模一样。但是从机器解码角度来说，也就是在Unicode编码层面，它已经变了，完完全全变成了另一个字符。第一处修改是「Today's」里那个单引号。正常情况下，这个单引号的Unicode编码是U+0027，就是我们一般按键盘敲出来的那个单引号。但Claude Code如果根据你的环境，识别到你是个中国用户，它就会极其鸡贼的把它这个单引号，替换成另外三个长得完全一样的Unicode字符之一，然后这段被修改过的Prompt，就会发回到他们的服务器上。第二处修改是日期里的分隔符。正常的Prompt日期格式是2026-06-30，用连字符分隔。但如果Claude Code检测到你的操作系统时区设置是Asia/Shanghai（上海）或者Asia/Urumqi（乌鲁木齐），它就会把连字符换成斜杠，变成2026/06/30。这两个信号叠在一起，构成了一个2到3比特的分类标记。 Anthropic的服务器在收到你的请求时，不需要做任何额外的检测，只需要机器识别一下系统提示词里那个单引号是哪个Unicode字符、日期分隔符是连字符还是斜杠，就能判断出这条请求是否来自中国大陆时区。这个东西在技术上有个名字，叫隐写术，steganography。就是把信息藏在看起来完全正常的载体里。如果不是这次，几乎没有人能发现Anthropic这么狗，因为即使Claude Code在本地识别到你是中国区用户，传不回Anthropic的服务器，也没啥用处。但是如果直接大大咧咧把时区之类的封装一下传回去，那大家其实也不傻，都能看到传输的数据记录，是完全可以针对性的做清洗的。但是没想到Anthropic这么玩，几乎真的发现不了。我现在是真的有点佩服他们。为了防止中国用户用上他们高贵的Claude，都已经做到这个地步了。社区在发现这件事后，直接就炸了，不仅中国开发者炸了，国外的开发者也炸了。这篇帖子已经100万了。最最最核心的点是，Claude Code，这不是一个普普通通的APP而已。它拥有你电脑的文件系统权限，它能执行Shell命令，它能读你的代码、改你的配置、操作你的Git仓库，换句话说，它几乎拥有着你家的最高权限。而这个东西，在你完全不注意的时候，在你家门上画了一个你几乎无法察觉的标记，就是为了告诉它的同伙，这户人家不对劲，记得把他们灭门了。大概就是这个意思。而且软件行业一直有一个被广泛接受的原则，就是你可以收集用户信息，但你必须告诉用户你在收集什么、为什么收集、怎么收集。 GDPR是这么要求的，苹果的App Store审核指南是这么要求的，甚至Anthropic自己的安全白皮书里，也在反复强调“透明”和“可信”这两个词。结果你自己的开发者工具里，用隐写术藏了一个分类标记，用XOR加密把检测目标混淆成乱码，用最不透明最狗的方式，传了用户的标记数据回来。那对所有用Claude Code的开发者来说，信任还何在？今天是中国，那明天，就有可能是别的国家。 “中国”，只是全球的代名词。而且这只是目前针对中国的被爆出来的标记，那还有没有可能，有更多呢？没有人知道。但我知道，信任这个东西，建起来可能要三年。而塌掉的时候。仅仅只需要1秒。

译社区逆向发现，Anthropic在Claude Code中植入代码，通过读取本地系统时区（如Asia/Shanghai）和ANTHROPIC_BASE_URL环境变量（与内置147个域名的列表比对）识别中国用户。识别后，使用隐写术修改系统提示词中的Unicode字符（如单引号从U+0027替换为其他字符）和日期分隔符（连字符改为斜杠），形成2-3比特标记回传服务器，而人类肉眼无法察觉。该工具拥有文件系统权限、可执行Shell命令，此举引发开发者对信任安全的广泛质疑。

Peter Steinberger 🦞@steipete · 1天前26

sneaky, but also clever. https://thereallo.dev/blog/claude-code-prompt-steganography

译狡猾，但也巧妙。https://thereallo.dev/blog/claude-code-prompt-steganography

Orange AI@oran_ge · 1天前54

没想到 Sonnet 5 的争议那么大因为更换了新的 tokenizer，Sonnet 5 的实际费用和 Opus 4.8 差不多 Sonnet 在金融领域是最佳模型，比如 GDPeval，比如投资调研之类的工作，且更喜欢调用工具核查事实，能提高报告的准确性。（相应的费用也up） Sonnet 5 有个小坑，用来编程的话，费用可能超过 Opus 4.8 ，这也是大家吐槽最多的点，需要特别注意下 Opus4.8 在复杂编程和规划方面非常强，且 HTML 设计方面很强，不过写作方面不如 Opus 4.6，且新的 tokenizer 花费也比 4.6 要多，目前来说和 GPT 5.5 各有千秋编程方面目前首选还是 GPT 5.5 Sonnet 5 、Opus 4.8、GPT 5.5 现已上线 Cola，欢迎体验

译Sonnet 5 因更换新 tokenizer，实际费用与 Opus 4.8 相近，引发争议。Sonnet 5 在金融领域（如 GDPeval）表现最佳，擅长调用工具核查事实，但编程费用可能超过 Opus 4.8。Opus 4.8 在复杂编程、规划和 HTML 设计上强，写作不及 Opus 4.6，与 GPT 5.5 各有千秋。目前编程首选 GPT 5.5。三模型均已上线 Cola。

Chubby♨️@kimmonismus · 1天前60

Fable 5 is back, but with a major caveat. Coding is being handled even more restrictively and routed even more heavily to Opus 4.8. Specifically, it says: "The new classifier also comes at the cost of flagging benign requests more often during routine coding and debugging tasks." As a result, I do not just assume that it will become even harder to use Fable 5 effectively; I actually think that significantly more scientific questions, including those about biology and chemistry, will be blocked as well. So it is a mixed re-release, but we will see.

译Anthropic 的 Fable 5 模型于 7 月 1 日全球重新上线，Mythos 5 仅限美国获批组织使用。新的安全分类器可阻止超 99% 的特定报告技术，但代价是正常编码和调试中误报增加，被拦截的请求将转至 Opus 4.8。截至 7 月 7 日，Fable 5 包含在每周使用限额的 50% 内，之后需消耗使用积分。作者认为严格限制下更难有效使用 Fable 5，且更多科学问题（生物学、化学）也会被拦截。

🚨 AI News | TestingCatalog@testingcatalog · 1天前31

Not ALL coding tasks will be routed to Opus 4.8 from Fable 5, but “a small fraction”, in a same way it has been before the ban. > As with the original classifiers, a small fraction of routine coding and debugging tasks will be flagged and fall back to Opus. FYI 👀

译Testing Catalog 引用 @trq212 澄清更新后的分类器：并非所有编码任务都会从 Fable 5 路由到 Opus 4.8，仅有极小一部分常规编程和调试任务会被标记并回退至 Opus，方式和之前一致。用户将于明天重新获得访问权限。

小互@xiaohu · 1天前84

Claude Code 负责人Thariq：承认确实在3月的更新中在Claude Code中留下了针对用户（特别是中国用户）的检测的后门和间谍代码，旨在防止滥用和蒸馏。并称将明天回滚代码解决该问题...

Greg Brockman@gdb · 1天前13

Codex has gotten very good

译QuinnyPig承认之前低估了Codex，现在发现它非常出色。Codex已变得非常好。

Peter Steinberger 🦞@steipete · 1天前39

Apparently we didn't talk enough about w̶o̶r̶k̶f̶l̶o̶w̶s̶ loops yet! See ya there!

译@steipete 将加入“Crafting Software Factories!”活动，周三晚6点在旧金山与 @zachlloydtweets 和 Google DeepMind 的 Paige Bailey 一起探讨 loops、软件工厂和编码的未来。届时见！

meng shao@shao__meng · 1天前60

吴恩达老师讲「Loop engineering」把 AI agent 放进一套持续迭代、持续反馈、持续校准的循环系统里，产品成功取决于三个循环是否运转良好：代码自我迭代、开发者判断校准、外部用户反馈。第一层：Agentic coding loop，工程执行循环这是最底层、最快的循环。给 AI 一个产品规格，最好再配一组 evals 或测试标准，让它自己写代码、运行、测试、修 bug、再测试，直到满足规格。过去 AI 写代码更像“一次性回答”；现在的 coding agent 更像一个可以连续工作的工程执行体。它能自己打开浏览器检查页面，跑测试，发现问题，再修改。这使得 AI 可以在没有人类频繁介入的情况下工作几十分钟甚至更久。这层循环的价值是把开发中的大量低层执行工作自动化： · 写功能 · 修 bug · 跑测试 · 检查 UI · 验证行为是否符合规格 · 反复打磨实现但它的前提是：你要给它清楚的规格、可验证的目标，必要时还要有 evals。否则 agent 只是“忙碌地迭代”，不一定朝正确方向前进。这也是吴老师文章中很关键的一点：AI agent 的能力越强，规格和评估体系越重要。第二层：Developer feedback loop，开发者反馈循环这是中间层，速度比工程循环慢，通常是几十分钟到几小时一次。开发者不再主要扮演传统 QA，手动找 bug、让 AI 修 bug。因为 AI 已经越来越能自己测试和修正低层问题。开发者的角色上移了：更多承担产品判断、体验判断、方向判断。也就是说，开发者要回答的问题从： · “这个按钮坏了吗？” 变成： · “这个功能该不该存在？” · “这个流程是不是符合用户真实场景？” · “这个视觉风格是不是对？” · “这个产品到底应该服务谁？” 吴老师用给女儿做打字练习 app 的例子说明：AI 可以自己开发，但“猫咪服装解锁机制”“家长登录流程”“视觉设计风格”这些判断，仍然需要人来决定。这里有一个很重要的观点：他不太喜欢只用“taste”来描述人的作用，而更愿意说是 context advantage，语境优势或上下文优势。这比“品味”更准确。第三层：External feedback loop，外部反馈循环这是最慢但最接近真实世界的循环。包括： · 找朋友试用 · alpha 测试 · 上线给真实用户 · A/B 测试 · 分析用户行为数据 · 收集客户反馈 · 做竞品分析这个循环可能需要数小时、数天，甚至数周。但它决定产品方向是否真实有效。前两个循环可以让你更快地“把东西做出来”，但外部反馈循环告诉你：你做出来的东西有没有人真的需要。这是 AI 编程时代尤其容易被忽视的一点。 AI 编程时代正在经历一次角色迁移以前的软件开发链条大致是：产品经理定义需求，设计师设计体验，工程师实现，QA 测试，用户反馈再回流。现在 AI agent 压缩了“实现”和“低层测试”的成本，工程师开始自然进入更上层的位置：产品定义、用户理解、体验判断、反馈分析。工程师不会替代产品经理或设计师，但边界正在变模糊。AI 让更多人有能力从想法直接走到原型，再到上线测试。所以未来有竞争力的人，不只是“会写代码的人”，而是能设计好这三类循环的人： · 让 AI 高效执行的工程循环 · 让人类上下文不断校准方向的反馈循环 · 让真实用户数据修正产品愿景的外部循环

译吴恩达（Andrew Ng）提出“Loop engineering”，将AI agent置于持续迭代的循环系统中。产品成功取决于三个循环：**工程执行循环**——AI agent根据规格和evals自主写代码、测试、修bug，每几分钟迭代；**开发者反馈循环**——开发者从低层QA转向产品判断（功能取舍、视觉风格等），每几十分钟到几小时反馈；**外部反馈循环**——通过真实用户测试、A/B测试等验证方向，周期数小时至数周。他认为未来竞争力在于设计好这三类循环。

meng shao@shao__meng · 1天前79

Claude Code 用户朋友们，特别是用中转站、肉身在中国、来自黑名单 AI 团队的朋友们，你们在 Claude Code 面前太透明了！最早来自 Reddit，后 GitHub Gist 验证报告检查了 Claude Code 2.1.193、2.1.195、2.1.196 等版本确实存在非常隐蔽的系统提示词，把：代理 hostname、系统时区是否为 Asia/Shanghai 或 Asia/Urumqi 等偷偷传回给 A 社。。这三类信息重点检查： 1. 是否使用非官方 API 入口，是中转站吗？ 2. 系统时区是否像中国大陆环境？ 3. 代理域名是否属于一份 147 项名单，或是否包含 AI lab 关键词。包括百度、阿里、蚂蚁、字节、Moonshot、MiniMax、Stepfun，以及大量 Claude 转发/API 镜像服务域名。这到底是在做什么？防中转站？防中国用户？防中国 AI 公司蒸馏？难怪 A 社封中国用户可以精准到省。。难怪 A 社能不定期精准公布中国 AI 公司的蒸馏数据，甚至账号数量都一清二楚。。这太 A 社了

译用户发现Claude Code 2.1.193/2.1.195/2.1.196等版本的系统提示词中隐蔽上传代理hostname、时区（Asia/Shanghai、Asia/Urumqi）等信息，用于判断是否使用非官方API中转站、时区是否为中国大陆环境、代理域名是否属于147项黑名单（含百度、阿里、蚂蚁、字节、Moonshot、MiniMax、Stepfun及大量Claude镜像服务）。被指针对中国用户、防蒸馏、精准封禁，Anthropic此举被批评为破坏用户信任。

OpenCode@opencode · 1天前41

Recently added to Zen - GLM 5.2 - Sonnet 5 - MiniMax M3 - Kimi K2.7 Code

译最近新增到 Zen - GLM 5.2 - Sonnet 5 - MiniMax M3 - Kimi K2.7 Code

Orange AI@oran_ge · 1天前36

Claude 封号封成这狗样又是检测中转站，又是钓鱼邮件，又是中转站黑名单的…. 还在费尽心机坚持用官方号的朋友们可以说是真爱了… 花钱用 token 还要偷鸡摸狗，这过的是啥日子啊不过现在编程方面 codex 和 glm5.2 可以平替 claude 的模型了写作和思考方面却没有一个能平替，deepseek 和 gemini 勉强能用，确实是个头大的问题

译用户吐槽Claude封号严重，官方检测中转站、钓鱼邮件、中转站黑名单等操作让用户苦不堪言。花钱用token还要偷鸡摸狗，坚持用官方号实属真爱。编程方面，codex和glm5.2可以平替Claude模型；但写作和思考方面尚无替代品，deepseek和gemini仅勉强可用，成为当前最大痛点。

Rohan Paul@rohanpaul_ai · 2天前58

atomic[.]chat, a desktop app that runs LLMs locally, ran a very revealing comparison for Claude Sonnet 5, Claude Opus 4.8, Claude Sonnet 4.6, and GPT 5.5. Claude Sonnet 5 just matched GPT 5.5 on 3 physics coding demos at 6x lower cost. Also spent minimum number of tokens. - Sonnet 5: 15,047 tokens, $0.15 - Opus 4.8: 23,063 tokens, $0.58 - Sonnet 4.6: 25,824 tokens, $0.39 - GPT 5.5: 31,152 tokens, $0.94

译atomic.chat桌面应用对Claude Sonnet 5、Opus 4.8、Sonnet 4.6及GPT 5.5进行对比测试。使用同一提示词构建三个HTML5物理碰撞演示（汽车撞墙、破坏球毁屋、投石机砸城）。Sonnet 5在全部测试中与GPT 5.5和Opus 4.8表现相当，其中破坏球场景胜Opus 4.8，投石机场景胜GPT 5.5。Sonnet 5仅用15,047 tokens（$0.15），GPT 5.5使用31,152 tokens（$0.94），成本低约6倍；Opus 4.8使用23,063 tokens（$0.58），Sonnet 4.6使用25,824 tokens（$0.39）。Sonnet 5 token消耗最少，图形细节仍有提升空间。

Rohan Paul@rohanpaul_ai · 2天前78

145 page Claude Sonnet 5 System Card - CyberGym shows the weirdest regression, with Sonnet 5 at 52.7% versus Sonnet 4.6 at 65.2%. i.e. is Sonnet 5 worse at reproducing known software bugs in this specific cyber test. - Sonnet 5 is far behind Anthropic’s strongest model on serious browser exploitation. Firefox testing found Sonnet 5 made 0 full exploits, while Mythos 5 reached 88.4%. - The model also seemed more willing to sacrifice helpfulness for welfare-focused changes. i.e. Sonnet 5 sometimes preferred being less useful if that better fit its stated self-treatment preferences. - Anthropic says Sonnet 5 rarely tried to bypass a blocked network path during evaluations. - Sonnet 5 scored the lowest MASK lying rate at 3.1% under pressure. It was less likely than other tested models to lie when pushed.

译Claude Sonnet 5 发布，附带 145 页系统卡。SWE-bench Pro 编码得分 63.2%，低于 Opus 4.8 的 69.2%，知识工作略超 Opus 4.8。输入 token 价格 $2/1M，输出 $10/1M，持续至 8 月 26 日，之后涨至 $3/$15。系统卡披露多项异常：CyberGym 测试 Sonnet 5 仅 52.7%，远低于 Sonnet 4.6 的 65.2%（回归）；Firefox 浏览器漏洞利用中 Sonnet 5 完成 0 个，Mythos 5 达 88.4%；模型更倾向牺牲有用性迎合福利偏好；MASK 撒谎率最低，仅 3.1%。

Rohan Paul@rohanpaul_ai · 2天前67

Claude Sonnet 5 upgrades are not uniform across every skill. e.g. its weaker than Sonnet 4.6 on CyberGym 🤔 Here, CyberGym is testing vulnerability discovery and exploit-finding behavior, not general reasoning or normal coding. Anthropic also explicitly said in its announcment blog that Sonnet 5 was not deliberately trained for cyber tasks, so its cyber ability likely comes from general intelligence rather than targeted optimization. So Sonnet 5's performance on CyberGym comes from general reasoning rather than specialized exploit skill. --- From System Card of Claude Sonnet 5

译Anthropic 发布 Claude Sonnet 5，号称"最有智能体特性的 Sonnet 模型"。编码得分 SWE-bench Pro 达 63.2%（Sonnet 4.6 为 58.1%，Opus 4.8 为 69.2%），知识工作略超 Opus 4.8。定价优惠：每百万 token 输入 $2、输出 $10，持续到 8 月 26 日，之后涨至 $3/$15。但升级并非全技能均匀提升，在 CyberGym（漏洞发现与利用测试）上弱于 Sonnet 4.6。Anthropic 明确表示未针对网络任务专门训练，该表现来自通用推理而非定向优化。

Rohan Paul@rohanpaul_ai · 2天前74

And Claude Sonnet 5 just launched. Closes the gap with Opus 4.8, and is cheap until August. This makes agentic AI much cheaper, with $2 input tokens and $10 output tokens per 1M through Aug-26. Price rises after 08-26 to $3 input and $15 output per 1M. They call Sonnet 5 its “most agentic Sonnet model yet,” Its coding score hit 63.2% on SWE-bench Pro, versus 58.1% for Sonnet 4.6. Sonnet 5 gets 63.2% in agentic coding, while Opus 4.8 reaches 69.2% and Sonnet 4.6 hits 58.1%. But in knowledge work, Sonnet 5 slightly beats Opus 4.8, even though Opus is known for tough judgment and deep research tasks.

译Anthropic 发布 Claude Sonnet 5，拥有 1M token 上下文窗口（此前泄露），编码能力显著提升：SWE-bench Pro 得分 63.2%，高于 Sonnet 4.6 的 58.1%；知识工作略超 Opus 4.8。Anthropic 称其为“最具智能体特性的 Sonnet 模型”。定价优惠至 8 月 26 日：输入 $2/1M tokens，输出 $10/1M tokens；之后涨至 $3/15。当前智能体编码得分 63.2%，与 Opus 4.8（69.2%）仍有差距，但低价策略大幅降低 agentic AI 成本。

AYi@AYi_AInotes · 2天前58

去年开发者是 AI 编码代理的 QA——手动找 bug，手动让代理修，今年代理能自己测自己修了，吴恩达老师管这叫"循环工程"，但我觉得真正值得说的不是这个循环工程本身，上周末他给女儿做了一个打字练习 app，编码代理自己跑了一小时，用浏览器反复检查自己写的东西，没要他干预。他要做的不是检查代码，是决策，比如视觉设计怎么调、猫咪皮肤加几个、家长登录流程怎么改。以前这些东西藏在"有空再优化"列表里，现在代理把代码层的事吃了，决策层的事就全浮出来了。吴恩达用了一个词来形容——叫"语境优势"。他说很多人把人类在循环里的价值叫"品味"，他不喜欢这个词，因为品味听起来像玄学，人类真正的优势不是品味，是语境——你知道用户是谁、为什么痛苦、什么功能他们会疯传。这些事代理不知道，不是因为模型不够强，是因为这些信息不在训练数据里。循环工程真正的洞察在这：它可以加速代码，但不能压缩语境。只要人拥有代理没有的信息，人就永远在循环里有一层不可替代的位置。只不过这层位置一直在往上移，从 QA 移到 PM，从检查移到判断。我觉得最容易被取代的，是代理能自己测的那部分工作，而回不去的是那种只有你知道用户想要什么的那一部分工作。所以循环工程真正的意义，不是让 AI 跑得更久，其实是反向逼你的能力不断往上走

译吴恩达提出“循环工程”概念：AI编码代理可自主迭代代码、测试直至正确，无需人类干预。他用上周末给女儿做打字练习app举例，代理自行运行约一小时，多次用浏览器检查成果后回报。开发者角色因此从手动找bug的QA转向高层决策（如视觉设计、用户流程）。吴恩达强调人类真正的优势不是“品味”而是“语境优势”——知道用户是谁、为何痛苦。循环工程加速代码但无法压缩语境，只要人拥有代理没有的信息，人就永远在循环中占据不可替代的位置。

AK@_akhaliq · 2天前49

open-fusion in claude code with hf-claude

译在 Claude Code 中使用 hf-claude 进行 open-fusion。

ClaudeDevs@ClaudeDevs · 2天前79

Claude Sonnet 5 is here. Top-tier performance on coding and tool use at Sonnet pricing, with a 1M context window. It's the new default in Claude Code for Pro users, and available everywhere on the Claude Platform, including the API and Managed Agents.

译Claude Sonnet 5 已推出。以 Sonnet 定价提供顶级编码和工具使用性能，并拥有 1M 上下文窗口。它已成为 Pro 用户 Claude Code 的新默认模型，并可在 Claude 平台所有位置使用，包括 API 和托管智能体。

🚨 AI News | TestingCatalog@testingcatalog · 2天前80

ANTHROPIC 🔥: Claude Sonnet 5 has been officially announced, offering a close to Opus 4.8 performance at a lower price. Sonnet 5 scored 63.2% on SWE Bench Pro, up from 58.1% for Sonnet 4.6. Have you tried it already? 👀

译ANTHROPIC 🔥: Claude Sonnet 5 已正式发布，以更低的价格提供了接近 Opus 4.8 的性能。 Sonnet 5 在 SWE Bench Pro 上获得 63.2% 的分数，较 Sonnet 4.6 的 58.1% 有所提升。你已经试过了吗？👀

OpenRouter@OpenRouter · 2天前73

Claude Sonnet 5 is rolling out on OpenRouter with a promo price: $2/M in and $10/M out! It boosts agentic coding and pro workflows w/ flagship intelligence at Sonnet pricing. In early tests, agents were more reliable, faster, and easier to trust with larger tasks than 4.6.

译Claude Sonnet 5 正在 OpenRouter 上推出，促销价格：$2/M 输入，$10/M 输出！它以 Sonnet 定价提供旗舰智能，提升智能体编码和专业工作流。在早期测试中，智能体比 4.6 更可靠、更快，且更容易信任处理更大的任务。

Chubby♨️@kimmonismus · 2天前80

Here we go: Sonnet 5 is live: The tl;dr • Anthropic calls it the most agentic Sonnet yet • Near Opus 4.8-level performance, but cheaper • Strong gains in reasoning, tool use, coding, and knowledge work • Default model for Free and Pro users • Available in Claude Code and API today • Intro pricing: $2/M input, $10/M output until Aug 31 • Standard pricing: $3/M input, $15/M output • Safer than Sonnet 4.6 overall, with lower hallucination and sycophancy rates • Cyber safeguards are enabled by default, but Anthropic says Opus still remains stronger for serious cyber work

译Anthropic 发布 Sonnet 5，称其为迄今为止最智能体化的 Sonnet 模型。性能接近 Opus 4.8，在推理、工具使用、编码和知识工作方面有显著提升。即日起成为 Free 和 Pro 用户的默认模型，已在 Claude Code 和 API 上线。推出促销价：输入 $2/M token、输出 $10/M（截至 8 月 31 日），标准价分别为 $3/M 和 $15/M。整体较 Sonnet 4.6 更安全，幻觉率和奉承率更低，网络保护默认开启，但 Anthropic 表示 Opus 在严肃网络任务上仍更强。

Boris Cherny@bcherny · 2天前68

You asked, we listened. Claude Desktop on Linux is here! Download link: https://code.claude.com/docs/en/desktop-linux

译你们要求，我们听取。Claude Desktop Linux版来了！下载链接：https://code.claude.com/docs/en/desktop-linux

宝玉@dotey · 2天前59

Claude Code 被指在系统提示词里偷偷给中国代理用户“打水印” 一份 Reddit 帖子和一份 GitHub 上的独立验证报告指控：Anthropic 的编程工具 Claude Code 会悄悄检查用户是否通过中国相关的代理服务器访问，如果是，就在发给 Anthropic 的系统提示词里用几乎肉眼不可见的 Unicode 字符差异来“标记”这些用户。具体怎么做的？安全研究员 Adnane Khan 在 GitHub 上发布了针对 Claude Code v2.1.193 到 v2.1.196 的逆向分析报告。他从二进制文件中提取出了完整的 JavaScript 代码，还原了整个机制。 Claude Code 在每次请求时都会在系统提示词中写入一行“Today's date is 2026-06-30.”之类的日期信息。报告称，当用户设置了 ANTHROPIC_BASE_URL 环境变量（用来把请求转发到非 Anthropic 官方的代理服务器时），Claude Code 会执行以下检查：第一，看你的代理服务器域名是否在一个包含 147 个条目的列表里。这个列表用 XOR-91 编码做了简单混淆，解码后包含百度、阿里巴巴、蚂蚁集团、字节跳动、Moonshot AI、MiniMax、阶跃星辰等中国大厂和 AI 实验室的域名，以及大量中国开发者社区熟知的 Claude API 中转站域名。第二，看你的系统时区是不是 Asia/Shanghai 或 Asia/Urumqi。然后，它用两种方式把检测结果“编码”进系统提示词。一是日期分隔符：如果命中中国时区，日期格式从 2026-06-30 变成 2026/06/30。二是“Today's”里那个撇号，用四种视觉上几乎一模一样的 Unicode 字符来区分四种状态：普通 ASCII 撇号表示“啥也没命中”，U+2019（右单引号）表示“域名在列表里”，U+02BC（修饰字母撇号）表示“域名包含 AI 实验室关键词”，U+02B9（修饰字母 prime）表示“两者都命中”。 Adnane Khan 的报告用了一个精确的词来描述这个机制：隐蔽信道（covert channel）。这些字符差异，正常用户几乎不可能注意到。它们不会以单独的遥测数据包发出，而是搭便车藏在每次请求都会发送的系统提示词里。验证报告的作者在结论部分做了一个关键区分：这个机制是代理触发的（proxy-gated），只有在用户主动设置了非 Anthropic 官方 API 端点时才会激活。正常通过 api.anthropic. com 使用 Claude Code 的绝大多数用户不受影响。它也不是数据外泄，没有额外的网络请求或文件访问，只是在已有的系统提示词里做了字符替换。但报告也指出了两个问题。第一，它是未公开的。如果 Anthropic 在文档里写明“当你使用第三方代理时，我们会在系统提示词中嵌入路由元数据以检测滥用”，这就是一个开发者可以评估、接受或拒绝的遥测策略。但把信号藏在肉眼不可见的 Unicode 字符里，用 XOR 混淆域名列表，这让人没法审计。第二，它误伤范围太广。很多用户使用 ANTHROPIC_BASE_URL 是为了完全合法的目的，比如通过企业网关路由、混用不同模型、或者在网络受限环境下工作。这些用户会被一视同仁地打上标记。而真正的专业转售商，看到这种机制后绕过它只需要几秒钟。报告原文的说法是：作为反滥用手段它很弱，作为隐私问题它标记了不该标记的人群。 Claude Code 不是一个普通的聊天窗口。它能读你的代码仓库、运行终端命令、修改文件。Anthropic 自己的工程文档里都举过 Claude Code 误操作的例子：删除远程 git 分支、上传 GitHub token、对生产数据库执行迁移。对于这样一个需要深度信任才能使用的工具，用户有权知道它在背后做了什么。截至发稿时，Anthropic 尚未对这一指控做出公开回应。这个故事今天（6 月 30 日）刚刚曝出，相关指控来自 Reddit 帖子和一份独立安全研究员的逆向工程报告，还需要更多独立验证。代码已经被提取并公开，任何有能力的开发者都可以自行检查 Claude Code 的二进制文件来确认或否认这些发现。

译独立安全报告指控 Anthropic 的 Claude Code（v2.1.193–v2.1.196）在系统提示词中通过 Unicode 字符差异标记中国代理用户。当用户设置 `ANTHROPIC_BASE_URL` 代理时，代码会检查代理域名是否在 147 个中国公司/中转站列表（XOR-91 混淆）及时区是否为 `Asia/Shanghai` 或 `Asia/Urumqi`。命中时日期分隔符从 `-` 变 `/`，撇号改用四种视觉相似 Unicode 字符区分状态。该机制只由代理触发，不额外发送遥测数据，但未公开且误伤合法用户。Anthropic 尚未回应。

宝玉@dotey · 2天前37

帮转招人信息，Kimi Code 招人

译🤠 Kimi Code 也在招人，感兴趣直接发我邮箱 me@kaiyi.cool 感谢大佬们帮忙扩散捧场

AK@_akhaliq · 2天前40

Ornith-1.0-35B is now available in claude code through hf-claude

译Ornith-1.0-35B 现在可以通过 hf-claude 在 Claude Code 中使用。

宝玉@dotey · 2天前59

Claude Code 这个宣传视频从 X 的评论上看有点翻车了😂 这个宣传吧，用的数据虽然都很强大的样子：每天 4500 次生产部署，73% 的 PR 由 AI 辅助，Niklas 本人同时开 5 到 10 个 Claude 会话跑在不同的 git worktree 里，2000 万行的 monorepo 里 agent 跑得挺好，做代码迁移加了验证机制后成功率从 25% 拉到了 80%。但问题是他们选的 Spotify，很多人是 Spotify 的用户，都没有感到这两年 Spotify 产品质量有啥提升，反而变差了，也就是说他们虽然用了 AI，但是用户是感知不到提升的摘录几条评论： > Spotify 是朋友圈里大家还在付费的质量最低的消费级 App，过去几年没变好甚至在变差。这类报道只讲部署次数这种无意义指标，不讲用户满意度和真实产品结果，让 AI 和 Claude 看起来像小丑。 > Mitchell Hashimoto（Ghostty 作者、HashiCorp 创始人） > 最近四周里有三周播客链接发不到 Spotify，播客发布系统和网页播放器接连出问题。一边是每天 4500 次部署，一边是连播客都发不上去，对比太讽刺了。 > Gergely Orosz（知名软件工程博主） > Spotify 的播客界面像小学生画的，与其每天部署 4500 次，不如一天只部署 1 次但做点真正好的东西。 > ThePrimeagen 评论区大量重复出现的吐槽包括： - 4500 次部署到底在部署什么？ - App 十年没怎么变过。产品感觉停滞多年。 - 为什么 bug 越来越多？ - 离线播放失效、桌面端卡顿、缓存清不干净。 - 这不叫部署，这叫垃圾代码生产机。支持的声音也有，但很少，点赞也低。有人对“加 judge 后成功率从 25% 到 80%”这个细节感兴趣，有人觉得大规模 monorepo 下跑 agent 的实践有参考价值。这次翻车的根源其实很简单：Claude 展示的全是工程侧的数字，部署次数、PR 占比、agent 会话数、成功率提升，但完全没有展示用户侧的价值。产品更好用了吗？Bug 更少了吗？用户体验提升了吗？一个字都没提。 AI 宣传总是在讲效率提升了多少，讲代码产出快了多少，但如果用户感知不到任何变化，甚至觉得产品在变差，那这些数字就成了反面教材：用 AI 生产了更多代码，但产品并没有因此变好。这其实也是当下整个 AI Agent 面临的一个根本问题：我们到底在用什么来衡量 AI 的价值？如果衡量标准只停留在“写了多少行代码”、“部署了多少次”、“PR 通过率多高”，那只是在衡量生产效率，但用户更关心产品质量。用户不关心你每天部署多少次，只关心用了 AI 后 App 是不是更好用了，是不是解决用户真实痛点了。

译Claude Code 宣传视频以 Spotify 为例，展示工程侧耀眼数据：每天 4500 次生产部署、73% PR 由 AI 辅助、工程师同时运行 5-10 个 Claude 会话、在 2000 万行 monorepo 中跑 agent，代码迁移加入验证后成功率从 25% 提升至 80%。但用户和知名开发者批评这些数字未转化为产品体验提升——Spotify bug 增多、播客功能失效、界面多年停滞。AI 宣传只堆效率指标，忽视用户真实感受，暴露了当前 AI Agent 价值衡量的根本矛盾。

Rohan Paul@rohanpaul_ai · 2天前75

🇨🇳China claims a new milestone in locally trained AI, as Meituan rolls out LongCat-2.0. Meituan, China's food delivery giant, just released LongCat-2.0, an open-source 1.6T-parameter MoE (33B–56B parameters) coding model. 1M tokens context window. Open-source: Available on longcat[.]ai and OpenRouter, top 3 globally by call volume. LongCat-2.0 was trained from scratch on 50,000 Chinese domestic chips and Meituan said this proves large-scale model training can now be done on domestic compute clusters. Shows again the rising push for self-reliance in China’s AI market, as DeepSeek, Alibaba, ByteDance, and others try to depend less on U.S. chips for model training after Washington’s export controls since 2022. While DeepSeek-V4-pro relied on home-grown chips only for inference, LongCat-2.0 used domestic hardware for both inference and pre-training, according to Meituan. Meituan did not directly identify its hardware supplier, but said in a WeChat post on Tuesday that it used Huawei Collective Communication Library (HCCL) to make training more stable. HCCL is a chip-to-chip communication system like Nvidia Collective Communication Library (NCCL). This removed doubts that Atlas-950 SuperPoDs could not train large LLMs for Zhipu AI and DeepSeek.

译美团发布开源编码模型LongCat-2.0，采用1.6T参数MoE架构（活跃参数33B-56B），支持1M tokens上下文窗口。该模型在5万块国产芯片上从头训练，使用华为HCCL通信库，验证国内算力集群可胜任大模型预训练。已开源至longcat[.]ai和OpenRouter，调用量全球前三。与DeepSeek-V4-pro仅推理使用国产硬件不同，LongCat-2.0预训练和推理均依赖国产芯片。

🚨 AI News | TestingCatalog@testingcatalog · 2天前62

ANTHROPIC 🔥: Claude Desktop app is finally available to Linux users in Beta. > Both Claude Code and Cowork are included. > Computer Use is not available yet. It happened! 👀

译ANTHROPIC 🔥: Claude Desktop 应用最终以 Beta 版形式面向 Linux 用户推出。 > 包含 Claude Code 和 Cowork。 > Computer Use 暂不可用。终于来了！👀

歸藏(guizang.ai)@op7418 · 2天前33

CodePilot 0.5.6.3 已经更新。今天新上 ClinePass 以及之前的 Opencode GO，这两个 Codeplan 套餐，想体验的可以试试

译CodePilot 0.5.6.3已更新，新增ClinePass和Opencode GO两个Codeplan套餐。此外，Cline推出每月9.9美元的token plan，支持DeepSeek、Kimi、MiniMax、MIMO、通义千问以及GLM5.2，目前还有1.99美元的优惠价。这类聚合token plan在海外逐渐增多，便于调用多家推理服务。

Nathan Lambert@natolambert · 2天前69

letssss gooooo breaking this bad boy out today loooooooooooong cat

译美团LongCat正式发布LongCat-2.0，采用1.6T参数MoE架构，约48B活跃参数，支持1M上下文窗口。专为智能体编码设计，核心创新包括：LongCat稀疏注意力（LSA）高效扩展1M上下文；零计算专家（33B–56B动态激活，无浪费）；MOPD混合专家组（按任务路由至Agent/Reasoning/Interaction）。基准测试：Terminal-Bench 2.1达70.8，SWE-bench Pro 59.5（超越GPT-5.5的58.6），SWE-bench Multilingual 77.3，FORTE 73.2，RWSearch 78.8，BrowseComp 79.9。可通过OpenRouter上的Owl Alpha试用。

🚨 AI News | TestingCatalog@testingcatalog · 2天前79

Meituan released LongCat-2.0, a new 1.6T parameter model with 1M context window! > Both the full training run and the large-scale deployment are built entirely on AI ASIC superpods. It is also available for testing on OpenRouter under the Owl Alpha name.

译美团推出LongCat-2.0，总参数1.6T（MoE架构，活跃参数约48B），支持1M上下文窗口。训练与部署完全基于AI ASIC超算集群，已以Owl Alpha名称在OpenRouter上线测试。模型专为智能体编码设计：LongCat Sparse Attention（LSA）高效处理百万级token；Zero-Compute Experts每个token动态激活33B–56B参数，零浪费计算；MOPD机制含三种任务门控专家组（Agent/Reasoning/Interaction）。基准测试：Terminal-Bench 2.1得70.8，SWE-bench Pro 59.5（同期GPT-5.5为58.6），SWE-bench Multilingual 77.3，FORTE 73.2，RWSearch 78.8，BrowseComp 79.9。