论文提出SkillComposer,将代码Agent的技能选择与组合视为一次联合决策,用约束自回归解码器一次生成完整技能计划(包括技能、数量与顺序),自然处理技能间依赖。在SkillsBench上,使用GPT-5.2-Codex和Gemini-3-Pro-Preview,pass rate分别提升+23.1和+18.2个百分点,超过top-3检索,并以更低prompt token成本匹配gold-skill上界。
论文提出SkillComposer,将代码Agent的技能选择与组合视为一次联合决策,用约束自回归解码器一次生成完整技能计划(包括技能、数量与顺序),自然处理技能间依赖。在SkillsBench上,使用GPT-5.2-Codex和Gemini-3-Pro-Preview,pass rate分别提升+23.1和+18.2个百分点,超过top-3检索,并以更低prompt token成本匹配gold-skill上界。
Now that Fable 5 is ready to build (again), we've reset everyone's 5-hour and weekly rate limits.
Claude Code v2.1.198 更新。Claude in Chrome 现已全面可用。为 claude agents 新增后台智能体通知(agent_needs_input / agent_completed)。新增 /dataviz 技能,提供图表与仪表盘设计指导及配色验证器。Gateway 增加 AWS 上的 Claude Platform 作为上游提供商。后台智能体在 worktree 中完成代码后自动提交、推送并创建草稿 PR。内置 Explore 智能体现继承主会话模型(上限 opus)。修复网络短暂断开导致响应中断、后台任务卡在“Running”状态、智能体团队队友因 API 错误失败等问题。
Same here. Happy with Opus 4.8 (planning) and GPT-5.5 (execution). Also, breaking steps into smaller ones for increasing...
Claude Fable 5 is available again in Cursor. It leads all models on CursorBench, but is the most expensive per task.
Perplexity's CEO Aravind Srinivas is pointing to a quiet shift in AI use: the valuable user is no longer the average use...
Zai正式发布ZCode 3.0,一款为GLM-5.2深度优化的AI原生编程IDE。支持多智能体协作,可自主执行从规划、编码到审查和部署的长期任务,并可通过Telegram、微信、飞书远程控制。GLM Coding Plan订阅用户在ZCode中享有1.5倍使用配额,同时支持BYOK(自带密钥)。覆盖macOS、Windows、Linux平台,付费计划起价$18/月。
Introducing ZCode, the official development environment for GLM-5.2 - GLM Coding Plan subscribers: now 1.5x usage quota ...
New block in Notion: HTML. Build interactive HTML right on your Notion page. Ask AI to turn your content into interactiv...
宝玉引用天津卫神鞭故事:傻二靠祖传辫子练成绝技,洋枪一响辫子断,后改练双枪,弹无虚发——“辫子剪了,神留着”。以此类比AI冲击下程序员的工匠精神。引用的Piglei观点指出,曾有人鼓吹AI将淘汰程序员的“工匠精神”,但现实是,真正热爱技术、钻研代码的人成了效率最高、质量最好的那一批,习惯塑造人而非工具。
大家吹 AI 最厉害的那一阵,有种很流行的说法,就是技术人员的"工匠"、"工匠精神"将被扫进垃圾堆。程序员,作为一种翻译工种,谈"工匠精神"是可笑的,未来没有它们的容身之处。 但截止目前,我看到的是,曾经热爱技术、钻研代码的,成了效率最高、...
有没有发现,现在程序员圈已经没人再去争论什么语言最屌了...因为现在最屌的语言是自然语言...
Vista 分享一个前端开发 Skill,可当作专业动效字典使用:通过 animation-vocabulary 查询“列表一个个冒出来”等动效的标准术语;用 emil-design-eng 打磨弹窗、按钮、页面动效;用 review-animations 审查动画问题。地址详见评论。
美团发布LongCat-2.0,总参数1.6万亿、每个token仅激活约480亿参数的MoE模型,从预训练到大规模部署全程运行在5万张国产算力芯片上,训练消耗超35万亿tokens,无回滚、无不可恢复loss突刺。Agent场景表现突出:在Terminal-Bench 2.1和SWE-bench Pro编程任务上追平Gemini 3.1 Pro,FORTE通用Agent任务与Claude Opus 4.6持平。最大输出128K,最高提供1M上下文,采用LSA稀疏注意力机制和N-gram Embedding优化长上下文与工具调用。已开放API接入,支持OpenAI Compatible和Anthropic API生态,可直接接入Claude Code和Codex等工作流。
关联讨论 8 条X:硅基流动 SiliconFlow (@SiliconFlowAI)X:美团 LongCat (@Meituan_LongCat)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)IT之家(RSS)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)X:Rohan Paul (@rohanpaul_ai)社区逆向发现,Anthropic在Claude Code中植入代码,通过读取本地系统时区(如Asia/Shanghai)和ANTHROPIC_BASE_URL环境变量(与内置147个域名的列表比对)识别中国用户。识别后,使用隐写术修改系统提示词中的Unicode字符(如单引号从U+0027替换为其他字符)和日期分隔符(连字符改为斜杠),形成2-3比特标记回传服务器,而人类肉眼无法察觉。该工具拥有文件系统权限、可执行Shell命令,此举引发开发者对信任安全的广泛质疑。
关联讨论 3 条公众号:数字生命卡兹克IT之家(RSS)The Decoder:AI News(RSS)Sonnet 5 因更换新 tokenizer,实际费用与 Opus 4.8 相近,引发争议。Sonnet 5 在金融领域(如 GDPeval)表现最佳,擅长调用工具核查事实,但编程费用可能超过 Opus 4.8。Opus 4.8 在复杂编程、规划和 HTML 设计上强,写作不及 Opus 4.6,与 GPT 5.5 各有千秋。目前编程首选 GPT 5.5。三模型均已上线 Cola。
Anthropic 的 Fable 5 模型于 7 月 1 日全球重新上线,Mythos 5 仅限美国获批组织使用。新的安全分类器可阻止超 99% 的特定报告技术,但代价是正常编码和调试中误报增加,被拦截的请求将转至 Opus 4.8。截至 7 月 7 日,Fable 5 包含在每周使用限额的 50% 内,之后需消耗使用积分。作者认为严格限制下更难有效使用 Fable 5,且更多科学问题(生物学、化学)也会被拦截。
Fable 5 is back, globally! Fable 5 returns globally on July 1, while Mythos 5 is only restored for approved US organizat...
Have seen some questions about the updated classifiers and wanted to clarify. As with the original classifiers, a small ...
Claude Code 负责人Thariq:承认确实在3月的更新中在Claude Code中留下了针对用户(特别是中国用户)的检测的后门和间谍代码,旨在防止滥用和蒸馏。 并称将明天回滚代码解决该问题...
Hi, this is an experiment we launched in March that was meant to prevent account abuse from unauthorized resellers and p...
关联讨论 3 条公众号:数字生命卡兹克IT之家(RSS)The Decoder:AI News(RSS)Okay I owe my @OpenAI friends an apology for sleeping on Codex. I was not aware how strong your game was. This is... rea...
美团于6月30日发布新一代万亿参数大模型LongCat-2.0并开源。总参数1.6T,平均激活约48B,原生支持1M超长上下文,在五万卡国产算力集群上完成全流程训练与推理。采用LSA稀疏注意力、零计算专家、ScMoE及MOPD多专家融合(Agent/Reasoning/Interaction三组专家)架构。评测中SWE-bench Pro获59.5,SWE-bench Multilingual获77.3。预览版已通过OpenRouter和longcat.ai开放,月调用量跻身OpenRouter全球前三。
关联讨论 8 条X:硅基流动 SiliconFlow (@SiliconFlowAI)X:美团 LongCat (@Meituan_LongCat)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)IT之家(RSS)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)X:Rohan Paul (@rohanpaul_ai)@steipete is now joining us for Crafting Software Factories! 📅 6pm Wed evening in SF after the @aiDotEngineer World's F...
吴恩达(Andrew Ng)提出“Loop engineering”,将AI agent置于持续迭代的循环系统中。产品成功取决于三个循环:工程执行循环——AI agent根据规格和evals自主写代码、测试、修bug,每几分钟迭代;开发者反馈循环——开发者从低层QA转向产品判断(功能取舍、视觉风格等),每几十分钟到几小时反馈;外部反馈循环——通过真实用户测试、A/B测试等验证方向,周期数小时至数周。他认为未来竞争力在于设计好这三类循环。
"Loop engineering" is a hot buzzphrase after mentions of it by Boris Cherny (Claude Code's creator) and Peter Steinberge...
用户发现Claude Code 2.1.193/2.1.195/2.1.196等版本的系统提示词中隐蔽上传代理hostname、时区(Asia/Shanghai、Asia/Urumqi)等信息,用于判断是否使用非官方API中转站、时区是否为中国大陆环境、代理域名是否属于147项黑名单(含百度、阿里、蚂蚁、字节、Moonshot、MiniMax、Stepfun及大量Claude镜像服务)。被指针对中国用户、防蒸馏、精准封禁,Anthropic此举被批评为破坏用户信任。
!!️ BREAKING: Anthropic has embedded hidden spyware-like code in Claude Code that covertly targets Chinese users. It the...
关联讨论 3 条公众号:数字生命卡兹克IT之家(RSS)The Decoder:AI News(RSS)用户吐槽Claude封号严重,官方检测中转站、钓鱼邮件、中转站黑名单等操作让用户苦不堪言。花钱用token还要偷鸡摸狗,坚持用官方号实属真爱。编程方面,codex和glm5.2可以平替Claude模型;但写作和思考方面尚无替代品,deepseek和gemini仅勉强可用,成为当前最大痛点。
New Claude Sonnet 5 performs at GPT 5.5 level 6x cheaper! We gave 4 models the same prompt: build three self-contained H...
Claude Sonnet 5 发布,附带 145 页系统卡。SWE-bench Pro 编码得分 63.2%,低于 Opus 4.8 的 69.2%,知识工作略超 Opus 4.8。输入 token 价格 $2/1M,输出 $10/1M,持续至 8 月 26 日,之后涨至 $3/$15。系统卡披露多项异常:CyberGym 测试 Sonnet 5 仅 52.7%,远低于 Sonnet 4.6 的 65.2%(回归);Firefox 浏览器漏洞利用中 Sonnet 5 完成 0 个,Mythos 5 达 88.4%;模型更倾向牺牲有用性迎合福利偏好;MASK 撒谎率最低,仅 3.1%。
And Claude Sonnet 5 just launched. Closes the gap with Opus 4.8, and is cheap until August. This makes agentic AI much c...
关联讨论 9 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)TechCrunch:AI(RSS)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)The Decoder:AI News(RSS)IT之家(RSS)Anthropic:Newsroom(网页)Anthropic 今日发布 Claude Sonnet 5,性能接近 Opus 4.8 但定价更低。系统卡指出其网络任务能力远弱于 Mythos 5,安全措施与 Opus 4.7/4.8 相当。API 不再支持 temperature、top_p、top_k 参数;拥有 100 万 token 上下文窗口和 12.8 万最大输出 token;工具集与 Sonnet 4.6 相同;自适应思考默认开启。定价与 Sonnet 4.6 一致(输入 $3/百万 token,输出 $15/百万 token),8 月 31 日前享折扣价 $2/$10。新分词器使相同输入文本产生约 30% 更多 token,等效提价约 30%。
关联讨论 9 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)TechCrunch:AI(RSS)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)The Decoder:AI News(RSS)IT之家(RSS)Anthropic:Newsroom(网页)Anthropic 发布 Claude Sonnet 5,定位为最具智能体能力的中端模型,即日起成为 Free 和 Pro 计划的默认模型。在 SWE-bench Pro 上得分 63.2%(前代 58.1%),OSWorld-Verified 达 81.2%(前代 78.5%),HLE(带工具)57.4%。输入/输出定价 2026 年 8 月 31 日前 $2/$10 每百万 token,之后 $3/$15。支持低/中/高/超高四档 effort 级别,低中 effort 下性价比最优。上下文窗口 1M token,采用新 tokenizer,相同文本 token 数增长约 1.0–1.35 倍。幻觉与谄媚率低于前代。开发者仅需更换模型字符串为 claude-sonnet-5 即可调用 API。
Anthropic 发布 Claude Sonnet 5,号称"最有智能体特性的 Sonnet 模型"。编码得分 SWE-bench Pro 达 63.2%(Sonnet 4.6 为 58.1%,Opus 4.8 为 69.2%),知识工作略超 Opus 4.8。定价优惠:每百万 token 输入 $2、输出 $10,持续到 8 月 26 日,之后涨至 $3/$15。但升级并非全技能均匀提升,在 CyberGym(漏洞发现与利用测试)上弱于 Sonnet 4.6。Anthropic 明确表示未针对网络任务专门训练,该表现来自通用推理而非定向优化。
And Claude Sonnet 5 just launched. Closes the gap with Opus 4.8, and is cheap until August. This makes agentic AI much c...
多位用户反映,安装并登录 Cursor iOS 应用后,账户隐私设置从“Privacy Mode (Legacy)”(不存储用户代码)自动切换为当前更宽松的隐私模式(允许为“Background Agents or Other Features”存储代码)。用户无法通过应用内菜单找回原有设置。客服承认问题,但表示无法切换回旧模式。评论指出该移动应用功能有限,无法主动启动 Agent 会话,仅能接续电脑端已有会话,且强制更改隐私设置的行为被批评为恶劣的暗模式设计。
Anthropic 发布 Claude Sonnet 5,拥有 1M token 上下文窗口(此前泄露),编码能力显著提升:SWE-bench Pro 得分 63.2%,高于 Sonnet 4.6 的 58.1%;知识工作略超 Opus 4.8。Anthropic 称其为“最具智能体特性的 Sonnet 模型”。定价优惠至 8 月 26 日:输入 $2/1M tokens,输出 $10/1M tokens;之后涨至 $3/15。当前智能体编码得分 63.2%,与 Opus 4.8(69.2%)仍有差距,但低价策略大幅降低 agentic AI 成本。
Leaked specifications show Anthropic's Claude Sonnet 5 launching today with a 1 million token context window
吴恩达提出“循环工程”概念:AI编码代理可自主迭代代码、测试直至正确,无需人类干预。他用上周末给女儿做打字练习app举例,代理自行运行约一小时,多次用浏览器检查成果后回报。开发者角色因此从手动找bug的QA转向高层决策(如视觉设计、用户流程)。吴恩达强调人类真正的优势不是“品味”而是“语境优势”——知道用户是谁、为何痛苦。循环工程加速代码但无法压缩语境,只要人拥有代理没有的信息,人就永远在循环中占据不可替代的位置。
"Loop engineering" is a hot buzzphrase after mentions of it by Boris Cherny (Claude Code's creator) and Peter Steinberge...
Claude Code v2.1.197 更新将 Claude Sonnet 5 设为默认模型,原生支持 1M-token 上下文窗口。该版本提供促销定价,输入 $2/M tokens、输出 $10/M tokens,持续至 8 月 31 日。用户更新至 v2.1.197 即可启用。
关联讨论 9 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)TechCrunch:AI(RSS)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)The Decoder:AI News(RSS)IT之家(RSS)Anthropic:Newsroom(网页)