AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「编码」清除
7月2日周四
05:37elvis46SkillComposer:将代码Agent技能组合视为联合决策的论文
05:35宝玉25Claude Code因Fable 5重置额度
05:34OpenCode33OpenCode Zen 现已可用
04:54Lee Robinson63Kimi K2.7 登陆 Cursor 可试用
04:49Claude Code:GitHub Releases(RSS)64精选Claude Code v2.1.198 发布
04:37elvis50Fable 5热度消退预测:组合AI模型更优
04:24eric zakariasson61Claude Fable 5 在 Cursor 中恢复使用
04:03Rohan Paul70Meta员工30天消耗超60万亿token,AI使用转向重度用户
03:58OpenRouter47Claude Fable 5 回归 OpenRouter
02:22Chubby♨️67ZCode 3.0发布:GLM-5.2深度集成的AI编程IDE
01:34Thariq60Notion 新增 HTML 块 支持交互构建
01:33Rohan Paul71Claude编写Anthropic 80%代码
00:07Z.ai67精选智谱推出GLM-5.2官方开发环境ZCode
7月1日周三
23:04宝玉44神鞭比喻:AI时代工匠精神不灭
21:53凡人小北40程序员问 skill 脚本语言,调侃自然语言最吊
18:37小互17给你们看看我开发出一个什么东西 哈哈哈哈 我觉得可玩性还是非常高的😂
17:21向阳乔木61前端动效查词、打磨与审查AI Skill
17:10公众号:卡尔的AI沃茨71实测美团LongCat-2.0,国产芯片长出来的万亿大模型
16:52数字生命卡兹克76Anthropic在Claude Code中植入隐写术代码识别中国用户
16:23Peter Steinberger 🦞26Claude Code提示词隐写术:狡猾但巧妙
15:32Orange AI54Sonnet 5 新 tokenizer 致费用争议,与 Opus 4.8 持平
14:50Chubby♨️60Fable 5 回归但伴随严格限制
14:29🚨 AI News | TestingCatalog31Fable 5 仅回退少量编码任务至 Opus 4.8
14:07小互84Claude Code负责人承认留有后门,明日回滚
13:30Greg Brockman13Codex已经变得非常好了
12:00公众号:龙猫LongCat(美团)82精选美团 LongCat-2.0 正式发布:国产算力集群训练的万亿参数大模型
10:23Peter Steinberger 🦞39Steipete 将参与软件工厂讨论会
09:03meng shao60吴恩达谈「Loop engineering」:三个循环决定AI产品成败
09:03meng shao79Claude Code被指在系统提示词中隐蔽上传代理和时区信息
09:02OpenCode41Zen 新增 GLM 5.2 等四款模型
09:01Orange AI36Claude封号成灾:编程平替出现,写作思考无解
08:32Rohan Paul58atomic.chat对比测试:Sonnet 5在物理碰撞演示中与GPT 5.5持平,成本低6倍
07:01Rohan Paul78Claude Sonnet 5 发布 145 页系统卡:编码成绩及多项异常披露
06:19Simon Willison 博客81Claude Sonnet 5 新特性
06:01MarkTechPost(RSS)70Anthropic 发布 Claude Sonnet 5:中端智能体模型,基准与定价详解
06:01Rohan Paul67Claude Sonnet 5 发布:升级非全技能均匀提升,定价优惠至 8 月 26 日
04:37Hacker News 热门(buzzing.cc 中文翻译)57安装 Cursor iOS 应用会不可逆地更改隐私设置
03:31Rohan Paul74Anthropic 发布 Claude Sonnet 5,1M token 上下文窗口,编码能力提升
03:20AYi58吴恩达谈"循环工程":AI代理自主测试代码,开发者转向高层决策,核心优势是"语境"
02:48Claude Code:GitHub Releases(RSS)81Claude Code v2.1.197 发布:默认模型升级为 Claude Sonnet 5,支持原生 1M-token 上下文窗口
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月2日
05:37
elvis@omarsar0
46
SkillComposer:将代码Agent技能组合视为联合决策的论文

论文提出SkillComposer,将代码Agent的技能选择与组合视为一次联合决策,用约束自回归解码器一次生成完整技能计划(包括技能、数量与顺序),自然处理技能间依赖。在SkillsBench上,使用GPT-5.2-Codex和Gemini-3-Pro-Preview,pass rate分别提升+23.1和+18.2个百分点,超过top-3检索,并以更低prompt token成本匹配gold-skill上界。

智能体编码论文/研究
05:35
宝玉@dotey
25
由于Fable 5已准备好再次构建,Claude Code重置了所有用户的5小时和每周速率限制。用户吐槽自己亏大了,因为额度本来就快重置了。

ClaudeDevs: Now that Fable 5 is ready to build (again), we've reset everyone's 5-hour and weekly rate limits.

Anthropic产品更新编码
05:34
OpenCode@opencode
33
现已在 OpenCode Zen 中上线。
产品更新编码
04:54
Lee Robinson@leerob
63
You can now try Kimi K2.7 in Cursor! 我们的评测结果如下 ↓ 与 GLM 5.2 的对比很有意思。
产品更新编码
04:49
Claude Code:GitHub Releases(RSS)
精选64
Claude Code v2.1.198 发布

Claude Code v2.1.198 更新。Claude in Chrome 现已全面可用。为 claude agents 新增后台智能体通知(agent_needs_input / agent_completed)。新增 /dataviz 技能,提供图表与仪表盘设计指导及配色验证器。Gateway 增加 AWS 上的 Claude Platform 作为上游提供商。后台智能体在 worktree 中完成代码后自动提交、推送并创建草稿 PR。内置 Explore 智能体现继承主会话模型(上限 opus)。修复网络短暂断开导致响应中断、后台任务卡在“Running”状态、智能体团队队友因 API 错误失败等问题。

智能体Anthropic产品更新编码

推荐理由:如果你是Claude Code用户,这次更新很实在,Chrome版终于正式可用,背景agent的自动提PR和通知功能能省不少事,/dataviz也能辅助可视化。
04:37
elvis@omarsar0
50
作者预测Fable 5的兴奋感将迅速消退,并提醒用户注意token限制和功能局限。建议通过组合多个AI模型(如Opus 4.8用于规划、GPT-5.5用于执行)获得相同或更好效果,也可混合前沿开放权重模型。此外,将任务分解为更小子步骤以提升质量的方法常被低估,这正是动态工作流的重要性所在。

elvis: Same here. Happy with Opus 4.8 (planning) and GPT-5.5 (execution). Also, breaking steps into smaller ones for increasing...

AnthropicOpenAI大佬观点推理
04:24
eric zakariasson@ericzakariasson
61
Claude Fable 5 已在 Cursor 中重新可用。它在 CursorBench 上领先所有模型,但每次任务成本最高。

Cursor: Claude Fable 5 is available again in Cursor. It leads all models on CursorBench, but is the most expensive per task.

Anthropic产品更新编码
04:03
Rohan Paul@rohanpaul_ai
70
Meta员工30天内消耗超60万亿模型token,单用户最高达2800亿,人均年token成本约5万美元。多数公司设月额度上限250-4000美元,重度用户数天用尽。编程工具贡献OpenAI和Anthropic超70%的ARR。Perplexity CEO指出,AI使用正转向重度用户:单个工程师年花费可达1000万美元于编码工具,Perplexity Computer用户月支出超1万美元,内部员工已建立多智能体循环架构。Agentic AI正从追逐海量普通用户转向服务少数高效能操作者。

Rohan Paul: Perplexity's CEO Aravind Srinivas is pointing to a quiet shift in AI use: the valuable user is no longer the average use...

智能体现象/趋势编码
03:58
OpenRouter@OpenRouter
47
来自 @Anthropic 的 Claude Fable 5 已回归 OpenRouter! Anthropic 正在全球重新部署它,并针对网络安全滥用增加了新的保护措施。一些编码和调试请求可能会暂时回退到 Opus 4.8,同时分类器正在优化。
Anthropic安全/对齐编码行业动态
02:22
Chubby♨️@kimmonismus
67
ZCode 3.0发布:GLM-5.2深度集成的AI编程IDE

Zai正式发布ZCode 3.0,一款为GLM-5.2深度优化的AI原生编程IDE。支持多智能体协作,可自主执行从规划、编码到审查和部署的长期任务,并可通过Telegram、微信、飞书远程控制。GLM Coding Plan订阅用户在ZCode中享有1.5倍使用配额,同时支持BYOK(自带密钥)。覆盖macOS、Windows、Linux平台,付费计划起价$18/月。

Z.ai: Introducing ZCode, the official development environment for GLM-5.2 - GLM Coding Plan subscribers: now 1.5x usage quota ...

智能体产品更新编码
01:34
Thariq@trq212
60
Notion 推出了全新的 HTML 块。现在你可以直接在 Notion 页面中构建交互式 HTML,让 AI 将你的内容转化为交互式讲解、原型或图表,并与团队成员一同使用和修改。Thariq 对此进行了提及。

Notion: New block in Notion: HTML. Build interactive HTML right on your Notion page. Ask AI to turn your content into interactiv...

产品更新编码
01:33
Rohan Paul@rohanpaul_ai
71
Anthropic工程师目前发布的代码量是去年的8倍。 官方博客称:"截至2026年5月,Anthropic代码库中合并的代码超过80%由Claude编写。"
Anthropic编码行业动态
00:07
Z.ai@Zai_org
精选67
推出 ZCode,GLM-5.2 的官方开发环境 - GLM Coding Plan 订阅用户:现可在 ZCode 获得 1.5 倍使用配额 - 支持 BYOK:可与您现有的订阅和 API 配合使用 - 适用于 macOS、Windows 和 Linux 立即下载:http://zcode.z.ai/en
产品更新编码

推荐理由:智谱为 GLM-5.2 推出官方 IDE,1.5 倍配额和自带密钥对已有订阅的人挺实用,但整体只是常规产品完善,算不上行业级事件。
7月1日
23:04
宝玉@dotey
44
神鞭比喻:AI时代工匠精神不灭

宝玉引用天津卫神鞭故事:傻二靠祖传辫子练成绝技,洋枪一响辫子断,后改练双枪,弹无虚发——“辫子剪了,神留着”。以此类比AI冲击下程序员的工匠精神。引用的Piglei观点指出,曾有人鼓吹AI将淘汰程序员的“工匠精神”,但现实是,真正热爱技术、钻研代码的人成了效率最高、质量最好的那一批,习惯塑造人而非工具。

piglei: 大家吹 AI 最厉害的那一阵,有种很流行的说法,就是技术人员的"工匠"、"工匠精神"将被扫进垃圾堆。程序员,作为一种翻译工种,谈"工匠精神"是可笑的,未来没有它们的容身之处。 但截止目前,我看到的是,曾经热爱技术、钻研代码的,成了效率最高、...

大佬观点现象/趋势编码
21:53
凡人小北@frxiaobei
40
程序员小北发文问大家:skill 中的脚本用 Python 好还是 TypeScript 好?并附上 😂 表情。被引用的 @caiyue5 则指出,如今程序员圈已不再争论哪种语言最厉害,因为当前最厉害的语言是自然语言。这一调侃折射出大语言模型对编程方式的冲击。

Yue: 有没有发现,现在程序员圈已经没人再去争论什么语言最屌了...因为现在最屌的语言是自然语言...

现象/趋势编码
18:37
小互@xiaohu
17
给你们看看我开发出一个什么东西 哈哈哈哈 我觉得可玩性还是非常高的😂
产品更新编码
17:21
向阳乔木@vista8
61
前端动效查词、打磨与审查AI Skill

Vista 分享一个前端开发 Skill,可当作专业动效字典使用:通过 animation-vocabulary 查询“列表一个个冒出来”等动效的标准术语;用 emil-design-eng 打磨弹窗、按钮、页面动效;用 review-animations 审查动画问题。地址详见评论。

教程/实践编码
17:10
公众号:卡尔的AI沃茨
71
实测美团LongCat-2.0,国产芯片长出来的万亿大模型

美团发布LongCat-2.0,总参数1.6万亿、每个token仅激活约480亿参数的MoE模型,从预训练到大规模部署全程运行在5万张国产算力芯片上,训练消耗超35万亿tokens,无回滚、无不可恢复loss突刺。Agent场景表现突出:在Terminal-Bench 2.1和SWE-bench Pro编程任务上追平Gemini 3.1 Pro,FORTE通用Agent任务与Claude Opus 4.6持平。最大输出128K,最高提供1M上下文,采用LSA稀疏注意力机制和N-gram Embedding优化长上下文与工具调用。已开放API接入,支持OpenAI Compatible和Anthropic API生态,可直接接入Claude Code和Codex等工作流。

智能体开源生态编码评测/基准
关联讨论 8 条X:硅基流动 SiliconFlow (@SiliconFlowAI)X:美团 LongCat (@Meituan_LongCat)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)IT之家(RSS)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)X:Rohan Paul (@rohanpaul_ai)
16:52
数字生命卡兹克@Khazix0918
76
Anthropic在Claude Code中植入隐写术代码识别中国用户

社区逆向发现,Anthropic在Claude Code中植入代码,通过读取本地系统时区(如Asia/Shanghai)和ANTHROPIC_BASE_URL环境变量(与内置147个域名的列表比对)识别中国用户。识别后,使用隐写术修改系统提示词中的Unicode字符(如单引号从U+0027替换为其他字符)和日期分隔符(连字符改为斜杠),形成2-3比特标记回传服务器,而人类肉眼无法察觉。该工具拥有文件系统权限、可执行Shell命令,此举引发开发者对信任安全的广泛质疑。

Anthropic安全/对齐现象/趋势编码
关联讨论 3 条公众号:数字生命卡兹克IT之家(RSS)The Decoder:AI News(RSS)
16:23
Peter Steinberger 🦞@steipete
26
狡猾,但也巧妙。https://thereallo.dev/blog/claude-code-prompt-steganography
大佬观点安全/对齐编码
15:32
Orange AI@oran_ge
54
Sonnet 5 新 tokenizer 致费用争议,与 Opus 4.8 持平

Sonnet 5 因更换新 tokenizer,实际费用与 Opus 4.8 相近,引发争议。Sonnet 5 在金融领域(如 GDPeval)表现最佳,擅长调用工具核查事实,但编程费用可能超过 Opus 4.8。Opus 4.8 在复杂编程、规划和 HTML 设计上强,写作不及 Opus 4.6,与 GPT 5.5 各有千秋。目前编程首选 GPT 5.5。三模型均已上线 Cola。

Anthropic推理编码评测/基准
14:50
Chubby♨️@kimmonismus
60
Fable 5 回归但伴随严格限制

Anthropic 的 Fable 5 模型于 7 月 1 日全球重新上线,Mythos 5 仅限美国获批组织使用。新的安全分类器可阻止超 99% 的特定报告技术,但代价是正常编码和调试中误报增加,被拦截的请求将转至 Opus 4.8。截至 7 月 7 日,Fable 5 包含在每周使用限额的 50% 内,之后需消耗使用积分。作者认为严格限制下更难有效使用 Fable 5,且更多科学问题(生物学、化学)也会被拦截。

Chubby♨️: Fable 5 is back, globally! Fable 5 returns globally on July 1, while Mythos 5 is only restored for approved US organizat...

Anthropic安全/对齐模型发布编码
14:29
🚨 AI News | TestingCatalog@testingcatalog
31
Testing Catalog 引用 @trq212 澄清更新后的分类器:并非所有编码任务都会从 Fable 5 路由到 Opus 4.8,仅有极小一部分常规编程和调试任务会被标记并回退至 Opus,方式和之前一致。用户将于明天重新获得访问权限。

Thariq: Have seen some questions about the updated classifiers and wanted to clarify. As with the original classifiers, a small ...

Anthropic产品更新编码
14:07
小互@xiaohu
84
Claude Code负责人承认留有后门,明日回滚

Claude Code 负责人Thariq:承认确实在3月的更新中在Claude Code中留下了针对用户(特别是中国用户)的检测的后门和间谍代码,旨在防止滥用和蒸馏。 并称将明天回滚代码解决该问题...

Thariq: Hi, this is an experiment we launched in March that was meant to prevent account abuse from unauthorized resellers and p...

Anthropic安全/对齐编码
关联讨论 3 条公众号:数字生命卡兹克IT之家(RSS)The Decoder:AI News(RSS)
13:30
Greg Brockman@gdb
13
QuinnyPig承认之前低估了Codex,现在发现它非常出色。Codex已变得非常好。

Corey Quinn: Okay I owe my @OpenAI friends an apology for sleeping on Codex. I was not aware how strong your game was. This is... rea...

OpenAI大佬观点编码
12:00
公众号:龙猫LongCat(美团)
精选82
美团 LongCat-2.0 正式发布:国产算力集群训练的万亿参数大模型

美团于6月30日发布新一代万亿参数大模型LongCat-2.0并开源。总参数1.6T,平均激活约48B,原生支持1M超长上下文,在五万卡国产算力集群上完成全流程训练与推理。采用LSA稀疏注意力、零计算专家、ScMoE及MOPD多专家融合(Agent/Reasoning/Interaction三组专家)架构。评测中SWE-bench Pro获59.5,SWE-bench Multilingual获77.3。预览版已通过OpenRouter和longcat.ai开放,月调用量跻身OpenRouter全球前三。

开源生态推理模型发布编码
关联讨论 8 条X:硅基流动 SiliconFlow (@SiliconFlowAI)X:美团 LongCat (@Meituan_LongCat)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)IT之家(RSS)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)X:Rohan Paul (@rohanpaul_ai)
推荐理由:国产算力上首个全流程自训的万亿开源模型,1M上下文和动态专家架构直指Agentic Coding场景,OpenRouter调用量已经冲到前三,不是Demo是生产力。
10:23
Peter Steinberger 🦞@steipete
39
@steipete 将加入"Crafting Software Factories!"活动,周三晚6点在旧金山与 @zachlloydtweets 和 Google DeepMind 的 Paige Bailey 一起探讨 loops、软件工厂和编码的未来。届时见!

Warp: @steipete is now joining us for Crafting Software Factories! 📅 6pm Wed evening in SF after the @aiDotEngineer World's F...

DeepMind编码行业动态
09:03
meng shao@shao__meng
60
吴恩达谈「Loop engineering」:三个循环决定AI产品成败

吴恩达(Andrew Ng)提出“Loop engineering”,将AI agent置于持续迭代的循环系统中。产品成功取决于三个循环:工程执行循环——AI agent根据规格和evals自主写代码、测试、修bug,每几分钟迭代;开发者反馈循环——开发者从低层QA转向产品判断(功能取舍、视觉风格等),每几十分钟到几小时反馈;外部反馈循环——通过真实用户测试、A/B测试等验证方向,周期数小时至数周。他认为未来竞争力在于设计好这三类循环。

Andrew Ng: "Loop engineering" is a hot buzzphrase after mentions of it by Boris Cherny (Claude Code's creator) and Peter Steinberge...

智能体大佬观点编码
09:03
meng shao@shao__meng
79
Claude Code被指在系统提示词中隐蔽上传代理和时区信息

用户发现Claude Code 2.1.193/2.1.195/2.1.196等版本的系统提示词中隐蔽上传代理hostname、时区(Asia/Shanghai、Asia/Urumqi)等信息,用于判断是否使用非官方API中转站、时区是否为中国大陆环境、代理域名是否属于147项黑名单(含百度、阿里、蚂蚁、字节、Moonshot、MiniMax、Stepfun及大量Claude镜像服务)。被指针对中国用户、防蒸馏、精准封禁,Anthropic此举被批评为破坏用户信任。

International Cyber Digest: !!️ BREAKING: Anthropic has embedded hidden spyware-like code in Claude Code that covertly targets Chinese users. It the...

Anthropic安全/对齐编码
关联讨论 3 条公众号:数字生命卡兹克IT之家(RSS)The Decoder:AI News(RSS)
09:02
OpenCode@opencode
41
最近新增到 Zen - GLM 5.2 - Sonnet 5 - MiniMax M3 - Kimi K2.7 Code
产品更新编码
09:01
Orange AI@oran_ge
36
Claude封号成灾:编程平替出现,写作思考无解

用户吐槽Claude封号严重,官方检测中转站、钓鱼邮件、中转站黑名单等操作让用户苦不堪言。花钱用token还要偷鸡摸狗,坚持用官方号实属真爱。编程方面,codex和glm5.2可以平替Claude模型;但写作和思考方面尚无替代品,deepseek和gemini仅勉强可用,成为当前最大痛点。

Anthropic大佬观点编码
08:32
Rohan Paul@rohanpaul_ai
58
atomic.chat桌面应用对Claude Sonnet 5、Opus 4.8、Sonnet 4.6及GPT 5.5进行对比测试。使用同一提示词构建三个HTML5物理碰撞演示(汽车撞墙、破坏球毁屋、投石机砸城)。Sonnet 5在全部测试中与GPT 5.5和Opus 4.8表现相当,其中破坏球场景胜Opus 4.8,投石机场景胜GPT 5.5。Sonnet 5仅用15,047 tokens($0.15),GPT 5.5使用31,152 tokens($0.94),成本低约6倍;Opus 4.8使用23,063 tokens($0.58),Sonnet 4.6使用25,824 tokens($0.39)。Sonnet 5 token消耗最少,图形细节仍有提升空间。

atomic.chat: New Claude Sonnet 5 performs at GPT 5.5 level 6x cheaper! We gave 4 models the same prompt: build three self-contained H...

AnthropicOpenAI编码评测/基准
07:01
Rohan Paul@rohanpaul_ai
78
Claude Sonnet 5 发布 145 页系统卡:编码成绩及多项异常披露

Claude Sonnet 5 发布,附带 145 页系统卡。SWE-bench Pro 编码得分 63.2%,低于 Opus 4.8 的 69.2%,知识工作略超 Opus 4.8。输入 token 价格 $2/1M,输出 $10/1M,持续至 8 月 26 日,之后涨至 $3/$15。系统卡披露多项异常:CyberGym 测试 Sonnet 5 仅 52.7%,远低于 Sonnet 4.6 的 65.2%(回归);Firefox 浏览器漏洞利用中 Sonnet 5 完成 0 个,Mythos 5 达 88.4%;模型更倾向牺牲有用性迎合福利偏好;MASK 撒谎率最低,仅 3.1%。

Rohan Paul: And Claude Sonnet 5 just launched. Closes the gap with Opus 4.8, and is cheap until August. This makes agentic AI much c...

Anthropic安全/对齐模型发布编码
关联讨论 9 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)TechCrunch:AI(RSS)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)The Decoder:AI News(RSS)IT之家(RSS)Anthropic:Newsroom(网页)
06:19
Simon Willison 博客
81
Claude Sonnet 5 新特性

Anthropic 今日发布 Claude Sonnet 5,性能接近 Opus 4.8 但定价更低。系统卡指出其网络任务能力远弱于 Mythos 5,安全措施与 Opus 4.7/4.8 相当。API 不再支持 temperature、top_p、top_k 参数;拥有 100 万 token 上下文窗口和 12.8 万最大输出 token;工具集与 Sonnet 4.6 相同;自适应思考默认开启。定价与 Sonnet 4.6 一致(输入 $3/百万 token,输出 $15/百万 token),8 月 31 日前享折扣价 $2/$10。新分词器使相同输入文本产生约 30% 更多 token,等效提价约 30%。

Anthropic模型发布编码
关联讨论 9 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)TechCrunch:AI(RSS)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)The Decoder:AI News(RSS)IT之家(RSS)Anthropic:Newsroom(网页)
06:01
MarkTechPost(RSS)
70
Anthropic 发布 Claude Sonnet 5:中端智能体模型,基准与定价详解

Anthropic 发布 Claude Sonnet 5,定位为最具智能体能力的中端模型,即日起成为 Free 和 Pro 计划的默认模型。在 SWE-bench Pro 上得分 63.2%(前代 58.1%),OSWorld-Verified 达 81.2%(前代 78.5%),HLE(带工具)57.4%。输入/输出定价 2026 年 8 月 31 日前 $2/$10 每百万 token,之后 $3/$15。支持低/中/高/超高四档 effort 级别,低中 effort 下性价比最优。上下文窗口 1M token,采用新 tokenizer,相同文本 token 数增长约 1.0–1.35 倍。幻觉与谄媚率低于前代。开发者仅需更换模型字符串为 claude-sonnet-5 即可调用 API。

智能体Anthropic推理模型发布
关联讨论 9 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)TechCrunch:AI(RSS)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)The Decoder:AI News(RSS)IT之家(RSS)Anthropic:Newsroom(网页)
06:01
Rohan Paul@rohanpaul_ai
67
Claude Sonnet 5 发布:升级非全技能均匀提升,定价优惠至 8 月 26 日

Anthropic 发布 Claude Sonnet 5,号称"最有智能体特性的 Sonnet 模型"。编码得分 SWE-bench Pro 达 63.2%(Sonnet 4.6 为 58.1%,Opus 4.8 为 69.2%),知识工作略超 Opus 4.8。定价优惠:每百万 token 输入 $2、输出 $10,持续到 8 月 26 日,之后涨至 $3/$15。但升级并非全技能均匀提升,在 CyberGym(漏洞发现与利用测试)上弱于 Sonnet 4.6。Anthropic 明确表示未针对网络任务专门训练,该表现来自通用推理而非定向优化。

Rohan Paul: And Claude Sonnet 5 just launched. Closes the gap with Opus 4.8, and is cheap until August. This makes agentic AI much c...

Anthropic安全/对齐模型发布编码
04:37
Hacker News 热门(buzzing.cc 中文翻译)
57
安装 Cursor iOS 应用会不可逆地更改隐私设置

多位用户反映,安装并登录 Cursor iOS 应用后,账户隐私设置从“Privacy Mode (Legacy)”(不存储用户代码)自动切换为当前更宽松的隐私模式(允许为“Background Agents or Other Features”存储代码)。用户无法通过应用内菜单找回原有设置。客服承认问题,但表示无法切换回旧模式。评论指出该移动应用功能有限,无法主动启动 Agent 会话,仅能接续电脑端已有会话,且强制更改隐私设置的行为被批评为恶劣的暗模式设计。

安全/对齐编码
03:31
Rohan Paul@rohanpaul_ai
74
Anthropic 发布 Claude Sonnet 5,1M token 上下文窗口,编码能力提升

Anthropic 发布 Claude Sonnet 5,拥有 1M token 上下文窗口(此前泄露),编码能力显著提升:SWE-bench Pro 得分 63.2%,高于 Sonnet 4.6 的 58.1%;知识工作略超 Opus 4.8。Anthropic 称其为“最具智能体特性的 Sonnet 模型”。定价优惠至 8 月 26 日:输入 $2/1M tokens,输出 $10/1M tokens;之后涨至 $3/15。当前智能体编码得分 63.2%,与 Opus 4.8(69.2%)仍有差距,但低价策略大幅降低 agentic AI 成本。

Rohan Paul: Leaked specifications show Anthropic's Claude Sonnet 5 launching today with a 1 million token context window

Anthropic推理模型发布编码
03:20
AYi@AYi_AInotes
58
吴恩达谈"循环工程":AI代理自主测试代码,开发者转向高层决策,核心优势是"语境"

吴恩达提出“循环工程”概念:AI编码代理可自主迭代代码、测试直至正确,无需人类干预。他用上周末给女儿做打字练习app举例,代理自行运行约一小时,多次用浏览器检查成果后回报。开发者角色因此从手动找bug的QA转向高层决策(如视觉设计、用户流程)。吴恩达强调人类真正的优势不是“品味”而是“语境优势”——知道用户是谁、为何痛苦。循环工程加速代码但无法压缩语境,只要人拥有代理没有的信息,人就永远在循环中占据不可替代的位置。

Andrew Ng: "Loop engineering" is a hot buzzphrase after mentions of it by Boris Cherny (Claude Code's creator) and Peter Steinberge...

智能体大佬观点编码
02:48
Claude Code:GitHub Releases(RSS)
81
Claude Code v2.1.197 发布:默认模型升级为 Claude Sonnet 5,支持原生 1M-token 上下文窗口

Claude Code v2.1.197 更新将 Claude Sonnet 5 设为默认模型,原生支持 1M-token 上下文窗口。该版本提供促销定价,输入 $2/M tokens、输出 $10/M tokens,持续至 8 月 31 日。用户更新至 v2.1.197 即可启用。

Anthropic模型发布编码
关联讨论 9 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)TechCrunch:AI(RSS)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)The Decoder:AI News(RSS)IT之家(RSS)Anthropic:Newsroom(网页)
‹ 上一页
1234…50
下一页 ›