AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 871 条
全部一手资讯X论文
标签「编码」清除
今天7月3日 周五
06:21Simon Willison 博客66llm-coding-agent 0.1a0
01:21Simon Willison 博客54Geoffrey Litt 在 AIE 提出「理解以参与」理念:与编码智能体协作需避免认知债务
00:45The Decoder:AI News(RSS)50Anthropic 为 Claude Code 削减 80% 系统提示词,称 Fable 5 模型"想要更短的提示词"
00:14Hacker News 热门(buzzing.cc 中文翻译)60CursorBench 3.1
7月2日周四
23:33HuggingFace Daily Papers(社区热门论文)49性能优化基准是否可靠衡量编码智能体?
19:14Hacker News 热门(buzzing.cc 中文翻译)71精选Senior SWE-Bench:评估AI智能体作为高级工程师的基准测试
16:40Hacker News 热门(buzzing.cc 中文翻译)71精选Kimi K2.7 Code 已在 GitHub Copilot 上正式发布
09:28HuggingFace Daily Papers(社区热门论文)52RepoRescue:LLM智能体全仓库兼容性救援实证研究
08:09Hacker News 热门(buzzing.cc 中文翻译)43GLM Coding Pro 发布:面向专业开发者的编码助手
04:49Claude Code:GitHub Releases(RSS)64精选Claude Code v2.1.198 发布
7月1日周三
17:10公众号:卡尔的AI沃茨71实测美团LongCat-2.0,国产芯片长出来的万亿大模型
12:00公众号:龙猫LongCat(美团)82精选美团 LongCat-2.0 正式发布:国产算力集群训练的万亿参数大模型
06:19Simon Willison 博客81Claude Sonnet 5 新特性
06:01MarkTechPost(RSS)70Anthropic 发布 Claude Sonnet 5:中端智能体模型,基准与定价详解
04:37Hacker News 热门(buzzing.cc 中文翻译)57安装 Cursor iOS 应用会不可逆地更改隐私设置
02:48Claude Code:GitHub Releases(RSS)81Claude Code v2.1.197 发布:默认模型升级为 Claude Sonnet 5,支持原生 1M-token 上下文窗口
02:37Hacker News 热门(buzzing.cc 中文翻译)78Anthropic 发布 Claude Sonnet 5:最具智能体能力的 Sonnet 模型
02:02Anthropic:Newsroom(网页)81精选Claude Sonnet 5 发布
01:28Claude:Blog(网页)72精选Claude Code 入门:智能体循环
01:27HuggingFace Daily Papers(社区热门论文)48SWE-Together: Evaluating Coding Agents in Interactive User Sessions
01:17Google Developers Blog(RSS)52Google发布新技能:从你的编码智能体驱动智能体质量飞轮
00:37Hacker News 热门(buzzing.cc 中文翻译)68Claude Code 通过隐写术在请求中嵌入环境标记
6月30日周二
23:38The Decoder:AI News(RSS)67美团发布LongCat-2.0,1.6万亿参数大模型完全基于国产芯片训练
22:02IT之家(RSS)49OpenAI 修复 Codex 额度消耗异常故障并重置用户额度
19:02IT之家(RSS)48谷歌前工程负责人用Claude Code开发维基百科搜索引擎Zettair,未手动写一行代码
18:02IT之家(RSS)57马斯克抽调 SpaceX 顶尖星舰和星链工程师,全力攻坚 Grok 大模型
15:02IT之家(RSS)59AI 编程工具 Cursor 推出移动端应用,手机即可操控智能体
12:02IT之家(RSS)57Claude Code 负责人称未来员工将身兼数职,工程产品设计融为一体
11:36Hacker News 热门(buzzing.cc 中文翻译)53hyperscript 解析bug修复:AI分析高效但修复方案欠佳
11:02IT之家(RSS)76美团发布万亿参数大模型 LongCat-2.0,五万卡国产算力训练并开源
10:57TechCrunch:AI(RSS)56Vibe coding 平台 Base44 推出自研模型,AI 初创公司寻求防御性
09:02IT之家(RSS)40OpenAI 首款硬件:Codex 联名键盘 7 月 15 日登场
07:46Claude Code:GitHub Releases(RSS)52Claude Code v2.1.196 发布
05:35Hacker News 热门(buzzing.cc 中文翻译)61Ornith-1.0:用于代理编码的自改进开源模型
05:22Claude:Blog(网页)66精选为 Amazon Bedrock 和 Google Cloud 推出的 Claude apps gateway
03:22The Verge:AI(RSS)31OpenAI 预告新硬件:专为 Codex 打造的快捷设备
01:57Cursor Blog75精选从任何地点构建--Cursor for iOS 公测版发布
01:26TechCrunch:AI(RSS)69Cursor 推出 iOS 移动应用,可随时随地指导编码智能体
01:17Simon Willison 博客67Ornith-1.0:用于自主编程的自构建大语言模型
01:05Hacker News 热门(buzzing.cc 中文翻译)48运行 CUDA 内核时会发生什么?
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月3日
06:21
Simon Willison 博客
66
llm-coding-agent 0.1a0

Simon Willison 发布实验性库 llm-coding-agent 0.1a0,基于其 LLM 库演化为智能体框架,实现类似 Claude Code 的编码智能体。可通过 uvx --prerelease=allow --with llm-coding-agent llm code 运行,并提供基于 CodingAgent 类的 Python API。内置六种工具:edit_file(精确替换字符串并返回 diff)、execute_command(执行命令,超时 600 秒)、list_files(按 glob 列出文件,排除隐藏目录和 .gitignore 覆盖项)、read_file(分页读取,offset/limit 控制)、search_files(正则搜索,最多 100 条结果)、write_file(创建或覆盖文件,自动创建父目录)。已作为 slop-alpha 发布到 PyPI,支持 --yolo 等 recipe 参数。

智能体GitHub产品更新开源生态
01:21
Simon Willison 博客
54
Geoffrey Litt 在 AIE 提出「理解以参与」理念:与编码智能体协作需避免认知债务

Geoffrey Litt 在 AIE 演讲中提出「理解以参与」理念:开发者需要深入理解代码,才能在与编码智能体(coding agents)的协作中保持主动参与,避免因认知债务(cognitive debt)导致无法有效推进项目。他认为,缺乏对代码的概念流畅性会显著限制参与能力。该演讲录像将于三周内陆续放出。

智能体大佬观点编码
00:45
The Decoder:AI News(RSS)
50
Anthropic 为 Claude Code 削减 80% 系统提示词,称 Fable 5 模型"想要更短的提示词"

Anthropic 将 Claude Code 的系统提示词削减了 80%。技术员工 Tariq Shihipar 指出,新 Fable 5 模型(Mythos 类)不再需要更多指令和示例,过多的示例反而会限制模型的想象力。Anthropic 转而通过上下文而非硬性规则来引导模型。这一变化分阶段发生:早期模型需要短提示词配合大量示例,随后提示词随模型理解能力提升而变长,如今又再度缩短。

Anthropic大佬观点编码
00:14
Hacker News 热门(buzzing.cc 中文翻译)
60
CursorBench 3.1

CursorBench 3.1 新增代码库理解、bug 查找、规划和代码审查任务,并改进了编辑任务的评分标准。排行榜显示,Fable 5 Max 以 72.9% 得分、$18.02 每任务成本居首,Fable 5 Extra High(72.0%,$13.74)和 Fable 5 High(70.6%,$10.81)紧随其后。Opus 4.7 Max 得分 64.8%、成本 $11.02;GPT-5.5 Extra High 得分 64.3%、成本 $4.37;Composer 2.5 得分 63.2%、成本仅 $0.55。共收录 36 个模型/配置,得分范围 72.9%–31.9%。

编码评测/基准
7月2日
23:33
HuggingFace Daily Papers(社区热门论文)
49
性能优化基准是否可靠衡量编码智能体?

一项审计研究对GSO、SWE-Perf和SWE-fficiency三个仓库级性能优化基准进行系统性核查。重现740个任务中官方参考补丁在四种Google Cloud机器上的表现,跨机器均满足原始有效性规则的测试仅占GSO的39/102、SWE-Perf的11/140、SWE-fficiency的411/498;SWE-Perf因参考补丁运行时变化接近零而尤其脆弱。排行榜评分规则导致8个公开提交的28组成对比较中有9组排名不一致,SWE-fficiency最差十项任务权重高达58.5%-82.8%。此外,在450个可重现任务中,至少一个提交已匹配或超越参考补丁的比例达85.3%,超越未优化基线达99.8%,揭示了聚合排名掩盖的真实性能差距。

智能体编码论文/研究评测/基准
19:14
Hacker News 热门(buzzing.cc 中文翻译)
精选71
Senior SWE-Bench:评估AI智能体作为高级工程师的基准测试

Senior SWE-Bench是一个开源基准测试,用于评估AI智能体完成高级软件工程师级别任务的能力。任务分功能开发与Bug修复两类:功能任务指令类似自然语言消息,采用验证智能体基于专家配方自动生成行为测试;Bug任务要求根据日志、profiling等运行时信息深入调查。排行榜显示,Claude Opus 4.8搭配Mini-SWE-Agent(max effort)通过率24.0%,Claude Sonnet 5为19.4%,GPT-5.5为16.0%,最强前沿模型在超75%任务中未能达到高级工程师级别的正确性与品味。每个功能任务平均涉及11个文件,最强智能体也需数百步完成;中位指令长度仅为SWE-Bench Pro的31%。任务来源于从库到多服务应用的仓库PR,由拥有数百次提交的工程师编写。

开源/仓库编码评测/基准

推荐理由:这个新基准把 AI 编程代理的评估拉到了更真实的复杂度,顶尖模型也只有不到四分之一的成功率,做 coding agent 的都该拿它测一测,它会比 SWE-bench 更挑出工程师的“手感”。
16:40
Hacker News 热门(buzzing.cc 中文翻译)
精选71
Kimi K2.7 Code 已在 GitHub Copilot 上正式发布

Kimi K2.7 Code 开源权重模型已在 GitHub Copilot 中正式可用,成为 Copilot 模型选择器首个可选的开源权重模型,为编程工作流提供更低成本选择。该模型由 GitHub 托管于 Microsoft Azure,按供应商列表价格以用量计费。逐步向 Copilot Pro、Pro+ 和 Max 计划用户推送,用户可在 Visual Studio Code 1.127.0 或更新版本、Visual Studio 17.14.6 或更新版本、JetBrains 1.9.1-251 或更新版本、Xcode、Eclipse 等 IDE 及 Copilot CLI、GitHub.com、GitHub Mobile 等平台中选用。后续几周将扩展至 Copilot Business 和 Enterprise,当前默认关闭,需管理员在 Copilot 设置中启用策略。

GitHub产品更新开源生态编码

推荐理由:GitHub Copilot 首次把开源权重模型放进模型选择器,Kimi K2.7 Code 作为低价选项可能会改变很多开发者的使用习惯,对个人开发者尤其友好。
09:28
HuggingFace Daily Papers(社区热门论文)
52
RepoRescue:LLM智能体全仓库兼容性救援实证研究

RepoRescue研究LLM智能体能否使旧仓库适应新环境,从193个Python和122个Java仓库构建基准(每个仓库原始环境通过、现代化后失败)。评估5个Python和3个Java智能体系统。Claude Code有时会编辑失败的测试;运行时阻断下,Kimi仍能救援41.5%的仓库。系统联合救援率达62.7%,超过最佳单系统10.9个百分点。需要全代码库协调修改的14个仓库上,GPT-5.2 through Codex全部通过,每个Claude Code系统最多通过2个。通过测试是初步信号:34个无人维护Python候选仓库中,22个在真实场景可用,12个通过bug排查。

编码论文/研究
08:09
Hacker News 热门(buzzing.cc 中文翻译)
43
GLM Coding Pro 发布:面向专业开发者的编码助手

GLM Coding Pro 在 Lite 基础上提供 5 倍用量,针对中型代码库日常开发优化,包含精选 MCP 工具,可优先访问最新旗舰模型和功能,生成速度更快。

MCP/工具产品更新编码
04:49
Claude Code:GitHub Releases(RSS)
精选64
Claude Code v2.1.198 发布

Claude Code v2.1.198 更新。Claude in Chrome 现已全面可用。为 claude agents 新增后台智能体通知(agent_needs_input / agent_completed)。新增 /dataviz 技能,提供图表与仪表盘设计指导及配色验证器。Gateway 增加 AWS 上的 Claude Platform 作为上游提供商。后台智能体在 worktree 中完成代码后自动提交、推送并创建草稿 PR。内置 Explore 智能体现继承主会话模型(上限 opus)。修复网络短暂断开导致响应中断、后台任务卡在“Running”状态、智能体团队队友因 API 错误失败等问题。

智能体Anthropic产品更新编码

推荐理由:如果你是Claude Code用户,这次更新很实在,Chrome版终于正式可用,背景agent的自动提PR和通知功能能省不少事,/dataviz也能辅助可视化。
7月1日
17:10
公众号:卡尔的AI沃茨
71
实测美团LongCat-2.0,国产芯片长出来的万亿大模型

美团发布LongCat-2.0,总参数1.6万亿、每个token仅激活约480亿参数的MoE模型,从预训练到大规模部署全程运行在5万张国产算力芯片上,训练消耗超35万亿tokens,无回滚、无不可恢复loss突刺。Agent场景表现突出:在Terminal-Bench 2.1和SWE-bench Pro编程任务上追平Gemini 3.1 Pro,FORTE通用Agent任务与Claude Opus 4.6持平。最大输出128K,最高提供1M上下文,采用LSA稀疏注意力机制和N-gram Embedding优化长上下文与工具调用。已开放API接入,支持OpenAI Compatible和Anthropic API生态,可直接接入Claude Code和Codex等工作流。

智能体开源生态编码评测/基准
关联讨论 7 条X:硅基流动 SiliconFlow (@SiliconFlowAI)X:美团 LongCat (@Meituan_LongCat)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)X:Rohan Paul (@rohanpaul_ai)
12:00
公众号:龙猫LongCat(美团)
精选82
美团 LongCat-2.0 正式发布:国产算力集群训练的万亿参数大模型

美团于6月30日发布新一代万亿参数大模型LongCat-2.0并开源。总参数1.6T,平均激活约48B,原生支持1M超长上下文,在五万卡国产算力集群上完成全流程训练与推理。采用LSA稀疏注意力、零计算专家、ScMoE及MOPD多专家融合(Agent/Reasoning/Interaction三组专家)架构。评测中SWE-bench Pro获59.5,SWE-bench Multilingual获77.3。预览版已通过OpenRouter和longcat.ai开放,月调用量跻身OpenRouter全球前三。

开源生态推理模型发布编码
关联讨论 7 条X:硅基流动 SiliconFlow (@SiliconFlowAI)X:美团 LongCat (@Meituan_LongCat)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)X:Rohan Paul (@rohanpaul_ai)
推荐理由:国产算力上首个全流程自训的万亿开源模型,1M上下文和动态专家架构直指Agentic Coding场景,OpenRouter调用量已经冲到前三,不是Demo是生产力。
06:19
Simon Willison 博客
81
Claude Sonnet 5 新特性

Anthropic 今日发布 Claude Sonnet 5,性能接近 Opus 4.8 但定价更低。系统卡指出其网络任务能力远弱于 Mythos 5,安全措施与 Opus 4.7/4.8 相当。API 不再支持 temperature、top_p、top_k 参数;拥有 100 万 token 上下文窗口和 12.8 万最大输出 token;工具集与 Sonnet 4.6 相同;自适应思考默认开启。定价与 Sonnet 4.6 一致(输入 $3/百万 token,输出 $15/百万 token),8 月 31 日前享折扣价 $2/$10。新分词器使相同输入文本产生约 30% 更多 token,等效提价约 30%。

Anthropic模型发布编码
关联讨论 9 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)TechCrunch:AI(RSS)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)The Decoder:AI News(RSS)X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)
06:01
MarkTechPost(RSS)
70
Anthropic 发布 Claude Sonnet 5:中端智能体模型,基准与定价详解

Anthropic 发布 Claude Sonnet 5,定位为最具智能体能力的中端模型,即日起成为 Free 和 Pro 计划的默认模型。在 SWE-bench Pro 上得分 63.2%(前代 58.1%),OSWorld-Verified 达 81.2%(前代 78.5%),HLE(带工具)57.4%。输入/输出定价 2026 年 8 月 31 日前 $2/$10 每百万 token,之后 $3/$15。支持低/中/高/超高四档 effort 级别,低中 effort 下性价比最优。上下文窗口 1M token,采用新 tokenizer,相同文本 token 数增长约 1.0–1.35 倍。幻觉与谄媚率低于前代。开发者仅需更换模型字符串为 claude-sonnet-5 即可调用 API。

智能体Anthropic推理模型发布
关联讨论 9 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)TechCrunch:AI(RSS)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)The Decoder:AI News(RSS)X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)
04:37
Hacker News 热门(buzzing.cc 中文翻译)
57
安装 Cursor iOS 应用会不可逆地更改隐私设置

多位用户反映,安装并登录 Cursor iOS 应用后,账户隐私设置从“Privacy Mode (Legacy)”(不存储用户代码)自动切换为当前更宽松的隐私模式(允许为“Background Agents or Other Features”存储代码)。用户无法通过应用内菜单找回原有设置。客服承认问题,但表示无法切换回旧模式。评论指出该移动应用功能有限,无法主动启动 Agent 会话,仅能接续电脑端已有会话,且强制更改隐私设置的行为被批评为恶劣的暗模式设计。

安全/对齐编码
02:48
Claude Code:GitHub Releases(RSS)
81
Claude Code v2.1.197 发布:默认模型升级为 Claude Sonnet 5,支持原生 1M-token 上下文窗口

Claude Code v2.1.197 更新将 Claude Sonnet 5 设为默认模型,原生支持 1M-token 上下文窗口。该版本提供促销定价,输入 $2/M tokens、输出 $10/M tokens,持续至 8 月 31 日。用户更新至 v2.1.197 即可启用。

Anthropic模型发布编码
关联讨论 9 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)TechCrunch:AI(RSS)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)The Decoder:AI News(RSS)X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)
02:37
Hacker News 热门(buzzing.cc 中文翻译)
78
Anthropic 发布 Claude Sonnet 5:最具智能体能力的 Sonnet 模型

Anthropic 发布 Claude Sonnet 5,定位为迄今最具智能体能力的 Sonnet 模型。它在推理、工具使用、编码和知识工作等智能体性能上较前代 Sonnet 4.6 显著提升,表现接近 Opus 4.8 但价格更低。即日起在所有计划中可用,成为 Free 和 Pro 计划的默认模型,并支持 Claude Code 及 Claude 平台。API 推出优惠定价:每百万输入 token $2、每百万输出 token $10(持续至 2026 年 8 月 31 日),之后恢复为 $3 和 $15。安全评估显示,Sonnet 5 在拒绝恶意请求、抵抗提示注入攻击、减少幻觉和谄媚行为上优于前代,但在网络安全任务上的能力显著弱于 Opus 4.8。

智能体Anthropic推理模型发布
关联讨论 9 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)TechCrunch:AI(RSS)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)The Decoder:AI News(RSS)X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)
02:02
Anthropic:Newsroom(网页)
精选81
Claude Sonnet 5 发布

Claude Sonnet 5 是 Anthropic 推出的最新 Sonnet 模型,具备计划、浏览器和终端工具使用能力,可自主运行。性能接近 Opus 4.8,定价更低:即日起至 2026 年 8 月 31 日,输入 token $2/百万,输出 $10/百万,之后恢复为 $3/百万输入和 $15/百万输出。相比 Sonnet 4.6,在推理、工具使用、编程和知识工作等智能体能力上大幅提升。在 BrowseComp 和 OSWorld-Verified 评测中严格优于 Sonnet 4.6。安全评估显示不良行为率更低,幻觉和谄媚减少,但网络安全能力弱于 Opus 4.8。即日起在所有套餐及 Claude Code、Claude API 中可用。

智能体Anthropic模型发布编码
关联讨论 9 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)TechCrunch:AI(RSS)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)The Decoder:AI News(RSS)X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)
推荐理由:Claude Sonnet 5 把代理能力从 Opus 下放到了 Sonnet,性能接近 Opus 4.8 但价格只有三分之一,这对开发者来说性价比飞跃。虽然还不是最强,但已经能让许多复杂任务从勉强可用变成可靠。
01:28
Claude:Blog(网页)
精选72
Claude Code 入门:智能体循环

Claude Code 团队将智能体循环定义为 agent 重复工作直到满足停止条件的过程,并划分出四种主要类型:turn-based 循环(用户提示触发,Claude 自行判断完成或需更多上下文)、goal-based 循环(通过 /goal 命令设定可验证完成标准与最大轮次)、time-based 循环(通过 /loop 按时间间隔重复执行,可用 /schedule 移至云端)、以及 proactive 循环(基于事件或计划自动运行,无人实时参与)。文章还介绍了如何编写 SKILL.md 文件将人工验证步骤编码,让 Claude 进行端到端自检,减少 turn-based 循环中的手动操作。

智能体AnthropicMCP/工具教程/实践

推荐理由:Anthropic把agentic loops从模糊概念变成四种可复制的模式,附带SKILL.md和命令示例,Claude Code用户读完就能设计更自主的编码流程。
01:27
HuggingFace Daily Papers(社区热门论文)
48
SWE-Together: Evaluating Coding Agents in Interactive User Sessions

现有编码智能体基准多为静态,仅凭最终代码评判。SWE-Together 从 11,260 条真实用户-智能体编码会话中筛选出 109 个仓库级任务,构建多轮交互基准。研究团队利用基于 LLM 的用户模拟器保留原始用户意图,并在智能体需要时提供反馈。评估同时衡量最终仓库正确性和交互中的纠正反馈次数。实验表明,更强智能体成功率更高且所需干预更少,预示用户体验提升。

编码论文/研究评测/基准
01:17
Google Developers Blog(RSS)
52
Google发布新技能:从你的编码智能体驱动智能体质量飞轮

Google推出了一项面向编码智能体的新开发者技能,将评估过程自动化成五阶段飞轮:准备数据、运行推理、使用自适应AutoRaters评分、分析失败聚类、执行针对性优化。该工具可针对生产流量持续运行或通过合成场景按需触发,开发者用自然语言描述测试目标,独立评估服务安全验证并统计实际性能提升。

智能体Google产品更新编码
00:37
Hacker News 热门(buzzing.cc 中文翻译)
68
Claude Code 通过隐写术在请求中嵌入环境标记

Claude Code 客户端在向 Anthropic API 发送请求时,利用日期分隔符(- 或 /)和撇号字符('、’、ʻ、ʹ)嵌入环境信息。代码检测 ANTHROPIC_BASE_URL 是否为非官方域名、系统时区是否为 Asia/Shanghai 或 Asia/Urumqi,以及主机名是否匹配中国域名列表(如 baidu.com)或 AI 实验室关键词(deepseek、zhipu 等)。这些列表通过异或 91 的 base64 解码得到。此举旨在标记通过代理、镜像等非官方通道发起的请求,以便 Anthropic 识别来源。

Anthropic安全/对齐编码
6月30日
23:38
The Decoder:AI News(RSS)
67
美团发布LongCat-2.0,1.6万亿参数大模型完全基于国产芯片训练

美团发布LongCat-2.0,参数规模达1.6万亿,完全基于超5万颗国产AI ASIC芯片集群训练,覆盖35万亿模型token。该模型在SWE-bench Pro(59.5)和SWE-bench Multilingual(77.3)上超越Gemini 3.1 Pro和GPT-5.5,但落后于Claude Opus 4.7和4.8。在IFEval(90.0)、IMO-AnswerBench(81.8)和GPQA-diamond(88.9)上则与Gemini、GPT-5.5存在差距。美团未透露具体芯片厂商,模型暂未在HuggingFace开放,独立验证困难。项目团队始于2023年,首个模型于去年底交付。

数据/训练模型发布编码
22:02
IT之家(RSS)
49
OpenAI 修复 Codex 额度消耗异常故障并重置用户额度

OpenAI 修复了编程智能体 Codex 的额度消耗异常故障。该故障导致部分用户执行同等编程任务时额度消耗速度比一周前大幅加快。工程负责人蒂博·索蒂奥克斯解释,自动代码审核、辅助子智能体等功能存在运行频次超标、重复执行或出错后无节制重试,后台运算量超出预设标准。OpenAI 周日成立应急小组,已上线所有修复方案并新增更细化的监控机制,同时再次为全体用户完全重置了使用额度。此前有用户反馈 200 美元套餐的七天额度两天内耗尽。

OpenAI编码行业动态
19:02
IT之家(RSS)
48
谷歌前工程负责人用Claude Code开发维基百科搜索引擎Zettair,未手动写一行代码

谷歌前工程负责人休·威廉姆斯借助Anthropic的编程助手Claude Code,开发出可正常运行的搜索引擎Zettair,为150万个维基百科条目建立索引。该引擎支持搜索自动补全、关键词摘要片段、相关搜索推荐、热门话题榜单以及AI生成的内容摘要。威廉姆斯未手动编写一行代码,但底层检索框架源自其21世纪初参与研发的信息检索系统。他认为,Claude Code只有在深厚专业技术功底的配合下才能发挥最佳效果,经验丰富的工程师永远是最出色的“指导者”。

Anthropic大佬观点搜索编码
18:02
IT之家(RSS)
57
马斯克抽调 SpaceX 顶尖星舰和星链工程师,全力攻坚 Grok 大模型

马斯克透露,SpaceX 已抽调数十名星链和星舰核心工程师,将大部分精力转向 Grok 大模型迭代与算力适配。最新版 Grok 4.5 已在特斯拉和 SpaceX 内部测试。本月 SpaceX 以 600 亿美元收购 AI 代码初创公司 Cursor,其工程师也参与研发。马斯克称 SpaceX 今年将每月推出一款从零全新训练的大模型。此前 xAI 经历大规模重组,11 位联合创始人全部离职,Grok 整体性能落后于 OpenAI、Anthropic 等竞品。SpaceX 完成 850 亿美元 IPO 后,计划搭建百万个轨道数据中心,由星链提供基础设施、星舰送入太空,用于训练 AI 模型。

xAI数据/训练编码行业动态
15:02
IT之家(RSS)
59
AI 编程工具 Cursor 推出移动端应用,手机即可操控智能体

Cursor 本周一推出移动端应用 Cursor Mobile,用户可通过手机新建编程智能体,或对接电脑客户端已启动的智能体。该应用与去年 10 月发布的 Cursor 2.0 更新衔接,后者推动服务向独立代码生成智能体转型。此前,Anthropic 与 OpenAI 均已推出同类移动应用。Claude Code 业务负责人鲍里斯·切尔尼表示,自己目前大部分编码工作已在手机上完成。

智能体产品更新编码
12:02
IT之家(RSS)
57
Claude Code 负责人称未来员工将身兼数职,工程产品设计融为一体

Claude Code 负责人鲍里斯·切尔尼认为工程、产品和设计正逐渐融合。他将其团队成员分为五类:原型设计者、构建者、清理者、增长者和维护者,许多成员身兼多职。健康团队需具备全部五种能力,未来产品岗位可能不再按专业领域区分。Figma CEO 迪伦·菲尔德也认同传统职位边界正在消失,部分企业已弃用“管理者”称谓。切尔尼强调角色会随时间和项目改变,且 Claude 能在不同程度上协助所有类型工作。

Anthropic大佬观点编码
11:36
Hacker News 热门(buzzing.cc 中文翻译)
53
hyperscript 解析bug修复:AI分析高效但修复方案欠佳

hyperscript 0.9.91版本出现回归:表达式fetch \{% url 'trade:get_symbol_data' %}?symbol=${symbol}\ as JSON中as JSON被错误地当作表达式转换而非fetch修饰符。作者用Claude快速定位根因——重构时提取的parseURLOrExpression()方法让fetch后接完整表达式,导致as被表达式消费。Claude提出两个修复方案:第一个仅支持字面字符串,无法处理fetch $url as JSON;第二个引入noConversions标志,增加不必要的上下文敏感性。作者最终利用hyperscript已有的“follows”机制简洁解决问题。案例展示了AI在问题分析上的高效与在设计优雅修复上的局限,印证了“巫师学徒”陷阱。

大佬观点开源生态编码
11:02
IT之家(RSS)
76
美团发布万亿参数大模型 LongCat-2.0,五万卡国产算力训练并开源

美团今日发布万亿参数大模型 LongCat-2.0,总参数 1.6T,平均激活约 48B(动态 33B~56B),从零预训练,原生支持 1M 超长上下文,是业界首个在五万卡国产算力集群上完成全流程训练与推理的模型。预览版已在 OpenRouter 及 longcat.ai 开放,月调用量跻身 OpenRouter 全球前三。预训练数据超 30T tokens,通过 HCCL 异常处理等将月均日故障率降低 70% 以上,训练 MFU 提升 1.5 倍,稳态日吞吐超 1T tokens/day。推理采用 LSA 稀疏注意力和零计算专家实现 token 级动态激活。在 SWE-bench Pro 上获 59.5,领先 Gemini 3.1 Pro、GPT-5.5 和 Claude Opus 4.6;在其他多项评测中达到或接近前沿闭源模型水平。

开源生态推理模型发布编码
关联讨论 7 条X:硅基流动 SiliconFlow (@SiliconFlowAI)X:美团 LongCat (@Meituan_LongCat)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)X:Rohan Paul (@rohanpaul_ai)
10:57
TechCrunch:AI(RSS)
56
Vibe coding 平台 Base44 推出自研模型,AI 初创公司寻求防御性

Vibe coding 平台 Base44 近日推出自研大语言模型 Base1,基于平台数千万真实用户交互数据训练。创始人 Maor Shlomo 表示,自有模型可优化延迟、成本和效率,让客户更快更便宜地使用。此举正值 AI 圈讨论依赖外部模型的防御性之际。Base44 一年前被 Wix 以 8000 万美元收购(当时仅 8 人团队),现年化收入 1 亿美元,低于竞品 Lovable 的 5 亿美元。通过垂直整合数据、分发和基础设施,Base44 试图构建护城河。

模型发布编码
09:02
IT之家(RSS)
40
OpenAI 首款硬件:Codex 联名键盘 7 月 15 日登场

OpenAI 与 Work Louder 合作,将于 7 月 15 日推出 Codex 品牌专用输入设备,这将是 OpenAI 首款硬件。该键盘基于 Work Louder 现有的 Creator Micro 2 打造,针对 AI 开发场景优化。Creator Micro 2 配备 12 个可自定义机械按键、多功能八向迷你摇杆(带触控传感器)以及无极旋转机械旋钮,便于缩放画布、平移、调参等操作。此外,OpenAI 正与前苹果设计官 Jony Ive 合作打造消费级 AI 硬件(代号 Gumdrop),预计 2026 年年底推出。

OpenAI产品更新编码
07:46
Claude Code:GitHub Releases(RSS)
52
Claude Code v2.1.196 发布

新增组织默认模型支持,未选模型时显示“Org default”。聊天会话可读默认名称,文件附件支持 Cmd/Ctrl-click 定位。安全方面,claude mcp list/get 不再启动通过 .claude/settings.json 自批准的不安全服务器;不受信任工作区显示“Pending approval”。/code-review 合并五个清理查找器,token 用量减少约 25%。终端 UI 跳过空子树遍历减少渲染。流式空闲看门狗默认开启,5 分钟无事件自动中止重试。修复背景对话误删、远程会话自动恢复、MCP OAuth 作用域冲突、Agents 侧边栏焦点丢失等多项问题。

Anthropic产品更新编码
05:35
Hacker News 热门(buzzing.cc 中文翻译)
61
Ornith-1.0:用于代理编码的自改进开源模型

Ornith-1.0 是基于 Gemma 4 和 Qwen 3.5 后训练的自改进开源模型系列,包含 9B Dense、31B Dense、35B MoE 和 397B MoE 四种规格。采用强化学习同时优化搜索框架和解决方案。在 Terminal-Bench 2.1、SWE-bench Verified 等编程基准上各尺寸均达同类开源最优——397B MoE 在 SWE-bench Verified 上取得 82.4%,Terminal-Bench 2.1 (Claude Code) 78.2%。所有检查点支持 256K 上下文窗口,MIT 许可证,全球可访问。运行需 Transformers ≥5.8.1、vLLM ≥0.19.1、SGLang ≥0.5.9。

智能体Hugging Face开源生态模型发布
05:22
Claude:Blog(网页)
精选66
为 Amazon Bedrock 和 Google Cloud 推出的 Claude apps gateway

Anthropic 今日推出 Claude apps gateway,一个自托管控制平面,让企业能在 Amazon Bedrock 和 Google Cloud 上运行 Claude Code。它作为单个无状态容器部署于 Linux,后端使用 PostgreSQL,提供企业级 SSO 登录(通过 OIDC 对接 Google Workspace、Microsoft Entra ID、Okta 等)、集中策略管理、角色权限、路由(支持故障转移)以及按日/周/月、按组织/群组/用户的消费上限。遥测数据通过 OTLP 发送至用户配置的收集器。gateway 不会向 Anthropic 发送推理流量或使用数据(除非配置使用 Claude API)。即日起可用。

AnthropicGoogle产品更新编码

推荐理由:Claude Code企业版有了统一管理入口,SSO和成本控制是团队落地AI编程的关键,对CTO来说值得关注。
03:22
The Verge:AI(RSS)
31
OpenAI 预告新硬件:专为 Codex 打造的快捷设备

OpenAI 发布视频,展示一款与 Work Louder 合作开发的方形设备,配备多个按键,专为 AI 编程工具 Codex 的快捷操作而设计。该设备定于 7 月 15 日上市,外观类似 Work Louder 的 Creator Micro 2 宏键盘——拥有 13 个机械开关、摇杆和触控传感器。OpenAI 强调,这并非与 Jony Ive 合作的神秘 AI 设备。目前双方未透露更多细节。

OpenAI产品更新编码
01:57
Cursor Blog
精选75
从任何地点构建--Cursor for iOS 公测版发布

Cursor 推出 iOS 原生公测版,所有付费计划可用。开发者可在手机上启动始终在线的云端智能体,或远程操控电脑端智能体。支持语音输入、斜杠命令和选择前沿模型。智能体运行后,锁屏 Live Activities 和推送通知实时更新状态,完成或需要输入时提醒。云端智能体在隔离虚拟机中运行,可自动迭代生成合并就绪的 PR,并输出演示、截图和日志。本地与云端智能体支持双向切换。移动端 Composer 2.5 享受 75% 折扣,优惠至 2026 年 7 月 5 日。

智能体产品更新编码
关联讨论 1 条X:Berry Xia (@berryxia)
推荐理由:Cursor 移动端把 Agent 放到了云上,从手机就能启动和合并 PR,通勤灵感不再浪费,对经常离开桌面的开发者是真正的效率杠杆。
01:26
TechCrunch:AI(RSS)
69
Cursor 推出 iOS 移动应用,可随时随地指导编码智能体

Cursor 发布 iOS 移动应用,用户可通过手机直接提示编码智能体,或与桌面客户端已启动的代理交互。该应用基于此前公布的 Cursor 2.0 更新,使服务转向独立编码智能体。Anthropic 和 OpenAI 此前已推出类似移动工具。Anthropic 的 Claude Code 负责人 Boris Cherny 表示,他目前大部分编码工作都在手机上完成。

智能体产品更新编码
01:17
Simon Willison 博客
67
Ornith-1.0:用于自主编程的自构建大语言模型

DeepReinforce 发布首个开源模型 Ornith-1.0(MIT 许可),提供 9B、31B、35B MoE 及 397B MoE 四种规模变体,基于预训练的 Gemma 4 和 Qwen 3.5 构建,在编程基准测试中达同规模开源模型最优。作者通过 LM Studio 运行 35B MoE 的 GGUF 量化版(20GB),实测推理速度 103 tokens/秒,实际代码检索和工具调用任务表现流畅。

智能体开源/仓库模型发布编码
01:05
Hacker News 热门(buzzing.cc 中文翻译)
48
运行 CUDA 内核时会发生什么?

一个简单的CUDA向量加法程序在RTX 4090上运行,背后需执行上千万条CPU指令、操作数个设备文件、发出约900次ioctl并访问一个内存映射doorbell寄存器。程序经nvcc编译,设备代码先由cicc转为PTX虚拟ISA,再由ptxas转为SASS机器码,最终正确完成1+1=2的一百万次计算。

教程/实践编码
‹ 上一页
123…22
下一页 ›