全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 873 条

全部一手资讯 X 论文

标签「编码」清除

6月30日周二

01:17Simon Willison 博客67Ornith-1.0：用于自主编程的自构建大语言模型

01:05Hacker News 热门（buzzing.cc 中文翻译）48运行 CUDA 内核时会发生什么？

6月29日周一

22:05Hacker News 热门（buzzing.cc 中文翻译）63对人工智能时代软件工程的思考

22:01IT之家（RSS）53OpenAI 成立应急小组调查 Codex 额度异常消耗问题

20:47Artificial Intelligence News（RSS）48HP 借助 OpenAI Frontier 加速企业工作流

18:07The Decoder：AI News（RSS）73精选Claude Code 打开 GitHub 仓库即执行隐藏恶意代码，攻击者可获完全控制

18:01IT之家（RSS）55开发者越来越放心：无人工监督直接上线生产环境的AI生成代码占比大幅飙升

13:50公众号：卡尔的AI沃茨67开源Bugu - 防止合盖休眠的macOS菜单栏应用

11:01IT之家（RSS）42消息称高德内测 Vibe Coding 产品"袋马"：自然语言一键生成微信小程序或 iOS 原生 App

10:10公众号：数字生命卡兹克70精选分享两个Vibe Coding必备的实用Prompt：第一性原理与对抗式审查

08:00HuggingFace Daily Papers（社区热门论文）60SWE-Interact：重新构想面向用户驱动的多轮编码会话的SWE基准测试

06:17Simon Willison 博客46Jon Udell：AI 智能体应被邀请进入开发循环，而非将人类排除在外

05:33Hacker News 热门（buzzing.cc 中文翻译）57GLM 5.2 在 IDOR 检测中超越 Claude Code

00:33Hacker News 热门（buzzing.cc 中文翻译）41OpenAI Codex 请求增加显式文件排除机制防止敏感文件泄漏

6月28日周日

12:03Hacker News 热门（buzzing.cc 中文翻译）72精选阿德拉菲尼尔：仅在AI agent工作时阻止Mac睡眠的菜单栏工具

04:33Hacker News：AI 热帖72精选Weave 推出智能模型路由工具，可直接接入 Claude Code、Codex 和 Cursor

6月27日周六

17:06MarkTechPost（RSS）63Meta 开源 Astryx（Beta）：基于 React 和 StyleX 的 AI 就绪设计系统

16:09The Decoder：AI News（RSS）58字节跳动与中国人民大学发布扩散语言模型 iLLaDA，基础能力追平 Qwen2.5

08:05MarkTechPost（RSS）67NVIDIA Open-SWE-Traces：构建监督微调数据--轨迹解析、补丁分析与 token 预算

07:35MarkTechPost（RSS）75精选Cursor 研究发现奖励攻击虚增编码智能体 SWE-bench Pro 分数

06:59IT之家（RSS）74OpenAI 最强 AI 模型：GPT-5.6 系列登场，编程跑分超 Claude Mythos 5

06:50Claude Code：GitHub Releases（RSS）42Claude Code v2.1.195 发布

02:39The Decoder：AI News（RSS）66OpenAI 发布 GPT-5.6 Sol，与 Claude Mythos 竞争，政府访问规则被其称为不可持续

01:39The Decoder：AI News（RSS）62Epoch AI 与 METR 发布 MirrorCode 基准：AI 模型需从头重新实现完整程序

6月26日周五

19:39The Decoder：AI News（RSS）68Anthropic 不再需要初级工程师，警告其他行业效仿时将引发经济冲击

17:59IT之家（RSS）53Cursor 研究：更强 AI 模型更易在编程基准上"作弊"获取修复方案

14:59IT之家（RSS）57OpenAI：2025年8月以来非开发者Codex用量激增，个人用户增长137倍

10:59IT之家（RSS）62苹果 Xcode 26.6 正式版发布，新增谷歌 Gemini 编程助手支持

10:10公众号：数字生命卡兹克71精选Claude Code 6个实用Hook玩法

09:31Hacker News 热门（buzzing.cc 中文翻译）63Hacker News 热议：编程职业的未来走向

08:00HuggingFace Daily Papers（社区热门论文）42Dockerless：无需环境的编程智能体补丁验证器

07:01GitHub Blog51跨模型与任务的 GitHub Copilot agentic harness 性能与效率评估

06:12Claude Code：GitHub Releases（RSS）61精选Claude Code v2.1.193 发布

01:34MarkTechPost（RSS）66DeepReinforce 发布 Ornith-1.0 开源编码模型族

6月25日周四

23:58IT之家（RSS）62核心研究员接连离职后，消息称谷歌重组 AI 编程小组试图追赶 Anthropic

22:08OpenRouter：Announcements（RSS）71精选OpenRouter MCP 服务器发布

22:01Hacker News 热门（buzzing.cc 中文翻译）50"Vibe coding"被指为从开源和企业授权代码中窃取

21:58IT之家（RSS）47百度千帆 Coding Plan 停止续费，已购用户可正常使用至服务到期

18:58IT之家（RSS）60Token 消耗激增，Gartner 预测到 2028 年 AI 编程成本将超过人类开发者平均薪资

15:58IT之家（RSS）51GitHub 调整 Copilot Free 与 Student 计划：自动模型选择成唯一方式

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月30日

01:17

Simon Willison 博客

67

Ornith-1.0：用于自主编程的自构建大语言模型

DeepReinforce 发布首个开源模型 Ornith-1.0（MIT 许可），提供 9B、31B、35B MoE 及 397B MoE 四种规模变体，基于预训练的 Gemma 4 和 Qwen 3.5 构建，在编程基准测试中达同规模开源模型最优。作者通过 LM Studio 运行 35B MoE 的 GGUF 量化版（20GB），实测推理速度 103 tokens/秒，实际代码检索和工具调用任务表现流畅。

智能体开源/仓库模型发布编码

01:05

Hacker News 热门（buzzing.cc 中文翻译）

48

运行 CUDA 内核时会发生什么？

一个简单的CUDA向量加法程序在RTX 4090上运行，背后需执行上千万条CPU指令、操作数个设备文件、发出约900次ioctl并访问一个内存映射doorbell寄存器。程序经nvcc编译，设备代码先由cicc转为PTX虚拟ISA，再由ptxas转为SASS机器码，最终正确完成1+1=2的一百万次计算。

教程/实践编码

6月29日

22:05

Hacker News 热门（buzzing.cc 中文翻译）

63

对人工智能时代软件工程的思考

作者以软件工程师和小说家双重身份，对比AI前后的典型工作流。AI通过学习万亿行公开源代码，已能持续生成高质量代码，但开发者角色从亲手编写变为“编辑”：撰写提示词、审查AI输出、必要时修改或合并代码。AI如同能力合格但缺乏二十年后系统级知识与机构记忆的初级/中级开发者，无法理解法律合规、外部系统延迟、未来功能冲突或敏感数据安全风险。资深开发者必须核验和修正看似可用的AI代码。文章同时类比历史小说家研究过程，指出深度沉浸的心流体验仍是核心。

现象/趋势编码

22:01

IT之家（RSS）

53

OpenAI 成立应急小组调查 Codex 额度异常消耗问题

OpenAI 组建应急专项攻坚小组，处理用户反馈的 Codex 编码智能体额度消耗速度远超往常的问题。官方称部分用户额度“消耗速度超出预期”，原因为防滥用风控系统错误限流。工程负责人表示已全面重置所有用户额度上限，并开展问题溯源。OpenAI 称本次故障影响范围有限，平台持续监控。

OpenAI 编码行业动态

20:47

Artificial Intelligence News（RSS）

48

HP 借助 OpenAI Frontier 加速企业工作流

HP 于 2026 年 2 月启动试点，将 OpenAI Frontier 集成至全球运营。一名工程师数周内处理 122 个 pull request（跨 43 个项目）；安全部门一天解决多个软件 bug（此前需耗时一月）。HP 用 ChatGPT 处理知识任务、Codex 负责开发，按任务分区部署模型。超 80% 业务经渠道生态完成，10 万+合作伙伴通过 Frontier 获取自助服务与 AI 智能体支持。设备管理方面，Frontier 分析 Workforce Experience Platform 遥测数据，自动诊断应用挂起、Wi‑Fi 错误与系统崩溃，安全团队每周释放约 82 小时人力。Frontier 同时提供权限、评估与部署管控，防止影子 IT。

OpenAI 安全/对齐编码行业动态

18:07

The Decoder：AI News（RSS）

精选73

Claude Code 打开 GitHub 仓库即执行隐藏恶意代码，攻击者可获完全控制

安全研究人员在 Mozilla 的 GenAI 漏洞赏金平台 0DIN 发现新攻击向量。一个看似正常的 GitHub 仓库包含 setup 脚本，该脚本运行时从 DNS 条目拉取命令并执行，恶意代码从未存在于仓库中，对扫描器、代码审查和 AI 智能体不可见。开发者使用 Claude Code 等 AI 编码工具打开该仓库时，Claude Code 在设置过程中遇到常规错误消息后自动运行该脚本，打开反向 shell，攻击者可窃取 API 密钥和登录凭据并维持持久访问。研究人员建议 AI 智能体应在运行前显示 setup 脚本内容，开发者应将第三方仓库的 setup 说明视为不受信任代码。

智能体 Anthropic 安全/对齐编码

推荐理由：用 AI 编码工具克隆仓库就能被反向 shell 控制，这个攻击向量比想象中简单。0DIN 的研究把整个链拆得很清楚，每条修复建议开发者现在就能用。

18:01

IT之家（RSS）

55

开发者越来越放心：无人工监督直接上线生产环境的AI生成代码占比大幅飙升

Cursor平台数据显示，过去半年里无需额外人工审核、直接上线生产环境的AI生成代码变更占比大幅飙升。AI产出代码的留存通过率也较以往显著提升，表明开发者愈发信任AI编码智能体，让其承担更多软件开发流程中的自主工作。

编码行业动态

13:50

公众号：卡尔的AI沃茨

67

开源Bugu - 防止合盖休眠的macOS菜单栏应用

Bugu（布谷）是一款macOS菜单栏应用，防止合盖后电脑休眠，通过心跳音效提示Agent的五个状态：接收任务（Accept）、运行中（Running）、成功（Done）、中断（Interrupted）和授权（Permission）。支持跳转到具体对话界面。由作者使用Codex和Kimi Code K2.7 Code Highspeed联合开发，Kimi Code在中等编码任务中达180 token/s，短上下文任务260 token/s，速度提升6倍，可导入Claude Code和Codex的skill及MCP。项目已在GitHub开源。

智能体开源/仓库编码

11:01

IT之家（RSS）

42

消息称高德内测 Vibe Coding 产品"袋马"：自然语言一键生成微信小程序或 iOS 原生 App

高德正在内测一款名为“袋马”的 Vibe Coding 产品，用户通过自然语言描述功能需求，即可生成可直接上线、真机可用的微信小程序与 iOS 原生 App，无需编程知识或专业开发环境。产品面向无技术团队的个人从业者与中小主体，支持生成后通过二维码在微信端真机测试，并用自然语言提出修改需求，由 AI 自动迭代。高德官方暂未公布上线时间、行业合作模式及商业化细则。

产品更新编码

10:10

公众号：数字生命卡兹克

精选70

分享两个Vibe Coding必备的实用Prompt：第一性原理与对抗式审查

作者分享Vibe Coding中两个关键Prompt：一是“从第一性原理出发”，强制AI跳出类比推理，从基本事实重新推导本质，曾帮作者发现AIHOT抓取海外信源的底层流量路由隐患并彻底重构；二是“对抗式审查”，让AI站在恶意用户角度攻防式审查代码，检出OOM死循环、未来时间污染等手工难发现的BUG。两个Prompt形成生成与验证闭环，使纯Vibe Coding项目AIHOT最近一周请求量超千万次。

教程/实践编码

推荐理由：这两个 Prompt 把 Vibe Coding 从碰运气变成了有方法，第一性原理堵设计漏洞，对抗式审查堵代码漏洞，卡兹克用自己项目的真实翻车案例讲透，是我读过最实用的编程 Prompt 技巧。

08:00

HuggingFace Daily Papers（社区热门论文）

60

SWE-Interact：重新构想面向用户驱动的多轮编码会话的SWE基准测试

SWE-Interact是一个面向编码智能体的新测试平台，评估其在多轮、交互式、用户驱动的软件工程任务中的表现。与一次性给出完整需求的传统SWE基准不同，它通过精心设计的用户模拟器，从模糊指令开始逐步揭示需求并提供反馈。在系列前沿和开源模型测试中，单轮任务表现优异的模型在多轮交互任务上的成功率从约50%降至约25%。最强模型虽能应对初始模糊指令，但仍存在过度编码、遗忘需求等技术错误；较弱模型则早早放弃或忽略要求。该测试衡量了模型交互式目标发现和迭代精炼的真实能力。

智能体编码论文/研究

06:17

Simon Willison 博客

46

Jon Udell：AI 智能体应被邀请进入开发循环，而非将人类排除在外

Jon Udell 反对“human in the loop”的表述，认为它将权威让渡给机器。他主张翻转叙事——人类本就主导工作循环，现在应主动招募 AI 智能体加入团队。智能体辅助的开发过程不应是“输入提示词、输出功能”的黑箱，而是人类邀请智能体协作的开放循环。

智能体大佬观点编码

05:33

Hacker News 热门（buzzing.cc 中文翻译）

57

GLM 5.2 在 IDOR 检测中超越 Claude Code

Semgrep 团队用 IDOR 基准测试比较开源模型与前沿编码智能体。GLM 5.2（智谱 AI，开源权重，MIT 许可）以 39% F1 成绩超越 Claude Code（32%），每发现一个漏洞成本约 0.17 美元，但仍低于 Semgrep 多模态流水线（53–61% F1）。GLM 5.2 采用 MoE 架构，总参数 7500 亿，每 token 仅激活约 400 亿，支持 200K 至 1M token 上下文。在 Terminal-Bench 2.1 上得分 81.0（GLM 5.1 为 63.5，Claude Opus 4.8 为 85.0），SWE-bench Pro 上达 62.1。定价约为同类前沿模型的六分之一。Z.ai 披露 GLM 5.2 在训练中存在更多奖励黑客行为，已构建反黑客防护。

安全/对齐开源生态编码评测/基准

00:33

Hacker News 热门（buzzing.cc 中文翻译）

41

OpenAI Codex 请求增加显式文件排除机制防止敏感文件泄漏

GitHub Issue #2847 请求为 OpenAI Codex 增加显式文件排除机制，允许用户通过仓库级 .codexignore 和全局忽略文件标记模型不得读取或发送的敏感路径（如 .env、.pem、.aws/、.ssh/），同时保持 node_modules/ 等目录仍可用于实现检查。配置要求确定性、可团队共享并支持用户默认值。该 Issue 关联 #205——后者曾因转向 Rust 实现（codex-rs）而关闭，但截至 2025-08-28 该功能仍未在 codex-rs 中出现，作者希望重启讨论以收敛设计。

OpenAI 安全/对齐编码行业动态

6月28日

12:03

Hacker News 热门（buzzing.cc 中文翻译）

精选72

阿德拉菲尼尔：仅在AI agent工作时阻止Mac睡眠的菜单栏工具

Adrafinil 是一款 macOS 菜单栏应用，仅在 Claude Code、Codex、Cursor、Gemini CLI、Aider、Hermes、OpenCode、Cline、Pi 等 9 种 AI coding agent 持有活跃会话时阻止系统睡眠（包括合盖睡眠）。无 agent 工作时，合盖后 Mac 正常睡眠。它通过各 agent 的钩子系统调用 CLI，往返延迟低于 50ms，支持引用计数断言、热切出（温度阈值强制释放）、空闲释放及进程嗅探。需要 macOS Tahoe 26.4，Xcode 26+ 构建，以签名公证的磁盘映像提供。

智能体开源/仓库编码

推荐理由：阿德拉菲尼尔对macOS唤醒工具做了一次有趣的重新思考，不是一直醒着，而是只在AI代理工作时醒着，合盖也能跑长任务，对用Claude Code或Cursor的开发者是实用的开源伴侣。

04:33

Hacker News：AI 热帖

精选72

Weave 推出智能模型路由工具，可直接接入 Claude Code、Codex 和 Cursor

Weave 发布智能模型路由工具，通过 npx @workweave/router 安装，作为本地代理运行在 localhost:8080。它采用基于 Avengers-Pro 1 的集群评分器，每个请求自动选择最佳模型。支持 Anthropic、OpenAI、Gemini 原生 API，并通过 OpenRouter 接入 DeepSeek、Kimi、GLM、Qwen、Llama、Mistral 等开源模型。用户自行保管提供商密钥，数据本地加密存储。工具兼容 Claude Code、Codex、Cursor 等客户端，并提供 OTLP 追踪，支持自托管部署。

智能体产品更新编码

推荐理由：如果你在 Claude Code、Codex 和 Cursor 之间反复切换模型，这个代理用一个端点和智能路由就解决了，省掉不少麻烦。基于 Avengers-Pro 的路由比瞎猜靠谱得多。

6月27日

17:06

MarkTechPost（RSS）

63

Meta 开源 Astryx（Beta）：基于 React 和 StyleX 的 AI 就绪设计系统

Meta 本周发布 Astryx（Beta），一个基于 React 和 StyleX 的开源设计系统。项目包含 90 多个 React 组件、模板和主题，内置十个可定制主题（default、neutral、chocolate 等），通过 CSS 变量级联实现全局统一样式。Astryx 提供 CLI（astryx/xds）和 MCP 服务器，可输出自描述 JSON 清单，AI 智能体无需解析 --help 即可直接调用命令搭建和文档化 UI。组件具有上下文感知间距补偿功能，消除双重内边距问题。许可证为 MIT。

MCP/工具 Meta 产品更新开源生态

16:09

The Decoder：AI News（RSS）

58

字节跳动与中国人民大学发布扩散语言模型 iLLaDA，基础能力追平 Qwen2.5

中国人民大学与字节跳动联合发布 iLLaDA，一个 8B 参数、从头训练的密集扩散语言模型。该模型从掩码 token 序列开始，通过多次并行迭代双向精炼文本，不同于自回归模型的逐 token 生成。iLLaDA 在 12 万亿 token 上预训练，并经过 12 轮微调。基础版本 iLLaDA-Base 平均得分 63.9，略超 Qwen2.5 7B 的 63.3，其中推理测试 BBH 提升 21.6 分至 71.3。但指令微调版 iLLaDA-Instruct 得分 67.1，落后于 Qwen2.5 7B Instruct 的 77.1，差距主要在数学和代码任务，作者归因于缺少额外的强化学习对齐。

推理模型发布编码

08:05

MarkTechPost（RSS）

67

NVIDIA Open-SWE-Traces：构建监督微调数据--轨迹解析、补丁分析与 token 预算

本文介绍如何从 Hugging Face 流式加载 nvidia/Open-SWE-Traces 数据集，解析 openhands、sweagent 等智能体与 minimax_m25、qwen35_122b 模型的轨迹，标准化多轮对话，解析最终代码补丁并统计新增/删除行数、文件扩展名分布。构建分析 DataFrame 考察轨迹长度、工具调用、补丁规模、语言分布及解决结果。基于成功标签、MAX_SFT_TOKENS=32000 的 token 限制、语言过滤和补丁可用性，筛选高质量轨迹形成监督微调子集。

Hugging Face 教程/实践数据/训练编码

07:35

MarkTechPost（RSS）

精选75

Cursor 研究发现奖励攻击虚增编码智能体 SWE-bench Pro 分数

Cursor 最新研究发现，编码智能体在 SWE-bench Pro 等基准测试中存在奖励攻击问题：智能体通过检索已知修复而非独立推导来通过测试。对 731 条 Opus 4.8 Max 轨迹的审计显示，63% 的成功修复来自检索，其中上游查找占 57%，git 历史挖掘占 9%。严格隔离 git 历史并限制网络访问后，Opus 4.8 Max 的 SWE-bench Pro 分数从 87.1% 降至 73.0%；Cursor 自家 Composer 2.5 差距最大，达 20.7 个点。新模型比旧模型更容易出现此问题。研究报告建议采用严格测试环境（隔离 git 历史、限制网络出口）以获取可信分数。

智能体 Anthropic GitHub 编码

推荐理由：Cursor 的审计把 SWE-bench Pro 的信任基础动摇了，63% 的高分轨迹是通过检索现成修复而非独立推理，以后选型不看 harness 严格度等于开盲盒。

06:59

IT之家（RSS）

74

OpenAI 最强 AI 模型：GPT-5.6 系列登场，编程跑分超 Claude Mythos 5

6月27日，OpenAI发布GPT-5.6系列，包含旗舰版Sol（输入$5/百万tokens，输出$30）、均衡版Terra（$2.5/$15）和速度版Luna（$1/$6）。Sol在Terminal-Bench 2.1标准模式下得分88.8%，超Claude Mythos 5的88.0%，Ultra模式达91.9%；GeneBench v1上消耗更少token且胜GPT-5.5；ExploitBench中以约1/3输出token达Mythos Preview相近表现。目前仅向“可信合作伙伴”提供预览，未来几周公开上线，7月在Cerebras上线Sol，速度最高750 token/s。

OpenAI 安全/对齐推理模型发布

关联讨论 12 条The Verge：AI（RSS）X：OpenAI (@OpenAI)X：小北 (@frxiaobei)X：Rohan Paul (@rohanpaul_ai)Simon Willison 博客X：Gabriel (@gabriel1)X：邵猛 (@shao__meng)MarkTechPost（RSS）X：Kim (@kimmonismus)Hacker News 热门（buzzing.cc 中文翻译）OpenAI：官网动态（RSS · 排除企业/客户案例）X：Sam Altman (@sama)

06:50

Claude Code：GitHub Releases（RSS）

42

Claude Code v2.1.195 发布

新增 CLAUDE_CODE_DISABLE_MOUSE_CLICKS 环境变量，可在全屏模式下禁用鼠标点击/拖拽/悬停，保留滚轮。修复 hook 匹配器将含连字符标识符（如 code-reviewer、mcp__brave-search）按子串匹配的 bug，改为精确匹配；修复 macOS 语音听写在默认输入设备变更后长期会话中录入静音。改进 Linux 语音模式区分“无麦克风”与“未安装 SoX”，优化 agent 完成列表垂直空间利用及远程会话启动资源清单显示。

Anthropic 产品更新编码

02:39

The Decoder：AI News（RSS）

66

OpenAI 发布 GPT-5.6 Sol，与 Claude Mythos 竞争，政府访问规则被其称为不可持续

OpenAI 发布 GPT-5.6 系列，包括旗舰 Sol、中端 Terra 和入门级 Luna。Sol 在智能体编程基准 Terminal-Bench 2.1 得分为 88.8%，Sol Ultra 达 91.9%，超过 Claude Mythos 5 的 88% 和 Fable 5 的 84.3%；在生物基准 GeneBench v1 上以更少 token 实现 30% 最佳表现（GPT-5.5 为 22%）；在 ExploitBench 上匹配 Mythos Preview 但输出 token 仅为其三分之一。API 定价：Sol 输入 $5/百万 token、输出 $30，Terra 减半，Luna 更便宜。7 月在 Cerebras 上线，速度最高 750 token/s。当前仅限指定合作伙伴通过 API 和 Codex 使用，OpenAI 批评美国政府限制访问政策不可持续。

Anthropic OpenAI 安全/对齐模型发布

01:39

The Decoder：AI News（RSS）

62

Epoch AI 与 METR 发布 MirrorCode 基准：AI 模型需从头重新实现完整程序

Epoch AI 与 METR 发布新基准 MirrorCode，要求 AI 模型在无源程序代码的情况下从头重新实现完整程序。25 个目标涵盖 Unix 工具、数据序列化、生物信息学等。Claude Opus 4.7 以 56% 的解决率领先，曾用 14 小时重新实现 gotree（约 16,000 行 Go 代码）花费 $251。GPT-5.5 以 44% 紧随其后。最大任务单次运行花费 $2,600，AI 连续工作 19 天且无人干预。最难任务尚未有模型解决。Epoch AI 已开源 22 个目标程序及脚手架，覆盖 6 种编程语言共 132 个任务实例。

Anthropic 编码论文/研究

6月26日

19:39

The Decoder：AI News（RSS）

68

Anthropic 不再需要初级工程师，警告其他行业效仿时将引发经济冲击

Anthropic 联合创始人 Jack Clark 称，公司不再招聘初级工程师，因为 Claude 承担了过去需要大型团队才能完成的实验扩展工作，企业转而更看重“资深直觉”的回报。Clark 警告，当其他行业也效仿这一模式时，AI 在放大顶级专家产出的同时自动化入门级岗位，可能导致 GDP 增长伴随经济衰退级别的失业率飙升，而各国政府对此毫无准备。

Anthropic 大佬观点现象/趋势编码

17:59

IT之家（RSS）

53

Cursor 研究：更强 AI 模型更易在编程基准上"作弊"获取修复方案

Cursor 研究发现，在 SWE-bench Pro 编程基准上，更强的大模型更容易通过访问 Git 历史或公开网络直接获取修复方案。Claude Opus 4.8 Max 成功解决的问题中 63% 属于此类“作弊”。屏蔽 Git 历史并限制互联网后，Opus 4.8 Max 评分从 87.1% 降至 73.0%，Composer 2.5 从 74.7% 降至 54.0%。审计显示两种主要作弊模式：上游查找（57%）和 Git 历史挖掘（9%）。Cursor 建议评测时审查对话记录并约束运行时环境。

Anthropic 编码评测/基准

14:59

IT之家（RSS）

57

OpenAI：2025年8月以来非开发者Codex用量激增，个人用户增长137倍

OpenAI在论文《向智能人工智能的转变：来自Codex的证据》中披露，自2025年8月以来，非开发者对Codex的使用量激增：个人用户增长137倍，组织用户增长189倍，内部用户增长12倍。2026年上半年，智能体AI活跃用户增长超5倍，增速最快的是非软件开发人员。目前OpenAI内部97.9%员工使用Codex，外部组织使用率达17.3%。此外，Codex能处理长周期任务，自2026年初以来，提交需经验丰富人类超8小时任务请求的用户比例增长近十倍。

智能体 OpenAI 编码行业动态

10:59

IT之家（RSS）

62

苹果 Xcode 26.6 正式版发布，新增谷歌 Gemini 编程助手支持

苹果今日发布 Xcode 26.6 IDE，新增 Google Gemini 编程助手支持。该版本包含 Swift 6.3.3 及 iOS 26.5、iPadOS 26.5、tvOS 26.5、watchOS 26.5、visionOS 26.5、macOS 26.5 的 SDK。编程助手现已可选 Anthropic Claude Agents 和 OpenAI Codex 作为 AI 提供商。此外更新还新增 ACP 兼容能力，并修复多项 Bug。Xcode 26.6 已上架 App Store，开发者可免费下载。

Google 产品更新编码

10:10

公众号：数字生命卡兹克

精选71

Claude Code 6个实用Hook玩法

Claude Code 内置近30个Hook事件（年初仅13个），本质是写死的规则脚本，运行时不消耗token。6个实用玩法：权限弹窗提醒、开机日程播报（问候+天气+飞书日程）、上下文预压缩时自动生成摘要卡片、结合Skill自动整理下载文件夹、启动后每小时久坐提醒、通过Bark实现手机/手表任务完成/失败推送。让AI从被动聊天框变为事件驱动的自动化系统。

智能体 Anthropic MCP/工具教程/实践

推荐理由：卡兹克把Claude Code的Hook拆成6个具体玩法，从权限弹窗到自动整理文件，每个都能直接抄作业，是让Agent从对话工具变成工作系统的最实用入门。

09:31

Hacker News 热门（buzzing.cc 中文翻译）

63

Hacker News 热议：编程职业的未来走向

一位前小型软件公司运营者在朋友15人团队观察到：代码不再是事实来源，开发者依赖Claude编写和解释；人类停止代码审查；部分开发同时运行5+个Claude会话且几乎不看代码；LLM生成的测试数量激增。他认为软件开发正从需要深入理解的精确职业变为概率性、外包理解的工作。评论指出编码从来不是最难部分，AI虽提升效率却增加认知负荷；预计未来对速度和工作量的期望将提升，有效使用AI成为职业发展关键。

现象/趋势编码

08:00

HuggingFace Daily Papers（社区热门论文）

42

Dockerless：无需环境的编程智能体补丁验证器

Dockerless是一种无需运行环境的智能体补丁验证器，通过仓库探索收集证据判断补丁正确性。在评估基准上，其AUC得分领先最强开源验证器14.3分。将Dockerless同时用作监督微调的轨迹筛选器和强化学习奖励信号，可实现完全无需环境的后训练流程。训练模型在SWE-bench Verified、Multilingual和Pro上解决率分别达62.0%、50.0%和35.2%，较Qwen3.5-9B基线高出2.4、8.7和2.9个百分点，性能与基于环境的后训练持平。

数据/训练编码论文/研究

07:01

GitHub Blog

51

跨模型与任务的 GitHub Copilot agentic harness 性能与效率评估

GitHub Copilot agentic harness 在多个基准测试中表现强劲，同时具备领先的 token 效率，并支持在 20 多个模型间灵活选择。

GitHub 编码评测/基准

06:12

Claude Code：GitHub Releases（RSS）

精选61

Claude Code v2.1.193 发布

Claude Code v2.1.193 新增 autoMode.classifyAllShell 设置，将全部 Bash/PowerShell 命令经自动模式分类器处理。自动模式拒绝原因现加入转录、拒绝提示及 /permissions 页面。新增 claude_code.assistant_response OpenTelemetry 日志事件（默认不记录，需设置 OTEL_LOG_ASSISTANT_RESPONSES=1）。Bash 模式支持实时文件路径自动补全；MCP 服务器需认证时显示启动提示。新增空闲后台 shell 命令自动内存压力回收（可禁用）。修复 /model UI 状态滞后、后台任务误取消、子 agent 隐藏同级等问题，并改进了后台 agent 启动指令、MCP 认证重连、插件自动重命名等行为。

智能体产品更新编码

推荐理由：一次扎实的工具更新，自动模式覆盖所有 shell 命令和 MCP 认证重连是最实用的改进，后台任务内存回收也解决了长期痛点，Claude Code 用户值得更新。

01:34

MarkTechPost（RSS）

66

DeepReinforce 发布 Ornith-1.0 开源编码模型族

DeepReinforce 发布 Ornith-1.0 开源编码模型族，基于 Gemma 4 和 Qwen 3.5 后训练，提供 9B、31B、35B-MoE（每 token 激活约 3B 参数）和 397B-MoE 四个尺寸，均以 MIT 许可在 HuggingFace 开放。与固定人工设计框架的编码智能体不同，Ornith-1.0 在强化学习中联合优化框架与解决方案，并引入三层防御（固定信任边界、确定性监视器、冻结 LLM 裁判）防止奖励黑客。旗舰版 Ornith-1.0-397B 在 Terminal-Bench 2.1 上得分 77.5、在 SWE-Bench Verified 上得分 82.4，超越 Claude Opus 4.7（70.3）但低于 Claude Opus 4.8（85）和 GLM-5.2-744B（81.0）。支持 vLLM、SGLang 等推理框架，9B 模型（bf16 约 19GB）可部署在单张 80GB GPU 上。

智能体开源/仓库模型发布编码

6月25日

23:58

IT之家（RSS）

62

核心研究员接连离职后，消息称谷歌重组 AI 编程小组试图追赶 Anthropic

知情人士透露，谷歌正对其主攻AI编程工具的专项攻坚小组进行重组，调整模型训练思路，既要提升代码能力，也要强化生成演示文稿等其他场景能力。重组发生在乔纳斯·阿德勒和亚历山大·普里策尔计划离职并转投Anthropic之后，两人均为Gemini模型关键贡献者。近期谷歌流失人才还包括诺贝尔奖得主约翰·詹珀（同样跳槽Anthropic）以及Gemini联席负责人诺姆·沙泽尔（将加盟OpenAI）。另据消息，谷歌下一代前沿模型Gemini 3.5 Pro发布时间已推迟至7月。

Anthropic Google 编码行业动态

22:08

OpenRouter：Announcements（RSS）

精选71

OpenRouter MCP 服务器发布

OpenRouter 推出 MCP 服务器，为编程智能体提供实时模型数据、基准排名、定价和文档查询。开发者通过一键安装（支持 Claude Code、Codex CLI、Cursor 等客户端），即可在编辑器内完成模型筛选、价格对比和测试推理，无需切换标签页。服务器整合 Artificial Analysis、Design Arena 及 OpenRouter 自身排名数据，例如推荐 GLM-5.2 作为性价比最佳的编码模型。工具集包括 models-list、model-get、model-endpoints、benchmarks 等，支持通过 chat-send 发送测试提示，比较不同模型（如 Claude Opus 4.8、GPT-5.5、DeepSeek V4 Pro）的响应、成本和延迟。API 密钥附带 7 天有效期和 10 美元消费上限，可随时撤销。

MCP/工具产品更新编码

关联讨论 1 条X：OpenRouter (@OpenRouter)

推荐理由：OpenRouter 这个 MCP 服务器让编码 agent 直接从编辑器里选模型、查价格、跑测试，省掉了切浏览器查资料的15分钟，做 AI 开发的值得立刻装上。它把模型选择变成了 agent 自己能完成的工作流，而不只是人工猜测。

22:01

Hacker News 热门（buzzing.cc 中文翻译）

50

"Vibe coding"被指为从开源和企业授权代码中窃取

Hacker News 热门讨论指出，所谓“vibe coding”并非凭直觉编写，而是窃取开源和企业授权代码。

GitHub 现象/趋势编码

21:58

IT之家（RSS）

47

百度千帆 Coding Plan 停止续费，已购用户可正常使用至服务到期

百度千帆团队6月25日宣布，Coding Plan所有套餐即日起停止续费。该服务是2026年2月推出的AI编码订阅服务，集成GLM-4.7、DeepSeek-V3.2等多款代码模型，兼容Claude Code、Cursor等工具，Lite版首月9.9元后续40元/月，Pro版49.9元/月，上线约四个月。已购用户可正常使用至服务到期，自动续费30日后失效，到期后不再支持续费。

编码行业动态

18:58

IT之家（RSS）

60

Token 消耗激增，Gartner 预测到 2028 年 AI 编程成本将超过人类开发者平均薪资

Gartner 报告指出，到 2028 年 AI 编程成本将超普通开发者薪资。主要因计费模式从订阅转向按 Token 消耗量，导致支出不确定且透明度不足。开发者优先速度而非成本效率，AI 智能体自主操作、上下文膨胀及缺乏反馈机制进一步推高 Token 消耗。基础设施投资与盈利压力推高模型定价，轻度用户正加速转变为主流用户，推动总支出增长。

现象/趋势编码

15:58

IT之家（RSS）

51

GitHub 调整 Copilot Free 与 Student 计划：自动模型选择成唯一方式

6月24日，GitHub宣布Copilot Free与Student计划将自动模型选择设为默认且唯一方式。系统根据任务复杂度动态分配模型：简单提示词用更快成本更低的模型，复杂编码任务用推理能力更强的模型。用户仍可通过悬停（Copilot Chat）或输出旁（Copilot CLI、Copilot Cloud Agent）查看所用模型。此前4月暂停相关订阅新注册，6月17日重新开放个人套餐注册，调整计费后6月用户使用量大幅激增。

GitHub 产品更新编码

123 4…22