Hacker News 上的一篇博文指出,程序员愿意为Claude编写文档,却不愿意为其他程序员编写文档。
Hacker News 上的一篇博文指出,程序员愿意为Claude编写文档,却不愿意为其他程序员编写文档。
Your Codex activity now has a home, and an easier way to share it. Codex profiles show your activity graph, streaks, lif...
Code2LoRA 是一种超网络框架,可生成仓库专属的 LoRA 适配器,在推理时零 token 开销注入仓库知识。它支持两种模式:Code2LoRA-Static 将单一仓库快照转为适配器,适合稳定代码库;Code2LoRA-Evo 通过 GRU 隐藏状态随代码 diff 更新适配器,适合演化中的活跃开发。团队构建了含 604 个 Python 仓库的 RepoPeftBench 基准。静态任务中,Code2LoRA-Static 跨仓库 exact match 达 63.8%,仓库内达 66.2%,持平逐仓库 LoRA 上界;演化任务中,Code2LoRA-Evo 跨仓库 exact match 达 60.3%,比单一共享 LoRA 高 5.2 个百分点。代码和数据集已开源。
量子纠缠被认为是时空结构的基础。一项新研究提出,“魔法”(量子计算中的一种资源)可以为时空赋予引力。该文章发表在 Quanta Magazine 上。
外媒报道,谷歌员工在内部平台发布大量反AI梗图,嘲讽自家AI编程工具Jetski不够可靠。今年4月,CEO皮查伊宣称公司75%新代码由AI生成,但员工反映工程师需反复检查粗糙代码,负担未减。I/O大会期间,一张梗图讽刺AI“制造垃圾内容”获100余赞。过去一年反AI梗图达数百至数千张。员工指出AI将压力转移至测试、审查等后续环节,最终耗时与不用AI相近。
AI行业关注焦点从token最大化与快速迭代转向成本管控。业内普遍呼吁建立护栏机制,以应对推理和生成过程中不断飙升的token费用。这一趋势正在推动模型部署策略、API定价体系以及企业级AI应用的经济性评估发生根本性转变。
本周BestBlogs梳理20篇内容,聚焦Agent时代的三层爆发:模型层OpenAI升级ChatGPT“梦境”记忆架构、MiniMax M3开源(1M上下文+稀疏注意力)、Gemma 4 12B端侧Agent工作流;产品层Kimi Work Beta面向知识工作者、微软开源SkillOpt(3300 star,含文本学习率与拒绝编辑缓冲区)、扣子3.0升级为AI团队;工程层Anthropic发布Claude Code动态工作流(子代理编排)及其内部AI原生工程实践。
Anthropic 披露,Claude 现已编写超过80%的合并生产代码。2025年2月 Claude Code 研究预览前,该比例仅有个位数,而工程师产出升至2024年基线的8倍。智能体可编辑文件、运行测试、检查失败、生成辅助智能体并在长任务中持续工作。可靠任务长度约每4个月翻倍,Mythos Preview 达至少16小时,开放式 Claude Code 成功率达76%。Claude 训练代码加速从3倍升至52倍,有经验工程师在相同设置下4-8小时仅约4倍。人类剩余优势在于研究判断。
Vibe Coding将自然语言转化为可运行的软件。文章对比了2026年15款Vibe Coding工具的价格、功能与适用场景,帮助开发者选择最适合的应用构建方式。
Anthropic 内部数据显示,Claude 承担了超过 80% 的生产代码编写,工程师每日代码产出是 2024 年的 8 倍。该公司目标是实现 AI 自我改进,这将引发巨大加速。为此 Anthropic 呼吁建立可验证的全球 AI 开发暂停机制,并表示若其他前沿实验室同样暂停,他们也会停止。
关联讨论 11 条Anthropic:The Institute(旗舰研究长文 · 网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)X:卡兹克 (@Khazix0918)X:Rohan Paul (@rohanpaul_ai)X:Anthropic (@AnthropicAI)X:Emad Mostaque (@EMostaque)X:小互 (@xiaohu)X:Ethan Mollick (@emollick)Hacker News 热门(buzzing.cc 中文翻译)Anthropic:Research(发表成果 · 网页)阿里云推出Qwen3.7-Max,定位为最通用的智能体基础模型,专为编码、业务自动化和长时间运行的AI工作流设计。支持工具调用、跨框架协作与复杂任务稳定执行。限时提供50%折扣及1百万免费token,开发者可免费试用。
DGrid 🤝 @MiniMax_AI MiniMax M3 is now live on http://dgrid.ai. Enjoy 50% off through June 7th. ⚡️ With frontier coding ...
Bug fixes shipping to Grok Build 0.2.20 (release notes will be available in the TUI and on change-log website) • Elimina...
Grok Build tip of the day: worktrees! If you're unfamiliar with worktrees, they're essentially lightweight copies of you...
Open Code Review 是一个基于人工智能的代码审查命令行(CLI)工具,旨在帮助开发者通过自动化的方式提升代码审查效率。
在 6 月 5 日的腾讯云 AI 产业应用大会上,腾讯高级执行副总裁汤道生表示,今年腾讯大部分代码都由 AI 生成,工程师将更多时间用于架构设计,定期指导与修正 AI 输出。腾讯 2026 年 Q1 财报显示,重组后的 AI 研发团队重构了基础设施,并搭建了 Hy3 preview 模型。腾讯总裁刘炽平今年 3 月透露,去年腾讯在 AI 新产品上投入 180 亿元,今年投入至少翻倍。
@op7418 发布 CodePilot v0.55.0 正式版,新增多执行引擎(Claude Code / 自建 Native / OpenAI Codex)、上下文用量可视化及 Codex 账号原生能力。作者分享实践:当前代码库有 26 万行代码与 5.6 万行文档(占比 21%),文档体系对 bug 修复和功能实现至关重要。作者称从未手写一行代码,但能修复所有已知 bug 并实现所有想要能力。原本预期两周的重构持续超过一个月零三周。
CodePilot v0.55.0 正式版已经更新! 重构完成的正式版: 多执行引擎(Claude Code / 自建 Native / OpenAI Codex)、上下文用量可视化、Codex 账号原生能力全部落地为稳定版,并集中修复了 ...
有用户观察到Claude 4.8和GPT 5.5的写作能力不如Claude 4.6系列,推测原因是Anthropic与OpenAI正全力聚焦编程能力,训练数据偏向编程任务,导致写作表现下降。发问者质疑为何两大模型无法兼顾编程与写作,并询问其技术难点。
NF-CoT 在大语言模型骨干内实例化 TARFlow 风格的归一化流,为从显式 CoT 蒸馏的紧凑连续思想定义可处理概率模型。连续思想位置由 NF head 生成,文本位置由同一因果流中的标准 LM head 生成。该设计保留因果自回归生成、概率采样、KV 缓存兼容性和精确似然估计,并支持潜在推理空间的直接策略梯度优化。在代码生成基准上,NF-CoT 相比显式 CoT 和先前潜在推理方法提高了通过率,同时显著降低了中间推理成本。
Anthropic发文指出,AI系统正加速自身开发,递归自我改进或将到来。目前Anthropic超80%代码由Claude编写,工程师每日合并代码量达2024年8倍。Claude Opus 4.6可胜任12小时软件任务,Mythos Preview连续工作至少16小时,SWE-bench和CORE-Bench等基准均已饱和。内部测试显示,Mythos Preview使研究效率提升约4倍,代码速度优化达52倍,在开放任务中成功率达76%,并弥合97%的研究项目差距。Claude在64%情况下给出比人类更好的研究建议。
同一事件,精选展示《AI加速自我构建:Anthropic研究院报告揭示趋势》Anthropic发布最新博客后,推特圈热议不断。Gary Marcus在其博客中直接以“无需恐慌”为题发文,暗示不必过度反应。
Anthropic设计负责人Meaghan在NYC Dive Club Live展示团队已验证的Claude Code工作流。现场演示用/prototype Skill为Excalidraw生成5个方案,让AI选择并解释,然后实现、验证、开PR(含录屏)。她强调三大原则:LLM做设计还很糟,人必须留审美环;自动化不应限于写代码;人人都能ship不等于什么都该ship。并行工作流包括云端批量UI修复、自动Code Review与PR合并、定时巡检无设计师参与的改动并生成草案。验收单位从聊天文字变为带视觉证据的Pull Request。建议使用claude-worktree、Opus加百万上下文、Auto模式。
~12 min of Claude Code tips for designers (straight from the design lead @meaghaneschoi) here's her demo from Dive Club ...
月之暗面旗下Kimi Code完成架构重构并开源。开发团队在一个月内进行封闭开发,频繁在白板前争论迭代,实现集体主义远胜个人英雄主义的工程效率。作者强调,AI Agent不会替代所有程序员,但会让顶级程序员生产力提升20倍,同时淘汰其他程序员。重构过程中,作者花数千美元token进行架构分析与验证,开源后因皮质醇过度分泌病倒。一周消耗整箱红牛,且感性上感觉时间已过一个月,实际仅开源一周多。
过去一个月是疯狂的一个月 大概一个月前,我下定决心重构 kimi-code,开始设计新的架构。 我大概抱着电脑和便携屏在汤泉卷了两整天,花了几千刀的 token 去做架构分析、设计和验证,最终得到了一份我认为最优的架构方案。 我觉得在 vi...
We're doing a live walkthrough of MeDo 3.0 this Friday at 9:00 AM UTC+8! @Medo_CodeFree will cover what's changed, how i...
Nemotron 3 Ultra performed GPT 5.5 level 10× cheaper We gave three same prompts to build HTML5 canvas with real physics....
OpenAI Codex 推出“Build iOS Apps”官方插件,将 iOS 应用开发闭环引入 Codex 工作流。用户可在 Codex 内直接查看和测试 iOS 应用、打开 SwiftUI previews 并进行代码热重载,无需切换到 Xcode 或模拟器。底层基于 XcodeBuildMCP 构建自动化工作流,支持构建、测试、模拟器运行、UI 检查、日志与调试状态采集。值得关注的两个开源项目:serve-sim(提供 streaming simulator 能力)和 SnapshotPreviews(用于提取 SwiftUI previews 集成工具链)。
More of the iOS app loop, now inside Codex. The Build iOS Apps plugin lets Codex view and test your iOS app in the in-ap...
Cursor 也发布了类似 Codex Sites 的「Canvases」 这个方向就对了,Coding Agent 本来就能完全吃掉 Lovable、v0、http://bolt.new 的 AI 建站功能,再结合在 Coding 和 Design、Debug、Deploy 等方面的闭环能力,从产品定义、设计、开发、测试到部署运维,完整覆盖。
With canvases, Cursor can create apps like dashboards, reports, and internal tools. Now you can publish a canvas and sha...
We're doing a live walkthrough of MeDo 3.0 this Friday at 9:00 AM UTC+8! @Medo_CodeFree will cover what's changed, how i...
6月3日,中国信通院宣布中国电信、中国移动、中国联通的“词元产品”服务正式登陆中国算力平台。词元是大模型最小信息单元,具有可计量、可定价、可交易特征。天翼云Token Plan分开发者/中小企业版(基于GLM-5)和个人/家庭版(基于DeepSeek V3.2);移动云Coding Plan(基于MiniMax-2.5)支持Claude Code等编程工具;联通云推出Coding Plan(整合DeepSeek V4、GLM-5、MiniMax M2.5)和Token Plan(个人版支持DeepSeek V4-Flash、MiniMax M2.5,团队版采用Credits弹性计费)。服务已在中国算力平台·算力超市上架。
SWE-Explore 是一个专为评测编码智能体仓库探索能力而设计的基准,覆盖 848 个 issue、10 种编程语言和 203 个开源仓库。每项任务要求探索者在固定行预算内返回相关代码区域的有序列表,ground truth 来自成功解决同一 issue 的独立智能体轨迹。评测从覆盖率、排名和上下文效率三个维度展开,发现这些指标与下游修复行为高度相关。结果显示,智能体探索器整体明显优于传统检索方法,但文件级定位已足够强,行级覆盖率和高效排名才是区分前沿探索器能力的关键。
研究分析了35,361条明确提及AI的GitHub代码注释及关联代码块,通过开放编码建立AI辅助开发活动分类法,并使用LLM分类器与Dawid-Skene模型标注全量数据。还分析了12,996条后续提交消息,追踪代码演变及2022年12月至2026年3月的时间趋势。结果显示,开发者主要用LLM进行代码实现,其次是增强、调试、文档和测试。后续提交常涉及重构清理、功能集成和Bug修复。随时间推移,AI引用从直接代码生成转向知识支持和代码增强。AI工具正嵌入为协作支持机制。
Socratic-SWE 提出闭环自我进化框架,将代码智能体历史解决轨迹提炼为结构化技能,总结失败与修复模式,并据此在真实仓库生成针对性修复任务。候选任务经执行验证与求解器梯度对齐奖励评分后,保留可验证且有益于提升 Solver 的任务。更新后的 Solver 产生新轨迹,使任务课程自适应调整。在 SWE-bench Verified 等基准上,相同计算预算下持续优于自我进化基线,三轮迭代后 SWE-bench Verified 达 50.40%。
OpenAI Developers 推出 Build iOS Apps 插件,使 Codex 能直接在 in-app browser 中查看和测试 iOS 应用、打开 SwiftUI 预览、热重载编辑,无需离开 Codex。底层依赖两个开源项目:Evan Bacon 的 serve-sim(流式模拟器)和 Sentry 的 SnapshotPreviews(提取 SwiftUI 预览)。该插件完全开源,将“写—跑—看—改”反馈闭环集成在同一对话界面,使 iOS 开发者可将模拟器、预览、热重载与 AI 对话融合,不再需要在 Xcode、浏览器、终端间反复跳转。
More of the iOS app loop, now inside Codex. The Build iOS Apps plugin lets Codex view and test your iOS app in the in-ap...
Building apps has never been easier. With Sites, Codex can turn your work, ideas, and plans into an interactive website ...
同一事件,精选展示《Codex 赋能每一种角色、工具和工作流》Anthropic内部数据显示,AI模型可自主完成任务时长加速增长:Opus 3(2024年3月)约4分钟,Sonnet 3.7(2025年3月)约90分钟,Opus 4.6(2026年3月)12小时,翻倍周期从7个月缩至4个月。Claude Mythos Preview在METR中可连续工作至少16小时。工程师季度代码产出是2021–2025年均值8倍,Claude代码占代码库80%+,单个AI曾一次性修复800+API错误(相当于人力四年)。最难开放任务成功率6个月内从低点升至76%。Anthropic强调,即使模型能力冻结,100人公司通过智能体即可完成1000人工作;实际发展已超越自身指数假设,递归自我改进虽未实现,但可能比预期更快到来。
Holy moly, Anthropic is getting very serious about recursive self-improvement! One word: acceleration. Insane blog artic...
关联讨论 11 条Anthropic:The Institute(旗舰研究长文 · 网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)X:卡兹克 (@Khazix0918)X:Rohan Paul (@rohanpaul_ai)X:Anthropic (@AnthropicAI)X:Emad Mostaque (@EMostaque)X:小互 (@xiaohu)X:Ethan Mollick (@emollick)Hacker News 热门(buzzing.cc 中文翻译)Anthropic:Research(发表成果 · 网页)