AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「编码」清除
6月6日周六
00:21Hacker News 热门(buzzing.cc 中文翻译)49程序员会为Claude编写文档,但不会为彼此编写
00:10Replit ⠕67同事件精选Replit 推出 Shopify 集成与 SEO 智能体同一事件,精选展示《Replit Agent 联手 Shopify 快速建店》
00:08歸藏(guizang.ai)61Codex 个人资料页上线,支持分享 Token 消耗
00:00AK57Code2LoRA:超网络生成代码模型适配器
6月5日周五
23:47HuggingFace Daily Papers(社区热门论文)68Code2LoRA:超网络生成适配器助力代码语言模型应对软件演化
23:20Hacker News 热门(buzzing.cc 中文翻译)36纠缠构建了时空。如今,"魔法"赋予了它引力
23:15IT之家(RSS)68谷歌CEO皮查伊力捧AI,员工内部疯狂吐槽
22:53TechCrunch:AI(RSS)73精选AI行业Token成本失控引发紧急管控:从"加速"转向"设护栏"
21:07ginobefun66BestBlogs 周刊第98期:Agent时代在模型、产品、工程层同步爆发
20:28Rohan Paul72Anthropic 披露 Claude 现编写超过80%的合并生产代码
19:27MarkTechPost(RSS)642026年15款最佳Vibe Coding工具对比:价格、功能与适用场景
17:56The Decoder:AI News(RSS)71Anthropic 表示 Claude 现在写 90% 以上的代码,并希望世界拥有 AI 暂停按钮
17:53Alibaba Cloud22阿里云Qwen3.7-Max智能体模型限时五折
16:36MiniMax (official)67MiniMax M3上线DGrid,限时五折
15:40Elon Musk64Grok Build 0.2.20 更新:多项 Bug 修复与新工具
15:40Elon Musk66精选Grok 推出 worktrees 并行智能体
15:39jason41Codex OSS 更新:数百计划已分发
13:19Hacker News 热门(buzzing.cc 中文翻译)76精选Open Code Review - 一款基于人工智能的代码审查命令行工具
11:19Tibo71在程序中使用Codex Python SDK
11:14IT之家(RSS)71精选腾讯高级执行副总裁汤道生:今年腾讯大部分代码都由 AI 生成
11:07歸藏(guizang.ai)59CodePilot v0.55.0 发布:新增多执行引擎与上下文用量可视化,大型代码库 Vibe Coding 依赖文档体系
10:52向阳乔木40用户质疑Claude 4.8与GPT 5.5写作能力倒退
10:46HuggingFace Daily Papers(社区热门论文)68NF-CoT:基于归一化流的潜在推理框架
09:31公众号:数字生命卡兹克68同事件精选Anthropic《When AI builds itself》:当AI开始自我构建同一事件,精选展示《AI加速自我构建:Anthropic研究院报告揭示趋势》
09:28Gary Marcus:The Road to AI We Can Trust(RSS)59精选Gary Marcus:无需恐慌Anthropic新博客
09:24meng shao72Anthropic设计负责人分享Claude Code已验证工作流
09:24meng shao58Kimi Code重构版发布:顶级程序员效率翻20倍
09:20Baidu Inc.44百度 MeDo 3.0 直播倒计时30分钟
08:56Rohan Paul53Nemotron 3 Ultra 对比 GPT-5.5 在 atomic.chat 本地桌面应用上的性能与成本测试
08:54meng shao69OpenAI Codex 新增"Build iOS Apps"插件
08:54meng shao57Cursor 发布类似 Codex Sites 的 Canvases
08:49Baidu Inc.37百度 MeDo 3.0 直播预告
08:14IT之家(RSS)67三大运营商"词元产品"服务上架中国算力平台
08:00HuggingFace Daily Papers(社区热门论文)65SWE-Explore:编码智能体仓库探索能力评测基准
08:00HuggingFace Daily Papers(社区热门论文)57GitHub仓库中AI使用特征与演变的实证研究:来自代码注释的证据
08:00HuggingFace Daily Papers(社区热门论文)66Socratic-SWE:基于轨迹提炼技能的自我进化SWE智能体
07:33OpenAI Developers42Codex 活动主页与分享功能上线
06:54Berryxia.AI70OpenAI Developers 推出 Build iOS Apps 插件,Codex 内可直接运行 iOS 应用并热重载
06:45Sam Altman80同事件精选用ChatGPT构建并发布网页应用同一事件,精选展示《Codex 赋能每一种角色、工具和工作流》
06:27Chubby♨️78Anthropic内部数据:AI能力加速,任务时长翻倍周期缩至4个月
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月6日
00:21
Hacker News 热门(buzzing.cc 中文翻译)
49
程序员会为Claude编写文档,但不会为彼此编写

Hacker News 上的一篇博文指出,程序员愿意为Claude编写文档,却不愿意为其他程序员编写文档。

Anthropic教程/实践编码
00:10
Replit ⠕@Replit
同事件精选67
Replit 上的 Shopify 与新的 SEO Agent
智能体产品更新编码
同一事件,精选展示《Replit Agent 联手 Shopify 快速建店》
推荐理由:Replit直接瞄准电商卖家的痛点,推出Shopify集成和SEO Agent,让非技术店主也能用AI优化店铺,是个务实的生产力更新。
00:08
歸藏(guizang.ai)@op7418
61
Codex 现在有了个人资料页,可以展示活动图、连续使用天数、生命周期 Token、峰值日 Token 以及常用功能(如插件和 /fast 模式)。默认私密,可按需生成分享图。归藏称赞这个分享图做得不错。

OpenAI Developers: Your Codex activity now has a home, and an easier way to share it. Codex profiles show your activity graph, streaks, lif...

OpenAI教程/实践编码
00:00
AK@_akhaliq
57
Code2LoRA 超网络生成的代码语言模型适配器,用于软件演化环境。
编码论文/研究
6月5日
23:47
HuggingFace Daily Papers(社区热门论文)
68
Code2LoRA:超网络生成适配器助力代码语言模型应对软件演化

Code2LoRA 是一种超网络框架,可生成仓库专属的 LoRA 适配器,在推理时零 token 开销注入仓库知识。它支持两种模式:Code2LoRA-Static 将单一仓库快照转为适配器,适合稳定代码库;Code2LoRA-Evo 通过 GRU 隐藏状态随代码 diff 更新适配器,适合演化中的活跃开发。团队构建了含 604 个 Python 仓库的 RepoPeftBench 基准。静态任务中,Code2LoRA-Static 跨仓库 exact match 达 63.8%,仓库内达 66.2%,持平逐仓库 LoRA 上界;演化任务中,Code2LoRA-Evo 跨仓库 exact match 达 60.3%,比单一共享 LoRA 高 5.2 个百分点。代码和数据集已开源。

arXivHugging Face开源生态编码
23:20
Hacker News 热门(buzzing.cc 中文翻译)
36
纠缠构建了时空。如今,"魔法"赋予了它引力

量子纠缠被认为是时空结构的基础。一项新研究提出,“魔法”(量子计算中的一种资源)可以为时空赋予引力。该文章发表在 Quanta Magazine 上。

编码论文/研究
23:15
IT之家(RSS)
68
谷歌CEO皮查伊力捧AI,员工内部疯狂吐槽

外媒报道,谷歌员工在内部平台发布大量反AI梗图,嘲讽自家AI编程工具Jetski不够可靠。今年4月,CEO皮查伊宣称公司75%新代码由AI生成,但员工反映工程师需反复检查粗糙代码,负担未减。I/O大会期间,一张梗图讽刺AI“制造垃圾内容”获100余赞。过去一年反AI梗图达数百至数千张。员工指出AI将压力转移至测试、审查等后续环节,最终耗时与不用AI相近。

Google编码行业动态
22:53
TechCrunch:AI(RSS)
精选73
AI行业Token成本失控引发紧急管控:从"加速"转向"设护栏"

AI行业关注焦点从token最大化与快速迭代转向成本管控。业内普遍呼吁建立护栏机制,以应对推理和生成过程中不断飙升的token费用。这一趋势正在推动模型部署策略、API定价体系以及企业级AI应用的经济性评估发生根本性转变。

智能体现象/趋势编码

推荐理由:企业开始受不了AI账单了,Uber半年花光全年预算,微软撤销Claude Code许可,这可能是AI泡沫的第一声警报。这篇文章给所有用AI写代码的公司算了一笔账,值得一看。
21:07
ginobefun@hongming731
66
BestBlogs 周刊第98期:Agent时代在模型、产品、工程层同步爆发

本周BestBlogs梳理20篇内容,聚焦Agent时代的三层爆发:模型层OpenAI升级ChatGPT“梦境”记忆架构、MiniMax M3开源(1M上下文+稀疏注意力)、Gemma 4 12B端侧Agent工作流;产品层Kimi Work Beta面向知识工作者、微软开源SkillOpt(3300 star,含文本学习率与拒绝编辑缓冲区)、扣子3.0升级为AI团队;工程层Anthropic发布Claude Code动态工作流(子代理编排)及其内部AI原生工程实践。

智能体AnthropicOpenAI现象/趋势
20:28
Rohan Paul@rohanpaul_ai
72
Anthropic 披露 Claude 现编写超过80%的合并生产代码

Anthropic 披露,Claude 现已编写超过80%的合并生产代码。2025年2月 Claude Code 研究预览前,该比例仅有个位数,而工程师产出升至2024年基线的8倍。智能体可编辑文件、运行测试、检查失败、生成辅助智能体并在长任务中持续工作。可靠任务长度约每4个月翻倍,Mythos Preview 达至少16小时,开放式 Claude Code 成功率达76%。Claude 训练代码加速从3倍升至52倍,有经验工程师在相同设置下4-8小时仅约4倍。人类剩余优势在于研究判断。

智能体Anthropic产品更新编码
19:27
MarkTechPost(RSS)
64
2026年15款最佳Vibe Coding工具对比:价格、功能与适用场景

Vibe Coding将自然语言转化为可运行的软件。文章对比了2026年15款Vibe Coding工具的价格、功能与适用场景,帮助开发者选择最适合的应用构建方式。

编码评测/基准
17:56
The Decoder:AI News(RSS)
71
Anthropic 表示 Claude 现在写 90% 以上的代码,并希望世界拥有 AI 暂停按钮

Anthropic 内部数据显示,Claude 承担了超过 80% 的生产代码编写,工程师每日代码产出是 2024 年的 8 倍。该公司目标是实现 AI 自我改进,这将引发巨大加速。为此 Anthropic 呼吁建立可验证的全球 AI 开发暂停机制,并表示若其他前沿实验室同样暂停,他们也会停止。

Anthropic安全/对齐编码行业动态
关联讨论 11 条Anthropic:The Institute(旗舰研究长文 · 网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)X:卡兹克 (@Khazix0918)X:Rohan Paul (@rohanpaul_ai)X:Anthropic (@AnthropicAI)X:Emad Mostaque (@EMostaque)X:小互 (@xiaohu)X:Ethan Mollick (@emollick)Hacker News 热门(buzzing.cc 中文翻译)Anthropic:Research(发表成果 · 网页)
17:53
Alibaba Cloud@alibaba_cloud
22
阿里云Qwen3.7-Max智能体模型限时五折

阿里云推出Qwen3.7-Max,定位为最通用的智能体基础模型,专为编码、业务自动化和长时间运行的AI工作流设计。支持工具调用、跨框架协作与复杂任务稳定执行。限时提供50%折扣及1百万免费token,开发者可免费试用。

智能体编码行业动态
16:36
MiniMax (official)@MiniMax_AI
67
MiniMax M3现已在去中心化AI网关DGrid上线,提供1M token上下文窗口、原生多模态能力和前沿编码性能,面向下一代AI应用与自主智能体。开发者可通过dgrid.ai使用,并在6月7日前享50%折扣。DGrid表示将借助其基础设施让M3更易被开发者和智能体调用,推动MiniMax模型在生态中的广泛采用。

DGrid AI: DGrid 🤝 @MiniMax_AI MiniMax M3 is now live on http://dgrid.ai. Enjoy 50% off through June 7th. ⚡️ With frontier coding ...

产品更新多模态编码
15:40
Elon Musk@elonmusk
64
xAI 发布 Grok Build 0.2.20 更新,修复多项 Bug 并新增工具。修复包括:消除 Markdown 表格渲染中的鬼影单元格、使监控对模型可见且可终止、保留计划预览中的软换行、修复 image_edit 中的附件引用、优化 MCP 生命周期通知路由和鼠标滚轮滚动、改进压缩提示与去重子代理提醒、允许回滚时自动降级、修复 Windows 上本地 stdio MCP 服务器问题。新增 image_to_video 和 reference_to_video 工具,捆绑 imagine 技能,支持 ICO 转 PNG,以及 Search 和 ListDir 块按 Enter 打开全屏查看器。

skcd: Bug fixes shipping to Grok Build 0.2.20 (release notes will be available in the TUI and on change-log website) • Elimina...

MCP/工具xAI产品更新编码
15:40
Elon Musk@elonmusk
精选66
Grok 现已支持 worktrees。worktrees 是代码仓库的轻量级副本,允许在独立工作区中并行运行 AI 智能体,可通过主页或 `grok -w` 使用。

akshey: Grok Build tip of the day: worktrees! If you're unfamiliar with worktrees, they're essentially lightweight copies of you...

智能体xAI产品更新编码

推荐理由:Grok Build现在支持worktrees,一条命令`grok -w`就能给每个agent独立工作空间,并行开发现场感一下拉满。做复杂任务的可以立刻用起来。
15:39
jason@jxnlco
41
codex for oss update 又发放了几百个计划!我们遇到了一些垃圾信息,我收到了3万份申请,被淹没了…
OpenAI开源/仓库编码行业动态
13:19
Hacker News 热门(buzzing.cc 中文翻译)
精选76
Open Code Review - 一款基于人工智能的代码审查命令行工具

Open Code Review 是一个基于人工智能的代码审查命令行(CLI)工具,旨在帮助开发者通过自动化的方式提升代码审查效率。

产品更新开源生态编码

推荐理由:阿里巴巴把内部用了两年、审查了数百万缺陷的AI代码审查工具开源,它不走纯Agent路线,用确定性工程保证覆盖和位置准确,想落地AI代码审查的团队可以直接用。
11:19
Tibo@thsottiaux
71
你可以在自己的程序中使用Codex Python SDK。这太棒了。由@ah20im和朋友构建 ``` pip install openai-codex ``` https://developers.openai.com/codex/sdk#python-library
OpenAI教程/实践编码
11:14
IT之家(RSS)
精选71
腾讯高级执行副总裁汤道生:今年腾讯大部分代码都由 AI 生成

在 6 月 5 日的腾讯云 AI 产业应用大会上,腾讯高级执行副总裁汤道生表示,今年腾讯大部分代码都由 AI 生成,工程师将更多时间用于架构设计,定期指导与修正 AI 输出。腾讯 2026 年 Q1 财报显示,重组后的 AI 研发团队重构了基础设施,并搭建了 Hy3 preview 模型。腾讯总裁刘炽平今年 3 月透露,去年腾讯在 AI 新产品上投入 180 亿元,今年投入至少翻倍。

编码行业动态

推荐理由:腾讯高管公开说今年大部分代码是AI写的,这个数据比谷歌微软还激进,对国内开发者的信号很明确,会写代码不再是护城河,能设计架构才是。
11:07
歸藏(guizang.ai)@op7418
59
CodePilot v0.55.0 发布:新增多执行引擎与上下文用量可视化,大型代码库 Vibe Coding 依赖文档体系

@op7418 发布 CodePilot v0.55.0 正式版,新增多执行引擎(Claude Code / 自建 Native / OpenAI Codex)、上下文用量可视化及 Codex 账号原生能力。作者分享实践:当前代码库有 26 万行代码与 5.6 万行文档(占比 21%),文档体系对 bug 修复和功能实现至关重要。作者称从未手写一行代码,但能修复所有已知 bug 并实现所有想要能力。原本预期两周的重构持续超过一个月零三周。

歸藏(guizang.ai): CodePilot v0.55.0 正式版已经更新! 重构完成的正式版: 多执行引擎(Claude Code / 自建 Native / OpenAI Codex)、上下文用量可视化、Codex 账号原生能力全部落地为稳定版,并集中修复了 ...

智能体AnthropicOpenAI大佬观点
10:52
向阳乔木@vista8
40
用户质疑Claude 4.8与GPT 5.5写作能力倒退

有用户观察到Claude 4.8和GPT 5.5的写作能力不如Claude 4.6系列,推测原因是Anthropic与OpenAI正全力聚焦编程能力,训练数据偏向编程任务,导致写作表现下降。发问者质疑为何两大模型无法兼顾编程与写作,并询问其技术难点。

AnthropicOpenAI大佬观点编码
10:46
HuggingFace Daily Papers(社区热门论文)
68
NF-CoT:基于归一化流的潜在推理框架

NF-CoT 在大语言模型骨干内实例化 TARFlow 风格的归一化流,为从显式 CoT 蒸馏的紧凑连续思想定义可处理概率模型。连续思想位置由 NF head 生成,文本位置由同一因果流中的标准 LM head 生成。该设计保留因果自回归生成、概率采样、KV 缓存兼容性和精确似然估计,并支持潜在推理空间的直接策略梯度优化。在代码生成基准上,NF-CoT 相比显式 CoT 和先前潜在推理方法提高了通过率,同时显著降低了中间推理成本。

arXiv推理编码论文/研究
09:31
公众号:数字生命卡兹克
同事件精选68
Anthropic《When AI builds itself》:当AI开始自我构建

Anthropic发文指出,AI系统正加速自身开发,递归自我改进或将到来。目前Anthropic超80%代码由Claude编写,工程师每日合并代码量达2024年8倍。Claude Opus 4.6可胜任12小时软件任务,Mythos Preview连续工作至少16小时,SWE-bench和CORE-Bench等基准均已饱和。内部测试显示,Mythos Preview使研究效率提升约4倍,代码速度优化达52倍,在开放任务中成功率达76%,并弥合97%的研究项目差距。Claude在64%情况下给出比人类更好的研究建议。

Anthropic安全/对齐现象/趋势编码
同一事件,精选展示《AI加速自我构建:Anthropic研究院报告揭示趋势》
推荐理由:Anthropic首次公开内部数据,工程师代码产出提升8倍,Claude自我加速的曲线已经画出来了。这篇文章不是预测是事实,做AI的人都该花20分钟读完。
09:28
Gary Marcus:The Road to AI We Can Trust(RSS)
精选59
Gary Marcus:无需恐慌Anthropic新博客

Anthropic发布最新博客后,推特圈热议不断。Gary Marcus在其博客中直接以“无需恐慌”为题发文,暗示不必过度反应。

Anthropic大佬观点安全/对齐编码

推荐理由:这篇文章是评论圈难得的冷静声音,用逻辑拆解了 Anthropic 的恐慌叙事,顺便带来 S&P 500 不接纳 SpaceX 的利好,读起来像一份理性补丁。
09:24
meng shao@shao__meng
72
Anthropic设计负责人分享Claude Code已验证工作流

Anthropic设计负责人Meaghan在NYC Dive Club Live展示团队已验证的Claude Code工作流。现场演示用/prototype Skill为Excalidraw生成5个方案,让AI选择并解释,然后实现、验证、开PR(含录屏)。她强调三大原则:LLM做设计还很糟,人必须留审美环;自动化不应限于写代码;人人都能ship不等于什么都该ship。并行工作流包括云端批量UI修复、自动Code Review与PR合并、定时巡检无设计师参与的改动并生成草案。验收单位从聊天文字变为带视觉证据的Pull Request。建议使用claude-worktree、Opus加百万上下文、Auto模式。

Ridd 🤿: ~12 min of Claude Code tips for designers (straight from the design lead @meaghaneschoi) here's her demo from Dive Club ...

Anthropic教程/实践编码
09:24
meng shao@shao__meng
58
Kimi Code重构版发布:顶级程序员效率翻20倍

月之暗面旗下Kimi Code完成架构重构并开源。开发团队在一个月内进行封闭开发,频繁在白板前争论迭代,实现集体主义远胜个人英雄主义的工程效率。作者强调,AI Agent不会替代所有程序员,但会让顶级程序员生产力提升20倍,同时淘汰其他程序员。重构过程中,作者花数千美元token进行架构分析与验证,开源后因皮质醇过度分泌病倒。一周消耗整箱红牛,且感性上感觉时间已过一个月,实际仅开源一周多。

Kai: 过去一个月是疯狂的一个月 大概一个月前,我下定决心重构 kimi-code,开始设计新的架构。 我大概抱着电脑和便携屏在汤泉卷了两整天,花了几千刀的 token 去做架构分析、设计和验证,最终得到了一份我认为最优的架构方案。 我觉得在 vi...

智能体大佬观点开源生态编码
09:20
Baidu Inc.@Baidu_Inc
44
30分钟后Medo_CodeFree就要开播了,到时见👀。本周五北京时间上午9点,百度将直播讲解MeDo 3.0,涵盖更新内容、工作原理以及可用它构建的应用。

Baidu Inc.: We're doing a live walkthrough of MeDo 3.0 this Friday at 9:00 AM UTC+8! @Medo_CodeFree will cover what's changed, how i...

产品更新编码
08:56
Rohan Paul@rohanpaul_ai
53
在 atomic.chat 本地桌面应用中,Nemotron 3 Ultra(MoE 架构,总参数 550B,每 token 活跃 55B)与 GPT-5.5 在构建带物理引擎的 HTML5 canvas 任务(旋转水桶、高尔顿板、极端质量块碰撞)上表现几乎相同。Nemotron 3 Ultra 消耗 11.3k tokens、花费 $0.051,GPT-5.5 消耗 11.0k tokens、花费 $0.57,前者成本仅为后者的约 1/10,质量差距远小于价格差距。

atomic.chat: Nemotron 3 Ultra performed GPT 5.5 level 10× cheaper We gave three same prompts to build HTML5 canvas with real physics....

端侧编码评测/基准
08:54
meng shao@shao__meng
69
OpenAI Codex 新增"Build iOS Apps"插件

OpenAI Codex 推出“Build iOS Apps”官方插件,将 iOS 应用开发闭环引入 Codex 工作流。用户可在 Codex 内直接查看和测试 iOS 应用、打开 SwiftUI previews 并进行代码热重载,无需切换到 Xcode 或模拟器。底层基于 XcodeBuildMCP 构建自动化工作流,支持构建、测试、模拟器运行、UI 检查、日志与调试状态采集。值得关注的两个开源项目:serve-sim(提供 streaming simulator 能力)和 SnapshotPreviews(用于提取 SwiftUI previews 集成工具链)。

OpenAI Developers: More of the iOS app loop, now inside Codex. The Build iOS Apps plugin lets Codex view and test your iOS app in the in-ap...

MCP/工具OpenAI产品更新编码
08:54
meng shao@shao__meng
57
Cursor 发布类似 Codex Sites 的 Canvases

Cursor 也发布了类似 Codex Sites 的「Canvases」 这个方向就对了,Coding Agent 本来就能完全吃掉 Lovable、v0、http://bolt.new 的 AI 建站功能,再结合在 Coding 和 Design、Debug、Deploy 等方面的闭环能力,从产品定义、设计、开发、测试到部署运维,完整覆盖。

Cursor: With canvases, Cursor can create apps like dashboards, reports, and internal tools. Now you can publish a canvas and sha...

智能体产品更新编码部署/工程
08:49
Baidu Inc.@Baidu_Inc
37
百度将于本周五上午9点(UTC+8)直播介绍 MeDo 3.0,涵盖更新内容、工作原理和可用它构建的项目。不见不散👀 X: https://x.com/i/broadcasts/1XxyggzZZrWGM YouTube: https://youtube.com/live/Gyt9khLec1c?feature=share

Baidu Inc.: We're doing a live walkthrough of MeDo 3.0 this Friday at 9:00 AM UTC+8! @Medo_CodeFree will cover what's changed, how i...

产品更新编码
08:14
IT之家(RSS)
67
三大运营商"词元产品"服务上架中国算力平台

6月3日,中国信通院宣布中国电信、中国移动、中国联通的“词元产品”服务正式登陆中国算力平台。词元是大模型最小信息单元,具有可计量、可定价、可交易特征。天翼云Token Plan分开发者/中小企业版(基于GLM-5)和个人/家庭版(基于DeepSeek V3.2);移动云Coding Plan(基于MiniMax-2.5)支持Claude Code等编程工具;联通云推出Coding Plan(整合DeepSeek V4、GLM-5、MiniMax M2.5)和Token Plan(个人版支持DeepSeek V4-Flash、MiniMax M2.5,团队版采用Credits弹性计费)。服务已在中国算力平台·算力超市上架。

产品更新推理编码
08:00
HuggingFace Daily Papers(社区热门论文)
65
SWE-Explore:编码智能体仓库探索能力评测基准

SWE-Explore 是一个专为评测编码智能体仓库探索能力而设计的基准,覆盖 848 个 issue、10 种编程语言和 203 个开源仓库。每项任务要求探索者在固定行预算内返回相关代码区域的有序列表,ground truth 来自成功解决同一 issue 的独立智能体轨迹。评测从覆盖率、排名和上下文效率三个维度展开,发现这些指标与下游修复行为高度相关。结果显示,智能体探索器整体明显优于传统检索方法,但文件级定位已足够强,行级覆盖率和高效排名才是区分前沿探索器能力的关键。

智能体编码论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
57
GitHub仓库中AI使用特征与演变的实证研究:来自代码注释的证据

研究分析了35,361条明确提及AI的GitHub代码注释及关联代码块,通过开放编码建立AI辅助开发活动分类法,并使用LLM分类器与Dawid-Skene模型标注全量数据。还分析了12,996条后续提交消息,追踪代码演变及2022年12月至2026年3月的时间趋势。结果显示,开发者主要用LLM进行代码实现,其次是增强、调试、文档和测试。后续提交常涉及重构清理、功能集成和Bug修复。随时间推移,AI引用从直接代码生成转向知识支持和代码增强。AI工具正嵌入为协作支持机制。

arXiv编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
66
Socratic-SWE:基于轨迹提炼技能的自我进化SWE智能体

Socratic-SWE 提出闭环自我进化框架,将代码智能体历史解决轨迹提炼为结构化技能,总结失败与修复模式,并据此在真实仓库生成针对性修复任务。候选任务经执行验证与求解器梯度对齐奖励评分后,保留可验证且有益于提升 Solver 的任务。更新后的 Solver 产生新轨迹,使任务课程自适应调整。在 SWE-bench Verified 等基准上,相同计算预算下持续优于自我进化基线,三轮迭代后 SWE-bench Verified 达 50.40%。

智能体编码论文/研究
07:33
OpenAI Developers@OpenAIDevs
42
你的 Codex 活动现在有了专属主页,分享也更方便了。 Codex 个人资料展示你的活动图、连续天数、累计 token、单日最高 token,以及插件和 /fast 模式等主要功能。 默认私密。想分享时,可以分享一张卡片。
OpenAI产品更新编码
06:54
Berryxia.AI@berryxia
70
OpenAI Developers 推出 Build iOS Apps 插件,Codex 内可直接运行 iOS 应用并热重载

OpenAI Developers 推出 Build iOS Apps 插件,使 Codex 能直接在 in-app browser 中查看和测试 iOS 应用、打开 SwiftUI 预览、热重载编辑,无需离开 Codex。底层依赖两个开源项目:Evan Bacon 的 serve-sim(流式模拟器)和 Sentry 的 SnapshotPreviews(提取 SwiftUI 预览)。该插件完全开源,将“写—跑—看—改”反馈闭环集成在同一对话界面,使 iOS 开发者可将模拟器、预览、热重载与 AI 对话融合,不再需要在 Xcode、浏览器、终端间反复跳转。

OpenAI Developers: More of the iOS app loop, now inside Codex. The Build iOS Apps plugin lets Codex view and test your iOS app in the in-ap...

OpenAI产品更新编码
06:45
Sam Altman@sama
同事件精选80
用ChatGPT构建并发布网页应用! 我真希望我小时候就有这个,但我确实怀念HyperCard。

OpenAI: Building apps has never been easier. With Sites, Codex can turn your work, ideas, and plans into an interactive website ...

OpenAI产品更新编码部署/工程
同一事件,精选展示《Codex 赋能每一种角色、工具和工作流》
推荐理由:Sam Altman 说希望小时候有这玩意,但企业版首发普通人还得等。把聊天直接变成可发布的网页 app,这方向让非开发者也能造工具。
06:27
Chubby♨️@kimmonismus
78
Anthropic内部数据:AI能力加速,任务时长翻倍周期缩至4个月

Anthropic内部数据显示,AI模型可自主完成任务时长加速增长:Opus 3(2024年3月)约4分钟,Sonnet 3.7(2025年3月)约90分钟,Opus 4.6(2026年3月)12小时,翻倍周期从7个月缩至4个月。Claude Mythos Preview在METR中可连续工作至少16小时。工程师季度代码产出是2021–2025年均值8倍,Claude代码占代码库80%+,单个AI曾一次性修复800+API错误(相当于人力四年)。最难开放任务成功率6个月内从低点升至76%。Anthropic强调,即使模型能力冻结,100人公司通过智能体即可完成1000人工作;实际发展已超越自身指数假设,递归自我改进虽未实现,但可能比预期更快到来。

Chubby♨️: Holy moly, Anthropic is getting very serious about recursive self-improvement! One word: acceleration. Insane blog artic...

智能体Anthropic大佬观点现象/趋势
关联讨论 11 条Anthropic:The Institute(旗舰研究长文 · 网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)X:卡兹克 (@Khazix0918)X:Rohan Paul (@rohanpaul_ai)X:Anthropic (@AnthropicAI)X:Emad Mostaque (@EMostaque)X:小互 (@xiaohu)X:Ethan Mollick (@emollick)Hacker News 热门(buzzing.cc 中文翻译)Anthropic:Research(发表成果 · 网页)
‹ 上一页
1…2526272829…50
下一页 ›