AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 314 条
全部一手资讯X论文
标签「编码」清除
3月11日周三
08:00OpenAI:官网动态(RSS · 排除企业/客户案例)Rakuten 使用 Codex 后问题修复速度翻倍
00:00Mistral AI:News(网页)83Rails测试自动化:构建自主编写测试的智能体
3月10日周二
21:00Google Blog:AI(RSS)Gemini in Google Sheets 达到最先进水平
3月6日周五
18:00OpenAI:官网动态(RSS · 排除企业/客户案例)精选Codex Security 开放研究预览
00:00Anthropic:Newsroom(网页)精选Anthropic与Mozilla合作提升Firefox安全性
00:00Anthropic:Research(发表成果 · 网页)Anthropic与Mozilla合作提升Firefox安全性
3月5日周四
18:00OpenAI:官网动态(RSS · 排除企业/客户案例)精选GPT-5.4 发布
01:00Google Blog:AI(RSS)精选在 AI Mode 中使用 Canvas 完成任务、实现创意,就在 Search 中
3月3日周二
08:06公众号:MiniMax(稀宇科技)50MaxClaw 上线 120 小时:四次扩容体验优化、移动端上线、支持 Coding Plan
3月2日周一
20:00Cursor Blog精选PlanetScale 借助 Bugbot 保障生产环境可靠性
2月28日周六
20:39公众号:月之暗面(Kimi)43Kimi Code Plan正式升级:持续享受3倍额度
2月27日周五
03:35Cursor Blog精选AI 软件开发的第三个时代
2月26日周四
18:00OpenAI:官网动态(RSS · 排除企业/客户案例)Pacific Northwest National Laboratory 与 OpenAI 合作加速联邦许可审批
14:00OpenAI:官网动态(RSS · 排除企业/客户案例)精选OpenAI Codex 与 Figma 推出无缝代码转设计体验
2月22日周日
00:00智谱:研究(网页内嵌数据)精选GLM-5技术报告
2月14日周六
00:00字节 Seed:Research Feed(网页内嵌数据)精选Seed2.0 正式发布
2月13日周五
20:00Cursor BlogBox 选择 Cursor,看重企业级质量、安全性与可控性
08:00Hugging Face:Blog(RSS)66Codex 与 Claude 为所有人提供定制化内核
2月12日周四
00:00MiniMax:Blog(网页)67精选MiniMax 发布 MiniMax M2.5 模型,专为现实世界生产力打造
00:00智谱:研究(网页内嵌数据)精选GLM-5开源:从代码到工程,Agentic Engineering时代最好的开源模型
2月11日周三
14:11Steve Yegge:Medium(RSS)75精选AI 吸血鬼
2月10日周二
15:55公众号:月之暗面(Kimi)49Kimi K2.5 已入驻阿里、腾讯、字节 AI 编程工具
2月5日周四
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)78精选用并行Claude智能体团队从零构建C编译器
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)74精选量化智能体编码评估中的基础设施干扰
2月3日周二
04:00Qwen:Blog Retrieval(API)Qwen3-Coder-Next:推进小型混合模型在智能体编程中的应用
1月30日周五
12:34公众号:月之暗面(Kimi)37Kimi Code 接入 K2.5,限时 3 倍额度并改为 Token 计费
1月28日周三
08:00Hugging Face:Blog(RSS)50我们让Claude构建CUDA内核并教导开源模型!
1月27日周二
00:00Mistral AI:News(网页)58Mistral Vibe 2.0终端智能体发布
1月21日周三
20:00Cursor BlogSalesforce 采用 Cursor 加速开发超 30%,代码质量显著提升
00:00LMSYS:Blog(Chatbot Arena 团队)Novita AI 优化 GLM4-MoE:基于 SGLang 实现 TTFT 降低 65%
1月19日周一
13:26Steve Yegge:Medium(RSS)46史蒂夫的生日博客
1月14日周三
08:00公众号:月之暗面(Kimi)4090%腾讯工程师在用的CodeBuddy编程助手,现已内置Kimi K2 Thinking模型
1月10日周六
01:42Nathan Lambert:Interconnects(RSS)精选Claude Code 与众不同
1月8日周四
07:00Ethan Mollick:One Useful Thing(RSS)Claude Code 及其未来展望
12月23日周二
00:00MiniMax:Blog(网页)53MiniMax M2.1:显著增强多语言编程能力,专为现实世界复杂任务打造
12月22日周一
00:00智谱:研究(网页内嵌数据)精选GLM-4.7:更强的 Coding
12月18日周四
08:00OpenRouter:Announcements(RSS)47OpenRouter Response Healing 上线:将 JSON 错误减少 80%+
12月9日周二
00:00Mistral AI:News(网页)60Mistral AI 发布下一代代码模型 Devstral 2 及命令行工具 Mistral Vibe CLI
00:00Claude:Blog(网页)精选Anthropic调研:2026年企业AI智能体应用趋势
12月2日周二
03:00OpenAI:Alignment 研究博客(RSS)60精选大规模验证代码的实用方法
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
3月11日
08:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
Rakuten 使用 Codex 后问题修复速度翻倍

Rakuten 引入 Codex 后,问题修复效率提升一倍。该 AI 编程工具显著缩短代码调试与故障解决周期,帮助开发团队更快定位并修复问题,优化整体运维流程。

OpenAI编码行业动态
00:00
Mistral AI:News(网页)
83
Rails测试自动化:构建自主编写测试的智能体

为解决大型Rails单体应用测试覆盖率低的问题,团队基于Mistral的Vibe构建了一个自主智能体。该智能体能自动读取模型、控制器等五类源代码文件,并生成或改进对应的RSpec测试。通过AGENTS.md文件提供的八步执行计划进行引导,并为不同文件类型配备专门技能以确保质量。智能体在CI/CD管道中并行运行,自动处理工厂和夹具,并通过强制自我审查覆盖所有公共方法,最终将测试质量评分从0.68提升至0.74。

智能体教程/实践编码
3月10日
21:00
Google Blog:AI(RSS)
Gemini in Google Sheets 达到最先进水平

Gemini in Google Sheets 发布全新 beta 功能,支持通过自然语言描述创建、组织和编辑整个表格,涵盖基础任务到复杂数据分析,实现最先进的电子表格处理能力。

Google产品更新编码
3月6日
18:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选
Codex Security 开放研究预览

Codex Security 开放研究预览。这款 AI 应用安全代理通过分析项目上下文,检测、验证并修复复杂漏洞,相比传统方案具备更高置信度和更低误报率。

智能体OpenAI产品更新编码

推荐理由:OpenAI发布Codex安全Agent,可自动检测修复代码漏洞
00:00
Anthropic:Newsroom(网页)
精选
Anthropic与Mozilla合作提升Firefox安全性

Anthropic与Mozilla合作,使用Claude Opus 4.6审计Firefox安全。模型两周内发现22个漏洞,其中14个高危,占2025年Firefox已修复高危漏洞近五分之一。团队扫描近6000个C++文件并提交112份报告,多数已在Firefox 148中修复。Claude还能为漏洞编写利用代码,具备独立执行完整漏洞挖掘链的能力。

智能体Anthropic安全/对齐编码

推荐理由:Claude发现14个Firefox高危漏洞,AI自主安全审计能力取得实质性突破
00:00
Anthropic:Research(发表成果 · 网页)
Anthropic与Mozilla合作提升Firefox安全性

Anthropic与Mozilla合作,使用Claude Opus 4.6对Firefox进行安全审计。模型在两周内发现22个漏洞,其中14个为高危(占2025年Firefox修复高危漏洞近五分之一),提交112份报告。大部分漏洞已在Firefox 148中修复。此外,Claude还能为漏洞编写可利用代码,展示从发现到利用的完整安全研究能力。

智能体Anthropic安全/对齐编码
3月5日
18:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选
GPT-5.4 发布

OpenAI 推出 GPT-5.4,面向专业工作的最强高效前沿模型,支持 100 万 token 长上下文,具备顶尖编程、计算机使用与工具搜索能力。

智能体OpenAI模型发布编码

推荐理由:OpenAI 发布 GPT-5.4,支持 1M 上下文与增强 Agent 能力
01:00
Google Blog:AI(RSS)
精选
在 AI Mode 中使用 Canvas 完成任务、实现创意,就在 Search 中

Google Search 的 AI Mode 已向美国所有用户开放 Canvas 功能,新增文档起草和交互式工具构建能力,用户可直接在搜索页面完成创作。

Google产品更新搜索编码

推荐理由:Google Search AI Mode 全面开放 Canvas 功能,支持文档起草与交互式工具构建
3月3日
08:06
公众号:MiniMax(稀宇科技)
50
MaxClaw 上线 120 小时:四次扩容体验优化、移动端上线、支持 Coding Plan

MaxClaw 上线 120 小时内完成四次扩容和体验优化,同时推出移动端版本,并新增对 Coding Plan 的支持。

智能体产品更新编码
3月2日
20:00
Cursor Blog
精选
PlanetScale 借助 Bugbot 保障生产环境可靠性

PlanetScale 引入 Bugbot 作为 AI 代码审查代理,应对 AI 代码生成普及后审查环节成为瓶颈的问题。Bugbot 能发现人类难以察觉的深层逻辑缺陷,如状态同步间隙和异步控制器交互问题,而非仅检查语法错误。目前 80% 的 Bugbot 评论在合并前被工程师处理,每月审查超 2000 个 PR,节省相当于两名全职工程师的审查工作量,显著降低生产环境宕机风险。

智能体产品更新编码

推荐理由:Cursor Bugbot 企业落地数据:Agent 审查解决 80% 问题,揭示 AI 编程时代代码审查成新瓶颈
2月28日
20:39
公众号:月之暗面(Kimi)
43
Kimi Code Plan正式升级:持续享受3倍额度

Kimi Code Plan正式升级,所有订阅用户自今天起继续免费享受3倍Token额度,无限速、无购买限制,可使用Kimi K2.5多模态模型进行编程。该计划按Token计费,日均Token消耗量和稳定服务用户数已翻倍增长。访问kimi.com/code即可使用。

产品更新编码
2月27日
03:35
Cursor Blog
精选
AI 软件开发的第三个时代

AI 编程进入第三时代:从 Tab 补全到同步 Agent,再到可独立运行数小时的云 Agent。Cursor 内部数据显示,Agent 用户已反超 Tab 用户 2 倍,35% 的 PR 由云 Agent 自主创建。开发者角色从逐行编码转向构建"软件工厂"——定义问题、配置工具并审查产物。Cursor 昨日正式发布 cloud agents,支持并行任务与独立 VM 运行。

智能体产品更新编码

推荐理由:Cursor 定义 AI 编程第三时代:云端 Agent 已占其内部 35% PR,用户量反超 Tab 两倍
2月26日
18:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
Pacific Northwest National Laboratory 与 OpenAI 合作加速联邦许可审批

OpenAI 与 Pacific Northwest National Laboratory 联合发布 DraftNEPABench 基准测试,评估 AI 编程助手加速联邦许可流程的效能。数据显示,AI 有望将 NEPA 文件起草时间缩短最多 15%,推动基础设施审查现代化。

智能体OpenAI编码评测/基准
14:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选
OpenAI Codex 与 Figma 推出无缝代码转设计体验

OpenAI 与 Figma 推出全新 Codex 集成,打通代码与设计的双向链路。开发团队可直接在代码实现与 Figma 画布间无缝切换,加速迭代和交付流程。

智能体OpenAI产品更新编码

推荐理由:OpenAI Codex 集成 Figma,打通代码与设计工作流
2月22日
00:00
智谱:研究(网页内嵌数据)
精选
GLM-5技术报告

GLM-5参数规模达7440亿,训练Token 28.5万亿。核心创新包括DSA稀疏注意力机制降低算力开销,异步RL基础设施与异步Agent RL算法提升长周期交互与自主决策能力。全面原生适配华为昇腾、寒武纪等七大国产芯片平台,通过W4A8混合精度量化与定制融合算子实现高效部署。模型支持复杂软件工程、终端操作、PPT生成等长程Agent任务,提供交错思考、保留思考等多种推理模式。

智能体模型发布编码部署/工程

推荐理由:智谱发布744B参数GLM-5,全面适配七大国产芯片平台,Agent与编码能力突出
2月14日
00:00
字节 Seed:Research Feed(网页内嵌数据)
精选
Seed2.0 正式发布

Seed2.0系列正式发布,推出Pro、Lite、Mini三款通用Agent模型及专用Code模型,针对复杂多模态任务与长链路Agent场景优化。模型在视觉理解、数学推理与长上下文处理方面达SOTA水平,SuperGPQA分数超越GPT-5.2,并在ICPC、IMO、CMO测试中获金牌。支持科学研究级任务,token成本较顶尖模型降低约一个数量级。目前已上线豆包App、TRAE及火山引擎API。

智能体多模态模型发布编码

推荐理由:字节 Seed2.0 正式发布,Agent 与多模态能力全面升级,已接入豆包和 TRAE
2月13日
20:00
Cursor Blog
Box 选择 Cursor,看重企业级质量、安全性与可控性

Box 因原生数据隐私与代理质量控制选择 Cursor 作为核心 IDE 与 AI 编程平台。目前 85% 以上工程师日常使用,推动产品路线图交付效率提升 30-50%。通过自定义规则与命令扩展,Box 将 React 迁移速度提升 80%,设计系统迁移提速 90%,同时确保企业级安全与代码质量。配合导师计划,六周内 Cursor 使用量增加 75%,800 余名开发者已实现 AI 辅助开发。

智能体产品更新编码
08:00
Hugging Face:Blog(RSS)
66
Codex 与 Claude 为所有人提供定制化内核

Codex 和 Claude 宣布推出面向所有用户的定制化内核服务。这一举措旨在通过开源工具降低高级AI模型的访问门槛,使开发者能够根据特定需求调整和优化模型性能。新服务预计将支持更广泛的个性化应用开发,同时公布的相关基准测试显示,定制后模型在特定任务上的效率可提升高达30%。这标志着AI技术民主化进程又迈出关键一步。

智能体教程/实践编码
2月12日
00:00
MiniMax:Blog(网页)
精选67
MiniMax 发布 MiniMax M2.5 模型,专为现实世界生产力打造

MiniMax 最新发布的大语言模型 M2.5,通过在数十万个复杂现实环境中进行强化学习训练,在编码、智能体工具调用、搜索和办公工作等多项任务上达到 SOTA。模型推理效率高,完成 SWE-Bench Verified 评估的速度比前代 M2.1 快 37%,与 Claude Opus 4.6 相当。定价方面,以 100 tokens/秒运行时每小时成本仅 1 美元。M2.5 在超过 10 种编程语言和 20 多万个真实环境中训练,具备从系统设计到测试的全流程能力。

智能体搜索模型发布编码

推荐理由:MiniMax M2.5 把 SWE-bench 拉到 80.2%,成本只有 Claude Opus 4.6 的十分之一,速度还翻倍,对做 agent 的团队来说是个高性价比选择。
00:00
智谱:研究(网页内嵌数据)
精选
GLM-5开源:从代码到工程,Agentic Engineering时代最好的开源模型

GLM-5 开源,参数规模达 744B(激活 40B),预训练数据 28.5T,集成 DeepSeek Sparse Attention 降低部署成本。Coding 能力对齐 Claude Opus 4.5,Agent 能力支持 SOTA 级长程任务执行,兼容国产芯片。同步推出 OpenClaw、AutoGLM、Z Code 及 Excel 插件等工具链,覆盖端到端开发、办公自动化等场景。

智能体模型发布编码

推荐理由:智谱开源744B参数GLM-5,主打Agentic Engineering与编码能力,支持国产芯片推理
2月11日
14:11
Steve Yegge:Medium(RSS)
精选75
AI 吸血鬼

AI(如 Claude Code)确实能带来 10 倍生产力提升,但创造的价值大部分被公司捕获,员工可能过度劳累却收获甚微。微软内部已自发大量采用 Claude Code。这种效率加速迫使工作节奏不断加快,导致许多早期采用者(包括作者自己)出现严重的“午睡攻击”和日常疲劳。公司作为资本机器难以放缓脚步,形成一种让从业者无论是否使用 AI 都被持续“抽血”的困境。

Anthropic大佬观点编码

推荐理由:Steve Yegge 提出的 'AI 吸血鬼' 概念精准捕捉了 AI 生产力带来的过劳危机,并给出了对抗资本压榨的实用公式,每个在 AI 浪潮中奔命的开发者都该停下看看。
2月10日
15:55
公众号:月之暗面(Kimi)
49
Kimi K2.5 已入驻阿里、腾讯、字节 AI 编程工具

Kimi K2.5 是月之暗面迄今最智能且最全能的模型,在 Agent、代码、图像、视频及通用智能任务上取得开源 SOTA 表现。原生多模态架构同时支持视觉与文本输入、思考与非思考模式、对话与 Agent 任务。发布后在 OpenRouter 上周调用量达 1.3 万亿 tokens,超越 Gemini 3、Claude Sonnet 4.5,成为全球开发者调用量最大的模型。

产品更新开源生态编码
2月5日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选78
用并行Claude智能体团队从零构建C编译器

研究人员采用“智能体团队”方法,让多个Claude实例在无人工干预下并行协作开发代码。为进行压力测试,团队指派16个智能体从零编写一个能编译Linux内核的Rust版C编译器。项目消耗近2000次会话和约2万美元,最终产出10万行代码的编译器,可成功在x86、ARM和RISC-V架构上构建Linux 6.9内核。研究重点在于设计支持长时间自主运行的智能体团队框架,包括如何编写测试以保持智能体不偏离方向,以及如何通过基于文本文件的锁机制协调多智能体并行任务分配。

智能体Anthropic大佬观点编码

推荐理由:Anthropic 研究员用 16 个 Claude 并行写了个能编译 Linux 内核的 C 编译器,2000 次会话花了两万刀。真正值钱的不是编译器本身,而是他总结的 agent 团队协作方法论,做多 agent 系统的人该逐段拆。
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选74
量化智能体编码评估中的基础设施干扰

研究发现,在SWE-bench等智能体编码基准测试中,基础设施配置差异对模型评分的影响,可能超过排行榜上顶尖模型之间的微小分差。内部实验显示,在Terminal-Bench 2.0上,最严格与最宽松的资源设置间成功率相差6%。严格限制资源会导致近6%的任务因容器意外终止而失败,而宽松配置下此类错误率可降至0.5%。当资源余量超过基准规格3倍时,智能体甚至能借助额外资源成功完成原本无法解决的任务。这表明评估环境不仅影响测试稳定性,更会改变基准测试实际衡量的能力维度。

Anthropic编码论文/研究评测/基准

推荐理由:Anthropic 用自家数据证明,agentic coding benchmark 的排行榜差距可能只是硬件配置差异而非模型能力差距,3 个百分点以内的领先都该打问号。做模型选型的人别再迷信那几个百分点了。
2月3日
04:00
Qwen:Blog Retrieval(API)
Qwen3-Coder-Next:推进小型混合模型在智能体编程中的应用

Qwen Studio 提供全栈功能,涵盖聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索集成、工具调用及 Artifacts 等模块。

智能体模型发布编码
1月30日
12:34
公众号:月之暗面(Kimi)
37
Kimi Code 接入 K2.5,限时 3 倍额度并改为 Token 计费

Kimi Code 已接入最强编程模型、原生多模态模型 Kimi K2.5。即日起至 2026 年 2 月 28 日,新老用户可享最高平时 3 倍的使用额度,无限速和购买限制。同时取消基于请求次数的计费,全面切换为基于 Token 计费,所有用户配额已重置。额度按实际输入输出长度扣减,简单提问消耗极少 Token,复杂任务获得更充足空间。用户可访问 kimi.com/code 开始使用并了解 Kimi Code Plan 会员权益。

产品更新编码
1月28日
08:00
Hugging Face:Blog(RSS)
50
我们让Claude构建CUDA内核并教导开源模型!

研究团队成功利用Claude模型自动生成高性能CUDA内核代码,并将其应用于训练开源大语言模型。这一方法显著提升了模型在特定硬件上的计算效率,是推动AI民主化的重要步骤。通过开源工具与科学,团队致力于降低先进AI技术的开发门槛,让更广泛的社区能够参与并受益于人工智能的创新发展。

Anthropic教程/实践编码
1月27日
00:00
Mistral AI:News(网页)
58
Mistral Vibe 2.0终端智能体发布

Mistral AI 发布了终端原生编码智能体 Mistral Vibe 2.0,由 Devstral 2 模型驱动。其主要升级包括:可构建自定义子代理、在执行操作前提供多选项澄清、通过斜杠命令加载技能,以及配置自定义工作流程。Mistral Vibe 2.0 目前可通过 Le Chat Pro 和 Team 计划使用,支持按使用量付费或自带 API 密钥。同时,Devstral 2 模型已转向付费 API 访问。

智能体产品更新编码
1月21日
20:00
Cursor Blog
Salesforce 采用 Cursor 加速开发超 30%,代码质量显著提升

Salesforce 在全球数千名工程师中推广 Cursor 后,开发速度实现两位数增长(超 30%),代码质量同步提升。内部数据显示,团队周期时间、缺陷数量和吞吐量均显著改善,某团队遗留代码覆盖率时间更缩短 85%。工程师采用路径分化:初级开发者借其理解复杂代码库,资深工程师则从自动化繁琐任务起步,逐步扩展至高频使用。公司认为 AI 编程工具对软件开发生命周期的改造才刚刚开始。

智能体产品更新编码
00:00
LMSYS:Blog(Chatbot Arena 团队)
Novita AI 优化 GLM4-MoE:基于 SGLang 实现 TTFT 降低 65%

Novita AI 发布基于 SGLang 的 GLM4-MoE 生产级优化方案,通过共享专家融合、Qknorm 融合与异步传输三项核心技术,在 H200 集群 TP8/FP8 配置下实现首 token 延迟(TTFT)降低 65%、每 token 输出时间(TPOT)提升 22%。针对 Agentic Coding 场景,团队提出无需额外训练草稿模型的 Suffix Decoding 技术,利用历史输出模式重复率进一步加速推理。

智能体教程/实践编码部署/工程
1月19日
13:26
Steve Yegge:Medium(RSS)
46
史蒂夫的生日博客

作者临近57岁生日,回顾了近期在AI领域的活跃动态。人工智能领域正吸引大量资本涌入,作者因其文章和项目收到了众多风险投资人的接触,并因Gas Town相关加密货币$GAS产生了约30万美元的交易费收入,但他强调需专注于软件开发而非被资本或社区分散精力。文章还讨论了利用20余个AI智能体进行高端编程对工作与休息节奏带来的影响,表现为频繁的深度小睡需求。

智能体GitHub大佬观点现象/趋势
1月14日
08:00
公众号:月之暗面(Kimi)
40
90%腾讯工程师在用的CodeBuddy编程助手,现已内置Kimi K2 Thinking模型

腾讯CodyBuddy编程助手集成Kimi K2 Thinking模型,该助手已有90%腾讯工程师使用。

产品更新推理编码
1月10日
01:42
Nathan Lambert:Interconnects(RSS)
精选
Claude Code 与众不同

Claude Code 集成 Opus 4.5 模型实现关键突破,编程智能体跨越重要能力阈值。此次升级标志着编码代理在自主性和工程处理能力上达到新水平,可应对更复杂的开发任务。Opus 4.5 显著提升了代码生成、调试及复杂问题解决的表现,使 AI 辅助编程从基础工具向高效协作伙伴转变,为开发者带来质的不同的使用体验与效率提升。

智能体Anthropic大佬观点编码
关联讨论 3 条Nathan Lambert:Interconnects(RSS)X:Kim (@kimmonismus)Gary Marcus:The Road to AI We Can Trust(RSS)
推荐理由:编码 Agent 跨越关键门槛,Claude Code 能力跃升将重塑开发者工作流
1月8日
07:00
Ethan Mollick:One Useful Thing(RSS)
Claude Code 及其未来展望

合适的工具能让 AI 完成令人印象深刻的任务。Claude Code 体现了这一理念,展示了配备恰当工具后 AI 所能达到的成就,指向 AI 辅助开发的未来方向。

智能体Anthropic大佬观点编码
12月23日
00:00
MiniMax:Blog(网页)
53
MiniMax M2.1:显著增强多语言编程能力,专为现实世界复杂任务打造

MiniMax 发布 M2.1 模型,是对 M2 的更新。其核心升级在于系统提升了在 Rust、Java、Golang 等多语言编程任务上的性能,并达到行业领先水平。同时,模型显著增强了原生 Android 与 iOS 开发能力,以及在 Web/App 场景下的设计理解与美学表达。M2.1 优化了复合指令约束以更好地支持办公场景,响应更简洁高效。该模型在 Claude Code、Cline 等各类编程工具与 AI 智能体框架中表现出色。在衡量全栈开发能力的 VIBE 新基准上,取得了平均 88.6 分的成绩。

开源/仓库模型发布编码
12月22日
00:00
智谱:研究(网页内嵌数据)
精选
GLM-4.7:更强的 Coding

GLM-4.7 发布,编程能力显著提升。SWE-bench 达 73.8%(+5.8%),Terminal Bench 2.0 达 41%(+16.5%),支持 Claude Code 等主流智能体框架。新增交错式思考、保留式思考和轮级思考功能,可控制推理过程以降低延迟或提高准确性。同步改进 UI 生成、工具调用和数学推理能力,可通过 API 或本地部署使用。

智能体模型发布编码

推荐理由:智谱发布GLM-4.7,编程Agent能力大幅提升,支持Claude Code等主流框架和Vibe Coding。
12月18日
08:00
OpenRouter:Announcements(RSS)
47
OpenRouter Response Healing 上线:将 JSON 错误减少 80%+

OpenRouter 推出 Response Healing 新功能,可在 JSON 响应到达应用程序之前自动修复大语言模型输出的畸形 JSON,从而将 JSON 缺陷减少 80% 以上。

产品更新编码
12月9日
00:00
Mistral AI:News(网页)
60
Mistral AI 发布下一代代码模型 Devstral 2 及命令行工具 Mistral Vibe CLI

Mistral AI 发布新一代代码模型家族 Devstral 2,包含 Devstral 2 (123B) 和 Devstral Small 2 (24B) 两个开源版本。Devstral 2 采用修改的 MIT 许可证,在 SWE-bench Verified 上达到 72.2%,成本效益比 Claude Sonnet 高达 7 倍。Devstral Small 2 (24B) 采用 Apache 2.0 许可证,可部署在消费级硬件上。两者均支持 256K 上下文窗口。同步发布由 Devstral 驱动的开源命令行工具 Mistral Vibe CLI,用于在终端实现代码的自动化探索与修改。

开源/仓库模型发布编码
00:00
Claude:Blog(网页)
精选
Anthropic调研:2026年企业AI智能体应用趋势

Anthropic与Material调研500余位技术领导者显示,57%企业已将AI智能体用于多阶段工作流,16%实现跨职能部署。编码是核心场景,90%用于开发辅助,86%用于生产代码,平均节省近六成时间。80%受访者称投资已产生可衡量回报,如Thomson Reuters将法律检索从数小时缩短至分钟级。2026年81%企业计划处理更复杂用例,但面临系统集成、数据质量和变革管理三大挑战。

智能体Anthropic现象/趋势编码

推荐理由:Anthropic发布企业AI Agent深度调研,揭示2026年应用趋势与头部企业实战案例
12月2日
03:00
OpenAI:Alignment 研究博客(RSS)
精选60
大规模验证代码的实用方法

研究团队训练并部署了一个专为高精度和实际应用优化的AI代码审查智能体。该智能体旨在对自主生成的代码进行有效监督,使代码审查能力能够与自动化代码生成的规模同步扩展。通过优化智能体的精确度,该方法致力于解决大规模代码生成中的质量控制难题,为AI辅助软件开发提供了可落地的规模化监督方案。

智能体OpenAI安全/对齐编码

推荐理由:OpenAI 把对齐研究落到了代码审查这个具体场景,不是空谈 alignment 理论,而是训了个高精度 review agent 来给 AI 写的代码做质检。做 coding agent 的团队该看看,这可能是未来安全合规的标配。
‹ 上一页
1…5678
下一页 ›