AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 873 条
全部一手资讯X论文
标签「编码」清除
3月3日周二
08:06公众号:MiniMax(稀宇科技)50MaxClaw 上线 120 小时:四次扩容体验优化、移动端上线、支持 Coding Plan
3月2日周一
20:00Cursor Blog精选PlanetScale 借助 Bugbot 保障生产环境可靠性
2月28日周六
20:39公众号:月之暗面(Kimi)43Kimi Code Plan正式升级:持续享受3倍额度
2月27日周五
03:35Cursor Blog精选AI 软件开发的第三个时代
2月26日周四
18:00OpenAI:官网动态(RSS · 排除企业/客户案例)Pacific Northwest National Laboratory 与 OpenAI 合作加速联邦许可审批
14:00OpenAI:官网动态(RSS · 排除企业/客户案例)精选OpenAI Codex 与 Figma 推出无缝代码转设计体验
2月25日周三
18:02Hacker News:AI 热帖精选LLM Skirmish:AI代理可玩的实时战略游戏基准测试
2月22日周日
00:00智谱:研究(网页内嵌数据)精选GLM-5技术报告
2月14日周六
00:00字节 Seed:Research Feed(网页内嵌数据)精选Seed2.0 正式发布
2月13日周五
20:00Cursor BlogBox 选择 Cursor,看重企业级质量、安全性与可控性
08:00Hugging Face:Blog(RSS)66Codex 与 Claude 为所有人提供定制化内核
2月12日周四
00:00MiniMax:Blog(网页)67精选MiniMax 发布 MiniMax M2.5 模型,专为现实世界生产力打造
00:00智谱:研究(网页内嵌数据)精选GLM-5开源:从代码到工程,Agentic Engineering时代最好的开源模型
2月11日周三
14:11Steve Yegge:Medium(RSS)75精选AI 吸血鬼
2月10日周二
15:55公众号:月之暗面(Kimi)49Kimi K2.5 已入驻阿里、腾讯、字节 AI 编程工具
2月5日周四
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)78精选用并行Claude智能体团队从零构建C编译器
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)74精选量化智能体编码评估中的基础设施干扰
2月3日周二
04:00Qwen:Blog Retrieval(API)Qwen3-Coder-Next:推进小型混合模型在智能体编程中的应用
1月30日周五
12:34公众号:月之暗面(Kimi)37Kimi Code 接入 K2.5,限时 3 倍额度并改为 Token 计费
1月28日周三
08:00Hugging Face:Blog(RSS)50我们让Claude构建CUDA内核并教导开源模型!
1月27日周二
00:00Mistral AI:News(网页)58Mistral Vibe 2.0终端智能体发布
1月21日周三
20:00Cursor BlogSalesforce 采用 Cursor 加速开发超 30%,代码质量显著提升
00:00LMSYS:Blog(Chatbot Arena 团队)Novita AI 优化 GLM4-MoE:基于 SGLang 实现 TTFT 降低 65%
1月19日周一
22:00VentureBeat:AI(RSS)65Claude Code月费高达200美元,开源替代Goose完全免费
13:26Steve Yegge:Medium(RSS)46史蒂夫的生日博客
1月14日周三
08:00公众号:月之暗面(Kimi)4090%腾讯工程师在用的CodeBuddy编程助手,现已内置Kimi K2 Thinking模型
1月13日周二
00:56Hacker News:AI 热帖Show HN:SolidWorks 中的 AI 功能
1月12日周一
22:23Hacker News:AI 热帖精选Agent-of-empires:OpenCode 与 Claude Code 会话管理器
1月10日周六
01:42Nathan Lambert:Interconnects(RSS)精选Claude Code 与众不同
1月8日周四
07:00Ethan Mollick:One Useful Thing(RSS)Claude Code 及其未来展望
04:00VentureBeat:AI(RSS)46Nous Research发布开源编程模型NousCoder-14B,直面Claude Code竞争
1月5日周一
15:45VentureBeat:AI(RSS)51Claude Code 创造者公开颠覆性工作流,开发者社区反响热烈
12月23日周二
00:00MiniMax:Blog(网页)53MiniMax M2.1:显著增强多语言编程能力,专为现实世界复杂任务打造
12月22日周一
00:00智谱:研究(网页内嵌数据)精选GLM-4.7:更强的 Coding
12月18日周四
08:00OpenRouter:Announcements(RSS)47OpenRouter Response Healing 上线:将 JSON 错误减少 80%+
12月9日周二
00:00Mistral AI:News(网页)60Mistral AI 发布下一代代码模型 Devstral 2 及命令行工具 Mistral Vibe CLI
00:00Claude:Blog(网页)精选Anthropic调研:2026年企业AI智能体应用趋势
12月2日周二
03:00OpenAI:Alignment 研究博客(RSS)60精选大规模验证代码的实用方法
00:00LMSYS:Blog(Chatbot Arena 团队)加速 SGLang 推理:原生集成 NVIDIA Model Optimizer 实现无缝量化与部署(12月2日更新)
11月12日周三
00:00Claude:Blog(网页)精选通过 Skills 改进前端设计
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
3月3日
08:06
公众号:MiniMax(稀宇科技)
50
MaxClaw 上线 120 小时:四次扩容体验优化、移动端上线、支持 Coding Plan

MaxClaw 上线 120 小时内完成四次扩容和体验优化,同时推出移动端版本,并新增对 Coding Plan 的支持。

智能体产品更新编码
3月2日
20:00
Cursor Blog
精选
PlanetScale 借助 Bugbot 保障生产环境可靠性

PlanetScale 引入 Bugbot 作为 AI 代码审查代理,应对 AI 代码生成普及后审查环节成为瓶颈的问题。Bugbot 能发现人类难以察觉的深层逻辑缺陷,如状态同步间隙和异步控制器交互问题,而非仅检查语法错误。目前 80% 的 Bugbot 评论在合并前被工程师处理,每月审查超 2000 个 PR,节省相当于两名全职工程师的审查工作量,显著降低生产环境宕机风险。

智能体产品更新编码

推荐理由:Cursor Bugbot 企业落地数据:Agent 审查解决 80% 问题,揭示 AI 编程时代代码审查成新瓶颈
2月28日
20:39
公众号:月之暗面(Kimi)
43
Kimi Code Plan正式升级:持续享受3倍额度

Kimi Code Plan正式升级,所有订阅用户自今天起继续免费享受3倍Token额度,无限速、无购买限制,可使用Kimi K2.5多模态模型进行编程。该计划按Token计费,日均Token消耗量和稳定服务用户数已翻倍增长。访问kimi.com/code即可使用。

产品更新编码
2月27日
03:35
Cursor Blog
精选
AI 软件开发的第三个时代

AI 编程进入第三时代:从 Tab 补全到同步 Agent,再到可独立运行数小时的云 Agent。Cursor 内部数据显示,Agent 用户已反超 Tab 用户 2 倍,35% 的 PR 由云 Agent 自主创建。开发者角色从逐行编码转向构建"软件工厂"——定义问题、配置工具并审查产物。Cursor 昨日正式发布 cloud agents,支持并行任务与独立 VM 运行。

智能体产品更新编码

推荐理由:Cursor 定义 AI 编程第三时代:云端 Agent 已占其内部 35% PR,用户量反超 Tab 两倍
2月26日
18:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
Pacific Northwest National Laboratory 与 OpenAI 合作加速联邦许可审批

OpenAI 与 Pacific Northwest National Laboratory 联合发布 DraftNEPABench 基准测试,评估 AI 编程助手加速联邦许可流程的效能。数据显示,AI 有望将 NEPA 文件起草时间缩短最多 15%,推动基础设施审查现代化。

智能体OpenAI编码评测/基准
14:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选
OpenAI Codex 与 Figma 推出无缝代码转设计体验

OpenAI 与 Figma 推出全新 Codex 集成,打通代码与设计的双向链路。开发团队可直接在代码实现与 Figma 画布间无缝切换,加速迭代和交付流程。

智能体OpenAI产品更新编码

推荐理由:OpenAI Codex 集成 Figma,打通代码与设计工作流
2月25日
18:02
Hacker News:AI 热帖
精选
LLM Skirmish:AI代理可玩的实时战略游戏基准测试

LLM Skirmish 是一个让大语言模型通过编写代码进行1v1实时战略游戏对战的基准测试。基于Screeps开源API,每场锦标赛包含五轮,LLM可根据对战日志调整策略以测试上下文学习能力。结果显示,Claude Opus 4.5以85%胜率排名第一,GPT 5.2次之。Gemini 3 Pro表现异常:首轮胜率70%,后四轮骤降至15%,疑似因上下文腐烂。成本方面,Claude Opus 4.5每轮$4.12最贵,GPT 5.2性价比高出1.7倍。

智能体AnthropicOpenAI编码

推荐理由:LLM实时战略游戏对战基准,Claude大幅领先且展现独特上下文学习能力
2月22日
00:00
智谱:研究(网页内嵌数据)
精选
GLM-5技术报告

GLM-5参数规模达7440亿,训练Token 28.5万亿。核心创新包括DSA稀疏注意力机制降低算力开销,异步RL基础设施与异步Agent RL算法提升长周期交互与自主决策能力。全面原生适配华为昇腾、寒武纪等七大国产芯片平台,通过W4A8混合精度量化与定制融合算子实现高效部署。模型支持复杂软件工程、终端操作、PPT生成等长程Agent任务,提供交错思考、保留思考等多种推理模式。

智能体模型发布编码部署/工程

推荐理由:智谱发布744B参数GLM-5,全面适配七大国产芯片平台,Agent与编码能力突出
2月14日
00:00
字节 Seed:Research Feed(网页内嵌数据)
精选
Seed2.0 正式发布

Seed2.0系列正式发布,推出Pro、Lite、Mini三款通用Agent模型及专用Code模型,针对复杂多模态任务与长链路Agent场景优化。模型在视觉理解、数学推理与长上下文处理方面达SOTA水平,SuperGPQA分数超越GPT-5.2,并在ICPC、IMO、CMO测试中获金牌。支持科学研究级任务,token成本较顶尖模型降低约一个数量级。目前已上线豆包App、TRAE及火山引擎API。

智能体多模态模型发布编码

推荐理由:字节 Seed2.0 正式发布,Agent 与多模态能力全面升级,已接入豆包和 TRAE
2月13日
20:00
Cursor Blog
Box 选择 Cursor,看重企业级质量、安全性与可控性

Box 因原生数据隐私与代理质量控制选择 Cursor 作为核心 IDE 与 AI 编程平台。目前 85% 以上工程师日常使用,推动产品路线图交付效率提升 30-50%。通过自定义规则与命令扩展,Box 将 React 迁移速度提升 80%,设计系统迁移提速 90%,同时确保企业级安全与代码质量。配合导师计划,六周内 Cursor 使用量增加 75%,800 余名开发者已实现 AI 辅助开发。

智能体产品更新编码
08:00
Hugging Face:Blog(RSS)
66
Codex 与 Claude 为所有人提供定制化内核

Codex 和 Claude 宣布推出面向所有用户的定制化内核服务。这一举措旨在通过开源工具降低高级AI模型的访问门槛,使开发者能够根据特定需求调整和优化模型性能。新服务预计将支持更广泛的个性化应用开发,同时公布的相关基准测试显示,定制后模型在特定任务上的效率可提升高达30%。这标志着AI技术民主化进程又迈出关键一步。

智能体教程/实践编码
2月12日
00:00
MiniMax:Blog(网页)
精选67
MiniMax 发布 MiniMax M2.5 模型,专为现实世界生产力打造

MiniMax 最新发布的大语言模型 M2.5,通过在数十万个复杂现实环境中进行强化学习训练,在编码、智能体工具调用、搜索和办公工作等多项任务上达到 SOTA。模型推理效率高,完成 SWE-Bench Verified 评估的速度比前代 M2.1 快 37%,与 Claude Opus 4.6 相当。定价方面,以 100 tokens/秒运行时每小时成本仅 1 美元。M2.5 在超过 10 种编程语言和 20 多万个真实环境中训练,具备从系统设计到测试的全流程能力。

智能体搜索模型发布编码

推荐理由:MiniMax M2.5 把 SWE-bench 拉到 80.2%,成本只有 Claude Opus 4.6 的十分之一,速度还翻倍,对做 agent 的团队来说是个高性价比选择。
00:00
智谱:研究(网页内嵌数据)
精选
GLM-5开源:从代码到工程,Agentic Engineering时代最好的开源模型

GLM-5 开源,参数规模达 744B(激活 40B),预训练数据 28.5T,集成 DeepSeek Sparse Attention 降低部署成本。Coding 能力对齐 Claude Opus 4.5,Agent 能力支持 SOTA 级长程任务执行,兼容国产芯片。同步推出 OpenClaw、AutoGLM、Z Code 及 Excel 插件等工具链,覆盖端到端开发、办公自动化等场景。

智能体模型发布编码

推荐理由:智谱开源744B参数GLM-5,主打Agentic Engineering与编码能力,支持国产芯片推理
2月11日
14:11
Steve Yegge:Medium(RSS)
精选75
AI 吸血鬼

AI(如 Claude Code)确实能带来 10 倍生产力提升,但创造的价值大部分被公司捕获,员工可能过度劳累却收获甚微。微软内部已自发大量采用 Claude Code。这种效率加速迫使工作节奏不断加快,导致许多早期采用者(包括作者自己)出现严重的“午睡攻击”和日常疲劳。公司作为资本机器难以放缓脚步,形成一种让从业者无论是否使用 AI 都被持续“抽血”的困境。

Anthropic大佬观点编码

推荐理由:Steve Yegge 提出的 'AI 吸血鬼' 概念精准捕捉了 AI 生产力带来的过劳危机,并给出了对抗资本压榨的实用公式,每个在 AI 浪潮中奔命的开发者都该停下看看。
2月10日
15:55
公众号:月之暗面(Kimi)
49
Kimi K2.5 已入驻阿里、腾讯、字节 AI 编程工具

Kimi K2.5 是月之暗面迄今最智能且最全能的模型,在 Agent、代码、图像、视频及通用智能任务上取得开源 SOTA 表现。原生多模态架构同时支持视觉与文本输入、思考与非思考模式、对话与 Agent 任务。发布后在 OpenRouter 上周调用量达 1.3 万亿 tokens,超越 Gemini 3、Claude Sonnet 4.5,成为全球开发者调用量最大的模型。

产品更新开源生态编码
2月5日
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选78
用并行Claude智能体团队从零构建C编译器

研究人员采用“智能体团队”方法,让多个Claude实例在无人工干预下并行协作开发代码。为进行压力测试,团队指派16个智能体从零编写一个能编译Linux内核的Rust版C编译器。项目消耗近2000次会话和约2万美元,最终产出10万行代码的编译器,可成功在x86、ARM和RISC-V架构上构建Linux 6.9内核。研究重点在于设计支持长时间自主运行的智能体团队框架,包括如何编写测试以保持智能体不偏离方向,以及如何通过基于文本文件的锁机制协调多智能体并行任务分配。

智能体Anthropic大佬观点编码

推荐理由:Anthropic 研究员用 16 个 Claude 并行写了个能编译 Linux 内核的 C 编译器,2000 次会话花了两万刀。真正值钱的不是编译器本身,而是他总结的 agent 团队协作方法论,做多 agent 系统的人该逐段拆。
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选74
量化智能体编码评估中的基础设施干扰

研究发现,在SWE-bench等智能体编码基准测试中,基础设施配置差异对模型评分的影响,可能超过排行榜上顶尖模型之间的微小分差。内部实验显示,在Terminal-Bench 2.0上,最严格与最宽松的资源设置间成功率相差6%。严格限制资源会导致近6%的任务因容器意外终止而失败,而宽松配置下此类错误率可降至0.5%。当资源余量超过基准规格3倍时,智能体甚至能借助额外资源成功完成原本无法解决的任务。这表明评估环境不仅影响测试稳定性,更会改变基准测试实际衡量的能力维度。

Anthropic编码论文/研究评测/基准

推荐理由:Anthropic 用自家数据证明,agentic coding benchmark 的排行榜差距可能只是硬件配置差异而非模型能力差距,3 个百分点以内的领先都该打问号。做模型选型的人别再迷信那几个百分点了。
2月3日
04:00
Qwen:Blog Retrieval(API)
Qwen3-Coder-Next:推进小型混合模型在智能体编程中的应用

Qwen Studio 提供全栈功能,涵盖聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索集成、工具调用及 Artifacts 等模块。

智能体模型发布编码
1月30日
12:34
公众号:月之暗面(Kimi)
37
Kimi Code 接入 K2.5,限时 3 倍额度并改为 Token 计费

Kimi Code 已接入最强编程模型、原生多模态模型 Kimi K2.5。即日起至 2026 年 2 月 28 日,新老用户可享最高平时 3 倍的使用额度,无限速和购买限制。同时取消基于请求次数的计费,全面切换为基于 Token 计费,所有用户配额已重置。额度按实际输入输出长度扣减,简单提问消耗极少 Token,复杂任务获得更充足空间。用户可访问 kimi.com/code 开始使用并了解 Kimi Code Plan 会员权益。

产品更新编码
1月28日
08:00
Hugging Face:Blog(RSS)
50
我们让Claude构建CUDA内核并教导开源模型!

研究团队成功利用Claude模型自动生成高性能CUDA内核代码,并将其应用于训练开源大语言模型。这一方法显著提升了模型在特定硬件上的计算效率,是推动AI民主化的重要步骤。通过开源工具与科学,团队致力于降低先进AI技术的开发门槛,让更广泛的社区能够参与并受益于人工智能的创新发展。

Anthropic教程/实践编码
1月27日
00:00
Mistral AI:News(网页)
58
Mistral Vibe 2.0终端智能体发布

Mistral AI 发布了终端原生编码智能体 Mistral Vibe 2.0,由 Devstral 2 模型驱动。其主要升级包括:可构建自定义子代理、在执行操作前提供多选项澄清、通过斜杠命令加载技能,以及配置自定义工作流程。Mistral Vibe 2.0 目前可通过 Le Chat Pro 和 Team 计划使用,支持按使用量付费或自带 API 密钥。同时,Devstral 2 模型已转向付费 API 访问。

智能体产品更新编码
1月21日
20:00
Cursor Blog
Salesforce 采用 Cursor 加速开发超 30%,代码质量显著提升

Salesforce 在全球数千名工程师中推广 Cursor 后,开发速度实现两位数增长(超 30%),代码质量同步提升。内部数据显示,团队周期时间、缺陷数量和吞吐量均显著改善,某团队遗留代码覆盖率时间更缩短 85%。工程师采用路径分化:初级开发者借其理解复杂代码库,资深工程师则从自动化繁琐任务起步,逐步扩展至高频使用。公司认为 AI 编程工具对软件开发生命周期的改造才刚刚开始。

智能体产品更新编码
00:00
LMSYS:Blog(Chatbot Arena 团队)
Novita AI 优化 GLM4-MoE:基于 SGLang 实现 TTFT 降低 65%

Novita AI 发布基于 SGLang 的 GLM4-MoE 生产级优化方案,通过共享专家融合、Qknorm 融合与异步传输三项核心技术,在 H200 集群 TP8/FP8 配置下实现首 token 延迟(TTFT)降低 65%、每 token 输出时间(TPOT)提升 22%。针对 Agentic Coding 场景,团队提出无需额外训练草稿模型的 Suffix Decoding 技术,利用历史输出模式重复率进一步加速推理。

智能体教程/实践编码部署/工程
1月19日
22:00
VentureBeat:AI(RSS)
65
Claude Code月费高达200美元,开源替代Goose完全免费

Anthropic旗下的AI编程代理Claude Code每月订阅费高达200美元,且其基于令牌的速率限制引发开发者不满。与此同时,Block公司推出的开源AI代理Goose提供了近乎相同的功能,可在本地机器上完全免费运行,无需订阅费或云端依赖,并能离线工作、保障数据隐私。该项目在GitHub上已获得超过2.6万颗星,成为Claude Code的热门替代选择。

智能体AnthropicGitHub开源/仓库
13:26
Steve Yegge:Medium(RSS)
46
史蒂夫的生日博客

作者临近57岁生日,回顾了近期在AI领域的活跃动态。人工智能领域正吸引大量资本涌入,作者因其文章和项目收到了众多风险投资人的接触,并因Gas Town相关加密货币$GAS产生了约30万美元的交易费收入,但他强调需专注于软件开发而非被资本或社区分散精力。文章还讨论了利用20余个AI智能体进行高端编程对工作与休息节奏带来的影响,表现为频繁的深度小睡需求。

智能体GitHub大佬观点现象/趋势
1月14日
08:00
公众号:月之暗面(Kimi)
40
90%腾讯工程师在用的CodeBuddy编程助手,现已内置Kimi K2 Thinking模型

腾讯CodyBuddy编程助手集成Kimi K2 Thinking模型,该助手已有90%腾讯工程师使用。

产品更新推理编码
1月13日
00:56
Hacker News:AI 热帖
Show HN:SolidWorks 中的 AI 功能

为 SolidWorks 开发的 AI 插件,支持自然语言生成三维模型、自动草图绘制和智能特征识别。提供安装包与演示视频,可直接集成到现有机械设计工作流中。

产品更新编码
1月12日
22:23
Hacker News:AI 热帖
精选
Agent-of-empires:OpenCode 与 Claude Code 会话管理器

Agent-of-empires(AoE)是一款支持 Linux 与 macOS 的 AI 编码代理会话管理器,兼容 Claude Code、OpenCode 等 9 种主流 AI 工具。该工具基于 tmux 实现会话持久化,支持在多分支代码库上并行运行多个代理,提供 Docker 沙盒隔离、Git worktrees 管理及实时状态检测,并可通过 Web 仪表板或 Cloudflare 隧道从手机远程访问,解决多代理协作时的状态追踪与工作环境隔离问题。

智能体开源/仓库编码

推荐理由:同时管理多个AI编码代理,手机远程监控不再乱套
1月10日
01:42
Nathan Lambert:Interconnects(RSS)
精选
Claude Code 与众不同

Claude Code 集成 Opus 4.5 模型实现关键突破,编程智能体跨越重要能力阈值。此次升级标志着编码代理在自主性和工程处理能力上达到新水平,可应对更复杂的开发任务。Opus 4.5 显著提升了代码生成、调试及复杂问题解决的表现,使 AI 辅助编程从基础工具向高效协作伙伴转变,为开发者带来质的不同的使用体验与效率提升。

智能体Anthropic大佬观点编码
关联讨论 3 条Nathan Lambert:Interconnects(RSS)X:Kim (@kimmonismus)Gary Marcus:The Road to AI We Can Trust(RSS)
推荐理由:编码 Agent 跨越关键门槛,Claude Code 能力跃升将重塑开发者工作流
1月8日
07:00
Ethan Mollick:One Useful Thing(RSS)
Claude Code 及其未来展望

合适的工具能让 AI 完成令人印象深刻的任务。Claude Code 体现了这一理念,展示了配备恰当工具后 AI 所能达到的成就,指向 AI 辅助开发的未来方向。

智能体Anthropic大佬观点编码
04:00
VentureBeat:AI(RSS)
46
Nous Research发布开源编程模型NousCoder-14B,直面Claude Code竞争

开源AI公司Nous Research近日发布了编程模型NousCoder-14B。该模型基于Qwen3-14B,在LiveCodeBench v6评测中准确率达67.87%,较基础模型提升7.08个百分点。其最大特点是完全开源,不仅公开模型权重,还发布了完整的强化学习环境、基准测试套件和训练框架,使研究者能够复现其工作。模型仅用4天时间在48块NVIDIA B200 GPU上完成训练,性能可匹配或超越部分大型专有系统。此次发布正值Anthropic的Claude Code引发广泛讨论之际,凸显了AI编程助手领域的激烈竞争。

开源/仓库模型发布编码
1月5日
15:45
VentureBeat:AI(RSS)
51
Claude Code 创造者公开颠覆性工作流,开发者社区反响热烈

Claude Code 创造者 Boris Cherny 公开的个人工作流引发广泛讨论。其核心是并行运行多个AI代理:在终端同时运行5个Claude,浏览器中运行5-10个,通过系统通知进行管理,将编码转变为类似指挥《星际争霸》的实时战略。他坚持使用最重、最慢的Opus 4.5模型,认为其更高智能度能减少人工干预,最终效率更高。团队还通过共享的CLAUDE.md文件将AI错误转化为永久规则,使代码库能自我修正。

智能体Anthropic教程/实践编码
12月23日
00:00
MiniMax:Blog(网页)
53
MiniMax M2.1:显著增强多语言编程能力,专为现实世界复杂任务打造

MiniMax 发布 M2.1 模型,是对 M2 的更新。其核心升级在于系统提升了在 Rust、Java、Golang 等多语言编程任务上的性能,并达到行业领先水平。同时,模型显著增强了原生 Android 与 iOS 开发能力,以及在 Web/App 场景下的设计理解与美学表达。M2.1 优化了复合指令约束以更好地支持办公场景,响应更简洁高效。该模型在 Claude Code、Cline 等各类编程工具与 AI 智能体框架中表现出色。在衡量全栈开发能力的 VIBE 新基准上,取得了平均 88.6 分的成绩。

开源/仓库模型发布编码
12月22日
00:00
智谱:研究(网页内嵌数据)
精选
GLM-4.7:更强的 Coding

GLM-4.7 发布,编程能力显著提升。SWE-bench 达 73.8%(+5.8%),Terminal Bench 2.0 达 41%(+16.5%),支持 Claude Code 等主流智能体框架。新增交错式思考、保留式思考和轮级思考功能,可控制推理过程以降低延迟或提高准确性。同步改进 UI 生成、工具调用和数学推理能力,可通过 API 或本地部署使用。

智能体模型发布编码

推荐理由:智谱发布GLM-4.7,编程Agent能力大幅提升,支持Claude Code等主流框架和Vibe Coding。
12月18日
08:00
OpenRouter:Announcements(RSS)
47
OpenRouter Response Healing 上线:将 JSON 错误减少 80%+

OpenRouter 推出 Response Healing 新功能,可在 JSON 响应到达应用程序之前自动修复大语言模型输出的畸形 JSON,从而将 JSON 缺陷减少 80% 以上。

产品更新编码
12月9日
00:00
Mistral AI:News(网页)
60
Mistral AI 发布下一代代码模型 Devstral 2 及命令行工具 Mistral Vibe CLI

Mistral AI 发布新一代代码模型家族 Devstral 2,包含 Devstral 2 (123B) 和 Devstral Small 2 (24B) 两个开源版本。Devstral 2 采用修改的 MIT 许可证,在 SWE-bench Verified 上达到 72.2%,成本效益比 Claude Sonnet 高达 7 倍。Devstral Small 2 (24B) 采用 Apache 2.0 许可证,可部署在消费级硬件上。两者均支持 256K 上下文窗口。同步发布由 Devstral 驱动的开源命令行工具 Mistral Vibe CLI,用于在终端实现代码的自动化探索与修改。

开源/仓库模型发布编码
00:00
Claude:Blog(网页)
精选
Anthropic调研:2026年企业AI智能体应用趋势

Anthropic与Material调研500余位技术领导者显示,57%企业已将AI智能体用于多阶段工作流,16%实现跨职能部署。编码是核心场景,90%用于开发辅助,86%用于生产代码,平均节省近六成时间。80%受访者称投资已产生可衡量回报,如Thomson Reuters将法律检索从数小时缩短至分钟级。2026年81%企业计划处理更复杂用例,但面临系统集成、数据质量和变革管理三大挑战。

智能体Anthropic现象/趋势编码

推荐理由:Anthropic发布企业AI Agent深度调研,揭示2026年应用趋势与头部企业实战案例
12月2日
03:00
OpenAI:Alignment 研究博客(RSS)
精选60
大规模验证代码的实用方法

研究团队训练并部署了一个专为高精度和实际应用优化的AI代码审查智能体。该智能体旨在对自主生成的代码进行有效监督,使代码审查能力能够与自动化代码生成的规模同步扩展。通过优化智能体的精确度,该方法致力于解决大规模代码生成中的质量控制难题,为AI辅助软件开发提供了可落地的规模化监督方案。

智能体OpenAI安全/对齐编码

推荐理由:OpenAI 把对齐研究落到了代码审查这个具体场景,不是空谈 alignment 理论,而是训了个高精度 review agent 来给 AI 写的代码做质检。做 coding agent 的团队该看看,这可能是未来安全合规的标配。
00:00
LMSYS:Blog(Chatbot Arena 团队)
加速 SGLang 推理:原生集成 NVIDIA Model Optimizer 实现无缝量化与部署(12月2日更新)

SGLang 最新版本原生集成 NVIDIA Model Optimizer,支持通过直接 API 调用实现模型量化与部署。新功能将原本复杂的多步骤流程简化为量化、导出、部署三步,支持 NVFP4、MXFP4、FP8 等低精度格式。与原始 FP8 基线相比,优化后的模型在 Blackwell 架构上可实现高达 2 倍的每 GPU 吞吐量提升,显著降低延迟与内存占用。

开源/仓库编码部署/工程
11月12日
00:00
Claude:Blog(网页)
精选
通过 Skills 改进前端设计

LLM 生成界面常因"分布收敛"而陷入 Inter 字体配紫色渐变的同质化设计。Anthropic 建议通过 Skills 功能解决:将排版、动画、配色等设计规范存入独立 Markdown 文件,Claude 可在构建页面时动态加载,无需永久占用系统提示词。这种按需加载机制既保持上下文窗口精简以维持模型性能,又能让 AI 生成摆脱默认审美、更具品牌辨识度的定制化界面。

智能体Anthropic教程/实践编码

推荐理由:Claude官方分享通过Skills解决AI生成界面同质化问题的实践技巧,附字体与主题优化Prompt示例。
‹ 上一页
1…19202122
下一页 ›