AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 314 条
全部一手资讯X论文
标签「编码」清除
4月14日周二
14:31Claude Code:GitHub Releases(RSS)v2.1.107 版本发布
06:28Claude Code:GitHub Releases(RSS)Claude Code v2.1.105 发布
4月13日周一
10:04Claude Code:GitHub Releases(RSS)v2.1.104 版本发布
4月11日周六
03:03Claude Code:GitHub Releases(RSS)Claude Code v2.1.101 发布
4月10日周五
17:14公众号:智谱(GLM)59GLM-5.1获LMArena代码榜开源第一、全球第三
13:16Claude Code:GitHub Releases(RSS)v2.1.100 版本发布
03:18Claude Code:GitHub Releases(RSS)Claude Code v2.1.98 发布
4月9日周四
05:52Claude Code:GitHub Releases(RSS)Claude Code v2.1.97 发布
4月8日周三
20:00Cursor Blog66精选Bugbot 现可通过学习规则实现自我改进
12:37Claude Code:GitHub Releases(RSS)v2.1.96
05:18Claude Code:GitHub Releases(RSS)v2.1.94
4月4日周六
08:42Claude Code:GitHub Releases(RSS)Claude Code v2.1.92
4月3日周五
07:45Claude Code:GitHub Releases(RSS)Claude Code v2.1.91 版本更新
4月2日周四
18:00OpenAI:官网动态(RSS · 排除企业/客户案例)Codex 为团队推出更灵活定价方案
12:32公众号:通义实验室(千问)54Qwen3.6-Plus:编码智能体能力全面跃升!
08:00Cursor Blog精选Cursor 3.0 发布:以 Agent 为核心的统一开发空间
07:41Claude Code:GitHub Releases(RSS)精选Claude Code v2.1.90 版本更新
00:00智谱:研究(网页内嵌数据)精选GLM-5V-Turbo发布:多模态Coding基座模型
00:00Claude:Blog(网页)精选构建 Claude 应用的三大最佳实践
4月1日周三
09:07Claude Code:GitHub Releases(RSS)Claude Code v2.1.89 发布
3月27日周五
20:00Cursor Blog72精选Composer 2技术报告:面向智能体软件工程的代码模型训练
19:21公众号:智谱(GLM)52GLM-5.1已面向所有Coding Plan用户开放
3月26日周四
08:00Cursor Blog69精选通过实时强化学习改进Composer编码模型
3月25日周三
08:00Google Developers Blog(RSS)84精选用 Agent 技能弥合知识鸿沟
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)77精选Claude Code 自动模式:在安全与效率间取得平衡
00:00Google Research:Blog(网页)精选Vibe Coding XR:基于 XR Blocks 与 Gemini 加速 AI + XR 原型开发
3月24日周二
08:00Google Developers Blog(RSS)71精选跳跃即玩:利用Gemini与MediaPipe进行开发
00:00Anthropic:Engineering(事故复盘 + 工程实践 · 网页)75精选利用对抗网络灵感设计多代理架构,突破长时应用开发瓶颈
3月23日周一
10:15公众号:阶跃星辰(Step)31阶跃星辰Step Plan养虾套餐上线,开发者社区半价!
00:00Berkeley RDI:Blog(AI 安全与评测)OpenSage:自编程智能体生成引擎
00:00Anthropic:Research(发表成果 · 网页)71精选利用长时运行智能体工作流革新科学计算
3月19日周四
18:00OpenAI:官网动态(RSS · 排除企业/客户案例)OpenAI 如何监控内部编程智能体的不对齐问题
08:00Cursor Blog精选Composer 2 正式发布
08:00OpenAI:官网动态(RSS · 排除企业/客户案例)精选OpenAI 将收购 Astral
3月18日周三
00:00MiniMax:Blog(网页)61精选MiniMax M2.7:自我进化的早期回声
3月17日周二
18:00OpenAI:官网动态(RSS · 排除企业/客户案例)精选推出 GPT-5.4 mini 和 nano
3月16日周一
23:00公众号:月之暗面(Kimi)60精选推荐:10万人亲测好用的原版OpenClaw安装器
08:00OpenAI:官网动态(RSS · 排除企业/客户案例)Codex Security 为何不包含 SAST 报告
00:00智谱:研究(网页内嵌数据)精选GLM-5-Turbo:龙虾增强的基座模型
3月11日周三
20:00Cursor BlogCursor 如何评估模型质量
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
4月14日
14:31
Claude Code:GitHub Releases(RSS)
v2.1.107 版本发布

v2.1.107 版本已发布,主要优化了长时间操作场景下的用户反馈体验。新版本改进了思考提示(thinking hints)的显示机制,使其在系统执行冗长运算过程中显著提前出现。用户现在能够更快获知当前处理状态与思维进度,有效减少等待过程中的不确定性,提升交互透明度与操作可控感。

智能体Anthropic产品更新编码
06:28
Claude Code:GitHub Releases(RSS)
Claude Code v2.1.105 发布

Claude Code v2.1.105 新增 EnterWorktree 路径参数、PreCompact hook 阻塞压缩及插件后台监控功能,技能描述上限提升至 1,536 字符。优化 API 流 5 分钟无数据自动中止、WebFetch 自动过滤 CSS/JavaScript、/doctor 支持一键修复问题。同时修复队列图片丢失、终端输入异常、MCP 工具异步加载失败等 30 余项问题。

智能体Anthropic产品更新编码
4月13日
10:04
Claude Code:GitHub Releases(RSS)
v2.1.104 版本发布

正式发布 v2.1.104 版本。当前发布说明中未提供具体的更新内容、变更日志或技术细节,未包含功能改进、问题修复等相关信息。建议查阅版本控制系统的提交历史或联系维护者以获取完整的版本变更详情。

智能体Anthropic产品更新编码
4月11日
03:03
Claude Code:GitHub Releases(RSS)
Claude Code v2.1.101 发布

Claude Code 发布 v2.1.101,新增 /team-onboarding 命令生成团队上手指南,默认支持 OS CA 证书存储以适配企业 TLS 代理,/ultraplan 可自动创建云环境。优化 brief 模式重试、focus 模式摘要、速率限制提示及插件钩子逻辑。修复 POSIX which 命令注入漏洞、长会话内存泄漏、--resume 上下文丢失、权限规则覆盖失效等关键问题,以及子代理 MCP 工具继承、沙箱命令执行等错误。

智能体Anthropic产品更新编码
4月10日
17:14
公众号:智谱(GLM)
59
GLM-5.1获LMArena代码榜开源第一、全球第三

GLM-5.1在LMArena Code Arena登顶开源第一、全球第三。它继承上一代的SOTA编码能力,并在长程任务突破:8小时构建Linux桌面、655次迭代优化向量数据库、1000轮工具调用优化机器学习模型。METR榜下,它是唯一达8小时级持续工作的开源模型(除Claude Opus 4.6外)。

开源生态模型发布编码
13:16
Claude Code:GitHub Releases(RSS)
v2.1.100 版本发布

版本 v2.1.100 已正式发布,但官方未提供具体的更新内容、变更日志或发布说明。建议用户关注后续补充信息或查看相关发布页面以获取详细更新详情。

智能体Anthropic产品更新编码
03:18
Claude Code:GitHub Releases(RSS)
Claude Code v2.1.98 发布

Claude Code v2.1.98 发布,新增 Google Vertex AI 交互式设置向导、Perforce 版本控制支持(CLAUDE_CODE_PERFORCE_MODE)及 Linux 子进程沙盒功能(PID 命名空间隔离)。修复多项 Bash 工具安全漏洞,包括权限绕过、复合命令绕过强制提示、/dev/tcp 重定向自动授权等问题。权限管理支持 additionalDirectories 实时生效,同时优化 MCP OAuth 刷新、流式响应超时及后台代理进度报告等体验细节。

智能体Anthropic产品更新编码
4月9日
05:52
Claude Code:GitHub Releases(RSS)
Claude Code v2.1.97 发布

Claude Code v2.1.97 版本发布,为 NO_FLICKER 模式新增焦点视图切换(Ctrl+O)及多项渲染修复。权限系统修复了 Bash 工具环境变量检查、MCP HTTP 连接内存累积(约 50MB/小时)、429 重试逻辑及设置热重载等漏洞。新增状态栏自动刷新、git worktree 检测、agents 运行指示器及 Cedar 策略文件语法高亮。改进包括自动批准安全环境变量前缀的文件命令、CJK 输入无需空格即可触发补全,以及图像压缩统一处理。

智能体Anthropic产品更新编码
4月8日
20:00
Cursor Blog
精选66
Bugbot 现可通过学习规则实现自我改进

Bugbot 的 bug 解决率已从 2025 年 7 月正式推出时的 52% 提升至近 80%,领先其他 AI 代码审查产品。其核心改进在于引入了规则学习机制,能够从实时代码审查反馈(如开发者反应、回复和人工评审意见)中自主学习,取代了原先依赖离线实验的更新模式。自测试版推出以来,已有超过 11 万个仓库启用该功能,生成了逾 4.4 万条规则。这些规则可根据信号积累被激活或禁用,帮助 Bugbot 更精准地识别问题。用户可在 Cursor Dashboard 中管理学习规则,以优化审查效果。

智能体产品更新编码

推荐理由:AI code review 赛道卷了两年,Bugbot 78% 的解决率终于把第二名甩开 15 个点,关键不是分数而是它开始从真实 PR 反馈里自动学规则,做 code review 工具的该认真看看这套闭环逻辑。
12:37
Claude Code:GitHub Releases(RSS)
v2.1.96

Claude Code v2.1.96 修复 Bedrock 请求 403 "Authorization header is missing" 错误,解决使用 AWS_BEARER_TOKEN_BEDROCK 或 CLAUDE_CODE_SKIP_BEDROCK_AUTH 环境变量时的认证失败问题。该回归缺陷源自 2.1.94 版本。

智能体Anthropic产品更新编码
05:18
Claude Code:GitHub Releases(RSS)
v2.1.94

新版本新增对 Amazon Bedrock(由 Mantle 驱动)的支持,并将 API-key、Bedrock/Vertex/Foundry、Team 及 Enterprise 用户的默认 effort level 从 medium 提升至 high。修复了 429 速率限制后代理卡死、macOS 控制台登录失败、插件 hooks 被忽略、长会话滚动回显重复、CJK 字符损坏等关键问题。VSCode 扩展优化了冷启动性能并新增设置解析失败警告。

智能体AnthropicMCP/工具产品更新
4月4日
08:42
Claude Code:GitHub Releases(RSS)
Claude Code v2.1.92

新增强制远程设置刷新策略、Bedrock 交互配置向导与按模型成本细分,远程控制会话默认使用主机名前缀。修复子代理生成、工具验证、API 400 等十余项错误,Write 工具大文件 diff 速度提升 60%。移除 /tag 和 /vim 命令,Linux 沙盒恢复 seccomp 限制。

智能体Anthropic产品更新编码
4月3日
07:45
Claude Code:GitHub Releases(RSS)
Claude Code v2.1.91 版本更新

Claude Code v2.1.91 发布,支持 MCP 工具结果最大 500K 字符不截断,新增禁用技能内联 shell 执行选项,插件可打包 bin/ 目录可执行文件。修复了 --resume 转录链断裂、远程会话计划模式丢失、cmd+delete 快捷键等 bug,并优化了 ANSI 剥离性能。

智能体AnthropicMCP/工具产品更新
4月2日
18:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
Codex 为团队推出更灵活定价方案

Codex 新增按量付费模式,面向 ChatGPT Business 和 Enterprise 团队,支持按需灵活扩展使用规模。

智能体OpenAI产品更新编码
12:32
公众号:通义实验室(千问)
54
Qwen3.6-Plus:编码智能体能力全面跃升!
智能体模型发布编码
08:00
Cursor Blog
精选
Cursor 3.0 发布:以 Agent 为核心的统一开发空间

Cursor 3.0 正式发布,重构为以 Agent 为核心的统一工作空间。新界面原生支持多仓库协作,可并行运行本地与云端 Agent(覆盖移动端、Slack、GitHub 等入口),支持会话在环境间无缝迁移以便离线运行或本地迭代。完整保留 IDE 能力:文件编辑、LSP、内置浏览器及插件市场。基于自研 Composer 2 模型,目标是通过多 Agent 自主协作实现"代码库自动驾驶"。

智能体MCP/工具产品更新编码

推荐理由:Cursor 3 重磅发布:原生 Agent 工作流、云地无缝切换与多仓库管理
07:41
Claude Code:GitHub Releases(RSS)
精选
Claude Code v2.1.90 版本更新

Claude Code 发布 v2.1.90 版本。新增 /powerup 交互式教程命令,通过动画演示教授功能使用;增加环境变量支持离线环境保留 marketplace 缓存。修复多项关键 bug:解决速率限制对话框崩溃、--resume 缓存未命中、编辑操作与 format-on-save 冲突等问题。性能方面优化 MCP 工具缓存、SSE 传输及长对话转录效率。同时移除 DNS 缓存查询自动权限以增强隐私,并加固 PowerShell 工具权限检查。

智能体Anthropic产品更新编码

推荐理由:Claude Code新增/powerup交互式教程与多项性能优化,提升开发体验
00:00
智谱:研究(网页内嵌数据)
精选
GLM-5V-Turbo发布:多模态Coding基座模型

智谱发布GLM-5V-Turbo多模态Coding基座模型,原生支持图像、视频、设计稿理解及画框、截图、读网页等工具调用,上下文窗口达200k。采用新一代CogViT视觉编码器与30+任务协同强化学习,在保持纯文本编程能力的同时强化GUI Agent能力。与Claude Code、AutoClaw等框架深度协同,支持"图像即代码"前端复刻及GUI自主探索,提供开箱即用的官方Skills。

智能体多模态模型发布编码

推荐理由:智谱发布多模态Coding基座GLM-5V-Turbo,深度适配Claude Code等Agent
00:00
Claude:Blog(网页)
精选
构建 Claude 应用的三大最佳实践

Anthropic 分享构建 Claude 应用的三大实践:使用 Claude 已掌握的通用工具(如 bash 和文本编辑器);允许其自行编排工具调用链,减少不必要的上下文回传以降低 token 消耗;随着模型能力进化,重新评估 agent harness 的预设限制。实测显示,让 Opus 4.6 自主过滤工具输出,在 BrowseComp 基准测试中准确率从 45.3% 提升至 61.6%。

智能体Anthropic教程/实践编码

推荐理由:Anthropic官方分享构建Claude Agent的三大最佳实践,含模型性能数据与代码编排技巧
4月1日
09:07
Claude Code:GitHub Releases(RSS)
Claude Code v2.1.89 发布

Claude Code v2.1.89 发布,新增 defer 权限决策支持 headless 会话暂停恢复,引入 CLAUDE_CODE_NO_FLICKER 环境变量实现无闪烁渲染,新增 PermissionDenied hook 允许模型重试被拒命令。修复 Windows 平台 CRLF 处理、StructuredOutput 缓存失效、内存泄漏、LSP 僵尸进程、CJK 字符截断等 30 余项 bug。调整 Edit 工具行为,支持直接编辑通过 Bash 查看的文件;hook 输出超 5 万字符将转存磁盘;默认关闭 thinking summaries。优化 MCP 连接超时和子代理提及体验。

智能体Anthropic产品更新编码
3月27日
20:00
Cursor Blog
精选72
Composer 2技术报告:面向智能体软件工程的代码模型训练

本报告介绍了代码模型Composer 2的训练过程。该模型基于开源基础模型Kimi K2.5,通过两阶段训练:首先进行侧重代码的持续预训练以深化编码知识,随后在高度模拟真实Cursor环境的大规模强化学习中提升端到端智能体性能。在自建的真实任务评估集CursorBench上,Composer 2得分为61.3,较前代提升37%,与前沿模型性能相当。在公开基准SWE-bench Multilingual和Terminal-Bench上分别获得73.7和61.7分,并在保持高精度的同时实现了显著更低的推理成本。训练依托为Blackwell GPU定制的高效MoE训练内核、跨区域异步强化学习管道等大规模基础设施完成。

智能体编码论文/研究部署/工程

推荐理由:Cursor 把 Composer 2 的训练全流程摊开讲了,从 Kimi K2.5 继续预训练到大规模 RL,关键是 RL 在真实 Cursor 会话里跑,不是玩具环境。做 coding agent 的团队,这份报告值得逐段拆。
19:21
公众号:智谱(GLM)
52
GLM-5.1已面向所有Coding Plan用户开放

智谱GLM-5.1已面向所有Coding Plan用户开放。

模型发布编码
3月26日
08:00
Cursor Blog
精选69
通过实时强化学习改进Composer编码模型

Cursor团队将实时强化学习技术应用于Composer编码模型,利用真实用户交互产生的推理令牌作为训练信号,以解决模拟环境与真实使用间的匹配问题。该技术使团队能够以每五小时一次的频率部署改进后的模型检查点。通过A/B测试,新版本实现了关键指标提升:代理编辑在代码库中的持久性增加2.28%,用户不满意后续减少3.13%,延迟降低10.3%。实时RL也带来了奖励黑客等新挑战,但真实用户反馈有助于识别和修正此类问题。

智能体现象/趋势编码

推荐理由:Cursor 把真实用户交互当训练信号,每五小时迭代一次 Composer,这不是论文是工程日志。做 coding agent 的团队该看看他们怎么处理 reward hacking 的两个真实案例,比任何 benchmark 论文都实在。
3月25日
08:00
Google Developers Blog(RSS)
精选84
用 Agent 技能弥合知识鸿沟

Google DeepMind 开发出一项“Gemini API 开发者技能”,使智能体能够实时获取最新文档与 SDK 指导。评估结果显示,配备该技能后,gemini-3.1-pro-preview 模型的成功率从 28.2% 大幅跃升至 96.6%。这种轻量级方法通过赋予模型强大的推理能力并接入“事实来源”,有效解决了静态模型知识与快速演进的软件实践之间的脱节问题,显著消除了过时的编码模式。

智能体DeepMindGoogle产品更新

推荐理由:通过实时文档赋能模型,编码任务成功率飙升,开发者可借鉴优化AI工具。
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选77
Claude Code 自动模式:在安全与效率间取得平衡

Anthropic 为 Claude Code 推出“自动模式”,旨在解决用户因频繁手动批准而产生的“批准疲劳”。该模式介于完全手动审批和危险的无权限跳过之间,采用两层防御机制:输入层通过服务器端提示注入探测器扫描工具输出;输出层则利用基于 Sonnet 4.6 模型的转录分类器,在执行前评估操作风险。分类器采用高效的两阶段设计,先快速过滤,必要时才启动思维链推理。其目标是拦截危险操作(如过度积极行为、无心之失、提示注入等),同时让大部分安全操作无需确认即可运行,内部测试显示用户原本会批准约93%的手动提示。

Anthropic产品更新安全/对齐编码

推荐理由:这是 Claude Code 从「手动审批」跳到「AI 自审」的关键一步,双层防御设计坦诚到连 17% 漏检率都公开讲,做 coding agent 的团队该把这篇当安全设计参考。
00:00
Google Research:Blog(网页)
精选
Vibe Coding XR:基于 XR Blocks 与 Gemini 加速 AI + XR 原型开发

Google XR 团队推出 Vibe Coding XR 工作流,结合 Gemini Canvas 与开源框架 XR Blocks,利用长上下文推理能力将自然语言提示在 60 秒内转化为可交互、支持物理效果的 WebXR 应用。该方案基于 WebXR、three.js 和 LiteRT.js 构建,支持手势交互与深度感知,可在桌面模拟环境或 Android XR 头显中实时预览。已展示的应用包括几何可视化数学辅导和交互式物理实验室,用户可通过捏合等手势操作 3D 对象,快速验证空间交互设计。

Google产品更新多模态编码

推荐理由:Google推出Vibe Coding XR,用自然语言快速生成可交互的Android XR空间应用。
3月24日
08:00
Google Developers Blog(RSS)
精选71
跳跃即玩:利用Gemini与MediaPipe进行开发

该工作流通过Gemini Canvas,借助高级提示词快速原型化MediaPipe Pose Landmarker等体感游戏机制。开发者可在Google AI Studio中优化原型,采用低延迟的“轻量”模型和稳定的追踪点(如肩部关节点)以确保游戏响应灵敏。最后,流程利用Gemini Code Assist将实验性代码重构为模块化、可用于生产的应用程序,使其能够支持多种多模态输入,从而显著简化了体感控制游戏的开发过程。

Google多模态教程/实践编码

推荐理由:开发者可快速上手AI游戏开发,优化性能并部署生产应用。
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选75
利用对抗网络灵感设计多代理架构,突破长时应用开发瓶颈

作者受生成对抗网络启发,设计了一个包含规划器、生成器和评估器的三代理架构,以解决Claude在长时应用开发中的两大瓶颈。该架构通过上下文重置机制,有效克服了模型在长任务中的“上下文焦虑”问题;同时,通过分离生成与评估功能,使代理能依据具体标准进行迭代改进,而非盲目自评。这一方法成功使系统能在多小时的自主运行中生成完整的全栈应用程序,突破了此前提示工程和传统工具设计的性能上限。

智能体Anthropic教程/实践编码

推荐理由:Anthropic 工程师把 GAN 的 generator-evaluator 思路搬进长时 Agent 架构,从设计到全栈编码都跑通了,还附了成本和失败模式。做 Agent 产品的人读完能直接抄作业,比看十篇论文管用。
3月23日
10:15
公众号:阶跃星辰(Step)
31
阶跃星辰Step Plan养虾套餐上线,开发者社区半价!

阶跃星辰今天正式推出Step Plan月度订阅方案,首发支持Step 3.5 Flash模型,面向OpenClaw和Coding用户。方案提供Flash Mini、Flash Plus、Flash Pro、Flash Max四档套餐,同价档位享有2倍用量。开发者社区可通过扫描二维码入群享受半价优惠。未来将逐步加入更多阶跃旗舰模型,扩展多模态场景。

产品更新编码
00:00
Berkeley RDI:Blog(AI 安全与评测)
OpenSage:自编程智能体生成引擎

OpenSage是新一代Agent开发工具包,推动智能体开发从人工设计转向AI自主编程范式。该系统支持LLM自动构建智能体拓扑、动态编写管理工具(具备沙箱隔离与异步执行),以及维护分层图结构记忆系统。与现有方案需人工设计不同,OpenSage实现了拓扑、工具和记忆的全面AI自动化生成,并内置软件工程与安全工具套件。

智能体DeepMind开源/仓库编码
00:00
Anthropic:Research(发表成果 · 网页)
精选71
利用长时运行智能体工作流革新科学计算

Anthropic 研究员展示了如何将多日智能体编码工作流应用于科学计算任务。以使用 Claude Opus 实现宇宙学玻尔兹曼求解器的可微分版本为例,该任务通常需耗费研究人员数月甚至数年时间。通过制定清晰的项目指令、利用日志文件作为智能体的持久记忆并设置测试预言,即使是非领域专家也能引导智能体在数小时内完成这类复杂项目。该方法的核心在于设定高层目标后,让智能体团队自主工作,仅需偶尔人工监督,从而显著提升了科学代码开发与移植的效率。

智能体Anthropic教程/实践编码

推荐理由:Anthropic 研究员用 Claude Opus 4.6 花几天从零写出了一个宇宙学 Boltzmann 求解器,原本是博士级团队几个月的活。这不是论文,是一份完整的多日 Agent 工作流实操手册,做科研或长周期编码的人可以直接抄作业。
3月19日
18:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
OpenAI 如何监控内部编程智能体的不对齐问题

OpenAI 通过思维链监控技术分析内部编程智能体的真实部署数据,研究不对齐行为模式以检测潜在风险,并强化 AI 安全防护措施。

智能体OpenAI安全/对齐编码
08:00
Cursor Blog
精选
Composer 2 正式发布

Composer 2 登陆 Cursor,定价 $0.50/M(输入)和 $2.50/M(输出),Terminal-Bench 2.0 得分 61.3,SWE-bench Multilingual 达 73.7,显著优于前代。支持数百步长周期编码任务,团队同步发布训练技术报告。

智能体模型发布编码

推荐理由:Cursor发布Composer 2编程Agent,性能大幅提升且定价极具竞争力
08:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选
OpenAI 将收购 Astral

OpenAI 收购 Astral,加速 Codex 发展以支持下一代 Python 开发工具。Astral 是 Python 生态重要工具开发商,此次收购将整合其技术能力,强化 OpenAI 在开发者工具领域的布局。

智能体OpenAI编码行业动态

推荐理由:OpenAI收购Astral加强Codex Python工具链,Agent能力再升级
3月18日
00:00
MiniMax:Blog(网页)
精选61
MiniMax M2.7:自我进化的早期回声

M2.7是M2系列中首个深度参与自身进化的模型。它能构建复杂的智能体框架,完成精细的生产力任务,尤其在软件工程方面表现突出,其SWE-Pro基准测试得分56.22%,接近Opus的最佳水平。模型的办公软件处理能力在开源模型中领先,GDPval-AA的ELO分数为1495。M2.7能保持97%的技能遵循率,处理超过40个、每个超过2000 token的复杂技能。该模型通过内部研究智能体框架,实现了“分析-修改-评估”的自主迭代优化循环,在内部评估中提升了性能。

智能体模型发布编码
关联讨论 2 条HuggingFace Daily Papers(社区热门论文)MiniMax:Blog(网页)
推荐理由:MiniMax M2.7 让模型参与自身进化,在 SWE-Pro 和 VIBE-Pro 上接近 Opus 水平,Agent Teams 设计也值得看,但整体仍是追赶者姿态。
3月17日
18:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选
推出 GPT-5.4 mini 和 nano

GPT-5.4 mini 与 nano 发布,为 GPT-5.4 的轻量高速版本,针对编程、工具调用、多模态推理及高并发 API 和子代理任务优化。

智能体OpenAI模型发布编码

推荐理由:OpenAI 发布 GPT-5.4 mini/nano,针对编码与 Agent 场景优化
3月16日
23:00
公众号:月之暗面(Kimi)
精选60
推荐:10万人亲测好用的原版OpenClaw安装器

Kimi支持的个人开发者开源项目OneClaw下载量突破10万,提供一键安装包,1分钟即可在本地部署原版OpenClaw,无需命令行或环境配置。功能包括纯净卸载、自由切换模型、远程控制,支持连接飞书、企微、钉钉、QQ、Kimi Claw;内置2万+技能的技能商店,可无损迁移记忆和Skills。Kimi提供包月方案和API按需购买。使用地址:oneclaw.cn。

MCP/工具开源/仓库编码

推荐理由:如果你曾被 OpenClaw 的部署门槛劝退,OneClaw 可以让你两分钟跑起来,适合在备用机尝尝鲜,但别在生产环境乱搞。
08:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
Codex Security 为何不包含 SAST 报告

Codex Security 不生成传统 SAST 报告,转而采用 AI 驱动的约束推理与验证技术,通过深度分析代码逻辑精准识别真实漏洞,显著降低误报率。

OpenAI产品更新编码
00:00
智谱:研究(网页内嵌数据)
精选
GLM-5-Turbo:龙虾增强的基座模型

智谱发布GLM-5-Turbo基座模型,代号"龙虾",强化工具调用、复杂指令拆解、定时任务与高吞吐长链路执行能力,推出ZClawBench基准测试。支持通过BigModel.cn、Z.ai及AutoClaw客户端接入,Coding Plan Max将于本月内支持Pro版。

智能体模型发布编码

推荐理由:智谱GLM-5-Turbo发布,强化Agent工具调用与长任务执行能力
3月11日
20:00
Cursor Blog
Cursor 如何评估模型质量

Cursor 采用混合在线-离线评估流程衡量 AI 编程助手质量。离线端使用内部套件 CursorBench,基于真实开发会话构建,涵盖多文件修改、生产日志排查等复杂任务,相比公共基准更能区分前沿模型(如识别 Haiku 与 GPT-5 的实际差异)。在线端通过真实流量监控补充,捕捉离线评分遗漏的体验回归。两者结合确保模型评估与开发者实际体验一致。

智能体编码评测/基准
‹ 上一页
1…45678
下一页 ›