AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 874 条
全部一手资讯X论文
标签「编码」清除
5月29日周五
08:00HuggingFace Daily Papers(社区热门论文)62Mellum2 技术报告
07:46OpenAI:官网动态(RSS · 排除企业/客户案例)36Endava如何借助Codex构建智能体驱动的组织
07:21IT之家(RSS)64Claude Opus 4.8 上线:提升 AI 编程可靠性,减少无依据结论
06:39Hacker News 热门(buzzing.cc 中文翻译)54各种大语言模型的"异味"
06:18MarkTechPost(RSS)72Anthropic发布Claude Opus 4.8,同步推出动态工作流与更便宜的快速模式,工作流最多支持1000个子智能体
06:06公众号:数字生命卡兹克58Claude Opus 4.8 上线:更精确不偷懒,但主动性减弱,创作仍不及4.6
04:08Hacker News 热门(buzzing.cc 中文翻译)63Claude Code 中的动态工作流
03:38Hacker News 热门(buzzing.cc 中文翻译)67我们更换了 Zendesk
02:42xAI:News(网页)82精选Grok Build 0.1 on API
01:21Claude:Blog(网页)78精选在Claude Code中引入动态工作流
01:05Anthropic:Newsroom(网页)85精选Claude Opus 4.8 发布:在编码、智能体技能与推理方面实现全面升级
5月28日周四
23:19IT之家(RSS)60消息称微软下周将推全新编程模型,以争取开发者群体认可
19:28HuggingFace Daily Papers(社区热门论文)60针对LLM生成代码片段的可扩展高效溯源追踪
18:47Mistral AI:News(网页)81Vibe gets to work.
15:15IT之家(RSS)60Claude Code 创始人切尔尼建议计算机科学毕业生创业:现在是黄金时代
11:15IT之家(RSS)73精选英伟达推出 AI 框架 Polar,让 Codex 跑分暴涨 594.74%
09:58公众号:数字生命卡兹克48飞书云文档新增"下载为Markdown"功能,图片自动转为AI可读公网链接
08:36Simon Willison 博客53SQLite AGENTS.md文件
06:13OpenAI:官网动态(RSS · 排除企业/客户案例)40思科与OpenAI携手Codex重新定义企业工程
04:12OpenAI:官网动态(RSS · 排除企业/客户案例)46Warp利用GPT-5.5模型协调编程智能体的实践
02:35The Decoder:AI News(RSS)69AI编程智能体Devin开发商Cognition在不到九个月内估值翻倍多至260亿美元
01:35Simon Willison 博客72精选我认为 Anthropic 和 OpenAI 找到了产品市场契合点
01:05Claude:Blog(网页)54CodeRabbit如何用Claude构建智能体编排系统
00:07TechCrunch:AI(RSS)58AI编程初创公司Cognition完成10亿美元融资,投前估值达250亿美元
5月27日周三
20:32Hacker News 热门(buzzing.cc 中文翻译)63将 Claude Code 作为日常工具:Claude.md、技能、子代理、插件和 MCP
17:03xAI:News(网页)54在 Kilo Code 中使用 Grok
09:58公众号:数字生命卡兹克65精选从0到1速通OpenAI Codex:安装、设置与实操教程
09:33Claude Code:GitHub Releases(RSS)71精选Claude Code v2.1.152 更新发布
08:13IT之家(RSS)50IT早报 0527:卢伟冰称小米不能简单地把内存涨价成本转移给消费者;美光科技总市值突破 1 万亿美元;小米 MiMo-V2.5 系列 API 永久降价;尊界 V800 实车上路…
5月26日周二
14:11IT之家(RSS)63国产第一:阿里 Qwen3.7-Max 模型 AI 编程能力超 Claude Opus 4.6
13:11IT之家(RSS)59乔治·霍茨警告:AI编程智能体或成软件最大隐患
13:11IT之家(RSS)67昆仑万维天工 AI 发布 SkyClaw-v1.0:面向真实工作流的百万上下文 Agent 模型
11:30公众号:昆仑万维(天工)53天工AI发布SkyClaw-v1.0:面向真实工作流的百万上下文Agent模型
11:11IT之家(RSS)51谷歌回应 Antigravity 用户额度抱怨:重置配额,推出 Gemini 3.5 Flash(Low)
09:58Hacker News 热门(buzzing.cc 中文翻译)62利用人工智能写出更优质的代码,尽管速度会变慢
09:11IT之家(RSS)50托瓦兹再发飙:AI 干扰 Linux 内核节奏,撑大 RC5 体量
08:00HuggingFace Daily Papers(社区热门论文)55RAMP:生产系统中智能体模型的运行时评估基础设施
08:00HuggingFace Daily Papers(社区热门论文)69Verus-SpecGym: 一个用于评估规格自动形式化的智能体环境
07:11IT之家(RSS)74精选OpenAI GPT-5.6 模型曝下月发布:AI 上下文 150 万 tokens
5月25日周一
17:28The Decoder:AI News(RSS)62George Hotz 称编程智能体将成为软件开发中"代价最昂贵的错误之一"
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月29日
08:00
HuggingFace Daily Papers(社区热门论文)
62
Mellum2 技术报告

Mellum 2 是一个开源的 12B 参数 MoE 大语言模型,每个 token 有 2.5B 活跃参数,专注于软件工程任务,是 Mellum 的后继版本。其架构基于 64 专家、8 激活的 MoE,并融合了分组查询注意力、滑动窗口注意力和多 token 预测头。模型在约 10.6 万亿 token 上进行三阶段预训练,并通过 YaRN 扩展至 128K 上下文窗口,之后经过监督微调与 RLVR 后训练,发布了直答式(Instruct)和带推理链(Thinking)两个变体。在多项基准测试中,其性能可与 4B-14B 范围的开源模型竞争,而计算成本仅相当于 2.5B 稠密模型。所有检查点以 Apache 2.0 许可证发布。

开源/仓库推理模型发布编码
07:46
OpenAI:官网动态(RSS · 排除企业/客户案例)
36
Endava如何借助Codex构建智能体驱动的组织

Endava通过应用AI工具Codex,成功构建了智能体驱动的组织模式,显著加速了软件交付流程。其核心成果体现在需求分析环节,耗时由数周大幅缩短至数小时。

智能体OpenAI编码行业动态
07:21
IT之家(RSS)
64
Claude Opus 4.8 上线:提升 AI 编程可靠性,减少无依据结论
Anthropic推理模型发布编码
06:39
Hacker News 热门(buzzing.cc 中文翻译)
54
各种大语言模型的"异味"

文章探讨了大语言模型输出中存在的各种典型缺陷或不受欢迎的模式(即“异味”),并提供了相关示例。该内容来自 shvbsle.in,在 Hacker News 社区获得了 107 点热度。

现象/趋势编码
06:18
MarkTechPost(RSS)
72
Anthropic发布Claude Opus 4.8,同步推出动态工作流与更便宜的快速模式,工作流最多支持1000个子智能体

Anthropic推出Claude Opus 4.8,在Claude Code中引入动态工作流和更便宜的快速模式,目前处于研究预览阶段。工作流最多可调用1000个子智能体执行任务。

Anthropic模型发布编码
关联讨论 15 条TechCrunch:AI(RSS)X:Claude Devs (@ClaudeDevs)X:Boris Cherny (@bcherny)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)X:洪明 (@hongming731)The Decoder:AI News(RSS)X:OpenRouter (@OpenRouter)X:Thariq (@trq212)X:Kim (@kimmonismus)X:Claude (@claudeai)X:Rohan Paul (@rohanpaul_ai)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)X:宝玉 (@dotey)
06:06
公众号:数字生命卡兹克
58
Claude Opus 4.8 上线:更精确不偷懒,但主动性减弱,创作仍不及4.6

Claude Opus 4.8 上线,价格与 4.7 相同($5/M 输入、$25/M 输出),上下文等参数一致。新特性:effort 控制向所有用户开放;模型更精确遵循指令但主动性减弱;代码瑕疵蒙混过关概率降低 4 倍;fast mode 速度 2.5 倍,价格降至之前的 1/3(输入 $10/M、输出 $50/M)。Claude Code 新增 dynamic workflows,可自动拉起数十至上百个子 Agent 并行处理并自验。Benchmark 方面,Terminal-Bench 2.1 仍未超过 GPT-5.5。此外,Anthropic 完成 650 亿美元融资,估值近万亿美元。创作能力虽比 4.7 有进步,但整体仍不如 4.6。

智能体Anthropic编码评测/基准
04:08
Hacker News 热门(buzzing.cc 中文翻译)
63
Claude Code 中的动态工作流

Claude Code 引入了动态工作流功能,该特性允许智能体在执行任务时,根据上下文动态地构建和调整工作流程。文章发布于 2026 年 5 月 28 日。

智能体Anthropic产品更新编码
03:38
Hacker News 热门(buzzing.cc 中文翻译)
67
我们更换了 Zendesk

tradecore 在48小时内完成了其客户服务工具 Zendesk 的替换。原文仅提及此项迁移在极短时间内完成,未涉及更具体的替换原因、新平台选择或迁移过程的细节。

教程/实践编码部署/工程
02:42
xAI:News(网页)
精选82
Grok Build 0.1 on API

xAI 的最新编码模型 Grok Build 0.1 已通过 xAI API 进入公开测试阶段。该模型专为智能体编码任务训练,支持网页开发、调试和 MCP,同时也是驱动 Grok Build CLI 的同一模型。其推理速度超过 100 tokens/秒,定价为输入 $1/m tokens,输出 $2/m tokens。除编码外,它也适用于通用智能体及工具调用场景,并可通过 OpenRouter 和 Vercel AI Gateway 获取。

xAI模型发布编码
关联讨论 4 条X:xAI (@xai)X:Elon Musk (@elonmusk, xAI)X:阿易 AI Notes (@AYi_AInotes)X:Testing Catalog (@testingcatalog)
推荐理由:xAI 把编码模型卷到了 100+ t/s 和 $2/M 输出,专攻 agentic coding,这是直接在叫板 Claude Code 和 Cursor,做开发工具的同行该重新算账了。
01:21
Claude:Blog(网页)
精选78
在Claude Code中引入动态工作流

Claude Code 推出“动态工作流”功能,使 Claude 能端到端处理复杂任务。该功能通过动态编写脚本,在单个会话中并行运行数十到数百个子智能体来完成工作,并会在结果呈现前进行验证。它适用于跨代码库的 bug 查找、大规模迁移(如将 Bun 从 Zig 移植到 Rust)等需要多角度分析的任务。该功能现已在研究预览阶段可用,支持 Claude Code CLI、桌面端、VS Code 扩展以及 API、Amazon Bedrock、Vertex AI 等平台,面向 Max、Team 及已启用的 Enterprise 计划用户。

智能体Anthropic产品更新编码
关联讨论 5 条Claude:Blog(网页)Claude Code:GitHub Releases(RSS)X:邵猛 (@shao__meng)X:Claude Devs (@ClaudeDevs)X:Thariq (@trq212)
推荐理由:动态工作流第一次让 Claude Code 能独立搞定需要并行协调的大规模工程任务,Bun 从 Zig 到 Rust 只用了十一天,这对复杂代码库的维护和迁移是降维打击。
01:05
Anthropic:Newsroom(网页)
精选85
Claude Opus 4.8 发布:在编码、智能体技能与推理方面实现全面升级

Anthropic 发布了新一代模型 Claude Opus 4.8,作为 Opus 4.7 的升级版本,其在编码、智能体技能、推理和实用知识工作等各项基准测试中均取得进步。Claude Opus 4.8 现已可用,价格与前代相同。同步推出的新功能包括:用户可控制任务投入程度、Claude Code 新增“动态工作流”特性,以及 Opus 4.8 的 2.5 倍速模式价格降低为以往的三分之一。早期测试者反馈其在智能体任务中的判断力更可靠、工具调用更高效。该模型在 Online-Mind2Web 测评中得分 84%,超越了 Opus 4.7 和 GPT-5.5。此外,其诚实度与对齐表现也得到提升,代码错误漏检率降低了约 75%。

智能体Anthropic推理模型发布
关联讨论 15 条TechCrunch:AI(RSS)X:Claude Devs (@ClaudeDevs)X:Boris Cherny (@bcherny)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)X:洪明 (@hongming731)The Decoder:AI News(RSS)X:OpenRouter (@OpenRouter)X:Thariq (@trq212)X:Kim (@kimmonismus)X:Claude (@claudeai)X:Rohan Paul (@rohanpaul_ai)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)X:宝玉 (@dotey)
推荐理由:Opus 4.8看着是常规升级,但动态工作流让Claude Code能啃下跨十万行代码迁移这种硬骨头,快速模式降价三倍更是直接拉低了实时场景的入场券。
5月28日
23:19
IT之家(RSS)
60
消息称微软下周将推全新编程模型,以争取开发者群体认可

微软计划在下周Build大会发布多款自研AI模型,旨在争取开发者认可。其中将包含一款编程专用模型,以提升GitHub Copilot的竞争力,应对Cursor与Claude Code等对手的挑战。同时,微软还将推出多款不同规格的新模型,具备语音转写、逻辑推理、语音处理及图像生成等技能。

Microsoft多模态模型发布编码
19:28
HuggingFace Daily Papers(社区热门论文)
60
针对LLM生成代码片段的可扩展高效溯源追踪

针对大语言模型生成代码可能无意识复制训练数据并引发版权问题,研究提出了SOURCETRACKER编码器及混合溯源流水线HYBRIDSOURCETRACKER。该系统在THESTACKV2数据集子集上训练与评估,在包含改编片段的10万片段搜索空间中,对于60-token及以上的窗口,其性能稳定超越传统Winnowing算法达5.4%,并保持对数时间查询复杂度。基于LLM的评估显示,许多检索到的片段仍与预期源代码高度相似,具有实用价值。

arXiv搜索编码论文/研究
18:47
Mistral AI:News(网页)
81
Vibe gets to work.

Mistral AI 推出 Vibe,一款统一工作与编码的 AI 智能体。其工作模式可处理长期多步骤任务,连接 Google Workspace、Outlook、Slack 等应用,进行研究、分析与调度。代码模式支持从 Web 应用到终端的全流程编码。Vibe 运行为推理、智能体任务和编码优化的旗舰 Mistral 模型,并发布了新的 VS Code 扩展。

智能体产品更新编码
15:15
IT之家(RSS)
60
Claude Code 创始人切尔尼建议计算机科学毕业生创业:现在是黄金时代

Anthropic 的 Claude Code 创建者鲍里斯·切尔尼建议计算机科学毕业生,如有创业想法,现在就是创办公司的黄金时代。他认为 Claude Code 等 AI 工具正让创业者以前所未有的方式创建和扩大规模。在与 Y Combinator 最新一批创业者交流时,约一半人举手表示其公司的“100%代码”都由 Claude Code 编写,而完全不让模型写代码的仅寥寥数人。他预测,未来使用智能体写代码的人群规模将达到今天的 100 倍。

Anthropic大佬观点编码
11:15
IT之家(RSS)
精选73
英伟达推出 AI 框架 Polar,让 Codex 跑分暴涨 594.74%

英伟达研究团队开源了智能体强化学习框架 Polar。该框架无需重写现有智能体执行框架(如 Codex CLI、Claude Code、Qwen Code、Pi),通过在模型 API 边界放置智能体来接入 GRPO 训练。实验显示,基于 Qwen3.5-4B 模型,Polar 将 Codex 在 SWE-Bench Verified 上的 pass@1 分数从 3.8% 提升至 26.4%(增涨 594.74%)。效率上,其 prefix_merging 技术将训练步骤从 1185 次降至 218 次,速度提升约 5.39 倍,GPU 平均利用率从 20.4% 升至 87.7%。

开源/仓库推理编码

推荐理由:Polar 把 Codex 的 SWE-Bench 分数从 3.8% 拉到 26.4%,不是靠新模型而是靠训练框架,做代码 agent 的团队可以直接用,开源即拿即训。
09:58
公众号:数字生命卡兹克
48
飞书云文档新增"下载为Markdown"功能,图片自动转为AI可读公网链接

飞书云文档新增“下载为Markdown”功能,文档内图片自动转为公网链接,可供AI读取。Markdown由John Gruber与Aaron Swartz于2004年创建,后被GitHub、Reddit、Slack等平台采用。在AI时代,因纯文本、易生成、有结构、省token,成为人类与大语言模型交互的通用格式——Claude等AI输出底层均为Markdown。尽管Claude Code的Thariq主张HTML更适合展示,作者认为Markdown负责信息流转、HTML负责呈现,建议日常文档改用.md格式以获自由可迁移体验。

大佬观点编码
08:36
Simon Willison 博客
53
SQLite AGENTS.md文件

SQLite近期在其代码库中添加了AGENTS.md文件,旨在指导将AI智能体指向该代码库的用户。该文件明确声明,SQLite项目不接受智能体生成的代码,但会接受包含可复现测试案例的智能体bug报告。此后的一次提交删除了声明中的“当前”一词,进一步强化了“不接受智能体代码”的立场。同时,因收到大量质量不一的AI生成bug报告,SQLite论坛已将相关讨论分流至新建的SQLite Bug论坛。

安全/对齐现象/趋势编码
06:13
OpenAI:官网动态(RSS · 排除企业/客户案例)
40
思科与OpenAI携手Codex重新定义企业工程

思科正与OpenAI合作,利用Codex重新定义企业工程实践。此次合作旨在帮助思科扩展AI原生开发能力、加速其AI Defense安全工作,并实现缺陷修复流程的自动化。

OpenAI编码行业动态
04:12
OpenAI:官网动态(RSS · 排除企业/客户案例)
46
Warp利用GPT-5.5模型协调编程智能体的实践

Warp使用GPT-5.5和OpenAI模型,以协调编程智能体,旨在统一本地、云端及开源开发工作流。

OpenAI编码行业动态
02:35
The Decoder:AI News(RSS)
69
AI编程智能体Devin开发商Cognition在不到九个月内估值翻倍多至260亿美元

AI编程智能体Devin开发商Cognition完成超10亿美元融资,估值超过260亿美元。这笔巨额融资凸显了资本正大量涌入AI编程智能体领域,尽管其实际价值仍存在广泛争论。

智能体编码行业动态
01:35
Simon Willison 博客
精选72
我认为 Anthropic 和 OpenAI 找到了产品市场契合点

Anthropic 与 OpenAI 通过编程智能体找到了产品市场契合点,这导致企业客户成本显著上升。两家公司已于 2026 年 4 月前后调整了企业套餐定价,从原先的高额折扣改为与 API 用量挂钩。Anthropic Enterprise 套餐变为每席位 20 美元/月外加 API 费用,OpenAI Codex 则按 API token 用量计费。同期发布的新模型 GPT-5.5(4月23日)和 Opus 4.7(4月16日)的 API 定价也显著高于前代版本。

AnthropicOpenAI现象/趋势编码
关联讨论 1 条Hacker News 热门(buzzing.cc 中文翻译)
推荐理由:Simon 这篇把近期碎片线索串起来了,企业级定价变化加上代码代理消耗剧增,说明 Anthropic 和 OpenAI 可能真开始赚钱了,四月是个新拐点。
01:05
Claude:Blog(网页)
54
CodeRabbit如何用Claude构建智能体编排系统

AI代码审查平台CodeRabbit发现,AI生成的代码常能通过编译与测试,却不符合开发者真实意图,根源在于开发者隐含假设AI理解上下文。为此,团队基于Claude构建了一个智能体编排系统,置于编码请求与智能体之间。该系统在代码生成前协调多个Claude模型进行结构化规划,输出可审查的产品需求文档,使需求显式化。系统每周助力审查超过200万个PR。

智能体Anthropic教程/实践编码
00:07
TechCrunch:AI(RSS)
58
AI编程初创公司Cognition完成10亿美元融资,投前估值达250亿美元

AI编程初创公司Cognition宣布,其年化收入已达到492美元,并在八个月内将公司估值提升了一倍以上。

编码行业动态
5月27日
20:32
Hacker News 热门(buzzing.cc 中文翻译)
63
将 Claude Code 作为日常工具:Claude.md、技能、子代理、插件和 MCP

文章探讨了将 Claude Code 作为日常开发工具的实践,重点介绍了其核心配置文件 Claude.md、技能系统、子代理功能、插件扩展以及通过 MCP(模型上下文协议)进行集成的方法,旨在提升开发者的工作流效率。

智能体AnthropicMCP/工具教程/实践
17:03
xAI:News(网页)
54
在 Kilo Code 中使用 Grok

开源智能体编程平台 Kilo Code 现已集成 xAI 的 Grok 模型。用户可使用其 SuperGrok 或 X Premium+ 订阅,在 VS Code、JetBrains IDE 及终端等环境中调用最新的 Grok 模型,包括专为智能体编程设计的 Grok Build。连接过程无需单独的 API 密钥,通过 OAuth 认证即可使用。Kilo Code 本身支持 500+ 种模型,并集成了工具使用、浏览器自动化及 MCP 扩展等能力,适用于软件工程与智能体工作流。

智能体xAI产品更新编码
09:58
公众号:数字生命卡兹克
精选65
从0到1速通OpenAI Codex:安装、设置与实操教程

近日OpenAI的AI智能体Codex热度飙升。教程涵盖完整使用流程:从官网下载安装,支持从Claude Code和Cowork一键导入配置;界面分对话区和项目区,权限可选默认、自动审查或完全访问;模型推荐GPT-5.5,推理等级用高或超高,速度可选快速(1.5倍速度、2倍token消耗)或标准;建议开启引导模式、记忆功能,并设置全局AGENTS.md规则(卡帕西模板);通过Skills和插件管理扩展能力;演示了开发网页(使用计划模式、批注功能圈选修改)和开发用药提醒App(需安装Xcode编译到手机)。

智能体OpenAI教程/实践编码

推荐理由:如果你还在观望要不要入坑Codex,这篇保姆级教程把安装、设置、开发网页到打包APP全流程踩了一遍,那个@Computer Use帮你装Xcode的操作一看就懂,想动手的现在就能跟做。
09:33
Claude Code:GitHub Releases(RSS)
精选71
Claude Code v2.1.152 更新发布

Claude Code 发布 v2.1.152 版本更新。核心改进包括:/code-review --fix 现在会将审查建议直接应用于工作目录;技能与斜杠命令支持通过 frontmatter 的 disallowed-tools 移除模型工具;新增 /reload-skills 命令可不重启会话重新扫描技能目录;SessionStart 钩子现可返回 reloadSkills: true 重新扫描技能,并可通过 hookSpecificOutput.sessionTitle 设置会话标题;新增 MessageDisplay 钩子事件以变换或隐藏助手消息。其他更新涉及插件市场管理、主模型不可用时自动切换至 --fallback-model、会话用量统计优化等。同时修复了终端样式退化、沙箱警告显示、思考摘要、MCP 服务器去重、远程会话连接及多种会话卡顿问题。

智能体Anthropic产品更新编码

推荐理由:Claude Code 这次更新把代码审查从'查问题'推进到'直接修',Skills 系统补上了热加载和工具限制,做工程自动化的团队应该立刻更新。
08:13
IT之家(RSS)
50
IT早报 0527:卢伟冰称小米不能简单地把内存涨价成本转移给消费者;美光科技总市值突破 1 万亿美元;小米 MiMo-V2.5 系列 API 永久降价;尊界 V800 实车上路…
推理编码行业动态
5月26日
14:11
IT之家(RSS)
63
国产第一:阿里 Qwen3.7-Max 模型 AI 编程能力超 Claude Opus 4.6
编码评测/基准
13:11
IT之家(RSS)
59
乔治·霍茨警告:AI编程智能体或成软件最大隐患

著名黑客乔治·霍茨在经过六个月测试后警告,AI编程智能体可能是软件开发中代价最高的错误之一。他认为这些工具适合快速原型,但无法可靠处理代码细节,生成的代码可能表面完善却隐蔽问题,给组织带来高额维护成本和故障风险。霍茨本人立场已转向怀疑,认为大语言模型是复杂的统计系统而非真正智能。与之相反,安德烈·卡帕西在GPT-5.4和Opus 4.6发布后改口,认为AI智能体已永久改变了编程方式。

智能体大佬观点编码
13:11
IT之家(RSS)
67
昆仑万维天工 AI 发布 SkyClaw-v1.0:面向真实工作流的百万上下文 Agent 模型

昆仑万维天工AI近日正式推出高性能智能体模型SkyClaw-v1.0及其轻量化版本SkyClaw-v1.0-lite。该模型支持百万token上下文,深度适配真实智能体工作场景,重点优化了复杂工具调用、多轮任务执行与代码生成等能力。在多项智能体基准测试中,其性能超越了MiniMax 2.7、DeepSeek V4 Flash等开源模型,并接近DeepSeek V4 Pro、Claude Opus 4.6等更大规模模型。该模型定价极具竞争力,已接入天工Skywork,并提供2至4周免费试用。

智能体模型发布编码
11:30
公众号:昆仑万维(天工)
53
天工AI发布SkyClaw-v1.0:面向真实工作流的百万上下文Agent模型

天工AI今日推出SkyClaw-v1.0及轻量版SkyClaw-v1.0-lite,支持百万token上下文,深度适配复杂工具调用、多轮任务执行、代码生成与文件编辑等智能体场景。模型在主流Agent benchmark上全面超越Minimax 2.7、DeepSeek V4 Flash及Qwen 3.6,在OpenClaw任务上接近更大规模模型,定价低于Minimax 2.7与Qwen 3.6一半。训练采用大规模mid-train、合成轨迹SFT与端到端Agentic RL优化,适配OpenClaw、Hermes、Claude Code等主流Agent框架。模型已于5月22日接入天工Skywork,开放2至4周免费试用,并提供兼容OpenAI格式的免费API调用。

智能体模型发布编码
11:11
IT之家(RSS)
51
谷歌回应 Antigravity 用户额度抱怨:重置配额,推出 Gemini 3.5 Flash(Low)

谷歌针对Antigravity用户抱怨额度消耗过快,推出了新模型Gemini 3.5 Flash(Low)。该版本通过调整推理投入强度,处理简单任务时的token消耗比Medium版本减少约45%。同时,谷歌重置了所有免费和付费Gemini计划的配额。

Google产品更新编码
09:58
Hacker News 热门(buzzing.cc 中文翻译)
62
利用人工智能写出更优质的代码,尽管速度会变慢

本文讨论了在使用人工智能辅助编程时存在的一种权衡关系。主要观点是,采用人工智能工具来生成或辅助编写代码,其核心目标在于产出质量更高、更可靠的代码。然而,这一过程可能会以牺牲开发速度为代价,使得编码的整体进程相对变慢。这揭示了在追求代码质量与开发效率之间的一种潜在平衡。

大佬观点编码
09:11
IT之家(RSS)
50
托瓦兹再发飙:AI 干扰 Linux 内核节奏,撑大 RC5 体量
大佬观点开源生态编码
08:00
HuggingFace Daily Papers(社区热门论文)
55
RAMP:生产系统中智能体模型的运行时评估基础设施

RAMP是一个基于YatCC平台的生产级运行时评估基础设施,用于评估长时程软件工程智能体。它通过标准化接口提供统一评估架构,引入含串行依赖和复杂工具链交互的编译器构造工作负载,结合分阶段恢复机制分析局部失败下的执行行为,并采用面向效用的多维度指标联合评估结果质量和过程效率。对15个主流模型的评估显示,传统静态基准无法发现的能力退化:串行工作流中任务完成率从初始阶段100%下降至最终阶段20%,且无一模型完成整个流水线;计算成本在同类模型间差异高达三个数量级。RAMP推动评估向持续、运行时可观测、生产导向发展。

智能体arXiv编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
69
Verus-SpecGym: 一个用于评估规格自动形式化的智能体环境

该研究引入了Verus-SpecBench基准测试集,包含581个源自Codeforces问题、针对Rust验证器Verus的规格编写任务,以及Verus-SpecGym这一AI智能体交互环境。核心挑战是评估规格的正确性。研究通过扩展Verus的执行机制,并使用官方测试用例和对抗性用例进行评测。结果显示,最强模型Gemini 3.1 Pro解决了77.8%的任务,其他前沿模型解决率为51.1%-57.8%,开源模型仅为21.5%-25.5%。分析发现,LLM评判会遗漏26%的错误。结论是规格自动形式化对前沿智能体已可触及,但仍显脆弱。

智能体编码论文/研究
07:11
IT之家(RSS)
精选74
OpenAI GPT-5.6 模型曝下月发布:AI 上下文 150 万 tokens

多名开发者在 OpenAI Codex 后端日志中发现未官宣的 GPT-5.6 模型,内部代号 iris-alpha。该模型将支持 150 万 token 的上下文窗口,较当前 GPT-5.5 的 105 万 token 提升约 43%,有望于今年 6 月发布。测试显示,在输入达到 90 万 token 时仍能流畅响应。同系列还发现了 ember-alpha 与 beacon-alpha 版本。此外,GPT-5.6 在前端界面生成能力上也有所提升。基于爆料信息,Anthropic Claude、Google Gemini 及 xAI Grok 也可能瞄准同期发布新模型。

OpenAI模型发布编码

推荐理由:开发者从后端日志扒出 GPT-5.6,150 万上下文是真香,直接生成商用级前端界面更让人眼馋,这代模型值得等。
5月25日
17:28
The Decoder:AI News(RSS)
62
George Hotz 称编程智能体将成为软件开发中"代价最昂贵的错误之一"

程序员 George Hotz 在经过六个月测试后警告,AI 编程智能体将成为软件开发领域代价最昂贵的错误之一。他认为 LLM 虽然能快速生成原型,但在细节上会崩溃,产生越来越难以发现的 bug。他的立场体现了 AI 社区对于 LLM 在软件开发中角色的深刻分歧。

大佬观点编码
‹ 上一页
1…910111213…22
下一页 ›