AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「编码」清除
6月24日周三
01:09Anthropic:Newsroom(网页)56精选Anthropic 推出 Claude Tag:在 Slack 中通过 @Claude 协作
01:04Artificial Intelligence News(RSS)38Omio 借助 OpenAI Codex 加速旅行产品开发并推出对话式预订界面
00:46Rohan Paul51Momentic发布测试平台,解决AI编码的QA瓶颈
00:38jason46Codex 用户名预留指南
00:07jason16Codex Billboard 链接上线
00:00Berkeley RDI:Blog(AI 安全与评测)82精选恶意CDN仍潜伏GitHub Pages,AI让情况恶化
6月23日周二
23:32向阳乔木68网友用AI总结新智元标题规律并发布生成Skill
23:17gabriel42AI测试应成为编码应用一等特性
23:16Berryxia.AI54Paul Bakaus 成立 Renaissance Geek:获 a16z 投资,与 GitHub 合作推"增强工艺"路线
23:13歸藏(guizang.ai)49Seed 2.1 Pro 测评:胜任 Agent 工作流
23:13歸藏(guizang.ai)42豆包 Seed 2.1 Pro 补齐 Agent 与 Coding 短板
22:26Hacker News 热门(buzzing.cc 中文翻译)48《The Coming Loop》--Hacker News 热门文章
21:19elvis64QodoAI 推出跨仓库代码审查
20:24The Decoder:AI News(RSS)39Cursor 发布自有 AI 模型、新 Git 平台和移动应用
17:16Alibaba Cloud56Coding Agent 2.0:从个人工具到组织系统
16:50公众号:卡尔的AI沃茨58实测豆包Seed 2.1 Pro,把我六个真实工作流都稳稳接住了
16:46Alibaba Cloud55阿里云Coding Agent 2.0:从个人工具到组织系统
16:05SiliconFlow59GLM-5.2 在 Code Arena 前端测试中排名第二,成本优势显著
16:05eric zakariasson35Cursor与SpaceX合作训练新模型
14:07IT之家(RSS)48DeepSeek Harness团队负责人回应"不招外国人"质疑:需能用中文工作,无此规定
13:06jason13Codex:面向所有人
13:00公众号:火山引擎79豆包大模型2.1发布,面向生产级任务的新起点
12:39字节 Seed:Research Feed(网页内嵌数据)64精选Seed2.1 正式发布,深入 AI 生产力
12:20公众号:数字生命卡兹克75火山引擎FORCE大会发布Doubao-Seed-2.1系列及新功能
12:10Tibo3今晚我们用Codex做什么?
11:36jason29Codex 现实生活应用记录
11:06jason12Codex 广告牌征集:展示最优秀作品
10:36jason9Codex 远程控制新功能
10:14Hacker News 热门(buzzing.cc 中文翻译)41window.showDirectoryPicker 为您开启了一个崭新的世界
10:07IT之家(RSS)66字节豆包 Seed 2.1 Pro 和 Turbo 深度思考模型发布,面向 Coding 与 Agent 时代全面升级
10:06jason13Codex 猴子终造 openclaw
09:44小互55Codex 后台疯狂写入 SSD 耗尽硬盘寿命
09:09AYi65Cline团队实测GLM-5.2 vs Claude Opus 4.8:修bug后构建稳定性差异
08:40meng shao59HeyGen HyperFrames 推出 pr-to-video 技能:AI 智能体将 PR 自动转为解释视频
08:40meng shao37智谱AI GLM-5.2火热但使用受限,作者拒付费咨询
08:08Ethan Mollick55Fable 创造性问题解决与自知贪吃蛇游戏
08:01Simon Willison 博客60Moebius 0.2B图像修补模型借助Claude Code移植到浏览器运行
08:00HuggingFace Daily Papers(社区热门论文)37基于检索增强搜索的LLM程序优化方法
06:41Rohan Paul50Sakana Fugu Ultra 在多模型编码测试中视觉效果最优,但成本为 GLM 5.2 的 17 倍
05:13Claude Code:GitHub Releases(RSS)54Claude Code v2.1.186 发布
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月24日
01:09
Anthropic:Newsroom(网页)
精选56
Anthropic 推出 Claude Tag:在 Slack 中通过 @Claude 协作

Anthropic 推出 Claude Tag,一种在 Slack 频道中通过 @Claude 委托任务的新协作方式。Claude 可记住频道上下文,支持多用户交互,经授权后可自动学习其他频道和数据源。开启“环境”行为后,能主动更新未解决的线程或任务。支持异步工作,可自主推进项目数小时或数天。即日起面向 Claude Enterprise 和 Team 客户提供 beta 版。管理员可精细控制工具和渠道访问权限、设置 token 消耗限额,并查看所有操作日志。

智能体Anthropic产品更新编码
关联讨论 3 条X:Claude Devs (@ClaudeDevs)Hacker News 热门(buzzing.cc 中文翻译)Claude:Blog(网页)
推荐理由:Anthropic 这次把 Claude 从对话助手变成了团队里的主动队友,Slack 里的多人协作、上下文学习和异步代理是个新思路。内部 65% 代码由它生成的数据,让这个方向不再只是实验。
01:04
Artificial Intelligence News(RSS)
38
Omio 借助 OpenAI Codex 加速旅行产品开发并推出对话式预订界面

多模式旅行平台 Omio 将 OpenAI Codex 嵌入软件开发生命周期,涵盖研究、架构、编码、测试、代码审查及维护。内部分析显示,特定产品的开发工作量降至原来的 20%,原需多名工程师一整个季度的项目现由单人一月完成。Omio 在 2023 年推出基于 OpenAI 模型和实时交通数据的对话式预订界面,用户可用自然语言查询复杂多模式路线。公司强调人类保留最终责任,AI 仅作为加速引擎。

OpenAI编码行业动态
00:46
Rohan Paul@rohanpaul_ai
51
AI编码速度提升但QA成为新瓶颈。Momentic推出测试平台,其智能体可读取Linear工单、Notion PRD和PR差异等产品记忆,使测试基于预期行为而非静态脚本。过去几周,该平台已分析7万+次测试失败,创建600个测试,PR合并率达73%并持续增长。客户包括Notion、Xero、Webflow、Retool、Runway和Bilt。

Meer | AI Tools & News: AI is writing more code than ever, but the bugs are scaling right along with it. momentic just put out how they're closi...

智能体MCP/工具产品更新编码
00:38
jason@jxnlco
46
你有没有预留你的 Codex 用户名? Codex > 设置 > 个人资料
OpenAI产品更新编码
00:07
jason@jxnlco
16
给你!可能来自 @itsjessyin https://codex-billboard.vercel.app/
OpenAI编码评测/基准
00:00
Berkeley RDI:Blog(AI 安全与评测)
精选82
恶意CDN仍潜伏GitHub Pages,AI让情况恶化

UC Berkeley研究人员发现,近2000个GitHub Pages站点(18000+页面,累计530K+星标)仍在加载来自polyfill.io及其关联恶意CDN的脚本。这些CDN由已被OFAC制裁的Funnull Technology Inc.(现更名Triad Nexus)运营,2024年被出售后开始条件性注入恶意载荷,劫持移动用户、跳转欺诈站点、伪造认证弹窗窃取凭证。扫描12000+站点确认786个加载polyfill.io,1191个加载其他Funnull CDN。更严峻的是,所有测试的大语言模型在生成前端代码时仍推荐这些被污染的CDN URL,包括CyC2018/CS-Notes(184K⭐)、microsoft/AirSim(18K⭐)等知名项目及多所大学课程页面。

GitHub安全/对齐开源生态编码

推荐理由:polyfill.io等恶意CDN仍在GitHub Pages上感染近2000个站点,更可怕的是所有测试的AI模型都还会推荐这些链接,AI编码的便利正在变成供应链投毒的加速器。
6月23日
23:32
向阳乔木@vista8
68
网友用AI总结新智元标题规律并发布生成Skill

网友Vista通过AI分析新智元标题风格,总结出中位长度32字、标点使用率近八成、数字出现率56.7%、英文名出现率90.8%等规律,并发布名为joeseesun/qiaomu-xinzhiyuan-title的Skill,可用npx skills add安装,生成类似标题。

向阳乔木: 看看这个skill生成的标题,是不是有新智元的味道了😂

GitHub教程/实践编码
23:17
gabriel@gabriel1
42
显然,每个PR都会带来100%覆盖的AI应用测试,它会尝试界面中的每个按钮以确保其按预期工作。 为什么编码应用不把AI测试作为一等特性?如果AI自己尝试应用,80%的问题都是显而易见的。
大佬观点编码
23:16
Berryxia.AI@berryxia
54
Paul Bakaus 成立 Renaissance Geek:获 a16z 投资,与 GitHub 合作推"增强工艺"路线

Paul Bakaus 宣布成立 Renaissance Geek(Impeccable 母公司),获 a16z 投资并与 GitHub 合作。他认为 AI 降低了创作门槛,但未自动提高上限;真正优秀的工作仍需清晰意图、迭代、判断力与工艺。公司方向为“增强工艺”——让人类深度参与智能体循环的最后 20%。首款产品 Impeccable 为 AI coding agent 提供设计词汇表,支持在真实代码库视觉迭代,避免低质量输出。同时提出“文艺复兴极客”画像:T 型通才、高品味、高主动性、强好奇心,AI 赋能其跨领域移动,而品味与判断力是 AI 最稀缺的能力。

Berryxia.AI: http://x.com/i/article/2069426743950417920

智能体GitHub产品更新编码
23:13
歸藏(guizang.ai)@op7418
49
Seed 2.1 Pro 测评:胜任 Agent 工作流

Seed 2.1 Pro 正式发布,测评显示它能胜任真实 Agent 工作流。优势包括:复杂任务稳定、视觉内容规划能力强、多模态额外优势。测试通过豆包任务模式(本地电脑 Agent 操作)和火山引擎 API(Cloud Code)进行。复杂 Skills 测试(PPT 生成、社交媒体卡片)表现优秀,能根据内容调整版式。三个前端任务(百叶窗图片动效、WebGL 贝塞尔曲线、跨整页视差滚动网页)均一步到位或结果完整。定位:未必最顶尖,但适合组合工作流——强编码模型负责工程,Seed 2.1 Pro 负责多模态理解、内容规划和视觉表达。限制:视频输入目前为抽帧式处理。API 已在火山引擎全量上线。

智能体多模态编码评测/基准
23:13
歸藏(guizang.ai)@op7418
42
测试显示豆包旗下的 Seed 2.1 Pro 模型表现不错,尤其补上了此前在 Agent 和 Coding 方面的短板,将成为内容创作的主力模型。更多案例及提示词详见原文链接。

歸藏(guizang.ai): http://x.com/i/article/2069421203073490944

智能体编码评测/基准
22:26
Hacker News 热门(buzzing.cc 中文翻译)
48
《The Coming Loop》--Hacker News 热门文章

自 lucumr.pocoo.org 发布题为《The Coming Loop》的文章,在 Hacker News 上获得 103 个点赞。

大佬观点现象/趋势编码
21:19
elvis@omarsar0
64
大多数 AI 代码审查工具一次只看一个仓库。 但 bug 通常不在被修改的代码里。而是在那次修改悄悄破坏的三个仓库之外。 @QodoAI 刚刚推出了跨仓库审查来解决这个问题。 我在自己的仓库上测试了它。这是它发现的问题。
产品更新编码
20:24
The Decoder:AI News(RSS)
39
Cursor 发布自有 AI 模型、新 Git 平台和移动应用

Cursor 公布了其首个完全内部训练的 AI 模型的详细信息,并同步推出了一款新 Git 平台和一款移动应用。

产品更新开源生态编码
17:16
Alibaba Cloud@alibaba_cloud
56
🚀 Coding Agent 2.0:从个人工具到组织系统 ꔷ 沙箱隔离与会话恢复 ꔷ 长期记忆与多渠道访问 ꔷ 防止配额消耗并确保安全 使用 AgentScope Harness 构建生产级智能体。 https://int.alibabacloud.com/m/1000414751/ #AgentScope #CodingAgent #LLMOps #OpenSource #AIEngineering #Java
智能体产品更新编码
16:50
公众号:卡尔的AI沃茨
58
实测豆包Seed 2.1 Pro,把我六个真实工作流都稳稳接住了

火山引擎Force大会上发布豆包Seed 2.1 Pro,重点提升Agent、GUI操作和编程能力:OSWorld 78.8接近GPT-5.5的78.7,Terminal Bench 2.1达71.0;多模态视觉理解进步显著(CharXiv-RQ 85.4等)。支持原生音视频、图片、文本混合理解,256K上下文,可切换快慢思考。实测六项真实工作流(旧项目UI修复与Debug、世界杯主题网站、点球大战小游戏、绘本插画描述、DeepResearch报告、PPT生成)均在不依赖Skill下稳定跑通。适合作为Agent执行层模型。

智能体多模态推理编码
16:46
Alibaba Cloud@alibaba_cloud
55
🚀 Coding Agent 2.0:从个人工具到组织系统 ꔷ 沙箱隔离与会话恢复 ꔷ 长期记忆与多通道访问 ꔷ 防止配额燃烧并确保安全 使用 AgentScope Harness 构建生产级智能体。 https://int.alibabacloud.com/m/1000414751/ #AgentScope #CodingAgent #LLMOps #OpenSource#AIEngineering #Java
智能体产品更新编码
16:05
SiliconFlow@SiliconFlowAI
59
硅基流动测试了 GLM-5.2、GPT-5.5、Opus 4.8 和 GLM-5.1 的相同提示。据 @arena 引用,GLM-5.2 (Max) 在 Code Arena: Frontend 排名第 2,以 +29 分领先 Claude Opus 4.7 (Thinking),仅次于 Fable 5;是最好的开源模型,大幅超越 Kimi-K2.6 和 Minimax-M3,并在 React(第 2)、HTML(第 4)及品牌营销、参考设计、数据分析等多个子类别中位居第一。主推文指出,在 SiliconFlow 上使用 GLM-5.2 可获得 Opus 级前端生成能力,输入成本降低约 3.6 倍,输出成本降低约 5.7 倍。

Arena.ai: Exciting news: GLM-5.2 (Max) ranks #2 in Code Arena: Frontend, with +29pt over Claude Opus 4.7 (Thinking) and only behin...

开源生态编码评测/基准
16:05
eric zakariasson@ericzakariasson
35
Cursor 在 Compile 大会主题演讲中宣布三项公告,包括与 SpaceX 合作训练新模型。敬请期待下一模型。

Cursor: Three announcements from our keynote at Compile, including how we're training a new model with SpaceX.

编码行业动态
14:07
IT之家(RSS)
48
DeepSeek Harness团队负责人回应"不招外国人"质疑:需能用中文工作,无此规定

DeepSeek Harness团队负责人崔添翼6月21日发文称,新成立的Harness团队目标宏大、工作繁重,人员紧缺,正招聘Harness研究员、工程师、产品经理三个岗位。针对网友“不招外国人”的评论,崔添翼回应称,公司招人需要能用中文工作,如同美国公司要求能用英语,并无不招外国人的规定。知情人士透露,DeepSeek已在内部组建Harness团队,主攻代码智能体产品,内部对标Anthropic的Claude Code。

智能体DeepSeek编码行业动态
13:06
jason@jxnlco
13
Codex 面向所有人。

SIGKITTEN: @jxnlco

OpenAI产品更新编码
13:00
公众号:火山引擎
79
豆包大模型2.1发布,面向生产级任务的新起点

火山引擎发布豆包大模型2.1系列:Doubao-Seed-2.1-pro和Doubao-Seed-2.1-turbo,API已全量上线火山方舟。Pro输入6元/百万tokens,输出30元,缓存命中1.2元;Turbo能力相近、价格减半。该系列Coding和Agent能力跨越生产级质变点:Terminal Bench 2.1上Pro与Claude Opus 4.7持平,SWE-Pro接近GPT-5.5,NL2Repo-Bench领先GPT-5.5,SciCode超Claude Opus 4.7和GPT-5.5。Agent方面GDPval最高分,ALE超越Claude Opus4.7,MCP-Atlas全面超Opus4.7与GPT5.5。多模态理解领先:OSWorld移动端、MMMU-Pro、TOMATO、LVBench均全球SOTA。同时推出Doubao-Seed-Evolving,每月2~4次迭代。

智能体模型发布编码
关联讨论 3 条X:Vista (@vista8)X:卡兹克 (@Khazix0918)公众号:火山引擎
12:39
字节 Seed:Research Feed(网页内嵌数据)
精选64
Seed2.1 正式发布,深入 AI 生产力

字节Seed发布Seed2.1系列,面向真实生产力场景的智能体,强化通用Agent能力、代码工程交付与多模态理解。Seed2.1 Pro在GDPval基准获最高分,Agents' Last Exam位列参评模型第一梯队;MobileWorld手机GUI任务最高分,CreativeWork多环境任务表现突出。多模态在CharXiv-RQ等多项基准取得SOTA。代码能力上,Seed2.1 Pro在NL2Repo-Bench表现良好,开发者评测相比Claude Opus 4.6获59.1%胜率。模型已在豆包、TRAE上线,API通过火山方舟提供。

智能体多模态模型发布编码
关联讨论 3 条X:Vista (@vista8)X:卡兹克 (@Khazix0918)公众号:火山引擎
推荐理由:字节 Seed2.1 这次更新把 Agent 和代码交付稳定性提到新高度,官方测评在多个硬核基准上不输 Claude Opus。虽然技术细节少,但豆包和 TRAE 直接可用,做 Agent 和开发的值得上手试试。
12:20
公众号:数字生命卡兹克
75
火山引擎FORCE大会发布Doubao-Seed-2.1系列及新功能

火山引擎FORCE大会正式发布Doubao-Seed-2.1-pro和Doubao-Seed-2.1-turbo。Coding能力接近Opus 4.7,Agent大幅进化,多模态视觉理解在多数评测集位居TOP。价格¥6/¥30每百万token(输入/输出),上下文256k,已在火山、Trae、豆包上线并兼容Agent框架。基于该模型的豆包办公模式进入内测,可完成发票汇总、联网调研等任务。视频模型Seedance 2.0支持原生4K输出,Seedance 2.5支持30秒原生直出。Seedream 5.0 pro(7月初上线)及全新音频生成模型即将发布。

智能体多模态模型发布编码
关联讨论 3 条X:Vista (@vista8)X:卡兹克 (@Khazix0918)公众号:火山引擎
12:10
Tibo@thsottiaux
3
今晚我们要codex什么?
OpenAI其他编码
11:36
jason@jxnlco
29
Codex 现实生活
OpenAI教程/实践编码
11:06
jason@jxnlco
12
市场营销部门说我们可以展示那些好的作品了!!! (来源引用:@jxnlco 号召大家发布自己最好的 Codex 广告牌。)

jason: Post your best codex billboard

OpenAI其他编码
10:36
jason@jxnlco
9
Codex 远程控制

Λlchemistocrat: @jxnlco

OpenAI大佬观点编码
10:14
Hacker News 热门(buzzing.cc 中文翻译)
41
window.showDirectoryPicker 为您开启了一个崭新的世界

Chrome 推出新 API window.showDirectoryPicker(),允许网页请求用户授权读写本地目录中的文件。作者利用 Claude 生成了模仿 Apple Aperture 界面的照片管理原型,支持在浏览器内查看、创建文件夹、移动照片,所有操作直接作用于用户文件系统。还基于 Claude 创建了受 Apple Shake 启发的节点式合成应用,可绘制多边形并叠加到源图片上。整个过程无需手写一行代码。

教程/实践编码
10:07
IT之家(RSS)
66
字节豆包 Seed 2.1 Pro 和 Turbo 深度思考模型发布,面向 Coding 与 Agent 时代全面升级

字节跳动在火山引擎上线豆包 Seed 2.1 系列模型,包括 Pro 和 Turbo 两个深度思考版本,以及 Seed-Evolving 迭代模型和角色模型。Pro 版本为面向 Coding 与 Agent 的旗舰模型,在 Coding 工程交付、Agent 长链路任务执行和多模态理解三大方向全面升级;Turbo 版本面向规模化生产,效果比肩 Pro

推理模型发布编码
10:06
jason@jxnlco
13
足够多的猴子用 codex 打字,其中一只就会造出 openclaw。
OpenAI大佬观点编码
09:44
小互@xiaohu
55
Codex 后台疯狂写入 SSD 耗尽硬盘寿命

用户反映 Codex 在后台持续写入大量日志文件,即使电脑闲置时也在高频擦写固态硬盘(SSD)。SSD 寿命由写入量决定,此类行为会加速硬盘损耗。虽然单次写入仅几百兆,但底层频繁擦写机制持续消耗硬盘寿命,相当于“偷跑”写入量。

现象/趋势编码
09:09
AYi@AYi_AInotes
65
Cline团队实测GLM-5.2 vs Claude Opus 4.8:修bug后构建稳定性差异

Cline团队用自家仓库真实bug测试GLM-5.2和Claude Opus 4.8。Opus速度快3倍(1.6分钟vs 4.7分钟)、token少一半(660K vs 1.1M)、价格贵一倍($0.81 vs $0.41),修好bug但生产构建崩溃,留下类型错误。GLM多花67% token、多2.3倍工具调用(28次vs 12次)、价格便宜一半,不仅修好bug还主动清理死代码,构建干净通过。根本差异在于训练目标:GLM被强化学习训练出验证文化,多花token跑构建、查类型、防回归;Opus追求高效却忽略隐患。排行榜只测修bug能力,测不出是否破坏生产环境。开源模型GLM在长周期代码智能体上找到差异化优势。

Cline: We've kept hearing how GLM-5.2 beats Opus 4.8, and are skeptical of benchmarks - so we tested them on a real bug from th...

开源生态编码评测/基准
08:40
meng shao@shao__meng
59
继 Claude Code 开发者用 HTML 代替 Markdown 向人类解释模型输出后,HeyGen 为其 HyperFrames 平台推出新技能 pr-to-video。智能体可将无人阅读的 Pull Request(PR)直接转化为简短解释性视频,用户可通过命令 `npx skills add heygen-com/hyperframes` 添加该技能。作者感叹视频或为人类最佳信息输入源,并表示将重启视频内容。

HeyGen: This week we're launching new skills for HyperFrames, each built around a workflow Today is pr-to-video Nobody reads pul...

MCP/工具产品更新编码视频
08:40
meng shao@shao__meng
37
智谱AI GLM-5.2火热但使用受限,作者拒付费咨询

智谱AI近期大热,作者收到针对「智谱 AI」的付费咨询邮件,但因对 GLM-5.2 尚未深入使用,且 Coding Plan 抢不到、Zcode 使用限流,也无法获取 Zcode 商单和赠送 Token,最终含泪拒绝了这次付费咨询。

现象/趋势编码
08:08
Ethan Mollick@emollick
55
让 Fable 如此令人印象深刻的是其跨长期项目的创造性问题解决和良好判断力 你可以看到这一点:当我让它制作一个自知的贪吃蛇游戏时。我没有给它任何设计反馈,只是说"让它更好" 值得一试:https://snake-stable-build.netlify.app/
智能体大佬观点编码
08:01
Simon Willison 博客
60
Moebius 0.2B图像修补模型借助Claude Code移植到浏览器运行

Moebius 0.2B轻量级图像修补模型(自称10B级性能)原依赖PyTorch与NVIDIA CUDA。Simon Willison使用Claude Code将其转换为ONNX格式,通过WebGPU后端在浏览器中运行。用户可上传图片、标记待修复区域,点击按钮等待模型修补。移植后的1.24 GB ONNX模型权重发布至Hugging Face,前端代码托管于GitHub Pages并启用自动部署。整个移植过程(含环境准备、模型转换、UI构建、部署)在Claude Code辅助下完成,作者还使用Claude.ai进行可行性调研。

Hugging Face教程/实践端侧编码
08:00
HuggingFace Daily Papers(社区热门论文)
37
基于检索增强搜索的LLM程序优化方法

提出检索增强搜索(RAS)方法,通过束搜索优化候选程序,每一步从慢-快程序对训练数据中检索上下文示例引导LLM。基于LLM生成的自然语言描述进行上下文检索效果优于基于源代码的检索。同时提出AEGIS方法,将训练示例分解为原子编辑以提高可解释性。在C++程序优化上,RAS比先前最先进黑盒适应策略性能提升2.06倍,AEGIS提升1.37倍且编辑量更小。对于Python程序,RAS使平均运行时间百分位提升10.27。

arXiv搜索编码论文/研究
06:41
Rohan Paul@rohanpaul_ai
50
Sakana Fugu Ultra 在多模型编码测试中视觉效果最优,但成本为 GLM 5.2 的 17 倍

Sakana Fugu Ultra 是一个多智能体协调层,通过 OpenAI 兼容端点将子任务路由给不同模型。在 @atomic_chat_hq 的实时交易桌面编码测试中(要求构建完整前后端、实时 API 数据、暗色主题 UI),Fugu Ultra 生成了最丰富的多面板界面(含图表、状态标签等),效果接近 GLM 5.2,但成本达后者的 17 倍:Fugu Ultra 耗 22,225 tokens / $0.51,GLM 5.2 耗 13,677 tokens / $0.03。对比模型 Opus 4.8(15,802 t / $0.31)和 GPT-5.5(11,474 t / $0.26)在质量与成本平衡上表现更佳。

atomic.chat: Sakana Fugu surprisingly performed near GLM 5.2 level but 17× more expensive! We gave the same prompt to 4 models: build...

智能体编码评测/基准
05:13
Claude Code:GitHub Releases(RSS)
54
Claude Code v2.1.186 发布

新增 claude mcp login/logout 命令,支持从 CLI 认证 MCP 服务器并完成 SSH 无浏览器重定向。新增 /workflows 状态过滤、/plugin Skills 部分及 teammateMode: "iterm2" 设置。! bash 命令改为自动触发 Claude 响应,可通过 respondToBashCommands 恢复原行为。修复了机器唤醒后流请求失败、子 agent 滚动错位、后台预览闪烁、Chrome 标签组隔离、重复会话摘要、权限提示编号错位等问题。改进了服务器名输入提示和记忆压缩提醒。CLAUDE_CODE_MAX_RETRIES 上限改为 15;后台子 agent 权限提示改为主会话显示并支持 Esc 拒绝。

AnthropicMCP/工具产品更新编码
‹ 上一页
1…7891011…50
下一页 ›