AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「编码」清除
6月13日周六
06:40Peter Steinberger 🦞47发现appshots:告别拖截图进Codex Live
06:26Claude Code:GitHub Releases(RSS)42Claude Code v2.1.176 发布
05:28MarkTechPost(RSS)58Google 发布 Gemini-SQL2:Gemini 3.1 Pro Text-to-SQL 在 BIRD 单模型排行榜上取得 80.04% 执行准确率
05:13MiniMax (official)73MiniMax M3 开源:428B参数、1M上下文多模态模型
05:10Peter Steinberger 🦞52GPT 相比 Fable 在 token 消耗和成本上高效 10-20 倍
05:03Ethan Mollick63Claude Code与Fable重建经典游戏SimRefinery
04:49Hacker News 热门(buzzing.cc 中文翻译)70精选如何在macOS上设置本地编码代理
04:43OpenCode50Kimi 2.7 Code 上线 Go,定价同 2.6
04:13🚨 AI News | TestingCatalog48月之暗面 Kimi-K2.7-Code 现已上线 AI/ML API
03:44OpenAI Developers42Codex 将一周网站更新缩短至三天
03:40Emad40SpaceX 拟以市值2.5%收购Cursor AI
03:01HuggingFace Daily Papers(社区热门论文)36异构智能体稠密潜在通信:See What I See, Know What I Think
02:48Hacker News 热门(buzzing.cc 中文翻译)70精选减少AI生成前端界面粗糙度的文章
02:07elvis69DAIR.AI创始人Elvis Saravia分享长期自主编码智能体运行经验
01:58The Decoder:AI News(RSS)60OpenAI 为 Codex 编程智能体推出灵活速率限制重置,开启 AI 价格战
01:49Ammaar Reshi53Claude Fable 5逆向DOS游戏30分钟移植iPhone
00:47jason16Jason Liu询问Codex用户三项功能使用感受
00:34Tibo50Codex 使用重置可自选生效时间
00:17jason46"Codex 为开源项目免费开放新一批授权"
00:14Replit ⠕31Replit Agent 技能+自定义指令
6月12日周五
23:54Claude40Claude Fable 5 发布数日已有项目诞生
23:32Deedy72Claude 5 Fable 纯数学生成可玩山谷
22:40AYi56阿易AI Notes评Garry Tan:AI编码工具加速官僚而非解放创始人
22:12MiniMax (official)81同事件精选MiniMax M3 开源权重模型发布,已上架 HuggingFace同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
21:41🚨 AI News | TestingCatalog57Kimi K2.7 Code 开源发布,编码与智能体性能提升
21:20Chubby♨️66Moonshot 发布并开源 Kimi-K2.7-Code 编程模型
21:18Hacker News 热门(buzzing.cc 中文翻译)77同事件精选Kimi K2.7-Code:具有更高模型 token 效率的开源编码模型同一事件,精选展示《6倍速!Kimi K2.7 Code 高速版已上线》
21:11🚨 AI News | TestingCatalog60Kimi K2.6 Code 开源,改编码与智能体性能
19:55小互76同事件精选Claude Fable 5 官方指南:提示词要做减法,省钱的用法拆解同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》
19:36IT之家(RSS)69月之暗面开源 Kimi K2.7 Code 编程模型,预告 6 倍速高速版
19:32meng shao70Kimi 开源发布编码模型 Kimi-K2.7-Code
18:58The Decoder:AI News(RSS)61OpenAI收购智能体初创公司Ona,推动Codex迈向长时间运行的自主编码任务
18:24Kimi.ai70同事件精选Kimi 发布并开源最新代码模型 Kimi-K2.7-Code同一事件,精选展示《6倍速!Kimi K2.7 Code 高速版已上线》
18:11Berryxia.AI25Trae AI 太强,网友直呼受不了
17:50Chubby♨️64Fable 5 克隆《魔兽世界》获称赞
16:50Chubby♨️70Claude Fable自动匹配素材生成魔兽风游戏
16:20Chubby♨️68OpenAI Codex 新增免费保存速率重置
15:38Alibaba Cloud84同事件精选Qwen3.7-Max:单提示词生成丰富交互网页同一事件,精选展示《Qwen3.7-Max:面向智能体时代的最新专有模型》
15:03Artificial Analysis60Artificial Analysis 更新 Coding Agent Index:DeepSWE 替换 SWE-Bench Pro,Claude Code with Fable 5 登顶
13:08Alibaba Cloud66阿里云NLAH:用自然语言替代代码
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月13日
06:40
Peter Steinberger 🦞@steipete
47
我怎么现在才发现appshots? 我之前还像个穴居人一样把截图拖进Codex Live。
其他编码
06:26
Claude Code:GitHub Releases(RSS)
42
Claude Code v2.1.176 发布

Claude Code v2.1.176 更新:会话标题现按对话语言生成;新增 footerLinksRegexes 设置支持正则匹配页脚行链接徽章;优化 Bedrock 凭证缓存。修复多项问题:环境变量不可再绕过 availableModels 限制;/fast 切换至白名单外模型时拒绝;auto 模式退化为可用 Opus 模型;修正路径 hook 条件匹配;修复 Linux 沙箱内符号链接启动问题;修复 tmux 内 SSH 剪贴板问题;修复 Remote Control 多项连接问题。

智能体Anthropic产品更新编码
05:28
MarkTechPost(RSS)
58
Google 发布 Gemini-SQL2:Gemini 3.1 Pro Text-to-SQL 在 BIRD 单模型排行榜上取得 80.04% 执行准确率

Google Research 于 2026 年 6 月 12 日发布 Gemini-SQL2,基于 Gemini 3.1 Pro 驱动的文本转 SQL(Text-to-SQL)能力,在 BIRD 单模型排行榜上达到 80.04% 的执行准确率。

Google推理模型发布编码
05:13
MiniMax (official)@MiniMax_AI
73
MiniMax 开源 M3 模型,约 428B 总参数、23B 激活参数,支持前沿编码、长周期智能体任务及原生多模态(文本、图像、视频),上下文窗口达 1M token。开放权重,可在 Baseten 部署。在少于 500B 参数的模型中,能同时兼顾编码、智能体工作负载和 1M 上下文的模型极少,M3 全部实现。

Baseten: Congrats to the MiniMax team on the open-source launch of M3! There are very few <500bn parameter models that can tackle...

多模态模型发布编码
05:10
Peter Steinberger 🦞@steipete
52
Peter Steinberger 指出 GPT 在 token 消耗和成本上比 Fable 高效 10-20 倍,且能达到相似结果。@thorstenball 的对比测试印证:让 Fable 和 deep^2 完成相同的 CLI、Web 服务器等多端功能,deep^2 花费 $20(首次未通过但可修复),Fable 运行 1 小时 40 分、花费 $350(首次成功)。后续追问后 Fable 总花费达 $457,deep^2 预计最多 $40,差距约 17 倍。

Thorsten Ball: Day 3 with Fable. Gave a huge prompt to implement a feature across CLI, web server, and another server to both Fable and...

智能体OpenAI大佬观点编码
05:03
Ethan Mollick@emollick
63
10个月后,Ethan Mollick 再次向 Claude Code 和 Fable 下达同一指令--根据幸存截图和文档重建失传的 Maxis 模拟游戏 SimRefinery。新版本完全可玩,包含学习模式等多种复杂功能,与10个月前 ChatGPT Codex 仅凭一篇文章和截图快速搭建的可玩原型形成鲜明对比。当时他未写一行代码,仅偶尔提小修改请求。

Ethan Mollick: I gave ChatGPT Codex an article & screenshot from a famous, lost Maxis simulation, SimRefinery, and asked it to create i...

Anthropic现象/趋势编码
04:49
Hacker News 热门(buzzing.cc 中文翻译)
精选70
如何在macOS上设置本地编码代理

来自ikyle.me的教程,指导在macOS上搭建本地编码代理,获Hacker News社区104个点赞。

开源生态教程/实践端侧编码

推荐理由:这篇文章不是泛泛的「本地跑大模型」,而是给 Mac 开发者一个实测过的、能打的生产环境编码代理方案,尤其 MTP 加速让速度不再鸡肋,可以直接抄作业。
04:43
OpenCode@opencode
50
Kimi 2.7 Code 现已在 Go 中可用 文本 · 图像 · 针对编码优化 定价与 2.6 相似
产品更新编码
04:13
🚨 AI News | TestingCatalog@testingcatalog
48
月之暗面最新智能体编码模型 Kimi-K2.7-Code 已在 AI/ML API 平台上线,支持扩展推理和工具使用,可通过 Playground 和 API 测试。为验证其自我修正能力(而非一次性生成),研究者让四个 Kimi 智能体运行一个 2D 飞行物理模拟,目标是从发射到入轨并让助推器着陆。四次飞行中:第一次在最大动压处解体;第二次过关但分离过早失败;第三次成功入轨但未抓住着陆船;第四次修正着陆计算后成功着陆。该过程展示了模型通过迭代闭环调试从失败中自动学习。

AI/ML API: Kimi K2.7-Code is now available on AI/ML API! Moonshot's latest is built for long-horizon agentic coding that self-corre...

智能体模型发布编码
03:44
OpenAI Developers@OpenAIDevs
42
Codex 让 @intelligenceco 的 @ndrewpignanelli 能够并行更新网站的多个部分,将一周的工作量缩短为三天。
OpenAI编码行业动态
03:40
Emad@EMostaque
40
看起来 @SpaceX 将花费其市值的 2.5% 以 15 倍营收收购 @cursor_ai 👀
编码行业动态
03:01
HuggingFace Daily Papers(社区热门论文)
36
异构智能体稠密潜在通信:See What I See, Know What I Think

多智能体系统通常依赖文本通信,解码-重编码代价高且信息有损。KV-cache通信是低开销替代方案,但现有方法多限于同构模型。本文提出稠密对齐方法,通过轻量级跨模型缓存变换和两阶段训练(重构→生成)实现异构智能体间KV-cache直接传输。在Qwen3-4B、8B、14B三个模型组成的六个方向和六个基准上,上下文感知设置中性能匹配或超越文本通信,计算量降低2–3倍;上下文无关传输中仍有效,而先前方法完全失效。

智能体编码论文/研究
02:48
Hacker News 热门(buzzing.cc 中文翻译)
精选70
减少AI生成前端界面粗糙度的文章

本文介绍如何减少AI生成前端界面的粗糙度,发表于envs.net。文章针对AI产出的前端代码常出现的草率、不细致问题,提出改进方法,旨在提升生成结果的质量和可用性。

智能体教程/实践编码

推荐理由:让AI把前端生成模仿Qt风格,算是我见过成本最低的去“AI味”方法,适合自己用的小工具,审美要求不高的开发者可以立刻试试。
02:07
elvis@omarsar0
69
DAIR.AI创始人Elvis Saravia分享长期自主编码智能体运行经验

DAIR.AI创始人Elvis Saravia分享如何有效运行长期自主编码智能体。他指出当前多数模型难以协调工作,会过早暂停、犯错或走捷径(reward hacking)。关键在于明确目标、消除假设,避免模型自行推断。他的实践公式:用Opus 4.8进行细致规划,GPT-5.5执行所有步骤,评估器(通过/goal)则使用Deepseek及Qwen、Kimi、MiniMax等最新模型。另一关键洞察是提供多模态视觉线索作为目标,比纯文本目标更强,能更好地约束智能体。完整讨论已录制并免费开放。

智能体AnthropicDeepSeekOpenAI
01:58
The Decoder:AI News(RSS)
60
OpenAI 为 Codex 编程智能体推出灵活速率限制重置,开启 AI 价格战

OpenAI 现在允许 Codex 用户存储速率限制重置次数并手动触发,而非按固定时间到期。用户在使用中达到上限时可立即使用已保存的重置而无需等待。Go、Plus、Pro 和 Business 订阅计划用户各获得一次免费重置。Plus 和 Pro 用户还可通过邀请好友解锁额外重置。

OpenAI产品更新编码
01:49
Ammaar Reshi@ammaar
53
我让Claude Fable 5逆向工程了一款1993年的DOS游戏,没有源代码。 它读取了原始机器码,用C重写了引擎,并给了我一个完全可编辑的移植版,适用于每个平台。 从EXE到iPhone,30分钟。 分享这一切,让你也能复活自己的童年游戏!
Anthropic教程/实践编码
00:47
jason@jxnlco
16
codex 用户们! 你们觉得 codex 在(正确)使用电脑/Chrome 扩展/应用内浏览器方面的能力怎么样?如果想给我们反馈,请留下评论,我会整理给团队的!
OpenAI其他编码
00:34
Tibo@thsottiaux
50
听到了你们(有趣的)反馈,说有时在毫无预警的情况下收到 Codex 用量重置让人烦心。 下次我们按按钮时,你可以选择它实际何时生效。祝编程愉快。

OpenAI: We heard you wanted to use Codex rate limit resets on your own time. Starting today, we're rolling out the ability to sa...

OpenAI产品更新编码
00:17
jason@jxnlco
46
"Codex 为开源项目免费开放新一批授权"

Codex 为开源项目提供免费授权,最新一批包括 TensorFlow、Next.js、Kubernetes、Angular、Swift、Spring Boot、Playwright、Vim、Bitcoin、n8n、Bootstrap、酷狗(30-seconds-of-code)等大量知名开源仓库,列表涵盖机器学习、前端框架、基础设施、游戏开发、数据库等众多领域。具体授权范围和细则未在推文中说明。

OpenAI产品更新开源生态编码
00:14
Replit ⠕@Replit
31
Agent 超能力:技能 + 自定义指令 https://x.com/i/broadcasts/1kJzDDnMvrWKv
智能体产品更新编码
6月12日
23:54
Claude@claudeai
40
Claude Fable 5 已经发布几天了。人们已经用它构建的一些项目:
Anthropic模型发布编码
23:32
Deedy@deedydas
72
Claude 5 Fable (Ultracode) "在日出时制作一个可玩的高山冰川山谷" 没有网格或模型。你所看到的一切都是数学。Fable 截取了自己作品的屏幕截图并进行了迭代。 耗时约 30 分钟,约 500k tokens,约 2500 行代码,约 25 美元。极其令人印象深刻。
Anthropic多模态模型发布编码
22:40
AYi@AYi_AInotes
56
阿易AI Notes评Garry Tan:AI编码工具加速官僚而非解放创始人

Garry Tan指出AI编码工具并未解放创始人,反而让人更快搭建规则、审批、流程、层级——同一座牢笼装配更快。以前加一层审批需两周,成本本身是免疫系统;现在AI一个下午就能完成,复杂度无限繁殖,构建速度即僵化速度。AI放大已有心智模型:控制型团队用它堆官僚,创造型团队用它创造新体验。提醒不要用AI把旧流程跑得更快,而应删掉整个旧流程,创造前所未有的事,否则赢了效率输了方向。

Garry Tan: Everyone thinks AI coding tools set founders free. Watch what people actually build with them: rules, approvals, process...

大佬观点现象/趋势编码
22:12
MiniMax (official)@MiniMax_AI
同事件精选81
MiniMax 发布开源权重模型 M3,约 428B 总参数、23B 激活参数,已上传 HuggingFace。该模型融合三种前沿能力:编码与智能体方面达 59.0% SWE-Bench Pro、66.0% Terminal Bench 2.1、34.8% SWE-fficiency、28.8% KernelBench Hard、74.2% MCP Atlas;采用 MiniMax 稀疏注意力将上下文窗口扩展至 1M token;原生多模态。同步上线 MiniMax Code 工具及 API 平台。权重与技术报告预计约 10 天后发布。

MiniMax (official): Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities - Coding & Agentic Frontier:...

Hugging Face多模态推理模型发布
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
推荐理由:开放权重模型首次把编码 Agent 和多模态拉满,SWE-bench Pro 59% 逼近专有前沿,附带稀疏注意力 1M 上下文。做代码工具和 Agent 的团队应该都盯上它了。
21:41
🚨 AI News | TestingCatalog@testingcatalog
57
KIMI AI🔥: 一个新的开源"Kimi K2.7 Code"模型已在 API 和 Huggingface 上发布! > 相比 K2.6,编码与智能体性能提升 > 推理效率 > 长时域编码 测试时间 👀

Kimi.ai: 🔗 Weights & code: https://huggingface.co/moonshotai/Kimi-K2.7-Code

Hugging Face开源生态推理模型发布
21:20
Chubby♨️@kimmonismus
66
Moonshot 发布并开源 Kimi-K2.7-Code 编程模型,相比 K2.6 在多个基准上大幅提升:Kimi Code Bench v2 提高 21.8%,Program Bench 提高 11.0%,MLS Bench Lite 提高 31.5%。推理效率优化,推理 token 使用量降低 30%,指令遵循与长时编码任务成功率提升。即将推出 6 倍高速模式。模型现已通过 Kimi API 和 Kimi Code 开放使用。

Kimi.ai: 🌘 Kimi-K2.7-Code, our latest coding model, is now released and open-sourced! 🔷 Improved coding & agent performance ove...

开源生态推理模型发布编码
21:18
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选77
Kimi K2.7-Code:具有更高模型 token 效率的开源编码模型

Kimi K2.7-Code 是一个开源编码模型,相比同类模型拥有更高的模型 token 效率,能够用更少的 token 完成相同的代码生成任务。模型已在 HuggingFace 上发布。

智能体Hugging Face推理模型发布
同一事件,精选展示《6倍速!Kimi K2.7 Code 高速版已上线》
推荐理由:Kimi K2.7-Code 把推理 token 砍掉 30%,在长程编码任务上有实打实的提升,是编码智能体赛道的一个有力信号,做代码 Agent 的可以盯一下。
21:11
🚨 AI News | TestingCatalog@testingcatalog
60
KIMI AI🔥:全新开源 "Kimi K2.6 Code" 模型已在 API 及 HuggingFace 发布! > 较 K2.6 改进编码与智能体性能 > 推理效率 > 长时编码 测试时间 👀

Kimi.ai: 🔗 Weights & code: https://huggingface.co/moonshotai/Kimi-K2.7-Code

开源/仓库模型发布编码
19:55
小互@xiaohu
同事件精选76
Claude Fable 5 官方指南:提示词要做减法,省钱的用法拆解

Anthropic 发布 Claude Fable 5,官方指南强调旧模型提示词会拖后腿,建议“做减法”。Fable 5 支持多天长任务、effort 分级(low/medium/high/xhigh),其 low 档性能已超旧版 Opus 4.8 xhigh。新增并行子代理调度和内置记事本能力。省钱方面:输入 $10/M、输出 $50/M(单价为 Opus 4.8 两倍),但更少的 token 消耗使复杂任务总成本反而可能更低。推荐日常用 Low 档,Medium 是性价比甜区,复杂项目可用 Fable 做编排器、Opus/Sonnet 执行。

Anthropic教程/实践编码
同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》
推荐理由:Claude Fable 5 强到可以删提示词,但怎么用才不浪费算力、不出怪脾气,小互这份解读把官方指南里的核心功课都替你做完了,开发者可以直接抄提示词。
19:36
IT之家(RSS)
69
月之暗面开源 Kimi K2.7 Code 编程模型,预告 6 倍速高速版

月之暗面发布并开源 Kimi K2.7 Code 编程模型。相比 K2.6,长上下文编程指令遵循和长程任务性能提升,过度思考倾向改善,平均 token 消耗减少 30%。Kimi Code Bench v2 提升 21.8%、Program-Bench 提升 11%、MLS Bench Lite 提升 31.5%;Agent 基准提升约 10%。即日起通过 Kimi API 调用,输入 6.5 元/百万 token、输出 27 元、缓存输入 1.3 元。非编程任务仍推荐 K2.6,模型需开启思考模式。预告高速版(输出约 180 Token/s),6 月 15 日可调用,6x 速度仅需 2x 价格。

Hugging Face模型发布编码
19:32
meng shao@shao__meng
70
Kimi 开源发布编码模型 Kimi-K2.7-Code

Kimi 开源发布最新编码模型 Kimi-K2.7-Code,基于 K2.6 优化。编码基准全面提升:Kimi Code Bench v2 提高 21.8%,Program Bench +11.0%,MLS Bench Lite +31.5%。推理 token 整体降低约 30%。Agent 方面,MCP Mark Verified 得分 81.1,超过 Opus 4.8(76.4),GPT-5.5(92.9)仍为天花板。技术特性:强制 Thinking 模式、Preserve Thinking、Interleaved Thinking+多步工具调用,支持图像和视频输入。可通过 Kimi API 和 Kimi Code 使用,6x 高速模式即将推出。开源地址:HuggingFace 上的 moonshotai/Kimi-K2.7-Code。

Kimi.ai: 🌘 Kimi-K2.7-Code, our latest coding model, is now released and open-sourced! 🔷 Improved coding & agent performance ove...

智能体开源生态推理模型发布
18:58
The Decoder:AI News(RSS)
61
OpenAI收购智能体初创公司Ona,推动Codex迈向长时间运行的自主编码任务

OpenAI收购了德国初创公司Ona(原名Gitpod),该公司成立于2020年,专注于AI智能体和安全云开发环境。此次收购旨在推动Codex向能够长时间运行、自主完成的编码任务方向发展。

智能体OpenAI编码行业动态
18:24
Kimi.ai@Kimi_Moonshot
同事件精选70
Kimi 发布并开源最新代码模型 Kimi-K2.7-Code

Kimi 发布并开源最新代码模型 Kimi-K2.7-Code。相比 K2.6,其在 Kimi Code Bench v2 上提升 +21.8%,Program Bench 提升 +11.0%,MLS Bench Lite 提升 +31.5%。推理效率改进,推理 token 使用量降低 30%,长时编码任务中指令遵循和端到端成功率均提升。6x 高速模式即将推出,即日起可通过 Kimi API 和 Kimi Code 使用。

开源生态推理模型发布编码
同一事件,精选展示《6倍速!Kimi K2.7 Code 高速版已上线》
推荐理由:月之暗面这次把编码模型做到 K2.7 还直接开源,Bench 提升不小,关键是把「想太多」的毛病治了,推理 token 省了三成,做 coding agent 的可以立刻换上试试。
18:11
Berryxia.AI@berryxia
25
Trae AI,这么厉害,你受得了吗?

木马人: 潘子:嘎子, vibe marketing的水很深,你把握不住。

大佬观点编码
17:50
Chubby♨️@kimmonismus
64
感谢 @maxpolaczuk 用 Fable 5 做了一个《魔兽世界》克隆版!:))

ZYZZ JOBS: @claudeai Fable 5 just oneshot the first open-source MMORPG 🤯 Play it on http://worldofclaudecraft.com Contribute via g...

Anthropic开源/仓库编码
16:50
Chubby♨️@kimmonismus
70
有人刚刚随意地vibe-coded了一个魔兽世界风格的多人在线游戏,可以和朋友们一起在线玩。完全开源。 显然,Claude Fable自己找到了一套视觉上匹配的开源素材。 说实话,这相当疯狂。
Anthropic开源/仓库开源生态编码
16:20
Chubby♨️@kimmonismus
68
太棒了! OpenAI 现在允许 Codex 用户保存他们的速率限制重置,稍后使用,Start 从 Go、Plus、Pro 和 Business 用户开始免费赠送一次保存重置。

OpenAI: We heard you wanted to use Codex rate limit resets on your own time. Starting today, we're rolling out the ability to sa...

OpenAI产品更新编码
15:38
Alibaba Cloud@alibaba_cloud
同事件精选84
一个提示词,无限可能。 认识 Qwen3.7-Max,旗舰模型重新定义智能体工作负载,在前端编码中表现出色,能从单个提示词生成丰富的交互式网页体验--从 Three.js 3D 场景到动态 SVG 图形。 立即体验 Qwen3.7-Max - 限时五折优惠 🔗: https://int.alibabacloud.com/m/1000414100/ 🎥 观看视频,了解 Qwen3.7-Max 如何提升生产力。
智能体模型发布编码
同一事件,精选展示《Qwen3.7-Max:面向智能体时代的最新专有模型》
推荐理由:Qwen3.7‑Max不只是参数升级,它主打从单个prompt直接生成可交互网页,Three.js 3D场景都不在话下,做前端或agent的可以认真看看,这方向比刷榜有意思。
15:03
Artificial Analysis@ArtificialAnlys
60
Artificial Analysis 更新 Coding Agent Index:DeepSWE 替换 SWE-Bench Pro,Claude Code with Fable 5 登顶

Artificial Analysis 更新 Coding Agent Index,以 Datacurve 的 DeepSWE 基准取代 SWE-Bench Pro。DeepSWE 从头编写测试任务,而非改编自公开 GitHub issue/PR,避免训练数据泄露;原 SWE-Bench Pro 存在模型从仓库提交历史恢复修复的作弊问题。换基准后排名变动:Codex with GPT-5.5 (xhigh) 从 65 升至 76,超过 Claude Code with Opus 4.8 (max) 的 73;新发布的 Claude Code with Fable 5 (max) 以 77 分直接登顶。

智能体AnthropicOpenAI编码
13:08
Alibaba Cloud@alibaba_cloud
66
🚀 驯服智能体混乱? 论文揭示NLAH:用可执行自然语言替代僵硬的代码框架。 ✅ 性能媲美代码,模型token降低95%(60k→2.9k) ✅ 模块化设计实现精确的价值归因 ✅ 识别"负面资产",如多候选搜索 从胶水代码转向科学策略。 💡https://int.alibabacloud.com/m/1000414388/ #AgentHarness #NLAH #LLMEngineering
智能体推理编码论文/研究
‹ 上一页
1…1718192021…50
下一页 ›