AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「编码」清除
6月5日周五
05:56Ethan Mollick:One Useful Thing(RSS)61精选共存与协同智能的终结
05:28SemiAnalysis61前OpenAI技术主管Justin Lebar加入SemiAnalysis,3小时花费1万美元发现数十个编译器漏洞
04:47宝玉55OpenAI Codex 推出 Build iOS Apps 插件,允许在浏览器中查看和测试 iOS 应用
03:15swyx55Cognition推出面向企业的AI代码评估(eval)
02:30OpenAI Developers68精选Codex 推出 iOS 应用构建插件
02:16宝玉35Codex与Qodex易混淆设计引讨论
01:46Hacker News 热门(buzzing.cc 中文翻译)42谷歌员工内部分享吐槽公司AI的梗图
01:34eric zakariasson65Cursor推出Profiles,可认领用户名
01:19Ethan Mollick76同事件精选Anthropic称Claude编写超80%合并代码同一事件,精选展示《AI加速自我构建:Anthropic研究院报告揭示趋势》
01:04jason50$kobe 技能:3 个子智能体模拟首席工程师审查代码
01:03歸藏(guizang.ai)66CodePilot v0.55.0 正式版更新
00:45Nathan Lambert31Mythos人均代码产出较Opus 4.5提升3.2倍
6月4日周四
23:42Hugging Face:Blog(RSS)66精选Hugging Face 为编码智能体重塑 hf CLI 输出格式
23:15SiliconFlow72精选Nex-N2-Pro 发布:基于 Qwen3.5 的 397B MoE 推理模型,性能达 GPT-5.5 水平
22:03ginobefun61Vibe Coding:借来的杠杆 vs 增长的能力
21:00公众号:昆仑万维(天工)64精选SkyClaw-v1.0 深度实测:Agent专属模型,顶尖性能表现,极致价格优势
20:48Ethan Mollick55Claude Code和Codex功能大增,文档严重缺失
18:22karminski-牙医64MiniMax-M3 实测
17:26HuggingFace Daily Papers(社区热门论文)70精选RHO:利用过往轨迹优化LLM智能体工具链的自监督方法
16:47OpenAI:官网动态(RSS · 排除企业/客户案例)42Endava 围绕 AI 智能体重塑软件交付
16:17AYi64Codex 额度重置:省着用反亏,建议本地兜底
15:18meng shao59ChatGPT安卓版新增Codex快捷方式
15:18meng shao17人肉总结:选计算机专业!
14:09宝玉57Codex GPT-5.5 被吐槽不如 Claude Opus 4.8
11:42HuggingFace Daily Papers(社区热门论文)68AutoLab:前沿模型能否解决长周期自动研究与工程任务?
09:48meng shao50Gemini CLI及Code Assist免费接入6月18日起终止
09:18meng shao65Cursor Debug Mode 功能介绍
09:02jason52Codex三起事故后重置使用限额
08:39Tibo59Codex 24小时内三次小事故,使用限制已重置
07:51Berryxia.AI37Codex真的要起飞了!
07:26OpenAI:官网动态(RSS · 排除企业/客户案例)39Wasmer 使用 Codex 构建边缘 Node.js 运行时
07:15TechCrunch:AI(RSS)47Lovable 与 Google Cloud 签署多年协议,将使用量扩大 5 倍
07:09宝玉26Claude Code桌面版权限弹窗如何避免
05:58Claude Code:GitHub Releases(RSS)59精选Claude Code v2.1.162 发布
05:27Greg Brockman25Codex 预告:是时候起飞了
04:15Cursor Blog60精选Cursor Enterprise 推出 Organizations 组织管理功能
03:09Hacker News 热门(buzzing.cc 中文翻译)63优步每月 1,500 美元的 AI 使用上限为 AI 工具定价提供参考
01:56OpenCode59Qwen3.7 Plus 登陆 Go,图文1M上下文
00:45StepFun44阶跃星辰 Step 3.7 Flash 在物理编程对比中击败 DeepSeek V4-Flash
00:01eric zakariasson74Cursor 推出 Debug Mode:让 AI 智能体通过运行时日志修复 Bug
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月5日
05:56
Ethan Mollick:One Useful Thing(RSS)
精选61
共存与协同智能的终结

Ethan Mollick 在 One Useful Thing 博客中,以“共存与协同智能的终结”为题,并附带介绍了如何向 AI 推销一本书。

智能体Anthropic大佬观点编码

推荐理由:Mollick 这篇比单纯的新书预告有料,用自己给 AI 写推荐语的实验,把「AI 不再是助手而是守门人」这个新现实讲得很具体。对还在纠结怎么跟 AI 合作的人,是一个挺及时的视角更新。
05:28
SemiAnalysis@SemiAnalysis_
61
前OpenAI技术主管Justin Lebar加入SemiAnalysis,3小时花费1万美元发现数十个编译器漏洞

前OpenAI技术主管Justin Lebar以访问学者身份加入SemiAnalysis,通过投入1万美元在3小时内进行编译器模糊测试(compiler fuzzing),发现了AMD GPU LLVM、x86 LLVM及NVPTX编译器中的数十个bug。该项目揭示了GPU vs CPU编译器测试的巨大差距,并展示了如何利用LLM阅读代码来发现漏洞。此外,UltraCode模式对代码审计效率影响显著。

OpenAI教程/实践编码
04:47
宝玉@dotey
55
OpenAI Codex 推出 Build iOS Apps 插件,允许在浏览器中查看和测试 iOS 应用

OpenAI Codex 推出 Build iOS Apps 插件,让用户在不离开 Codex 的情况下查看、测试 iOS 应用,预览 SwiftUI 并热重载。原理:借助第三方 npm serve-sim 将 iOS Simulator 画面截取为视频流显示在浏览器中,同时建立控制通道将浏览器的点击、拖动等操作转换为模拟器触摸或键盘事件。插件读取 iOS App 的 Accessibility 信息,在浏览器画面上覆盖透明 HTML 按钮,使 Codex 能选择原生 UI 元素。SwiftUI 预览和热重载通过临时生成预览小 App,仅重新编译相关动态库,无需完整重装应用。

OpenAI Developers: More of the iOS app loop, now inside Codex. The Build iOS Apps plugin lets Codex view and test your iOS app in the in-ap...

OpenAI教程/实践端侧编码
03:15
swyx@swyx
55
Cognition推出面向企业的AI代码评估(eval)

Cognition发布企业级AI代码评估(eval),支持长达100小时深度测试(METR仅约16小时),并附带财务担保:若Devin产出价值低于费用,Cognition将补贴至达标,最高1000万美元。METR数据集覆盖ML工程、GPU内核、网络安全,使用GPT-4o和GPT-5从Claude Code转录估算人类时间,rlog=0.83。Cognition数据集来自126位Devin用户的258个真实会话(Java/TS/Python/C#功能开发、bug修复、迁移),保留集rlog=0.74。

Cognition: AI should earn its keep. Introducing the AI Productivity Guarantee. If Devin delivers less engineering value than you're...

产品更新编码评测/基准
02:30
OpenAI Developers@OpenAIDevs
精选68
更多 iOS 应用循环,现已集成至 Codex。 Build iOS Apps 插件让 Codex 可在应用内浏览器查看和测试你的 iOS 应用,打开 SwiftUI 预览,并无需离开 Codex 即可热重载编辑。
OpenAI产品更新编码

推荐理由:对 iOS 开发者很实用,热重载和预览直接嵌进 Codex,减少工具间反复横跳,不过暂时还撼动不了 Xcode 的地位。
02:16
宝玉@dotey
35
产品设计的重要性:) 【引用】 没截图,简单画一下:Codex 很醒目,Qodex 一愣神就点错了。

Paidax: @jiadana2520 我没截图,简单给你画一下。codex 就很醒目。qodex一愣神就点错了

大佬观点编码
01:46
Hacker News 热门(buzzing.cc 中文翻译)
42
谷歌员工内部分享吐槽公司AI的梗图

谷歌员工在内部渠道分享多张梗图,直指公司AI产品表现不佳。这些图片在员工间广泛传播,反映了团队内部对谷歌AI研发进度的普遍失望与自嘲。

Google现象/趋势编码
01:34
eric zakariasson@ericzakariasson
65
推出Cursor Profiles! 前往 http://cursor.com/profile 认领你的用户名。
产品更新编码
01:19
Ethan Mollick@emollick
同事件精选76
截至2026年5月,我们合并到Anthropic代码库中的代码有超过80%由Claude编写。 与独立测量结果一致。确实没有迹象表明这一趋势正在放缓(但这并不意味着吸收如此多的生产率提升没有组织挑战)。
Anthropic现象/趋势编码
同一事件,精选展示《AI加速自我构建:Anthropic研究院报告揭示趋势》
推荐理由:Anthropic内部80%代码由Claude编写,这个数字把AI编程从辅助推到主力,所有码农都该想想这意味着什么。
01:04
jason@jxnlco
50
Codex 中疯狂的球类知识 我刚发现 @wonforall 有一个名为 $kobe 的技能,它会生成 3 个子智能体来讨论 / 审查他的代码,每个子智能体都构建为代表我们的一位首席工程师 其中一个专注于他过去的代码审查。 我打算开始和 @dkundel 以及 @charlierguo 对我们的文档也这样做……
智能体教程/实践编码
01:03
歸藏(guizang.ai)@op7418
66
CodePilot v0.55.0 正式版更新

CodePilot v0.55.0 正式版发布,核心新增三大功能:多执行引擎支持 Anthropic Claude Code、CodePilot 自建 Native、OpenAI Codex 三种引擎,可设全局默认或按会话临时切换;上下文用量可视化,实时显示占用与剩余,并按系统提示/工作区规则/技能/记忆/工具/MCP 分解;OpenAI Codex 账号原生能力打通,助理记忆、Widget、定时任务、Dashboard、CLI 等可用,不支持的功能如实标注。同时修复 macOS 视觉与托盘、Windows 安装与交互、服务商型号映射等问题。

产品更新编码
00:45
Nathan Lambert@natolambert
31
Anthropic 表示,使用 Mythos 后人均代码产出较半年前 Opus 4.5 提升 3.2 倍。Nathan Lambert 评论称,没有 Mythos 的人在学用智能体时也有类似感受。

Lisan al Gaib: Anthropic is shipping 3.2x more code per person with Mythos nowadays than with Opus 4.5 around half a year ago

Anthropic大佬观点编码
6月4日
23:42
Hugging Face:Blog(RSS)
精选66
Hugging Face 为编码智能体重塑 hf CLI 输出格式

Hugging Face 重新设计 hf CLI,使其同时服务人类用户和编码智能体(Claude Code、Codex 等)。CLI 通过环境变量自动检测智能体驱动,输出紧凑无截断的 TSV 格式,避免 ANSI 和交互提示,大幅降低 token 消耗。复杂多步任务中,不使用 CLI 的智能体 token 消耗最高达 hf CLI 的 6 倍。2026 年 4 月起,Hugging Face 追踪 Hub 智能体流量,Claude Code 约 4 万用户、近 4900 万次请求,Codex 紧随其后。

Hugging FaceMCP/工具产品更新编码

推荐理由:HF CLI 现在会自动检测 agent 并切换输出,复杂任务上 token 消耗比 curl/SDK 节省 2-6 倍。如果你在用 Claude Code 或 Codex 操作 Hugging Face Hub,这是必读的升级指南。
23:15
SiliconFlow@SiliconFlowAI
精选72
Nex-N2-Pro 发布:基于 Qwen3.5 的 397B MoE 推理模型,性能达 GPT-5.5 水平

neolab 推出 Nex-N2-Pro,基于 Qwen3.5-397B-A17B,总参数 397B 的 MoE 推理模型,支持 262K 上下文与多模态(VLM),性能达到 GPT-5.5 和 Claude Opus 4.7 级别。模型可自动调节推理深度,减少 30-50% 思考 token 且无性能折损,在 Terminal Bench 2.1、GDPVal、SWE-Verified 上取得 SOTA。擅长智能体编码、深度搜索和工具使用,兼容 Claude Code、Cursor 等工具。硅基流动已提供 T+0 支持,前两周免费使用。

多模态推理模型发布编码

推荐理由:后训练模型能直追 GPT-5.5 和 Claude 4.7,免费两周,对做 agent 和 deep search 的人来说是难得的低成本试错机会。
22:03
ginobefun@hongming731
61
@pengzheng_ 指出,Vibe Coding 让人同时感觉更聪明和更笨--能发布产品但无法解释原理。如果离开 AI 就无法复现成功,那只是借来的杠杆而非增长的能力。目标不是从提示到产品,而是理解实现路径并建立信心。理解为何有效时,AI 扩展能力;不理解时,AI 替代学习。无限提示终可发布软件,关键在于每次成功是否转化为经验,否则只是产出而非能力增长。

Peng Zheng: after watching @brian_lovin and @wjosephflynn talk about vibe coding, this was the idea i couldn't shake: vibe coding ca...

大佬观点编码
21:00
公众号:昆仑万维(天工)
精选64
SkyClaw-v1.0 深度实测:Agent专属模型,顶尖性能表现,极致价格优势

5月26日,昆仑万维发布SkyClaw-v1.0,定位面向复杂工具使用和真实世界任务执行的高性能Agent模型,输入仅0.5元/百万token、输出4元/百万。实测显示,其从零生成番茄钟和记账本应用时,能自主用Web Audio API合成音效、用SVG手绘图表,细节处理成熟。在现有代码库修改任务中,越难的任务表现越好:单点bug修复精准,能准确诊断iOS Safari滚动问题并给出克制式修复方案。但官方未报告SWE-bench成绩,表明其优势集中在从零生成与模式匹配场景,而非大型仓库精确修改。极致低价使其在批量Agent任务与快速原型生成上性价比突出。

智能体编码评测/基准

推荐理由:这篇实测把SkyClaw的「从零生成」和「老项目修改」摊开了揉碎了测,不看广告看疗效,让我看清Agent模型的分化到底意味着什么——便宜好用但有边界,想省钱做小工具的你值得细读。
20:48
Ethan Mollick@emollick
55
近几个月来,Claude Code和Codex的能力大幅扩展,增加了许多工作方式(子智能体、技能、目标、工作流、插件等)。考虑到AI实验室可以用自己的AI来辅助文档编写,令人惊讶的是,大量功能实际上没有文档。
AnthropicOpenAI大佬观点编码
18:22
karminski-牙医@karminski3
64
MiniMax-M3 实测

MiniMax-M3 实测:前端适配 KCORES2026p2,空间理解、建模精度、美学表现优秀,颜色运用佳;复杂需求如光追引擎需迭代。后端得分超 deepseek-v4-pro 及国产模型,略逊 GPT-5.4-Pro (xhigh)。Agent 能力达榜单第二接单量,规划突出。使用经验:M3 偏好长推理,单次输出可达 64k token,适合嵌入带 plan 模式的 Coding Agent,需做好 prompt 编排,避免大量 tool call;执行约束不足,需增加代码级 harness 闭环。

智能体编码评测/基准
17:26
HuggingFace Daily Papers(社区热门论文)
精选70
RHO:利用过往轨迹优化LLM智能体工具链的自监督方法

Retrospective Harness Optimization (RHO) 是一种自监督方法,仅利用过往轨迹优化LLM智能体的工具链(技能、工具和工作流程集合)。RHO从历史任务中选取多样化的困难任务核心集,并行重新执行;智能体通过自我验证和自我一致性分析回放,生成候选工具链更新,并依据自身成对自我偏好选择最有效更新。在软件工程、技术工作和知识工作三个领域评估中,单轮优化将SWE-Bench Pro通过率从59%提升至78%,无需外部评分。分析表明RHO有效针对先前失败模式,优化后的工具链改变智能体行为模式,在长周期会话中维持更高准确率。

智能体arXivMCP/工具编码

推荐理由:不靠人工标注就能让 Agent 自我提升,单轮直接把 SWE-Bench Pro 通过率从 59% 拉到 78%,做自主 Agent 优化的同学应该仔细读一下。
16:47
OpenAI:官网动态(RSS · 排除企业/客户案例)
42
Endava 围绕 AI 智能体重塑软件交付

全球 IT 服务公司 Endava 利用 OpenAI 的 AI 智能体、ChatGPT Enterprise 和 Codex 加速软件交付与自动化工作流。ChatGPT Enterprise 帮助开发者提升代码质量、缩短上线时间,AI 智能体负责处理重复性任务,从而在企业内部构建 AI 原生文化。

智能体OpenAI编码行业动态
16:17
AYi@AYi_AInotes
64
Codex 额度重置:省着用反亏,建议本地兜底

OpenAI Codex 负责人 Tibo 因 24 小时内 3 次可靠性事故,重置所有付费计划额度。Codex 按推理时间计费:Plus 下 GPT-5.4 约 40 分钟耗尽 5 小时窗口,GPT-5.3 约 60 分钟。重置常将下个计费周期提前,导致精打细算攒的额度被覆盖,立即消耗者反而获得更多推理时间。作者认为系统奖励即刻消耗,建议本地模型兜底、云端冲峰值,夺回生产力控制权。

Tibo: Hi. Over the last 24 hours we had three separate small incidents that affected Codex reliability. Those are three too ma...

MCP/工具OpenAI大佬观点编码
15:18
meng shao@shao__meng
59
ChatGPT App (Android) 新增 Codex 快捷方式。

Peter Yang: How do I make Codex the default tab when I open the ChatGPT app

OpenAI教程/实践编码
15:18
meng shao@shao__meng
17
一条推文围绕"是否该选计算机专业"展开:引用称AI导致程序员大量失业,劝别选;主推文则坚持选。引用虚构一家startup全员AI native,CTO带中文系硕士用AI半个月写操作系统并自建微信、飞书、Office,卖数千万,导致腾讯、字节VP上门求停,飞书总裁承认6000员工五年成果被AI三个月颠覆。

lidang 立党 (劝人卖房/学CS/买SP500/纳100/OpenAI/Anthrop第一人): 你们现在千万别选计算机专业,现在程序员都在大量失业,AI一出来,程序员全裁员饿死了。 现在AI太厉害了,不仅SaaS死了,传统软件更是被AI打得满地找牙。 我一个朋友的startup里,一堆员工抱怨windows太耗电,他们公司全员AI n...

现象/趋势编码
14:09
宝玉@dotey
57
宝玉 (@dotey) 表示,Codex GPT-5.5 在干活上不如 Claude Opus 4.8,尤其在开发 Mac 应用时 Opus 更擅长。@jesselaunz 也反馈 Codex 突然"降智",原本预期 2 天的目标仅 20 分钟就交付,用户给出了评分以来最低的 5/10 分。

Jesse Lau 遁一子: codex突然大降智,原计划跑2天的goal刚才20分钟给我交付了 拿去评分,给了AI评分以来最低的5/10分

AnthropicOpenAI大佬观点编码
11:42
HuggingFace Daily Papers(社区热门论文)
68
AutoLab:前沿模型能否解决长周期自动研究与工程任务?

AutoLab是一个评估超长周期闭环优化能力的基准,包含36个专家设计的真实任务,覆盖系统优化、谜题挑战、模型开发和CUDA内核优化四个领域。每个任务从一个正确但刻意次优的基线开始,要求智能体在严格时间预算内迭代改进。对17个最先进模型的测试表明,成功关键在于持续进行基准测试、编辑和整合经验反馈的持久性。claude-opus-4.6展现出较强的长周期优化能力,但多数前沿模型要么过早终止,要么在预算内进展甚微。该基准、评估工具和任务工件已全部开源。

智能体arXiv编码论文/研究
09:48
meng shao@shao__meng
50
Gemini CLI及Code Assist免费接入6月18日起终止

2026年6月18日起,Gemini CLI和Gemini Code Assist的部分免费/消费级接入将停止服务,但企业版和付费API key接入不受影响。推文作者表示尚未使用过Gemini CLI。

Google产品更新编码
09:18
meng shao@shao__meng
65
Cursor Debug Mode 功能介绍

Cursor 推出 Debug Mode,解决传统 AI Agent 依赖静态推理易产生“假修复”的问题。其核心是通过添加临时日志、让用户复现 Bug,收集运行时证据进行诊断,再自动清除日志。Cursor 团队内部案例显示,该模式能高效定位概率性竞态条件、内存泄漏、C++ 原生崩溃及 SSR 渲染等难以静态分析的 Bug,将“猜测”转为“基于证据的诊断”。

eric zakariasson: http://x.com/i/article/2061967596568875008

智能体产品更新编码
09:02
jason@jxnlco
52
过去24小时内,Codex 发生了三次独立的小事故,影响其可靠性。团队已重置所有付费计划的使用限制,希望 token 再次顺畅流动。对此,Jason Liu 评论说,他实际上连续按了三次重置速率按钮。

Tibo: Hi. Over the last 24 hours we had three separate small incidents that affected Codex reliability. Those are three too ma...

OpenAI编码行业动态
08:39
Tibo@thsottiaux
59
嗨。过去24小时内,我们发生了三起独立的小事故,影响了Codex的可靠性。这三次太多,我们正在采取积极措施以防再次发生。 我已重置所有付费计划的Codex使用限制。愿token再次流动。
OpenAI编码行业动态
07:51
Berryxia.AI@berryxia
37
卧槽!这下Codex真的要起飞了……
OpenAI大佬观点编码
07:26
OpenAI:官网动态(RSS · 排除企业/客户案例)
39
Wasmer 使用 Codex 构建边缘 Node.js 运行时

Wasmer 借助 Codex(基于 GPT-5.5)构建了一个用于边缘计算的 Node.js 运行时,将开发速度提升 10 到 20 倍,交付周期从数月缩短至数周。

OpenAI编码行业动态部署/工程
07:15
TechCrunch:AI(RSS)
47
Lovable 与 Google Cloud 签署多年协议,将使用量扩大 5 倍

Lovable 与 Google Cloud 签署了一项扩大的多年期协议,将 Lovable 在 Google Cloud 上的使用量扩大 5 倍,并增加对 Anthropic Claude 的访问权限。

AnthropicGoogle编码行业动态
07:09
宝玉@dotey
26
请教:Claude Code (Desktop)总是弹窗要确认权限,有没有办法避免总是要 Allow,很烦人,已经启用了 Bypass Permissions
Anthropic大佬观点编码
05:58
Claude Code:GitHub Releases(RSS)
精选59
Claude Code v2.1.162 发布

Claude Code v2.1.162 发布,主要包含 Bug 修复和体验优化。claude agents --json 新增 waitingFor 字段,/effort 命令确认级别持久化,远程控制固定底部显示,/ide 菜单中 Windsurf 更名为 Devin Desktop。修复了配置文件只读导致启动黑屏、Windows 权限规则不匹配、LSP 的 workspaceSymbol 无结果、API 400 错误、MCP 超时低于 1000ms 被截断等十余项问题。

智能体Anthropic产品更新编码

推荐理由:一系列扎实的修复,尤其是 Windows 权限匹配和启动挂死问题的解决,对于日常用 Claude Code 做开发的来说稳定性提升明显,可以升级。
05:27
Greg Brockman@gdb
25
是时候起飞了。 与 Codex 一起飞翔。

OpenAI: It's time to fly.

OpenAI产品更新编码
04:15
Cursor Blog
精选60
Cursor Enterprise 推出 Organizations 组织管理功能

Cursor Enterprise 正式推出 Organizations 结构,允许企业在统一面板中管理多个团队。每个团队可独立设置预算、安全策略、模型访问和功能控制。新增 Groups 作为跨团队或团队内的轻量级用户集合,用于分段管理模型访问、花销上限和智能体权限,不同设置取最宽松权限生效。管理员可创建沙箱团队预先测试新功能,再向全公司推送;也可按部门划分模型访问和预算。组织级仪表盘汇总所有团队的 token 用量与花费,支持按团队、用户等维度筛选。身份提供商和 SCIM 目录在组织层面一次配置,成员自动同步。该功能现已全面开放给所有 Enterprise 客户。

智能体产品更新编码

推荐理由:这是 Cursor 企业版在治理能力上的关键补丁,把多团队预算、模型权限和沙盒测试管了起来,对想把 AI 编程推到千人规模的团队是实打实的基建更新。
03:09
Hacker News 热门(buzzing.cc 中文翻译)
63
优步每月 1,500 美元的 AI 使用上限为 AI 工具定价提供参考

优步将 AI 工具每月使用上限定为 1500 美元,这一做法为行业 AI 工具定价提供了有价值的参考信号。

编码行业动态
01:56
OpenCode@opencode
59
Qwen3.7 Plus 现已在 Go 中可用,支持文本和图像,1M 上下文,比 3.6 更便宜。
产品更新多模态编码
00:45
StepFun@StepFun_ai
44
阶跃星辰(StepFun)称其 Step 3.7 Flash 在与 DeepSeek V4-Flash 的物理编程测试中全面胜出。测试要求在不使用库的情况下,生成一个包含高尔顿板、旋转六边形弹球和同步节拍器三个场景的自包含 HTML5 canvas 动画,并实现真实物理。Step 3.7 Flash 输出 59.6k tokens(耗时 9分57秒),DeepSeek V4-Flash 输出 52.5k tokens(耗时 6分21秒)。尽管 DeepSeek 更快,但 StepFun 模型在物理模拟、视觉效果和逻辑渲染上均占优。主推文指出 Step 3.7 Flash 专为真实世界 agentic 编码任务设计,能保持复杂输出中逻辑、视觉和执行的一致性。

atomic.chat: StepFun Step 3.7 Flash smashed DeepSeek V4-Flash in a physics contest We gave two open-weight models the same task: writ...

DeepSeek编码评测/基准
00:01
eric zakariasson@ericzakariasson
74
Cursor 推出 Debug Mode:让 AI 智能体通过运行时日志修复 Bug

Cursor 发布 Debug Mode,解决 AI 智能体靠猜测修 Bug 的问题。工作流程:Agent 先生成多个假设,为最可能的假设添加日志(不修改代码);调试服务器在程序运行时收集输出到 .cursor/debug.log;用户重现 Bug 后,Agent 读取日志而非猜测;最后 Cursor 从日志找到根因并修复,自动移除添加的日志。内部案例:追踪 1/20 概率出现的 git 元数据竞争条件(1 小时内定位);一次单趟追踪内存泄漏(修复仅一行);定位 Electron 中 C++ 原生崩溃;修复此前无人敢碰的 SSR 闪烁问题。用户可通过 Shift+Tab 或在 CLI 中使用 /debug 触发。

智能体产品更新编码部署/工程
‹ 上一页
1…2627282930…50
下一页 ›