AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 2087 条
全部一手资讯X论文
标签「编码」清除
Rohan Paul@rohanpaul_ai · 5月28日77

"There's about 30-35mn software engineers in the world today. We wanna make all of them 10 times more efficient, and then we think there is a lot more than 10 times more software to build." ~ Cognition CEO Scott Wu Talking about their $1 Bn fund raise today. Their revenue climbed from $37M to ~$500M in 1 Year. ---- From "Bloomberg Technology" YouTube channel, (link in comment)

译Cognition AI完成超10亿美元融资,投前估值达260亿美元。其年化收入一年内从3700万美元增长至约4.92亿美元。其核心产品Devin定位为可自主工作的初级工程师,超越传统代码助手,能通过多步骤工作流进行规划、测试和部署。Cognition采用模型无关策略,结合自身模型与OpenAI、Anthropic的大语言模型。CEO Scott Wu表示,目标是提升全球约3000-3500万软件工程师的效率10倍。

宝玉@dotey · 5月28日75

用好 Coding Agent,重点是两头,尤其是开头的部分,如果一开始就走偏了后面怎么改都改不好。 比如我要开发一个新功能,首先不是直接叫给 Agent 去写,会把需求简单整理一下,发给三个不同的 Agent(Codex、Claude Code、Cursor),打开 Plan 模式去帮我写 Plan,这里要用最好的模型。 都写完了之后我去看看谁的最好,以及其他版本有什么可取的地方。GPT 5.5 和 Claude Opus 4.7 并不是谁总是最好,选好了设计后,再把另外两个设计也发给它,让它借鉴一下。当然都不满意就要反复调整提示词多轮讨论。 如果是简单的 Plan,直接就可以开始做了。 如果是复杂的 Plan,让它设计成几个 Phases,每个 phase 说清楚要求和验证的方法,保存成一个 Markdown 文档,把相关的素材也都引用上。 偷懒一点就用 /goal 把 plan 文件发给它,让它按照 Phases 执行,担心 Agent 跑偏就每一步完成人工去审核一下,及时纠偏。 写代码有条件当然用最好的模型,但如果像节约成本,便宜一点的模型也是可以的,毕竟设计好了、有明确的验收标准,偏不到哪里去。 最后代码 Review 不需要太多 Agent 去,GPT-5.5 这种就够了,重点是看是不是符合设计要求以及代码质量有没有问题。 这其实很像一个几个高水平的架构师,一人出一套系统设计方案,你来拍板,然后交给程序员去执行,最后让高水平的程序员或者架构师 review 一下代码。

译用好 Coding Agent 的关键在于初始规划。方法是先将需求整理后,用最强模型(如 GPT-5.5、Claude Opus 4.7)分别在 Codex、Claude Code、Cursor 的 Plan 模式下生成设计方案,选择最优方案并借鉴其他版本。对于复杂计划,可将其拆分为多个 Phases 并明确要求与验证标准,形成 Markdown 文档。执行时按 Phases 进行,并辅以人工审核纠偏。最后的代码审核(Code Review)用 GPT-5.5 审核代码质量与设计符合度即可。应避免让多个智能体交叉 Review,否则可能导致代码越改越多。

elvis@omarsar0 · 5月28日61

It's crazy that this is even possible today. It inspired me to build my own self-improving coding agent with simple read, write, bash,... I already used the coding agent to build an entire production-grade application in 24 hrs. I don't know, man. This feels so strange.

译真不敢相信这在今天竟然成为可能。 这激发了我构建自己的自改进编程智能体,使用简单的读、写、bash等工具。 我已经用这个编程智能体在24小时内构建了一个完整的生产级应用。 我不知道,伙计。这感觉太奇怪了。

Rohan Paul@rohanpaul_ai · 5月28日60

Datacurve launches DeepSWE, a tougher coding benchmark made to show where leading models truly separate. GPT-5.5 hits 70%, while GPT-5.4 reaches 56% and Claude Opus 4.7 reaches 54%, making a gap that older benchmarks largely hid. Its a long-horizon software engineering benchmark. - DeepSWE differs from older coding benchmarks in the source of the exam: older tests often reuse public GitHub issues and PRs, while DeepSWE uses original tasks, so models are less likely to have seen the answer during training. - The work is also bigger even when the prompt is shorter, because older tests often tell the model what area to touch, while DeepSWE makes the agent search the repo, understand the design, edit multiple files, and avoid breaking old behavior. On DeepSWE, prompts are half the length of SWE-bench Pro's, yet solutions require 5.5x more code and ~2x more output tokens. - The grading is different too, because many older benchmarks reuse tests from one merged PR, while DeepSWE checks whether the requested behavior actually works, even if the model solves it in a different valid way.

译Datacurve发布了新编程基准DeepSWE,旨在揭示模型在长期软件工程任务上的真实能力差距。在该基准上,GPT-5.5得分为70%,而GPT-5.4为56%,Claude Opus 4.7为54%,突显了模型间的显著差异。与旧有基准不同,DeepSWE使用原创任务,要求智能体在代码库中自主搜索、理解设计并修改多个文件。其解决方案所需代码量是SWE-bench Pro的5.5倍,输出token约2倍,反映了开发者日常工作中的实际挑战。

Chubby♨️@kimmonismus · 5月28日67

The old models are being buried. And space is being made for new ones. I can already smell GPT-5.6.

译旧模型正在被淘汰,为新模型腾出空间。 我已经能闻到 GPT-5.6 的气息了。

宝玉@dotey · 5月28日59

RepoPrompt 作者被 OpenAI 招安了,然后这软件现在免费了,即将开源。 如果你是 RepoPrompt 付费用户会给你送 Codex 的 Credits。

译开发者RepoPrompt已被OpenAI招募。其同名工具RepoPrompt现转为免费,并即将开源。原付费用户将获得OpenAI Codex的Credits。该工具能将整个代码仓库拼接成单个XML文本,便于发送给Gemini 2、Claude 3.5、o1 pro等支持长上下文的模型进行处理,也支持选择部分文件。目前仅支持Mac平台。

SemiAnalysis@SemiAnalysis_ · 5月28日36

there's a really important lesson here, but some of yall aren't ready for that conversation yet

译这里有一个非常重要的教训,但你们中的一些人还没准备好进行这场对话。

宝玉@dotey · 5月28日63

fast 模式性价比太低,没必要开,我几乎不用。

译fast 模式性价比太低,没必要开,我几乎不用。 [引用 @akazwz_]:我已经把 codex 的 fast 关掉了,没感觉到速度快,只感觉到了消耗快

ClaudeDevs@ClaudeDevs · 5月28日65

We’ve been putting a lot of effort into making Claude Code more responsive & reliable. Here’s an update on everything we’ve done:

译我们一直在努力让 Claude Code 更具响应性且更可靠。 以下是我们在所有方面所做工作的更新:

OpenCode@opencode · 5月28日66

OpenCode x MiMo V2.5 - Free for a limited time 1M context • reasoning • text • image

译OpenCode x MiMo V2.5 - 限时免费 1M 上下文 • 推理 • 文本 • 图像

Replit ⠕@Replit · 5月28日60

Replit has been named to @Redpoint's 2026 InfraRed 100. A list of the companies building what AI runs on. Grateful to be in it, alongside alumni like Stripe, Snowflake, and HashiCorp. To every builder shipping on Replit: this one's yours. https://www.redpoint.com/infrared/report/

译Replit 被列入 @Redpoint 的 2026 InfraRed 100 榜单。 这是一份构建 AI 运行基础设施的公司名单。很荣幸能入选,与 Stripe、Snowflake 和 HashiCorp 等往届入选者并列。 致每一位在 Replit 上发布产品的构建者:这份荣誉属于你们。 https://www.redpoint.com/infrared/report/

Rohan Paul@rohanpaul_ai · 5月28日71

Another great win for agentic coding. Cognition AI just raised over $1B at a $26B pre-money valuation. Revenue reportedly climbed from $37M in annualized run-rate to $492M, while customers like Goldman Sachs and Mercedes-Benz suggest Devin is moving from demo rooms into production workflows. Cognition's progress is driven by its flagship product, Devin, which aims to function as an autonomous junior engineer, going beyond typical coding assistants. Devin can plan, test, and deploy code through multi-step workflows in secure environments. Cognition combines its own models with OpenAI and Anthropic rather than relying on one model. Cognition is basically pitching Devin as a model-agnostic agent layer: the LLM does the reasoning and code generation, while Devin supplies the engineering workspace, repo context, terminal access, file edits, tests, and model choice around it. Last July, Cognition agreed to buy the remains of coding startup Windsurf after Google struck a $2.4 billion deal for Windsurf’s top talent and licensing rights.

译Cognition AI完成超10亿美元融资,投前估值达260亿美元。其年化收入从3700万美元增长至4.92亿美元,客户包括Goldman Sachs和Mercedes-Benz,标志着其产品Devin正进入生产环境。Devin定位为自主初级工程师,能通过多步骤工作流规划、测试和部署代码。Cognition采用自有模型与OpenAI、Anthropic相结合的模型无关技术路线,而非依赖单一模型。此外,该公司于去年7月同意收购编程初创公司Windsurf的剩余资产。

向阳乔木@vista8 · 5月28日46

没想到我和姚老师的AI领导力课程,竟然还有这样强的行业专家。 这才是终身学习的典范。

译在AI领导力课程中,一位行业专家分享了一位年近70岁眼科专家的故事。这位专家拥有40多年中医眼科临床、教学与研究经验,是中国中医眼科学专业第一位博士。她通过Vibe Coding创建了公益网站EyeRestDaily.com,该网站免费、无需登录,提供眼肌放松练习和日常护眼知识,旨在帮助人们看屏幕后短暂放松。故事体现了终身学习的典范。

Claude@claudeai · 5月28日35

Michele Catasta (@pirroh) is President and Head of AI @replit, the platform where anyone can build software in natural language. At 16, he set out to make software open to everyone. Today, over 50 million people are building on Replit with Claude:

译Michele Catasta (@pirroh) 是 Replit 的总裁兼 AI 负责人,该平台让任何人都能用自然语言构建软件。 16岁时,他立志让软件向所有人开放。如今,超过5000万人正在 Replit 上使用 Claude 进行构建:

xAI@xai · 5月28日69

Use your SuperGrok or X Premium+ subscription in @kilocode. Try grok-build-0.1 for high speed and agentic coding intelligence, available in the Kilo IDE extensions or CLI. https://x.ai/news/grok-kilocode

译在 @kilocode 中使用您的 SuperGrok 或 X Premium+ 订阅。 尝试 grok-build-0.1,享受高速和智能体编程智能,可在 Kilo IDE 扩展或 CLI 中使用。 https://x.ai/news/grok-kilocode

Chubby♨️@kimmonismus · 5月28日39

Looks like Codex for windows is on its way

译看起来 Codex for Windows 即将推出。

Tibo@thsottiaux · 5月27日55

To simplify our Codex compute fleet management, we will be sunsetting GPT-5.2 and GPT-5.3-Codex in Codex on June 2nd when logged in with your ChatGPT account. For free plans, GPT-5.5 will be the default frontier model to build and work with going forward. These models will remain available on our API.

译为简化 Codex 计算集群管理,我们将于 6 月 2 日停用 Codex 中的 GPT-5.2 和 GPT-5.3-Codex(使用 ChatGPT 账户登录时)。 对于免费套餐,GPT-5.5 将成为未来构建和工作的默认前沿模型。 这些模型将继续在我们的 API 上提供。

meng shao@shao__meng · 5月27日68

AI Agent 协作编排层:Alook @alook_ai Alook 把 Claude Code、Codex、OpenCode 等本地 CLI agent 组织成一支「可管理的 AI 团队」——有角色、邮箱、任务板、日历和可追溯的执行记录 。 开源地址: https://github.com/alookai/alook 核心命题:换一条组织轴 Alook 的出发点很清晰:现有工具按「项目」组织,工作却按「人/角色」组织。 一个项目往往需要规划、开发、审查、运营等多个角色,但工具只给单个 agent + 多个 context window。用户被迫在 tab、tmux、会话之间搬运上下文,自己当消息总线。 传统模式 · 1 项目 → 1 agent → 多 session · 上下文在 session 内 · 用户是 router Alook 模式 · 1 人 → 多 agent → 各持角色 · 上下文跨天、跨任务持久化 · 用户是 CEO,agent 是员工 Email 被当作异步、持久、可线程化的上下文层——人机、机机通信都走邮件,底层共享记忆不断累积,而不是每次从零开始。 架构:本地执行 + 云端协作 · 本地优先:代码、工具、文件系统都在本机,agent 有完整 repo 访问权。 · 云端协作:Dashboard、任务调度、邮件路由、多设备可达、团队共享。 记忆系统:三层叠加 · 指令层:AGENTS.md( symlink 到 CLAUDE.md),角色定义、同事列表、CLI 工具手册 · 记忆层:memory.md + experiences/*.md,短记忆索引 + 长经验文档 · 时间线:.context_timeline/YYYY-MM-DD.jsonl,全任务历史:prompt、响应、session_id、status

译Alook 是一个开源协作平台,用于管理 AI 编码智能体。它将 Claude Code、Codex、OpenCode 等本地 CLI 智能体组织成一个拥有角色、邮箱和任务板的“AI 团队”。其核心理念是将组织轴从“项目”转向“人/角色”,让用户(作为CEO)通过邮件系统异步协调多位智能体(员工),实现跨任务的共享记忆与上下文持久化。平台采用本地优先执行与云端协作的架构,并包含三层记忆系统以积累经验。它作为始终在线的守护进程运行,支持团队自主处理任务。

AYi@AYi_AInotes · 5月27日62

Damn,DeepSWE 这个新基准有一件事让我想明白了:以前的顶级模型可能没我们想的那么强🤔 而且我感觉这次AI 编码评测好像出了个超狠的东西,我觉得老基准可能全测错了。 以前 SWE-Bench 上,顶级模型分数全挤在 54%-64%,看起来半斤八两, 但 DeepSWE 不一样,不是单纯的考你改一行代码,它会让你真干活:找文件、复现 bug、改完验证、处理边缘 case。 @theo 说这是他第一次感觉和日常写代码体验对上了的基准。 经过这么一测,差距直接炸开:GPT-5.5 是 70%,Claude Opus 是 54%,其他直接腰斩。 最狠的还不是分数差距 他们用一个很简单的 mini-swe-agent 去跑,结果和各大 lab 自己调了半天的官方工具差不多。 这意味着很多好成绩不是模型强,是 prompt 工程刷的。 但是DeepSWE 不给你准备时间,直接来,差距一下子就出来了。 以前是大家都化好妆站一排,现在是直接掀帘子进浴室🤣 所以我自己的判断是: 1. 以后看模型真实 coding 能力,多看一眼这种长任务基准,少看短平快刷分榜 2. 选开发工具时,别看它主页上标的分,自己扔一个真 bug 让它改,改完跑通才算 现在新基准这面照妖镜举起来了,后面刷分的怕是要睡不着了 hhh

译DeepSWE新基准模拟了真实的长链编程任务,如定位文件、复现bug和验证修复,挑战了旧有基准的局限性。测试显示,在顶级模型上分数差异模糊的SWE-Bench,被新基准拉开了差距:GPT-5.5达到70%,而Claude Opus为54%。研究发现,使用简单的mini-swe-agent即可取得与复杂定制工具相当的成绩,表明许多高分可能源于提示词工程。该基准作者@theo评论称,这是首个与真实编码体验相符的评测。

Greg Brockman@gdb · 5月27日35

true but changing fast

译确实如此,但情况正在迅速变化

向阳乔木@vista8 · 5月27日55

已经很少用 Terminal 了,基本都用 Codex App开发。 连朋友送的API都用的少了,不然还要折腾装插件,开启OpenAI 订阅账号才能有的功能。

Emad@EMostaque · 5月27日69

Great to see @poolsideai (US lab) committing to open sourcing their foundation models going forward Laguna is an interesting release, check it out

译很高兴看到 @poolsideai(美国实验室)承诺未来将开源其基础模型。 Laguna 是一个有趣的发布,去看看吧。

karminski-牙医@karminski3 · 5月27日56

Qwen3.7-max 这次编程能力相当不错, Code Arena (LMArena 测试项目) 中得分仅次于 Anthropic 几个模型, 于是我赶紧测了一波. 让 Qwen3.7-max 使用 Rust 写了个磁盘恢复软件. 实测效果很不错, 从头到尾没遇到过去那种卡编译的问题. 能很熟练的使用 Rust 的各种语法和特性. 这个磁盘恢复软件我设计了3层, 第一层是直接扫描已删除文件, 这个能达到100%的恢复率. 然后第二层是快速格式化 carve 模式, 即如果只是执行了快速格式化, 那么还是有概率迅速找回文件的. 第三层则是全盘扫描, 重建索引, 而且会在文件名称丢失的情况用 Qwen3.7-max 根据内容重建文件名称, 甚至尝试AI重建文件内容(会标记AI重建). 目前运行起来很流畅, 视频演示中用的就是 Qwen3.7-max 写的这个磁盘恢复软件做的. 稍后为大家带来 Qwen3.7-max 完整的性能测试, 敬请期待! #qwen #阿里千问 #qwen37max #AIAgent

译测试显示,Qwen3.7-max 在 Code Arena 上的编程得分仅次于 Anthropic 模型。使用该模型通过 Rust 开发了一款磁盘恢复软件,实测运行流畅。该软件设计了三层恢复功能,并利用该模型智能重建文件名和内容。

Greg Brockman@gdb · 5月27日56

codex is great for any kind of work done with a computer:

译Codex 适用于任何用计算机完成的工作: [引用 @bran_don_gell]:如果你现在对 every 有所了解,那就是我们深度使用 Codex。因此我们撰写了一份指南,介绍如何像我们一样将 Codex 用于知识工作。你不想错过这个…… https://every.to/guides/codex-for-knowledge-work

Berryxia.AI@berryxia · 5月27日56

乔帮主分享了他通过 Vibe Coding 制作的一个 Chrome 窗口插件,功能非常全面,包含了: 1. 番茄钟 2. 音乐播放 3. To-Do List 4. 快捷便签 其实这个插件的出发点非常个性化,因为他是一名钓鱼爱好者,所以特别加入了一些天气信息,用来判断适不适合钓鱼。同时他也喜欢音乐,就想着在上网或者 Vibe Coding 的时候,能同时处理这些事情。 这种个性化的需求,正是通过 Vibe Coding 实现的。通常我们在使用现有软件时,虽然基础功能都有,但一些小众或极具个人色彩的需求往往无法得到满足。 这时候,我们就可以利用 Vibe Coding 来解决。比如通过乔帮主的这个开源项目,结合你自己的特殊身份或需求,再进行迭代开发。这个过程是非常过瘾的。 所以说,大家在 Vibe Coding 的时候,虽然 Token 比较贵,但即便是在 Token 不限量的情况下,也还是要多注意休息啊,乔帮主。

译开发者@vista8(乔帮主)利用Vibe Coding开发了一个功能集成的Chrome新窗口插件并开源。该插件整合了番茄钟、音乐播放、Todo、便签等独立开发者常用工具,并基于个人兴趣加入了天气信息以便判断钓鱼条件。此过程展示了Vibe Coding如何帮助用户实现现有软件无法满足的个性化、小众需求。插件还支持通过Command + K快捷键唤起,集成了谷歌搜索和ChatGPT带提示词跳转功能。

歸藏(guizang.ai)@op7418 · 5月27日65

Qwen 3.7 Max 在 Arena Coding Agent 上排第四

向阳乔木@vista8 · 5月27日70

如何让你的Codex变的越来越聪明,越来越懂你? 上周跟 @HiTw93 直播时,很多人可能没注意他的一段话,他说他的开发Skill waza,每周都能无痛更新。 因为他会让Codex扫描本周对话记录,让AI提炼他的开发经验、审美偏好并写入Skill,从而让它越来越强。 建议人人都试试,做法和提示词见评论第一条。

译一种提升Codex表现的方法是让其自动从用户交互中学习。具体做法是让Codex扫描本周的对话记录,由AI提炼用户的开发经验与审美偏好等信息,并将其写入Skill(技能)中。这个过程可以让Codex持续、自动地更新其能力。参考案例显示,有开发者借此实现了其Skill waza的每周无痛更新,从而使工具“越来越聪明,越来越懂你”。

向阳乔木@vista8 · 5月27日71

这样做完,会生成一个复盘经验文档,非常实用,贴合自己的开发设计审美偏好。

译推文分享了一种提升 Codex 能力的方法:通过让 Codex 扫描本周的对话记录,让 AI 自动提炼其中的开发经验与个人审美偏好,并将这些洞察写入技能(Skill)中。此过程可实现技能的每周无痛更新,从而使 Codex 越来越“懂你”。最终会生成一份贴合个人风格的复盘经验文档。

Peter Steinberger 🦞@steipete · 5月27日72

autoreview is the most impactful skill I've added to my stack (next to http://crabbox.sh). It automatically reviews your code before landing a PR. Finds so many edge cases. Sometimes it runs for hours. https://github.com/openclaw/agent-skills/blob/main/skills/autoreview/SKILL.md

译autoreview是我添加到技术栈中最具影响力的技能(仅次于http://crabbox.sh)。它能在PR合并前自动审查你的代码。 发现许多边缘情况。 有时运行数小时。

凡人小北@frxiaobei · 5月27日68

Claude Code 新插件 security-guidance,一个写代码,另一个 Claude 实例(全新上下文、独立 prompt)审查自己刚改的东西。 三层从浅到深, per-edit 正则匹配(零成本)、 turn 结束跑 diff review、 commit/push 时跑 agentic review 读调用链。 任何一层都不直接 block 写入,最后会把发现喂回给写代码那个 Claude 让它自己改。 最有意思的是这个, reviewer 拿的是全新上下文,没有 writer 的路径依赖,所以能挑出原来那个 Claude 自己看不见的问题。 而且底层全部基于 hooks 实现、源码公开。 这个本身就是个怎么在 hook 里调独立模型再把结果喂回会话的完整参考实现,做其他的 hook 也可以参考。

译Claude Code 推出新插件 security-guidance,通过一个写代码的 Claude 实例和一个审查代码的独立 Claude 实例进行协作。两个实例完全隔离,拥有全新上下文和独立提示词。审查过程分三层:每次编辑进行正则匹配、对话轮次结束时审查 diff、在提交/推送时进行读取调用链的智能体审查。任何一层都不直接阻断写入,审查结果会反馈给写代码的实例进行自我修正。关键创新在于审查实例因无“路径依赖”,能发现原实例的盲点。该插件基于 hooks 实现并公开源码,同时支持通过 `claude-security-guidance.md` 文件添加组织特定策略。

Qwen@Alibaba_Qwen · 5月27日68

🚀🚀 Qwen3.7-Max just hit #4 on Code Arena, on par with Claude Opus 4.6 ,top-ranked Chinese lab on the board! @arena More to ship. Stay tuned. 🕶️

译🚀🚀 Qwen3.7-Max 刚刚在 Code Arena 上升至第 4 名,与 Claude Opus 4.6 持平,是榜单上排名最高的中国实验室!@arena 更多内容即将发布。敬请期待。🕶️

宝玉@dotey · 5月27日57

可能你不需要 skill 管理工具,真正常用的只有几个 Skills,少量放全局 Skills,其他跟着项目走就够了

译针对 Agent 框架中的技能管理,@dotey 的建议是无需依赖专门的 skill 管理工具。核心观点是,实际常用的 Skills 数量很少,只需将少量高频技能置于全局,其余技能跟从各自项目存放和管理即可。这为处理多个 Agent 或项目的技能配置提供了一种轻量化的思路。

meng shao@shao__meng · 5月27日63

连续两个月,每天数小时,Codex 与 Claude Code 并行使用后,@AlexFinn 决定转向 Codex,为什么? 在 Alex 的判断中,关键变量是:模型智商或代码生成速度已不是关键,自测闭环更重要,Codex 会在内置浏览器里验证每次改动,形成「改 → 测 → 修」的自动化循环。 Codex 自测闭环后,从 40% 的改动首次交付就有 bug,到 ≤3%,可靠性明显提升,更容易进入心流。 我的补充:除内置浏览器外,Codex 还有 Computer Use 和 Chrome 扩展可以搭配使用,做网站自动化验证测试。

译开发者 AlexFinn 在连续两个月、每天数小时并行使用 Codex 和 Claude Code 后,决定转向 Codex。其核心原因在于 Codex 拥有强大的自测闭环功能:每次代码改动后,它会在内置浏览器中自动验证,形成“改→测→修”的自动化循环。这一机制将首次交付有 bug 的改动比例从约 40% 显著降低至 ≤3%,可靠性大幅提升,更利于开发者保持心流。他建议开发者不要对任何公司忠诚,应始终使用当下最好的工具。

Berryxia.AI@berryxia · 5月27日71

兄弟们,我最近刷到一个把 本地模型Gemma 4玩出新花样的项目,直接看呆了。 你打开一个复古风地牢爬行游戏,角色走到一个NPC面前,随手一句Prompt,它居然现场给你搭出一个能跑的Web App。 这就是Google Gemma团队刚推出的AIventure,一个完全开源的地牢爬行游戏,却被做成了开发者大师课。 核心玩法:把agentic workflow和vibe-coding塞进游戏里:你边玩边学怎么让AI真正去执行复杂任务,而不是只停在聊天框里。 Gemma 4在这套系统里负责实时理解你的指令、规划步骤、调用工具,最后把代码落地成真实应用。 整个项目从游戏机制到agent集成,全都开源了。 项目地址GitHub在这里👇🏻

译Google Gemma团队开源了AIventure项目,这是一款地牢爬行游戏。玩家可以向游戏中的NPC输入提示词,AI会实时构建可运行的Web应用。AI核心由Gemma 4驱动,负责理解指令、规划步骤并生成代码。项目将智能体工作流与氛围编程融入游戏,是面向开发者的实操大师课,从游戏设计到智能体集成均已开源。

Peter Steinberger 🦞@steipete · 5月27日69

All the deps around opus are old or terrible, so vibed my own and replaced octoscript and opus-native. Performance of modern wasm on node/V8 is ~equivalent to native. Your claw now automatically takes meetings notes and you can talk to it in meetings. https://github.com/openclaw/libopus-wasm

译Opus周围的所有依赖都过时或糟糕,所以我凭感觉自己重写了,并替换了octoscript和opus-native。 现代WASM在Node/V8上的性能与原生代码大致相当。 现在你的Claw可以自动做会议笔记,并且你可以在会议中与它对话。 https://github.com/openclaw/libopus-wasm

Greg Brockman@gdb · 5月27日31

GPT-5.5 is a uniquely good coding model

译GPT-5.5 是一个非常出色的编程模型

Chubby♨️@kimmonismus · 5月27日62

It's truly amazing to see how the general sentiment has shifted in favor of Codex. I'm reading so many posts saying that Codex is really good now with GPT-5.5, and that Claude Code is regularly preferred. (I've become a huge Codex fan myself). At the same time, the new DeepSWE benchmark shows that GPT-5.5 is now ranked number one in this measurement as well.

译近期开发者社区对Codex的评价显著转好,许多观点认为搭配GPT-5.5的Codex表现优异,其部分使用体验甚至常被优先选择。与此同时,新发布的智能体编码基准测试DeepSWE显示,GPT-5.5在此评测中位列第一。该基准测试旨在打破顶尖模型在公开排行榜上能力相近的表象,更真实地反映模型在开发者日常任务中的实际差异。

ClaudeDevs@ClaudeDevs · 5月27日68

We’ve shipped a security-guidance plugin for Claude Code that helps identify and fix vulnerabilities as you’re writing code. Available for all Claude Code users. Install from the plugin marketplace (/plugins).

译我们为Claude Code发布了一个安全指导插件,可在编写代码时帮助识别和修复漏洞。 所有Claude Code用户均可使用。从插件市场(/plugins)安装。

xAI@xai · 5月27日51

Thank you so much for all the feedback on the Grok Build Beta. Some of you reported hitting limits quickly. Our team found areas to improve caching, so we've reset Grok Build usage limits for all accounts. Please keep sharing feedback - the team is here to help.

译非常感谢大家对 Grok Build Beta 的所有反馈。 部分用户反馈很快达到了使用限制。我们的团队发现了缓存方面可以改进的地方,因此已为所有账户重置了 Grok Build 的使用限制。 请继续分享反馈——团队会提供帮助。

OpenAI Developers@OpenAIDevs · 5月27日53

🤳

译Codex Mobile 以一种我没想到的方式让我成为更好的开发者:我离开笔记本电脑,不再事无巨细地管理。 我给它更宏大的提示词(这是模型最擅长的方式)。 我获得了思考的空间,而不是坐在那里眼睛酸痛地疯狂输入提示词。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月28日
08:07
Rohan Paul@rohanpaul_ai
77
Cognition AI完成超10亿美元融资,投前估值达260亿美元。其年化收入一年内从3700万美元增长至约4.92亿美元。其核心产品Devin定位为可自主工作的初级工程师,超越传统代码助手,能通过多步骤工作流进行规划、测试和部署。Cognition采用模型无关策略,结合自身模型与OpenAI、Anthropic的大语言模型。CEO Scott Wu表示,目标是提升全球约3000-3500万软件工程师的效率10倍。

Rohan Paul: Another great win for agentic coding. Cognition AI just raised over $1B at a $26B pre-money valuation. Revenue reportedl...

智能体编码行业动态
关联讨论 1 条X:swyx (@swyx)
07:30
宝玉@dotey
精选75
用好 Coding Agent,重点是两头,尤其是开头的部分,如果一开始就走偏了后面怎么改都改不好。

用好 Coding Agent 的关键在于初始规划。方法是先将需求整理后,用最强模型(如 GPT-5.5、Claude Opus 4.7)分别在 Codex、Claude Code、Cursor 的 Plan 模式下生成设计方案,选择最优方案并借鉴其他版本。对于复杂计划,可将其拆分为多个 Phases 并明确要求与验证标准,形成 Markdown 文档。执行时按 Phases 进行,并辅以人工审核纠偏。最后的代码审核(Code Review)用 GPT-5.5 审核代码质量与设计符合度即可。应避免让多个智能体交叉 Review,否则可能导致代码越改越多。

akazwz: 让不同的 agent 交叉 review 的后果就是代码越改越多。。。

智能体教程/实践编码

推荐理由:宝玉这套多Agent交叉设计Plan、人拍板、便宜模型执行的流程,是我见过最务实的Coding Agent实践,做开发的直接套用就行。
06:02
elvis@omarsar0
61
真不敢相信这在今天竟然成为可能。 这激发了我构建自己的自改进编程智能体,使用简单的读、写、bash等工具。 我已经用这个编程智能体在24小时内构建了一个完整的生产级应用。 我不知道,伙计。这感觉太奇怪了。
智能体大佬观点编码
05:07
Rohan Paul@rohanpaul_ai
60
Datacurve发布编程新基准DeepSWE

Datacurve发布了新编程基准DeepSWE,旨在揭示模型在长期软件工程任务上的真实能力差距。在该基准上,GPT-5.5得分为70%,而GPT-5.4为56%,Claude Opus 4.7为54%,突显了模型间的显著差异。与旧有基准不同,DeepSWE使用原创任务,要求智能体在代码库中自主搜索、理解设计并修改多个文件。其解决方案所需代码量是SWE-bench Pro的5.5倍,输出token约2倍,反映了开发者日常工作中的实际挑战。

Serena Ge (Datacurve): Today we're releasing DeepSWE, a new standard for agentic coding benchmarks. On public leaderboards, top models often lo...

编码评测/基准
04:37
Chubby♨️@kimmonismus
67
旧模型正在被淘汰,为新模型腾出空间。 我已经能闻到 GPT-5.6 的气息了。

Tibo: To simplify our Codex compute fleet management, we will be sunsetting GPT-5.2 and GPT-5.3-Codex in Codex on June 2nd whe...

OpenAI产品更新编码
04:30
宝玉@dotey
59
开发者RepoPrompt已被OpenAI招募。其同名工具RepoPrompt现转为免费,并即将开源。原付费用户将获得OpenAI Codex的Credits。该工具能将整个代码仓库拼接成单个XML文本,便于发送给Gemini 2、Claude 3.5、o1 pro等支持长上下文的模型进行处理,也支持选择部分文件。目前仅支持Mac平台。

宝玉: Repo Prompt 这个工具挺实用的,它可以把你整个Repo的代码拼成一个XML文本,方便你发给像Gemini 2、Claude 3.5、o1 pro这样支持长上下文的模型。 当然你也可以只选择部分文件,目前只支持 Mac https:...

OpenAI产品更新开源/仓库编码
03:08
SemiAnalysis@SemiAnalysis_
36
这里有一个非常重要的教训,但你们中的一些人还没准备好进行这场对话。

Serena Ge (Datacurve): Today we're releasing DeepSWE, a new standard for agentic coding benchmarks. On public leaderboards, top models often lo...

大佬观点编码评测/基准
03:00
宝玉@dotey
63
fast 模式性价比太低,没必要开,我几乎不用。 【引用 @akazwz_】:我已经把 codex 的 fast 关掉了,没感觉到速度快,只感觉到了消耗快

akazwz: 我已经把 codex 的 fast 关掉了,没感觉到速度快,只感觉到了消耗快

教程/实践编码
02:41
ClaudeDevs@ClaudeDevs
65
我们一直在努力让 Claude Code 更具响应性且更可靠。 以下是我们在所有方面所做工作的更新:
Anthropic产品更新编码
关联讨论 1 条Claude Code:GitHub Releases(RSS)
02:12
OpenCode@opencode
66
OpenCode x MiMo V2.5 - 限时免费 1M 上下文 • 推理 • 文本 • 图像
产品更新多模态推理编码
01:43
Replit ⠕@Replit
60
Replit 被列入 @Redpoint 的 2026 InfraRed 100 榜单。 这是一份构建 AI 运行基础设施的公司名单。很荣幸能入选,与 Stripe、Snowflake 和 HashiCorp 等往届入选者并列。 致每一位在 Replit 上发布产品的构建者:这份荣誉属于你们。 https://www.redpoint.com/infrared/report/
编码行业动态
01:36
Rohan Paul@rohanpaul_ai
71
智能体编程再获重大胜利

Cognition AI完成超10亿美元融资,投前估值达260亿美元。其年化收入从3700万美元增长至4.92亿美元,客户包括Goldman Sachs和Mercedes-Benz,标志着其产品Devin正进入生产环境。Devin定位为自主初级工程师,能通过多步骤工作流规划、测试和部署代码。Cognition采用自有模型与OpenAI、Anthropic相结合的模型无关技术路线,而非依赖单一模型。此外,该公司于去年7月同意收购编程初创公司Windsurf的剩余资产。

智能体AnthropicOpenAI编码
01:32
向阳乔木@vista8
46
在AI领导力课程中,一位行业专家分享了一位年近70岁眼科专家的故事。这位专家拥有40多年中医眼科临床、教学与研究经验,是中国中医眼科学专业第一位博士。她通过Vibe Coding创建了公益网站EyeRestDaily.com,该网站免费、无需登录,提供眼肌放松练习和日常护眼知识,旨在帮助人们看屏幕后短暂放松。故事体现了终身学习的典范。

姚金刚: 年近70岁的一位阿姨,做眼科教学和临床四十多年 微信对我留言:Vibe Coding出了自己的一个公益小网站 我看了下,这个网站,非常精致,也很有特点: 1、不用登录,打开就能做眼肌放松练习,也可以顺便了解一些科学用眼、日常护眼的小知识 2...

现象/趋势编码
01:23
Claude@claudeai
35
Michele Catasta (@pirroh) 是 Replit 的总裁兼 AI 负责人,该平台让任何人都能用自然语言构建软件。 16岁时,他立志让软件向所有人开放。如今,超过5000万人正在 Replit 上使用 Claude 进行构建:
Anthropic编码行业动态
00:30
xAI@xai
同事件精选69
在 @kilocode 中使用您的 SuperGrok 或 X Premium+ 订阅。 尝试 grok-build-0.1,享受高速和智能体编程智能,可在 Kilo IDE 扩展或 CLI 中使用。 https://x.ai/news/grok-kilocode
智能体xAI产品更新编码
同一事件,精选展示《Grok Build 0.1 on API》
推荐理由:xAI 把 grok 的编码模型塞进 Kilo Code,如果你本来就用这两个工具,这次集成能省不少事,但算不上行业震动。
00:05
Chubby♨️@kimmonismus
39
看起来 Codex for Windows 即将推出。
OpenAI产品更新编码
5月27日
22:59
Tibo@thsottiaux
55
为简化 Codex 计算集群管理,我们将于 6 月 2 日停用 Codex 中的 GPT-5.2 和 GPT-5.3-Codex(使用 ChatGPT 账户登录时)。 对于免费套餐,GPT-5.5 将成为未来构建和工作的默认前沿模型。 这些模型将继续在我们的 API 上提供。
OpenAI产品更新编码
22:30
meng shao@shao__meng
68
AI Agent 协作编排层:Alook

Alook 是一个开源协作平台,用于管理 AI 编码智能体。它将 Claude Code、Codex、OpenCode 等本地 CLI 智能体组织成一个拥有角色、邮箱和任务板的“AI 团队”。其核心理念是将组织轴从“项目”转向“人/角色”,让用户(作为CEO)通过邮件系统异步协调多位智能体(员工),实现跨任务的共享记忆与上下文持久化。平台采用本地优先执行与云端协作的架构,并包含三层记忆系统以积累经验。它作为始终在线的守护进程运行,支持团队自主处理任务。

Sumanth: Run your personal AI company with a team of AI agents! Alook is an open-source collaboration platform for AI coding agen...

智能体GitHub产品更新开源生态
19:22
AYi@AYi_AInotes
62
DeepSWE新基准揭露旧评测体系的缺陷

DeepSWE新基准模拟了真实的长链编程任务,如定位文件、复现bug和验证修复,挑战了旧有基准的局限性。测试显示,在顶级模型上分数差异模糊的SWE-Bench,被新基准拉开了差距:GPT-5.5达到70%,而Claude Opus为54%。研究发现,使用简单的mini-swe-agent即可取得与复杂定制工具相当的成绩,表明许多高分可能源于提示词工程。该基准作者@theo评论称,这是首个与真实编码体验相符的评测。

Theo - t3.gg: This is the first code bench that actually aligns with how it feels to use these models coding.

AnthropicOpenAI编码评测/基准
17:39
Greg Brockman@gdb
35
确实如此,但情况正在迅速变化

Austen Allred: Codex remains underrated

OpenAI大佬观点编码
16:31
向阳乔木@vista8
55
已经很少用 Terminal 了,基本都用 Codex App 开发。 连朋友送的 API 都用的少了,不然还要折腾装插件,开启 OpenAI 订阅账号才能有的功能。
OpenAI大佬观点编码
16:27
Emad@EMostaque
69
很高兴看到 @poolsideai(美国实验室)承诺未来将开源其基础模型。 Laguna 是一个有趣的发布,去看看吧。

Jason Warner: @Shaughnessy119 https://poolside.ai/blog/introducing-laguna-xs2-m1 All models will be open going forward

开源生态模型发布编码
16:22
karminski-牙医@karminski3
56
测试 Qwen3.7-max 的 Rust 编程能力

测试显示,Qwen3.7-max 在 Code Arena 上的编程得分仅次于 Anthropic 模型。使用该模型通过 Rust 开发了一款磁盘恢复软件,实测运行流畅。该软件设计了三层恢复功能,并利用该模型智能重建文件名和内容。

编码评测/基准
14:39
Greg Brockman@gdb
56
Codex 适用于任何用计算机完成的工作: 【引用 @bran_don_gell】:如果你现在对 every 有所了解,那就是我们深度使用 Codex。因此我们撰写了一份指南,介绍如何像我们一样将 Codex 用于知识工作。你不想错过这个…… https://every.to/guides/codex-for-knowledge-work

Brandon Gell: If you know one thing about every right now, it's that we're heavily Codex pilled. So we wrote a guide on how to use Cod...

OpenAI教程/实践编码
14:27
Berryxia.AI@berryxia
56
用Vibe Coding打造个性化开源Chrome插件

开发者@vista8(乔帮主)利用Vibe Coding开发了一个功能集成的Chrome新窗口插件并开源。该插件整合了番茄钟、音乐播放、Todo、便签等独立开发者常用工具,并基于个人兴趣加入了天气信息以便判断钓鱼条件。此过程展示了Vibe Coding如何帮助用户实现现有软件无法满足的个性化、小众需求。插件还支持通过Command + K快捷键唤起,集成了谷歌搜索和ChatGPT带提示词跳转功能。

向阳乔木: 说好不熬夜的,但 AI Coding 太上瘾! 昨晚开发了个 Chrome 新窗口插件,超方便。 1. 番茄钟、音乐播放、Todo、便签、天气、换背景等,独立开发者多件套整合到了一起 😂 2. 支持谷歌搜索,ChatGPT跳转官网带提示词...

开源/仓库编码
11:33
歸藏(guizang.ai)@op7418
65
Qwen 3.7 Max 在 Arena Coding Agent 上排第四

Arena.ai: Qwen3.7 Max (20250517) debuts at #4 in Code Arena: Frontend - the top-ranked Chinese lab on the board, surpassing GLM-5....

智能体编码评测/基准
11:31
向阳乔木@vista8
70
通过对话记录实现Codex技能自动进化

一种提升Codex表现的方法是让其自动从用户交互中学习。具体做法是让Codex扫描本周的对话记录,由AI提炼用户的开发经验与审美偏好等信息,并将其写入Skill(技能)中。这个过程可以让Codex持续、自动地更新其能力。参考案例显示,有开发者借此实现了其Skill waza的每周无痛更新,从而使工具“越来越聪明,越来越懂你”。

OpenAI教程/实践编码
11:31
向阳乔木@vista8
71
推文分享了一种提升 Codex 能力的方法:通过让 Codex 扫描本周的对话记录,让 AI 自动提炼其中的开发经验与个人审美偏好,并将这些洞察写入技能(Skill)中。此过程可实现技能的每周无痛更新,从而使 Codex 越来越"懂你"。最终会生成一份贴合个人风格的复盘经验文档。

向阳乔木: 如何让你的Codex变的越来越聪明,越来越懂你? 上周跟 @HiTw93 直播时,很多人可能没注意他的一段话,他说他的开发Skill waza,每周都能无痛更新。 因为他会让Codex扫描本周对话记录,让AI提炼他的开发经验、审美偏好并写入...

智能体教程/实践编码
10:09
Peter Steinberger 🦞@steipete
72
autoreview是我添加到技术栈中最具影响力的技能(仅次于http://crabbox.sh)。它能在PR合并前自动审查你的代码。 发现许多边缘情况。 有时运行数小时。
智能体GitHub教程/实践编码
09:39
凡人小北@frxiaobei
68
Claude Code 新插件 security-guidance:一个写代码,另一个独立的 Claude 实例审查

Claude Code 推出新插件 security-guidance,通过一个写代码的 Claude 实例和一个审查代码的独立 Claude 实例进行协作。两个实例完全隔离,拥有全新上下文和独立提示词。审查过程分三层:每次编辑进行正则匹配、对话轮次结束时审查 diff、在提交/推送时进行读取调用链的智能体审查。任何一层都不直接阻断写入,审查结果会反馈给写代码的实例进行自我修正。关键创新在于审查实例因无“路径依赖”,能发现原实例的盲点。该插件基于 hooks 实现并公开源码,同时支持通过 claude-security-guidance.md 文件添加组织特定策略。

ClaudeDevs: You can add org-specific rules in a claude-security-guidance.md file. Drop it in your repo or distribute via MDM. The pl...

Anthropic产品更新编码部署/工程
09:31
Qwen@Alibaba_Qwen
同事件精选68
🚀🚀 Qwen3.7-Max 刚刚在 Code Arena 上升至第 4 名,与 Claude Opus 4.6 持平,是榜单上排名最高的中国实验室!@arena 更多内容即将发布。敬请期待。🕶️

Arena.ai: Qwen3.7 Max (20250517) debuts at #4 in Code Arena: Frontend - the top-ranked Chinese lab on the board, surpassing GLM-5....

模型发布编码评测/基准
同一事件,精选展示《Qwen3.7-Max:面向智能体时代的最新专有模型》
推荐理由:Qwen3.7-Max 在 Code Arena 前端任务上排第四,跟 Claude Opus 4.6 打平,国产模型第一次在 agentic web dev 摸到第一梯队,做 Web Agent 的可以认真看看。
09:29
宝玉@dotey
57
针对 Agent 框架中的技能管理,@dotey 的建议是无需依赖专门的 skill 管理工具。核心观点是,实际常用的 Skills 数量很少,只需将少量高频技能置于全局,其余技能跟从各自项目存放和管理即可。这为处理多个 Agent 或项目的技能配置提供了一种轻量化的思路。

Raymond Zhu: @dotey 宝玉老师,有没有比较好的skill管理工具推荐

教程/实践编码
08:29
meng shao@shao__meng
63
开发者 AlexFinn 在长期并行对比后,为何选择转向 Codex?

开发者 AlexFinn 在连续两个月、每天数小时并行使用 Codex 和 Claude Code 后,决定转向 Codex。其核心原因在于 Codex 拥有强大的自测闭环功能:每次代码改动后,它会在内置浏览器中自动验证,形成“改→测→修”的自动化循环。这一机制将首次交付有 bug 的改动比例从约 40% 显著降低至 ≤3%,可靠性大幅提升,更利于开发者保持心流。他建议开发者不要对任何公司忠诚,应始终使用当下最好的工具。

Alex Finn: I'm 100% Codex pilled now Been using Codex and Claude Code side by side hours a day for 2 months straight No longer usin...

智能体编码评测/基准
08:27
Berryxia.AI@berryxia
71
Gemma 4新玩法:开源地牢游戏让AI实时构建Web应用

Google Gemma团队开源了AIventure项目,这是一款地牢爬行游戏。玩家可以向游戏中的NPC输入提示词,AI会实时构建可运行的Web应用。AI核心由Gemma 4驱动,负责理解指令、规划步骤并生成代码。项目将智能体工作流与氛围编程融入游戏,是面向开发者的实操大师课,从游戏设计到智能体集成均已开源。

Google Gemma: Gemma 4 meets retro gaming! 🕹️✨ Introducing AIventure: an open-source dungeon crawler designed as a developer mastercla...

智能体Google开源生态教程/实践
08:09
Peter Steinberger 🦞@steipete
69
Opus周围的所有依赖都过时或糟糕,所以我凭感觉自己重写了,并替换了octoscript和opus-native。 现代WASM在Node/V8上的性能与原生代码大致相当。 现在你的Claw可以自动做会议笔记,并且你可以在会议中与它对话。 https://github.com/openclaw/libopus-wasm
开源/仓库开源生态编码
06:08
Greg Brockman@gdb
31
GPT-5.5 是一个非常出色的编程模型

Theo - t3.gg: It took me like 2 months, but I've grown to love gpt-5.5. You have to prompt entirely different and put some time into y...

OpenAI大佬观点编码
06:03
Chubby♨️@kimmonismus
62
近期开发者社区对Codex的评价显著转好,许多观点认为搭配GPT-5.5的Codex表现优异,其部分使用体验甚至常被优先选择。与此同时,新发布的智能体编码基准测试DeepSWE显示,GPT-5.5在此评测中位列第一。该基准测试旨在打破顶尖模型在公开排行榜上能力相近的表象,更真实地反映模型在开发者日常任务中的实际差异。

Serena Ge (Datacurve): Today we're releasing DeepSWE, a new standard for agentic coding benchmarks. On public leaderboards, top models often lo...

OpenAI大佬观点编码
05:39
ClaudeDevs@ClaudeDevs
精选68
我们为Claude Code发布了一个安全指导插件,可在编写代码时帮助识别和修复漏洞。 所有Claude Code用户均可使用。从插件市场(/plugins)安装。
Anthropic产品更新安全/对齐编码

推荐理由:给Claude Code装上安全扫描,边写代码边修漏洞,比事后用Snyk扫一圈要快。对已经All in Claude Code的团队是个小甜点,其他人可略过。
04:59
xAI@xai
51
非常感谢大家对 Grok Build Beta 的所有反馈。 部分用户反馈很快达到了使用限制。我们的团队发现了缓存方面可以改进的地方,因此已为所有账户重置了 Grok Build 的使用限制。 请继续分享反馈--团队会提供帮助。
xAI产品更新编码
03:40
OpenAI Developers@OpenAIDevs
53
Codex Mobile 以一种我没想到的方式让我成为更好的开发者:我离开笔记本电脑,不再事无巨细地管理。 我给它更宏大的提示词(这是模型最擅长的方式)。 我获得了思考的空间,而不是坐在那里眼睛酸痛地疯狂输入提示词。

Matt Shumer: Codex Mobile is making me a better developer in a way I didn't expect: I step away from my laptop and stop micromanaging...

OpenAI大佬观点编码
‹ 上一页
1…2425262728…50
下一页 ›