全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态X · 2086 条

全部一手资讯 X 论文

标签「编码」清除

Replit ⠕@Replit · 5月22日73

Replit Enterprise is now self-serve! In minutes you can: - Buy Replit Enterprise - Configure SSO + SCIM - Start building with your team No contract negotiations. No waiting.

译Replit Enterprise现已支持自助服务！几分钟内即可： - 购买Replit Enterprise - 配置SSO + SCIM - 与团队开始协作开发无需合同谈判，无需等待。

Chubby♨️@kimmonismus · 5月21日42

1/ I finally tried building my own tool with KroWork to see if this "Chat-to-software" thing is as easy as they say. I asked the agent, Kro, for a news dashboard, and updating to the latest version lets you see the full KroWork thought process mapping out the system logic. It uses the Kro Browser Bridge Chrome extension to hook directly into the browser for live automation. The entire app generation was done in like five minutes. No code, just a prompt. Plus, because it actually compiles into real local software, running it repeatedly doesn't consume any tokens.

译作者体验了KroWork平台的“对话生成软件”功能。他通过自然语言提示Kro代理，要求创建一个新闻仪表盘。该工具更新后可展示其系统逻辑的思维映射过程，并借助Kro Browser Bridge扩展程序实现浏览器实时操作。整个应用生成过程仅耗时约五分钟，全程无需编写代码。关键在于，由于生成结果是编译后的真实本地软件，后续运行不会消耗任何token。

Chubby♨️@kimmonismus · 5月21日66

Composer 2.5 scores 62 on the Artificial Analysis Coding Agent Index. The two models above it score 65 and 66. The price difference: $0.07 per task vs. $4–5. At some point "slightly better" stops being worth "60x more expensive," and most engineering teams crossed that point a while ago. 60x.

译Cursor公司发布了其最新的AI编码模型Composer 2.5。该模型在Artificial Analysis编码代理指数中获得62分，位列第三，性能接近于排名第一的Claude Opus 4.7（66分）和GPT-5.5（65分）。其最大优势在于极高的性价比，标准版每任务成本仅0.07美元，相比前两名4美元以上的成本低约60倍，而性能差距仅3-4分。此外，其快速模式运行速度也位居前三。该模型基于Kimi K2.5的开放权重训练，但仅限在Cursor平台内使用。

Berryxia.AI@berryxia · 5月21日71

兄弟们，Qwen 3.7 Max 发布了，是拉是夯？我们来使用「经典AI模型二叉树Prompt 」进行一个测试吧！这里分别使用了深度思考和快速模式测试（见视频）之前的Gemini 3.5 Flash的结果也可以看原贴哈。你们可以去测试一下不同的模型的表现~ 👇🏻Prompt：编写一段HTML模拟程序，借助画布绘制递归分形二叉树。从单根主干开始，以递归方式分出左右枝干，枝干长度逐步缩减，角度产生小幅随机偏移。实现树木从主干逐步生长至枝叶繁茂的动画效果，随后让树木如同随风般轻轻摇曳。

译新发布的Qwen 3.7 Max正被用户通过“递归分形二叉树”生成测试进行评估。该测试要求模型编写HTML代码，模拟树木从生长到摇曳的动画。此前，Gemini 3.5 Flash已用同一测试进行了展示，其生成完整动画耗时77.56秒，效果被评测者认为惊艳。该测试已成为比较不同AI模型代码生成与创意能力的一种常见方式，用户可借此对比各模型的表现。

凡人小北@frxiaobei · 5月21日47

已经彻底放弃 claude cowork 转向 claude code 了。原因：沙盒内权限控制太死了，稍微做点复杂的，就拿不到系统权限。还是 claude code 和 codex，给了权限跟一匹脱缰野马一样。

译用户宣布从Claude cowork全面转向Claude Code，核心原因是Claude cowork的沙盒权限控制过于严格，难以支持复杂任务。相比之下，Claude Code与Codex提供了更开放的权限，允许更自由的系统级操作，被形容为“脱缰野马”般灵活。

宝玉@dotey · 5月21日67

codex 迭代很快，新增了很多功能在手机端： • 编译完成，推送到位：现在你可以接收代码轮次编译完成（turn completion）的实时通知了，不用盯着屏幕等。 • 断线重连更优雅：优化了网络重连的 UI，断网恢复更顺畅，体验不打断。 • 对话界面大变身：对话交互界面变得更紧凑、更精致，整体视觉风格全面向桌面端应用看齐。 • 解锁新命令 /fork：全新加入 /fork 命令。 • 代码差异对比（diff）更直观：代码差异对比功能大幅优化，并且新增了直接打开完整文件的选项，改了哪里一目了然。 • 其他

译Codex在ChatGPT iOS app上进行快速迭代，推出多项手机端功能更新。核心改进包括实现代码轮次编译完成的实时推送通知，优化断线重连UI以增强网络恢复顺畅性，对话界面设计更紧凑精致并向桌面端应用看齐。新增/fork命令，并大幅优化代码差异对比功能，支持直接打开完整文件查看差异。这些更新聚焦于提升移动端交互效率和视觉体验，体现了Codex在移动场景下的持续优化。

凡人小北@frxiaobei · 5月21日65

这个有点意思，尝试下。把 codex 指向另一个产品，30 分钟后就拿到了它的架构、数据模型、带有成本估算的提示。378 行的重建计划。 "/goal implement until your output matches theirs exactly"

译用户将Codex工具指向一个现有产品，仅用30分钟就自动分析并输出了该产品的完整技术蓝图，包括架构、数据模型、带有成本估算的提示词，并生成了一份长达378行的重建计划。更令人惊叹的是，现在可以通过一条明确的指令（“/goal implement...”），让Codex尝试一次性重建出与目标产品功能完全一致的成果，展示了其强大的逆向工程与代码生成能力。

Alibaba Cloud@alibaba_cloud · 5月21日76

Qwen3.7-Max just landed at 56.6 on the Artificial Analysis Intelligence Index — a solid 4.8pt jump over Qwen3.6-Max-Preview. @ArtificialAnlys Sharper sci reasoning, stronger agentic chops, better coding, and it hallucinates less.

译阿里巴巴推出其最新闭源旗舰大模型Qwen3.7 Max，在Artificial Analysis智能指数上获得56.6分，较上代预览版提升4.8分，是其迄今最接近国际顶尖水平的模型。此次分数提升主要得益于科学推理、代理和编码能力的增强，其中模型的幻觉率大幅降低（从44.2%降至22.9%）是主要贡献因素。模型的上下文窗口已扩展至100万tokens，仍仅支持文本输入输出，具体定价尚未公布。

Chubby♨️@kimmonismus · 5月21日66

Alibaba released Qwen 3.7 max. Benchmarks incredible. Their new model ran autonomously for 35 hours, made 1,158 tool calls, and achieved a 10x speedup - on a single attention kernel. This isn't "AI improving itself across the board." It's a model grinding through compile-profile-rewrite loops on one well-defined optimization target. Impressive? Absolutely. The kind of self-improvement people will imagine when they see the headline? Not yet. The actually interesting claim is buried deeper: Qwen says agentic capabilities generalize from diverse training environments the same way language capabilities generalize from diverse text. If that holds, it's a bigger deal than any benchmark number.

译阿里云发布新旗舰模型Qwen3.7 Max，定位为“代理时代”的基础模型，强调其在端到端编码、办公自动化等实际任务中的执行能力。模型在一个内核优化任务中展示了35小时无人干预的自主运行能力，完成了超过1000次工具调用。但这并非模型的全面自我进化，而是针对特定优化目标的迭代改进。更值得关注的是，Qwen声称其代理能力能从多样化的训练环境中泛化，如同语言能力从文本中泛化。这一观点若成立，其意义将远超任何基准测试成绩。

Alibaba Cloud@alibaba_cloud · 5月21日85

(1/6) 📣Meet Qwen3.7-Max — our latest flagship, made for the Agent Era. A versatile foundation for agents that actually get things done: 🧑‍💻 Coding agent, end-to-end. Frontend prototypes, multi-file refactors, real debugging — nails it. 🗂️ A reliable office and productivity assistant. Get your work done through MCP integrations and multi-agent orchestration. ⏱️ Long-horizon autonomy. 35 hours straight on a kernel optimization task — 1,000+ tool calls, zero hand-holding. 🔌 Scaffold-agnostic. Claude Code, OpenClaw, Qwen Code, or your own stack. Consistent reliability everywhere. API's up on Model Studio: https://int.alibabacloud.com/m/1000413187/ Go build something wild!

译阿里云发布了通义千问系列的新旗舰模型Qwen3.7-Max，定位为面向智能体时代的通用基础模型。该模型旨在为“能真正完成任务”的智能体提供强大支撑，其核心能力包括：支持端到端的复杂编码任务，可作为集成多智能体协作的办公助手，并能执行超过35小时的长期自主任务。该模型具有框架无关的兼容性，可适配Claude Code、OpenClaw等多种工具链。目前，用户已可通过Model Studio平台调用其API。

Qwen@Alibaba_Qwen · 5月21日76

🚀Qwen3.7-Max just landed at 56.6 on the Artificial Analysis Intelligence Index — a solid 4.8pt jump over Qwen3.6-Max-Preview. @ArtificialAnlys ⚡️Sharper sci reasoning, stronger agentic chops, better coding, and it hallucinates less.

译阿里巴巴近期推出了新一代闭源旗舰模型Qwen3.7 Max。该模型在Artificial Analysis智能指数上获得56.6分，较前代Qwen3.6 Max Preview提升了4.8分，创下阿里系模型最接近全球前沿水平的记录。此次升级主要体现在科学推理、智能体能力和代码生成方面，同时显著降低了模型幻觉率。值得注意的是，其分数提升部分源于模型更倾向于拒绝回答，而非完全依靠事实准确率的提高。技术上，其上下文窗口已扩大至100万tokens，仍保持闭源权重。尽管如此，该模型在整体能力上仍落后于OpenAI、Anthropic和Google的同类产品。

🚨 AI News | TestingCatalog@testingcatalog · 5月21日72

Alibaba released Qwen 3.7 Max, its latest proprietary model for agentic coding. Qwen 3.7 Max scores 56.6 on the Artificial Analysis Intelligence Index, outperforming recently released Gemini 3.5 Flash and Kimi K2.6.

译阿里巴巴发布了其最新的专有模型 Qwen 3.7 Max，专为智能体编码设计。 Qwen 3.7 Max 在人工智能分析智能指数上获得 56.6 分，超越了近期发布的 Gemini 3.5 Flash 和 Kimi K2.6。

Artificial Analysis@ArtificialAnlys · 5月21日70

Alibaba’s new Qwen3.7 Max model scores 56.6 on the Artificial Analysis Intelligence Index, 4.8 points higher than Qwen3.6 Max Preview (51.8). While Alibaba still trails models from OpenAI, Anthropic and Google, Qwen3.7 Max is the closest they have been to the frontier Qwen3.7 Max is @Alibaba_Qwen's latest proprietary flagship, scoring 56.6 on the Intelligence Index, a 4.8 point gain over Qwen3.6 Max Preview (51.8) released in April. Qwen3.7 Max continues Alibaba's pattern, in place since Qwen2.5 Max (January 2025), of releasing Max and Plus models as closed weights while the rest of the Qwen line remains open weights. The leading open weights Qwen on the Intelligence Index is Qwen3.6 27B (Reasoning, 45.8) released in April 2026, and the leading open weights MoE Qwen is Qwen3.5 397B A17B (Reasoning, 45.0) released in February 2026 Key takeaways for the reasoning variant: ➤ The Intelligence Index gains over Qwen3.6 Max Preview are concentrated in scientific reasoning, agentic capability and coding. CritPt +9.7 p.p (3.7% to 13.4%), HLE +9.2 p.p (28.9% to 38.1%), TerminalBench Hard +6.9 p.p (43.9% to 50.8%) and GDPval-AA +42 Elo (1504 to 1546). Scores on other benchmarks in the Intelligence Index are flat compared to Qwen3.6 Max Preview ➤ A significant share of the Intelligence Index gain is driven by higher abstention on AA-Omniscience, not higher accuracy. Qwen3.7 Max's accuracy on AA-Omniscience dropped 7.6 p.p (37.7% to 30.1%), while its hallucination rate dropped 21.3 p.p (44.2% to 22.9%). The model is choosing not to answer more questions rather than recalling more facts. Because hallucination rate and accuracy both feed into the Intelligence Index, the hallucination reduction is one of the larger single contributors to the +4.8 point gain on the Intelligence Index ➤ Qwen3.7 Max used 96.7M output tokens to run the Intelligence Index, ~31% more than Qwen3.6 Max Preview (73.9M). It sits mid-pack on frontier token usage: above GPT-5.5 (high, 44.5M) and Gemini 3.1 Pro Preview (57.3M), below Claude Opus 4.7 (Adaptive Reasoning, Max Effort, 112M), Kimi K2.6 (166M) and DeepSeek V4 Pro (Reasoning, Max Effort, 187M) Key model details: ➤ Context window: 1M tokens (up from 256K on Qwen3.6 Max Preview) ➤ Multimodality: Text input and output only ➤ Pricing: Yet to be announced (Qwen3.6 Max Preview is priced at $1.30/$7.80 per 1M input/output tokens on the @alibaba_cloud first-party API) ➤ Licensing: Proprietary, closed weights

译阿里云发布闭源旗舰模型Qwen3.7 Max，在Artificial Analysis智能指数上获得56.6分，较前代Qwen3.6 Max Preview提升4.8分，与国际前沿模型的差距有所缩小。其进步主要体现在科学推理、智能体及编码能力上。值得注意的是，本次评分提升很大程度上源于模型在“AA-Omniscience”基准上主动选择“不回答”的次数增多，从而将幻觉率从44.2%显著降至22.9%。此外，该模型的上下文窗口已扩大至100万token，但仍延续了Max系列的闭源策略。

凡人小北@frxiaobei · 5月21日63

Codex 用到极致避个雷，我把持续对话流用爆了，设置了定时任务的需要注意下。单个对话里上下文长度也是资源，把任务拆的足够清楚才可持续。更好的方式应该是共享记忆。

译推文分享了使用Codex时的经验与注意事项。核心指出单个对话的上下文长度是有限资源，若滥用持续对话流（如设定密集的定时任务）可能导致效果下降或资源浪费。有效的做法是将任务拆解得足够清晰、明确，以提升可持续性。长远来看，更理想的解决方案应是建立共享记忆机制，而非依赖单一长对话的上下文承载。引用的背景文章进一步佐证了相关技术原理，但核心观点强调：优化任务结构比单纯延长对话更为关键。

Yuchen Jin@Yuchenj_UW · 5月21日64

Just tried Antigravity 2.0. It’s not an IDE anymore... I’m surprised! It’s basically the Codex/Claude desktop app with Gemini models. After spending $2.4B acquiring Windsurf, Google concluded that the future of AI coding is not IDE. We don’t need to read the code anymore.

译刚试了Antigravity 2.0。它不再是IDE了...我挺惊讶的！它基本上就是用Gemini模型的Codex/Claude桌面应用。在花费24亿美元收购Windsurf后，谷歌得出结论：AI编程的未来不在于IDE。我们不再需要阅读代码了。

Tibo@thsottiaux · 5月21日11

Codex is feeling codexy

译Codex 感觉很 Codex

宝玉@dotey · 5月21日63

这图还挺有意思，描述了 AI 时代的 T 型开发者需要的能力模型。（一）生成式 AI 应用 (GenAI usage) 这块内容像一把大伞，横跨在整个 T字的最顶层。这意味着，无论你是做前端、后端还是算法，熟练使用生成式 AI 已经成为了所有开发者都必须掌握的通用底层能力。（｜）核心软件工程 (Core software engineering) 这是图中那根最粗壮的黑色竖线，也是开发者安身立命的看家本领。在这个核心阵地上，需要做到深度增加——也就是说，有了 AI 的辅助，专业技术基本功不仅不能丢，反而要更深、更牢固的专业技能。（- ）相邻工程领域 (Adjacent engineering) （ -）非工程领域 (Non-engineering) 这两大块分别构成了 T 字向左右延伸的横线。左边代表与你专业相关的周边技术（比如前端懂一点后端）右边则是完全非技术领域的能力（比如懂一点产品思维、业务逻辑或沟通技巧）。在这两个方向上，需要做到广度增加。在 AI 的加持下，现在可以比以往更容易地打破壁垒，快速拓宽自己的知识边界，成为一个懂技术的“全才”。

译该推文解析了AI时代的“T型开发者”能力模型。模型核心包含三个维度：顶层，生成式AI应用成为所有开发者必须掌握的通用基础能力；纵向，借助AI进一步深化核心软件工程的专业技能；横向，借助AI更高效地拓展至相邻工程领域及产品思维、沟通等非工程技能。此模型旨在帮助开发者构建兼具专业深度与跨界广度的知识结构。观点指出，该T型能力框架不仅适用于开发者，也适用于所有职业。

Artificial Analysis@ArtificialAnlys · 5月21日72

Cursor's new Composer 2.5 takes third on the Artificial Analysis Coding Agent Index and is ~10-60x lower cost than the higher-effort Opus 4.7 and GPT-5.5 variants above it. This release puts Composer among the leading coding agent models, something that wasn’t clear for past releases @cursor_ai has released Composer 2.5, the latest model in its Composer line. Composer 2.5 scored 62 on our Coding Agent Index, a 14 point gain over Composer 2 (48). This puts it in third place of our tested agents, behind only Claude Opus 4.7 (max) in Claude Code (66) and GPT-5.5 (xhigh reasoning) in Codex (65). These cost $4.10 and $4.82 per task respectively, ~10x the cost of Composer 2.5 Fast ($0.44) and ~60x the cost of Composer 2.5 standard ($0.07). Key results for Composer 2.5 in Cursor CLI: ➤ Cost-quality Pareto frontier: At $0.07 (standard) and $0.44 (Fast) per task, Composer 2.5 is cheaper than every other agent scoring above 60 on the Index. Medium-effort peers cost $1.24–$2.21 per task; higher-effort variants land 3-4 points above at $4.10–$4.82 ➤ Per-benchmark gains vs Composer 2: +35 points on SWE-Bench-Pro-Hard-AA (12% → 47%), +2 points on Terminal-Bench v2 (64% → 66%), and +3 points on SWE-Atlas-QnA (69% → 72%). At 47%, Composer 2.5's score on SWE-Bench-Pro-Hard-AA is comparable to Claude Opus 4.7 (max) in Claude Code ➤ Among the fastest coding agents: Composer 2.5 Fast runs at an average wall time of 6.7 minutes per task, the third-fastest agent on the Artificial Analysis Coding Agent Index, behind only Claude Opus 4.7 (medium) in Claude Code (5.8m) and GPT-5.5 (medium) in Cursor CLI (6.2m) ➤ Fast mode enables better responsiveness at 6x pricing: Fast runs 30% faster than standard Composer 2.5, but is ~6x the cost per task ($0.44 vs $0.07). Token pricing is 6x higher for Fast: $3.00/$15.00 vs $0.50/$2.50 per million input/output tokens Model details: ➤ Base model: Continued training on @Kimi_Moonshot's open weights Kimi K2.5 as with Composer 2, with Cursor reporting ~85% of total compute from its own additional training and reinforcement learning ➤ Pricing: $0.50/$2.50 per million input/output tokens for the standard variant; $3.00/$15.00 for the Fast variant (the default in Cursor) ➤ Available exclusively in Cursor: both Cursor IDE and Cursor CLI, an externally accessible API is not available Congratulations @cursor_ai and @mntruell on the impressive release!

译Cursor发布了其编程智能体模型Composer 2.5，在Artificial Analysis编程智能体指数中排名第三，仅次于Claude Opus 4.7和GPT-5.5。该模型的核心优势在于极高的性价比：其标准版任务成本仅为0.07美元，比顶级竞品便宜约60倍。性能方面，它在SWE-Bench-Pro-Hard-AA等基准测试上较前代有显著提升。模型基于月之暗面的Kimi K2.5开源权重进行训练，目前仅限在Cursor产品内使用，未提供独立API。

AYi@AYi_AInotes · 5月21日66

Damn，终于有人懂了 AI Agent的护城河根本不在模型上！ xAI刚刚推送了Grok Build的更新,没有任何酷炫的新功能,全是bug修复和底层优化。但就是这条平淡的更新日志,让我确定Grok Build已经走在了所有编码Agent的最前面。这次更新最杀的几个点: 1. 修复了后台子代理静默失败的问题,这是所有AI Agent最致命的痛点 2. 终于支持macOS Intel和Windows ARM,老设备用户狂喜 3. 解决了CJK字符路径问题,中文用户再也不用被路径地狱折磨 4. 优化了上下文压缩,Agent能跑更久不崩很多公司还在比谁的模型参数更大,谁能生成更花哨的demo。 xAI在默默填坑。填那些看不见但会让你在生产环境崩溃的坑。填那些别人觉得"不重要"但会劝退90%用户的坑。决定胜负的从来都不是今天多了哪个酷炫功能，而是昨天那些看不见的坑,有没有被填上。 #Grok #xAI #AIAgent

译xAI为Grok Build推送的更新看似平淡，无炫酷新功能，但专注于修复致命的“后台子代理静默失败”、支持更多平台及中文字符路径等基础问题。这体现了其工程优先策略，在竞争对手比拼模型参数与演示时，xAI默默填补那些会导致生产环境崩溃、劝退用户的“隐形坑”。这一系列底层优化与漏洞修复，正悄然构筑其编码Agent的长期护城河。

meng shao@shao__meng · 5月21日69

看看 Alex Finn 推荐的 Codex 远程开发架构，虽然 1000x 生产力略显夸张 😄 Alex 的核心理念是把"写代码的设备"和"发指令的设备"分离开：一台主力机（Mac Studio）：唯一真正执行代码编写的环境，所有代码库、依赖、运行时都集中在这里。多台终端设备（iPad、iPhone、第二台 Mac Studio、两台 Mac mini）：只作为"遥控器"，向主力机发送指令。带来的结果是：物理位置与开发能力解耦——在床上、在超市、在日本、在车里，都能继续推进同一套代码。三层技术架构 1. 主力机（Host） · 始终开机、禁用睡眠。 · 在 Codex 应用中开启 Settings → Connections → Control this Mac，把自己暴露为可被远程控制的节点。 2. 控制端（Clients） · 所有其他设备在 Codex 中开启 Control other devices。这些设备不存放代码，只负责发送 prompt、查看结果。 3. 网络层（Tailscale） · 在所有设备上安装 Tailscale，组成一张私有 mesh 网络（基于 WireGuard）。 · 作用不仅是穿透 NAT，更关键的是：让其他 AI agent（他举例的 OpenClaw、Hermes）能够跨机器跳转、在不同节点上执行修改。 · 等于把"多台设备"在网络层抽象成"一台逻辑机器"。落地步骤（精简版） 1. 选一台桌面设备作为 Host（Mac mini 或 Mac Studio 优先）。 2. 系统设置中关闭自动睡眠，确保常开。 3. Host 上：Codex → Settings → Connections → Control this Mac 打开。 4. 其他每台设备：Codex → Settings → Control other devices 打开。 5. 全部设备安装 Tailscale，登录同一账号，组成私有网络。 6.（可选）部署跨机 agent（如 OpenClaw、Hermes），让它们利用 Tailscale 跨节点执行任务。

译Alex Finn 提出的远程开发架构核心在于将“执行代码的主机”与“发送指令的终端”分离。一台主力机（如Mac Studio）常开，作为唯一执行环境，集中所有代码与依赖；其他设备（如iPad、iPhone）仅作为“遥控器”发送指令。通过Codex的远程控制功能与Tailscale私有网络连接，开发者可在任何地点、任何设备无缝推进同一项目，实现开发能力与物理位置的解耦，从而提升灵活性和效率。

Elon Musk@elonmusk · 5月21日57

Grok Build daily release notes

译Grok Build发布了每日更新，主要包含问题修复与功能增强。本次更新扩展了系统架构支持，新增macOS Intel与Windows ARM64版本；改进了终端交互体验，如Windows终端换行支持与Warp终端图形协议。功能上增强了文件处理能力，新增Powerpoint文本提取及多图像粘贴支持。同时优化了后台稳定性，提升了对超时和失败的处理可靠性，并精简了系统提示以提升效率。

宝玉@dotey · 5月21日74

http://x.com/i/article/2057247064115838976 # 来自 Codex 官方团队的分享：如何把 Codex 用到极致作者：jason (@jxnlco) 原文：大多数开发者刚接触代码编辑类的 AI 智能体 (AI Agent) 时，通常只让它们干一件事：写代码。比如让它检查一下代码库，生成个差异对比 (diff)，跑跑测试，然后再提个合并请求 (pull request)。写代码确实依然是 Codex 的核心强项。但仔细想想，我们在电脑上做的大部分工作，本质上其实都和代码息息相关：执行终端命令、浏览网页、调用应用程序接口、导出文档、响应各种事件，或者是触发自动化流程。当 Codex 开始延伸到这些领域时，它给人的感觉就不再只是一个狭义上的“编程助手”了，而是进化成了一个能帮你搞定各种电脑工作的“全能打工人”。 Codex 的新特性让这种转变变得触手可及。现在的对话流 (thread) 可以记住你们的上下文、调用各种工具、展示生成的文件 (artifacts)，还能在不同的提示词之间无缝衔接，再也不用每次聊完都“重新认识”一遍了。想要彻底榨干 Codex 的潜能，你需要把下面这些绝招组合起来用： - 能够长期保存记忆的“持久对话流 (durable threads)” - 在你掌控全局时，灵活使用语音输入、任务干预 (steering) 和任务排队 (queuing) - 借助浏览器、电脑操控 (computer-use)、模型上下文协议服务器 (MCP servers, 一种让 AI 安全连接本地数据和工具的通用标准) 以及各类连接器，让 Codex 的手伸向代码库之外的地方 - 当你离开电脑时，利用对话流自动化 (thread automations) 和目标驱动 (Goals) 让它继续搬砖 - 熟练使用侧边栏 (side panel)，随时审查它生成的代码、文档、幻灯片和其他文件 ## 持久对话流 (Durable threads) > 持久对话流：可以长时间运行的 Codex 对话流，能在你多次使用的过程中，始终为你保留工作上下文。把对话流“置顶 (Pinned threads)”是让这些持久对话随叫随到的好办法。这对于那些需要反复推进的工作流来说简直是神器，比如： - 一个专属的“幕僚长”对话流（帮你处理日常杂务） - 一个专门负责产品发布的对话流 - 一个负责审查文档的对话流 - 一个专门盯着外部数据的监控对话流它们不是那种聊完即焚的闲聊框，而是持久的工作空间。随着时间的推移，Codex 可以随时回到这些对话中，它会记得你之前做过的决定、你的个人偏好以及当前的进度。如果没有这个功能，你每次都得从零开始把这些背景信息重新喂给它。置顶快捷键让这个操作变得极为实用。只要按下 Command-1 到 Command-9，你就能瞬间穿越回这些保存好的专属对话流里继续工作。 ## 语音输入 (Voice input) 语音输入之所以好用，是因为它能在你把想法字斟句酌地敲成文字之前，先把你脑子里最原始、最粗糙的念头捕捉下来。 Codex 内置了语音输入功能。这对于那些“嘴上说得清，打字嫌麻烦”的模糊想法特别管用。比如： > “我记得有个叫 Ben 的人在 Slack 上提过这事儿。细节我忘了。你去帮我找找看。” 对于一个会自己搜索、收集上下文并向你汇报的 AI 智能体来说，这几句话就足够它干活了。当你脑子里有一个大概的想法，但还没完全成型时，花两三分钟对着它“碎碎念”，把思绪一股脑倒出来，效果也出奇的好。录音转写也是同样的道理。一份未经修饰的会议记录，或者一段口述的计划草案，往往比一份简短的总结更有价值。因为那些粗糙的记录里，保留了你犹豫的语气、强调的重点，以及那些还没讲完的灵光一现。 ## 任务干预与排队 (Steering and queuing) 当你把语音输入和对运行中任务的直接控制结合起来时，它的威力才真正显现出来。当一个任务正在执行时，如果你想 > 任务干预 (Steering)：在当前任务还没完成时，中途打断 Codex 并给它指引新的方向。当你发现 AI 跑偏了，需要在它撞南墙之前纠正它时，这个功能就派上用场了。比如，在让它审查网站时，你可以一边在侧边栏上指指点点，一边直接开口打断它的工作： - “把这个调小一点” - “这两个元素之间的间距看着不太对劲” - “这句文案写错了” > 任务排队 (Queuing)：在 Codex 完成当前步骤后，给它安排接下来的活儿。任务排队就不太一样了。它不会打断正在进行的任务，而是把新任务排在队伍后面。你可以这么跟它说： > “等这活儿干完之后，把预览链接发到 Slack 给审核人看看。” 简单来说，“干预”是改变 Codex 眼下正在做的事，而“排队”是安排它接下来要做的事。这两个功能都能让你在任务执行的过程中，始终保持一种“人机合一”的掌控感。 ## 工具与触达范围 (Tools and reach) 当一个对话流有了连续的记忆后，下一个问题就是：它能触碰到什么？Codex 的触角可以向外一层层延伸： - $browser 在侧边栏中运行的应用内浏览器，Codex 可以在这里审查网页并在上面做标记。 - @chrome 可以获取你浏览器的登录状态，用来处理那些基于 Chrome 的工作流。 - @computer 专治那些只能通过桌面图形界面 (GUI) 来完成的任务。 $browser 适合在侧边栏做网页审查；@chrome 适合那些需要你账号登录状态的浏览器内工作；而 @computer 则用来搞定那些只能在电脑桌面上点来点去的任务。 MCP 服务器和各类连接器把这种能力进一步延伸到了你的整个工作流中。Slack 集成、以及各种 MCP 工具连接器和 MCP 指南之所以重要，是因为很多关键任务在变成代码之前，最初往往只是一条聊天消息、一封收件箱里的邮件，或者一个日程安排问题。技能 (Skills) 让那些重复的工作流可以被反复利用。一旦某个工作流被证明好用，你可以将它固化为技能，这样 Codex 下次就能直接跑通，而不需要从头开始重新学习这个流程。 ## 随时随地工作 (Work from anywhere) 随时随地与 Codex 协同工作的理念，彻底打破了我们“必须坐在电脑前才能干活”的传统限制。一个任务可以在你装满文件、权限和本地环境的 Mac 电脑上启动，然后当你离开工位用手机查看时，它依然在默默推进。这在很多碎片时间里非常有用。你可以让 Codex 在电脑上跑一个耗时很长的任务，然后自己离开工位去喝杯咖啡。如果在外面时它有问题问你，你可以直接用手机回复、批准它的下一步行动，或者在回座位前就给它指派新的方向。你的本地环境安安静静地待在那里干活，而你的人却可以自由移动。 ## 自动化 (Automations) 自动化功能能让 Codex 按照你设定的时间表自动干活。如果是需要每天从零开始的任务，比如生成日报或者例行检查代码库，那就用“定时自动化 (scheduled automation)”。但如果需要在一个带有历史记忆的对话中继续推进工作，那就用“对话流自动化 (thread automation)”。 > 对话流自动化：就像一种定时唤醒的“心跳”机制，它会按照设定的时间表，定期回到同一个 Codex 对话流中继续工作。把对话流置顶固然好用，但它毕竟还得等你主动回去找它。而“对话流自动化”则可以每隔几分钟或几小时自己去查岗，一直跑到满足某个条件为止，甚至还能根据情况自己调整查岗的频率。比如，你的“幕僚长”对话流可以每 30 分钟跑一次： > 每 30 分钟，去查一下我的 Slack 和 Gmail 里有没有需要处理但还没回的消息。帮我排个优先级。如果有人向我提问，尽可能深入地去查资料，然后帮我起草一份回复，但不要直接发送。当你回到电脑前时，那些最耗时耗力的“收集背景资料”的工作往往已经做完了。作为人类，你只需要做最后拍板发出去的决定。对话流自动化也非常适合用来处理“反馈循环”。它可以默默盯着你在代码合并请求、Google 文档或是 Slack 里的评论，趁你不在的时候自动推进后续的修改工作。想象一个制作动画的场景：审核人在 Slack 里发了一个视频。对话流自动化可以定时检查讨论进度，一旦有修改意见进来，它就自动渲染一版新的，然后在原贴里艾特审核人并回复新视频。如果某个软件的集成接口没法自动完成最终的上传，它甚至能调动“电脑桌面自动化”通过图形界面把最后一步走完。这个完整的闭环跨越了接收反馈的 Slack、负责渲染的代码库，以及负责最终上传的桌面自动化工具。 ## 目标设定 (Goals) 当一个任务有一个清晰的终点线，并且 AI 智能体可以不断朝着那个终点努力时，目标 (Goals) 的威力就彻底爆发了。 > 目标：运行时间更长的 Codex 任务，有一个明确的终点线，AI 会在一段时间内持续向它冲刺。一个糟糕的目标是这样定的： > 把这个 Markdown 文件里的计划实现一下。一个优秀的目标必须有一个可以被衡量的成功标准。比如，一位工程师想把一个内部工具从 Python 语言迁移到 Rust 语言，他可以建好新目录，设定好目标，并画一条明确的终点线： > 直到所有单元测试全部通过，这个新版本的开发才算完成。目标设定，其实就是把“持续执行”和“验证器 (verifier)”结合在了一起。你作为人类来定义想要的结果、何时停止的条件，以及用来判断 Codex 有没有离终点更近的信号。好用的验证器包括： - 一套完整的测试用例 - 一项基准性能测试 - 一个能稳定复现的 Bug - 一个验证矩阵 - 一个必须始终跑通的端到端工作流有野心固然重要，但没有验证机制的野心，就只是在许愿而已。 ## 侧边栏 (The side panel) 侧边栏功能让你生成的工作成果始终和你们的聊天窗口并排在一起。你再也不用把文件导出来，然后痛苦地在不同软件之间切来切去了，直接在原位就能审查。生成的成果可能是代码，但也可能是幻灯片、PDF 文件、网页、表格，或者任何其他生成的东西。它特别擅长处理四种工作： 1. 检查生成文件 (artifacts) 1. 标注需要修改的地方 1. 操作网页界面 1. 审查代码或文件的变更侧边栏允许用户直接原地查看 Markdown 文档、电子表格、数据表、普通文档和幻灯片。你可以不打断现有的工作流，直接检查、做标记、修改文件。你的幻灯片或 PDF 就乖乖敞开在对话框旁边，随时等你检阅和修改。应用内浏览器让 Codex 能够直接检查渲染好的网页，控制它，甚至直接响应你在网页上做的标注。对网页或文件的评论全部留在这个工作闭环里，再也不用像以前那样把它拆分成一个个单独的交接任务了。网页既变成了它的输出结果，也变成了你可以操控的控制面板。Codex 可以建好一个页面，在侧边栏打开它，自己检查它，修 Bug，然后原地不断迭代优化同一个东西。下面这些场景配合侧边栏尤其好用： - 用单个 index.html 来做轻量级的静态展示 - 跑 Storybook 来审查用户界面 (UI) 组件 - 用 Remotion Studio 搞代码生成的动画 - 在浏览器里放映的幻灯片演示 - 用于数据分析流的数据应用 (data apps) 一个简简单单的 index.html 文件就能变成一个好玩的交互式小应用，连服务器都不用搭。而且，对话流自动化还能随着时间推移悄悄更新这些静态文件，这样等你回来时，总能看到最新的进展等着你。 ## 共享记忆 (Shared memory) 当那些长时间运行的对话流能够打破单次聊天的界限，把记忆共享出去时，它们的作用将发生质的飞跃。 > 共享记忆 (Shared memory)：存储在单一对话之外的持久上下文，它可以让未来的工作能够基于一些明确的、可追溯的信息继续推进。一个相对稳妥的做法是，把这些持久的对话流“锚定”在一个 Obsidian 知识库 (vault) 里。说白了，就是建一个存放纯文本文件的文件夹。它简单直白，方便你随时查看、修改、移动，而且能保存很久。团队可以把这个文件夹放在任何你们喜欢的云盘里，比如 Git、Dropbox、Google Drive 或是其他的同步工具中。你的知识库可能长这样： > [text] vault/ ├── TODO.md ├── people/ ├── projects/ ├── agent/ └── notes/ 在最外层目录下，你可以放一个 AGENTS.md 文件。在这里，你可以给 Codex 定规矩：当它了解到关于人员、项目、决策以及待办事项的新情况时，应该如何更新这个知识库。别死板地照抄某一种知识库结构。你需要做的是“教”你的 AI 智能体：那些持久的上下文该放在哪，哪些上下文需要保留，以及什么时候不要瞎折腾去改文件。一份实用的 AGENTS.md 指南里可以这么写： - 把 ~/vault 当作你长期的工作记忆区。 - 尽量把笔记整理得有条理，别搞得到处都是碎片记录。 - 准确地把待办事项、人员、项目、每日总结和草稿分类放好。 - 把做过的决定、遇到的卡点、负责人、日期和有用的链接好好保存下来。 - 如果没有什么实质性的新进展，不要随意修改知识库里的文件。代码库是用来存代码的。而这个知识库，是用来存不断滚动的上下文的：牵涉到哪些人、改了什么、卡在哪里、接下来谁跟进，以及那些如果在两次聊天中间断掉就会彻底消失的细节。重要的上下文绝不应该仅仅锁死在某一次聊天的文字记录里。把它们写下来，放在下一个对话流能够立刻接手的地方。 Codex 自己也在设置 > 个性化 > 记忆中提供官方的记忆功能。它们就像是系统自带的本地记事本，用来记住你的个人偏好、常用的工作流以及一些经常踩的坑。不过，这个功能是用来辅助你清晰写下来的上下文的，而不是取代它。Chronicle 记忆组件也是同样的思路，它能帮 Codex 从你最近屏幕上发生的事情中提取并构建记忆。 ## 从代码向外延伸 (From code outward) Codex 虽然还是以写代码为本行起家，但现在，围绕代码的诸多周边工作，都能在这个同一套系统里搞定了：无论是 MCP 服务器、网页界面、电脑桌面控制、对话流自动化，还是那些可以在侧边栏直接审查的文件。这彻底改变了我们控制它的方式。“任务干预”可以在中途打断它的动作；“任务排队”可以帮它安排好下一步；“对话流自动化”能让你人不在场时系统依然运转；而“目标设定”则给它画了一条清晰的终点线，让 Codex 知道要一直往哪里冲。如今的 Codex 已经可以扛起一个完整的工作流：从听取指令、执行任务，一直到最终文件的审查。哪怕这些工作早已经超出了代码库的范畴，它也依然游刃有余。

译Codex已从单纯的代码生成工具，进化为能处理各类电脑任务的“全能打工人”。其核心在于利用持久对话流实现长期记忆，并能调用浏览器、电脑操控等工具，打破工作流限制。通过自动化与目标设定，Codex可离线持续工作，大幅提升生产力。

OpenCode@opencode · 5月21日61

grok build is now available in OpenCode

译Grok Build现已在OpenCode中可用

karminski-牙医@karminski3 · 5月21日64

我是这么接受AI写的代码的: prompt其实现在是真正的代码, 而代码其实是IR了. 大模型则是代码编译为IR的编译器, 只不过目前这个编译器还不够理想. (参考CPython也是一坨. 但不妨碍诞生了整个生态)

译本文将AI辅助编程类比为新的编译器范式：提示词（Prompt）是源代码，程序代码是中间表示（IR），大模型则充当编译器。这一认知框架试图缓解程序员在效率与控制感之间的焦虑，同时也反映了传统开发习惯与新兴工作方式之间的摩擦与碰撞。

Orange AI@oran_ge · 5月21日72

昨天遇到了一件让我很难忘的事。昨天下午参加量子位线下的圆桌讨论，结束后一位阿姨过来找我交流。阿姨有些激动，她说她今年70岁了，是我们的忠实用户。这让我很是意外，就问她在做什么。阿姨说她在一个儿童公益组织里工作，最近用 ColaOS 做了一个网站，不知不觉就写了16万行代码，孩子们都非常喜欢。这时候旁边一位年轻的女孩过来问我，AI 到底怎么学比较快？阿姨转身跟她说： AI 不用学啊。我点头补充道：AI 越强就应该越简单，直接用就好了。在打车回家的路上，看到新闻说胡彦斌在 vibe coding，用 AI 写代码做了一个粉丝社区 APP「彦火」，已经在 TestFlight 内测了。昨天在圆桌上，我说 ai 是水电煤，ai coding 也是水电煤，未来 ai coding 的渗透率可能是高到大家都意识不到 ai 在 coding 这样子。 AI 的生产力放大了人类的意志，不分年龄，不分行业。这是创造力爆发的时代。

译作者通过亲身经历指出，AI正在成为像水电煤一样的基础服务，变得简单、普遍且不可或缺。一位70岁阿姨用ColaOS为公益组织轻松搭建了受欢迎的网站，而歌手胡彦斌也通过AI进行vibe coding开发了自己的应用。这些例子共同印证了作者的观点：AI的核心价值是放大人类意志，让技术门槛消失，使其融入各行各业与不同年龄层的日常创造力中，开启一个生产力普遍增强的时代。

Orange AI@oran_ge · 5月21日30

Cursor 的 Composer 2.5 大家用的体感如何？在他们内部的指标上，性价比是爆棚的。

OpenAI Developers@OpenAIDevs · 5月21日51

Come join us at a Codex meetup 🌏 https://developers.openai.com/community/meetups

译来参加我们的Codex线下聚会吧 🌏 https://developers.openai.com/community/meetups

Rohan Paul@rohanpaul_ai · 5月21日71

Anders Hejlsberg (creator of C#, TypeScript): AI has shifted software work from writing code to reviewing agent-written code, architecture, and oversight. "We are all turning into project managers"

译Anders Hejlsberg（C#、TypeScript创造者）：AI已将软件工作从编写代码转变为审查智能体编写的代码、架构和监督。 “我们都在变成项目经理”

SemiAnalysis@SemiAnalysis_ · 5月21日34

If you’ve joined the vibe-coding wave (we certainly have!), one bottleneck you might have noticed is that the “just rent a cheap CPU box” step is no longer as routine as it used to be. (1/3) 🧵

译如果你已加入氛围编程浪潮（我们当然也加入了！），你可能注意到一个瓶颈：曾经“租个便宜CPU盒子”的步骤，如今已不再像过去那样简单常规了。(1/3) 🧵

OpenAI Developers@OpenAIDevs · 5月21日71

Your laptop can stay home. Work with Codex from the ChatGPT mobile app, answer questions on the go, and pick up the same thread later from your computer.

译你的笔记本电脑可以留在家里。通过ChatGPT移动应用使用Codex，随时随地回答问题，之后还能在电脑上继续同一对话。

Chubby♨️@kimmonismus · 5月21日65

Base44 just launched a new design experience that generates full sites with actual motion from a single prompt. Not the usual static AI builder output — components render properly, animations are timed, and you keep designing in the chat instead of starting over. The gap between AI-generated and designer-built is closing fast.

译Base44推出重大设计更新，可通过单一提示生成包含真实动效的完整网站，突破了传统AI构建工具的静态输出限制。新体验实现了组件的正确渲染和动画的精准计时，允许用户在对话中持续协作设计，无需从头开始。该工具支持共享画布协作、秒级重设计应用整体外观及就地生成资源，旨在弥合AI生成内容与设计师构建作品之间的差距，标志着AI设计进入新的协作阶段。

AYi@AYi_AInotes · 5月20日63

前端已死，现在用Kimi10分钟就能做出能卖钱的网站了！兄弟们，学会这个，你今天就能靠做网站赚钱！ Kimi 2.6一键生成获奖级网站，全程零代码， 9分56秒超级详细的手把手教程，我做了中英双语字幕，跟着做，只需要下午就能出第一个成品。 #Kimi #AI建站 #零代码 #前端 #独立开发 #AI生产力

译Kimi 2.6能够一键生成获奖级别的网站，全程无需代码。配套的详细视频教程时长近10分钟，可指导用户快速上手，在极短的时间内产出可用于销售的成品网站，大幅降低了利用AI进行独立开发与变现的门槛。

凡人小北@frxiaobei · 5月20日51

DeepSeek 招聘，帮转，有志青年可以看看。

译DeepSeek 发布招聘信息，计划在北京组建新团队开发 Code Harness 项目（可能称为 DeepSeek Code）。团队将负责从零开始构建该工具，招聘职位包括 Harness Product Manager 和 Harness R&D Engineer，分别侧重于产品管理和研发工作，强调研究与产品的结合。此次招聘面向有志于AI技术领域的青年人才，工作地点位于北京。

elvis@omarsar0 · 5月20日59

I highly recommend this. The Agentic Review is a new podcast from @QodoAI hosted by Itamar Friedman and Nnenna Ndukwe, and it's a great AI coding show that's neither hype nor doom. It's honest conversations about what shipping high-quality AI-generated code actually looks like. We need more of these conversations around AI agents. As an AI engineer, I think about this stuff constantly. A few things make this show worth your time: * It's a conversation about what good code means in the era of coding agents. * The hosts actually push back at guests instead of doing softball interviews. * The current guest lineup is strong: @dexhorthy, @shanselman, and @fullstackpython. I work a lot on context engineering, so the Dexter Horthy episode resonates the most for me. His take on context engineering as one of the biggest moats right now matches exactly what I'm seeing in production. He talks about a five-month experiment where his team stopped reading the code, then ripped it all out and rebuilt it by hand. That lesson about owning your context and actually reading what your agents produce is something every AI engineer needs to understand today. The bigger thesis across episodes: typing code may be dying, but the SDLC, code review, and craft matter more than ever. AI sprinkled on a broken software lifecycle is "a band-aid on cancer" (Hanselman's line, and it stuck with me). Thanks, @QodoAI, for the partnership on this post.

译推荐QodoAI出品的播客《Agentic Review》，该节目以平衡的视角探讨AI代码生成的真实场景。通过主持人与Dexter Horthy、Scott Hanselman等嘉宾的深度对话，节目强调了上下文工程作为关键技术壁垒的重要性，并指出AI无法弥补破碎的开发流程，反而更凸显了代码审查与工程技艺的持续价值。核心观点认为，尽管编码方式可能变革，但软件开发生命周期的本质与严谨性将更加重要。节目避免了过度炒作或悲观论调，为AI工程师提供了有价值的实践参考。

🚨 AI News | TestingCatalog@testingcatalog · 5月20日67

ICYMI 👀: Google AI Studio can now build Android apps with a single click installation process to your device. Besides that, users can also build apps that interact with Google Suite applications. All this, powered by Gemini 3.5 Flash. And a mobile app is coming soon 👀

译ICYMI 👀：Google AI Studio 现在可以一键构建安卓应用，并直接安装到您的设备上。此外，用户还可以构建与 Google Suite 应用程序交互的应用。所有这些，都由 Gemini 3.5 Flash 提供支持。移动应用即将推出 👀

Peter Steinberger 🦞@steipete · 5月20日72

Can't recommend @cotypist https://cotypist.app enough. Autocomplete everywhere.

译强烈推荐@cotypist https://cotypist.app 。全场景自动补全。

X.PIN@thexpin · 5月20日50

DeepSeek has formed a new internal team: Harness. This team is to build a coding agent aimed squarely at Anthropic's Claude Code. Senior researcher Chen Deli confirmed it: the goal is essentially "DeepSeek Code Harness," a direct answer to Claude Code. They're hiring a PM and an engineer for it, both based in Beijing at their Haidian office near Peking & Tsinghua.

译DeepSeek已成立一个新的内部团队：Harness。该团队旨在打造一个直接对标Anthropic的Claude Code的编程智能体。高级研究员陈德利确认了这一点：目标本质上是“DeepSeek Code Harness”，作为对Claude Code的直接回应。他们正在为此招聘一名产品经理和一名工程师，工作地点均在北京海淀办公室，靠近北京大学和清华大学。

Rohan Paul@rohanpaul_ai · 5月20日54

Marc Andreessen on AI becoming better than almost every expert human. "it's a world-class doctor, a world-class lawyer, a world-class accountant, a world-class political operative, a world-class marketing expert, and it's a world-class software coder"

译Marc Andreessen指出AI在医疗、法律、会计、政治、营销和软件开发等多个领域均已成为世界级专家，能力超越绝大多数人类专业人士。引用Larry Ellison的实际案例说明这一趋势已在企业级应用中实现：Oracle的编程工作现已由AI完成，开发者只需向模型声明程序目标，AI便会自主生成执行步骤，标志着软件开发从流程编写转向意图声明的范式转变。

OpenCode@opencode · 5月20日66

Gemini 3.5 Flash now available in OpenCode - very fast - 1M context - priced similarly to GLM, Kimi, and DeepSeek Pro

译Gemini 3.5 Flash现已在OpenCode上线 - 速度极快 - 100万上下文 - 定价与GLM、Kimi和DeepSeek Pro相近

Rohan Paul@rohanpaul_ai · 5月20日37

AI made coding supply explode, but demand expanded with it. In the leading tech companies, the coders using AI, are 20X more productive Companies had thousands of code ideas they never reached earlier. AI suddenly unloking them all. ~ Marc Andreessen

译AI让代码供给爆发，但需求也随之增长。在领先的科技公司中，使用AI的程序员生产力提升了20倍。公司此前有成千上万的代码构想未能实现，AI突然解锁了所有这些可能。 ~ Marc Andreessen

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月22日

00:05

Replit ⠕@Replit

精选73

Replit Enterprise现已支持自助服务！几分钟内即可： - 购买Replit Enterprise - 配置SSO + SCIM - 与团队开始协作开发无需合同谈判，无需等待。

产品更新编码

推荐理由：Replit 企业版自助开通，几分钟完成 SSO 配置和团队搭建，中小团队不用再等采购流程，生产力上手速度直接拉满。

5月21日

23:56

Chubby♨️@kimmonismus

42

KroWork五分钟生成本地新闻仪表盘

作者体验了KroWork平台的“对话生成软件”功能。他通过自然语言提示Kro代理，要求创建一个新闻仪表盘。该工具更新后可展示其系统逻辑的思维映射过程，并借助Kro Browser Bridge扩展程序实现浏览器实时操作。整个应用生成过程仅耗时约五分钟，全程无需编写代码。关键在于，由于生成结果是编译后的真实本地软件，后续运行不会消耗任何token。

编码评测/基准

23:56

Chubby♨️@kimmonismus

66

Cursor公司发布了其最新的AI编码模型Composer 2.5。该模型在Artificial Analysis编码代理指数中获得62分，位列第三，性能接近于排名第一的Claude Opus 4.7（66分）和GPT-5.5（65分）。其最大优势在于极高的性价比，标准版每任务成本仅0.07美元，相比前两名4美元以上的成本低约60倍，而性能差距仅3-4分。此外，其快速模式运行速度也位居前三。该模型基于Kimi K2.5的开放权重训练，但仅限在Cursor平台内使用。

Artificial Analysis: Cursor's new Composer 2.5 takes third on the Artificial Analysis Coding Agent Index and is ~10-60x lower cost than the h...

产品更新编码

23:11

Berryxia.AI@berryxia

71

Qwen 3.7 Max与Gemini 3.5 Flash生成二叉树测试对比

新发布的Qwen 3.7 Max正被用户通过“递归分形二叉树”生成测试进行评估。该测试要求模型编写HTML代码，模拟树木从生长到摇曳的动画。此前，Gemini 3.5 Flash已用同一测试进行了展示，其生成完整动画耗时77.56秒，效果被评测者认为惊艳。该测试已成为比较不同AI模型代码生成与创意能力的一种常见方式，用户可借此对比各模型的表现。

Berryxia.AI: 兄弟们! 今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了! 我第一时间用它跑了那个经典的「AI模型递归二叉树生长测试」. 同一个 Prompt ,不同模型画出的树形态完全不一样。(见视频-Prompt见评论区) G...

推理编码评测/基准

23:00

凡人小北@frxiaobei

47

AI编程工具转向：权限自由度成关键

用户宣布从Claude cowork全面转向Claude Code，核心原因是Claude cowork的沙盒权限控制过于严格，难以支持复杂任务。相比之下，Claude Code与Codex提供了更开放的权限，允许更自由的系统级操作，被形容为“脱缰野马”般灵活。

Anthropic 现象/趋势编码

22:37

宝玉@dotey

67

Codex手机端大更新：多项功能提升体验

Codex在ChatGPT iOS app上进行快速迭代，推出多项手机端功能更新。核心改进包括实现代码轮次编译完成的实时推送通知，优化断线重连UI以增强网络恢复顺畅性，对话界面设计更紧凑精致并向桌面端应用看齐。新增/fork命令，并大幅优化代码差异对比功能，支持直接打开完整文件查看差异。这些更新聚焦于提升移动端交互效率和视觉体验，体现了Codex在移动场景下的持续优化。

Thomas Ricouard: Codex in ChatGPT iOS app got better in latest update! - Receive turn completion push notifications - Better reconnection...

OpenAI 产品更新编码

22:30

凡人小北@frxiaobei

65

Codex展示了逆向分析并重建软件的惊人能力

用户将Codex工具指向一个现有产品，仅用30分钟就自动分析并输出了该产品的完整技术蓝图，包括架构、数据模型、带有成本估算的提示词，并生成了一份长达378行的重建计划。更令人惊叹的是，现在可以通过一条明确的指令（“/goal implement...”），让Codex尝试一次性重建出与目标产品功能完全一致的成果，展示了其强大的逆向工程与代码生成能力。

Elvis: codex is actually insane 🤯 if you thought frontend cloning was impressive, check this out: I just pointed codex at anot...

OpenAI 推理教程/实践编码

22:12

Alibaba Cloud@alibaba_cloud

76

阿里巴巴推出其最新闭源旗舰大模型Qwen3.7 Max，在Artificial Analysis智能指数上获得56.6分，较上代预览版提升4.8分，是其迄今最接近国际顶尖水平的模型。此次分数提升主要得益于科学推理、代理和编码能力的增强，其中模型的幻觉率大幅降低（从44.2%降至22.9%）是主要贡献因素。模型的上下文窗口已扩展至100万tokens，仍仅支持文本输入输出，具体定价尚未公布。

Artificial Analysis: Alibaba's new Qwen3.7 Max model scores 56.6 on the Artificial Analysis Intelligence Index, 4.8 points higher than Qwen3....

智能体推理模型发布编码

关联讨论 9 条公众号：通义实验室（千问）X：通义千问 / Qwen (@Alibaba_Qwen)X：阿里云 / Alibaba Cloud (@alibaba_cloud)X：X.PIN (@thexpin)X：Rohan Paul (@rohanpaul_ai)Qwen：Blog Retrieval（API）Hacker News 热门（buzzing.cc 中文翻译）X：OpenRouter (@OpenRouter)IT之家（RSS）

21:56

Chubby♨️@kimmonismus

66

阿里云发布Qwen3.7 Max：代理能力泛化或比性能突破更重要

阿里云发布新旗舰模型Qwen3.7 Max，定位为“代理时代”的基础模型，强调其在端到端编码、办公自动化等实际任务中的执行能力。模型在一个内核优化任务中展示了35小时无人干预的自主运行能力，完成了超过1000次工具调用。但这并非模型的全面自我进化，而是针对特定优化目标的迭代改进。更值得关注的是，Qwen声称其代理能力能从多样化的训练环境中泛化，如同语言能力从文本中泛化。这一观点若成立，其意义将远超任何基准测试成绩。

Qwen: 📣Meet Qwen3.7-Max - our latest flagship, made for the Agent Era. A versatile foundation for agents that actually get th...

智能体模型发布编码

21:42

Alibaba Cloud@alibaba_cloud

85

通义千问旗舰模型Qwen3.7-Max发布

阿里云发布了通义千问系列的新旗舰模型Qwen3.7-Max，定位为面向智能体时代的通用基础模型。该模型旨在为“能真正完成任务”的智能体提供强大支撑，其核心能力包括：支持端到端的复杂编码任务，可作为集成多智能体协作的办公助手，并能执行超过35小时的长期自主任务。该模型具有框架无关的兼容性，可适配Claude Code、OpenClaw等多种工具链。目前，用户已可通过Model Studio平台调用其API。

智能体 MCP/工具模型发布编码

关联讨论 9 条公众号：通义实验室（千问）X：通义千问 / Qwen (@Alibaba_Qwen)X：阿里云 / Alibaba Cloud (@alibaba_cloud)X：X.PIN (@thexpin)X：Rohan Paul (@rohanpaul_ai)Qwen：Blog Retrieval（API）Hacker News 热门（buzzing.cc 中文翻译）X：OpenRouter (@OpenRouter)IT之家（RSS）

21:40

Qwen@Alibaba_Qwen

76

阿里巴巴近期推出了新一代闭源旗舰模型Qwen3.7 Max。该模型在Artificial Analysis智能指数上获得56.6分，较前代Qwen3.6 Max Preview提升了4.8分，创下阿里系模型最接近全球前沿水平的记录。此次升级主要体现在科学推理、智能体能力和代码生成方面，同时显著降低了模型幻觉率。值得注意的是，其分数提升部分源于模型更倾向于拒绝回答，而非完全依靠事实准确率的提高。技术上，其上下文窗口已扩大至100万tokens，仍保持闭源权重。尽管如此，该模型在整体能力上仍落后于OpenAI、Anthropic和Google的同类产品。

Artificial Analysis: Alibaba's new Qwen3.7 Max model scores 56.6 on the Artificial Analysis Intelligence Index, 4.8 points higher than Qwen3....

智能体推理模型发布编码

关联讨论 9 条公众号：通义实验室（千问）X：通义千问 / Qwen (@Alibaba_Qwen)X：阿里云 / Alibaba Cloud (@alibaba_cloud)X：X.PIN (@thexpin)X：Rohan Paul (@rohanpaul_ai)Qwen：Blog Retrieval（API）Hacker News 热门（buzzing.cc 中文翻译）X：OpenRouter (@OpenRouter)IT之家（RSS）

19:29

🚨 AI News | TestingCatalog@testingcatalog

72

阿里巴巴发布了其最新的专有模型 Qwen 3.7 Max，专为智能体编码设计。 Qwen 3.7 Max 在人工智能分析智能指数上获得 56.6 分，超越了近期发布的 Gemini 3.5 Flash 和 Kimi K2.6。

Alibaba Group: Qwen3.7-Max is live! 🚀 Introducing the latest proprietary model, built for advanced agentic coding, complex reasoning, ...

智能体推理模型发布编码

16:28

Artificial Analysis@ArtificialAnlys

70

阿里云发布Qwen3.7 Max模型，评测得分56.6分

阿里云发布闭源旗舰模型Qwen3.7 Max，在Artificial Analysis智能指数上获得56.6分，较前代Qwen3.6 Max Preview提升4.8分，与国际前沿模型的差距有所缩小。其进步主要体现在科学推理、智能体及编码能力上。值得注意的是，本次评分提升很大程度上源于模型在“AA-Omniscience”基准上主动选择“不回答”的次数增多，从而将幻觉率从44.2%显著降至22.9%。此外，该模型的上下文窗口已扩大至100万token，但仍延续了Max系列的闭源策略。

推理模型发布编码

12:48

凡人小北@frxiaobei

63

推文分享了使用Codex时的经验与注意事项。核心指出单个对话的上下文长度是有限资源，若滥用持续对话流（如设定密集的定时任务）可能导致效果下降或资源浪费。有效的做法是将任务拆解得足够清晰、明确，以提升可持续性。长远来看，更理想的解决方案应是建立共享记忆机制，而非依赖单一长对话的上下文承载。引用的背景文章进一步佐证了相关技术原理，但核心观点强调：优化任务结构比单纯延长对话更为关键。

宝玉: http://x.com/i/article/2057247064115838976

教程/实践编码

12:39

Yuchen Jin@Yuchenj_UW

64

刚试了Antigravity 2.0。它不再是IDE了…我挺惊讶的！它基本上就是用Gemini模型的Codex/Claude桌面应用。在花费24亿美元收购Windsurf后，谷歌得出结论：AI编程的未来不在于IDE。我们不再需要阅读代码了。

Google 产品更新编码

12:22

Tibo@thsottiaux

11

Codex 感觉很 Codex

OpenAI 其他编码

11:22

宝玉@dotey

63

AI时代T型开发者能力模型解析

该推文解析了AI时代的“T型开发者”能力模型。模型核心包含三个维度：顶层，生成式AI应用成为所有开发者必须掌握的通用基础能力；纵向，借助AI进一步深化核心软件工程的专业技能；横向，借助AI更高效地拓展至相邻工程领域及产品思维、沟通等非工程技能。此模型旨在帮助开发者构建兼具专业深度与跨界广度的知识结构。观点指出，该T型能力框架不仅适用于开发者，也适用于所有职业。

Zara Zhang: Great slide from the "How to thrive as an AI-era developer" session at Google I/O today I think this T-shape will apply ...

Google 教程/实践编码

10:11

Artificial Analysis@ArtificialAnlys

72

Cursor Composer 2.5：性价比突出的AI编程智能体，跻身全球前三

Cursor发布了其编程智能体模型Composer 2.5，在Artificial Analysis编程智能体指数中排名第三，仅次于Claude Opus 4.7和GPT-5.5。该模型的核心优势在于极高的性价比：其标准版任务成本仅为0.07美元，比顶级竞品便宜约60倍。性能方面，它在SWE-Bench-Pro-Hard-AA等基准测试上较前代有显著提升。模型基于月之暗面的Kimi K2.5开源权重进行训练，目前仅限在Cursor产品内使用，未提供独立API。

智能体产品更新编码

10:01

AYi@AYi_AInotes

66

xAI用基础修复定义AI Agent竞争力

xAI为Grok Build推送的更新看似平淡，无炫酷新功能，但专注于修复致命的“后台子代理静默失败”、支持更多平台及中文字符路径等基础问题。这体现了其工程优先策略，在竞争对手比拼模型参数与演示时，xAI默默填补那些会导致生产环境崩溃、劝退用户的“隐形坑”。这一系列底层优化与漏洞修复，正悄然构筑其编码Agent的长期护城河。

skcd: Bug fixes shipping to Grok Build (release notes will be available in the TUI) - macOS x86_64 (Intel) support - Windows A...

智能体 xAI 大佬观点编码

08:51

meng shao@shao__meng

69

Alex Finn 推荐的 Codex 远程开发架构，虽然 1000x 生产力略显夸张 😄

Alex Finn 提出的远程开发架构核心在于将“执行代码的主机”与“发送指令的终端”分离。一台主力机（如Mac Studio）常开，作为唯一执行环境，集中所有代码与依赖；其他设备（如iPad、iPhone）仅作为“遥控器”发送指令。通过Codex的远程控制功能与Tailscale私有网络连接，开发者可在任何地点、任何设备无缝推进同一项目，实现开发能力与物理位置的解耦，从而提升灵活性和效率。

Alex Finn: You need to set up this Codex system I have Been taking advantage of their new remote features and my productivity has 1...

教程/实践编码部署/工程

08:48

Elon Musk@elonmusk

57

Grok Build发布了每日更新，主要包含问题修复与功能增强。本次更新扩展了系统架构支持，新增macOS Intel与Windows ARM64版本；改进了终端交互体验，如Windows终端换行支持与Warp终端图形协议。功能上增强了文件处理能力，新增Powerpoint文本提取及多图像粘贴支持。同时优化了后台稳定性，提升了对超时和失败的处理可靠性，并精简了系统提示以提升效率。

skcd: Bug fixes shipping to Grok Build (release notes will be available in the TUI) - macOS x86_64 (Intel) support - Windows A...

xAI 产品更新编码

08:18

宝玉@dotey

74

Codex 从编程助手到全能打工人

Codex已从单纯的代码生成工具，进化为能处理各类电脑任务的“全能打工人”。其核心在于利用持久对话流实现长期记忆，并能调用浏览器、电脑操控等工具，打破工作流限制。通过自动化与目标设定，Codex可离线持续工作，大幅提升生产力。

智能体 MCP/工具教程/实践编码

08:14

OpenCode@opencode

61

Grok Build现已在OpenCode中可用

xAI 产品更新编码

07:18

karminski-牙医@karminski3

64

接受AI代码的新视角：从编译器范式看Prompt与代码

本文将AI辅助编程类比为新的编译器范式：提示词（Prompt）是源代码，程序代码是中间表示（IR），大模型则充当编译器。这一认知框架试图缓解程序员在效率与控制感之间的焦虑，同时也反映了传统开发习惯与新兴工作方式之间的摩擦与碰撞。

Baye: 我至今还是无法接受不看 AI 写的代码,大到代码的架构,小到模块化的设计、写的 SQL、甚至是 Key 的设计,我都要自己把握才能心安。这就导致我效率上不去,从来没用完过五小时/周限额,是不是已经算是老派程序员了。

大佬观点编码

05:44

Orange AI@oran_ge

72

70岁阿姨与歌手都在用AI，它已是水电煤

作者通过亲身经历指出，AI正在成为像水电煤一样的基础服务，变得简单、普遍且不可或缺。一位70岁阿姨用ColaOS为公益组织轻松搭建了受欢迎的网站，而歌手胡彦斌也通过AI进行vibe coding开发了自己的应用。这些例子共同印证了作者的观点：AI的核心价值是放大人类意志，让技术门槛消失，使其融入各行各业与不同年龄层的日常创造力中，开启一个生产力普遍增强的时代。

大佬观点编码

05:13

Orange AI@oran_ge

30

Cursor 的 Composer 2.5 大家用的体感如何？在他们内部的指标上，性价比是爆棚的。

Lee Robinson: Where could we improve Composer 2.5? We're working on the next model and would love your feedback. Lots of work to do (o...

智能体产品更新编码

04:06

OpenAI Developers@OpenAIDevs

51

来参加我们的Codex线下聚会吧 🌏 https://developers.openai.com/community/meetups

Andy T: Last weeks London Codex Meetup was star studded with epic builders ⭐️ 45 mins hacking and 4 top demos walked away with 1...

OpenAI 编码行业动态

03:06

Rohan Paul@rohanpaul_ai

71

Anders Hejlsberg（C#、TypeScript创造者）：AI已将软件工作从编写代码转变为审查智能体编写的代码、架构和监督。 "我们都在变成项目经理"

大佬观点编码

01:06

SemiAnalysis@SemiAnalysis_

34

如果你已加入氛围编程浪潮（我们当然也加入了！），你可能注意到一个瓶颈：曾经"租个便宜CPU盒子"的步骤，如今已不再像过去那样简单常规了。（1/3） 🧵

现象/趋势编码

01:06

OpenAI Developers@OpenAIDevs

精选71

你的笔记本电脑可以留在家里。通过ChatGPT移动应用使用Codex，随时随地回答问题，之后还能在电脑上继续同一对话。

OpenAI 产品更新编码

关联讨论 4 条X：OpenAI Developers (@OpenAIDevs)IT之家（RSS）X：OpenAI (@OpenAI)X：Berry Xia (@berryxia)

推荐理由：移动端能用 Codex 了，多设备无缝接续同一个会话，对随时要改代码的开发者来说是个实用更新，但普通用户可能感知不强。

00:35

Chubby♨️@kimmonismus

65

Base44推出重大设计更新，可通过单一提示生成包含真实动效的完整网站，突破了传统AI构建工具的静态输出限制。新体验实现了组件的正确渲染和动画的精准计时，允许用户在对话中持续协作设计，无需从头开始。该工具支持共享画布协作、秒级重设计应用整体外观及就地生成资源，旨在弥合AI生成内容与设计师构建作品之间的差距，标志着AI设计进入新的协作阶段。

Base44: We just shipped a major design update to Base44 - built to help you make something that's truly yours. Collaborate on a ...

产品更新编码

5月20日

23:56

AYi@AYi_AInotes

63

Kimi 10分钟建站，零代码打造可售网站

Kimi 2.6能够一键生成获奖级别的网站，全程无需代码。配套的详细视频教程时长近10分钟，可指导用户快速上手，在极短的时间内产出可用于销售的成品网站，大幅降低了利用AI进行独立开发与变现的门槛。

AYi: Kimi做网站设计这么牛逼吗? 这个视频分享了怎么用Kimi 2.6做获奖10美元的网站, 教程讲的特别细, 需要字幕学习的可以评论区留言告诉我!

教程/实践编码

23:41

凡人小北@frxiaobei

51

DeepSeek 发布招聘信息，计划在北京组建新团队开发 Code Harness 项目（可能称为 DeepSeek Code）。团队将负责从零开始构建该工具，招聘职位包括 Harness Product Manager 和 Harness R&D Engineer，分别侧重于产品管理和研发工作，强调研究与产品的结合。此次招聘面向有志于AI技术领域的青年人才，工作地点位于北京。

Deli Chen: 🚀 We're hiring! DeepSeek is forming a new Harness team to build Code Harness from the ground up-may be you can call it ...

智能体 DeepSeek 编码行业动态

22:33

elvis@omarsar0

59

播客《Agentic Review》推荐：聚焦AI编程的务实对话

推荐QodoAI出品的播客《Agentic Review》，该节目以平衡的视角探讨AI代码生成的真实场景。通过主持人与Dexter Horthy、Scott Hanselman等嘉宾的深度对话，节目强调了上下文工程作为关键技术壁垒的重要性，并指出AI无法弥补破碎的开发流程，反而更凸显了代码审查与工程技艺的持续价值。核心观点认为，尽管编码方式可能变革，但软件开发生命周期的本质与严谨性将更加重要。节目避免了过度炒作或悲观论调，为AI工程师提供了有价值的实践参考。

智能体大佬观点编码

19:13

🚨 AI News | TestingCatalog@testingcatalog

67

ICYMI 👀：Google AI Studio 现在可以一键构建安卓应用，并直接安装到您的设备上。此外，用户还可以构建与 Google Suite 应用程序交互的应用。所有这些，都由 Gemini 3.5 Flash 提供支持。移动应用即将推出 👀

Google AI Studio: ai studio mobile: build your ideas, wherever you are coming soon to an app store near you http://ai.studio/mobile

Google 产品更新编码

18:13

Peter Steinberger 🦞@steipete

72

强烈推荐@cotypist https://cotypist.app 。全场景自动补全。

18:06

X.PIN@thexpin

50

DeepSeek已成立一个新的内部团队：Harness。该团队旨在打造一个直接对标Anthropic的Claude Code的编程智能体。高级研究员陈德利确认了这一点：目标本质上是"DeepSeek Code Harness"，作为对Claude Code的直接回应。他们正在为此招聘一名产品经理和一名工程师，工作地点均在北京海淀办公室，靠近北京大学和清华大学。

智能体 Anthropic DeepSeek 编码

17:35

Rohan Paul@rohanpaul_ai

54

Marc Andreessen指出AI在医疗、法律、会计、政治、营销和软件开发等多个领域均已成为世界级专家，能力超越绝大多数人类专业人士。引用Larry Ellison的实际案例说明这一趋势已在企业级应用中实现：Oracle的编程工作现已由AI完成，开发者只需向模型声明程序目标，AI便会自主生成执行步骤，标志着软件开发从流程编写转向意图声明的范式转变。

Rohan Paul: Larry Ellison says AI is now writing Oracle's Code. "We just tell the model what we want the program to do, and then the...

大佬观点编码

16:41

OpenCode@opencode

66

Gemini 3.5 Flash现已在OpenCode上线 - 速度极快 - 100万上下文 - 定价与GLM、Kimi和DeepSeek Pro相近

Google 产品更新编码

16:05

Rohan Paul@rohanpaul_ai

37

AI让代码供给爆发，但需求也随之增长。在领先的科技公司中，使用AI的程序员生产力提升了20倍。公司此前有成千上万的代码构想未能实现，AI突然解锁了所有这些可能。 ~ Marc Andreessen

大佬观点编码

1…28 293031 32…50