5月22日

08:00

HuggingFace Daily Papers（社区热门论文）

CoSPlay是一个无需Ground-Truth数据且无需训练的代码生成框架，其通过合作自博弈机制联合提升代码与单元测试质量。工作流程为：探索多样化方案并识别潜在失败模式以生成有区分度的单元测试；利用代码-单元测试执行矩阵中的双向通过计数信号，迭代修剪或修复弱代码、刷新或替换不可靠测试，使两个候选池协同演进；最终从最大输出共识簇中选择代码，因为正确代码对相同输入的输出一致。在四个基准测试上，应用于Qwen2.5-7B-Instruct时，将平均BoN从22.1%提升至33.2%，单元测试准确率从14.6%提升至78.3%，性能匹配或超越RLVR模型CURE-7B；应用于CURE-7B时，可进一步将BoN提升5.7%。该方法在不同骨干模型上具备泛化能力，且在可比的token预算下优于无GT数据的TTS基线，性能随预算增加持续提升。

推理编码论文/研究

07:12

Berryxia.AI@berryxia

最近X 开始支持和拥抱各种生态，从小龙虾、Hermes 再到直接工具类的OpenCode 。如今你可以直接在OpenCode中使用Grok 或者X Premium 的订阅z

OpenCode: OpenCode can now officially be used with your Grok or X Premium subscriptions Try it with the new Grok Build model

MCP/工具 xAI 产品更新编码

07:12

Berryxia.AI@berryxia

Codex新增应用截图抓取与长期目标执行功能

Codex近期推出Appshots功能，用户可在Mac上双击Command键，快速将当前应用窗口的截图与文字内容（包括屏幕外部分）投喂给AI。同时上线的/goal模式支持用户设定明确任务目标（如跑通功能、编写测试），AI可自主跨时执行，允许用户随时查看进度或调整方向。这些更新凸显了AI Agent的自主能力，但目前Mac端体验最佳，Windows用户仍在等待基础远程控制与功能同步。

OpenAI Developers: It's Codex Thursday, and yes, we have updates for you. First up: Appshots, a new way to bring the context of what you're...

智能体 OpenAI 产品更新编码

06:35

MarkTechPost（RSS）

Qwen推出Qwen3.7-Max：配备100万token上下文窗口的推理智能体模型

在2026年阿里云峰会上，阿里巴巴的Qwen团队发布了其迄今最先进、最全面的智能体模型Qwen3.7-Max。该模型核心特点是具备100万token的超长上下文窗口，并引入扩展思考模式，专为代码编写、调试及多步骤工作流自动化等长周期任务设计。在Artificial Analysis Intelligence Index评测中，该模型获得56.6分，在所有专有模型中排名第五。

智能体推理模型发布编码

05:38

小互@xiaohu

Codex 推出 Locked Use（锁屏使用）功能

Codex 新增“锁屏使用”功能，允许用户在 Mac 锁屏状态下，通过手机远程下发指令，让电脑继续执行任务。该功能基于苹果官方授权机制临时解锁，操作全程屏幕保持黑屏以保护隐私，并具备四层安全设计，如短时授权、检测到本地操作即刻重锁，确保了远程操作的安全性与便利性。

产品更新端侧编码

05:30

Claude Code：GitHub Releases（RSS）

精选73

v2.1.147版本更新

本次更新引入了Workflow工具，支持确定性多智能体编排（默认关闭）。将/simplify命令重命名为/code-review，现可报告代码正确性问题并支持生成GitHub PR内联评论。改进了自动更新器（增加重试与错误报告）、大文件diff渲染性能，并优化了提示历史记录以避免重复条目。修复了多个关键问题，包括企业登录限制未生效、Windows下的PowerShell工具与终端闪烁问题、插件系统及shell快照的bug，并增强了沙箱安全性与终端兼容性。

智能体 Anthropic 产品更新编码

推荐理由：Claude Code 这次更新不止修 bug，Workflow 工具让多 agent 编排有了确定性模式，虽然默认关闭但值得尝鲜，做复杂工程的开发者可以关注。

05:05

🚨 AI News | TestingCatalog@testingcatalog

OpenAI宣布Codex在macOS平台推出重要更新，核心功能为"Appshots"。该功能允许用户通过快捷键快速将任何应用窗口的完整上下文（包括屏幕截图与可访问文本）附加至Codex对话线程，从而为AI提供更全面的工作背景信息。此外，本次更新还包括浏览器端的新版注释编辑器、默认启用的/goal命令，以及现已支持分享的插件功能。Appshots已向所有Mac端用户开放。

OpenAI Developers: It's Codex Thursday, and yes, we have updates for you. First up: Appshots, a new way to bring the context of what you're...

OpenAI 产品更新多模态编码

04:38

宝玉@dotey

OpenAI Codex 更新：强化协作与自主执行能力

OpenAI 近日对 Codex 进行了一系列重要更新，旨在提升团队协作效率并降低开发门槛。核心功能包括：通过快捷键快速发送当前窗口上下文至 Codex，解决工作流中断问题；桌面版正式推出/goal 模式，支持长时间自主执行复杂任务；新增高级标注模式，方便设计师在页面预览中直接调整与批注；企业用户现可共享自定义插件，并通过升级的 Analytics 面板查看细粒度使用数据。这些更新标志着 Codex 正从个人编程助手向更强大的团队协作平台演进。

OpenAI Developers: It's Codex Thursday, and yes, we have updates for you. First up: Appshots, a new way to bring the context of what you're...

OpenAI 产品更新编码

04:38

宝玉@dotey

OpenAI Codex 重大更新：推出多项协作新功能

OpenAI 为编程助手 Codex 推出一系列重要更新，旨在降低参与门槛并提升团队协作效率。主要更新包括：“Appshots”功能，用户可通过快捷键将当前应用窗口的截图与文本内容（含屏幕外部分）直接发送至 Codex；桌面版正式支持“/goal”模式，允许 Codex 自主执行跨时长的复杂任务；新增高级标注模式，设计师可在预览中直接拖拽调整元素并提交修改。此外，Business 用户现可共享自定义插件，Analytics 面板也升级了细粒度数据监控。这些举措标志着 Codex 正从个人编程助手向团队协作平台演进。

OpenAI Developers: It's Codex Thursday, and yes, we have updates for you. First up: Appshots, a new way to bring the context of what you're...

智能体 OpenAI 产品更新编码

04:38

Sam Altman@sama

精选73

新版Codex今日发布！【引用 @OpenAIDevs】：今天是Codex周四，我们带来了更新。首先是Appshots，一种将你正在处理的应用上下文带入Codex的新方式。在Mac上，按Command-Command键即可将应用窗口附加到Codex线程。Codex会获取窗口的截图和文本，包括屏幕上不可见的内容。 Appshots已在Mac的所有套餐中可用，企业版访问权限即将推出。

OpenAI Developers: It's Codex Thursday, and yes, we have updates for you. First up: Appshots, a new way to bring the context of what you're...

智能体 OpenAI 产品更新编码

推荐理由：Codex 这次更新的 Appshots 看似一个小功能，但把应用窗口上下文直接喂给 Agent 的思路是质的跳跃，Mac 开发者现在就能用，这个交互范式可能会被抄很久。

04:36

swyx🛬 SFO@swyx

正在开发一项技能，用于将"Vibe编码的粗糙应用"转化为"生产就绪、端到端测试、可维护、可并行化的智能体代码库"。这个过程昨天运行了约16小时，共产生103次提交，最终得到了完全相同的应用程序--但不再是脆弱的MVP，而是一个可以长期构建的代码库。

智能体教程/实践编码

04:08

小互@xiaohu

Codex新功能Appshots：一键共享工作界面给AI

OpenAI为Codex推出Appshots功能，用户可通过快捷键（连续按两次Command键）将当前操作窗口的完整上下文分享给AI。该功能不仅传输屏幕截图，还能提取窗口内的文本内容及未显示的隐藏信息，例如完整代码结构、设计稿内容或控制台报错等。这免去了开发者、设计师手动复制粘贴代码与截图的繁琐流程，实现了工作界面的直接共享。

OpenAI 产品更新编码

04:02

Greg Brockman@gdb

OpenAI为Codex应用推出"Appshots"新功能，用户可通过快捷键（如Mac的Command-Command）将当前应用窗口的截图与文本内容直接附加到对话中，从而为AI提供更全面的上下文信息，包括屏幕外内容。该功能现已在Mac端全套餐开放，企业版访问权限也将很快推出。此外，Codex还新增了面向企业和商业场景的功能，如token使用分析和插件共享，以增强协作与数据分析能力。

OpenAI Developers: It's Codex Thursday, and yes, we have updates for you. First up: Appshots, a new way to bring the context of what you're...

OpenAI 产品更新多模态编码

03:26

Rohan Paul@rohanpaul_ai

阿里云的 Qwen 3.7 Max 在编码与智能体（Agent）能力上已非常接近前沿模型，并现已在 AI/ML API 平台上线。根据 Artificial Analysis 的评测，其智能体可靠性排名第五，性能与 GPT 5.4 （xhigh）相当，并略高于新发布的 Gemini 3.5 Flash。AI/ML API 将其定位为面向智能体时代的模型，突出其能支持超过35小时的自主执行，并兼容 Claude Code 等工具。平台还提供了包括 GPQA Diamond（92.4分）在内的基准测试成绩，并为用户提供免费试用码。

AI/ML API: Qwen3.7-Max on AI/ML API - built for the agent era GPQA Diamond (92.4), HMMT (97.1), Apex (44.5) Sustains 35+ hours of a...

智能体大佬观点编码

02:35

OpenCode@opencode

OpenCode现已正式支持您的Grok或X Premium订阅尝试使用全新的Grok Build模型 https://x.ai/news/grok-opencode

xAI: You can now use your @grok or X Premium subscription in @opencode. Use the model powering Grok Build for high speed and ...

xAI 产品更新编码

02:33

OpenAI Developers@OpenAIDevs

又是Codex周四，我们带来了更新。首先是Appshots，一种将你工作上下文引入Codex的新方式。在Mac上，按Command-Command即可将应用窗口附加到Codex线程。Codex会获取窗口的截图和文本，包括屏幕上不可见的内容。 Appshots已在Mac各计划中推出，企业版访问权限即将上线。

OpenAI 产品更新编码

02:13

Alibaba Cloud@alibaba_cloud

Qwen3.7-Max已在@OpenRouter上线 https://x.com/OpenRouter/status/2057500097206976983?s=20

OpenRouter: The new Qwen3.7-Max from @Alibaba_Qwen is live on OpenRouter. The flagship of the Qwen3.7 series, built for agent-centri...

智能体模型发布编码

关联讨论 8 条

02:11

AYi@AYi_AInotes

Claude Code推出用量追踪功能

Claude Code上线了/usage指令，实现token消耗的精细化归因。该功能可展示每个Skill、子代理及MCP的用量占比，并能追踪由下游操作触发的消耗源头。支持按天/周筛选历史数据，CLI端已可使用，桌面端即将跟进。这一更新使用户能从模糊感知转向精确掌握AI工作流的具体成本构成。

Boris Cherny: In the next version of Claude Code: run /usage to see a breakdown of which Skills, Agents, MCPs, and Plugins are using y...

Anthropic MCP/工具产品更新编码

02:08

xAI：News（网页）

精选67

在OpenCode中使用Grok

xAI宣布，其SuperGrok或X Premium订阅用户现可在开源编程工具OpenCode中使用Grok模型。OpenCode提供终端或独立桌面应用两种形式，用户连接Grok账户后，即可调用驱动xAI终端编程代理的Grok Build模型进行开发。该集成通过xAI Grok OAuth实现认证接入，官方表示未来将推出更多开源代理及集成方案。

xAI 产品更新编码

推荐理由：把 Grok 搬进 OpenCode 不是啥大新闻，但如果你正好有 SuperGrok 或 X Premium，直接就能在终端里用，算是个挺干净的集成。

02:08

xAI@xai

您现在可以在 @opencode 中使用您的 @grok 或 X Premium 订阅。使用驱动 Grok Build 的模型，享受高速与代码库智能。 https://x.ai/news/grok-opencode

xAI 产品更新编码

01:04

Cursor Blog

精选58

构建云端智能体的经验总结

云端智能体已从本地智能体的简单扩展，发展为具备独立环境、可并行无人值守处理长任务的系统。构建的核心经验在于：完整的开发环境是输出质量的关键，这需重建大量基础设施；可靠性方面，团队从自研架构迁移至Temporal平台，将可靠性提升至99.9%以上，该平台每日处理超5000万次操作，支撑超40%的代码拉取请求；同时，实现了智能体循环、机器状态与对话状态的解耦，以适应复杂的跨环境协作。

智能体教程/实践编码

推荐理由：Cursor 把这一年踩过的坑全摊开了，从环境构建到持久化执行，基本就是一份 agent 平台内部架构课，搭同类产品的团队值得逐段读。

00:37

宝玉@dotey

Claude Code 专门升级了 /usage ，可以看到 Token 到底花在哪里了 👍

Boris Cherny: In the next version of Claude Code: run /usage to see a breakdown of which Skills, Agents, MCPs, and Plugins are using y...

Anthropic MCP/工具产品更新编码

00:36

OpenRouter@OpenRouter

同事件精选78

阿里巴巴通义千问团队的全新Qwen3.7-Max现已登陆OpenRouter。作为Qwen3.7系列的旗舰模型，专为以智能体为核心的工作场景打造：编程、办公与生产力任务，以及长周期自主执行。在编程和智能体基准测试中较Qwen3.6有显著提升，并支持显式提示缓存以处理重复上下文。

智能体模型发布编码

同一事件，精选展示《Qwen3.7-Max：面向智能体时代的最新专有模型》

推荐理由：阿里旗舰迭代，重点转向 agent 和长程任务，这次 benchmark 跳跃不是挤牙膏，做 coding agent 的可以认真试试。

00:05

Replit ⠕@Replit

精选73

Replit Enterprise现已支持自助服务！几分钟内即可： - 购买Replit Enterprise - 配置SSO + SCIM - 与团队开始协作开发无需合同谈判，无需等待。

产品更新编码

推荐理由：Replit 企业版自助开通，几分钟完成 SSO 配置和团队搭建，中小团队不用再等采购流程，生产力上手速度直接拉满。

00:00

Mistral AI：News（网页）

Vibe中的远程智能体，由Mistral Medium 3.5驱动。介绍Mistral Medium 3.5、Vibe中的远程编程智能体，以及Le Chat中用于复杂任务的新Work模式。2026年5月22日，Mistral AI

Mistral AI发布了新模型Mistral Medium 3.5。该模型为Vibe产品中的远程编程智能体（remote coding agents）提供支持，这些智能体可在终端、IDE和后台运行。同时，Le Chat新增Work模式，专为处理复杂任务而设计。发布日期为2026年5月22日。

智能体模型发布编码

5月21日

23:56

Chubby♨️@kimmonismus

KroWork五分钟生成本地新闻仪表盘

作者体验了KroWork平台的“对话生成软件”功能。他通过自然语言提示Kro代理，要求创建一个新闻仪表盘。该工具更新后可展示其系统逻辑的思维映射过程，并借助Kro Browser Bridge扩展程序实现浏览器实时操作。整个应用生成过程仅耗时约五分钟，全程无需编写代码。关键在于，由于生成结果是编译后的真实本地软件，后续运行不会消耗任何token。

编码评测/基准

23:56

Chubby♨️@kimmonismus

Artificial Analysis: Cursor's new Composer 2.5 takes third on the Artificial Analysis Coding Agent Index and is ~10-60x lower cost than the h...

产品更新编码

23:11

Berryxia.AI@berryxia

Qwen 3.7 Max与Gemini 3.5 Flash生成二叉树测试对比

新发布的Qwen 3.7 Max正被用户通过“递归分形二叉树”生成测试进行评估。该测试要求模型编写HTML代码，模拟树木从生长到摇曳的动画。此前，Gemini 3.5 Flash已用同一测试进行了展示，其生成完整动画耗时77.56秒，效果被评测者认为惊艳。该测试已成为比较不同AI模型代码生成与创意能力的一种常见方式，用户可借此对比各模型的表现。

Berryxia.AI: 兄弟们! 今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了! 我第一时间用它跑了那个经典的「AI模型递归二叉树生长测试」. 同一个 Prompt ,不同模型画出的树形态完全不一样。(见视频-Prompt见评论区) G...

推理编码评测/基准