🚨 AI News | TestingCatalog@testingcatalog · 6月19日56

Mistral AI released Code on Vibe to Pro users. Desktop app has been confirmed as well. Soon 👀

译Mistral AI 向 Pro 用户发布了 Code on Vibe。桌面应用也已确认。很快 👀

真的，同意刚哥的看法，不吹不黑。当时很多人问我体感和实际体验吗，真的非常明显。除了算力限速外，真的能力现在是国产模型中第一档了。比DS都好使，就是这样。

译用户@justinleei分享从年初至今的智谱GLM使用体验：订阅GLM完成两个项目（1个商用上线），认为其多种文档格式解析综合能力优于竞品，与Claude Code体验无明显差距。期间算力紧缺时出现过降智，响应慢但结果可接受。近期使用的zcode比第三方agent更快。主推文@berryxia赞同此评价，认为智谱能力当前为国产模型第一档，甚至优于DeepSeek。

AYi@AYi_AInotes · 6月19日70

以后教AI干活居然不用写长prompt了，Codex刚更的新功能，你手动走一遍流程，它自动整理成可复用的skill，这个官方视频手把手教你怎么操作，中英文字幕帮大家做好了！我们大部分人用AI最大的痛点就是：你描述不清楚你要什么？像报销单怎么填、视频发布前加哪几个标签、周报从哪个系统扒数据，这些流程你闭着眼都能做，但如果让你写成 prompt，怎么也说不明白。 Codex 新上的 Record & Replay，换了个解法：说不清？你做一遍给它看。 macOS 上手动走一遍流程，它安静的记录每一步，录完自动整理成可检查、可复用的 skill，下次直接跑，只换参数——文件名改一下、日期范围调一下、议题内容换一批，剩下的它都能按既定规则走完。以前教 AI 靠写长 prompt，以后靠亲手演示一遍，这才是 Agent 走进日常工作的正确姿势啊，目前 macOS 可用，需开 Computer Use 权限，具体操作指引见评论区↓

译Codex 上线 Record & Replay 新功能，解决用户写长 prompt 描述不清流程的痛点。用户在 macOS 上手动完成一次操作（如填写报销单、添加视频标签），AI 静默记录每一步，自动整理成可检查、可复用的 skill。下次执行时只需更换参数（如文件名、日期范围），其余步骤按既定规则自动完成。目前仅 macOS 可用，需开启 Computer Use 权限，详细指引见评论区。

Ethan Mollick@emollick · 6月19日58

Some (early) evidence that managers have the highest success rate in using Claude Code for coding. I have been arguing that management is an AI superpower, as clearly specifying what you want, how to do it & what good looks like is key to using agents. https://www.oneusefulthing.org/p/management-as-ai-superpower

译一些（初步）证据表明，管理者在使用Claude Code进行编码时成功率最高。我一直认为管理是AI的超级能力，因为明确说明你想要什么、如何做以及什么样子算好，是使用智能体的关键。https://www.oneusefulthing.org/p/management-as-ai-superpower

Peter Steinberger 🦞@steipete · 6月19日25

Everything’s either a fast or slow API now.

译Peter Steinberger 引用 @nickbaumann_ 介绍 Codex Record & Replay™️ 新原语：让 Codex 观看用户电脑操作，通过录制和事件（与 computer use 同框架）理解操作，转化为未来可复用的技能。使用案例：按个人风格格式化日历邀请（GCal 插件）、起草 PR 并分享到指定 Slack 频道、录制入职流程发现摩擦点（不生成技能）。Steinberger 称“所有东西要么是快速 API 要么是慢速 API”。

jason@jxnlco · 6月19日29

the codex team list inb4 someone dm's me for not being on the list https://x.com/i/lists/2067819170989854863?s=20

译Codex 团队列表抢先说：别私信我说我没在列表上 https://x.com/i/lists/2067819170989854863?s=20

向阳乔木@vista8 · 6月19日71

Codex产品优秀，但有些场景还是需要Claude Code。比如写作还是用4.6 sonnet，前端网页用4.8 。还有些场景要随时调用国产便宜模型，比如智谱 GLM-5.2，Deepseek V4 Flash等，用于开发、翻译等。开发了个MCP，支持Codex中掉CC干活。也支持多模型N轮讨论，交给Codex总结出方案。项目已免费开源，见评论区

译开发者在Codex基础上开发了一个MCP，支持在Codex中调用Claude Code（用于写作等场景用Claude Sonnet 4.6，前端网页用Claude 4.8），并可随时调用国产廉价模型如智谱GLM-5.2、Deepseek V4 Flash用于开发、翻译等。该MCP还支持多模型多轮讨论，由Codex汇总方案。项目已免费开源。

Z.ai@Zai_org · 6月19日54

Long-horizon is more than a concept. It should live in real-world scenarios, empowering AI builders to solve the problems that matter. And more scenarios are on the way.

译智谱 GLM-5.2 在内部 35 项挑战性移动开发任务（共 70 次试验）中完成率达 48/70，较 GLM-5.1 的 21/70 提升超两倍；同期 Claude Fable 5 为 56/70。主推文指出长程能力应落地真实场景，更多场景即将推出。

向阳乔木@vista8 · 6月19日68

有意思，开发一个MCP，连接到网页版的ChatGPT。使用这个MCP就能读取本地的文件。 Codex额度用光，无法重置时，也可以继续用ChatGPT开发。变向获得了双倍codex额度，虽然有点诡异。配置注意事项：打开 ChatGPT网页端，设置->应用->高级模式->开启开发模式，添加MCP

译开发者 @wshxnv 发布 DevSpace——一个 MCP 连接器应用，能将 ChatGPT 网页版变成 Codex。通过 `npm install -g @waishnav/devspace` 安装后，将 MCP 服务器通过互联网隧道，即可享受双倍 Codex 额度。配置时在 ChatGPT 网页端设置→应用→高级模式开启开发模式并添加 MCP。使用场景：用 GPT-5.5 Pro、xHigh 或 High 规划，再交给本地 Codex/pi/opencode/Cursor/Claude Code 执行；也可用于审查代码。DevSpace 利用 OpenAI 给 ChatGPT 和 Codex 分离额度的设计，变相获得双倍额度。开发者提醒节制使用。

Berryxia.AI@berryxia · 6月19日57

兄弟们，大厂们谁都不闲着啊！怎么一夜间，各大AI厂商都开始自动化！ Cursor现在可以让你用自然语言描述任务，它就自动帮你配置触发器、指令和工具，变成可运行的automation。 /automate 技能上线了：你直接说“我要自动处理GitHub issue”或者“收到Slack特定消息就执行这个流程”。 Cursor就会帮你搭好整个automation，包括触发条件、执行指令和所需工具。目前已经支持Slack emoji触发（给消息点表情就启动）、GitHub issue/review/workflow触发，还加了cloud agents的computer use。这把设置agent自动化从“手动写配置”变成了“说一句人话就行”。以前你得自己搞trigger、写prompt、连工具，现在Cursor直接把这些脏活累活包了。你描述目标，它帮你生成可编辑的完整流程。最有意思的是这正在把agent从“一次性聊天工具”往“长期运行的自动化系统”推。有了自然语言配置+多种触发器，开发者可以快速把重复工作变成agent接管，而不需要成为自动化专家。以前大家觉得建agent workflow门槛高，现在Cursor把这个门槛又往下砸了一层。未来可能越来越多日常开发和团队协作流程，会从“人手动操作”变成“人描述一次、agent长期跑”。感觉也是和codex 的一些功能有点相似呢～

译Cursor 推出 /automate 技能，开发者用自然语言描述任务即可自动配置触发器、指令和工具，生成可运行的 automation。支持 Slack emoji 触发、GitHub issue/review/workflow 触发，新增 cloud agents 的 computer use 能力。以前需手动配置，现在只需描述目标，Cursor 自动生成完整流程。该功能降低了 agent workflow 的搭建门槛，将 agent 从一次性聊天工具推向长期运行的自动化系统。

向阳乔木@vista8 · 6月19日62

强烈推荐安装这个Skill，比官方的Skill-creator强大很多。如果不会写skill，用姚老师这个skill可以写出90分的skill 这个skill来源于Anthropic 官方泄露的Claude code源码，还有全网其他模型的skill整合后的元Skill。经过姚老师长达一个月的打磨，这是我用过的最好的Meta Skill Github：https://github.com/yaojingang/yao-meta-skill

译@yaojingang（姚老师）打磨的元Skill（创建Skill的Skill）已升级至2.0。该工具源自Anthropic官方泄露的Claude code源码，并整合了全网其他模型Skill，比官方Skill-creator更强大。用户可借助它写出90分的Skill。2.0版本已推送到GitHub，附带升级方案和对比报告。

Berryxia.AI@berryxia · 6月19日42

兄弟们，Claude 是一点也不闲着啊！这不又又又整活了… Claude Code直接上线了Artifacts功能，让你的coding session变成能实时刷新的共享互动页面。现在你在Claude Code里做的任何事，比如PR 演示、项目dashboard、调试过程，都能一键生成一个互动页面，通过私有链接分享给团队。关键是它会随着你的session继续工作而自动刷新，大家看到的永远是最新的版本。 Artifacts能调用你整个session的上下文：代码库、插件、技能、已连接的工具。分享完全在组织内，私密性有保障。目前在Team和Enterprise计划的beta版可用。这其实把AI coding从“单人黑箱”变成了“团队实时工作台”。以前你得手动截图、复制代码、写说明，现在直接把AI的思考过程和输出做成活的artifact，别人点开链接就能看到完整脉络，还能跟着一起迭代。以前团队协作AI coding最麻烦的就是上下文传递和版本同步，现在Artifacts直接把这个痛点干掉了。 AI不再只是帮你写代码，它可以帮你把整个工作过程变成可共享、可进化的活文档。这波更新把Claude Code从“个人生产力工具”往“团队协作平台”又推了一大步。

译Claude Code 新增 Artifacts 功能（Team 和 Enterprise 计划 beta 版）。用户可从 coding session 生成交互页面（如 PR 演示、项目 dashboard），通过私有链接分享给团队；页面随 session 自动刷新，调用代码库、插件、技能等全部上下文。该更新旨在将 Claude Code 从单人工具拓展为团队实时协作平台，解决上下文传递和版本同步痛点。

宝玉@dotey · 6月19日65

Claude Code 推出 Artifact 功能：AI 编程从终端走向可视化协作 Claude Code 现在可以把工作过程生成 Artifact，简单说就是一个实时更新的网页。PR 走查、系统架构说明、调试时间线、发布清单，这些原本只存在于终端会话里的东西，现在变成一个链接，发给团队成员直接打开就能看。生成 Artifact 时，Claude Code 会用到当前会话的完整上下文，包括代码库、已接入的外部工具（比如监控系统）和对话内容。一个事故调查页面可以同时展示出错的测试代码、监控工具里的错误曲线，以及 Claude 的根因分析推理，不需要你手动接数据源或搭基础设施。 Artifact 会随会话进展自动更新。每次更新后，打开页面的人立刻能看到最新版本，同一个链接始终有效，历史版本也可以随时回溯。 Anthropic 在内部测试中发现，最高频的场景是调试。一个工程师在早会前启动事故排查，Claude Code 查着日志就发布了一个 Artifact：时间线、可疑提交、错误率图表。她把链接丢进群里，等早会开始时页面已经更新了两次。团队不用再听"我来介绍一下 agent 查到了什么"，所有人看着同一个页面讨论就行。这其实解决了 AI 编程工具的一个实际问题：agent 在终端里干了很多活，但成果只有操作者自己看得到，团队协作时还得靠人肉"翻译"。Artifact 把这个中间环节省了。安全方面，Artifact 默认私有，只有同组织内认证成员可以查看，不能公开。管理员可以控制组织级开关、设置角色权限和数据保留策略。除了调试和 PR 走查，Anthropic 列出的用例还包括：法务用它审计所有第三方依赖的开源许可证，安全团队做代码审查报告并把每个发现链接到具体代码行，平台财务从 Terraform 代码里提取云资源成本分布，设计师用真实组件库生成多套 UI 方案直接挑选。目前 Artifact 功能以 beta 形式向 Claude Team 和 Enterprise 组织开放，可通过 Claude Code CLI 和桌面应用生成，页面在任何浏览器里查看。个人用户暂时用不了。

译Claude Code 新增 Artifact 功能，可将终端会话中的 PR 走查、调试时间线等过程生成实时更新的交互页面，并通过私有链接分享给团队成员。Artifact 利用当前会话的完整上下文（代码库、外部工具、对话），随会话自动更新，支持历史版本回溯。默认私有，仅同组织认证成员可见。该功能以 beta 形式向 Claude Team 和 Enterprise 组织开放，通过 CLI 和桌面应用生成，个人用户暂不可用。Anthropic 内部测试显示调试场景最高频。

🚨 AI News | TestingCatalog@testingcatalog · 6月19日54

Claude Code users on Team and Enterprise plans gained access to Artifacts, new interactive pages that can be built based on their Claude Code sessions. Every session is an Artifact now 👀

译Claude Code 的 Team 和 Enterprise 计划用户现已获得 Artifacts 访问权限，这些是基于 Claude Code 会话构建的新交互式页面。现在每个会话都是一个 Artifact 👀

Boris Cherny@bcherny · 6月19日56

I've been using Artifacts in Claude Code for everything: visual explanations of tricky code, system diagrams, quick previews of a few animation options, data analyses and dashboards I share with the team. They are a game changer for how I work with Claude. Can't wait to hear what you think!

译Boris Cherny 分享他用 Claude Code Artifacts 的体验：可视化解释复杂代码、系统图、动画预览、数据分析及团队共享仪表盘，称其改变了与 Claude 的工作方式。@claudeai 宣布：Artifacts 可从会话中生成交互页面（如 PR 走查或项目仪表盘），通过私密链接共享给团队；目前以 Beta 版形式面向 Team 和 Enterprise 计划用户提供。

Greg Brockman@gdb · 6月19日63

you can now teach Codex by demonstration:

译现在你可以通过演示来教 Codex：

Thariq@trq212 · 6月19日51

Claude Code can now upload and edit HTML artifacts that you can share with your team or other Claudes! Starting with teams so you can share internally with your team, coming to Pro and MAX plans soon!

译Claude Code 现在可以上传和编辑 HTML 工件，你可以与你的团队或其他 Claude 共享！从团队计划开始，以便你在内部与团队共享，即将在 Pro 和 MAX 计划中推出！

宝玉@dotey · 6月19日52

让我想起 Codex 的 Sites 功能，不过 Sites 还只有企业版能用，Claude Code 这个谁都能用了。挺好的，好的功能就应该集成进去，共同学习共同进步。 https://x.com/TheRohanVarma/status/2061872164442403139

译Claude Code 新增 Artifacts 功能，可从会话生成交互页面（如 PR 走查或项目仪表板），通过私密链接与团队分享，现已在 Team 和 Enterprise 计划中开放 Beta。宝玉点评道：“挺好的，好的功能就应该集成进去，共同学习共同进步。”

Claude@claudeai · 6月19日54

New in Claude Code: Artifacts. Interactive pages built from your session, like a PR walkthrough or a living project dashboard, shared with your team at a private link. Available in beta on Team and Enterprise plans.

译Claude Code 新增：Artifacts。从您的会话中构建的交互页面，例如 PR 审查或实时项目仪表盘，通过私有链接与团队共享。在 Team 和 Enterprise 计划中提供 Beta 版。

ClaudeDevs@ClaudeDevs · 6月19日62

Artifacts are now live in Claude Code. Ask Claude to turn what it's working on into a page and send the link to your team. The page updates as the session keeps working. Available today on Team and Enterprise plans.

译Artifacts 现已登陆 Claude Code。让 Claude 将其工作内容转化为页面，并将链接发送给你的团队。页面随会话持续工作而更新。即日起适用于 Team 和 Enterprise 套餐。

François Chollet@fchollet · 6月19日48

When I was playing RTSes, I generally thought about strategy in terms of resource utilization. For instance, in any game that has a unit hp passive regeneration mechanic, any unit that is full-hp represents a wasted resource (you could be gaining hp during that time, so you are net behind). Today, if you are paying for a fixed-price agentic coding subscription, any week you end below your weekly token quota represents a wasted resource. Utilize your token regeneration mechanic.

译当我玩即时战略游戏时，我通常会用资源利用率来思考策略。例如，任何具有单位生命值被动回复机制的游戏中，满血单位都代表着资源浪费（因为这段时间本可以回复生命，所以实际处于落后状态）。如今，如果你为固定价格代理编码订阅付费，任何一周低于周token配额则同样意味着资源浪费。请善用你的token回复机制。

Replit ⠕@Replit · 6月19日50

Replit, now inside @SlackHQ. Tell Slackbot what you want to build and it'll pull in Replit to make it happen, straight from the conversation. https://replit.com/partners/slack-app

译Replit，现已入驻 @SlackHQ。告诉 Slackbot 你想构建什么，它就会直接从对话中调用 Replit 来实现。 https://replit.com/partners/slack-app

Rohan Paul@rohanpaul_ai · 6月19日68

Anthropic just showed Claude Opus 4.7 program a robodog in 12:07 mint, about 20x faster than last year’s Claude-aided human team on the tested tasks. Project Fetch asks whether an LLM can connect real robot hardware, read camera/lidar feeds, write movement code, track location, and detect a ball. Opus 4.7 did 5 tasks alone versus Team Claude’s 264 minutes, while writing 1,045 lines instead of 10,309. The gain came from choosing the right interfaces quickly and writing scripts that worked without long human trial-and-error. It still couldn’t fetch the ball. The failure came from closed-loop control, where the robot must see a drifting ball and adjust movement after each shove. AI is getting very good at turning messy hardware into working code, but real-time physical judgment is still hard.

译Anthropic 在 Project Fetch 第二阶段展示 Claude Opus 4.7 独立编程机器狗。Opus 4.7 用 12 分 7 秒完成 5 项任务，约为去年人类团队（借助 Opus 4.1）耗时 264 分钟的 20 倍，代码量从 10,309 行降至 1,045 行。速度提升源于快速选择正确接口并写出无需人类试错的脚本。但机器狗仍未能取球，失败原因在于闭环控制——机器人需根据飘移的球实时调整动作。AI 擅长将杂乱硬件转为可运行代码，但实时物理判断仍具挑战。

swyx@swyx · 6月19日37

completely unprompted wow moment from today - asked @DevinAI to make us a @tbpn style breaking news style announcement card for our AIEWF speakers drop tmr, FULLY expecting it to fail at a heavily visual task and it oneshotted the WHOLE DAMN THING

译今天完全无提示的惊喜时刻——让 @DevinAI 为我们制作一张 @tbpn 风格的突发新闻公告卡，用于明天 AIEWF 演讲者阵容发布，我本以为它会在高度视觉化的任务上失败。结果它一次性搞定了整个活儿。

jason@jxnlco · 6月19日25

come by! https://www.ai.engineer/worldsfair/2026

译过来看看！https://www.ai.engineer/worldsfair/2026

AYi@AYi_AInotes · 6月19日52

Damn，不能看图，没有任何视觉能力，却在视觉设计的擂台上排到了第一☝️ GLM-5.2，Elo 冲到 1360，压过了已经关服的 Claude Fable 5，而且是开源权重，不存在黑箱。 Design Arena 代码类的历史最高分，一下拉高了 27 分🤯

译GLM-5.2 在 Design Arena 上取得第一，Elo 达 1360，超越已关服的 Claude Fable 5。模型为开源权重，排名上升 4 位，Elo 提升 27 分，创下代码类历史最高分。

Replit ⠕@Replit · 6月19日31

Design in Claude. Build in Replit. https://x.com/i/broadcasts/1rGmqqgkEMLGy

译在Claude中设计，在Replit中构建。https://x.com/i/broadcasts/1rGmqqgkEMLGy

AYi@AYi_AInotes · 6月19日69

用Codex写代码，最贵的一步是上来就写，把Review环节往前挪一步，返工率砍半。三个层级按需拿走： 1️⃣零成本即用版，把这段话贴在需求最前面： “先别写代码。先复述你对任务的理解，我最想解决的问题是什么，哪里还有歧义，直接开写最可能误解哪。最后给执行计划。” 2️⃣官方内置版，输入 /plan 或按 Shift+Tab， Codex会自己收拢上下文，抛澄清问题，输出完整执行计划再动手，需求越模糊越适用。 3️⃣一劳永逸持久化版，在 AGENTS.md 里写入强制前置规则，让它每次接任务先深度思考，复述需求，识别风险，再执行，不用重复贴指令。好的Agent从来不是反应快和撸代码的手速快，兄弟们记住，必须是先搞对方向，再跑速度。

译用 Codex 写代码时，将 Review 前置可显著降低返工率。作者总结三个层级：零成本版（粘贴提示要求先复述任务再执行）、官方内置版（/plan 或 Shift+Tab 触发计划）、持久化版（AGENTS.md 写入前置规则）。UCSD 黄碧薇教授深耕因果 AI 12 年，提出 AI 四代演进：相关性小模型→因果小模型→相关性大模型（LLM）→因果大模型。其团队开发的 causal-learn 入选 Apple Scholar。今日 Aether AI 完成首轮融资，被视为从堆参数转向下一代 AI 范式的信号。

AYi@AYi_AInotes · 6月19日74

把 1.5TB 的模型剁掉 84% 的体积，塞进本地跑，还剩 82% 的功力，这就是GLM-5.2，最强开源模型，现在缩骨到了 238GB，256GB 的 Mac 或者同档 RAM/VRAM 的机器就能带起来了技术博客：http://z.ai/blog/glm-5.2 权重：http://huggingface.co/zai-org/GLM-5.2 API：https://docs.z.ai/guides/llm/glm-5.2 编码计划：http://z.ai/subscribe

译GLM-5.2 发布开源权重，MIT 许可。原 1.5TB 模型经 84% 压缩至 238GB，可在 256GB Mac 或同档硬件本地运行，保留 82% 性能。拥有 1M 上下文窗口，编码和智能体任务显著提升。提供两种推理力度：GLM-5.2 (max) 极限推理，GLM-5.2 (high) 平衡性能与 token 效率。API 定价与 GLM-5.1 相同。

jason@jxnlco · 6月18日17

you think you're codex maxxing until you talk to @dimitrikennedy and realise you're only living in 2026 and he's in 2030

译你自以为是满级 Codex 玩家，直到和 @dimitrikennedy 交谈，才意识到你只活在 2026 年，而他活在 2030 年。

StepFun@StepFun_ai · 6月18日61

Excited to partner with @cline to bring Step 3.7 Flash to more coding agent builders. Step 3.7 Flash is now free in Cline for the next month — capable, fast, and reliable for agentic coding workflows. Try it in Cline: /model → Step 3.7 Flash Big thanks to the Cline team.

译阶跃星辰宣布与 Cline 合作，Step 3.7 Flash 未来一个月在 Cline 免费使用。该模型在 SWE Bench 上击败 Gemini 和 DeepSeek flash 模型，性能接近前沿水平。支持开源权重、256k 上下文窗口，速度快且稳定。用户可通过 Cline 中 `/model` 命令选择 Step 3.7 Flash。

🚨 AI News | TestingCatalog@testingcatalog · 6月18日28

MISTRAL AI 🔥: Vibe is being prepared to get a new Code section, likely mirroring functionality of Vibe CLI, and a new Apps section. > It is still unclear whether we will get a desktop app as well, but it would be really cool. Purely referencing the UI that mirrors the Claude app (Which is about to change soon, btw) > A new Apps section is marked as "Work in progress" and is likely to be a version of AI-powered artifacts that can be deployed and shared. Only Le Chaton Fat is remaining 👀

译MISTRAL AI 🔥: Vibe 正在准备新增一个代码板块，可能镜像 Vibe CLI 的功能，以及一个新的应用板块。 > 目前尚不清楚我们是否也会获得桌面应用，但那样会很酷。纯粹参照镜像 Claude 应用的 UI（顺便说一句，它很快会改变） > 一个新的应用板块被标记为"正在开发中"，很可能是可部署和共享的 AI 驱动 artifacts 版本。只剩下 Le Chaton Fat 还在观望 👀

meng shao@shao__meng · 6月18日49

Cursor 收购了 Continue @continuedev Cursor 这几天近乎刷屏，被 SpaceX 600 亿美金收购、宣布 Agent 版 Github「Origin」、几周后发布跟 Claude、GPT 参数等级相同的新模型。。。突然对 Cursor 的未来充满期待！

译Cursor收购了AI编程助手Continue。近日Cursor动态密集：被SpaceX 600亿美元收购，宣布推出Agent版GitHub平台“Origin”，并计划几周后发布与Claude、GPT参数等级相同的新模型。这些动作显示Cursor正快速整合资源，推进自研大模型与智能体工具链，未来可期。

Greg Brockman@gdb · 6月18日63

a much better way to build iOS apps

译OpenAI 的 Codex 新增“Build iOS Apps”插件，可内嵌浏览器运行应用、打开 SwiftUI 预览、热重载编辑，全程无需离开 Codex，告别复制‑粘贴‑构建‑截图的循环。Greg Brockman 称这是构建 iOS 应用更好方式。

Berryxia.AI@berryxia · 6月18日40

OpenAI 现在是新模型GPT-5.6 迟迟不能及时发布。靠在Codex 5.6 疯狂重置额度来做用户留存😄 不也是一个不错的办法，对于用户来说也挺好。毕竟叼毛Claude 可不会给你这种甜果吃啊~

歸藏(guizang.ai)@op7418 · 6月18日40

双重重置 codex 除了他们给你进行了一次重置以外，还帮你存了一次重置

Rohan Paul@rohanpaul_ai · 6月18日67

Big claim in this paper, pushes against the common idea that more test-time compute should keep helping. Claims a code model gets much better when it rethinks once (i.e. by looping once) inside itself, but worse when it keeps rethinking. The first loop builds context, the second loop refines it, and later loops mostly disturb it. The paper studies a faster design called Parallel Loop Transformer, where loops can run almost in parallel and share memory, so the authors can ask a cleaner question about how many loops are actually useful. They trained 7B code models with 1, 2, 3, and 4 loops on 18T tokens, then tuned and tested them on code writing, code reasoning, software engineering, and tool-use tasks. The main result is that 2 loops worked best, raising SWE-bench Verified from 43.0 to 64.4, while 3 and 4 loops often got worse. Their internal checks suggest loop 2 does the real useful refinement, because it changes the model’s hidden states, attention patterns, and predictions in meaningful ways. After loop 2, the extra loops mostly add weaker, more repetitive changes, while a built-in position shift keeps adding the same kind of mismatch cost. Overall, the paper gives a simple lesson for efficient test-time compute: adding 1 hidden loop can help a lot, but adding more is not automatically better. ---- Link – arxiv. org/abs/2606.18023 Title: "LoopCoder-v2: Only Loop Once for Efficient Test-Time Computation Scaling"

译论文《LoopCoder-v2》质疑“测试时计算越多越好”的观点。作者提出Parallel Loop Transformer架构，使循环可并行运行并共享内存。他们训练了7B参数的代码模型（1/2/3/4次循环），在18T tokens上预训练并微调，测试代码编写、推理、软件工程和工具使用任务。主要结果：2次循环效果最好，将SWE-bench Verified从43.0提升至64.4，而3次和4次循环性能下降。内部分析显示，第二次循环进行了有意义的精炼（改变隐藏状态、注意力模式和预测），后续循环则主要添加重复和噪声。结论：增加一次隐藏循环可大幅提升性能，但继续增加并非自动有益。

meng shao@shao__meng · 6月18日58

Kimi K2.7 Code 和 Claude Fable 5 生成落地页的实验对比分析 @nutlope 让 Kimi K2.7 Code 和 Claude Fable 5 分别生成 12 个落地页，进行并排对比。实验结果发布在 OVSC 网站上，同时包含 Claude Opus 4.8 的变体生成页面，可以查看总成本、token 用量和生成时间等详细数据。实验设计 · 基础提示：使用相同提示集，涵盖 B2B SaaS、屋顶 Speakeasy 鸡尾酒吧、SQL 查询转图表开发者工具等不同类别。 · 初始结果：仅凭提示生成时，两个模型均产生明显“AI 生成感”的页面（布局通用、视觉平淡）。 · 优化策略：为 Kimi 设置自定义 Design Inspiration MCP Server，提供高质量落地页截图、UI 元素及视觉参考。由于 Kimi 支持多模态，可直接将图像纳入提示。这显著提升输出质量：层次结构更清晰、排版更优、构图更具意图性，页面加载更快、无破损占位图、易读性更好。成本对比 · 单页成本示例：B2B SaaS 落地页，Kimi 仅需 4 美分，Claude Fable 则为 1.09 美元（约 27 倍差异）。 · 平均水平：Kimi 比 Fable 约 16 倍便宜，比 Opus 约 8 倍便宜。整体实验中 Kimi 总成本降低 94%（约 16 倍节省）。 · 迭代价值：落地页开发通常需生成多版本、迭代优化。低成本允许廉价快速实验，累积优势显著（如生成 100 页可节省约 94 美元）。质量对比使用 GPT-5.5 按标准化评分表（定位、视觉方向、内容结构、工艺、响应式、技术执行等）对截图和源码打分（0-100 分）。Claude Fable 在部分案例中得分略高，但差距较小。Kimi 在设计、结构和整体页面质量上保持竞争力，尤其在提供充足视觉上下文后，性价比优势突出。关键发现 · 上下文至关重要：单纯提示难以突破通用 AI 风格；引入高质量视觉参考（MCP）能让开源模型实现质的飞跃。 · 开源模型实用性：Kimi K2.7 Code 在成本、速度和 token 效率上表现出色，结合强上下文输入后，已足以支持实际落地页工作流。迭代时优势更明显。 · 实验启示：开源模型正成为生成式编码智能体的现实选择，尤其适合需要大量变体探索的场景。

译@nutlope 让 Kimi K2.7 Code 和 Claude Fable 5 各生成 12 个落地页并排对比。初始两者均有“AI 生成感”；为 Kimi 设置自定义 Design Inspiration MCP Server（利用多模态能力）后质量显著提升。成本上，B2B SaaS 单页 Kimi 仅 4 美分，Claude Fable 1.09 美元（约 27 倍差）；平均 Kimi 比 Fable 便宜约 16 倍、比 Opus 便宜约 8 倍，总成本降低 94%。质量由 GPT-5.5 评分（0-100），Claude Fable 略高但差距小，Kimi 性价比突出。实验表明，结合高质量视觉参考后，开源模型已足以支持实际落地页工作流，批量迭代优势显著。

小互@xiaohu · 6月18日64

Claude Code 和 Claude Design 打通了现在支持双向同步了运行 /design-sync 可以将你的设计直接拉取到你的代码库中，并基于您的真实组件进行构建，同时也可以使用/design 将你构建的内容推回到 Claude Design 并继续在画布上编辑... 同时编辑器新增了直接在画布上拖拽、缩放、对齐元素的功能，可以直接改字体、颜色这些细节，更接近传统设计工具的操作方式，不再只能靠对话调整。导出格式：PDF、PPTX、Canva、HTML、Claude Code。这次扩展了更多第三方工具的连接。同时这次更新让你直接把设计系统的源文件喂给 Claude Design。让Claude真正"读懂"你的设计系统三种方式： - 指向你的 GitHub 仓库，Claude 直接读代码里的组件定义（颜色变量、间距常量、组件样式） - 上传 Figma 之类的设计文件 - 直接上传品牌规范文档 Claude 读完之后，生成设计时直接调用你的真实组件，不是自己凭理解去"模仿"。而且在把结果展示给你之前，它会先跑一遍自查，对照你的设计系统检查自己的输出有没有偏离，发现不对的地方自动修正。

译Claude Code 和 Claude Design 打通双向同步：运行 `/design-sync` 可将设计拉取到代码库并基于真实组件构建，使用 `/design` 推回 Claude Design 继续画布编辑。编辑器新增拖拽、缩放、对齐元素功能，可直接修改字体、颜色等细节。导出格式扩展至 PDF、PPTX、Canva、HTML、Claude Code。用户可通过指向 GitHub 仓库（读取颜色变量、间距常量、组件样式）、上传 Figma 设计文件或品牌规范文档三种方式，让 Claude 读取设计系统源文件。生成设计时调用真实组件，并先自查输出是否偏离设计系统，自动修正。

Andrew Milich@milichab · 6月18日15

Try Grok Build 0.1 on code review

译尝试在代码审查中使用 Grok Build 0.1