The core problem with open weights is that the business model of frontier open weights AI does not look like open source, as there are very few cases where you can make money from closed ancillary services, and they are very expensive to make relative to any potential revenue.

译开放权重的核心问题在于，前沿开放权重AI的商业模式看起来并不像开源，因为能从封闭的辅助服务中赚钱的案例极少，而且相对于任何潜在收入，其制造成本非常高昂。

向阳乔木@vista8 · 6月10日65

一个专门给产品经理准备的Skill，五天竟有13k Stars。从名字看，确实涵盖了产品经理日常工作范围。警惕大而全的Skill产品包，最好体验根据需求微调。安装地址见评论

向阳乔木@vista8 · 6月10日55

昨天通宵开发的口播提词器，Codex目标运行了五个小时。目前感觉，比多数收费提词器好用一点。还没加手机录制，主要配合大疆Pocket3录口播。项目已免费开源，欢迎Star或Fork二改。地址见评论区

译Vista 分享其通宵开发的免费开源口播提词器，项目基于 Codex 开发，运行约 5 小时。他评价该工具比多数收费提词器好用，目前配合大疆 Pocket3 录制口播，暂未加入手机录制功能。项目已开源，欢迎 Star 或 Fork 二改，地址见评论区。

Berryxia.AI@berryxia · 6月10日72

这个开源小模型3B 到底行不行啊？ Cohere直接把30B参数的MoE小模型扔到Apache 2.0开源，还专门为agentic coding量身打磨！ North Mini Code只有3B active参数，在Artificial Analysis Coding Index上跑到33.4，跟同量级对手打得有来有回，却能本地跑、随便改、随便玩。它真正狠的地方是把agentic性能做到底，社区随便拿去实验、反馈、迭代，开发者第一次能真正把coding agent握在自己手里，而不是租云端黑盒。以前大家默认开源coding模型要么弱要么慢，结果Cohere用这个小家伙直接告诉你：真正能改变游戏规则的，从来不是参数堆多高，而是谁敢把最锋利的工具彻底放开。这波开源一出，开发者手里终于多了一把能自己掌控、自己进化的coding利器。

译Cohere推出North Mini Code开源模型，总参数30B，活跃参数仅3B，采用Apache 2.0许可。该模型在Artificial Analysis Coding Index上跑出33.4分，与同量级模型竞争，专为智能体编程（agentic coding）优化，支持本地运行、自由修改和迭代。开发者首次能完全掌控coding agent，而非依赖云端黑盒。

MiniMax (official)@MiniMax_AI · 6月10日54

the modular kernel team moving fast on M3 🚀 open weights dropping in a few days — then it runs on @Modular right away. excited for this one.

译Modular 内核团队正在快速推进 M3 🚀 开源权重将在几天内发布——届时即可立即在 @Modular 上运行。对此非常期待。

Nathan Lambert@natolambert · 6月10日38

I don't really want to have to go to bat against Anthropic, but they've just been unnecessarily antagonistic to all of China, then not so subtly to open weight models, and now more broadly open AI research. What's next on the list?

译我真的不想和Anthropic对着干，但他们一直不必要地对抗整个中国，然后不那么微妙地对抗开放权重模型，现在更广泛地对抗开放的AI研究。接下来还有什么？

Rohan Paul@rohanpaul_ai · 6月10日69

A new open-source agent engine is trying to make AI sessions continuous across days. 🧠 Kocoro is a Mac-native AI agent trying to fix one of the most annoying problems in daily AI work: every new session forgets what happened before. Kocoro reviews your workday locally every night, then trains a light memory model over the cloud (by using TensorLogic), downloads it back, and the next morning picks up exactly where you left off — no re-pasting, no re-explaining. It knows where your projects live, what you were changing yesterday, which tools you reach for. It can open the browser, operate desktop apps, organize files, update documents, and carry a task across several apps without you stitching the steps together by hand. And what's cool is that they have made Kocoro's kernel is open source with a Github repo. Because an AI that operates your computer has to be verifiable, auditable, and under your control. Something that drives your machine shouldn't get there on "trust us." You can run the kernel from the command line with Shannon, or you can install the desktop app and never touch a terminal. Either way, the process is meant to be open — visible enough to inspect, editable enough to bend, and easy enough to switch off. Real memory isn't keeping every word. It's knowing what matters, what will shape the next decision, and what changes over time. You don't remember every sentence your colleague said last quarter — you remember that they hate surprise meetings, that the Q3 launch slipped

译Kocoro是一款Mac原生AI智能体，旨在解决AI会话每天重启后遗忘上下文的痛点。它每晚在本地审查工作内容，通过TensorLogic在云端训练轻量记忆模型，次日自动恢复上次中断的会话状态，无需重复粘贴或解释。Kocoro能感知项目文件、追踪昨天的变更、打开浏览器、操作桌面应用、整理文件并跨多个应用执行任务。其内核已在GitHub开源，确保可审计和用户可控。用户可通过命令行（Shannon）或桌面应用运行。

Artificial Analysis@ArtificialAnlys · 6月10日70

Cohere just released North Mini Code, a small 30B parameter (3B active) open weights coding model that scores 27.6 on the Artificial Analysis Intelligence Index Less than a month since @cohere's last model release, Command A+, has launched another open weights model that is optimized for coding, and much smaller at 30B total parameters and 3B active parameters. Key Takeaways: ➤ Achieves 27.6 on the Artificial Analysis Intelligence Index, above gpt-oss-20B (high) at 24.5 and just below Mistral Small 4 (119B parameters, 6.5B active) at 27.8 ➤ Scores competitively on the Artificial Analysis Coding Index (weighted average of Terminal-Bench Hard and SciCode) against open weights models in its size class, scoring 33.4, significantly above GLM-4.7-Flash at 25.9, and below Qwen3.6 35B A3B at 35.2. However, it underperforms on non-coding agentic tasks, scoring 14% on GDPval-AA and 37% on 𝜏²-Bench Telecom ➤ On Cohere’s API, North Mini Code is faster than several comparable open weights models of its intelligence and size class (~199 output tokens per second) ➤ North Mini Code is a text-only 30B total parameter and 3B active parameter model, and is open-sourced under the Apache 2.0 license

译Cohere近日发布North Mini Code，一款30B总参数（3B活跃参数）的开放权重编码模型，采用Apache 2.0开源协议。该模型在Artificial Analysis Intelligence Index上得分27.6，高于gpt-oss-20B (high)的24.5，略低于Mistral Small 4（119B参数，6.5B活跃）的27.8。在Coding Index（Terminal-Bench Hard和SciCode加权平均）上得分33.4，显著高于GLM-4.7-Flash的25.9，低于Qwen3.6 35B A3B的35.2。非编码智能体任务表现较弱：GDPval-AA 14%、τ²-Bench Telecom 37%。在Cohere API上推理速度约199 output tokens/s，快于同类模型。距Cohere上次发布Command A+不到一个月。

fofr@fofrAI · 6月10日63

I asked my foffee agent to help make Gemma faster. I felt like a proud parent. https://huggingface.co/spaces/gemma-challenge/gemma-dashboard

译我让我的 foffee 智能体帮忙加速 Gemma。我感觉自己像个骄傲的家长。 https://huggingface.co/spaces/gemma-challenge/gemma-dashboard

宝玉@dotey · 6月9日78

baoyu-design skill 现在支持导入 Design System，以及在新建项目时添加导入的 Design System 比我想的要麻烦的多：https://github.com/JimLiu/baoyu-design/pull/5 好在效果不错，保留了 Claude Design 原始的导入设计系统和编译设计系统的方式，可以通过提问的访问让用户选择导入好的设计系统！ npx skills add JimLiu/baoyu-design

译baoyu-design skill 现已支持导入 Design System，新建项目时可直接使用已导入的设计系统。功能保留了 Claude Design 原有的导入与编译方式，通过提问即可让用户选择已导入的 Design System。开发者表示实现过程比预期复杂，但效果不错。安装命令：`npx skills add JimLiu/baoyu-design`。另据 @dotey 介绍，该工具为本地运行的 Claude Design 风格工具，可描述屏幕生成 HTML，在预览中点击元素说出修改指令，最佳搭配 Opus 4.8。

AYi@AYi_AInotes · 6月9日68

分享一个计算机视觉开发者必藏神器，4 万星GitHub开源！不用自己写几百行画框跟踪代码，一行命令搞定所有可视化， Supervision，CV 界真正的瑞士军刀。 1️⃣ 它到底有多强？自动画框加标签，支持编号、自定义样式，视频对象永久跟踪，ID 不乱跳，轨迹自动生成，一键转换 YOLO/COCO/Pascal VOC 所有数据集格式，内置热力图、区域计数、越线检测、人体骨架、人脸网格模型无关，YOLO/Transformers/ 任何检测模型都能接， 2️⃣安装只要一句话运行：pip install supervision 从 NBA 球员实时跟踪、交通路口车流量统计，到工业缺陷检测、无人机目标追踪，所有你能想到的 CV 可视化场景，它全搞定。 3️⃣已经被 6500 + 个开源 CV 项目在用现在就装，早用早爽，做 CV 原型和演示的终极工具，没有之一！

译一行命令 `pip install supervision` 即可安装的计算机视觉可视化工具，支持自动画框加标签、视频目标永久跟踪、数据集格式一键转换，内置热力图、区域计数、越线检测、人体骨架等功能，模型无关，已被6500+开源项目使用。

Artificial Analysis@ArtificialAnlys · 6月9日59

MiniMax-M3 scores 55 on the Artificial Analysis Intelligence Index. Once the weights are released, it will be the leading open weights model M3 is @MiniMax_AI's first multimodal M-series model, adding image and video input and a 1M token context window over the text-only MiniMax-M2.7 (50). At 55 on the Intelligence Index it sits just ahead of open weights peers Kimi K2.6 (54) and MiMo-V2.5-Pro (54). MiniMax has noted they plan to release the weights within ~10 days. When MiniMax released the weights for M2.7, it was under a commercially restricted license. Key takeaways: ➤ MiniMax-M3 improves on MiniMax-M2.7 across most evaluations. HLE +9 points (28% to 37%), GPQA Diamond +6 (87% to 93%), AA-LCR +5 (69% to 74%), IFBench +7 (76% to 83%), and CritPt +3 (1% to 4%), with a small regression on SciCode (47% to 45%) ➤ M3 scores ~1670 on GDPval-AA, behind Claude Opus 4.8 (max, 1890) and GPT-5.5 (xhigh, 1769), and level with Claude Sonnet 4.6 (max, 1676). GDPval-AA measures real-world tasks across 44 occupations and 9 industries ➤ Native multimodality, scoring ~80% on MMMU-Pro. Level with GPT-5.5 (xhigh, 79.9%) and Kimi K2.6 (79.4%), behind Gemini 3.5 Flash (high, 84.3%). Not all open weights models support native vision input ➤ On AA-Omniscience, heavy abstention drives both low hallucination and low accuracy. M3 attempts only 30.9% of questions, the lowest among current peers, yielding a low hallucination rate (16.1%) and low accuracy (15.0%) ➤ MiniMax-M3's token usage is close to M2.7's, using ~91M output tokens to run the Intelligence Index (~81M reasoning) versus ~87M (~79M reasoning), while scoring 5 points higher Key model details: ➤ Context window: 1M tokens, up from MiniMax-M2.7's 200K ➤ Pricing: $0.30/$1.20 per 1M input/output tokens up to 512K context, rising to $0.60/$2.40 for 512K to 1M context ➤ Weights: Not yet released. MiniMax has stated the weights will follow ➤ Availability: MiniMax first-party API, @SiliconFlowAI, @gmi_cloud, and @novita_labs

译MiniMax推出首个多模态M系列模型M3，支持图像/视频输入及1M token上下文窗口。在Artificial Analysis Intelligence Index上得55分，超越开源权重的Kimi K2.6和MiMo-V2.5-Pro（均54）。相比前代M2.7，HLE提升9点至37%，GPQA Diamond提升6点至93%，多项基准均有进步。原生多模态MMMU-Pro约80%与GPT-5.5持平。定价$0.30/$1.20/1M tokens（512K内），512K-1M翻倍。权重计划约10天内开源。

AYi@AYi_AInotes · 6月9日37

梁文锋的DeepSeek的问世成功颠覆了什么？

OpenBMB@OpenBMB · 6月8日54

🚀 The Build Small Hackathon is officially live! Check it out here: 🔗 http://build-small-hackathon-field-guide.hf.space/partners/openbmb We're proud to partner with @HuggingFace and support builders around the world with OpenBMB models. Here are some inspiring use cases built with our models: 🪐 MiniCPM-V 4.6 (image / OCR / multimodal) → Automated financial document analysis https://x.com/OpenBMB/status/2062889699056984281 ⚡ MiniCPM5-1B (lightweight, on-device) → AI Desktop Pet running entirely on your local device https://x.com/OpenBMB/status/2058903454308069670 🌐 MiniCPM-o 4.5 (omni-modal) → Real-time video analysis application https://x.com/OpenBMB/status/2022341243859337613 🎙️ VoxCPM2 (voice / TTS) → Voice cloning application https://x.com/OpenBMB/status/2041169065020936464 🏆 $10,000 OpenBMB Special Prize is available for outstanding projects built with our models. Get creative, try out our models, and see what you can build in this hackathon! We can't wait to see what you create. ✊ #BuildSmall #MiniCPM #OpenSourceAI #HuggingFace

译面壁智能（OpenBMB）与HuggingFace合作举办的Build Small黑客松正式上线，鼓励开发者使用OpenBMB模型构建应用。官方列举四大用例：MiniCPM-V 4.6用于自动化金融文档分析；MiniCPM5-1B轻量端侧模型驱动AI桌面宠物；MiniCPM-o 4.5全模态实时视频分析；VoxCPM2语音克隆。活动设有$10,000 OpenBMB特别奖。

🚨 AI News | TestingCatalog@testingcatalog · 6月8日56

Thanks to Ideogram for sending this ❤️ Ideogram 4.0 was one of the biggest releases last week! Especially for the open source community. Tested it 👀

译感谢 Ideogram 发送了这个 ❤️ Ideogram 4.0 是上周最大的发布之一！尤其对开源社区而言。测试了一下 👀

Rohan Paul@rohanpaul_ai · 6月8日68

American AI startups are routing far more app traffic to Chinese LLMs. Through OpenRouter, weekly token consumption was mostly driven by U.S. models through much of 2025. But from early 2026, Chinese models suddenly became the main growth engine. AI model market is becoming less about brand loyalty and more about raw utility.

译Rohan Paul 引用 OpenRouter 数据指出，2025 年大部分周 token 消耗由美国模型驱动，但从 2026 年初开始，中国大语言模型突然成为主要增长引擎。引用推文称这是美国 AI 初创公司今年以来的显著转向。AI 模型市场正从品牌忠诚转向原始效用。

karminski-牙医@karminski3 · 6月8日58

ideogram-4 实测! Z-Image 的竞争对手来了? ideogram 刚刚发布了Ideogram 4文生图模型, 划重点, 这是个开放权重模型, 大小只有9.3B, 并且支持原生2K分辨率图片生成! 目前 reddit 上全都是 ideogram 4 的生成效果图, 于是我赶紧测了一波. 直接给大家带来我觉得跟这个模型风格最像的通义 Z-image-Turbo生成效果对比. 我的结论: #ideogram #ideogram4 #Nanobanana #文生图大模型

译ideogram发布Ideogram 4文生图模型，开放权重，仅9.3B参数，支持原生2K分辨率生成。作者将其与通义Z-image-Turbo生成效果对比，认为两者风格相似。

SemiAnalysis@SemiAnalysis_ · 6月8日57

NVIDIA's new Nemotron3 Ultra is defeated by Kimi K2.6 & GLM5.1 on coding tasks like TerminalBench, etc. In order to make the Global Nemotron Coalition training committee train frontier open models, Jensen should invite at least one of the following frontier ai labs to the committee: DeepSeek, MoonshotAI, MiniMax, Qwen, StepFun, zAI GLM.

译NVIDIA的新Nemotron3 Ultra在TerminalBench等编码任务上被Kimi K2.6和GLM5.1击败。为了让全球Nemotron联盟训练委员会训练前沿开源模型，黄仁勋应邀请至少以下一家前沿AI实验室加入委员会：DeepSeek、MoonshotAI、MiniMax、Qwen、StepFun、zAI GLM。

Nathan Lambert@natolambert · 6月8日35

Slowly, then suddenly!

译美国开源回来了。HuggingFace 首页前 30 个模型中，有 9 个由 Nvidia 发布。 Slowly, then suddenly!

AYi@AYi_AInotes · 6月8日69

http://x.com/i/article/2063647311423561728 # 免费白嫖顶级AI额度的N个隐藏入口（Codex Pro半年/Anything AI 20K/Lenny's bundle/云startup credits）现在玩 AI，最烧钱是Token额度，GPT-5.5、Claude Opus4.8，一个比一个能打，也一个比一个贵,想认真用上一阵，账单就能直接把你劝退了。但说实话，市面上一直有几个官方自己留的口子，赠金从几百刀到几十万刀不等。知道的人闷声用着，不知道的人月月真金白银往里充。这篇我就把查到的几个靠谱入口，一个个拆开说清楚——怎么申请、适合谁、坑在哪，跟着操作就行。先把难听的说在前头：这世上没有纯粹白给，每个口子都有它的门票。有的门票是“你得是开源作者”，有的门票是“你得先掏 200 刀订阅费”，有的门票是“你得算个创业公司”。下面每一条，我都会把门票和限制条件一起摊出来，大家自己结合自己情况评估。 ## 这篇讲哪几块 - 入口一：OpenAI「Codex for OSS」——开源作者免费拿半年 ChatGPT Pro（约值 $1200） - 入口二：Anything AI——新用户注册薅 2 万额度（官方默认才给 3000） - 入口三：Lenny's Product Pass——一份订阅换 $30000+ 的 AI 工具全家桶 - 入口四：三大云的 startup credits——AWS / 微软 / 谷歌，最高单家几十万刀 - 最后给你一张对照表 + 一段申请话术，直接抄 ## 先看全局：四个口子到底给什么动手之前，先用一张表把你心里的地图建起来。别一上来就闷头点链接，先看清哪个口子真适合你。人话总结这张表怎么用：想纯免费、零门槛 → 看 Anything；自己有开源项目 → 冲 Codex；愿意花点小钱换一堆工具 → 看 Lenny；在搞创业/产品 → 云额度才是大头。记住一句口诀就够了：白嫖的本质不是省钱，是把"门票"对上"身份"。下面挨个拆。 ## 入口一：Codex for OSS——开源作者的半年 Pro 这个口子是 OpenAI 自己开的，2026 年 3 月官宣，叫 Codex for Open Source。它给的东西挺实在：半年的 ChatGPT Pro（带 Codex），也就是那个 $200/月的顶配档，免费用 6 个月，算下来约 $1200。除此之外，符合条件的项目还能额外申请 API credits（来自 OpenAI 那个 100 万美元的开源基金），以及有条件开放的 Codex Security。谁能拿？核心是一句话：你得是一个公开开源项目的维护者（maintainer）。 OpenAI 官方写得比较宽松——如果你是被广泛使用的项目的核心维护者，就去申请；哪怕你的项目不完全符合标准，但在生态里确实重要，也可以申请，附上说明就行。而且它明确说了：不卡硬性 star 数门槛，不要信用卡，不要购买承诺。怎么拿（保姆级步骤）： 1. 打开 OpenAI 开发者社区的官方页面 developers.openai.com/community/codex-for-oss 1. 点申请，填你的项目信息——GitHub 仓库链接、star 数、月下载量这类指标 1. 重点写清楚"我这项目为啥重要、被谁在用" 1. 提交，等审核回复这盆冷水你得喝：第一，这是给开源作者的，不是给所有 ChatGPT 用户的全民福利。你要是没有一个拿得出手的公开项目，这条基本和你无关。第二，别和另一个东西搞混了——之前 OpenAI 还搞过一个"Codex 用量翻倍"的促销（Pro 档加量），那个是给已付费用户加量，不是免费，而且已经在 2026 年 5 月 31 号到期了。咱们这条说的是 OSS 那个免费半年的项目，两码事。 ## 入口二：Anything AI——注册就薅 2 万额度这个是目前门槛最低的一个，几乎是注册即得。 Anything（官网 createanything.com）是个 AI 应用搭建工具，用大白话描述一句你的需求，它帮你把 App 或网页搭出来，背后接的是 Claude、GPT、Gemini 这些顶级模型，不用你自己配 API key。它的免费档默认只给 3000 credits，一次性的，问几个问题就见底了。但在新用户启动促销期，能薅到的是 2 万 credits——机制大致是：注册到账一批，登录后再点一次同一个邀请链接，触发 bonus 再到账一批，凑齐 2 万，整个过程不要信用卡。怎么拿（保姆级步骤）： 1. 通过促销注册链接进入 Anything 官网，完成注册 1. 注册后，第一批 credits 自动到账 1. 登录状态下，再打开一次那个注册/促销链接，触发额外的 bonus 1. 到账后进 builder，credits 就能拿去搭东西、跑 AI 集成这盆冷水：第一，这是平台币，不是现金，也不是 OpenAI/Anthropic 的官方 API 额度。它只能在 Anything 平台里用，搭 App、跑集成消耗，跨平台带不走。第二，credits 烧得快慢看任务复杂度，复杂任务一条消息就能吃掉一大把，2 万听着多，认真搭起来其实也就够你玩一阵。第三，得提醒一句——这种"点两次链接拿双倍"的促销玩法，链接很多是在羊毛党论坛流转的第三方推广链接。官方注册当然是安全的，但你点别人贴的促销链接前，自己心里有个数，至少认准是 anything.com 的域名。促销随时可能结束，看到了就趁早。 ## 入口三：Lenny's Product Pass——一份订阅换一堆工具这个口子最"反直觉"，因为它表面上叫"免费"，其实是你先掏钱订阅，然后一堆工具白送给你用一年。 Lenny's Newsletter 是产品圈最大的那个 newsletter。它搞了个 Product Pass：只要你是它的付费年度订阅者，就能领一大堆顶级 AI / 产品工具各 1 年的免费会员，标称总价值 $30000+。里面的货是真硬。我给你贴几个看看：怎么拿（保姆级步骤）： 1. 去 lennysnewsletter.com 开通年度付费订阅——Annual（$200/年）或 Insider（$400/年），月付不行 1. 登录 lennysproductpass.com 1. 往下滚，找到你想要的工具的 logo，点 Redeem 1. 拿到专属兑换码，按提示去对应工具开通（通常会跳到那个工具的注册/结账页）这盆冷水必须喝，而且是一大盆：第一，它根本不是白嫖，是花 $200-400 买门票换一堆工具。值不值，取决于你是不是真能用上里面那几样。如果你本来就要买 Cursor + Notion + Google AI，那这笔订阅可能直接帮你回本还倒赚；如果你一个都用不上，那就是纯花钱。第二，码是有限的，先到先得。Lenny 自己说了，合作方不是给无限量账号，热门工具的码会发完，发完就没了。Insider（$400 档）才有优先权，Annual（$200 档）是抢的。第三，每个工具基本要求你是"新用户"。你要是已经自己付费用着 Cursor 了，那这个免费年大概率领不了。第四，有有效期，每批 offer launch 后半年左右过期，领了记得赶紧兑换，别囤着烂手里。我的判断是：这条适合"本来就准备给一堆 AI 工具付费"的人，对这类人它是真划算；纯薅羊毛心态、一个工具都用不上的，别上头。 ## 入口四：云 startup credits——大头在这如果你在搞创业、做产品，那前面三个都是零花钱，真正的大额度在云厂商的 startup 计划里。三大云都有自己的创业扶持计划，给的是云资源额度，里面就包含跑 AI 模型的额度（比如 AWS 的 Bedrock、谷歌的 Vertex AI、微软 Azure 上的 OpenAI 服务）。而且关键是——这三家互相独立，你可以同时申请、各拿各的。几个最实用的点，我直说： - 门槛最低、最友好的是微软 Founders Hub。它不要求你有 VC 背书，公开申请就行，入门档先给 $1K–$5K，随着产品有进展再往上解锁，而且还附带 GitHub、Microsoft 365，以及 Azure 上的 OpenAI 服务额度。你只要 ship 过点东西，基本都能拿到入门档。 - AI 创业天花板最高的是谷歌，AI-first 的创业公司最高能摸到 $350K，但顶档要求严，通常得是有 VC 的 Series A 阶段；种子期一般也就 $2K–$10K。 - AWS 自筹创业者走 Founders 档是 $1K，但能叠加——比如 YC Startup School 能再领约 $2500 的 AWS 额度，Stripe Atlas 注册公司能再叠 $5000，攒一攒一个自筹 solo 也能凑出几千刀。怎么拿（保姆级步骤）： 1. 先备好三样东西：一个公司网站、一个企业邮箱、一句能讲清楚"你在做什么"的描述 1. 微软先冲——去 Microsoft for Startups Founders Hub 直接申请，最容易过 1. 再分别申请 AWS Activate（自筹选 Founders 档）和 Google for Startups Cloud 1. 有加速器/VC 的话，拿它们的 Org ID 去申请 Portfolio 这种高档位泼盆冷水清醒下：第一，那些几十万刀的天花板数字，绝大多数要 VC 或加速器背书，自筹个人开发者通常就是 $1K–$5K 这个量级，别看着 $200K 就以为能直接拿。第二，这是云资源额度，不是给你随便提现的钱，你得真把东西跑在它的云上才花得掉。所以选哪家，应该看你的技术栈适合谁，别为了额度把整个架构绑死在一家——那本身就是另一种 lock-in。 ## 直接抄：一段万能申请话术不管是 Codex OSS 还是云 startup credits，审核方最想看到的，都是"你是谁 + 你在做什么 + 为啥值得给你"。下面这段你改改就能用： > 我是 [项目/产品名] 的维护者/创始人。 > > 我们在做 [一句话讲清楚做什么]，目前 [一个能证明你在认真做的指标：GitHub star / 月下载量 / 用户数 / 上线时间]。 > > 我们正在用 / 计划用 [你们家的产品] 来做 [具体场景：代码评审 / 自动化 / AI 功能]，这部分额度能直接帮我们 [具体的事]。 > > 项目链接：[贴上] 记住一句口诀：指标 > 形容词。别写"我们很有潜力"，写"我们有 800 star、月下载 1 万"。审核的人一天看几百份申请，具体数字才让他停下来。 ## 最后说到底，这几个口子能不能薅到，拼的不是手速，是你站在哪个身份上。开源作者有开源作者的口子，创业者有创业者的口子，普通用户也有普通用户的小份额——没有一个口子是为"所有人"开的，但总有一个是为"现在的你"开的。所以与其满世界找"最大的羊毛"，不如先想清楚：我现在是个什么身份，哪扇门是冲我开的，然后把那一扇推到底。剩下那些不属于你的，看看就好，别眼红。该掏钱用顶级模型的时候，也别太抠——工具是放大器，省下的那点订阅费，有时候还不够你纠结浪费掉的时间值钱。（本文基于 OpenAI Developers 官方页面、Lenny's Newsletter / Product Pass 公开页、Anything 官方文档及公开促销信息、AWS / 微软 / 谷歌三家 startup 计划官方页综合写成。所有额度、价格、有效期均为时效性信息，可能随时变动，以各官方页面为准。文中提到的产品只是举例，不构成任何推荐。这些是个人整理，不是投资/购买建议。）

译文章盘点四大渠道：① OpenAI Codex for OSS，开源项目维护者可免费获6个月ChatGPT Pro（价值$1200）及API credits；② Anything AI，新用户通过促销链接注册可得2万credits，需重复点击触发bonus；③ Lenny's Product Pass，付费订阅其年度Newsletter（$200-400）可兑换总价值$30000+的AI工具一年会员，先到先得且要求新用户；④ 三大云startup credits，微软Founders Hub最低$1K-$5K（无VC要求），谷歌AI-first创业最高$350K但要求严，AWS可叠加（自筹$1K+YC等）。每个口子均有门槛限制。

凡人小北@frxiaobei · 6月7日67

AI 时代的又一个受益者， Supabase 宣布完成 5 亿美元的 F 轮融资。公司的估值已达 100 亿美元。而在一年前它只值 20 亿。

译AI 时代的又一受益者，开源后端即服务（BaaS）平台 Supabase 宣布完成 5 亿美元 F 轮融资，公司估值达到 100 亿美元，而一年前估值仅为 20 亿美元。

swyx@swyx · 6月7日64

one popular theory is that research paper alpha* and lab publishing ~died when researchers realized that instead of fighting with marketing depts they could simply walk out the door and get >$100m for their legally protected tacit knowledge gained california non-noncompetes have a bigger impact on knowledge spreading than github, arxiv, and huggingface combined *btw this is a motivator for me to set up @aidotengineer as a product-centric industry conference to complement the paper-centric research conferences

译一种流行理论认为，研究论文和实验室发表式微，是因为研究人员发现与其与营销部门周旋，不如直接离职，凭借受法律保护的隐性知识获得超1亿美元融资。加州非竞争协议对知识传播的推动力超过GitHub、arXiv和HuggingFace总和。@tszzl指出，OpenAI知识产权泄露规模惊人，可能达数万亿美元，确实相当开放。swyx因此考虑将@aidotengineer设为以产品为中心的行业会议，补足以论文为中心的学术会议。

ginobefun@hongming731 · 6月7日62

继续整理和分享 BestBlogs 的订阅源。让 AI 帮忙梳理 BestBlogs 当前收录的播客和视频订阅源，已经整理成文章并开放 OPML。这次一共包含 57 个小宇宙播客和 119 个 YouTube 频道，覆盖 AI、编程、商业科技、投资财经、产品设计、效率成长、媒体资讯、生活文化等方向。播客和视频其实是非常重要的信息源。很多深度访谈、技术演讲、产品复盘、创业故事、学术解释和行业观察，并不会第一时间出现在图文内容里，而是沉淀在播客和 YouTube 频道中。但问题也很明显：平台分散，更新频繁，单集时长很长，标题也经常看不出真正价值。所以这次把 BestBlogs 里仍在持续更新、内容质量相对稳定的播客和视频源整理出来，方便大家直接订阅、导入 RSS 阅读器，或者接入自己的 Agent 和自动化内容工作流。 RSS 爱好者可以直接下载 OPML。做 Agent、内容管理、自动化简报的朋友，也可以把它当成一份高质量音视频信息源目录。也欢迎直接在 BestBlogs 上使用：在「我的关注」里添加感兴趣的小宇宙播客或 YouTube 频道，让它帮你筛选、排序、摘要和评分，把值得听、值得看的内容放进你的个性化早报。好的阅读工作流，不是订阅更多，而是更稳定地看到真正值得看的内容。内附 OPML 地址，可一键订阅。

译洪明分享了BestBlogs整理的播客和视频订阅源，包含57个小宇宙播客和119个YouTube频道，覆盖AI、编程、商业科技、投资财经、产品设计、效率成长、媒体资讯、生活文化等方向。所有源已整理成文章并开放OPML，支持一键导入RSS阅读器，也可接入Agent或自动化内容工作流。BestBlogs的“我的关注”功能可帮助用户筛选、排序、摘要和评分音视频内容，生成个性化早报。

ginobefun@hongming731 · 6月7日22

这次除了整理播客和 YouTube 频道，也顺手把 BestBlogs 对外的交流和发布入口整理了一下。如果你对 RSS、AI 阅读、Agent 工作流、高质量信息源和个人内容管理感兴趣，可以通过这些地方继续关注 BestBlogs：微信交流群：适合日常交流、反馈问题、推荐订阅源，扫码加入，如图片过期添加小助手 ginobot 拉入交流群。微信公众号：同步产品更新、订阅源整理和阅读方法。 https://mp.weixin.qq.com/s/PjLi-o2-kxIWqIGT7_0o4A?scene=1 飞书群：适合更深入的产品、技术和运营讨论。 https://applink.feishu.cn/client/chat/chatter/add_by_link?link_token=e71u9acd-3f93-4d7d-95b2-94111c51a668 小宇宙中文版：发布中文早报、内容精选和产品动态。 https://www.xiaoyuzhoufm.com/podcast/69acf4bcfe570e1a10f20f73 小宇宙英文版：面向英文用户，同步英文内容精选和 BestBlogs 动态。 https://www.xiaoyuzhoufm.com/podcast/6a1f845cf18021cbae82c1f2 Apple Podcasts：适合习惯用苹果播客收听的用户。 https://podcasts.apple.com/us/podcast/bestblogs/id1896876403 公开仓库：开放 OPML、订阅源、OpenAPI、CLI 和 Agent 相关能力。 https://github.com/ginobefun/BestBlogs 作者博客：记录产品迭代、技术架构、增长运营和独立开发思考。 https://www.ginonotes.com/ Gino 推特：分享 BestBlogs、AI 阅读、RSS、Agent 和独立开发。 https://x.com/hongming731 小光推特：分享产品、内容、社区、创业和高质量阅读体验。 https://x.com/puliandc 欢迎加入，也欢迎推荐更多真正值得长期关注的内容来源。

译BestBlogs 整理了对外交流和发布入口，包括微信交流群、微信公众号、飞书群、小宇宙（中英文版）、Apple Podcasts、公开仓库（GitHub）、作者博客以及 Gino 和小光的推特。适合对 RSS、AI 阅读、Agent 工作流、高质量信息源和个人内容管理感兴趣的用户关注，可获取产品动态、订阅源、技术架构和独立开发思考等内容。

MiniMax (official)@MiniMax_AI · 6月7日33

We’re heading to the AWS Builder Loft in SF on June 9 for an evening on open-weight foundation models on Amazon Bedrock. We’ll be showcasing MiniMax M3, including MiniMax Sparse Attention, the architecture that helps enable M3’s 1M-token context window, strong coding/agentic performance, and native multimodality in one open-weight model. Joined us are @ArtificialAnlys, @coderabbitai , @nvidia , and Daily. 📍 AWS Builder Loft, SF 📅 June 9 · 5:00–8:30 PM 🪪 Gov-issued ID required Come say hi at the MiniMax table. Register below 👇. #OpenWeights #AmazonBedrock #MiniMax

译MiniMax 将于6月9日在旧金山 AWS Builder Loft 举办开源权重模型之夜，重点展示其开源权重模型 MiniMax M3，及其关键架构 MiniMax Sparse Attention。该架构支撑了 M3 的 1M-token 上下文窗口、强大的编码与智能体性能以及原生多模态能力。合作伙伴包括 @ArtificialAnlys、@coderabbitai、NVIDIA 和 Daily。活动时间为 5:00–8:30 PM，入场需出示政府颁发的身份证件。

Berryxia.AI@berryxia · 6月7日66

🚀 mlx-audio v0.4.4 已发布——这是我们迄今为止推出的功能最强大的版本。新增了 15 个 TTS（文本转语音）、ASR（自动语音识别）及 VAD（语音活动检测）模型，提升了长文本内容转录的速度，并改进了与 OpenAI 兼容的音频服务器功能。所有这些技术都运行在 Apple Silicon 平台上。 🎤 新增的 TTS 语音引擎： • VoxCPM2（支持 2B 语言库、48kHz 音频格式、30 种语言） • MOSS-TTS / TTSD / 1.5 • Higgs Audio v3 • Miso、Dramabox、Irodori-TTS v3（VoiceDesign 技术支持） 📝 新增的 STT/ASR （语音转文本/自动语音识别）工具： • Mega-ASR（基于 Qwen3-ASR 1.7B 模型，支持 LoRA 路由技术） • Nemotron 3.5 ASR（支持实时语音识别功能） • granite-speech-4.1-2b-nar、Fun-ASR-Nano • Cohere ASR（长文本转录速度提升 1.7 倍） 🔊 新增的语音处理组件及编码器： • Silero VAD、FSMN-VAD、Step-Audio 2 ⚙️ 服务器改进：新增了与 OpenAI 兼容的数据格式（response_format），支持 /v1/audio/voices 格式以及逐词时间戳功能；服务器端的语音活动检测功能已由 lllucas 完成开发。安装方法：`uv pip install -U mlx-audio` 明天安装测试看看实际效果，对于中文的支持效果如何？

译mlx-audio v0.4.4 发布，所有模型均运行在 Apple Silicon。新增 15+ 个模型：TTS 包括 VoxCPM2（2B 参数、48kHz、30 种语言）、MOSS-TTS、Higgs Audio v3 等；ASR 包括 Mega-ASR（基于 Qwen3-ASR-1.7B + LoRA 路由）、Nemotron 3.5 ASR（实时流式）、Cohere ASR（长文本转录速度提升 1.7 倍）等；VAD 新增 Silero VAD、FSMN-VAD、Step-Audio 2。服务器改进支持 OpenAI 兼容的 response_format、/v1/audio/voices 接口及逐词时间戳。安装命令：`uv pip install -U mlx-audio`。

jason@jxnlco · 6月7日22

Now that I think about it. It’s kinda a genius affiliate program. Subsidizing a plan makes people tweet about it.

译现在想想，这其实是个天才的联盟计划。补贴一个方案，让人们发推宣传它。

向阳乔木@vista8 · 6月6日70

http://x.com/i/article/2063275048157458432 # 设计师花90%时间在对齐像素？这个开源工具想终结这件事一个月，接近 60K GitHub Star，全球30多个国家用户，340名贡献者，这个项目叫Open Design。 > https://github.com/nexu-io/open-design 这个数字放在Github开源历史上，20 天达到 50k Star + 的项目中，能排进全球前十。但更有意思的不是这个数字，而是它背后的逻辑：Open Design 的创始人 Tom，自己就是这个工具的重度用户。他们团队已经完全抛弃了 Figma 和 PRD，从想法到产品上线，最快两个小时。这是"未来硅世界"第17期直播的核心内容。 Tom 是 Open Design 的创始人，此前做过 Refly（画布+工作流产品），在字节飞书做过产品设计和研发。这次直播聊了产品本身、技术路线、开源哲学，以及一些很少被公开讨论的实践细节。 ## Open Design 到底是什么一句话：用本地 Agent 驱动的设计工具，目标是替代 Figma 和 Claude Artifacts。它是一个本地客户端，免费开源，下载即用。核心逻辑是：把你本地已有的 Code Agent（Claude Code、Codex、Hermes、PI 等）识别出来，直接作为设计引擎。你不需要切换工具，你的本地 Agent 就是它的引擎。对于没有本地 Agent 的用户（统计下来占85%），Open Design 提供了自己的付费 Agent，这是它目前主要的商业化入口。它能做什么： - 原型设计（替代 Figma 流程） - 后台系统（Live Artifact，数据实时刷新） - PPT（集成了歸藏老师等300+模板） - 营销落地页和海报 - HTML 视频（基于 Hyperframes 框架，30秒短视频）更关键的是，它打通了从设计到交付的全链路：做完设计，可以直接用 Cursor 把 HTML 转成 React 代码，交给下游工程师上线。 ## 为什么选 HTML，而不是 React 这是整个产品最底层的技术判断，也是第一次听到有人把它说得这么清楚。 Open Design 生成的设计产物，核心是 HTML 单文件，而不是 React 或 Vue 这类工程框架。原因不是技术能力的问题，而是模型注意力的分配问题。让模型写一个 React 项目，它要花70%到80%的注意力在"怎么让这段代码能跑起来"：组件怎么连接、状态怎么管理、框架规范怎么遵守。剩下20%的注意力，才能用来关注"这个东西好不好看"。 HTML 单文件完全不同。没有框架负担，模型可以把80%到90%的注意力压在一件事上：让这个东西变得更美。这就是为什么同样的模型，用 Open Design 做出来的设计，视觉质量会比直接用 Claude Code 或 Codex 生成的 React 代码好看。不是因为 Open Design 更聪明，而是它让模型的注意力花在了正确的地方。当然，HTML 不是终点。做完设计之后，可以直接交给 Cursor，让它把 HTML 转成生产可用的 React 代码。设计归设计，工程归工程，各自在最擅长的介质里工作。 ## 设计系统抽取：品牌一致性的正确打开方式 Tom 在直播中演示了一个功能：把 WaytoAGI 官网的设计系统整体抽取出来，包括品牌色、阴影、圆角、暗黑模式表现等，然后基于这套设计系统，对官网做整体风格刷新。这个功能的价值在于一致性。如果你要做十几个设计产物，每次都从零开始，风格必然散乱。有了设计系统，你可以让 Agent 基于同一套品牌规范，生成落地页、海报、PPT，风格自然统一。 Tom 演示时，先用抽取的设计系统生成了一版官网，觉得不够好看，又调用了歸藏老师的瑞士风格模板刷新了一遍。整个过程就是：@模板名发送，等几分钟，完成。 ## 反 AI 味：不是玄学，是规则 Open Design 在生成设计时，会做"反 AI 味"校验。 Tom 梳理了大概二三十条规则。 > https://github.com/nexu-io/open-design/blob/main/craft/anti-ai-slop.md AI 味的本质，是风格用错了场景。 Claude 默认生成米黄色背景，因为 Anthropic 自己的品牌就是米黄色。这个颜色在 Claude 的界面上是好看的，但你拿它做一个科技公司的落地页，就显得廉价。大量训练语料来自 Shadcn/UI 这类组件库，所以模型默认在背景上加网格。网格在后台管理系统里是合适的，在对外的营销落地页上就是 AI 味。模型还喜欢在标题前加 emoji，用标准化的颜色搭配，用特定字体。这些都是训练数据带来的偏好，本身没有对错，只是被用在了错误的语境里。反 AI 的做法很直接：告诉模型"你现在在设计落地页，不能用后台管理系统的思路"，然后在最终输出时让模型做自检，有问题就改，改到没问题为止。同场嘉宾也补充了另一层更有意思的视角：即使用 AI 生成好看的风格，用的人多了也会变成 AI 味。就像流行色，一旦泛滥，就失去了吸引力。真正对抗 AI 味的，是融入自己的审美和思考，而不是套用一个流行模板。本质上，人讨厌的不只是 AI 味，还有“没有用心”、“没有个性”。 ## Memory：把审美变成可迁移的数据这是 Tom 认为最被低估的功能，也是整场直播里我觉得最有意思的地方。你做一个设计，可能要调优30轮。每一轮你告诉 Agent"这里字太小""这里去掉""这个颜色换一下"，这些反馈在隐性地定义你的审美偏好。Open Design 会把这30轮记录下来，提炼成你的设计 Memory。下一次生成类似设计，这些偏好自动生效。更激进的应用：Tom 提到，他们在用 DeepSeek V4 Flash（比 Claude 便宜近100倍）结合用户沉淀的审美 Memory，做出接近 Claude Opus 水平的设计效果。这个逻辑值得停下来想一想。模型的能力是有上限的，但"什么是好看"这件事，是可以被系统化定义的。你把"好看的标准"用 Memory 的形式喂给一个便宜的模型，它就能在这个标准下发挥出远超其基础能力的表现。审美，第一次变成了可以传输的数据资产。因为是本地客户端，Memory 数据可以直接导出。理论上，你可以把一个审美很好的设计师的 Memory 文件导入自己的工具，直接复用他的"审美脑子"。 ## html-video：Hyperframes 的问题在哪里 Open Design 最近做了一个叫 html-video 的功能，用代码写视频。很多人会问：这和 Hyperframes 有什么区别？ Hyperframes 是 HeyGen 团队做的开源框架，通过自然语言写代码生成视频，技术上很厉害。 Tom 和 HeyGen 团队也有交流。问题在于两点。第一，Hyperframes 用了大量 Three.js 等动效库，这些库在训练语料里覆盖很少，模型写起来容易出错。第二，好案例不开源。 Tom 提到，Hermes Agent 团队的宣发视频就是用 Hyperframes 做的，效果很酷，但没有开源。结果就是大家知道 Hyperframes 厉害，但不知道怎么用它做出好看的东西。 Open Design 的 html-video 做的事情是：底层继续用 Hyperframes 框架，上层加一套产品化的模板库和工作流。你只需要输入简单的文字描述，它帮你套用模板，默认就能出一个高级感的视频。这是一个很典型的"在开源项目上盖产品层"的思路：不重复造轮子，解决"最后一公里"的易用性问题。 ## 为什么不直接用 Claude Code 或 Codex 这个问题很关键，Tom 给出了两个核心理由。第一，精准定位元素，节省 Token。用 Codex 直接改一个设计元素，它需要通过截图识别、搜索代码、定位元素，经历多轮工具调用，Token 消耗很大。 Open Design 可以让你直接框选一个元素，然后说"帮我删掉"，Agent 已经拿到了这个元素的上下文，直接改，消耗更小、速度更快。为什么 Codex 不做这个优化？ Tom 的判断是：Codex 要兼容更通用的场景，未来可能支持 iOS、安卓界面，有些界面没有可以直接选取的 DOM 元素，只能通过截图。为了长期通用性，它选择了更保守的方案。垂类工具的优势就在这里，专注一个场景，可以做更多针对性优化。第二，越用越顺，Memory 积累。通用工具不会记住你的设计偏好。你今天告诉它"不要在顶部加小字"，下次它还是会加。 Open Design 会把这些偏好记下来，下次默认就不会出现同样的问题。 ## Agent Native 团队是什么感觉 Tom 的团队十几个人，完全不写 PRD，完全不用 Figma。具体是什么样的工作方式？改一个文案，以前的流程：写 PRD 说明语境，丢给设计评审，拉会讨论，研发排期，可能要三天。现在的流程：产品同学直接把代码库丢给 Codex，说"帮我把这个词改成对应语言的翻译"，推代码，上线，可能要三分钟。做一个浏览器内嵌功能（支持灵感抓取、颜色提取、动效参考），传统大厂可能是两个月的工作量，他们三天上线。这不是说他们的工程师特别厉害，而是整个协作模式变了。产品、设计、研发之间的沟通成本几乎归零，因为所有人都直接对着代码说话。 Tom 说了一句话让人印象深刻："反而不在于写代码本身，而是在于你能不能让审代码这件事变得更加自动化和准确。" 他们为此专门建了一套 AI 审代码的流程：自动截图对比 UI 变化，跑自动化测试，识别是否改动了主框架。平均不到3小时可以合入一个外部贡献者的 PR。这套能力，让340个贡献者的代码能被有效管理，而不是变成一团乱麻。 ## GitHub 是 AI 时代的小红书这个类比是 Tom 提出来的，说得很准。以前在小红书上分享内容，门槛是会拍照、会写文案。现在在 GitHub 上分享项目，门槛是会用 Codex 写代码，而这件事已经变得和发一条小红书一样简单。分享经验的媒介变了，但逻辑没变：有价值的内容，会被自动传播。 GitHub 上的好项目，会有媒体、自媒体、YouTuber 主动盯着，发现了就录视频介绍。你不需要主动推广，只需要把东西做好放上去。 X（Twitter）是 GitHub 的冷启动最佳平台。 Tom 的方法论是：做完一个有价值的东西，录一个好看的演示视频，发到 X 上。即使你没有很多粉丝，也很容易达到几万甚至几十万的阅读量。他还给了一个具体的冷启动建议：每天 GitHub Trending 上都有新项目，选一个你觉得有价值的，让 AI 帮你写一段"为什么它有价值"，写段文字或录个视频发到 X 上，这种内容天然有受众，也很容易积累关注。 X 的算法，Tom 的描述是：它在反哺一种类似乔布斯时代的荣光，让真正有价值的想法被推给需要它的人。你只要做出来的东西是真实有价值的，它会帮你推给西班牙的人、北美的人、日本的人。 ## 开源的护城河：贡献者，不是 Star Tom 在直播里说了一句暴论： "如果你这个项目只有二十几个贡献者，它本质上应该是个闭源产品。" Refly 做了一年，7.3K Star，37个贡献者。 Open Design 一个月，接近 60K Star，340个贡献者。这个对比让 Tom 彻底想清楚了开源的意义。 Star 可以被买，可以被刷，可以被复制，但贡献者网络不能。逻辑是这样的：假设你的开源项目代码全公开，另一家公司把你的代码 fork 过去，重新开源，能不能超过你？不能，因为他没有你的贡献者。贡献者是在 Google 搜索权重上留下印记的，是在开发者心智中建立位置的，是在各自的国家和文化背景下持续产生真实需求的。花钱可以雇400个人提 PR，但他们不会持续贡献，因为他们没有真实的使用场景。 Open Design 的北极星指标，不是 DAU，不是 Token 调用量，而是贡献者数量。今年目标1000人，明年2000人。这个指标背后的逻辑是：一旦你成为某个领域的"事实标准"，商业化是后来的事，生命力是先决条件。 ## 两个意外的用户场景 Tom 提到两个他完全没预料到的使用方式。一个是企业内部宣讲。有用户把公司文化、规章制度等大段文字，直接用 Open Design 做成可视化图片，下载后用于内部传播。不是设计需求，是信息降噪需求。一张图比一页文字传递效率高得多，但以前做一张图要找设计师，现在自己做。另一个更有意思：西班牙的牙医，用 Open Design 做诊所门口的告示，指导患者就诊流程。他们完全不知道 Claude Code 是什么，通过 YouTube 或 Instagram 看到了这个工具，发现能做海报，就用了。 Open Design 正在从"设计师工具"变成"可视化信息传递工具"，用户边界比产品预设的宽得多。视觉表达的门槛降低之后，第一批受益的不是设计师，而是那些一直有表达需求、但没有表达能力的人。 ## 模型选择的实测排名直播里讨论最热闹的部分，Tom 给出了他们实测的结果。评估分两个维度：能不能完成任务，以及完成得好不好看。完成任务维度： Claude Opus 4.8 和 GPT-5.5 大约95分，Kimi 2.6 和 GLM 5.1 在85到90分之间，DeepSeek V4 Flash 大约85分，基本够用。好看程度维度，差距就拉开了： Claude Opus 4.8 断档领先，GPT-5.5 弱不少。 Kimi 2.6 因为有专门的前端美学训练数据，和 GPT-5.5 大概在同一水平，甚至略强。 GLM 和 DeepSeek 再往下。直播间彭超、元子等朋友也做了讨论，最终大家列了一个非常主观的LLM前端审美排名，仅供参考 > Claude opus 4.8 > kimi2.6 > GPT 5.5 > Deepseek v4 pro > GLM 5.1> Deepseek v4 Flash Tom 的建议：追求极致效果用 Claude Opus 4.8，追求性价比用 Kimi 2.6，追求极致省钱用 DeepSeek V4 Flash 加上大量审美约束，80分水平完全够用。他们团队自己目前全员在用 Codex，局部修改效果不错，全局大改动还是上 Claude。 ## 给你的行动建议如果你有本地 Agent（Claude Code 或 Codex），Open Design 对你完全免费。 > https://open-design.ai/ 下载客户端，让它识别你的 Agent，然后做一个你真实需要的设计，落地页、PPT、海报都行。调优10到20轮，把你的偏好沉淀进 Memory。下次做类似设计，起点就已经不一样了。另外，Tom团队在招各种“工程师”，比如设计工程师、GTM工程师等，地点在上海张江。感兴趣的话也可以投个简历，学习 AI Native 的团队是如何工作的。 > https://powerformer.feishu.cn/wiki/E3gYwEe6Aiv7ihkGQvLcCpyKnKh

译Open Design 是一个用本地 Agent 驱动的开源设计工具。一个月内获得近 60K GitHub Star（20 天达 50k+），全球 30 多国用户，340 名贡献者。它识别本地的 Claude Code、Codex 等 Code Agent 作为设计引擎，生成 HTML 单文件而非

AYi@AYi_AInotes · 6月6日53

分享一个 GitHub 5 万星的开源AI剪辑神器，本地处理、永久免费、不要水印、没有会员墙。它叫 OpenCut，想干掉剪映最让人不爽的那件事—— 你做的视频，再也不用先传到别人的服务器上了。现在就能用，但作为一个免费开源产品，想完全媲美年费700多块的剪映肯定不太可能，先说说OpenCut 现在的状态，属于 Early Beta：打开网页就能剪，导入视频、拉时间线、切一刀、修个头尾，完全免费、没水印、不要会员。但导出、特效、转场这些功能还在路上，只追求今天就能高效出片？现阶段剪映还是更强，这话我得说在前面。那么他的优势是什么？剪映是云端处理，你的素材要先上传， OpenCut 是本地优先，视频压根不离开你的机器。一个把你的内容当数据，一个把你的内容当你的，这一条差别，剪辑的时候你感觉不到，等哪天平台改规则、加水印、涨会员价的时候，你就全懂了。 OpenCut没把自己当成又一个剪映，它的路线图里写着： Rust 重写核心、Web + 桌面 + 移动统一、插件系统、Editor API，还有 MCP Server—— MCP Server 是让 AI Agent 直接调工具的协议，也就是说，以后你的 AI 能直接调 OpenCut 来替你剪，它想做的也不是一个剪辑软件，而是一个能被你自己的工作流调用的、可编程的视频底座。所以把视频编辑四个字去掉，这其实是所有工具正在发生的同一件事—— 过去的工具是一个封闭的盒子，你只能按它给你的按钮，未来的工具是一个开放的接口，你能把它焊进自己的系统，让 AI 替你按。剪映卖的是一次出片的效率， OpenCut 赌的是你愿不愿意为"这东西永远是我的、还能被我编程"多等几年。

译OpenCut 是一个 GitHub 5 万星的开源 AI 剪辑工具，主打本地优先，视频无需上传服务器，永久免费、无水印、无会员墙。目前处于 Early Beta 阶段，网页版支持基础剪辑（导入视频、时间线、切割），但导出、特效、转场等功能仍在开发。路线图包括 Rust 重写核心、Web+桌面+移动统一、插件系统、Editor API 及 MCP Server（让 AI Agent 直接调用工具），目标是成为可编程的视频底座，而非对标剪映的封闭工具。

ginobefun@hongming731 · 6月6日65

http://x.com/i/article/2063037236174802944 # BestBlogs 早报 · 06-06｜腾讯 AI、Agent 沙箱、中美算力 > 在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-06-06 腾讯首席 AI 科学家姚顺雨首次公开亮相，直言「下半场才刚开始」，从方法论成熟到寻找好问题的转变值得深思。与此同时，Agent 基础设施的安全边界正在被重新定义——硬件虚拟化的 microVM 与中美算力格局的最新一手观察，同样是今日不容错过的读点。 ## 导语今天是 2026 年 6 月 6 日，BestBlogs 从过去 24 小时收录的内容中精选出今日早报。今日三大精讲涵盖三个相互呼应的维度：人（腾讯首席 AI 科学家姚顺雨的战略判断）、基础设施（Agent 安全沙箱的工程实现）、生态（中美 AI 算力格局的第一手观察）。三篇文章合在一起，勾勒出当前 AI 工业化落地的完整图景——从战略逻辑，到工程实现，再到全球竞争格局的实地素描。速览部分包含 7 篇精选内容：从编写 AI Skill 的实战经验手册，到一位非技术背景销售员用 Claude Code 重建工作流的亲历记，再到微软 Build 大会「智能体工程取代编程」的现场观察、腾讯混元 Stem 稀疏注意力算法的技术突破、多智能体小模型经济模拟的实验报告、Google DeepMind 的 Text Diffusion 低延迟架构探索，以及 Anthropic 关于 AI 递归自我改进的深度长文。补充阅读涵盖强化学习环境质量、Google Gemma 4 12B 发布、AI 行业综合周报，以及 Claude Code 评测与工程实践的两篇深度工程文，还有 Skills 渐进式披露的设计模式。今天的内容聚焦于一个共同命题：AI 工业化的下半场，决胜点在哪里？ ## 精讲一：汤道生姚顺雨对谈：腾讯 AI 的下半场来源：腾讯科技 · 评分 92 · [阅读全文](https://www.bestblogs.dev/article/1fa6207b) 姚顺雨：第一次公开亮相，直指战略核心 6 月 5 日，腾讯云 AI 产业应用大会上，腾讯集团高级执行副总裁汤道生与首席 AI 科学家姚顺雨同台对谈，这是姚顺雨加入腾讯后第一次在公司公开活动中正式亮相。姚顺雨的履历颇为显赫：他是 ReAct 智能体范式的提出者，也是 OpenAI 旗下 Operator 和 Deep Research 两个 Agent 产品的核心贡献者。2025 年 12 月正式出任腾讯「首席 AI 科学家」，直接向总裁刘炽平汇报，同时兼任 AI Infra 部与大语言模型部负责人。他到任的第一个重要动作，是从 2026 年 2 月起主导重建混元团队的预训练与强化学习基础设施。这场名为《腾讯 AI 的下半场》的约 45 分钟对谈，实际上是一次罕见的战略公开陈述——一位掌握腾讯模型方向决策权的人，第一次系统性地解释他的判断框架。核心判断：从「怎么训练」转向「找好问题」对谈的第一个核心判断，是关于 AI 范式转移的时间节点。姚顺雨早在 2025 年 4 月就在个人博客发表过《The Second Half》，提出 AI 正站在中场分界线上的判断。八个月后，加入腾讯的决定本身，就是对这个判断的实践注脚。他的逻辑是：过去十年，AI 领域的核心挑战是「怎么训练」——从 AlphaGo 到预训练大模型，每一项突破都是方法论层面的创新。但预训练与后训练体系建立之后，AI 相当于拥有了一把「万能锤」，可以砸向任何钉子。在这种情况下，方法论的稀缺性退场，好问题的稀缺性成为新的核心矛盾。这意味着，AI 竞争的核心不再是谁能造出更强的模型，而是谁能定义什么问题值得解决，以及谁拥有解决这些问题所必须的数据与场景生态。对腾讯而言，这个转变是战略性利好。他指出三个关键词：问题（腾讯有元宝、ima、CodeBuddy、WorkBuddy 等丰富产品场景）、环境（Agent 需要工具和接口才能行动，腾讯的产品矩阵提供了天然的工具生态）、context（最终的竞争壁垒来自谁掌握最原始的用户上下文数据，腾讯有企业与个人两端的海量积累）。他明确表示，context 是 Agent 时代最重要的差异化因素，因为「模型越来越擅长把一个非常复杂的输入变成一个输出，你的竞争壁垒就来自于你知不知道这个人他到底在干什么」。 Hy3 Preview：495 步 Agent 工作流的背后对谈同时披露了 Hy3 preview 的具体数据。这款参数规模为 295B 总参数、21B 激活参数的混合专家模型，在 CodeBuddy 与 WorkBuddy 上首 token 延迟降低了 54%，并且能够稳定驱动最长 495 步的复杂 Agent 工作流。上线 OpenRouter 后，一度拿下周榜调用量与市场份额双第一。值得注意的是，Hy3 preview 版本明确定位为「以实用性为导向」，不是为了刷榜，而是为了收集真实世界反馈，修复榜单无法发现的底线问题。姚顺雨对此的解释颇为务实：benchmark 有价值，但容易 saturate（饱和）；真实世界的 prompt distribution 更复杂、更模糊、多轮，这些是 benchmark 无法覆盖的训练信号来源。 Co-Design：模型与产品如何深度协同汤道生提出的「Co-Design」概念，是整场对谈的另一条主线。他以「产品老兵」的视角，描述了 AI 时代做产品与 PC、移动互联网时代的本质不同：过去的产品像「预制菜」，通过功能菜单满足需求；AI 产品则面对完全开放式的用户输入，产品方甚至无法预知用户会问什么，必须依赖模型能力来理解并响应。这种变化倒逼组织形态向小团队化、实验驱动靠拢。工程师的角色从「写功能」变为「驱动多个 coding agent 的产品 leader」。姚顺雨对 Co-Design 的拆解分三点：其一，预训练是相对 product-agnostic 的，做得扎实可以为多个下游产品提供可泛化的基础；其二，后训练的关键是设立正确的 eval——以元宝为例，真实对话中用户的问题比 benchmark 更模糊、更多轮，这些真实反馈可以发现 benchmark 发现不了的底线问题；其三，LLM 时代与过去 AI 最本质的区别是泛化性——即使目标是 Coding Agent，也需要聊天、搜索、指令遵循、推理等多维度能力，这意味着有多元产品矩阵的公司，数据之间可以相互泛化，形成网络效应。对谈结尾，汤道生宣布腾讯将发布一套「效率智能体工具集」，背后整合了场景连接、Harness 工程体系与混元模型 Co-Design 三重能力。为什么这篇值得精读这篇对谈兼具战略高度与技术细节，且两者并非并列关系——战略判断有工程实现的支撑，工程细节有方法论框架的解释。姚顺雨以 ReAct 提出者和 OpenAI Agent 产品实践者的身份，直接给出了他对「下半场」的第一性原理拆解，而不是泛泛的愿景陈述。外界质疑腾讯「慢了」，姚顺雨的回答是：如果 AI 是一场长期游戏，下半场才刚刚开始，那现在并非晚了；ChatGPT 和 Claude 不会是唯一的超级应用，coding agent 之外还有大量新的产品范式等待探索。这个判断背后的逻辑链——方法论成熟、好问题稀缺、context 是壁垒——值得每位 AI 从业者认真推敲。 ## 精讲二：给你的 AI 智能体一台专属电脑来源：LangChain Blog · 评分 91 · [阅读全文](https://www.bestblogs.dev/article/dc9482cb) 从「让 Agent 跑起来」到「让 Agent 安全地跑起来」 Agent 能力提升的速度，远远超过了 Agent 安全基础设施建设的速度。LangChain 的这篇文章，正面回应了一个越来越迫切的工程命题：当 Agent 需要执行代码、访问文件系统、安装依赖、持久化状态时，应该给它一台什么样的「电脑」？ Satya Nadella 在 Microsoft Build 大会上的判断被引为文章开篇：「Every agent needs a computer.」这不是比喻，而是字面意义上的基础设施需求。Cursor、Claude Code、ChatGPT 的代码解释器之所以强大，正是因为它们拥有了一个可以运行代码、看到错误、修复再跑的反馈闭环——这个反馈闭环，是区分演示 Agent 与生产 Agent 的关键分界线。为什么容器不够用：两个真实案例许多团队在早期原型阶段选择 Docker 容器来隔离 Agent 执行环境。文章以两个具体案例指出，这种方案在生产环境中遭遇两道硬墙。第一道：Agent 本质上执行不可信代码。 Agent 运行的代码可能来自模型生成、用户提示词、克隆的仓库，或者安装的第三方包。没有任何一条路径是完全可信的。2025 年 9 月，npm 生态出现了自我复制蠕虫 Shai-Hulud，在 preinstall 阶段感染了超过 500 个包，第二波在 11 月进一步波及 796 个包和 25,000 多个 GitHub 仓库，且感染发生在任何验证逻辑执行之前。一个会安装 npm 包的 Agent，天然暴露在这类供应链攻击面前。第二道：容器共享宿主内核，不是真正的隔离边界。 CVE-2026-31431（Copy Fail）是一个 732 字节的 Python 脚本，利用 Linux 内核 crypto API 漏洞，可以提权至宿主机 root，覆盖从 2017 年到现在几乎所有主流 Linux 发行版。文章点出了一个令人不安的细节：AI 工具链发现这个漏洞大约用了一小时。这两个案例放在一起，说明了一个清晰的工程结论：对于模型生成或用户可控代码，容器隔离是不够的，需要硬件级别的隔离边界。 LangSmith Sandboxes：microVM 的设计哲学 LangSmith Sandboxes 给出的答案是基于硬件虚拟化的 microVM。与容器不同，microVM 拥有独立内核，每个沙箱实例之间不共享任何内核级别的资源，内核漏洞无法跨越边界影响宿主机或其他沙箱。这个方案的工程特性覆盖了 Agent 执行场景的主要需求： - Serverless 启动速度：微秒级冷启动，而非传统 VM 的秒级。对于需要按需弹起、用完即毁的 Agent 沙箱场景，这是关键。 - 完整机器持久状态：沙箱拥有完整的文件系统、进程空间和网络栈，Agent 可以在同一沙箱内持续工作数小时，维护跨步骤的状态，而不是每次调用都重置环境。 - 快照与分叉：可以对沙箱状态打快照，并从同一快照分叉出多个并行实例。这对 RL 训练（需要在同一环境状态下并行运行多个 episode）和批量评测场景极为重要。 - 蓝图预热：预先配置好的沙箱环境可以池化复用，避免重复安装依赖的冷启动延迟，在大批量任务场景下降低端到端延迟。文章中还描述了一组典型的 Agent 使用场景，帮助读者理解「为什么 Agent 需要一台真正的电脑」：一个 coding assistant 不只是建议修复方案，而是应用修复方案、运行测试套件、确认没有破坏已有功能；一个 CI agent 可以克隆仓库、安装依赖、跑完整测试、开 PR；一个 RL 评测 harness 需要从零到数千个沙箱的弹性扩缩容。这些场景的共同前提：Agent 需要一个有状态的、持续的、安全的工作空间。关联今日主题：精讲一与精讲二的互文这篇文章与精讲一（腾讯 Hy3 驱动 495 步 Agent 工作流）构成有趣的互文：一篇讨论 Agent 能做什么，另一篇讨论 Agent 在什么样的基础设施上才能安全地做。Hy3 preview 能够稳定驱动数百步复杂 Agent 工作流，恰恰需要精讲二所描述的基础设施作为前提。Agent 能力越强，对安全执行环境的要求越高，两者是正向绑定的关系。从整个 AI 行业的视角来看，「给每个 Agent 一台专属电脑」正在成为基础设施的新标配。这不是某一家公司的产品决策，而是 Agent 工作负载对基础设施提出的客观需求。对于正在构建 Agent 代码执行系统的工程师，这篇文章是当日最具工程价值的必读材料：它不只解释了「为什么」，也给出了「怎么做」的工程参考框架。 ## 精讲三：科技爱好者周刊（第 399 期）：中国 AI 大厂访问记来源：阮一峰的网络日志 · 评分 92 · [阅读全文](https://www.bestblogs.dev/article/6933ad74) 第一手观察：打破中美 AI 认知的信息茧房 2026 年 5 月上旬，一个由多位美国科技分析师组成的访问团赴华，走访了 14 家 AI 与机器人公司，包括 DeepSeek、月之暗面、MiniMax、智谱、字节跳动、阿里、蚂蚁、小米、零一万物、宇树、魔搭社区等头部机构。访问结束后，Kevin Xu、Azeem Azhar、Nathan Lambert 等多位成员独立撰文分享观感，阮一峰在本期周刊中将关键摘录系统整理，配以简洁导读。这是少见的中美 AI 生态直接对比一手材料。不是二手数据引用，不是媒体转述，而是身处硅谷的分析师在中国实地观察后形成的第一手认知。这类材料的价值，在于它能够绕过两边各自的叙事框架，提供一个相对中立的外部视角。算力：差距是真实的，但效率弥补了大半访问团的最核心发现，围绕算力展开，且得出了两组看似矛盾实则互补的结论。差距的量级：中国 AI 公司普遍反映算力不足，根本原因是美国的芯片出口管制。英伟达最新款 GB300 NVL72 系统在实时推理速度上比三年前的 H100 集群快 30 倍，每颗芯片内存容量高出 3.6 倍，每次推理能耗降低 25 倍，美国公司正在大量订购，而中国公司无法获取。访问团估计，2025 年底美国 AI 算力约为中国的 8 倍，中国目前的总算力大致相当于美国 2023 年的规模。华为 Ascend 950PR 性能大致相当于 2022 年的 H100，且出货量仅为英伟达同期的十分之一左右。效率的弥补：然而，「算力少一个数量级」并不等于「模型能力落后两年」。访问团的关键发现是，芯片管制反而逼出了计算效率创新——中国公司的单位算力支持的 AI 智能是简单扩展下的 4-7 倍。分析师们向中国研究人员透露了 OpenAI 内部每位研究人员拥有的 GPU 数量，对方「简直惊呆了」，然而西方 AI 公司的研究人员仍然普遍抱怨算力不够。这个细节揭示了两种截然不同的稀缺性适应策略。此外，中国的算力分配结构与美国不同：美国的大部分算力用于模型训练，中国的算力同时要服务数亿消费者和快速增长的企业用户，这进一步压缩了可用于训练的资源池，也是促进效率创新的另一个驱动因素。组织与文化：年轻、流动、产学一体访问团的另一组引人注目的观察聚焦在人。中国 AI 公司的员工平均年龄二十五六岁，大多数仍是博士在读，实习期长达 1-2 年，享有与全职员工相同的权限和待遇，可以自由提出想法、开展工作实验。这与西方顶级 AI 公司形成鲜明对比：OpenAI、Anthropic、Cursor 等公司根本不提供实习，其他公司（如谷歌）的实习机会也不会涉及核心模型工作。背后有结构性原因：中国顶尖高校的计算资源根本无法满足优秀博士生的研究需求，而业界公司拥有更丰富的算力。双方的利益在「合作发论文、提供算力与全权限」这个模型下找到了交汇点。结果是一种产学高度交融的人才生态：年轻、灵活、边界感弱，新想法的涌入速度快。开源分歧、竞争格局与 AI 安全态度访问团还记录了若干有意思的切面。开源分歧：一条越来越清晰的界线正在形成——参数规模达到一万亿。部分公司认为开源万亿参数模型是资源浪费，因为没人能在本地运行如此庞大的模型，更好的方式是云端 API；另一些公司则将开源视为信仰和入场券。竞争格局：访问团观察到字节跳动 Seed 部门被全行业敬畏——因为豆包几乎垄断了 AI 用户流量，且他们的模型可以快速推广到海量用户，这是其他公司无法匹敌的渠道优势。DeepSeek 则是最受业界尊重的公司，越来越多地承担基础架构层工作：架构、效率、推理优化，以及华为协议栈适配。 AI 安全态度：访问团与年轻中国研究人员讨论 AGI，得到了几乎相同的答案：「AGI 就是 AI 可以取代我！」对方不只是不害怕，而是对「机器是否真的能超越其制造者」充满好奇。这与西方同行形成鲜明对比——西方许多研究人员深度关注 AI 安全及其社会影响，而中国研究人员更多把安全监管的责任交给政府。为什么这篇值得通读这篇文章的价值不在于任何单一数字，而在于跨越信息不对称的整体视角。中美双方对彼此 AI 生态的认知，经常被媒体叙事和地缘政治情绪扭曲，信息质量参差不齐。这次由技术分析师构成的访问团，提供了一份尽可能接近事实的直接观察。将这篇文章与精讲一（腾讯对 context 数据与问题寻找的战略判断）连读，可以得到更完整的中国 AI 发展图景：一篇是内部视角的战略逻辑，一篇是外部视角的生态素描，两者互补，共同描绘了一幅比任何单一来源都更立体的画面。 ## 速览如何写好 Skill：一份终极实战经验手册腾讯技术工程 · 评分 92 · [阅读全文](https://www.bestblogs.dev/article/b7742f5e) 腾讯工程师 jackjchou 整理的 Skill 编写完整方法论，从基础概念、结构设计，到高级技巧、安全规范与工程化评估，覆盖「从没写过 Skill」到「负责团队规范」的完整阅读路径。核心洞察：Skill 本质上是结构化的 Prompt Engineering，它把分散在人脑中的领域知识与流程经验，转化为 AI 可执行的指令集。文章详解 Anthropic 的三层渐进式加载机制（元数据常驻、SKILL.md 触发加载、附件按需引用），指出编写时的常见反模式，以及团队 Skill 规范化管理的要点。正在或计划用 Claude Code、CodeBuddy 等工具提升团队工程效率的读者，这份手册值得当作参考文档收藏。从客户经理到产品经理：Anthropic 销售员如何用 Claude Code 重建团队工作流 Claude Blog · 评分 90 · [阅读全文](https://www.bestblogs.dev/article/8af798c7) Anthropic 客户经理 Jared Sires 没有任何编程背景，却用 Claude Code 从零构建了 CLAFTS（Claude Drafts）——一个嵌入 Gmail 的邮件起草工具。他每天要处理 10-15 个客户电话，加上大量外发邮件，经常工作到晚上 9-10 点。CLAFTS 最终每周为他节省 10-15 小时，分享到内部 Slack 后，24 小时内整个销售团队开始使用。这个案例最有价值的地方，不只是「非技术人员也能用 AI 编程」，而是它展示了 AI 原生工具如何重塑角色定义——Jared 随后转型为 GTM 产品经理，专门识别销售组织的流程问题并构建 AI 解决方案，将自身对业务流程的理解与 Claude Code 的执行能力结合成新的职业路径。 Microsoft Build 主题演讲：智能体工程取代了编程 Cory House(@housecor) · 评分 90 · [阅读全文](https://www.bestblogs.dev/status/2061953686847557962) Cory House 在 X 上的一条观察引发广泛共鸣：微软长达 3.5 小时的 Build 主题演讲，全程没有提及 C#、.NET 或 TypeScript。这三个词曾长期是微软开发者大会的标配符号。这不是偶然的遗漏，而是一个关于技术叙事重心转移的清晰信号：编程语言让位于智能体工程，底层工具让位于能力与流程的整合。结合今日精讲一（姚顺雨对 AI 下半场范式转变的判断）和精讲二（Agent 执行基础设施的演进），这条推文的简短观察有了更丰富的诠释背景。首字延迟降低 3.6 倍，腾讯混元提出 Stem 稀疏注意力算法，长文推理加速新 SOTA 腾讯混元 · 评分 90 · [阅读全文](https://www.bestblogs.dev/article/c1e21993) 腾讯混元发布 ICML 2026 收录论文 Stem，提出两个核心创新：Token 位置衰减（TPD）和输出感知度量（OAM）。TPD 的洞察来自因果注意力架构的递归特性——初始位置的 token 被所有后续层依赖，不应被稀疏化；OAM 则在传统注意力分数之外，引入 Value 向量携带的信息量作为 token 选择依据。两项创新组合，在仅用 25% 算力的条件下逼近稠密注意力的精度，配合 HPC 算子实现 128K 上下文首字延迟降低 3.7 倍，已开源。这个成果对 Agent 工作流场景尤为重要——长上下文推理是 Agent 的高频场景，首字延迟直接影响系统响应体验。配合今日精讲一中 Hy3 的 495 步工作流能力，构成腾讯 AI 基础设施层面的完整技术布局。千符森林：在 3B 模型上运行一个多智能体经济系统 Hugging Face - Blog · 评分 90 · [阅读全文](https://www.bestblogs.dev/article/d15e5749) Build Small Hackathon 的一份工程实验报告：五个运行在 Qwen2.5-3B 上的林地生物 Agent，在微型经济中以石子为货币相互交易、闲聊、囤积与恐慌，最终涌现出价格泡沫、崩溃与财富分化。作者的核心结论：3B 参数级别的模型是可靠的格式生成器，但是不可靠的推理器——它可以稳定输出 JSON、遵循格式约束，但在真正需要策略推理的场景表现不稳定。另一个值得记录的洞察：「涌现出的戏剧性需要人为设计的稀缺性」——没有刻意设计的约束，多 Agent 经济系统不会自发产生有趣的动态。对于正在探索小模型多 Agent 场景的工程师，这份实地报告比理论分析更直观。 Google DeepMind 的 Text Diffusion：面向低延迟语言生成的新一代架构 AI Engineer · 评分 90 · [阅读全文](https://www.bestblogs.dev/video/93a33f8) Google DeepMind 研究员 Brendon Dillon 解释了 Text Diffusion 作为自回归 LLM 生成替代方向的工作原理与权衡。Text Diffusion 放弃因果约束，改用全双向注意力块，允许从噪声中并行解码整个序列，而非逐 token 生成。代价是单次前向计算量更大，但在特定延迟场景下有优势。Dillon 指出这项技术在批量吞吐上的代价，以及在实时、端侧和交互式产品中的应用潜力。这是值得长期追踪的架构方向，尤其适合对推理延迟有严格要求的工程师和研究者。 Anthropic: 当 AI 开始构建自己 AINLP · 评分 89 · [阅读全文](https://www.bestblogs.dev/article/c965ab9b) Anthropic Institute 递归自我改进进展报告的中文完整翻译，援引了一组内部数据：截至 2026 年 5 月，Anthropic 工程师合并进代码库的代码中超过 80% 由 Claude 编写，每位工程师每季度交付的代码量是 2021-2025 年期间的 8 倍。报告梳理了从「聊天机器人」到「自主智能体」的阶段演变，并讨论了三种关于递归自我改进的未来场景：巨大的科学与医疗收益、人类监督的重要性提升，以及潜在的失控风险。Anthropic 坦诚地公开了内部数据并直视这种趋势的潜在风险，这种做法本身就值得关注。适合对 AI 发展趋势有系统性思考需求的读者。 ## 补充阅读 [如何避免交付低质量的强化学习环境（附示例）](https://www.bestblogs.dev/article/cdd6597f) · Latent.Space · 评分 90 来自 Google Gemini RL 团队研究员的「RL Pet Peeves」系列，专注于环境质量问题：低质量的测试框架（Harness）会系统性地生成垃圾训练数据，破坏模型性能。文章提供了常见故障的分类、具体示例与修复方法，例如 mock API 缓存 bug 导致 Agent 学到错误策略、奖励函数只看测试通过而不看代码正确性等。适合正在构建 RL 训练基础设施的工程师，可与今日精讲二（Agent 执行环境安全）配合阅读。 [Google 发布 Gemma 4 12B：具备高级推理能力的开放模型](https://www.bestblogs.dev/status/2062203526588088452) · Google(@Google) · 评分 92 Google 发布最新开放模型 Gemma 4 12B，整合高级智能体推理、视觉与音频能力，采用统一架构（移除独立多模态编码器），设计在仅需 16GB VRAM 的本地硬件上运行，Apache 2.0 授权。这是开源模型生态的又一次能力跳跃，关注本地部署与开源社区的读者值得关注。 [Qwen3.7-Max 挑战谷歌争夺第三，AI 拯救鲸鱼，微调打破版权对齐](https://www.bestblogs.dev/article/2baac995) · The Batch · DeepLearning.AI · 评分 90 本期 The Batch 包含四条有价值的信息：阿里 Qwen3.7-Max 的市场竞争布局、AI 系统用于防止鲸鱼与船只相撞的公益案例、中国 LLM 访问的灰色市场现象，以及微调可能破坏版权对齐的研究结论。内容跨度广，适合希望保持 AI 领域综合情报视野的读者，尤其是最后一条关于微调与版权的发现值得关注。 [基于顶级 Agent（Claude Code）的 Harness 工程搭建式业务 Agent 评测方案](https://www.bestblogs.dev/article/fcbdb6fa) · 阿里云开发者 · 评分 90 阿里云工程师提出创新评测方案：以 Claude Code 作为 Harness 工程的搭建者和运行者，将评测逻辑从代码转化为 Prompt，实现对业务 Agent 的系统性、快速评测。核心矛盾是业务 Agent 迭代快（天级）但传统评测工程搭建慢（周级），这套「Agent 评测 Agent」的思路打破了这个瓶颈。适合正在为多 Agent 系统建立评测体系的工程师团队。 [分享 Claude Code 团队内部的 5 条工作原则](https://www.bestblogs.dev/article/c8916b4b) · 数字生命卡兹克 · 评分 89 解读 Claude Code 工程总监 Fiona Fung 的分享，提炼 AI 原生组织下规划、自动化、代码评审、团队角色与流程变革的 5 条工作原则。核心判断：在 Agent 时代，写代码已不再是工程瓶颈，瓶颈转移到了验证、代码评审与安全，所有上下游流程都需要重新设计。这套思路与今日多篇文章形成共鸣，是 AI 原生工程组织实践的一手观察。 [Skills 中的渐进式披露：大型智能体流程的最强模式](https://www.bestblogs.dev/status/2062529678590513475) · Daniel San(@dani_avila7) · 评分 90 解释在 Skills 中记录大型智能体流程的渐进式披露模式，分为启动（约 500 token 元数据常驻）、任务匹配（SKILL.md 触发加载）和深度执行（附件按需引用）三个阶段，通过按需加载将 token 消耗优化到最低。这是第一篇速览「如何写好 Skill」的工程补充，两篇配合阅读，可以对 Skill 设计的宏观原则与微观优化有更完整的认知。 ## 今日阅读路径时间有限时，建议按以下顺序优先阅读三篇：第一优先：科技爱好者周刊第 399 期——中美 AI 算力与生态的第一手比较，信息密度最高，跨领域读者都能获益。在中美信息隔离日趋严重的背景下，这类第一手比较材料极为稀缺。第二优先：汤道生姚顺雨对谈——腾讯首席 AI 科学家的战略陈述，与第一篇构成绝佳互文：前者是外部观察，后者是内部视角，两篇合读能拼出更完整的中国 AI 发展图景。他的「下半场才刚开始」与「context 是壁垒」两个判断，值得仔细推敲。第三优先：LangSmith Sandboxes——如果你是正在构建或使用 Agent 的工程师，这篇是当日最具工程价值的文章，直接回答「Agent 安全执行环境」这个已经变得迫切的工程命题，且给出了具体的工程参考框架，读完可以直接用于技术决策。如果还有余力，速览中的如何写好 Skill 和 Anthropic 递归自我改进两篇也是今日高质量内容：前者是可立即落地的实操手册，后者是 AI 发展长线叙事中难得的内部数据视角。

译姚顺雨在腾讯云AI大会上首次公开亮相，指出AI已进入下半场，核心从“怎么训练”转向“找好问题”，认为context是Agent时代关键壁垒，腾讯在场景、数据、工具链上有结构性优势。他披露Hy3 preview模型：295B总参数、21B激活参数，首token延迟降低54%，可驱动最长495步Agent工作流。他还提出Co-Design理念，强调模型与产品深度协同，该模型以实用性为导向，不在榜单过度竞争。

Rohan Paul@rohanpaul_ai · 6月6日48

Today’s edition of my newsletter just went out. 🔗 https://www.rohan-paul.com/p/anthropic-just-disclosed-that-claude 🗞️ Anthropic says 80% of its new production code is now authored by Claude 🗞️ New Google paper shows general LLMs can solve formal math by planning proofs and checking each step. Raised general LLM performance from under 10% to 70% 🗞️ Google’s new open source Gemma 4 12B can analyze audio and video while running fully locally on a consumer 16GB GPU 🗞️ Alibaba’s Qwen3.7-Plus supports text, video, and image inputs at a low price of $0.4/$1.6 per 1M tokens, though it remains proprietary. 🗞️ Anthropic’s new chemistry report has a genuinely wild result.

译Anthropic 称其 80% 的新生产代码由 Claude 编写。Google 新论文显示，通用 LLM 通过规划证明与逐步验证，将形式数学求解性能从低于 10% 提升至 70%。Google 开源 Gemma 4 12B，可在消费级 16GB GPU 上本地运行，支持音频和视频分析。通义千问发布 Qwen3.7-Plus，支持文本、视频、图像输入，价格 $0.4/$1.6 每百万 token，闭源。Anthropic 新化学报告有惊人结果。

Google AI@GoogleAI · 6月6日78

Here’s this week’s shipping recap 👇 — Nano Banana 2 & Nano Banana Pro are now GA and available via the Gemini Enterprise Agent Platform, Gemini API, and in @GoogleAIStudio —Co-Scientist, our new multi-agent system for structured scientific thinking, generates and refines novel hypotheses to solve complex scientific problems — dreambeans from @GoogleLabs works overnight to curate a personalized daily collection of topics that are relevant to you based on your connected Google apps — @GoogleGemma 4 12B, our unified encoder-free model, brings powerful multimodal intelligence straight to your laptop fully offline — Gemma 4 models and their drafters are now optimized with Quantization-Aware Training (QAT) to cut memory requirements and maximize on-device performance — @GoogleMagenta RealTime 2 is our open-weights live music model that you can play like an instrument using a MIDI keyboard, text prompts, and gestures

译Google AI 本周发布多项更新：Nano Banana 2 及 Pro 正式 GA，可通过 Gemini Enterprise Agent Platform、Gemini API 和 Google AI Studio 获取；Co-Scientist 多智能体系统面向科研自动生成优化新假设；Google Labs 推出 dreambeans，根据用户 Google 应用数据每日生成个性化话题集；Gemma 4 12B 统一无编码器多模态模型可完全离线运行于笔记本；Gemma 4 系列及草稿模型引入 QAT 降低内存需求；Google Magenta RealTime 2 开源实时音乐模型，支持 MIDI 键盘、文本提示和手势演奏。

SemiAnalysis@SemiAnalysis_ · 6月6日57

We fundamentally disagree with the communist committee-style “Nemotron Coalition” approach to developing OSS models, and we do not believe that is the right path for model development. For OSS models, our team will only use capitalist, free-market-driven Chinese models like Kimi, DeepSeek V4, GLM-5, Qwen, MiniMax, etc. (1/2)🧵

译我们从根本上不同意共产主义委员会式的“Nemotron Coalition”方法来开发开源模型，并且我们不认为这是模型开发的正确路径。对于开源模型，我们的团队将只使用资本主义、自由市场驱动的中国模型，如Kimi、DeepSeek V4、GLM-5、Qwen、MiniMax等。(1/2)🧵

AYi@AYi_AInotes · 6月5日27

明天老马要发工资了，我这里研究平台算法有一阵了，基本拿到了底层收益算法逻辑，准备做一个x创作者收益预测平台，宝子们可以给我一下最近两周自己的数据，我来打磨一下我的预测模型和算法，做好了我会开源出来，大家可以拿去分析自己的数据。

译博主@AYi_AInotes研究X平台算法后，称已掌握底层收益算法逻辑，正计划构建X创作者收益预测平台。为打磨预测模型，博主公开征集用户近两周的创作数据，承诺完成后将开源该平台，供创作者分析自身收益数据。

歸藏(guizang.ai)@op7418 · 6月5日43

发现有些朋友在用 GitHub 的时候，什么发言啊什么的，什么原生啊，看得老重了。但是就是不知道看那个版权协议。注意哦，这个 PPT skill 的版权求必须署名并且开源。如果不想开源的话，联系我走商业授权。就是抄点子也就算了，直接抄代码，还有的直接抄名字。

译歸藏指出，部分用户在使用 GitHub 时过于关注发言、原生等细节，却忽略版权协议。其 PPT Skills 要求必须署名且开源，如需闭源可联系作者获取商业授权。他同时提醒，抄袭点子、代码甚至项目名称的行为不可取。在引用推文中，歸藏表示 PPT Skills 将继续更新，得益于近期赞助，将推出第三套惊艳的主题，并将小红书图文卡片的经验融入新版。

小互@xiaohu · 6月5日17

兄弟们，福利来了宝玉老师 @dotey 不是写了一本新书《图解Skill》嘛非常不错，我的很多技能也是和宝玉老师学习的本质分享开源的思想，今天开始我也将陆续分享一些我自己使用的技能🤓 技能稍后发出，先搞10本宝玉的《图解Skill》送给大家。木有乱七八糟的的条件转发本推即可，周一抽10位... 送出...

译博主小互推荐宝玉老师新书《图解Skill》，称其技能多得益于宝玉老师。本书秉持开源分享理念，博主将陆续分享自己使用的技能。为回馈关注，现转发本推文即可参与抽奖，共送出10本《图解Skill》，下周一开奖。

ginobefun@hongming731 · 6月5日58

https://github.com/ginobefun/BestBlogs 项目 3.7K Star 了，拿这个去申请下看看

译OpenAI 今年 3 月推出 Codex for Open Source 项目，为开源维护者提供 6 个月免费 ChatGPT Pro（价值 $1200）、API 积分和 AI 安全审查。门槛不高，不卡 Star 数，核心维护者即可申请。洪明表示 BestBlogs 项目（3.7K Star）正好可以试试。

Ethan Mollick@emollick · 6月5日60

Also, a lot depends on Chinese labs continuing to ship open weights models. If they stop, the frontier falls further and further behind to those who want to use local/fine-tuned models. I think this is possible because open weights may not be a good business model as costs rise.

译此外，很大程度取决于中国实验室继续发布开放权重模型。如果他们停止，前沿将越来越落后于那些想要使用本地/微调模型的人。我认为这是可能的，因为随着成本上升，开放权重可能不是好的商业模式。

Ethan Mollick@emollick · 6月5日70

At least until (if?) rapid improvement stops, it seems less likely someone is going to catch the Big Three AI Labs. Microsoft and Meta released their models, which were fine, but not frontier. SpaceX also hasn't regained its position. Chinese models are improving, but still lag.

译至少在快速进步停止之前（如果会停止的话），似乎不太可能有人能追上三大AI实验室。微软和Meta发布了自己的模型，这些模型还不错，但并非前沿。SpaceX也未能重新夺回其地位。中国模型正在改进，但仍然落后。

meng shao@shao__meng · 6月5日58

所以 agent 并不会替代所有程序员，只会让顶级的程序员生产力翻 20 倍，并淘汰其他程序员，且，集体主义 >>> 个人英雄主义。 -- 太难得且美好无比的经历了，这句话尤其深有同感！这就去体验 Kimi Code 去，看看这个团队一个月的时间到底创造了什么奇迹，令人期待。 https://www.kimi.com/code

译月之暗面旗下Kimi Code完成架构重构并开源。开发团队在一个月内进行封闭开发，频繁在白板前争论迭代，实现集体主义远胜个人英雄主义的工程效率。作者强调，AI Agent不会替代所有程序员，但会让顶级程序员生产力提升20倍，同时淘汰其他程序员。重构过程中，作者花数千美元token进行架构分析与验证，开源后因皮质醇过度分泌病倒。一周消耗整箱红牛，且感性上感觉时间已过一个月，实际仅开源一周多。