我正好有个批量的需求，看来明天的方案可以按照这个方向来做了，多谢~

译FastClaw是一个面向云原生多租户场景的轻量级Agent运行框架。它通过存算分离的架构，让Agent无需常驻，而是根据请求动态挂载sandbox提供服务。实测显示，将托管服务从OpenClaw迁移到FastClaw后，服务器数量从18台降至3台，运营成本降至约1/6。此外，FastClaw代码体积约为OpenClaw的1/40，运行资源占用约为其1/7，支持单二进制分发和秒级启动。这个框架非常适合处理批量任务。

elvis@omarsar0 · 6月1日71

Very good advice on self-improving agents. (bookmark it) This is something I am seeing in my own experiments with coding agents and harnesses for long-horizon tasks. What I have found is that stronger models do not always evolve better agents. The current believe in self-evolving agents is that a bigger model writes better prompt and skill edits, so devs put their best model in the evolver seat. New research shows that intuition is mostly wrong. The work separates two abilities that usually get conflated. Producing harness updates stays flat across model capability, so Qwen3.5-9B writes edits roughly as good as Claude Opus 4.6. Benefiting from those updates follows an inverted-U that peaks at mid-tier models, while weak models fail to even activate the edits and strong models have little headroom left. This is important to understand as it tells you where to spend. Put a cheap model on the evolver and your expensive model on the solver, because the gains land solver-side, not evolver-side. Paper: https://arxiv.org/abs/2605.30621 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译该研究指出，在自我改进的AI智能体中，“更强模型总能写出更好进化器提示词”的直觉是错误的。工作区分了两种能力：产生更新的能力在不同模型间趋于平坦，而从更新中受益的能力呈倒U形曲线，在中等模型处达到顶峰。弱模型无法有效激活更新，强模型则因已处性能高位而获益甚微。因此，成本效益最佳的配置是：使用廉价的中等模型担任“进化器”，而将昂贵的强模型用作“求解器”。

向阳乔木@vista8 · 6月1日74

这是最近我和姚老师都在高频用的写Skill方法论。无论写提示词也好，写Skill也好，最关键的是背后的专业知识上下文。如果自己不懂怎么办？就靠GPT 5.5 Pro、Grok或Gemini DeepResearch类功能搜索整理。自己阅读学习调整，作为上下文交给Meta Skill去生成Skill。后面就是迭代优化打磨。

译该推文分享了一种借助AI创建高质量Skill的方法论。其核心是五步流程：1.定义结果及标准；2.与AI交流对齐标准；3.利用GPT 5.5 Pro、Grok或Gemini DeepResearch等工具进行深度研究，梳理理论与案例；4.将调研成果消化为个人方法论；5.利用meta-skill将其固化，并交由codex或cc生成具体Skill。此过程强调“以教促学”，通过深度理解和持续迭代，最终提升对目标领域的认知。

宝玉@dotey · 6月1日64

你不能指望一个模型在什么地方都是最强的，要像渣男一样才能用好 AI：去爱很多模型，去发掘他们的优秀点，东食西宿，组合着用 Opus 4.8 在写作不太行，但是在 UI 设计，UI 实现比 GPT-5.5 要好很多，推荐你多用用 Claude Design，然后把 Claude Design 设计好的结果分别给 GPT-5.5 和 Opus 4.8 去实现一下看看差异。然后系统设计和计划方面，质量也是很高的，一个复杂一点任务通常要先做 Plan、做系统设计，这方面 Opus 4.8 也是非常好的。另外和你用的 Agent 有关系，每个模型都有自己的特性，需要重新设计提示词反复调优，如果你在 Claude Code 和 Cursor 里面用 Opus 4.8，除了写作，其他任务的效果是没有什么问题的。

译推文建议像“渣男”一样组合使用多个AI模型，发掘各自优势。具体指出 Opus 4.8 在UI设计与实现上优于 GPT-5.5，推荐用 Claude Design 后交由不同模型实现；其在系统设计和计划方面质量也高，但在写作上较弱。在 Claude Code、Cursor 等智能体中使用时，除写作外效果良好。引用内容提及 Opus 4.8 近期负面评价与退订增多，并有人预测 Anthropic 未来可能面临困境。

Chubby♨️@kimmonismus · 6月1日68

For two years the whole conversation was about context window size. Meanwhile the actual problem never moved: agents don't remember anything between sessions. We kept patching it with RAG and manual context injection and calling that memory. HydraDB is going at the layer everyone routed around. One API, sessions that persist, knowledge that compounds across agents. The tell in the $6.5M is who raised it: not a frontier lab. They had the compute to solve persistence and spent it on scaling, so memory became a startup's whole thesis instead of a line item in theirs. Fantastic!

译该推文指出AI领域过度关注上下文窗口大小，而真正的核心问题——AI智能体跨会话记忆缺失——却被忽视。HydraDB 获得 $6.5M 融资，旨在构建一个图原生的上下文基础设施，专为智能体提供持久化会话、可累积知识与行为可观测性。其核心是将内存、NVMe 和对象存储组合为单一的图层，目标实现比现有方案快、成本降低 1000 倍、且高精确度的上下文交付，为智能体赋予“大脑”。

Rohan Paul@rohanpaul_ai · 6月1日60

Better AI agent systems scale by remembering useful feedback, not by spending more compute. The simple mistake is to count tokens, calls, or dollars as if they were all evidence. The authors say those numbers miss the real issue, because 2 runs can spend the same budget while only 1 gets feedback that is correct, new, relevant, and remembered. An agent harness is not just a wrapper around a model; it is a feedback machine that decides what to test, what to trust, what to store, and what to ignore. Their answer is Effective Feedback Compute, or EFC, a score that counts feedback only when it teaches the agent something useful and changes later decisions. They also divide EFC by task demand, because a small lookup task and a messy software-repair task need different amounts of helpful feedback before the agent has enough to solve them. They tested this on synthetic tasks, code tasks with executable tests, real benchmark traces, held-out settings, and a new prospective batch, then compared EFC with raw compute and a strong agent-scaling baseline. The main result is that task-normalized EFC predicted failures much better than raw compute, and in 1 matched-budget test, better feedback raised success from 0.27 to 0.90 while cost and tool calls stayed fixed. ---- Link – arxiv. org/abs/2605.29682 Title: "Scaling Laws for Agent Harnesses via Effective Feedback Compute"

译当前AI智能体的扩展方法常错误地将计算资源消耗等同于学习证据。新研究指出，两次运行消耗相同预算，但反馈的有效性可能天差地别。为此，研究提出了“有效反馈计算”（EFC）指标，仅统计那些正确、新颖、相关且被记住、并能改变后续决策的反馈。研究还结合任务需求对EFC进行归一化。实验表明，任务归一化的EFC比原始计算指标更能预测失败。在一项匹配预算测试中，采用更好反馈的方法将任务成功率从0.27提升至0.90，而成本和工具调用次数保持不变。链接：arxiv.org/abs/2605.29682 标题："Scaling Laws for Agent Harnesses via Effective Feedback Compute"

OpenRouter@OpenRouter · 6月1日75

Video tutorial: how to build an agent capped at $1000/week with a model denylist & custom data retention Uses the new, stackable Guardrail architecture:

译视频教程：如何构建一个每周预算上限为1000美元的智能体，包含模型拒绝列表与自定义数据保留使用了新的、可堆叠的护栏架构： [引用 @OpenRouter]：OpenRouter 上的护栏是市场上最强大的：为您的 AI 流量提供集中式安全与治理预算限制、ZDR、模型与提供商限制、提示词注入防御以及 DLP / 敏感信息检测，分层为您控制的规则！🧵

meng shao@shao__meng · 6月1日62

多 Agent 工作流正在复制人类最大的认知瓶颈——知识困在各自的脑壳里，无法自动同步！人类见面要反复自我介绍：兴趣、背景、目标。知识活在个体脑子里，脑壳不同步。我们习以为常，却在软件里把同一套隔离又建了一遍。每个 Agent 像一个独立的新脑子：各自记忆、各自对你的局部画像。拉远看整套工具，「你」和「项目」都是碎的。 # @pejmanjohn 的真实工作流 · OpenClaw：用作个人助理、想法孵化，了解生活、日程、偏好、论证过程、被否决的分支 · Codex：用作写代码，了解仓库、计划，不知道诞生计划的那场对话 · Claude Code：用作设计、文案，了解同目录仓库，不知道受众、取舍、语气、被拒方案现象：产出可以 competent，同时 context-blind——能干活，却不知道「为什么这样干」。还有物理层：Mac Mini / MacBook / 云端，文件系统、本地状态不同。Git 能同步代码，项目记忆不能。邻居 Agent 一小时前想通的事，这边仍要你再讲一遍。 # 常见反驳及其局限：「把东西写进 Repo」对策：Markdown、计划、ADR、摘要，让每个 Agent 读同一套文件。有用，但只保存「终点」，不保存「旅程」。真正值钱的常在 session 里：争论、弯路、暂时搁置的分支。写成文档 = 压缩对话：留结论，丢路径。几天后你说「还记得吗？其实走另一条路」——你在回到被剪掉的枝，而那枝从未进 markdown。 · Repo = 冰山尖（制品、结论） · Session = 冰山体（推理、取舍、情绪语境）这不等于「全量灌 transcript」：有噪声、敏感、错误、应过期、应留在角色/项目本地的东西。关键是：值得保留的单元，不应锁死在「发生它的那个 Agent」里。 # 主张：Hive Mind，不是更好的笔记人类传知识慢：口述、文档、会议、Slack、误解再澄清。公司里同一事实要像谣言一样爬成基础设施。 Agent 不必受此限：一个学到有用信息，其他可立刻共享——前提是有一层按你所有、可设计的 memory layer。他用公司场景类比：同一领导「同时在十场会」——客户对定价困惑、产品在讨论定价清晰度、销售在解释丢单。人可能要几周才连点；Agent 版可在会还在开时就碰撞。个人尺度更小、形状相同： · 编码时的设计决定 → 五分钟后改善 launch copy · 助理里纠正的偏好 → 改变 coding agent 默认 · 上周半成型想法 → 在合适项目出现时 resurfacing 系统从「一群助手」变成「一个分布式心智 + 多只手」。 # 缺口与方向真实工作不尊重工具边界：笔记 → 产品决策 → 代码 → 设计 → 发布文案 → 支持。多 Agent 因专精有用；瓶颈在 memory 仍碎片化，且随 App、机器、云、本地扩散而加剧。作者认为这是未来一年重要开发面，并点名两个「信号项目」： · GBrain（@garrytan） — 共享知识图 + MCP：接多数据源，图增长，多 Agent 查询而非各囤私货。 · CASS（@doodlestein） — 补 Repo 补不了的：跨工具本地 session 可检索（Codex、Claude Code、OpenClaw、Cursor、Aider 等），因推理常在 session 里。愿景一句话：许多 Agent，一层由你拥有的记忆在下面。

译当前多Agent工作流（如OpenClaw、Codex、Claude Code并行使用）普遍存在“知识孤岛”问题，每个智能体拥有独立的记忆和上下文，导致工作虽能完成但缺乏“为何如此”的整体背景。将知识写入Repo的常见做法只保留了决策结论，却丢失了推理路径和争议过程。作者主张构建一个由用户拥有的共享记忆层（Hive Mind），使一个智能体的发现能即时同步给其他智能体，从而将“一群助手”转变为“一个分布式心智”。GBrain（共享知识图+MCP）和CASS（跨工具本地session检索）被视为解决该问题的方向项目。

Baidu Inc.@Baidu_Inc · 6月1日62

ICYMI: Our latest AI Pulse looked at Daily Active Agents (DAA) — a metric for measuring value in the agent era — alongside our agent portfolio.

译ICYMI：我们最新的 AI Pulse 探讨了日活跃智能体（DAA）——一个衡量智能体时代价值的指标——以及我们的智能体组合。

Microsoft Research@MSFTResearch · 6月1日63

Evaluating agentic behaviors at scale, making the case for repositories over documents, and inviting researchers worldwide to tackle value alignment. Dive into the latest Research Focus. https://msft.it/6010vbyOi

译大规模评估智能体行为，论证代码库优于文档，并邀请全球研究人员共同解决价值对齐问题。深入了解最新研究焦点。

AYi@AYi_AInotes · 6月1日67

看着Codex操控浏览器这种感觉真的太爽了🤤 怎么让Codex操控浏览器干活？ 1️⃣安装 Computer Use 插件 2️⃣ 打开 Codex → 点击左下角 Settings（设置） 3️⃣找到 Computer Use → 点击 Install 安装插件 4️⃣在 Codex 的任意新对话里，直接这样输入：推荐写法： • 以 @Computer 开头 + 任务描述 • 或者直接 @Chrome / @Safari / @Slack / @Notes 等具体应用举个栗子： • @Computer 打开 Chrome，进入 http://x.com，写一条帖子内容是“watching codex control my browser to do things it can't do in the harness is a holy shit experience”，但不要点发布，写完停在我能检查的位置。 • @Computer 帮我打开 Figma，把定价页的按钮颜色改成蓝色，然后截图给我看。 • @Computer 去 Messages 里找到 Brooke 发来的旅行建议，整理成新笔记叫“Yosemite ideas”，再给她回一条消息。使用流程： 1. 输入提示 → 发送 2. Codex 会请求“允许访问 XX 应用” → 点击允许（建议选 Always allow） 3. 它就会开始在你的屏幕上真实操作（会有自己的光标） 4. 你可以随时在 Codex 界面点击 Stop 中止实用技巧 & 注意事项：

译推文介绍了如何通过安装Computer Use插件让Codex操控浏览器及其他应用。用户需在Codex的Settings中安装该插件，然后在对话中以“@Computer”或具体应用名（如@Chrome、@Figma）开头输入任务指令。Codex会请求应用访问权限，允许后即可在屏幕上真实操作（拥有自己的光标），并可随时中止。文中列举了发帖、修改Figma界面、整理消息并笔记等示例。引用@GDB的评论“codex computer use is viscerally compelling”，强调了其直观震撼体验。

Rohan Paul@rohanpaul_ai · 6月1日69

There’s now a platform that hires AI agents for you from 273,000 skills and keeps them running 24/7 while you sleep @lobehub just launched something called a Chief Agent Operator. you don’t build agents. you don’t prompt agents. you just say what needs doing, and it finds the right agent, deploys it, and reports back through Slack, Discord, or whatever you already use In 2015, you hired humans on Fiverr for $5/hr. in 2026, AI is hiring AI like it has a budget and a calendar. Currently most agent-powered workflow asks you to open separate agents, repeat context, assign tasks, check progress, move results between apps, and decide when to escalate work. LobeHub has an operator layer that hires agents from a 273K-skill marketplace, schedules them in the cloud 24/7, and sends reports through the IM apps where teams already work. So their "Task" turns an agent into a background worker: you assign the job once, the agent keeps running, shares progress, moves finished work to Pending Review, and updates its work when you leave comments. 50%+ cost savings and cloud 24/7, no self-hosting The way I understand LobeHub: Claude Code, Cursor, and Manus are powerful agents/tools, but LobeHub is the operator layer that decides who does what, when, and how the work comes back to you. 🧵 1.

译LobeHub发布了名为“Chief Agent Operator”的平台。用户无需自行构建或提示代理，只需提出需求，平台便从一个拥有273,000个技能的市场中自动匹配、部署合适的AI智能体。这些智能体可在云端24/7运行，并通过Slack、Discord等IM工具汇报进展。该平台旨在解决当前工作流中需手动管理多个代理、重复提供上下文等问题，据称可节省超50%成本。其定位是作为统一调度层，管理如Claude Code、Cursor等各类AI代理工具的运作与结果回传。

karminski-牙医@karminski3 · 6月1日56

给大家带来 Qwen3.7-Max 实测! 这次使用了全新的前端测试集, 直接说结论, Qwen3.7-Max 应该是之前测试过的版本中进步特别大的一个, 甚至这次前端测试能完成之前3.6版本不能完成的测试项目. 而且后端能力测试直接刷了个榜一! 它是参与测试的34个模型中唯一一个实现了 IVF-PQ + ADC 索引方案的模型! 直接把后端测试从之前 GPT-5.5-Pro(xhigh) 的4000分拉到了现在的6947分! 不过需要注意的是, 它的测试表现分布并不是很稳定, 所以建议使用中要多review代码, 来达成更高的输出质量. 另外, 本次 Agent 能力也有提升, 达到了第一梯队的水平. 最后, 我还用 Qwen3.7-Max 实现了一个基于AI的磁盘恢复系统, 用来测试模型的实际工程能力. 编写过程很顺畅, 没有遇到阻碍, 大家可以直接看视频里的效果. #qwen #阿里千问 #qwen37max #AIAgent

译Qwen3.7-Max实测显示其前端测试能力较3.6版本有显著进步。后端能力测试在34个参与模型中表现突出，以6947分登顶，远超此前GPT-5.5-Pro（xhigh）的4000分，且是唯一实现IVF-PQ + ADC索引方案的模型。测试也指出其输出分布稳定性有待提升，建议使用中多加review代码。此外，其Agent能力已达到第一梯队水平，并可实际用于构建AI磁盘恢复系统等工程任务。

AK@_akhaliq · 6月1日58

GrepSeek Training Search Agents for Direct Corpus Interaction

译GrepSeek 训练搜索智能体以直接交互语料库

歸藏(guizang.ai)@op7418 · 6月1日60

Codepilot 的重构版本终于好了！ CodePilot 0.55.0-preview.5 相当多的内容优化，UI 整体重构，支持将 Codex 作为 Agent 引擎可以使用 Codex 内置模型也可以自定义模型目前是测试版本没有推送，不排除有大 bug，如果有问题欢迎带日志反馈

译CodePilot发布了0.55.0-preview.5版本。本次更新包含大量内容优化和UI整体重构，并支持将Codex作为其Agent引擎。用户可选用Codex内置模型或自定义模型。该版本目前为测试版，未公开推送，可能存在重大Bug，开发者欢迎用户带日志反馈问题。

MiniMax (official)@MiniMax_AI · 6月1日73

1. Video control + gaming + M3 2. Open weights + massive context ++ strong coding 3. Canceling my weekend plans now

译1. 视频控制 + 游戏 + M3 2. 开放权重 + 海量上下文 + 强编码能力 3. 现在就取消我的周末计划 [引用 @MinLiBuilds]：跟祖传的 20K context 说 bye bye 了。 MiniMax M3 发布了，三个亮点： 1M context、原生多模态、Agentic。我这次做了一次完整评测，使用CC workflow 、 @ZenMuxAI和MiniMax M3：给一张截图，做一个“凡人修仙剑阵对决手势游戏”。要求是：支持双人对决、使用 workflow 拆解任务、加入石头剪刀布机制。 2 小时后，游戏真的跑起来了。这一代LLM的版本答案我知道了： 1M 上下文 + 多模态+ agent 模式。 1M context 是推理深度的基础，多 agent 负责拆任务和执行。

karminski-牙医@karminski3 · 6月1日79

球球你们休息一下，真的测不过来了🥲

译MiniMax 发布新模型 MiniMax M3，声称是首个同时整合三项前沿能力的开源权重模型。这三项能力为：编码与智能体前沿能力，在 SWE-Bench Pro 等基准测试中取得具体分数；MiniMax 稀疏注意力机制将上下文长度扩展至 1M；以及原生多模态能力。模型权重与技术报告预计在约 10 天后发布。

小互@xiaohu · 6月1日53

OpenAI Voice Hack Night 上一个团队的现场 demo 为手机做的 "agentic 操作系统" 这个应该是我们大家都向往的AI助理形态，而且也是会颠覆手机商业模式的一种全新形态因为演示的所有界面都是「即时生成」的，无需调用任何APP界面，也就是苹果的App Store商业模式要完蛋了... 核心思路是是「UI 即系统」：手机没有传统 app，界面由端侧本地模型实时生成(on the fly)，重推理甩给云端 GPT。开发者全程用语音指挥它订机票、删日历日程、查 AI 新闻、发邮件、列待办。中途还翻了车(发邮件因"登录没配置"失败)...

译OpenAI Voice Hack Night现场演示了为手机设计的“AI智能体操作系统”。其核心思路是“UI即系统”——手机没有传统App，界面由端侧本地模型实时生成，复杂推理任务由云端GPT处理。演示中开发者全程语音指挥完成订机票、删日历、查AI新闻、发邮件等操作，但中途因“登录未配置”导致发邮件失败。该演示展示了无需调用App界面的交互形式，可能颠覆传统移动应用生态和商业模式。

Alibaba Cloud@alibaba_cloud · 6月1日62

🚀 Apache RocketMQ just leveled up for AI! Introducing RocketMQ for AI—a new message engine built for long-running sessions, multi-agent workflows & fair resource scheduling. With Lite-Topics, ordered messaging, and intelligent traffic shaping, it solves state loss, cascading failures, and bursty loads. Built at scale by Alibaba Cloud, open-source for all. Learn more: https://int.alibabacloud.com/m/1000413178/ #RocketMQ #AI #CloudNative

译🚀 Apache RocketMQ 为 AI 升级！推出 RocketMQ for AI——一个专为长时间会话、多智能体工作流和公平资源调度构建的新消息引擎。凭借 Lite-Topics、有序消息和智能流量整形，它解决了状态丢失、级联故障和突发负载问题。由阿里云大规模构建，现已开源。了解更多： https://int.alibabacloud.com/m/1000413178/ #RocketMQ #AI #CloudNative

SiliconFlow@SiliconFlowAI · 6月1日57

The #1 coding agent on @OpenRouter, now living in your Discord server Step-by-step setup, model selection & pro tips Here's everything you need with @NousResearch Hermes Agent + SiliconFlow 🧵

译OpenRouter上排名第一的编程智能体，现已入驻你的Discord服务器分步设置、模型选择与专业技巧以下是使用NousResearch Hermes Agent + SiliconFlow所需的一切 🧵

Berryxia.AI@berryxia · 6月1日24

这种小任务爬爬虾的工作交给Qclaw这种还是挺好的，每日有4000K的Tokens可以用啊。不用白不用啊，整理成报告还是可以滴。不然你不用也浪费了啊！

译推文提及AI助手Qclaw（像素风小龙虾形象）日供4000K Tokens额度，适合处理小任务并生成报告。用户@berryxia将其视为能主动干活的数字同事，目前已邀请码内测中。

MiniMax (official)@MiniMax_AI · 6月1日57

excited to team up with @BAI_AGI 🤝 M3 is bringing the brains, now agents get the money rails to operate on🔥

译MiniMax宣布与去中心化金融基础设施项目B.AI达成合作。合作旨在为AI智能体提供经济运作基础。B.AI正在构建金融基础设施，使智能体能够在去中心化经济中进行交易、协调和运作。随着MiniMax在推理、编码、多模态理解和智能体工作流方面推动前沿，此次合作将加速AI原生应用和自主智能体的未来发展。

🚨 AI News | TestingCatalog@testingcatalog · 6月1日47

ClickUp is working on a Cowork feature 👀 > Cowork can help users build, edit, and take action alongside them, and other agents at the same time > Sessions are persistent, so context carries across the entire workday > Multiple users can collaborate in the same Brain session simultaneously Brain Cowork can proactively work in the channel just like a human teammate, drafting docs and setting reminders in the same thread where the team is actively working.

译ClickUp正在开发Cowork功能 👀 > Cowork可以帮助用户构建、编辑并采取行动，同时与其他智能体协同工作 > 会话是持久的，因此上下文在整个工作日中保持连贯 > 多个用户可以在同一个Brain会话中同时协作 Brain Cowork可以像人类队友一样在频道中主动工作，在团队正在工作的同一话题线程中起草文档和设置提醒。

Tencent Hy@TencentHunyuan · 6月1日73

🚀We’re excited to officially release Hy-Memory — a powerful memory plugin built specifically for long-term collaborative Agents like OpenClaw. More than a retrieval tool, it becomes your Agent’s true “Second Brain.” Powered by a 6-layer memory framework × System1/System2 dual system × three-layer evolutionary chain, Hy-Memory lets Agents remember durably, accurately, lightly, and understand you better. ➡️Solves memory fragmentation ➡️70%+ fewer memories ➡️45%+ higher info density per memory ➡️35% less token usage on ultra-long contexts ➡️20% faster memory updates. Upgrade your Agent’s memory today! 📷Project & Download: https://memory.hunyuan.tencent.com/ 📷 OpenClaw Docs: https://memory.hunyuan.tencent.com/openclaw/

译腾讯混元正式发布专为OpenClaw等长期协作智能体（Agent）设计的记忆插件 Hy-Memory。它基于6层记忆框架、System1/System2双系统与三层进化链构建，旨在成为智能体的“第二大脑”。该插件解决了记忆碎片化问题，实现了显著性能提升：记忆数量减少70%以上，单条记忆信息密度提升45%以上，在超长上下文场景中token消耗降低35%，记忆更新速度提升20%。

SenseTime@SenseTime_AI · 6月1日41

We're excited to co-organise the 𝗔𝗴𝗲𝗻𝘁 𝗙𝗼𝗿𝗴𝗲 #𝗔𝗜 #𝗛𝗮𝗰𝗸𝗮𝘁𝗵𝗼𝗻: 𝗦𝘂𝗽𝗲𝗿 𝗔𝗜 𝗘𝗱𝗶𝘁𝗶𝗼𝗻 in Singapore!🛠️ Participants will: ⚡ Build a working AI app in ONE day 🧰 Use real tools: #SenseNova U1 (that's us! 👋), Bright Data, Daytona, Kimi AI, Nosana and Terminal 3 🏆 Demo live & compete for sponsor credit prizes 🤝 Connect with builders, engineers & founders Details: 📅 June 13, 2026 📍 SMU School of Economics, Singapore The event is fully booked — but you can still join the waitlist 👇 🔗 https://luma.com/agentforgesg Also join SenseTime's community for more updates 👇 👾Discord: https://discord.gg/BuTXPHmQub

译商汤科技宣布联合举办Agent Forge AI黑客松（Super AI Edition），活动将于2026年6月13日在新加坡SMU经济学院举行。参与者将使用SenseNova U1、Bright Data、Daytona、Kimi AI、Nosana和Terminal 3等工具，在一天内构建一个可运行的AI应用，并进行现场演示与竞赛，奖品为赞助商积分。该活动已满员，但可加入等待列表。

数字生命卡兹克@Khazix0918 · 6月1日76

http://x.com/i/article/2061360923009564672 # 英伟达发布全新RTX Spark - 个人PC的新时代。今天，英伟达的NVIDIA GTC Taipei 2026，在早上11点，终于如约而至了了。发布了很多的东西，但是有一个东西，是我觉得真正具有历史意义的，必须要单独拿出来的说的。甚至，它让英伟达喊出了，个人电脑诞生40年以来，这次，要重新定义。 “A New Line，A New Beginning” 而这一切，都是因为一个全新的消费级芯片。也就是传说中的，被各种爆料了很久的代号为N1X的芯片。 RTX Spark。就是这么个小小的东西。可以说，这是我在今年上半年最期待的一场AI大会，因为在这个时代，你几乎很难看到，几个巨头联手预热，只为这一场发布会。 PC的新时代。可能也只有英伟达，能攒起这样的局了。那一串奇怪的数字，正是这次老黄演讲的地点，台北流行音乐中心。在看完今天的发布会以后，我相信没有人会不再相信这句话了。整个上半年的AI的进展，几乎都是OpenClaw、Claude Code、Codex等等等等。背后，全部都是云端大模型。但是ToC端的硬件层面，几乎毫无进展。可试问，又有谁不想真正的把大模型和Agent，部署在自己的本地端呢，低延迟、隐私保护、无需网络，不仅仅是进行推理，甚至可以微调，那种自由又安全的感觉，永远会让人迷恋。我们需要新的硬件，也需要新的芯片，需要一些更有趣的想象。而这一切的目光，几乎都聚焦在了这次的NVIDIA GTC Taipei 2026上。终于，RTX Spark如约而至。如果比较关注英伟达或者过去打游戏比较多的朋友，可能对RTX和Spark这两个独立的单词都比较熟。 RTX就是英伟达的消费级产品线，大家见的最多的，就是各种显卡，比如RTX 5080。 Spark其实同源于去年的一个面向开发者的DGX Spark，只不过这次被正式升级成了一整套英伟达全新的业务线。于是，RTX Spark出炉了。直播的时候看的我起鸡皮疙瘩了。整体参数如下。 RTX Spark的底层应该是跟DGX Spark相同的GB10芯片，因为我看这次的旗舰版的参数和之前差不多。最高1 PFLOP的FP4 AI性能，20个CPU核心、6144个GPU核心和128GB的LPDDR5X统一内存。能直接在本地轻轻松松跑120B的模型。这次发布会上，老黄还秀了一把未来所谓搭载RTX Spark的合作品牌方做的电脑。你可以在一台厚度为14mm、未插电的笔记本电脑上渲染一个90GB的3D场景、编辑12K分辨率视频。非常离谱。。。而且，不仅有很薄但性能爆炸的全新笔记本，还有类似于Mac Mini那种功耗很低的小盒子。所以最近联想、HP、ARM大涨啥的，不是没有原因的。能在个人消费级的电脑里，直接用统一内存的方式，以超高速+全面CUDA生态支持，来本地跑AI大模型，这应该是整个PC领域头一遭。而且微软会跟英伟达一起，全面重构Windows系统，让搭载RTX Spark的电脑，原生支持本地Agent的运行。 Windows生态，感觉有救了，英伟达来当救世主了。真的，无愧于个人PC新时代这个比喻。感觉上，明年全新的Windows系列的换机潮要来了。我觉得要理解RTX Spark的历史意义，还是得说一个我觉得大家需要知道的东西：就是到底啥是统一内存？它有啥用？在过去，我们传统的电脑里，一般有两个大家所熟知的最核心的东西，一个叫CPU，一个叫GPU。这个叫CPU，我用AI画了一张。 GPU大家肯定都很熟了，在电脑上，经常就是我们常说的显卡，比如我的这个5080。 CPU和GPU他两呢，各有各的内存，是分开的两块。 CPU用的叫系统内存（RAM），GPU用的叫显存（VRAM），两边要交换数据得通过一条通道来回搬。而统一内存呢，大概就是把这两块合成一块，CPU和GPU共用同一个内存池，谁都能直接访问。苹果把这套玩意搞成了自己的主流，你现在买的Mac，几乎都是统一内存了。但是Windows生态，CPU和GPU都是不同厂家做的做的，受限于过去的生态，过去也有人搞过，但是也都拉了，也从来没有人能把这么多上下游，联合起来大搞特搞。这么大的阵仗，英伟达是第一个。而这个统一内存，对于跑大模型来说，真的几乎就是决定生死的差别。上面我们也说了，传统PC的内存架构是分裂的，CPU有自己的系统内存（RAM），GPU有自己的显存（VRAM），两者之间靠一条叫PCIe的东西连起来。比如，CPU有一块系统内存，我们按64GB RAM来算，GPU又有一块自己的显存，比如RTX5080的16GB VRAM。你想在本地跑一个大模型，比如量化后的70B模型，可能要几十G内存，你的电脑内存看起来有64GB，但GPU真正能高速使用的只有那16GB显存。一旦模型太大，显存放不下，就要把一部分权重放在CPU的系统内存里，GPU每次需要这部分权重，就得通过PCIe去系统内存里拿。 GPU读自己的显存，带宽大概1TB/s，非常快。但是PCIe这条连接CPU内存和GPU的通道，像PCIe 4.0 x16单向带宽只有大概32GB/s，差了三十倍，纯龟速。所以，你的模型还是跑不动，或者跑的很慢。统一内存解决的主要问题就是这个。它可以把CPU和GPU的内存变成一个共享池，比如一台机器有128GB统一内存，那么GPU就可以直接使用这个大池子里的很大一部分。那这样你跑本地大模型的时候，就不再被一张显卡的 16GB、24GB、32GB显存限制得那么死。统一内存在消费级单机上，几乎是跑本地大模型唯一优雅的解法。数据中心就是另一个世界了，那条路跟我们普通消费者就没啥关系了。说到这，那我觉得，你肯定想问，那既然统一内存这么牛逼，我买Mac不就行了，Mac也有128G的统一内存的版本，我买RTX Spark干啥？这是个非常好的问题，有一个答案还是挺重要的，那就是英伟达真正的杀手锏。 CUDA。 CUDA这个词，很多关注AI的朋友应该都听过，但它到底是什么，为什么这么重要，我觉得还是值得认真聊一下。很多人以为CUDA就是英伟达的显卡驱动，或者只是什么GPU加速技术。这么理解也不能说错，但它远不止于此。 CUDA是一整套的生态，最牛逼的生态。底层，它让你能把GPU当成通用计算器来编程，除了渲染画面，还能做数学计算。中层，是一堆被打磨了将近二十年的数学库。cuBLAS做线性代数，cuDNN做深度学习的基础运算，TensorRT做推理优化，NCCL做多卡通信，FlashAttention这类关键优化，CUDA 路线最成熟，很多新特性也会优先围绕NVIDIA GPU做适配。还有老黄这次演讲里反复强调的CUDA-X，为所有的Agent，开放的CUDA库，能让Agent直接调用，这下更离谱了。。。里面有一整套横跨科学计算、工程仿真、芯片设计、基因组学、通信网络、机器人和物理仿真等等的加速库。比如cuLitho做计算光刻，cuOpt做决策优化，cuDSS做稀疏矩阵求解，AI-Q做对结构和非结构化文档做深度研，Warp做可微分物理，Parabricks做基因组学等等等等。用老黄的话说，数学，太美妙了。 CUDA，太牛逼了。上层，就是PyTorch、TensorFlow、JAX，几乎所有深度学习框架的GPU后端，默认且首先支持的就是CUDA。从2006年做到现在，CUDA积累了海量的优化库、教程、代码、生态等等。你今天去看学术论文放出来的开源代码，绝大多数都是在CUDA上写和测的，你今天遇到任何深度学习的问题去搜解法，搜出来的答案也几乎都是默认假设你在用CUDA。整个AI工程界的母语，就是CUDA。这也是Apple一直以来的一个痛点。它的统一内存确实牛逼，但它的GPU用的是Metal，机器学习框架是MLX。社区里绝大部分开源模型、训练代码、微调工具，都是先在CUDA上做好的，然后才慢慢有人移植到MLX，而且推理还好说，但是训练和微调在Apple上的生态到今天还是非常薄弱。所以你现在应该能理解，RTX Spark为什么让整个行业都在期待了。因为在RTX Spark之前，想要CUDA和想要统一内存的能效，这两件事在PC上，是不可兼得的。 RTX Spark第一次把这以前打架的东西捏到了一起。这是以前任何一个单一平台都给不了的组合。这才是RTX Spark真正的最牛逼的地方，也是最大的差异化。运行人类至今创造过的一切，外加Agent。而基于CUDA生态，这次，像Adobe之类的，会针对RTX Spark进行全面优化。比如Adobe直接重新为RTX Spark设计了Photoshop和Premiere的核心架构，拥有高达两倍的速度，而且，还原生支持Agent调用。而且，这一次，英伟达和微软还要一起携手，来重塑Windows上的Agent生态，虽然这块是后面才会跟纳德拉具体直播去聊，但是也透了一点东西出来。包括全新的Windows安全基元，能为Agent的原生构建与运行提供身份认证、隔离防护、策略管控和端到端安全能力。还有英伟达自己的Open Shell。一套面向Agent的Windows PC平台就能看出来了。底层是RTX Spark提供的硬件能力。第二层是Windows的系统，微软会把Windows往Agent时代来改。第三层就是是安全运行环境。也就是Windows security primitives + NVIDIA OpenShell。可以说，未来任何一个想要在本地电脑上跑大模型的开发者或者创作者，从硬件上来说，RTX Spark的机器，几乎就是最优解。如果你还想打游戏，那相信我，你没有别的选择了。仅此一家，只有RTX Spark。 A New Line，A New Beginning。这就是，个人电脑的新时代。它，不止是为你设计的，还是为Agent所设计的。不止兼容着过去，还带着过去。走进了，下一个未来。

译英伟达在GTC Taipei 2026发布消费级芯片RTX Spark。该芯片基于GB10，提供最高1 PFLOP的FP4 AI性能、20个CPU核心、6144个GPU核心及128GB LPDDR5X统一内存，支持在本地运行120B参数的大模型。其核心突破在于首次将统一内存架构与CUDA生态结合于消费级PC，解决了以往统一内存在AI开发生态上的短板。微软将重构Windows以原生支持本地AI智能体运行。这被称为个人电脑诞生40年来“重新定义”的时刻。

SenseTime@SenseTime_AI · 6月1日29

We're excited to co-organise the 𝗔𝗴𝗲𝗻𝘁 𝗙𝗼𝗿𝗴𝗲 #𝗔𝗜 #𝗛𝗮𝗰𝗸𝗮𝘁𝗵𝗼𝗻: 𝗦𝘂𝗽𝗲𝗿 𝗔𝗜 𝗘𝗱𝗶𝘁𝗶𝗼𝗻 in Singapore!🛠️ Participants will: ⚡ Build a working AI app in ONE day 🧰 Use real tools: Bright Data, Daytona, Kimi AI, Nosana, Terminal 3 — and #SenseNova U1 (that's us! 👋) 🏆 Demo live & compete for sponsor credit prizes 🤝 Connect with builders, engineers & founders Details: 📅 June 13, 2026 📍 SMU School of Economics, Singapore The event is fully booked — but you can still join the waitlist 👇 🔗 https://luma.com/agentforgesg Also join our community for more updates 👇 👾Discord: https://discord.gg/BuTXPHmQub

译活动名为“Agent Forge AI Hackathon: Super AI Edition”，将于2026年6月13日在新加坡SMU经济学院举办。参与者需在一天内构建可运行的AI应用，可使用的工具包括Bright Data、Daytona、Kimi AI、Nosana、Terminal 3以及主办方SenseNova的U1模型。活动现场将进行项目演示并角逐赞助商提供的奖金，同时提供与开发者、工程师及创始人交流的机会。该活动名额已满，但仍可加入候补名单。

Rohan Paul@rohanpaul_ai · 6月1日59

Jensen Huang just said this is the greatest era in history to build software. AI agents will not kill software. They will do the exact opposite: create a massive new wave of software demand. at NVIDIA GTC Taipei 2026 "Click and type. We now replace that with explaining to the AI what we want, our intent, and the AI generates the code or uses tools to produce the necessary output. This is how computers are going to work in the future. This is Agentic AI. For two years, we've been building toward this, and now it has arrived. One of the big breakthroughs, of course, is tool use. A lot of people have said, “Jensen, AI is coming. Agentic AI is coming. Therefore, all the software companies are going to go out of business.” This is exactly the opposite. Because there are going to be so many agents, the world is no longer limited by the number of people. Therefore, those agents are going to use more tools than ever. This is actually an incredible time to be a software company. But the software has to be presented to the agent in a way that the agent can use it. This is a big breakthrough. And in fact, what we have done, as you know, what Nvidia’s treasure..." ---- From 'NVIDIA' YT channel (link in comment)

译黄仁勋在NVIDIA GTC台北2026上表示，我们正处在构建软件的最伟大时代。他断言，AI智能体不会消灭软件，反而会创造巨大的新软件需求浪潮。核心在于，未来计算机的交互将从“点击和输入”转变为向AI解释意图，由AI生成代码或使用工具完成输出，这就是智能体AI。随着智能体数量激增，它们对工具的使用将前所未有。这对软件公司是非凡机遇，但关键突破在于，软件必须以智能体能使用的方式呈现。

MiniMax (official)@MiniMax_AI · 6月1日74

This is hype 🔥 M3 live on @OrcaRouter on day one go run it (50% off the first week 👀)

译这很火🔥 M3 首日上线 @OrcaRouter 快去跑起来（首周五折👀）

OpenClaw🦞@openclaw · 6月1日72

In collaboration with @nvidia, we’re open-sourcing a dataset of security scans for 67,453 ClawHub skills on @huggingface: - NVIDIA SkillSpector flagged 1/2 for agentic risk - Only 0.31% were malicious - No two scanners agreed on more than 8.5% of risks https://openclaw.ai/blog/openclaw-nvidia-skill-security

译与 @nvidia 合作，我们开源了一个包含 67,453 个 @huggingface 上 ClawHub 技能安全扫描的数据集： - NVIDIA SkillSpector 标记出 1/2 的智能体风险 - 仅 0.31% 为恶意 - 没有两个扫描器在超过 8.5% 的风险上达成一致 https://openclaw.ai/blog/openclaw-nvidia-skill-security

Berryxia.AI@berryxia · 6月1日74

用2周用Three.js + 实时语音AI，把盛唐长安做成了能走进去对话的3D世界如果你能走进一座会说话的盛唐长安城，和李白对诗、让AI导游带路、在天枢府听智机使讲解，会是什么体验？我们花两周高强度开发，把这个想法做成了一个可在线玩、可开源复用的浏览器3D互动项目。在线体验：https://andyhuo520.github.io/tang-changan/ GitHub开源：https://github.com/andyhuo520/tang-changan 项目核心亮点： - 用WASD真正“走进”长安城，而不是只能转相机看模型 - 真实语音对话：按住麦克风就能和李白、杜甫、智机使聊天 - 融合诗词小游戏、珍宝馆、AI展馆，把历史和AI能力变成可玩体验 - 全开源，普通创作者和初学者也能复刻学习整个项目从一个朴素想法开始：把盛唐长安做成一个可漫游、可对话、可游戏、可展示AI能力的3D世界。开发过程分为9个阶段，我把最关键的干货和踩坑经验都写出来了： 1. 先搭出一个能看的低多边形长安沙盘（Three.js核心搭建） 2. 加入WASD游戏模式，让玩家真正“走进”长安。 3. 添加大量NPC和小游戏（飞花令、对对联、猜谜等唐风玩法） 4. 打造珍宝馆、诗画展厅，把文化内容变成可互动展厅。 5. 把AI品牌做成唐风“天枢府 / AI展馆”，让现代AI出现在盛唐场景里 6. 接入Agora实时语音Agent，实现真正的语音对话（最难也最核心的部分）。 7. 加上角色头像、视频面板、古风BGM，提升沉浸感 8. 解决3D尺度、浏览器缓存、语音账号等常见坑 9. 最终部署到GitHub Pages，让任何人一键体验语音部分我们用了Agora ConvoAI + Persona设计，每个NPC（李白、杜甫、王维、智机使等）都有独立性格、音色和对话风格，不是千篇一律的机器人。普通用户直接点链接就能玩： WASD移动 → 靠近NPC按E对话 → 进入展馆互动 → 语音聊天开发者想复刻也很友好：代码模块化清晰，前端Three.js + 后端FastAPI分开，文档和踩坑记录都很完整。我们最终做到的不是一个普通的3D展示页，而是一个小型数字文旅 + AI能力样板：把历史文化游戏化，把AI能力场景化，把开源项目做成能真正分享的作品。想体验盛唐长安的AI版吗？点链接进去试试，和李白用语音对一句诗，或者让智机使给你讲解实时语音技术。感兴趣的朋友欢迎点赞、评论你最想玩的环节，或者直接去GitHub看代码复刻。 #Threejs

译开发者使用Three.js，耗时两周构建了可在线体验的盛唐长安3D互动项目。核心功能包括通过WASD模式在城市场景中自由漫游，并接入Agora ConvoAI实时语音Agent，使用户能与李白、杜甫等NPC进行真实语音对话。项目还融合了飞花令等诗词小游戏及AI展馆，将历史文化与AI能力场景化结合。该开源项目（GitHub Pages）代码结构清晰，旨在为创作者提供一个可复用的数字文旅样板。

宝玉@dotey · 6月1日70

自从 Claude Design 可以共享额度，可以用的次数多了很多，但 Token 消耗还是很厉害。不过做出来的东西真的很好，真的强烈建议你多用用，这是我近期用的最好的 Agent 产品之一。一个技巧，你可以导入现成的 Design System，再让它设计，风格一致性会好很多，用一些成熟的 Design System，做出来的东西也更高端大气一些。我个人推荐试试 Adobe 的 Spectrum 2 design system, 用下面的 URL 就可以导入，导入后就可以让它设计时基于 https://github.com/adobe/react-spectrum 这里可以找到更多的设计系统： https://github.com/alexpate/awesome-design-systems

译Claude Design 现与 Claude AI 网站、Claude Code 共享额度，用起来更便捷。其产品设计和UI设计能力不错。一个提升设计一致性的技巧是先导入成熟的Design System再进行设计，例如推荐Adobe的Spectrum 2 design system。此外，GitHub上有更多设计系统资源可参考。

MiniMax (official)@MiniMax_AI · 6月1日57

M3 live in Hermes Agent day zero 🔥 shows up in your model picker automatically shoutout @Teknium & the Nous team

译M3 在 Hermes Agent 首日上线 🔥 它会自动出现在你的模型选择器中感谢 @Teknium 和 Nous 团队

MiniMax (official)@MiniMax_AI · 6月1日69

@CreaoAI moving fast 🔥 M3's live on day one, go try it

译@CreaoAI 行动迅速 🔥 M3在第一天就上线了，快去试试 [引用 @CreaoAI]：MiniMax M3现已在CREAO上线。采用稀疏注意力推理，在长上下文下解码速度最高提升15.6倍，专为需要处理海量代码库、文档和转录文本而不减速的智能体打造。从模型下拉菜单中选择M3即可运行。⚡

Berryxia.AI@berryxia · 6月1日73

http://x.com/i/article/2060375125825036288 # 用Claude花了2周时间+800美金打造的大唐语音互动3D小游戏的教程。这是一份面向普通读者、创作者和初学开发者的科普教程。它不假设你已经懂 Three.js、实时语音或 AI Agent，而是从一个朴素问题开始： > 如果一座盛唐长安城不是只能观看，而是可以走进去、和李白对诗、和导游问路、在 AI 展馆里听智能讲解，会是什么体验？我们用两周左右的高强度开发，把这个想法做成了一个可在线访问、可开源复用的 Web 3D 互动项目。项目地址： - 在线体验：https://andyhuo520.github.io/tang-changan/ - GitHub：https://github.com/andyhuo520/tang-changan > 上图是我们为语音 NPC 面板，使用GPT-image-2 模型生成的素材，准备的一组角色视觉素材。项目里每个核心角色都可以拥有自己的头像、视频开场和待机状态，让“和 NPC 说话”更像在游戏里见到一个具体的人。 ## 1. 最初的设计目标一开始，我们并不是想做一个普通的“3D 展示页”。我们的目标更像一个小型数字文旅实验： 1. 它要像游戏一样能玩。玩家可以进入场景，用 WASD 操控角色，而不是只能转动相机看模型。 1. 它要像博物馆一样能逛。场景里有宫殿、朱雀大街、珍宝馆、诗画展厅、AI 展馆。 1. 它要像真实导览一样能说话。玩家不是点几个固定按钮，而是能按住麦克风和 NPC 语音交流。 1. 它要有盛唐气质。色彩、建筑、人物、诗词、小游戏都围绕“长安”“诗酒”“万邦来朝”展开。 1. 它要能开源。最终要能部署到 GitHub Pages，让别人直接体验，也能阅读代码学习。用一句话概括： > 我们想把“盛唐长安”做成一个可漫游、可对话、可游戏、可展示 AI 能力的浏览器 3D 世界。 ## 2. 第一阶段：先搭出一个能看的长安沙盘任何复杂互动项目，第一步都不是做功能，而是先让“世界存在”。我们先用 Web 3D 技术搭建了一个低多边形风格的长安微缩沙盘。核心技术是 Three.js：它可以在浏览器中渲染 3D 场景，不需要用户安装客户端。这一阶段的重点是： - 建立主场景、相机、灯光、后期效果； - 搭建朱雀大街、宫殿、城门、市集、塔楼、河道等地标； - 用低多边形材质保持性能，让普通浏览器也能跑； - 加入昼夜、季节、天气、雾效等氛围变化； - 做出俯瞰视角，让它第一眼像一张“会动的唐代城市地图”。这一阶段看起来像“美术搭建”，但其实它决定了后续所有玩法的边界：哪里能走、哪里能互动、哪些地标能承载剧情。 ## 3. 第二阶段：把展示页变成可玩的游戏只有沙盘还不够。我们希望玩家不是“看长安”，而是“走进长安”。于是项目进入第二阶段：加入 WASD 游戏模式。玩家点击「走进长安」后，会进入角色选择： - 世子 - 商贾 - 侍女 - 游侠每个角色有自己的头像、默认名字、初始钱包和物品。进入游戏后，玩家可以： - 用 WASD 移动； - 用鼠标调整视角； - 靠近 NPC 按 E 对话； - 靠近店铺或展馆按 F 触发互动； - 查看钱包、体力、行囊、任务提示。这一阶段真正完成了从“3D 页面”到“小游戏”的转变。 ## 4. 第三阶段：让 NPC 不只是摆设很多 3D 场景的问题是：建筑很漂亮，但里面没有生活。所以我们给城市加了大量 NPC 和小游戏，让它变得有烟火气。 4.1 NPC 互动玩家靠近路人、文士、商贾、仕女、官员、僧人等 NPC，可以触发对话。不同 NPC 会有不同身份和口吻。 4.2 诗词小游戏我们设计了偏唐风的互动玩法： - 飞花令：给出一个关键字，玩家从诗句中选择含有该字的一句； - 对对联：给出上联，从多个候选句里选下联； - 猜谜：用民俗谜语和长安史实做选择题； - 猜拳：快速轻量的小互动，配合随机奖励。小游戏不是单纯为了“好玩”，而是让诗词和历史知识变成可参与的体验。 ## 5. 第四阶段：做珍宝馆与诗画展厅为了让项目更像数字文旅产品，我们加入了展厅系统。玩家可以进入不同展馆，欣赏诗画、珍宝和历史主题内容。例如： - 《步辇图》 - 《历代帝王图》 - 《簪花仕女图》 - 诗词与书画主题展 - 丹青馆 DIY 展厅展厅的作用是把“游戏”与“文化内容”连接起来：玩家既可以玩，也可以看展、听讲解、理解背后的历史语境。 ## 6. 第五阶段：加入 AI 展馆项目最特别的一部分，是我们把现代 AI 品牌做成了唐风展馆。我们设计了一个“天枢府 / AI 展馆”概念：在盛唐长安里出现一个古今穿越的科技坊市。不同 AI 品牌不再只是 logo，而是变成一座座唐风殿宇，每个展馆都有自己的讲席和风格。其中 Agora 馆作为核心语音互动展馆，承担了实时语音能力展示。 > 在游戏场景中，Agora 不只是一个外部服务名，而是被设计成一座可进入、可互动、可召唤智机使讲解的“Agora 馆”。这能帮助非技术用户理解：语音 AI 不只是后台 API，它可以成为一个场景化体验。在视觉上，我们做了： - 唐风殿宇； - 品牌 logo 立柱； - 发光牌匾； - 展馆说明牌； - 可交互门口热点； - 现代科技与古代街景混合的小彩蛋。在叙事上，我们把它包装成： > 大唐长安出现了一座“智机府”，各路 AI 智机使在这里讲解不同的智能能力。这样做的好处是：AI 展示不再像一个冷冰冰的产品页面，而是变成了玩家在游戏世界里能探索的一部分。 ## 7. 第六阶段：接入实时语音 Agent 这是整个项目最核心、也最难调的一部分。我们的目标不是让 NPC 弹出文字框，而是让玩家真的能用语音和角色交流。 7.0 开发前置：安装 Agora Skills / Agora CLI 在这个项目里，Agora 语音能力并不是直接把 App ID 写死在网页里，而是通过 Agora Skills + Agora CLI 完成项目登录、能力检查、环境变量写入和 ConvoAI 就绪检查。你可以把它理解成： > Agora Skills 负责告诉 Agent 怎么集成 Agora；Agora CLI 负责登录账号、绑定项目、写入 .env.local。更具体地说，这里有两层：层级作用谁来使用Agora Skills给 AI Coding Agent 的集成说明书，告诉 Agent 应该用官方 quickstart、怎么检查 ConvoAI、怎么处理 token 和环境变量Cursor / Claude / AgentAgora CLI真正执行登录、项目选择、能力检查、环境变量写入的命令行工具开发者和 Agent 都会用。所以，“安装 Agora Skills”在实际复现时，通常会落到两件事： 1. 确保你的 AI 开发环境已经有 Agora Skill / Agora 参考资料； 1. 在本机安装并登录 agora CLI，让项目可以拿到有效的 Agora 项目配置。第一步：确认是否已有 Agora Skill / Agora CLI 如果本机还没有 agora 命令，可以安装：安装完成后，重新打开终端，确认命令存在：如果能输出路径和版本号，说明 CLI 已经进入你的 PATH。安装后检查：如果终端能看到 Agora CLI install is healthy，说明 CLI 本身可用。 > 如果 agora 命令不存在，通常是 shell 没有加载新的 PATH。可以重开终端，或检查安装脚本输出里提示的 PATH 配置。第二步：登录 Agora 账号 agora login 命令会打开浏览器完成授权。正常流程一般是： 1. 终端打印一个 https://sso2.agora.io/... 登录链接； 1. 浏览器打开 Agora SSO 页面； 1. 登录并授权 Agora CLI； 1. 浏览器回调本机 localhost； 1. 终端显示 Session stored 和 Status: authenticated。登录后检查状态：你希望看到类似：如果这里显示未登录，重新执行 agora login。如果登录成功但后面 agora project list 返回： ACCOUNT_BLOCKED 说明不是代码问题，而是 Agora 账号或控制台权限被限制。此时需要换一个可用账号，或先解除账号限制。第三步：选择或创建 Agora 项目登录后先列出项目： agora project list 如果你已经有项目，可以选择它： agora project use <project-id-or-name> 如果还没有项目，可以通过 Agora Console 创建，或用 CLI 初始化 quickstart 项目：这个命令会做三件事： - 创建或绑定一个 Agora 项目； - 克隆官方 quickstart； - 写入本地 .env.local。本项目是从 official quickstart 的思路继续改造的：先确保官方 demo 能跑，再把它嵌入到《大唐长安》的 3D 场景中。第四步：检查项目是否支持 ConvoAI 实时语音 Agent 依赖 Agora 的 Conversational AI 能力。可以运行：如果提示没有启用，可以尝试：然后再次运行 doctor 确认。你希望看到的结果是 project doctor 没有 blocking issue。它不等于“语音一定已经通了”，但至少说明控制台项目配置层面准备好了。第五步：把 Agora 项目凭据写入语音后端本项目的语音后端读取：其中最关键的是：可以让 Agora CLI 自动写入： > 注意：AGORA_APP_CERTIFICATE 是敏感信息，不要提交到 GitHub。项目的 .gitignore 已经忽略 .env.local。写入后可以检查文件是否存在，但不要把证书贴到公开地方：如果只是自查证书是否存在，可以看键名，不要打印完整值：第六步：启动语音服务后端：前端 iframe：主游戏默认会把语音面板指向： http://localhost:3000 如果线上部署语音服务，可以通过 URL 参数指定： ?voiceOrigin=https://你的语音前端域名第七步：验证语音链路先验证后端能返回 Agora 配置：再验证能启动一个 agent：如果返回 agent_id，说明后端成功请求 Agora 创建了一个语音 Agent。最后打开游戏，进入 Agora 馆，点击右侧语音面板，观察三件事： - 面板不再一直停在“召唤中”； - 麦克风能采集声音； - AI 有返回语音和字幕。 > 语音功能最终不是孤立存在的，它会和玩家身份、NPC、展馆、字幕、头像面板一起工作。玩家看见的是“角色在长安城里与智机使对话”，背后才是 RTC、ConvoAI 和 Agent 编排。常见错误与排查如果看到：通常不是前端按钮坏了，而是 Agora 项目或凭据不可用。优先检查： - agora auth status 是否已登录； - agora project list 是否能正常列出项目； - 当前账号是否被限制或 blocked； - agora project doctor --feature convoai 是否通过； - .env.local 里的 App ID / Certificate 是否来自同一个项目； - 修改 .env.local 后是否重启了后端。可以按这个顺序排查：如果 CLI 登录正常，但 project list 返回 ACCOUNT_BLOCKED，说明账号侧被限制，代码无法绕过。需要换可用账号或解除 Agora 控制台限制。 7.1 基本架构项目被拆成两部分： - han-diorama 浏览器 3D 主场景负责 Three.js、WASD、NPC、展馆、小游戏 - tang-voice-agent - 语音智能体子项目 - 前端是 Next.js iframe - 后端是 FastAPI / Python - 负责 Agora ConvoAI、Persona、语音对话主场景里点击 NPC 后，会打开右侧语音面板。这个面板本质上是一个嵌入的 iframe，它和主游戏通过 postMessage 通信。 7.2 一次语音对话发生了什么当玩家按住麦克风说话时，大致流程是：玩家麦克风 ↓ 浏览器 RTC 上行 ↓ Agora 实时音频链路 ↓ ConvoAI：语音识别 → 大模型思考 → TTS 合成 ↓ AI 声音通过 RTC 回到浏览器 ↓ 游戏里 NPC 头像、字幕、状态同步变化普通用户看到的是“我和李白说话了”。技术上背后是实时音频、语音识别、大模型、语音合成和游戏状态同步一起工作。 7.3 为什么要做 Persona 如果所有 NPC 都用同一个提示词，它们就会像同一个机器人。所以我们给不同角色做了不同 Persona： - 李白：诗酒豪放； - 杜甫：沉郁关怀； - 王维：山水空灵； - 周引之：导游身份，可以带路； - 苏阮卿：画学博士，负责讲画； - 智机使 · Agora 馆：讲解实时语音与 ConvoAI。每个 persona 有自己的： - 名字； - 身份； - 场景位置； - 说话风格； - TTS 音色； - 可注入的场景上下文。这让语音功能不只是“能说话”，而是和游戏世界绑定在一起。 ## 8. 第七阶段：做角色头像、视频面板与 BGM 为了让语音互动更有“面对面”的感觉，我们做了左侧角色 portrait 面板。它支持： - idle.jpg / idle.png 静态头像； - idle.mp4 静音循环视频； - intro.mp4 带原声开场视频； - AI 说话时切换 talking 状态； - 没有素材时自动 fallback。后来又加入了古风 BGM： - 默认循环播放古琴 / 古筝曲； - 支持静音、音量、切歌； - 当玩家打开语音对话时，BGM 自动降低音量，避免盖住人声。这一步看似是“包装”，但对用户体感影响很大。没有声音和头像时，AI 对话像工具；有了角色视频、字幕和背景音乐后，它更像游戏里的角色。 ## 9. 第八阶段：解决视觉与尺度问题开发中遇到过一个典型问题：AI 展馆一开始太大，放到城市里会出现“浮在地面上”“镜头一转消失”的情况。问题根源是单位尺度不一致： - 主城使用的是游戏世界单位； - AI 展馆早期按更大的现实尺度设计； - 结果展馆实际超出了主城地面范围。解决方式是： - 把天枢府缩放到适合主城的面积； - 重新设置展馆中心点； - 调整 3×3 展馆布局； - 缩小 logo 立柱、牌坊、院墙和展馆模型； - 确认所有互动点都落在可见地面内。这个经验很重要：3D 项目里，美术好看不够，尺度一致才是可玩的前提。 ## 10. 第九阶段：部署到 GitHub 项目完成后，我们把前端开源部署到了 GitHub。前端 han-diorama 是静态 Web 项目，适合用 GitHub Pages 托管。部署流程：然后使用 GitHub Actions 自动发布 Pages。线上地址： https://andyhuo520.github.io/tang-changan/ 需要注意的是： - GitHub Pages 只能托管静态前端； - 实时语音后端 tang-voice-agent 需要单独部署； - 本地开发时可以用 http://localhost:3000 作为语音 iframe； - 线上如果要启用语音，需要给游戏传入可访问的语音前端地址。 ## 11. 普通用户怎么体验打开： https://andyhuo520.github.io/tang-changan/ 进入页面后可以： 1. 在沙盘视角浏览盛唐长安； 1. 点击「走进长安」； 1. 选择角色：世子 / 商贾 / 侍女 / 游侠； 1. 用 WASD 移动角色； 1. 靠近 NPC 按 E 对话； 1. 靠近展馆或店铺按 F 互动； 1. 进入珍宝馆看诗画； 1. 进入 AI 展馆体验语音智能体。常用按键：按键作用WASD移动鼠标调整视角E与 NPC 对话 / 触发小游戏F进入展馆 / 开店 / 触发场景Esc关闭语音面板 ## 12. 开发者如何理解项目结构项目可以分成几层： han-diorama/ index.html 页面结构与 UI 容器 scene.js 主 3D 场景、游戏模式、NPC、语音面板 modelLoader.js 角色模型加载 assets/ logo、头像、BGM、预览图 portraits/ NPC 视频 / 头像素材 murals/ 画廊素材 lib/ content/brand-data.js AI 展馆品牌数据 world/brand-plaza.js AI 展馆 / 天枢府 world/gallery-hall.js 珍宝馆 / 展厅 world/diy-hall.js 丹青馆 DIY ui/voice-intent.js 语音意图路由 hero/ 大明宫、东西市、曲江等地标模块 tang-voice-agent/ web/ Next.js 语音前端 iframe server/ FastAPI 后端 server/src/personas/ 角色 Persona 最核心的思想是： > 3D 主项目负责“玩家在哪里、看见什么、能做什么”；语音子项目负责“玩家说什么、AI 怎么回答、声音怎么回来”。 ## 13. 这次开发踩过的坑 13.1 浏览器缓存浏览器会缓存 JS 和图片。我们在模块路径后面加版本参数： scene.js?v=20260529-agora-only 这样每次重要更新后，线上用户能加载到新代码。 13.2 视频自动播放限制浏览器通常不允许带声音的视频自动播放。解决方式： - 先尝试播放 intro.mp4； - 如果被浏览器拦截，就退回静音播放； - 在用户点击页面后再解锁音频。 13.3 语音项目账号状态实时语音不只是代码问题，还依赖 Agora 账号、项目状态、ConvoAI 开通状态和 token 鉴权。如果出现： CAN_NOT_GET_GATEWAY_SERVER: no active status 401 Invalid token 通常说明： - Agora 账号或项目被阻断； - App ID / Certificate 不匹配； - 项目没有开通对应能力； - 本地 .env.local 还是旧凭据。这是开发 AI 语音项目时最容易误判的地方：页面看起来是“麦克风开了”，但其实浏览器和 Agent 都没有真正加入频道。 13.4 3D 尺度展馆、城市、NPC、地面如果不在同一尺度体系里，就会出现漂浮、穿模、消失、点不到的问题。解决办法不是不断调相机，而是回到世界坐标，统一单位、位置和可交互范围。 ## 14. 如果你想复刻一个类似项目可以按这个顺序做： 1. 确定主题先选一个世界观，例如唐代长安、宋代汴梁、敦煌石窟、未来博物馆。 1. 搭建一个能看的 3D 场景不要一开始就做大地图。先做一个核心区域，保证 30 秒内能看懂。 1. 加入一个可控角色 WASD + 简单碰撞 + 一个 NPC，就足够验证“游戏感”。 1. 设计 3 个互动点一个 NPC、一个展馆、一个小游戏。不要一开始做 20 个。 1. 接入语音 Agent 先用一个默认 persona 跑通，再扩展多个角色。 1. 把内容模块化品牌数据、NPC 数据、展馆数据都写成配置，不要散落在代码里。 1. 部署上线前端用 GitHub Pages / Vercel，后端用可公网访问的服务器。 1. 最后再做包装 BGM、头像、视频、封面图、教程、X 推文、GitHub README 都属于传播层。 ## 15. 我们最终做成了什么最终，这个项目不只是一个 3D 页面，也不只是一个语音 demo。它更像一个小型样板： - 文旅内容如何游戏化； - 历史知识如何互动化； - AI 能力如何场景化； - 语音 Agent 如何融入 3D 世界； - 开源项目如何从 demo 变成可分享作品。如果要用一句话总结整个开发过程： > 我们不是把 AI 放到一个按钮里，而是把 AI 放进了一座城。这就是《大唐长安 · 智机府》的核心。

译本教程介绍了如何构建一个名为《大唐长安》的Web 3D互动项目。项目基于Three.js搭建低多边形风格的长安城沙盘，玩家可通过WASD模式在其中漫游探索。核心玩法包括与多种NPC进行语音对话、参与飞花令等诗词小游戏。项目集成了Agora实时语音能力，通过Agora Skills（技能）和Agora CLI工具完成Agent集成与环境配置，使玩家能通过麦克风与李白等角色实时语音交流。此外，项目还设计了将现代AI品牌融入游戏的唐风AI展馆。

MiniMax (official)@MiniMax_AI · 6月1日76

M3 on @OpenRouter same day we dropped it 🔥. 1M context, frontier coding + agentic, native multimodal. 50% off the first week.

译M3在我们发布当天就登陆了OpenRouter 🔥。 100万token上下文，前沿编码+智能体能力，原生多模态。首周半价。

MiniMax (official)@MiniMax_AI · 6月1日71

M3 on @AskVenice, available anonymously 🔥 open-weight, frontier coding + agentic, 1M context, native multimodal. Live on day one

译M3现已在@AskVenice上线，支持匿名使用🔥 开源权重，前沿编码与智能体能力，1M上下文，原生多模态。首日即上线

MiniMax (official)@MiniMax_AI · 6月1日79

Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities - Coding & Agentic Frontier: 59.0% SWE-Bench Pro, 66.0% Terminal Bench 2.1, 34.8% SWE-fficiency, 28.8% KernelBench Hard, 74.2% MCP Atlas - MiniMax Sparse Attention scales context to 1M - Natively Multimodal from Step Zero API: http://platform.minimax.io Token Plan: https://platform.minimax.io/subscribe/token-plan 🚀New! MiniMax Code: http://code.minimax.io Weights & Tech Report in ~10 Days

译介绍 MiniMax M3：首个融合三大前沿能力的开源权重模型 - 编码与智能体前沿：59.0% SWE-Bench Pro，66.0% Terminal Bench 2.1，34.8% SWE-fficiency，28.8% KernelBench Hard，74.2% MCP Atlas - MiniMax Sparse Attention 将上下文窗口扩展至 1M - 从零开始原生多模态 API：http://platform.minimax.io Token 计划：https://platform.minimax.io/subscribe/token-plan 🚀新！MiniMax Code：http://code.minimax.io 权重与技术报告将在约 10 天内发布

meng shao@shao__meng · 6月1日67

HuggingFace 发的 AI Agent 词汇表作者 @SergioPaniego @ariG23498 https://huggingface.co/blog/agent-glossary 做了一个信息卡便于保存随时查阅。

译HuggingFace 发布的 AI Agent 词汇表作者 @SergioPaniego @ariG23498 https://huggingface.co/blog/agent-glossary 制作了一张信息卡，方便保存随时查阅。

宝玉@dotey · 6月1日69

我经常用 /goal ，主要用法： 1. 写一个 Checklist，让它一条条勾选比如我逆向代码，会先用脚本做语法解析把完整的list整理成个json文件，让它分批去处理，每次处理完一批就更新json文件 2. 写一个设计文档，分成几个阶段跟AI一起写一份详细设计文档，设计好了后让 AI 划分好 Phases，设定好每个 Phase 的验收条件，一个 Phase 一个 Phase 的执行，每个 Turn 都让它自己 commit

译推文分享了使用/goal的两种核心方法：一是将逆向代码等复杂任务拆解为清单，例如先通过脚本解析生成JSON文件，再让AI分批处理并实时更新状态；二是与AI共同编写设计文档，划分成具体阶段，设定验收条件后逐步执行，每个阶段完成后自动提交。这两类场景强调将AI作为结构化任务执行助手，通过明确的检查点与流程控制提升工作效率。引用部分提及该功能正在被用户尝试，并征集最佳实践案例。