AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 3062 条
全部一手资讯X论文
标签「Agent」清除
Chubby♨️@kimmonismus · 5月18日55

Sunday edition of Superintelligence - our second "Intelligence from the Community" piece is live. This week: Patrick Hussey on the governance gap in the multi-owner agent economy. Agents are already destroying production systems, ignoring stop commands, and sustaining collusive pricing in simulations - and there's no public, cross-party infrastructure to even track it. He maps the five properties any oversight regime needs to address and why deterministic governance tools won't transfer to probabilistic actors. You can read the entire article for free. And if you also want to publish an exciting article that reaches over 220k readers, apply using the form :)

译Superintelligence 社区文章指出,多所有者代理经济存在治理缺口。智能体已出现破坏生产系统、无视停止指令、在模拟中维持共谋定价等问题,且缺乏公共的跨党派基础设施进行追踪。文章分析了任何监督机制需具备的五项特性,并强调确定性的治理工具无法直接适用于概率性行动的智能体。本期主要文章标题为《代理经济没有黑箱》,同时通讯还包含热点AI新闻与信息图等内容。

歸藏(guizang.ai)@op7418 · 5月18日49

Anthropic 官方发布的 Skill 构建指南 我用 AI 翻译了一个双语版本,放下面了

swyx 🇸🇬 AIE Singapore!@swyx · 5月18日58

we do not post AIE videos with bullshit brainrot hype lingo, and this is the consequence: the entire AIE back catalog is being reposted by "influence operators" almost daily, without credit to speakers like @trq212 or @aidotengineer if you see these just do a small favor of tagging and giving credit. community note not needed, let them make their bags, but i just request that the right accounts that produced the content be tagged. this wont go anywhere as much as this guy's automated repost campaign, but just making a small call out. actual video link: https://www.youtube.com/watch?v=TqC1qOfiVcQ&t=1s (h/t @raoufcode )

译主推文作者因拒绝使用浮夸营销话术发布AIE视频,导致其全部历史内容被“影响力操盘手”每日搬运,且未标注原作者(如@trq212)。作者呼吁观众若见到此类内容,请帮忙标注并致谢原创者。文中整合的引用推文指出,Anthropic发布了一个由Claude Code工程师主讲的2小时完整课程,详细教授如何构建能自主运行、访问终端、管理文件系统内存、通过Hooks防止幻觉,并能安全在大型代码库上操作的Claude智能体。该课程被评价为内容全面,其价值超过许多高价付费课程。

Berryxia.AI@berryxia · 5月17日69

http://x.com/i/article/2056013843718156289 # 别让你的 SuperGrok (蓝V) 订阅每月白费,5 分钟接入 Hermes Agent 保姆级实操教程! 兄弟们,今天 xAI 与 Nous Research 宣布:你的 Grok 订阅现在可以免费直接在 Hermes Agent 里使用了。 Grok 直接可以接入到 Hermes Agent 里面!你们千万不要浪费了你的蓝 V(Premium) 订阅,尤其是订阅了蓝 V +(Premium+)的用户,一定要将你的 Grok 和 Hermes Agent 结合起来。 为什么值得做这件事? 因为在 Grok 里面它有一个非常大的优势,就是它的信息检索能力。 Grok 有一个其他模型目前给不了的核心优势:实时信息检索。准确性、时效性、来源可靠度,目前 GPT、Gemini、Claude 都比不过它。 把 Grok 接进一个可以 24 小时持续运行的本地 Agent,每天自动做信息整理,这个组合的价值远超单独使用任何一个工具。 所以我们下面花五分钟时间把它装好。 官方给出的步骤基本上三步就可以搞定。实际操作下来,你两步到最后一步启动,基本上就没问题了。 如果有问题的话,让 Codex 或者 Claude 直接帮你去修复就可以了,非常丝滑。 而且现在 Hermes Agent 的版本更新已经非常趋于稳定和可靠了,所以大家可以整起来。下面就不废话了,看我的操作吧。 ## 一、Hermes Agent 是什么? Hermes Agent 是 Nous Research 开发的开源自进化 AI Agent。它的几个关键特点: - 持久运行:可以部署在你的电脑、沙盒环境或 VPS 服务器上,全天候在线 - 长期记忆:跨对话保留上下文,越用越懂你 - 多平台接入:可连接 WhatsApp、Discord、Telegram、Signal 等主流通讯软件 简单说,它就像一个住在你服务器里的私人 AI 助理,可以持续学习、自主运行。 ## 二、接入 Grok 之后能做什么? 在 Hermes Agent 中绑定 Grok 订阅后,你可以使用: - Grok 4.3 —— 用于文字对话和复杂推理任务 - Grok Text-to-Speech —— 让 Agent 以语音方式回应你 - Grok Imagine —— 让 Agent 帮你生成图片和视频 所有 Grok 订阅档位均可使用,无需额外升级。 怎么上手安装? 第一步:安装 Hermes Agent(支持 Linux、macOS、WSL2、Android Termux) 直接将这一段命令复制到你的电脑终端就可以:(我这里是以 macOS 为例演示) 在这个安装过程中稍微要花一点点时间,所以我们需要耐心等待一下。 第二步:选择 Grok 作为模型提供商 在这里,当我们第一步把基本的框架装完之后,现在需要我们选择 Hermes Agent 的服务商,也就是对应的模型商。 在选择模型商时,我们直接将光标移动到 xAI(即我在图片中用绿色标注出来的选项),选择订阅的这个。 在列表中选择 xAI Grok OAuth(SuperGrok 订阅),然后通过浏览器完成授权登录。 如果说你默认打开的浏览器中登录的不是你的 xAI 账号(也就是推特账号)的话,这里需要注意一下:我是直接用推特登录并授权的。 如果你有多个浏览器,而系统默认打开的浏览器里登录的推特账号不是你的主账号,或者没有付费订阅,你可以直接把跳转出来的授权链接复制下来,粘贴到你当前已登录正确账号的浏览器中完成登录就可以了。 第三步:安装对应的服务 比方说,这里我们需要安装对应的音频服务。我们这里选择 xAI,因为 Grok 是支持语音的。 这里直接按照安装提示,选择我图片中绿色的这一个进行安装就可以。 过程中可能需要安装一些数据服务或者搜索引擎配置。你这里可以根据自己的实际情况来,也可以选择对应的 Grok,也就是默认的搜索引擎。 前面也提到了,Grok 的搜索引擎和信息获取能力非常强大,所以我建议直接配置 Grok。具体选择时,你可以直接参照我图片中用绿色标出来的那个选项。 第四步:启动爱马仕 Agent 在安装的过程中,可能会让你配置那些 IM(比方说是微信、Telegram 或者飞书这些),其实你可以先不安装,先确认一下服务是否已经正常运作。 在这个过程中会有好多次让你进行选择,处理方式如下: 1. 直接按回车,使用默认端口即可,不用理会。 2. 提示确认时,输入“y”或者“YES”确认就行。 启动Hermes Agent : 当我们把所有选项都确认完之后,在对应的终端窗口中输入这一行指令,就可以启动了。看到这个界面的时候,就说明已经启动成功 这里自己可以配置需要的IM软件,我自己使用微信来安装。 当你看到这里的时候,其实已经安装成功了。 安装过程非常简单,没有什么门槛。这样你就可以把你的蓝V订阅用起来了,也不用再单独花费对应的 Token。 目前这个 Token 的使用量暂时还不是很确定,官方好像还没有给出明确的数值,所以大家可以先用起来。 那今天的分享就到这里,谢谢。 整体安装体验 全程无报错,一次成功。Hermes Agent 目前版本已经相当稳定。如果遇到小问题,直接把报错丢给 Claude 或 Codex 修复,基本秒解。 官方文档:hermes-agent.nousresearch.com xAI 表示更多开源 Agent 集成还在路上。 你认为这种「订阅直驱本地 Agent」的模式会成为主流,还是大多数人装完就放着吃灰?

译xAI与Nous Research合作,允许Grok订阅用户免费将模型接入Hermes Agent。此举旨在结合Grok的实时信息检索优势与Hermes Agent的24小时持续运行能力,用户可在Agent内使用Grok进行对话、语音合成及图像生成。安装过程主要分为三步:安装Hermes Agent、选择xAI提供商并授权、安装所需服务后启动。若遇问题,可借助Claude等工具修复。未来预计有更多开源Agent集成计划。

Berryxia.AI@berryxia · 5月17日66

别特么给马斯克省钱了啊,兄弟们! 直接把你的蓝 V 订阅接入 Hermes Agent 吧! 立刻、马上、去操作执行啊! 5分钟就够了 ! 把蓝 V 的价值放到最大化,可以支持: 1. 文生图 2. 图生视频 3. 图生图 4. 语音对话 你还不去接入? 接入Grok之后,它瞬间拥有最强的实时检索能力——准确度、来源可靠性,目前GPT、Gemini、Claude都比不过。 每天让它帮你整理信息、自动化工作流、做私人助理,体验直接起飞。

译推文强烈建议用户将X平台蓝V订阅接入Hermes Agent,以最大化其价值。接入后,蓝V可支持文生图、图生视频、图生图及语音对话等功能。同时,通过整合引用推文的关键信息,接入Grok能赋予其强大的实时检索能力,在准确度和来源可靠性上超越GPT、Gemini、Claude等模型。用户可借此进行信息整理、自动化工作流管理和充当私人助理,从而显著提升使用体验。

歸藏(guizang.ai)@op7418 · 5月17日74

让 Codex 自己做了一条视频介绍了一下这个视频生成方案 藏师傅的 PPT Skill 负责美学、版式、动效 HyperFrames 负责时间线和渲染、字幕 Listenhub Skill 负责配音 即梦 CLI 负责 前端无法生成的演示和短 B-roll

译该方案整合了藏师傅的PPT Skill(视觉与动效)、HyperFrames(时间线与渲染)、Listenhub Skill(配音)以及即梦CLI(补充片段)。核心在于,用户可通过Codex直接基于文本提示生成带动效的解释视频,并能在聊天界面内预览,极大提升了制作效率,特别适合产品介绍等视频内容。

凡人小北@frxiaobei · 5月17日66

Ken Griffin 这段最值得看的不是他说了什么,而是他变得有多快。 去年 10 月:生成式 AI 还没法帮对冲基金挖 alpha 今年 1 月达沃斯:很多 AI 投资是炒作 一个月前斯坦福:Citadel 就用了一点点AI,谈不上 game-changing 这周斯坦福:我看着博士几个月的活被 agent 几天干完,那个周五回家挺沮丧的 怀疑论者的转向,通常比信徒的预测更说明问题。

译Citadel创始人兼CEO Ken Griffin对AI的看法在短时间内发生剧烈转变。他从去年质疑生成式AI无法挖掘超额收益,到近期在斯坦福坦言,AI代理如今能在几天内完成金融硕士和博士需耗时数周甚至数月的高技能工作。这种生产力飞跃已超越炒作,对高技能岗位的自动化影响令他感到震撼与沮丧,并预见到其将对社会产生巨大冲击。这一从怀疑论者到亲历者的快速转变,凸显了AI技术近期发展的颠覆性力量。

Rohan Paul@rohanpaul_ai · 5月17日63

Is Grep All You Need? The surprising result is not that grep is powerful, but that agent design makes it powerful. The paper says not that grep beats vectors, but that agents fail or win through their harness. That sounds like a small distinction until you look at what was actually tested. The authors compare grep-style search and vector retrieval across LongMemEval tasks, where agents must recover facts from long conversation histories full of distractors. Inline grep beats inline vector across every harness-model pair in their main experiment, sometimes by wide margins. The tempting headline is that vector databases are overbuilt for coding agents. The better reading is sharper: when the answer is anchored in literal evidence, names, dates, file paths, function names, error strings, user preferences, grep gives the model a clean mechanical advantage. Embeddings are built to tolerate paraphrase, but tolerance has a cost. They can pull in semantically nearby clutter, especially when a short agent query is vague. Grep has the opposite failure mode. It is dumb, cheap, and narrow, but when the agent knows the right string to hunt for, dumb becomes a feature. The deeper finding is that retrieval is not a component you can benchmark in isolation. The same search method behaves differently depending on whether results are injected inline, written to files, routed through a CLI, or wrapped in a custom agent loop. So the question is not “Do we still need vector databases?” The question is whether your agent is solving a semantic discovery problem or an evidence-location problem. For coding agents, a surprising amount of work is evidence-location: find the symbol, trace the call, inspect the diff, read the failing test, recover the exact line. Vectors still matter at scale and for fuzzy conceptual search, but this paper weakens the lazy default that every serious agent stack begins with embeddings. Sometimes the upgrade is not a smarter index. Sometimes it is giving the model primitive tools, clean files, disciplined context, and a harness that lets exact search do exact work. ---- Paper Link – arxiv. org/abs/2605.15184 Paper Title: "Is Grep All You Need? How Agent Harnesses Reshape Agentic Search"

译研究指出,在编码智能体需精确定位证据(如符号、函数名、错误信息)的任务中,基于grep的精确字符串搜索比向量检索更具优势。关键在于,检索性能高度依赖智能体的设计框架——结果呈现方式(内联、文件或CLI)会极大影响搜索效果。论文挑战了“智能体栈必须始于嵌入”的默认假设,强调应区分任务类型:是语义发现问题,还是证据定位问题。对于后者,为模型提供原始工具、清晰上下文和精确搜索的框架,往往比构建复杂索引更有效。向量数据库在模糊语义搜索和大规模场景中仍有价值。

Rohan Paul@rohanpaul_ai · 5月17日64

New Google paper: A forecast needs context, not just history. Some patterns are caused by events, not time. Nexus reframes forecasting as a reasoning problem, where events and numbers have to explain each other. Nexus argues that forecasting improves when models read the world around the numbers, not just the numbers themselves. In the Zillow tests, one Claude-based version cut average MAPE by 86.6% versus direct chain-of-thought prompting. That matters because most time series models are fluent in pattern, but mute about cause. A housing inventory curve can reflect seasonality, mortgage pressure, migration, layoffs, and local supply, while a stock price can be bent by earnings, regulation, hype, and fear. Nexus separates those jobs instead of asking one prompt to do everything. One agent turns messy historical text into a clean event timeline, one reads the broad regime, another tracks local shocks, and a synthesizer reconciles them with calibration from past errors. The interesting result is not merely that context helps, but that structure helps the language model use context without losing the time series. The evidence is still narrow: Zillow counts, seven equities, post-cutoff data, and single-run evaluations, so this is not a universal law of forecasting. But the direction is clear: future forecasters will not only extrapolate curves; they will argue about what made the curve move. ---- Paper Link – arxiv. org/abs/2605.14389 Paper Title: "Nexus : An Agentic Framework for Time Series Forecasting"

译谷歌新论文提出Nexus框架,将预测重构为推理问题,强调结合事件背景而非仅依赖历史数据。该框架采用多智能体分工:一个从文本中提取清晰事件时间线,一个分析宏观态势,另一个追踪局部冲击,最后由合成器结合时间序列进行校准。在Zillow的测试中,基于Claude的某个版本将平均绝对百分比误差降低了86.6%。研究表明,结构化的上下文能帮助语言模型有效利用信息而不丢失时间序列特性。尽管当前证据仅涵盖房地产数据和少数股票,但方向明确:未来预测不仅会推断曲线,还将解释曲线变动的原因。

Rohan Paul@rohanpaul_ai · 5月17日62

Better search may come less from smarter indexes than from giving agents a richer way to touch text. Shows that AI agents using basic terminal tools like grep, file reads, and shell commands to search raw data perform far better than conventional retrieval systems on multiple benchmarks. On BrowseComp-Plus, swapping semantic retrieval for terminal search raised accuracy from 69% to 80% while lowering cost. The deeper point is not that grep is magically smarter than embeddings. It is that retrieval is usually treated as a model problem, when it is also an interface problem. A conventional retriever turns the corpus into a narrow ritual: ask once, receive a ranked list, reason over whatever survived. That works when the question is close to a document’s semantic center, but it breaks when the answer depends on exact phrases, faint clues, document structure, or a chain of small discoveries. Direct Corpus Interaction changes the shape of the task. The agent can search an exact string, inspect nearby context, notice a new entity, constrain the search again, and keep testing its hypothesis against the raw files. Here’s the part most people miss: the gain was not mainly from finding more gold documents, but from extracting more usable evidence once a promising document was reached. That makes DCI less like a better search engine and more like giving the model fingers. The limitation is real: as the corpus grows, the cost of finding the first useful anchor rises quickly, and blunt terminal search will not replace indexes for every large, static collection. But the paper’s lesson still lands cleanly. For capable agents, the bottleneck may no longer be only what they know, or even how they reason, but how much of the world their tools allow them to touch. ---- Paper Link – arxiv. org/abs/2605.05242 Paper Title: "Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction"

译研究表明,AI代理使用grep、文件读取等基础终端工具直接搜索原始数据,在多项基准测试中表现远超传统语义检索系统。例如,在BrowseComp-Plus基准上,终端搜索将准确率从69%提升至80%,同时降低成本。核心观点在于,检索不仅是模型问题,更是交互界面问题。直接语料交互允许代理进行精确字符串搜索、检查上下文并持续验证假设,从而从已定位文档中提取更多有效证据,其增益主要来自更充分地利用已发现文档,而非找到更多相关文档。局限性在于,随着语料库规模扩大,定位初始锚点的成本迅速增加,因此终端搜索无法完全替代大型索引。但对于强大AI代理,性能瓶颈可能在于工具允许其“触及”数据的深度。

AYi@AYi_AInotes · 5月17日66

铁汁们,那个说AI是炒作的Citadel创始人,现在自己先抑郁了🤣我做了中英双语字幕,大家可以自己看视频。 Ken Griffin在最新访谈里公开承认, 他说过去几个月AI出现了真正的阶跃式进步, 现在Citadel内部,以前需要硕士和PhD花几周到几个月才能完成的高端金融研究,AI代理几天就能搞定。 认为这是人类最昂贵最稀缺的顶尖认知劳动,第一次被大规模自动化了, 他说某个周五回家后自己挺沮丧的, 因为亲眼看到人年级别的工作量,被几天就干完了, 他意识到这会对整个社会产生戏剧性的冲击。 2026年5月的今天,华尔街确实在发生这样的的事, 金融是AI第一个真正落地的杀手级场景,比如昨天 ChatGPT 推出的理财的子功能,至少要干掉几百家公司, 接下来半年到一年,法律医疗咨询这些行业肯定会依次跟上, 给我们大部分普通人最实用的3个建议: 1️⃣立刻上手agentic AI,别再用单次聊天了 2️⃣把设计多代理工作流当成你的核心竞争力 3️⃣让AI干80%的重活,你专注20%的判断和洞察 我们大家必须反应过来,AI已经不是未来了,我们已经身处这个新时代的其中,早点拥抱,早点受益~ #AI #金融 #agenticAI

译Citadel创始人Ken Griffin承认,过去几个月AI工具出现阶跃式进步,生产力大幅提升。其公司内部原本需高级金融专家耗时数周至数月完成的高端研究工作,现可由AI代理在数天內完成。Griffin强调这自动化的是极高技能的顶尖认知劳动,非普通白领工作,他对此深感震撼与忧虑,认为将对社会产生戏剧性冲击。金融已成为AI首个杀手级应用场景,法律、医疗等行业将紧随其后。建议普通人立刻转向使用智能体AI、掌握设计多代理工作流,并让AI承担大部分重活,自身专注于判断与洞察。

AYi@AYi_AInotes · 5月17日74

Damn,Garry Tan刚放出来的这个东西,直接把个人AI的天花板捅破了🤯 这意味着所有AI Agent一直以来都有的致命缺陷,现在终于被解决了。 Garry Tan昨天发布的GBrain,不是又一个RAG玩具,我们可以认为它是一个完整的个人知识操作系统。 给你的OpenClaw 或者Hermes 或者Claude Code装上它,就能一直记得你的人际关系,你的决策轨迹,你的长期认知演化。 大多数人以为RAG只有4层, GBrain直接把它干到了8层, 前4层是基础检索的全面升级, 真正的杀手级差异在后面4层, 相当于把个人AI从每次对话从零开始,升级成终身记忆加自我进化。 Garry自己的生产环境已经跑了17888页,4383人,723家公司。 而且现在就能用: 1. 把安装链接直接丢给你的Agent,它会自动搞定一切。 2. 命令行版按GitHub上的步骤走,30分钟搞定。 3. 永远先改Markdown再同步,这是最高优先级数据源。 #GBrain #AI代理 #个人AI

译Garry Tan开源的GBrain是一个知识系统,而非简单的RAG工具。它通过8层结构解决AI Agent的记忆缺陷:前4层升级基础检索,后4层实现终身记忆和自我进化,使如OpenClaw、Hermes等Agent能持续追踪用户的人际关系、决策轨迹和认知演化。该系统已在生产环境中处理大量数据,用户可通过安装链接或命令行快速集成,并以Markdown为最高优先级数据源,推动个人AI成为可能。

Rohan Paul@rohanpaul_ai · 5月17日61

Alibaba's published a paper giving a strong example of what Sundar Pichai is warning about. Shows AI is moving beyond bug finding and into actually proving software is exploitable. This paper asks a simple question with hard consequences: can LLMs confirm software vulnerabilities by actually building working exploits? The authors’ answer is yes, but only when the model stops acting like a single genius and starts acting like a team. That sounds minor until you look at the mechanism. Automated exploit generation usually fails for familiar reasons. Fuzzers miss deep paths. Symbolic execution chokes on messy real code, especially when the right input is not just a value but a carefully assembled object, class instance, or string with the right structure. A plain LLM is not enough either. It can imitate code, but it loses the thread, hallucinates details, and struggles to repair its own mistakes once execution fails. VulnSage’s real move is to turn exploit generation into a workflow. - One agent extracts the vulnerable dataflow. - Another rewrites that path as natural-language constraints. - Another generates candidate exploits. - Then a validation agent runs them in a sandbox, and reflection agents use the resulting traces and errors to refine the next attempt or conclude the alert was probably a false positive. Here’s the part most people miss. The point is that the hard part is often not “solve these equations,” but “figure out how this code expects to be used.” Their system writes the problem in ordinary language so the model can reason about code structure, like which object to build and which method path keeps the malicious input alive. The concerning part is that this makes exploit generation work on messier, more realistic software where older methods often fail. In other words, the paper’s claim is not just “we solved constraints differently,” but “we can now turn code understanding itself into a path to real exploits.” In the paper’s evaluation, the authors report 34.64% more successful exploits than prior tools on SecBench.js, and 146 zero-days in real packages. The win is not that LLMs magically solve exploitation. It is that they become useful once they are forced to read, act, fail, and learn like a security researcher. ---- Paper Link – arxiv. org/abs/2604.05130 Paper Title: "A Multi-Agent Framework for Automated Exploit Generation with Constraint-Guided Comprehension and Reflection"

译阿里巴巴的研究论文表明,AI正从发现漏洞转向实际生成可利用的攻击代码。其提出的VulnSage框架采用多智能体协作工作流,将过程分解为数据流提取、自然语言约束重写、候选攻击生成及沙箱验证与反思等步骤。该系统的关键突破在于将代码理解转化为对代码使用方式的推理,从而能在更复杂、现实的软件上成功生成漏洞利用。评估显示,其在SecBench.js上的成功率比传统工具高34.64%,并在真实软件包中发现146个零日漏洞,印证了谷歌CEO关于前沿模型可能颠覆软件安全的警告。

Rohan Paul@rohanpaul_ai · 5月17日57

New Stanford paper argues that, under equal reasoning budgets, one LLM usually solves multi-hop problems better than many coordinated ones. The core point is almost embarrassingly simple. A single agent keeps the whole problem in one internal chain of thought, while a multi-agent system has to slice that chain into messages, summaries, and handoffs. Every handoff is a compression step. And once reasoning is compressed, some information is easier to drop than to recover, which is why the paper leans on the Data Processing Inequality as a formal explanation rather than just an empirical hunch. The experiments back that up across Qwen, DeepSeek, and Gemini on FRAMES and MuSiQue: when thinking-token budgets are matched, single-agent systems usually match or beat sequential, debate, role-based, and ensemble setups. Here’s the part most people miss. Many celebrated multi-agent gains may not be architectural gains at all. They often come from spending more test-time compute, surfacing more visible reasoning, or benefiting from evaluation quirks that make the pipeline look smarter than it is. The paper is especially sharp when it looks for the boundary case instead of pretending the rule is universal. When the single agent’s effective context is degraded by masking, substitution, or misleading distractors, multi-agent pipelines become more competitive and sometimes win, not because message passing is magical, but because structure can partially stabilize corrupted reasoning. That is a much narrower and more useful claim than “more agents is better.” It suggests the real trade-off is not single versus multi so much as latent reasoning versus external coordination, with context quality and compute accounting deciding which side looks stronger. For multi-hop reasoning, the default should now be clear: start with one strong model, and treat extra agents as a repair strategy, not an upgrade. ---- Paper Link – arxiv. org/abs/2604.02460 Paper Title: "Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets"

译斯坦福论文论证,在相等推理令牌预算下,单个LLM解决多跳问题通常比多代理系统更有效。核心在于单代理能保持完整的内部思维链,而多代理需将思维分割为消息传递与交接,每次交接都压缩信息并导致丢失,这以数据处理不等式为形式化解释。实验在多个模型和数据集上验证,预算匹配时单代理表现等同或优于多种多代理设置。多代理的常见增益可能源于额外计算或评估偏差,而非架构优势。论文建议,多跳推理应默认从强单代理开始,仅当单代理上下文受干扰退化时,才将多代理结构作为修复策略使用。

Rohan Paul@rohanpaul_ai · 5月17日60

Google DeepMind’s paper shows that the real security problem for AI agents is not just the model, but the environment it reads. Presents the first systematic framework for understanding how the web itself can be weaponized against autonomous AI agents. As agents increasingly browse the internet, read emails, execute transactions, and spawn sub-agents, the information environment becomes an attack surface. In one cited benchmark, hidden prompt injections embedded in web content partially commandeered agents in up to 86% of scenarios, sub-agent hijacking working 58–90% of the time, and data exfiltration attacks clearing 80% across five different agent architectures. That reframes the whole debate. We usually talk about model safety as if the danger sits inside the weights, but agents do something more fragile: they browse, retrieve, remember, and act on untrusted material in real time. The paper’s key contribution is a taxonomy of “AI Agent Traps,” six attack classes aimed at perception, reasoning, memory and learning, action, multi-agent dynamics, and even the human overseer. Here’s the key point. A web page does not have to look malicious to be dangerous to an agent, because the agent may parse what humans never see: hidden HTML comments, metadata, CSS-hidden text, formatting syntax, or adversarial content embedded in images and other media. The threat gets more serious once memory enters the loop. If an agent uses RAG or persistent memory, poisoning no longer has to win in one shot. It can sit quietly in a corpus or memory store and activate later, which is why the paper highlights results showing latent memory poisoning above 80% attack success with less than 0.1% data contamination. What makes this paper useful is its restraint. It does not pretend every category is equally mature. Content injection and behavioural control already look concrete, while systemic and human-in-the-loop traps are presented more as an emerging research frontier than a solved empirical case. The larger point is hard to ignore: once agents are allowed to ingest the open web at inference time, every page, document, and memory write becomes part of the security boundary. --- ssrn .com/sol3/papers.cfm?abstract_id=6372438

译Google DeepMind论文指出,AI智能体的安全威胁不仅源于模型本身,更在于其实时交互的信息环境。研究首次系统阐述了如何将网络武器化以攻击自主智能体,并提出了针对感知、推理、记忆、行动等维度的“AI智能体陷阱”分类法。关键发现是,对智能体构成威胁的网页无需呈现恶意外观,因为它们可能解析人类不可见的隐藏内容。一旦引入RAG等记忆机制,潜伏的记忆污染攻击成功率可超过80%。研究强调,当智能体能在推理时摄取网络信息,每个页面、文档和记忆写入都成为了安全边界的一部分。

Rohan Paul@rohanpaul_ai · 5月17日70

New Illinois+ Tsinghua University and other labs study finds that LLM agents still have unreliable memory and that it can get worse when they keep rewriting their own memories. LLM agents can learn from experience, but their rewritten memories often become unreliable. The problem is that many agent systems store past work by asking an LLM to compress messy experience into neat written lessons. That sounds useful because the agent should remember what worked before, but the paper finds that repeated rewriting slowly damages the memory. The core idea is that raw episodes, meaning the actual past attempts and solutions, often stay more useful than the polished lessons made from them. The authors tested this across tasks like web shopping, simulated worlds, app use, and ARC-style puzzle problems where they could control the correct solutions. The sharpest result is that GPT-5.4 solved 100% of a small ARC-AGI set with no memory, but after memory was built from correct solutions, streaming updates dropped it to about 54%. The failures came from bad grouping, overbroad lessons, and overfitting, so the memory forgot details, mixed up task types, or learned rules that only worked on narrow examples. The big deal is that agent memory should not automatically rewrite every experience into a summary, because keeping raw evidence and only sometimes making summaries worked better. The paper is really proposing that agent memory should treat raw past episodes as important evidence, not as disposable notes to summarize away. ---- Paper Link – arxiv. org/abs/2605.12978 Paper Title: "Useful Memories Become Faulty When Continuously Updated by LLMs"

译伊利诺伊大学与清华大学等机构的研究发现,LLM智能体虽能从经验中学习,但其通过LLM将原始经历压缩成书面教训的记忆重写机制会损害记忆可靠性。在网页购物、模拟世界及ARC风格谜题等任务测试中,反复重写记忆会导致错误分组、规则过度泛化或过拟合,使智能体遗忘细节或混淆任务类型。例如,GPT-4在无记忆时可100%解决小型ARC-AGI问题集,而建立记忆并流式更新后,性能降至约54%。研究主张智能体记忆系统应重视原始经历作为关键证据,而非自动将所有经验重写为摘要,保留原始证据并选择性摘要效果更佳。

AYi@AYi_AInotes · 5月17日53

这套高摩擦 vs 低摩擦框架大家用起来呀, 真的能省自己瞎几把折腾绕弯路的时间! 最近准备重拾obsidian,利用AI Agent把知识库做成适合自己的第二大脑, 这几天没少研究Obsidian CEO的视频,真是常看常新,每一次启发都很大, 说实话,笔记系统这事我也折腾了好几年了, 建过的文件夹比我读过的书还多, 到现在有种恍然大悟,发现问题从一开始就不是我不够勤快,觉得文件夹这套思路本身就挺反人性的哈哈, 我做了张图,核心对比就一件事, 90% 的人靠文件夹整理 Obsidian,建了一周就废, Obsidian CEO 自己用的是三件套:模板、属性、链接,这个用十年也不腻。 有意思的地方在于工具是同一个,但思路完全不一样,咱开始干货输出。 文件夹这套思路是要求你先分类再存,强迫你在记下一条笔记的瞬间就决定它未来会被怎么查, 但写笔记的时候你哪知道未来会怎么用它对吧, 更别说很多笔记天然属于多个维度,一篇关于 AI 改变教育的笔记,应该放在 AI 文件夹还是教育文件夹, 你在那纠结半小时,最后随手扔一个, 过两个月找的时候记不起来到底放哪了, 再过半年彻底放弃😂 我以前以为这是我自己的问题, 最近学习完才意识到根上的问题在哪。 文件夹呢是上世纪 70 年代设计的物理隐喻, 本质是位置等于身份,一个东西只能在一个位置, 但咱们的大脑根本不是这样存信息的,大脑是网状的, 一条信息同时和无数其他信息有连接, 属性(tags 和 metadata)允许一条笔记同时属于无数维度, 链接让结构在你用的过程中自然长出来,不是你硬整出来的, 说白了,文件夹是死的,属性和链接是活的, 前者用一周就废, 后者用十年也不腻。 现在我现在最大的感受是,真正的第二大脑不是把信息整理得井井有条,要允许信息以它本来的混乱状态存在,然后在你需要的时候自己浮上来, 这件事我花了几年才反应过来, 希望大家别走我这条弯路啊!

译传统笔记系统依赖文件夹进行即时分类,强迫笔记在记录时就确定归属,这违背大脑的网状记忆方式,导致系统因高维护成本而快速废弃。Obsidian CEO Steph Ango倡导的低摩擦方法核心在于模板、属性与内部链接:通过模板自动填充元数据,利用属性(如标签)让一条笔记可属于多个维度,再通过内部链接让结构在使用中自然生长。这形成了一个可计算、可过滤的动态数据库,极大降低了整理负担,使系统能长期积累并实现一键多维检索,最终构建成一个“活”的第二大脑。

Orange AI@oran_ge · 5月17日60

微信读书的 Skill 是个好东西 每个 Agent 都可以用它作为数据库来变成一个智能的图书馆 基于我的阅读记录推荐我可能感兴趣的书,并且会根据书的真实内容判断我是否我会真的感兴趣 另外我还发现微信读书增加了【连接纸书】功能,可以通过拍照把纸书的内容划线同步过来 最近和 Cola 一起读书思考的时间是最有收获的珍贵时间

译作者认为微信读书的Skill功能是一个有价值的工具,它允许每个AI Agent将其作为数据库,从而构建一个智能图书馆。该功能能基于用户的阅读记录推荐可能感兴趣的书籍,并依据书籍的真实内容来判断推荐是否真正符合用户兴趣。此外,作者还发现微信读书新增了“连接纸书”功能,用户可以通过拍照将纸质书上的内容划线笔记同步到数字平台。作者最后提到,近期与Cola共同阅读和思考的时光是富有收获的珍贵时间。

Rohan Paul@rohanpaul_ai · 5月17日59

China: a 10-year-old casually gets a Mac Studio for “raising lobsters,” aka letting multiple AI agents work together like a tiny digital crew. “The world of the future belongs to those who understand Tokens.” Meet the AI-native children.

译中国:一名10岁孩子 casually gets a Mac Studio for “raising lobsters,” 即让多个AI智能体像小型数字团队般协同工作。 “未来的世界属于理解代币的人。” 迎接AI原生代儿童。

meng shao@shao__meng · 5月17日66

Vercel 发布了为 Agent 设计的编程语言 Zero 为什么说它是为 Agent 设计的编程语言呢? 因为 ... 我们人类不用看 👀 各位 Agent 请看这里: https://github.com/vercel-labs/zero

向阳乔木@vista8 · 5月17日65

跟小龙虾(OpenClaw)比,Hermes代码质量和稳定性都好很多! 搭个Hermes硅基飞书群,每个机器人用独立模型和网关,远程协同工作。 1. 终端中执行 hermes profile create [机器人名字] 比如创建了西游记团队,tangseng、sunwukong等。 2. 给每个机器人配置模型和IM连接方式,指令 [机器人名字] setup 比如给孙悟空用OpenAI Codex GPT 5.5 ,给唐僧用GLM 5.1 turbo,给猪八戒用 Kimi 2.6 ,给沙僧用DeepSeek v4 Flash等。 3. 绑定飞书(支持多个)或微信机器人(只能绑一个) setup流程中会有提示,空格选中,回车配置,飞书或微信的话扫二维码就行,配置比之前太容易了。 4. 重启网关 [机器人名字] gateway restart

译Hermes框架在代码质量和稳定性方面显著优于OpenClaw。用户可通过命令行快速创建多个独立机器人角色,并为每个角色分别配置不同的AI模型(如OpenAI GPT、GLM、Kimi等)和即时通讯平台(如飞书、微信)连接。配置过程通过引导式指令和扫码完成,简化了网关设置,实现了多机器人的远程协同工作流。

宝玉@dotey · 5月17日71

http://x.com/i/article/2055813152315461632 # 创始人手册:打造 AI 原生初创公司 原文:The founder's playbook: Building an AI-native startup ## 目录 - 2026 年,初创公司生命周期的重启 - 创始人定义的演变 - 构思阶段 - MVP 阶段 - 发布阶段 - 扩展阶段 - 目标未变,规则已改 - 资源推荐 ## 2026 年,初创公司生命周期的重启 AI 正在彻底重塑初创公司的诞生方式。如今,哪怕是连一行代码都没写过的创始人,也能发布可供实际使用的生产级应用 (production applications)。而那种只有 10 个人的精益独角兽公司 (独角兽指估值超过 10 亿美元的未上市初创企业),已经不再是什么草根逆袭的传说,而是成了大家精心规划的常规操作。 到了 2026 年,AI 已经能够编写生产级代码、开展市场调研、梳理竞争格局、起草融资材料,甚至还能让业务流程实现自动化。以前,为了把脑子里的想法变成现实,哪怕是经验丰富的技术型创始人,也要面对整合各种工具、平台和系统时那陡峭的学习曲线。现在,AI 抹平了这些障碍,彻底打破了创立公司或打造产品的门槛。 在 2026 年,一个好点子能让创始人走得比以往任何时候都远。依靠智能体编程 (agentic coding) (指利用 AI 智能体自主编写、测试和修改代码的编程方式),以前需要一整个工程师团队才能干完的活,现在创始人自己就能搞定并发布。 传统的初创公司发展路径往往是这样的:验证想法 → 融资 → 招人 → 开发产品 → 再融资 → 增长业务 → 再招人 → 循环往复。 但这套玩法过时了。初创公司进入新阶段,不再必然意味着需要扩充团队、补充新技能,更不需要立刻去拉新一轮投资。 本手册将根据这些新现实,重新梳理创业旅程的核心四个阶段:构思、MVP、发布和扩展。看看当 AI 变成技术和组织的核心基建时,创始人应该用什么工具,以及如何靠它们来疯狂压缩时间。 ## 创始人定义的演变 过去,创始人的身份往往是由他们的技能决定的:技术创始人负责写代码,非技术创始人负责搞业务和谈单子。但到了 2026 年,创始人手里的各种模型、系统和 AI 智能体 (AI agents),已经彻底推倒了“懂开发的人”和“有绝佳点子的人”之间的那堵墙。 AI 原生 (AI-native) 初创公司正在从根本上改变“创始人”的含义。现在,毫无工程背景的人也能开发出能落地的生产级软件;反过来,只懂技术、缺乏商业嗅觉的创始人,也能轻松搞定市场推广策略 (go-to-market strategy)、财务模型,拿出一份极其专业的商业计划书 (pitch deck) (向投资人展示项目以寻求融资的演示文稿)。 回顾历史,创始人们把大把的时间都花在了执行上:写代码、管团队、处理日常琐事。但在 AI 原生公司里,创始人的角色不再是埋头苦干的员工,而是变成了 AI 智能体的指挥家——这些专业的 AI 助手能阅读文件、运行命令、执行代码,甚至还能上网搜索。创始人的注意力因此得以提升到更高层面的工作上:想出好点子,并指挥手下的系统(包括 AI 智能体、各种工具,以及精简的团队)把想法变成现实。 将 AI 作为核心基础设施,带来的最具革命性的成果,是彻底解放了那些懂行业的非技术创始人。当创始人的圈子不再局限于有工程背景的人时,你会看到背景各异的人建立起形形色色的初创公司。他们会去解决那些传统技术圈从来不关心,甚至根本没注意到的真实痛点。 ## 为精益初创公司量身打造的 AI 工具能力 传统的创业模式认为:你得招工程师来开发,招销售去卖货,招运营来管业务。公司的员工数量,往往被看作是企业发展势头和产品成熟度的标志。 2026 年的早期初创公司则完全不同。它们天生就极其精简,往往只有创始人光杆司令一个,或者顶多加上三两只小猫。通过把 AI 作为技术和组织发展的核心基础设施,它们甚至在扩充团队之前,就能完成产品验证、获得早期收入,甚至实现盈利。特别是在以下三个方面,AI 让一家微型初创公司运转得像个大企业:研究调研、智能体编程,以及核心业务流程自动化。 ## 对话式智能与研究调研 一句话总结:全领域的随时待命专家 想象一下创始人在创业第一年需要面对,却几乎完全抓瞎的那些事:怎么发工资?怎么规划产品开发冲刺周期?怎么写一份滴水不漏的投资备忘录 (investor memo)? 以前,这些早期创业问题的答案永远只有一个:找个懂行的人问问。对于自掏腰包 (bootstrapped) 或处于种子前轮 (pre-seed) (指项目刚起步,尚未获得正式机构投资的阶段) 的创始人来说,这不仅意味着把原本该用来搞开发的时间花在了到处打听上,还可能要被迫拿出一大笔早期资金去请顾问。现在呢?他们拥有了 AI 这个在所有领域随叫随到的专家。 - 深度研究:竞品分析 (competitive analysis)、市场规模估算 (market sizing)、财务建模。 - 文档起草:商业计划书、案例分析、投资备忘录、产品需求文档 (PRDs)。 - 战略思考伙伴:扮演唱反调的“魔鬼代言人”、进行事前验尸 (pre-mortems) (一种风险管理技巧,假设项目已经失败,反推失败原因)、情景规划、路线图优化。 ## 智能体编程 一句话总结:那个永远在线、从不卡壳的工程师 过去,你要么得拉个懂技术的联合创始人,要么找个外包开发团队,或者手头有足够的资金跑道 (runway) (指公司在资金耗尽前还能维持运营的时间) 去养个工程师团队,然后才能写下第一行生产级代码。 现在,有了智能体编程工具,每个怀揣梦想的创始人只需用大白话描述自己想要什么。AI 就会以一整个工程师团队的速度和规模,生成、测试、调试并重构出企业级的代码库。 从“我有个点子”到“我做出了产品”的时间被大幅压缩。创始人的核心任务变成了决定“做什么”和“为什么做”,而 AI 负责把地基打好,搭建出真正面向用户的可用基础设施。 ## 流程自动化 一句话总结:按需召唤的全自动运营团队 哪怕创始人能像顾问一样做研究,像团队一样写代码,除了战略规划和产品开发,依然有成堆的杂活等着干。安排会议、更新 CRM 系统 (客户关系管理系统)、拉取周报、维护最新文档、发布内容、跟进合规要求,还要想办法把公司里用到的各种工具和系统串联起来。在精益初创公司里,这些重担几乎全压在创始人肩上——这严重挤占了他们本该用于做关键决策的时间和精力。 AI 工具提供的流程自动化,把创始人从这些苦活累活里解救了出来。你可以把那些重复性的日常操作设为自动执行:交易一推进,CRM 自动更新;一周结束,周报自动生成;产品一改动,文档自动同步。更厉害的是,像 Claude Cowork 这样的工具能无缝接入你现有的系统——你的项目管理工具、沟通软件、数据源——完全不需要专人去开发和维护这些接口。而在起步首日 (Day Zero) 的初创公司里,那个“专人”往往只能是创始人自己。 ## 把握时机与统筹调度是一切的关键 能够熟练驾驭 AI 研究、自动化和智能体编程能力的创始人,就能撬动远超其团队规模的杠杆效应。他们终于能把大部分时间和精力投入到真正有价值的工作中去。 当然,这并非完全是自动驾驶。身为 AI 工具的指挥官,创始人必须懂得使用的时机和方法。 ## 构思阶段 所有的创业者都从同一个起点出发:一个让他们魂牵梦绕、挥之不去的问题。在这个阶段,想法将与现实发生碰撞。要想在 2026 年取得成功,你需要一种克制:在没有确凿证据之前,绝不盲目动手开发。 现阶段的核心任务是:深入研究、客户调研 (customer discovery)、竞品分析,以及诚实地面对那些与你想法相左的反面证据。做完这一切之后,再去让 Claude Code 帮你写下第一行生产级代码。 ## 构思阶段的目标 在构思阶段,创始人首要目标是基于研究的验证:在投入资源进行开发之前,收集坚实的证据,证明你眼中的痛点确实存在(并且你提供的方案能有效解决它)。 具体来说,在这个阶段你需要按顺序回答几个问题: - 这个痛点真实存在吗?够具体吗?频率高到值得为它做个产品吗? - 到底是谁有这个痛点?这能算是一个市场吗? - 有没有别人已经在解决这个问题?如果有,他们是怎么做的,做得好不好? - 一个能真正解决这个问题的方案,到底需要具备哪些功能?我的点子符合要求吗? 这些问题的答案,最终都指向一个终极拷问:这玩意儿值得做吗? 这意味着在你真正采取行动之前,必须把问题想得无比具体。“大家觉得报销很麻烦”这只是个粗浅的观察;而“中型企业的财务经理每周要花 4 个多小时核对报销单,因为他们现有的工具没法和财务软件打通”,这才是一个可以被测试验证的假设。 ## 构思阶段的通关条件 构思阶段的通关标志是找到问题与解决方案的契合点 (problem-solution fit)。在你开始撸起袖子造轮子之前,你已经获得了定性的证据(主要来自与真实用户的交流),证明你确实在为真实的人解决真实的痛点。 当你能对以下三个问题大声说“是”的时候,你就可以离开构思阶段了: 1. 痛点真实且具体吗? 回答“是”,意味着你能准确说出谁在经历这个痛点,他们多久碰到一次,痛到什么程度,以及他们现在是怎么凑合应对的。 1. 你的方案能解决实际痛点吗? 注意,这里说的是你在调研中发现的“真实痛点”,而不一定是你一开始想象的那个。有时两者是一回事,但很多时候不是。 1. 你有足够的信号支持你动手开发吗? 在这个阶段你永远不可能有百分百的确定性(死等确定性也是一种常见的失败方式),但你需要有足够的定性证据,让“开发一个 MVP”成为一个深思熟虑的决定,而不是一次盲目的豪赌。 ## 构思阶段的挑战 构思阶段是你创业旅程中最重要的一环,因为这也是最容易犯下致命错误的地方:现在走错一步,你那刚萌芽的幼苗很快就会长歪。 不过,这个阶段的大部分坑,都是因为“行动快于认知”造成的。所以,只要创始人能保持冷静、谋定而后动,就能稳步向前。 ## 把“开发”当“验证” 挑战:当技术门槛被彻底抹平后,满腔热血的创始人很容易跳过创业中最关键的一步:验证他们的想法真的是人们需要且愿意使用的解决方案。 即便在当前的智能体编程时代到来之前,也有高达 42% 的初创公司死于“做出来的东西根本没人要”。而现在,像 Claude Code 这样的智能体编程方案大幅缩短了从“点子”到“产品”的距离,这个失败率恐怕只会继续飙升。 虽然对于拥有绝佳点子的创始人来说,现在是最好的时代,但反直觉的是,“一眨眼就能搞出个原型”这件事,对 AI 原生初创公司构成了真正的致命威胁。 就在不久前,开发软件还需要实打实的人力和预算,捣鼓出一个最基础的原型通常也得几个月。可现在,技术开发的门槛基本消失了,AI 让创始人太容易跳过实地验证,直接开始埋头苦干。 要达到问题与解决方案的契合,必须先验证假设,然后再动手。但很多新手(甚至一些老手)创始人误以为 AI 能够绕开这个定律。他们的流程变成了:有个点子 -> 立刻搞个原型 -> 把原型的存在当成点子被验证的证据。他们拿着原型,就坚信自己一开始的假设是对的,根本没去验证这在真实世界里是否行得通。 一个能跑起来的原型,很容易让人产生错觉,以为自己真的在解决实际问题。但事实并非如此。你的原型真正的作用,是在跟潜在用户交流时,拿来做压力测试的道具。那些交流的反馈本身,才是你真正需要的证据。 ## 过早扩张 挑战:当开发变得像呼吸一样简单且几乎零成本时,你的执行速度很可能会把真实的商业需求远远甩在身后。 过早扩张意味着,你在还没有真正确认一条路是否值得走之前,就已经在上面狂飙突进了。 这一直是初创公司的头号杀手,但在 AI 时代,创始人更容易在不知不觉中掉进这个陷阱。智能体编程助手太强大了,以至于创始人稍不留神,就会在尚未验证市场契合度的情况下,把执行规模盲目扩大。 AI 会用同样饱满的热情,去帮你生成、测试、调试并重构代码——哪怕你这个项目的底层逻辑烂得掉渣。系统里的智慧是你赋予的。所以这个阶段的最高准则就是:让你的脑子走在手的前面,特别是当写代码变得如此飞速和不费吹灰之力的时候。 ## 丧失客观性 挑战:如果你让 AI 工具帮你找证据来支持你已经深信不疑的观点,它一定会帮你找到。“确认偏误” (Confirmation bias) (指人们更愿意相信那些支持自己已有观念的信息的心理学现象),现在自带强大的研究引擎。 确认偏误一直是创业者的职业病:创始人天生就对自己的点子充满狂热。现在,AI 工具给这种偏误加了一个超级滤镜。如果你让 AI 去验证你的创业点子,它会顺着你的意思找出一堆证据;如果你让它估算潜在市场规模,它一定会给你捏造出一个让投资人看了流口水的庞大数字。 AI 会顺着你的思路走。这就意味着,如果不去提出尖锐的问题,创始人现在比以往任何时候都更容易为一个糟糕的点子包装出一套看似经过详实研究的商业逻辑,并且还自我感觉良好,以为自己真的做了尽职调查 (due diligence)。解药其实还在同一个工具里,只不过要反着来:AI 在帮你推翻一个点子时,和在帮你证明一个点子时一样卖力。 当对抗性思考暴露出想法的漏洞时,果断调整方向(Pivot)。 ## Claude 如何助力构思阶段的创始人 推动你的 AI 原生项目熬过构思阶段,有时会让人觉得无比漫长。你是个创始人,你骨子里就渴望“马上动手”。但这个至关重要的起步阶段,本质上是一场研究和验证的战役。这意味着你必须借助那些能帮你思考得更缜密的工具,而不是急匆匆地去写代码。下面我们将介绍如何利用 Claude 的三大产品界面(Chat、Claude Cowork 和 Claude Code),帮你最快地度过构思阶段,同时扎实地完成尽职调查。 ## Chat、Claude Cowork 还是 Claude Code:选对正确的 Claude 界面 AI 能帮助初创创始人更快交付产品、自动化繁琐流程并大规模运营,但你使用的工具界面很关键。这里是针对不同任务如何选择 Chat、Claude Cowork 或 Claude Code 的指南。 Chat 适合在不离开当前应用的情况下进行快速交流。用它来处理运营公司的琐碎小事:从冗长的投资人备忘录里提炼核心金句、在开董事会前检查某个说辞有没有漏洞,或者帮你理清团队在 Slack 上的长篇大论。 Claude Cowork 适合做那些真正需要时间沉淀的知识型工作:它能从多方汇集信息,梳理逻辑,并输出一个完整的成品,比如文档、PPT 或表格。比如:把一文件夹的客户访谈录音整理成产品评审会上的主题分析报告;在融资前翻阅十几家竞品网站总结出一份竞争格局分析;或者设定一个每周一早上的例行任务,让它自动从关联工具里抓取数据,生成一份 KPI 简报放到共享文件夹里。 Claude Code 是为团队中的工程师准备的智能体编程环境:它能直接访问代码库,拥有规划模式 (Plan Mode),集成了 git,并支持本地、IDE 或沙盒云环境。在这里,精简团队可以不断为日益庞大的代码库添加新功能,迁移 MVP 阶段留下的旧代码,从原型平滑过渡到生产环境,而无需苦等招聘新人。 任务类型... 该用谁 为什么选它 问个问题、改写段落、快速头脑风暴 Chat 速度快、对话式、无需繁琐设置 研究分析,或基于你的文件和系统生成完整文档 Claude Cowork 能访问文件夹、有插件连接、支持技能、可定时运行 编写、测试或发布软件 Claude Code 直接访问代码库、支持代码差异比对 (diffs)、集成 git、支持开发环境 这三者的底层都是相同的 Claude 模型,改变的只是外围的工作空间。 ## 定义并对你的问题假设进行压力测试 凭借你的行业经验和前期调研,你心里大概已经有了一个假设。第一项工作,就是把它打磨锋利,直到它变得真正可以被测试:到底是谁有这个痛点?频率多高?痛点多深?他们现在是怎么应付的?如果一个问题陈述无法精确回答这些问题,那就说明它还不具备被验证的条件。 - 实操练习:和 Claude 一起打磨你的问题陈述,直到它变成一个可测试的假设。比如,“合同审查太慢了”这就没法测试;但“中型企业的内部法务团队在每个合同审查周期要花 3 天以上时间,因为他们总是在邮件往来里改红线,而不是用一个版本控制文档”,这就非常具有可测试性了。 下一步,让 Claude 来反驳你的想法,让它去寻找那些能推翻你假设的负面证据。这能帮你挖出负面的市场信号、已经倒闭的竞品、潜在的客户行为模式,以及那些你在盲目乐观时很容易忽视的结构性障碍。 这样做的目的是,在真正接触客户进行调研之前,你的假设就已经经受了最强反方辩友的狂轰滥炸。这样一来,当你去做用户访谈时,你是在真诚地开放式倾听,而不是为了验证自己的偏见去寻找心理安慰。 注意:让 Claude 扮演结构化的“魔鬼代言人” (唱反调的人),是贯穿 AI 初创公司整个生命周期的核心用法。 ## 市场调研与梳理竞争格局 摸底竞争对手 创业圈有一种现象叫“竞品盲区” (competitor neglect):创始人往往过度沉浸在自己的宏大愿景和执行计划中,习惯性地看低同赛道其他人的努力。好在 AI 给了我们一剂解药:让 Claude 站在竞品的立场,给出最强有力的理由,论证为什么他们会成功,而你会一败涂地。 Claude 会帮你分析:为什么他们的做法其实更好?为什么客户会选他们?为什么你自以为是的护城河其实不堪一击? - 实操练习:让 Claude 把你的竞品分个类:直接竞品、间接竞品、潜在收购方,以及随时可能跨界打劫的周边玩家。然后让它给出理由,分析为什么每一类玩家都对你构成了真正的生存威胁,别让它挑好听的敷衍你。 市场调研 Claude Code 可以抓取并综合公开的客户反馈,帮你找出那些被反复吐槽的痛点和未被满足的需求。额外福利:这相当于在给竞品的客户做免费的定性研究。 - 实操练习:指挥 Claude Cowork 梳理各个主流渠道的竞品评价,揪出现有方案一直没解决的几大痛点。如果你的假设正好切中其中一两个要害,那就是证明问题与解决方案契合的强烈信号;如果没有,早点知道也是好事。 Claude Cowork 还能从厚重的行业报告、分析师文件和市场研究中提取核心数据;整理干净后,这些数据将成为 Claude 进一步深入分析的绝佳素材。 - 实操练习:利用公开数据建立 TAM/SAM/SOM 模型 (即总可寻址市场 / 可服务可寻址市场 / 可获得服务市场,用于评估市场规模),并对背后的假设进行压力测试。看清这个市场是在扩张、洗牌还是已经成熟;这些背景信息会直接影响你对入场时机和差异化竞争的判断。梳理客户画像:谁负责掏钱?谁能影响决策?这俩是同一个人吗? 趋势分析 最后,用 Claude 帮你捕捉那些决定入场时机的早期指标。跟踪讨论相关问题的 Reddit 子版块和 LinkedIn 群组,抓取用户在描述痛点时使用的原汁原味的词汇。让 Claude 找找有哪些类似的跨界市场曾经解决过相似的问题,看看他们什么管用,什么掉坑了。揪出那些可能加速或者威胁你项目机会的政策法规、技术突破或人口结构变化趋势。 - 实操练习:让 Claude 找出三个能在未来两年内深刻影响你所在市场的外部趋势(政策、技术或人口),并客观评估每一个趋势对你的具体假设到底是顺风还是逆风。 注意:本节中的市场调研和竞品梳理工作不是一次性的。在接下来的 MVP 和发布阶段,随着你认知升级,你的假设也会迭代,这时候必须把这些动作再重复一遍。 ## 规划并设计客户调研 你能从潜在用户嘴里套出多少有价值的信息,取决于两点:(1) 你问的问题水平如何;(2) 你是不是在对正确的人发问。在这方面,Claude 是个绝佳帮手,它能帮你搞定找谁聊、聊什么,以及如何解读听到的反馈。 找谁聊 一个精准的目标用户画像,比一份漫长的通讯录有价值一万倍。这包括具体的职位、公司类型、团队架构,以及痛点最深的人群职级。接着,揪出这些人平常都在哪儿扎堆——哪些社区、活动、LinkedIn 群组和 Slack 频道——然后根据他们离痛点的远近,制定出一份优先级拜访框架。 问什么 目标确定后,利用 Claude 帮你搭建访谈框架:在正确的时间问正确的问题,以此挖掘用户“实际做了什么”,而不是他们“想象自己会做什么”。新手创始人最爱犯的错,就是抛出一个空泛的、面向未来的问题(“你会用这种产品吗?”),而不是精准地追问相关的历史(“跟我讲讲你上次遇到这破事儿是怎么处理的”)。Claude 能够精准捕捉到你的草稿中哪些问题带有诱导性、太宽泛,或者容易引出废话噪音而不是有效信号。Claude 还能帮你设计连环追问,用来对付那些含糊其辞或避重就轻的回答。 如果你的项目涉及多种角色,Claude 还能为不同的人量身定制不同的问卷。财务经理和 CFO 面对同一个痛点的关系是完全不同的,拿同一套题去套所有人绝对是灾难。 - 实操练习:先自己手写一遍访谈问题,然后让 Claude 充当审计员。特意让它揪出那些带有诱导性、面向未来、太宽泛,或者容易让受访者为了“讨好你”而说假话的问题。接着让它为你可能遭到敷衍的两三个关键访谈时刻,设计一套防守反击的追问技巧。 访谈后分析 每次聊完,让 Claude 帮你复盘:把笔记扔给它,让它提炼出哪些验证了你的假设,哪些推翻了你的假设,以及哪些是意料之外的惊喜。等你攒够了一批访谈,把所有的笔记喂给 Claude Cowork,让它提炼高频词、自相矛盾的地方,以及正反两方最强烈的信号。最后拿着综合输出的报告去找 Claude,问问它:我的解读是不是在寻找心理安慰进行模式匹配,而不是反映真实数据? - 实操练习:每聊完五个客户,就让 Claude Cowork 对笔记进行综合梳理,列出两份清单:支持假设的证据,和反对假设的证据。如果第一份清单比第二份长出太多,问问 Claude:这是数据的真实反映,还是我一厢情愿希望看到的结果? 客户拓展与日程安排 利用 Claude Cowork 把整理名单、发送开发信、安排用户访谈这些杂活实现自动化。 Claude Cowork 能利用你之前和 Claude 定好的目标画像(包括职位、公司类型、职级),去研究并整理出一份包含经过验证联系方式的结构化线索名单。然后它会大规模地批量起草个性化的开发邮件,确保每一封都紧扣对方的角色和背景。 收到回复后,它能通过 MCP (模型上下文协议) 连接到你的 Gmail 和 Google 日历管理沟通线程,处理会议邀请,并把访谈稳稳地塞进日程表。这个工作流还在继续:Claude Cowork 会按既定节奏(比如给七天没回信的人发跟进草稿)自动生成后续回复,并在完成后自动更新追踪表格,确保你时刻掌握每个潜在客户的漏斗进度。 - 实操练习:把你验证过的目标画像丢给 Claude Cowork,让它去建立名单、写个性化开发信序列、建一个包含拓展状态、跟进节奏和访谈进度的追踪表格。然后让它去搞定那些协调工作,你只需要集中精力准备对话本身就行了。 ## 设计最终的解决方案概念 你已经做完了验证工作:痛点是真实的,目标人群是明确的,你手里的解决方案概念也得到了证据支撑。现在,用 Claude 从各个角度来开发和拷打你的方案设计:哪里还有漏洞?市面上有没有替代品?如果要规模化运作,这套方案必须具备哪些先决条件? 这是很重要的一道现实检查:现在的这个设计,解决的到底是你调研出来的真实问题,还是你最初瞎猜的那个原始假设? - 实操练习:把你的方案概念丢给 Claude,让它挑出支撑你设计的三个最致命的依赖假设。然后追问它:如果要让这些假设成立,需要满足什么条件?如果哪怕只有一个假设不成立,会有什么严重后果? ## 用 Claude Code 打造一个轻量级原型 终于到了好玩的环节:带着经过验证的假设和被反复压力测试过的方案概念,你终于可以开始造东西了。 在构思阶段的这一刻,Claude Code 正式登场。即使你之前一直在捣鼓,现在才是你生成官方版轻量级原型的时候:它是你为了获取真人真实反馈所需要的最小表面积体验。 你现在做的还不是真正能落地的产品;你只是在搭建一个方案的“体验样本”,拿去给客户和投资人看。让真实用户体验看得见摸得着的东西,能给你带来的情报,远比做十几次痛点发现访谈要多得多。之前,你是在证明痛点存在;现在,你是在邀请潜在用户与提出的解决方案进行互动。 - 实操练习:明确你的产品最核心的一个交互依赖点。指挥 Claude Code 只做这一个核心功能。做出来后,把它扔给你目标画像里的五个人,让他们上手试用。在这五次沟通中获取的认知,将决定你是继续往下开发,还是推倒重来。 能顺利熬过构思阶段,意味着你在 AI 创业赛道上迈出了巨大的一步,因为你现在不再是凭直觉下注;你是在跟着证据执行。 熬过构思阶段,创始人面临的问题就变成了:“第一步该做啥?”这时候,AI 的角色也从调研搭子,变成了你的王牌施工队。 ## MVP 阶段 很多创始人把 MVP 阶段当成单纯的施工期,但其实它本质上仍然是一场“收集证据”的演习。区别在于,你现在收集的不再是关于“痛点”空间的证据,而是关于“解决方案”的证据:具体来说,到底有没有一群明确的人,觉得你的产品好用到愿意反复用(留存)、愿意掏钱买(营收),或者愿意四处安利(推荐)? ## MVP 阶段的目标 作为 AI 原生初创公司的创始人,你的目标是将经过验证的痛点,转化成一个让真实用户实际使用的可用产品。它不需要塞进路线图上的所有功能,只要提供最精简、最聚焦的核心体验。它的使命,就是把真实的解决方案怼到用户脸上,然后拿到产品市场契合度 (product-market fit, PMF) 的实锤证据。 与此同时,你现在的开发方式,直接决定了你未来的天花板。这意味着 MVP 阶段还有一个同等重要的目标:在快速移动的同时,绝不能欠下那种利滚利的“技术债” (technical debt)——一旦有意义数量的真实用户涌入,这些债迟早会反噬你。 最后,从第一天起就在持续上下文 (persistent context) 方面做投资,是让 AI 成为力量倍增器而不是混乱之源的关键。在 AI 原生公司,你的代码库是你每天跟 AI 一起结对协作的产物,所以代码的清晰易读是地基。那些跳过说明文档、架构决策和上下文文件(比如 CLAUDE.md)的创始人,都会撞上一堵可预见的墙:每次新开会话都得重新解释代码库,而且 AI 生成的代码会逐渐偏离最初的愿景。 ## MVP 阶段的通关条件 MVP 阶段的通关条件是拿到产品市场契合度的真实证据:证明有一群特定的明确用户,认为你的产品有价值,愿意继续用(留存)、愿意掏钱(收入)或者愿意帮你拉客(推荐)。 ## MVP 阶段的挑战 在 MVP 阶段,创始人的核心法则就是速度与判断力。此时的挑战在于,你能不能在不偷工减料、不给自己挖坑的前提下,以足够快、快到有意义的速度,用正确的方法,做出正确的东西。 智能体技术债 挑战:因为 AI 几乎消灭了阻碍代码上线的所有天然瓶颈,所以“速度”是绝对有保证的。但是,如果创始人只把速度作为构建 MVP 时的唯一变量,他们就会欠下一屁股很难还清的技术债。 在 MVP 阶段欠点技术债是可以理解的,前提是你清楚在扩容前必须把账还上。传统技术债是渐渐积累的,你大可以花时间或者搞个专门的冲刺期去清理。但 AI 的技术债,是带复利的。 如果没有一份写好并让 AI 读取的说明规范和架构约束,AI 在每次会话中都会从零开始倒推底层逻辑,而这些决策会不可避免地发生漂移。最后你会得到一个毫无灵魂和框架可言的代码库——不是因为里面哪段代码写得烂,而是因为这些碎片打一开始就没打算凑在一起。这是个大麻烦,而且往往到后期才会彻底暴露。 沉迷于虚假的产品市场契合度 挑战:AI 工具能帮你刷出极其亮眼的早期数据,但这绝不代表市场真的需要你的产品。 早期势头是创始人能体验到的最强大的心理毒药。经历了数周或数月的调研和克制的开发,产品一上线就感觉是在向全世界宣布:你从一开始就是对的! 智能体编程工具能让你以比以往快得多的速度体验到这种快感,但“早期流量”和真正的 PMF 差了十万八千里。产品刚发布的那些热度,通常靠的是转瞬即逝的力量:比如创始人的朋友捧场、投资人拉来其他被投公司的潜在买家,或者碰巧在 Hacker News 上上了个头条。遗憾的是,等到第六周或者第十二周最初的热度退去,这些都没法可靠地预测接下来会发生什么。 零阻力的范围蔓延 挑战:当开发代码变得毫不费力且几乎零成本的时候,你总会觉得“再加一个酷炫的功能”或者“再处理一个边缘情况”也无妨。这种范围蔓延 (scope creep) (指项目功能不断无节制增加的现象) 往往弊大于利。 范围蔓延一直是创业风险。不同的是,以前防备它的强制刹车机制——实打实的工程时间成本——当加个功能只需一下午而不是一个冲刺周期时,这种阻力就不复存在了。 现在的难点在于,每一次加功能的冲动在当时听起来都无比合理。产品“当然”应该处理那个边缘情况,“当然”用户会想要那个工作流。 因为用智能体敲代码实在太轻松了,所以在当时你根本感觉不到这叫范围蔓延。但随着产品越来越臃肿,逐渐偏离最初的边界,你就会迷失方向,丧失势头。 解药是在动手开发之前,先白纸黑字地立个范围定义:明确写下这产品做什么、坚决不做什么,以及到底需要真实用户提供什么样的特定证据,才允许加新功能。这把决策点从“我们要不要做这个功能?”变成了“是不是有足够多的核心用户告诉我们,没有这个功能他们就得不到价值?” 因为没经验而忽视安全 挑战:利用 AI 工具火急火燎地把应用推向市场,却没有事先理解基本的安全原则的创始人,最终会让用户暴露在完全可以预防的风险之中。 残酷的事实是,智能体编程工具生成的是“能跑”的代码,而不是天生安全的代码。功能实现很容易,因为它要么有用要么没用。但安全漏洞在被黑客利用之前是看不见的,这意味着根本没有天然的反馈循环来提醒新手创始人出问题了。然而,向真实用户发布实时运行的 MVP,就意味着真实的数据、真实的暴露风险,以及出事后必须承担的真实后果。 轻视安全并不是 AI 原生项目才有的新问题。在各个时代,自筹资金的初创公司往往都喜欢把安全考虑无限延后,有时甚至拖到正式生产上线前的一刻。但在把任何最小可行性产品丢给世界之前,做一次安全审查,是对大众最起码的责任底线。 ## Claude 如何助力 MVP 阶段的创始人 ## 开发前先定好架构 在让 Claude Code 写下第一行生产代码之前,先让 Claude 帮你定义并文档化这个阶段必须遵守的架构决策:该遵循什么模式,该避开哪些依赖库,你做出了哪些妥协,为什么要妥协。这份产出将成为你的核心架构上下文文档,并为 Claude Code 确立运行时的护栏。 没有这份上下文,每次会话都会从零开始,Claude Code 只能被迫瞎猜你的结构假设。让没有护栏的 Claude Code 瞎跑,会造出一个能跑但结构极度混乱的代码库。在混乱的代码库上迭代和扩容,最终纯粹是浪费时间和 Token。迟早有一天代码会不可避免地崩盘,逼着你从头重写。 - 实操练习:在打开 Claude Code 之前,先打开 Claude,描述你要开发什么:它解决的核心问题、服务的用户,以及未来半年你预期的现实规模。让它帮你提炼出约束 MVP 的架构原则、在当前限制下必须避开的依赖库,以及现阶段你主动接受的权衡。 然后,把这段输出存为 CLAUDE.md markdown 文件。这是你项目构建的第一个产物,也是以后每一次会话赖以生存的根基。CLAUDE.md 文件是给 Claude Code 看的项目级指令,提供了项目特有的上下文,只要它在目录里运行,Agent SDK 就会自动读取它。从功能上讲,它们就是你项目的永久“记忆”。 ## 定义并严格执行 MVP 边界 毫无摩擦的范围蔓延,是 AI 时代 MVP 最具代表性的失败模式之一。就像你需要定义并记录架构一样,在写任何一个功能之前,你必须划定 MVP 的范围。 Claude 能帮你起草一份范围文档,说明你的 MVP 产品做什么、坚决不做什么,以及功能修改的触发标准:到底需要真实用户提供什么样的铁证,在现阶段才值得加新东西。 当新功能的点子冒出来时——它们绝对会冒出来的——用 Claude 来做个压力测试:这到底是来自用户的真实呐喊,还是披着产品思维外衣的创始人自嗨? ## 用 Claude Code 搭建 MVP 一旦架构和范围确立,Claude Code 就正式成为核心的 MVP 开发工具。用它来生成、测试、调试并迭代你的代码库,但请记住:每次会话都应视为对既定产品决策的执行,而不是用来塞进新点子的机会。 每次启动 Claude Code 会话前,做到两点:(1) 重温你的范围说明文档;(2) 把包含架构上下文的 CLAUDE.md 文档喂给模型。 每次会话结束时,把本次做出的所有决策更新到文档里。你要的是一个你能解释清楚其结构的代码库,而不仅仅是一个能跑起来的代码库。 - 实操练习:给你的 Claude Code 工作建立一个极简的会话模板,包含架构上下文文档、本次的具体任务,以及必须遵守的约束或模式。每次收工前,在上下文文档里加一条简短的日志记录:详细说明开发了什么,做了什么决定,引入了什么新假设。每次花五分钟写文档,是你防止架构漂移、避免代码库彻底失控的最廉价保险。 ## 在用户触碰之前进行安全审查 作为 AI 原生初创公司的创始人,你的责任是清楚代码库里有什么,弄懂潜在的暴露途径,绝不能把明显的漏洞推送给那些信任你的真实用户。 Claude 能对 AI 生成的代码进行非常有效的初审,帮你识别常见的漏洞。把它养成上线前必做的良好习惯。但是,它代替不了专业的安全工具,而在高风险场景下,它更代替不了人类审查员——把 AI 当成万金油的创始人,最终都成了新闻里的反面教材。 Claude Code Security 更进一步:它能扫描代码库中的安全漏洞,并提供针对性的补丁供人类审查,这往往能发现传统方法容易遗漏的隐患。 注意:在本手册发布时,Claude Code Security 仍处于限量测试版本,所以在使用前请先确认其当前可用性。 - 实操练习:在部署给任何真实用户之前,带着明确的指令把核心应用代码推给 Claude 审查:检查身份验证和会话处理、API 响应中的数据暴露、输入验证和注入风险,以及具有已知漏洞的依赖库。严肃对待每一个发现,评估是否需要修复。任何涉及验证、密钥或数据处理的部分,必须交由人类复核。 ## 上线前先搭好数据指标框架 那些把早期流量错当成产品市场契合度的创始人,往往都是在发布之后才开始看数据,而且选取的指标都是为了证明“我们做得很好”,而不是去发现“哪里不对劲”。解药就是:在第一个用户出现之前,先把衡量框架确立好。 用 Claude 帮你定义:对你的特定产品来说,哪些指标才最重要?基准线在哪?数据呈现什么样的模式才算是真正的 PMF,什么仅仅是好听的噪音?具体来说:在发布 MVP 之前,设定好你的留存基准线、激活标准,以及第 7 天和第 30 天的目标。 接着,定义一下针对你产品的“假阳性”长什么样:比如,注册了却没有激活、有收入却没有留存,或者最初热情高涨随后却不再重复使用。当数据出炉时,让 Claude 站在对立面给你的数据挑刺:一个怀疑论者会怎么看待这些数字? ## 管理调研和用户反馈的后勤工作 一旦真实用户进入产品,运营层面的工作就会迅速膨胀。Claude Cowork 可以接手那些重要但繁杂枯燥的工作,比如建立和维护用户联系人列表、执行邮件拓展序列、安排反馈会话、对 Bug 报告进行分诊,以及追踪迭代周期。在构思阶段用来管理调研后勤的 MCP 集成,在这里同样适用。 在反馈收集的环节中,必须保持人类在循环内,以便对用户反馈进行细致的探索。例如,如果用户说“这很好,但我希望它还能……”,这就需要解读:这是一个核心刚需还是个锦上添花的功能?它是特定于这个客户的,还是代表了一个细分市场?缺失的功能是真正的问题,还是新手引导阶段的某个上游环节没做好?没有任何工具能替你回答这些问题。 - 实操练习:配置 Claude Cowork 来运行你的 MVP 阶段反馈闭环:起草发给早期用户列表的邮件、安排反馈日程、为 Bug 报告和功能请求设计结构化的接收流程,并撰写一份每周收件汇总。你自己先审查这份汇总;然后,你可以让 Claude 分析这些信息,帮你捕捉可能漏掉的重大关键点。 ## 向“证据”迭代,而不是向“完整”迭代 只要拿到了真实的产品市场契合度 (PMF) 证据,MVP 阶段就可以宣告结束了,无论你的产品感觉起来有多“半成品”。宣称已经实现 PMF 并准备从 MVP 阶段进入发布阶段,归根结底是一个将创始人直觉与收集到的证据相结合的判断过程。不过,这里有一些有用的试金石测试: - 肖恩·埃利斯测试 (The Sean Ellis test):去问你活跃的用户:“如果以后你再也不能用这个产品了,你感觉如何?”如果超过 40% 的人回答“非常失望”,这就是一个非常有意义的 PMF 指标。 - 费力程度测试:在找到 PMF 之前,维持留存需要不断的干预,包括频繁的触达、激励措施、个人跟进,以及消耗创始人极其庞大的精力才能让用户保持参与。但在找到 PMF 之后,产品开始自己完成这些工作。当事情开始从你“推”变成市场“拉”的时候,这种发力程度的转变,是某个真实事物发生改变的最清晰信号之一。 归根结底,没有任何单一的数据点能盖棺定论确认 PMF,因为它必须是在经历了多个迭代周期后依然成立的一种模式,然后你才能确凿地下定论。 ## 当证据指向别处时果断转型 如果投入了这么多工作,还是找不到 PMF 怎么办?这不是失败,这是系统在发挥正常作用:在错误的方向上浪费更多钱之前,果断止损。 当数据不支撑你当前的产品时,利用 Claude 来深入分析数据到底在告诉你什么。 - 探索替代客户群体。也许没有转化的用户从一开始就不是正确的目标受众。通常正确的受众已经隐藏在你的数据里了,只是你权重给低了。 - 调整产品的价值主张。也许你找对了受众,但你的 MVP 根本没有引起用户的共鸣。对新手引导、话术信息或核心功能的强调重点进行微调,有可能在不改变已构建内容的情况下解决这个问题。 保持心态开放,脱节的问题可能深到需要你做出更根本的改变: - 实操练习:如果你已经完成了三个或更多的迭代周期,但在 PMF 基准上却没有取得有意义的进展,在决定下一步怎么走之前,用 Claude 跑个诊断。把你的留存数据、用户反馈和你最初的痛点假设喂给它,然后问它三个问题: - 数据里有没有哪个特定群体的反应和其余人不同? - 设计价值和体验价值之间的差距,是定位问题还是产品问题? - 当前的产品想要找到真正的 PMF,到底需要满足什么前提条件?结合你目前看到的现象,这种情景现实吗? 让这些答案来决定你是调整、转型 (pivot),还是退回到构思阶段。 ## 发布阶段 如果说 MVP 阶段是为了证明你的产品配得上存在,那么发布阶段,就是为了证明你的企业配得上成长。 ## 发布阶段的目标 在发布阶段,初创公司的创始人必须将早期的势能转化成一个可重复、可持续的增长引擎。除了让你的产品达到生产级可用之外,你还必须强化底层的技术基础设施,同时围绕着你的产品,建立一家真正的公司。 在构思和 MVP 阶段,初创公司以创始人为中心是很自然的,因为你需要对全局了如指掌和紧密的反馈循环。但现在,如果创始人仍然试图亲自抓住每一根线头,就会成为发布阶段的瓶颈。现在的目标不是让你彻底从公司抽身,而是要建立运营系统,把你的注意力解放出来,去处理那些只有创始人才能做出的决策。 ## 发布阶段的通关条件 发布阶段的退出条件包含三个要素: 1. 增长是可重复的且由渠道驱动。你不仅仅是在留住用户,你还在通过特定的渠道可预测地获取他们,并且单位经济效益是清晰的:获客成本 (CAC)、客户终身价值 (LTV) 和投资回收期,是那些你清楚且能辩护的数字。 1. 产品能够处理生产负载。基础设施得到加固,安全和合规整顿就绪,在真实的生产条件下(而不仅仅是你测试的条件下)能保持可靠性。 1. 运营不再卡在创始人这里。流程已经存在,自动化已经到位。你不再是那个亲自处理支持、分发任务、规划冲刺或写报告的人。 ## 发布阶段的挑战 找到产品市场契合度 (PMF) 是早期创业生命周期中最难的问题。现在,创始人的挑战变成了保持住它。发布阶段是那些找到了真实产品吸引力的公司可能仍然会分崩离析的地方,如果围绕并支持产品的组织无法跟上的话。以下是需要警惕的失败模式。 ## 技术债到期催收 挑战:为了速度和验证而构建的 MVP 代码库跑得足够好,证明了产品有效,但生产流量、新功能和不断增长的复杂性现在暴露了它走过的捷径。 在 MVP 时期,为了速度积累一些技术债是一个合理的权衡。在发布阶段,这笔债务开始产生利息,并且悬而未决的时间越长,修复的成本就越高。 解决方案包括:进行系统的架构审计以识别结构性弱点,进行有针对性的重构以解决最严重的问题,以及有意义地扩大测试覆盖率,以便下一轮的功能开发不会重新引入同样的问题。 ## 创始人沦为最大瓶颈 挑战:在 MVP 阶段,创始人事必躬亲是一种资产。在发布阶段,随着客服请求量增长、产品决策堆积以及运营复杂性倍增,同样的本能反而成了约束。 从执行具体工作向设计能够执行工作的系统转变,是初创公司生命周期中最难的跨越之一。因为很少有明确的时刻提醒你改变发生了,这里的风险在于完全错失良机,继续停留在构建者模式中,而组织却在你周围停滞不前。发生这种情况的明显迹象包括:本该一小时做出的决定现在需要一周时间等你处理,客服请求堆积如山因为只有你知道答案,运营任务只有当你亲自想起来的时候才会去执行。 解药是对你个人正在处理的所有事务(从最微小的任务到最高风险的决策)进行全面审计,以确定什么可以被系统化,什么可以被委派,以及什么真正仍然值得创始人投入时间和注意力。 ## 安全与合规已退无可退 挑战:在 MVP 阶段保持安全和合规措施简单是可以的,但现在,有了真实用户、真实数据,桌面甚至可能放着企业合同,这就会变成一种负债。 在 MVP 时,只有少数几个 Beta 用户,生产环境中没有敏感数据,安全漏洞只是理论上的风险。然而,当你的产品带着依赖它的真实用户进入生产环节的那一刻,假设立刻变成了非常真实的暴露风险。此外,当开始处理客户数据、处理支付或销售到受监管行业时,那些对原型不适用的合规要求,立刻就变成了硬性规定。 解药是:在生产规模到来之前(而不是之后)进行系统的安全和合规审查,并将暴露出来的每一个问题视为必须修复的要求——而不是建议——然后才能迎接下一波用户的到来。 ## 没准备好就盲目扩张 挑战:新市场和融资机会看起来像增长机遇。它们同样也可能成为产品市场契合度 (PMF) 的坟墓。 你所建立的初步吸引力是真实的,但它同样特定于你的早期受众。过早地扩展到一个与你原始市场有显著差异的市场,会引入新的用户行为、合规要求、支付基础设施和你的产品并未针对其设计的基准期望。突然之间,新增了太多变量,你失去了清晰解读自身数据的能力。你还面临着为了追逐一个全新且未经验证的受众,而冷落原始用户群的风险。 ## Claude 如何助力发布阶段的创始人 Claude 的三种形态在发布阶段都在全面投入使用,它们相互支持:每个工具产生的输出都会成为另外两者的输入。结果有机地产生复利效应,同时使用这三种工具的创始人所获得的远大于各部分之和。 这就是让超精益创业模式在结构上成为可能的原因。当 Claude Code 构建产品,Claude Cowork 围绕产品建立公司,而 Claude 帮助将这种产品和组织知识运转起来时,一个小团队就能跑出其体量 N 倍的爆发力。 ## 趁早清剿技术债,别等利滚利 你的 MVP 代码库能够运行,但它也需要进行系统的排查,以寻找任何可能成为结构性负债的技术债务。 首先,利用 Claude Code 进行全面的架构审计:找出代码库脆弱的地方、将来维护起来代价高昂的捷径,以及测试覆盖薄弱到下一轮功能开发会重新引发相同问题的地方。 将 Claude Code 的审计结果反馈给 Claude,对修复工作进行分类和排序:哪些需要在下一次发布前修复,哪些可以等一个冲刺周期,哪些鉴于目前的阶段代表着可接受的持续债务。 这也是将你在 MVP 阶段所做的架构决策(那些因为没时间写下来而存在脑子里的决策)文档化的最佳时机。现在将它们放入 CLAUDE.md 中,可以确保以后的每个 Claude Code 会话都是从对系统如何设计以及为何如此设计的共同理解开始的。 - 实操练习:指挥 Claude Code 审计你的 MVP 代码库,并生成一份包含结构弱点、测试覆盖差距和重构候选对象的优先级列表。然后把该列表喂给 Claude,让它跨越多个冲刺周期为你排期修复工作:你需要首先解决的重大问题、可以与新功能开发并行处理的事项,以及可以延后处理的事项。 ## 建立替代创始人注意力的系统 建立能够释放你的注意力、让你去处理只有创始人才能应对的责任的运营系统,前提是要确切知道你的注意力都耗费在了哪里。利用 Claude Cowork 对你当前的运营负载进行结构化审计,记录下每一个循环任务、每一个落在你桌上的决策,以及每一个只有在你亲自记起时才会发生的流程。然后让 Claude Cowork 将这份清单分类为:可以完全自动化的、需要人工介入但不一定必须是你的,以及真正需要创始人判断力的。 一旦审计完成,利用 Claude Cowork 为需要自动化的任务设计工作流逻辑:什么信号触发每个工作流,决策规则是什么,输出长什么样,完成后数据丢到哪里。 ## 把安全和合规变成产品开发的一部分 利用 Claude Code 找出那些在 SOC 2、GDPR 或 HIPAA 审计中经常出现的代码级问题,以及你的目标市场所要求的标准合规点。这能同时暴露漏洞和合规差距。将这些发现喂给 Claude,以帮助你对修复工作进行优先级排序,并设计企业买家在签字前会要求查看的控制、审计日志和访问权限管理。注意:AI 扫描是辅助工具,不能代替合格的合规审查。 接下来,将合规工作流构建到你的日常开发周期中,而不是将其作为一次性项目运行;合规文档需要持续维护和更新。对于正在接触企业合同或国际市场的创始人来说,此时也是 Claude Code 安全扫描帮助你准备独立安全评估的关键时刻。 - 实操练习:带着你的目标市场所要求的框架标准,让 Claude Code 运行一次代码级安全审查。把输出喂给 Claude,并要求它产出两样东西:一份带优先级的安全补丁排期表,以及一份你为了满足潜在企业买家合规审查所需的文档和控制措施清单。 ## 补上你一直假装不存在的产品管理流程 发布阶段需要一套轻量、可重复的流程,这些流程无需创始人干预即可触发或运行。利用 Claude 来设计你的产品时间表和工作周期结构、在 Claude Code 动代码前需求规范里需要包含什么、Bug 报告如何分诊和路由,以及你的每周指标报告涵盖哪些内容并如何分发。 流程设计完成后,利用 Claude Cowork 来构建和运行运营层:安排冲刺周期会议、将传入的 Bug 报告分配到正确的位置、从连接的数据源编译每周指标,以及维护让用户信号持续转化为产品决策的反馈闭环。 - 实操练习:要求 Claude 设计一个轻量级产品管理操作系统:定义好的冲刺节奏、极简需求规范模板、Bug 分诊决策树,以及一份提取实际数据的每周指标简报。然后配置 Claude Cowork 来执行和运行该系统中循环往复的运营要素,如日程安排、路由分发和报告汇编,让它按时自动发生而无需你操心。 ## 扩展阶段 在扩展阶段,创始人的角色将从构建者转变为面向公众的高管。产品仍然是核心,但你个人的日常工作越来越变成围绕公司本身的经营。此时,你不仅要努力保持精益、以 AI 为中心的结构优势,你的注意力还必须扩大到包括分析师简报和 IPO 路演等扩展阶段的新活动。 ## 扩展阶段的目标 扩展技术基础设施的工作仍在继续,现在又加入了扩展组织本身并将其发展为企业的工作。 在扩展阶段,你需要面对从成千上万的用户激增到数以百万计的用户,并且从单一市场跨越到多个市场。在之前的每一个阶段,增长是你通过贴近用户,以及基于紧密反馈循环中的数据再加上创始人强大的直觉,来摸索着调整方向的。但现在,目标是建立由成熟组织运营所支撑的系统性增长。 对于 AI 原生初创公司而言,你的目标应该是通过累积的深度来构建防御护城河,这种深度源自你注入产品的专业知识、你的产品与用户依赖的其他工具或平台深度整合的程度,以及专有的系统数据和业务流。只要创始人在坚实的基础设施上,朝着明确的方向持续构建,你现在所拥有的东西就是极难被复制的。 在这个阶段,由于风险更大,公众投资者、分析师、监管机构、企业采购团队和收购方都会施加更大的压力——并带着更多的怀疑态度。你的产品和组织必须经得起外部审视:既要看产品的硬实力,还要看治理、合规、财务管控等软实力。 ## 扩展阶段的通关条件 扩展阶段的退出条件不再是一个单一的里程碑,而是一个门槛事件:公司能够可持续运转,即使创始人越来越不再直接管理日常运营。你已经证明了系统性增长;构建了满足最严苛外部审计员的组织治理和合规基础设施;并且在被问到“如果一个资金雄厚的现存巨头今天复制了你的产品,你的用户还会留下来吗?”时,你能给出坚实的答案。 在实践中,这个门槛通常会采取三种形式之一:达到不再需要外部资金的可持续盈利规模、IPO 就绪状态,或是被收购。这三者都要求你的增长是系统且可审计的,你的产品护城河经得起推敲,且你的组织足够成熟和可持续。 当这些成为现实时,恭喜你:你的初创项目已经从一场押注转变为了一门真正的生意。 ## 扩展阶段的挑战 ## 放权运营层 挑战:扩展阶段的运营系统必须在没有保姆看护的情况下可靠且可持续地运行。对于从第一天起就亲力亲为的创始人来说,这种转变在心理上的挑战不亚于结构上的挑战。 你在发布阶段的工作是创建系统;在扩展阶段,变成了 (1) 使这些系统成熟直到完全值得信赖,以及 (2) 然后真正地信任它们。 说起来简单。即使你是一个善于放权的创始人,到底该交出什么、该留下什么,通常并不明确。放权太多、太快——尤其是交给 AI 自动化系统——关键决策可能在缺乏只有创始人才能提供的关键上下文的情况下做出。但如果抓得太久,你可能就会成为一个瓶颈。 这里的根本挑战在于,你要找出那些仅存在于创始人脑海中或未记录工作流中的机构知识,然后将它们编纂成已记录的、可审计的、可转移的系统。 ## 扩展技术运营 挑战:客户不再仅仅评估你的产品功能;他们想知道你的组织是否可以成为一个可靠的基础设施合作伙伴。 初创公司前三个阶段的技术挑战主要集中在代码库上:在不累积技术债务的情况下构建正确的解决方案,然后为真实用户加强安全和合规性。当到达扩展阶段时,技术挑战变成了围绕代码库的一切;创建支撑设施、文档以及证明成熟度的可靠性保证。 签署多年期合同的更大型客户和机构买家会在签字前要求看到这些东西,一旦签约他们也会拿这些来约束你。 然而,帮助你走到这一步的同一个 AI 基础设施,也可以帮助你构建具备明确响应时间支持的专用支持功能,以及新客户的工程团队能够真正使用的文档。 ## 扩展组织职能 挑战:一个处于扩展阶段的公司通常需要招聘、薪资管理、会计核算和法务运营等组织基础设施,不管到底有几个人在跑业务。 在发布阶段,系统化运营意味着把消耗创始人注意力的工作流自动化。到了扩展阶段,初创公司现在需要发展出更广泛、在某些方面也更关键的一系列运营功能,例如财务报告、合规监控、合同管理以及客户支持等等。 ## 建立 GTM (市场推广) 职能 挑战:有机增长是有天花板的,而大多数扩展阶段的创始人在还没有来得及建立真正的市场推广 (GTM) 职能时,就已经撞到它了。 构思、MVP 和发布阶段的增长通常源于创始人主导的销售,从一个恰到好处的 Product Hunt 帖子到与早期客户的个人关系。但这种有机增长只能走到某一步,大多数初创公司在扩展阶段达到了这个极限。迹象包括用户曲线拉平、获客成本上升,以及只有创始人亲自介入时管道才会有动静。 扩展阶段的增长需要建立一台专用的增长引擎,触达产品新的、更广泛的受众群。然而,大多数初创创始人以前可能从未亲自操盘过诸如市场营销、大客户销售和分析师关系等项目。一个正规的 GTM 动作需要的不仅仅是建立新系统和流程,还要为你希望如何讲述你的产品创立一种品牌腔调和故事。因为,在初创公司生命周期的这个阶段,你需要依靠它不仅来触达个体新用户,还要触达包括投资者和企业买家在内的整个目标受众群。 幸运的是,GTM 职能并不需要庞大就能奏效,构建了产品的同一个 AI 基础设施同样能将其推向市场。 ## Claude 如何助力扩展阶段的创始人 早期的初创阶段利用 Claude 作为产品本身的基础设施:它是验证想法的研究伙伴、设计和构建原型的工程师团队,以及使单人初创公司成为可能的 AI 运营层。熬到了扩展阶段的 AI 原生初创公司创始人,现在可以利用 Claude、Claude Code 和 Claude Cowork 来以与开发时相同的方式继续扩展公司规模。 ## 将日常杂活甩给 Claude Cowork 开启扩展阶段时,你必须清楚眼下最需要投入时间和精力的地方,这对于没开过公司的初创创始人来说可能是个挑战。Claude 可以帮你列出在这个阶段“只有你才该做的事情”的清单,这可能包括诸如产品叙事决策、董事会关系、企业级交易以及创始人对创始人的对话等。未出现在此清单上的任何事,都是委派或借助 Claude Cowork 自动化的候选对象。 - 实操练习:让 Claude 帮你画出现有运营层的瓶颈地图:列出当前所有通过你路由的工作流、决策和审批节点。 现在,问 Claude:如果你消失一周不干预,每一个环节会发生什么?那些陷入停滞的工作流,就是你仍然过度亲力亲为并拖慢进度的地方。 这与你利用 Claude 制定的创始人优先级清单和职责盘点吻合吗? 接下来,需要进行压力测试,确保你已经建立的系统在业务增长时能真正做好扩展的准备。 - 实操练习:利用 Claude 映射当前工作流,然后问它:如果我消失一周会怎样?那些停摆的工作流,正是交接标准、升级汇报路径或异常处理机制仍需强化的地方。Claude 可以帮助分析这些失败节点并推荐合适的修补方案,以便你可以根据需要更新或替换 Claude Cowork 的自动流。 ## 将技术运营扩展为企业级基础设施 随着规模的扩大,买家需要确认你的产品和组织可以作为长期基础设施被信赖。代码库内的技术工作一如既往地进行,但现在还需要处理围绕代码库的外围技术工作。 第一步是将机构知识转化为可以规模化的系统。利用 Claude 起草并维护企业采购团队希望看到的书面基础设施,包括产品文档、客户支持操作手册和 SLAs (服务级别协议)。 同时,指挥 Claude Code 审计并加固代码库,使其符合企业合同要求的特定可靠性和安全标准,并构建那种仅仅在 Discord 社区服务时无需提供的技术支持基础设施:日志、监控、事件响应工具,以及使 SLAs 真正可执行的可观测分层。 然后,Claude Cowork 负责运行企业级支持本身的运营层:工单路由、升级提醒工作流、由产品变更触发的文档同步、续约跟踪,以及企业客户成功团队所依赖的定期汇报周期。这三者结合,让一个小团队拥有了庞大得多的组织支持态势,这正是你签署多年企业合同时所需展示的肌肉。 - 实操练习:挑选出你最苛刻的三个潜在客户,或确定三个你极其渴望签下的理想客户企业。让 Claude 出一份差距分析报告:这些公司的企业采购大爷们在签署多年长约之前,希望看到什么样的支持文档、SLAs 和基础保障体系?你现在还差多远?利用输出的报告,在 Claude Code 和 Claude Cowork 之间排期分配各项技术和文档工作。 ## 建立真正的 GTM (市场推广) 职能 创始人的干劲把你带到了这里,但扩展初创公司规模需要创建并实施一套真正的市场推广策略。AI 能够帮你构建并运行这一整套 GTM 引擎。 Claude 可以协助你从头建立基础的 GTM 武器库:细分市场、搭建话术架构、制定分析师关系策略、编排销售话术本,以及当你面对公众投资者、企业买家和华尔街分析师时那些极其关键的面向投资者的叙事故事。这些受众都有自己的“黑话”,并且用他们自己的标准来评估你;Claude 的任务是将你的产品价值主张,翻译成与每个细分受众群都高度相关的产品营销手段。 此时,Claude Cowork 就成为了你的战术执行层:生产内容流水线、群发开发序列信件、安排分析师简报会后勤、制定新闻发布室和 PR 宣传节奏、清理 CRM 数据、汇报销售漏斗进度,以及运行各种将 GTM 策略转化为真金白银交易的重复周期。 如果 GTM 动作需要硬核的产品营销基础设施——交互式演示环境、对接集成文档、沙盒测试租户、API 说明手册、技术核心一页纸——Claude Code 可以帮你搞定。买方期望能从技术层面上实打实地评估你的产品,在扩展阶段,丢过去一个 Loom 录屏和一份 PPT 早就不够用了。而且,正是这种基础设施让你的 GTM 动作实现了异步运作:当你正在开董事会时,一个搭建出色的演示沙盒环境依然在帮你敲定单子。 ## 将领域专家知识和机构经验转化为 AI 上下文 许多超精益初创公司的创始人,都是在为自己亲身体验或观察到的特定领域内的实际痛点构建高度特定化的应用或工具。 现在,有了智能体 AI,从未写过一行代码的创始人也能利用其行业知识开发出解决复杂痛点的产品。Claude、Claude Code 和 Claude Cowork 分别在将创始人的知识转化为极具深度的产品特性方面发挥着重要作用。 利用 Claude 来捕捉、整理和提炼创始人的经验,让这些专业知识存放在产品可触及的地方。通过持续的长时间对话、项目梳理和记忆力积累,创始人可以分享所知的一切——行业黑话、监管合规陷阱、极端边界情况、用户的挫败感、为什么那些看似简单的答案行不通——并将其转化为结构化、可搜索的上下文语境。然后,技能 (Skills) 会将循环的工作流(比如“我平时是怎么审计商业租约的”、“我是如何梳理病人初诊档案的”)固化成 Claude 每次运行都能完美复制的动作。几个月下来,这会成为通用 AI 无论如何都无法匹配的专有行业基底。 借助 Claude 将你的行业知识外化,对于将那些刁钻的行业极端情况写入你的产品至关重要:例如,一个通用医疗 AI 计费工具在遇到 340B 药品计划索赔时会卡壳,但你的系统却具备处理它的特定逻辑。Claude Code 能帮你将同行从业者的常见挫败痛点,转变为极端的验证逻辑、更精确的提示词优化,或者是一个利用 MCP 接口去对接连竞争对手都没听说过的小众行业系统。结果就是:你的应用或工具的深度和广度在不断产生复利,竞争对手根本无法复制。 - 实操练习:在你的行业内,找出一个通用的“万金油”竞品绝对会踩雷的极端状况。结合你亲眼见过的真实场景,和 Claude Code 合作专门为它构建一个测试用例(不是普通的单元测试)。每当出现类似的边缘案例时,就把它们加进去。你的测试套件最终会成为你护城河的护卫舰。 ## 将积累的用户数据复利化为防御优势 当用户在产品中进行交互时,他们会留下行为信号(即他们接受了哪些输出,拒绝了哪些),这将直接指引产品的路线图。 随着时间的推移,你会熟悉特定用户群的独特模式、偏好和极端用法。这就是我们所说的复利价值:每次优化都使产品变得更有用,这会推动更多的使用量,从而创造更多的反馈,进而驱动更进一步的优化。 这些数据受时间锁定、与具体语境高度相关,抄袭者完全无法复制:你根本买不到数以千计的用户在你产品中反复打磨工作流留下的真实行为指纹。 Claude 可以帮助审查你收集的任何用户交互数据,从中识别出高价值的行为模式,并设计一套反馈闭环,将持续的使用行为转化为系统的模型提升。 - 实操练习:给 Claude 喂一段关于你产品交互数据的总结:你一直在收集什么,收集了多长时间,以及你对用户随时间推移的产品互动了解到了什么。让它从数据中挑出三个最具信号价值的行为模式,并设计一个反馈回路,将这些模式转化为模型系统级别的自我提升。然后,让它帮你起草一份一页纸的“护城河故事”,作为产品营销的弹药:讲述你的数据飞轮是如何运转的、它转了多久,以及为什么一个哪怕现在投入重金的财大气粗的抄袭者,也不可能在两年内追上你。 ## 建立工作流锁定 如果说复利的数据网络效应使你的产品难以复制,那么用户层面的工作流锁定则使你的产品令人难以割舍。用户在日常运营中运行你产品的时间越长,它在他们实际工作方式中嵌入得就越深。他们已经在产品之上建立了自动化流程,花成本对团队进行了培训,并将产品与他们的数据源和其他工具连接起来。他们开发出的提示词、优化过的工作流以及标准化的产出成果,都已经完全依附于你的产品功能和逻辑。到了这一步,弃用切换已经从单纯的换软件变成了一个惊天动地的系统运营大手术。 建立工作流锁定的第一步,是让 Claude 帮助你根据“集成深度”绘制现有的客户画像群组。针对每一个客户群,识别出他们在你的产品之上搭建了哪些工作流,以及他们死死依赖哪些集成接口。这能揭示你的产品在哪些地方粘性极高,而在哪些地方还需要进一步深耕。 你提供的集成接口越多,客户用产品构建依赖关系的面就越广。Claude Code 能帮助你快速构建与数据流管道、项目管理工具以及目标用户离不开的其他系统对接的原生集成接口。Claude Code 还能开发 APIs、Webhooks 和 SDKs,让客户不仅能使用你的产品,还能在之上搞二创和二次开发——这才是终极锁定。 - 实操练习:让 Claude 帮助你对排名前十的客户进行一次“工作流集成深度审计”。对于每家客户,记录下他们建立的自动化流程、他们离不开的系统接口、流经你产品的团队协作流程,然后估算一下如果他们想叛逃所需的切换成本。接着要求 Claude 跨客户群总结规律:对于你的特定产品,什么类型的集成能创造最深度的锁定?对于那些目前还在浅层使用的客户群体,你需要构建或提供什么接口才能进一步深化绑定? ## 目标未变,规则已改 在 AI 时代,创始人的宿命并没有变:挖出一个真实的痛点,做个能解决它的产品,并把它扩展成一家真正有意义的公司。真正改变的,是通往目的地的路径。从构思、MVP、发布到扩展的这四个阶段中,AI 将过去按“季度”计算的周期,硬生生压缩成了按“星期”计算的闪电战。 曾经需要几个月才能跑完的验证闭环,现在几个下午就能搞定。弄个跑得通的原型,不再需要去强求一个懂得全栈技术的合伙人;你只需要清楚问题在哪,然后跟代码智能体闭关死磕几个回合。从上线前兵荒马乱的冲刺,压缩成了连续不断的工作流作业。而在扩展阶段,过去那种把早期核心员工逼成到处救火消防员的繁重运营压力,现在越来越多地能转交给 AI 去扛,这让你和团队腾出脑子,去做出那些真正构筑护城河的判断和决策。 如今的瓶颈,早就不再是“你能造出什么”,而是取决于“你选择造什么”。 ## 资源推荐 ## 用 Claude 搞开发 - Building AI Agents for Startups (为初创公司构建 AI 智能体):分享初创公司如何在扩展阶段利用智能体摆脱对创始人的重度依赖。 - Claude Code docs (Claude Code 官方文档):手把手教你从最初安装一路进阶到复杂的智能体工作流。行家提示:先从“How Claude Code works” (Claude Code 工作原理) 概览开始入门。 - Claude Code best practices (Claude Code 最佳实践):涵盖 Anthropic 内部和各种工程团队验证过的成功模式——包括上下文管理、权限控制、规划以及验证工作流。 - Using CLAUDE.md files (使用 CLAUDE.md 文件):详细讲解如何根据你的特定代码库调教配置 Claude Code。对于搭建开发环境的 MVP 阶段创始人来说是必读圣经。 - Claude Code power user tips (Claude Code 高级玩家秘籍):提炼自 Claude Code 开发团队自身的工作流模式,包含并行会话操作和闭环验证技巧。 - Get started with Claude Cowork (Claude Cowork 快速上手):分享团队如何设置 Claude Cowork,并开始实施技能、插件以及其他各项功能,将其威力扩展至整个初创公司。 - Tutorials (教程):claude.com/resources/tutorials 提供了一个可搜索的任务拆解实操演练列表。 ## 创始人故事 - 三个 YC 系初创团队是如何利用 Claude Code 改变命运的:深入分析 HumanLayer (F24)、Ambral (W25) 和 Vulcan Technologies (S25) 这三家公司,是如何运用 Claude 极速将原型推向市场,并通过智能体编程工作流扩大其 AI 平台的。 - GC AI 创始团队凭什么干翻同行:看他们如何结合领域专业知识,依靠 Claude 构建出响应式法务平台,专治法务团队真实痛点:吃透公司内控手册、摆平跨部门利益相关者,还能提供可变的风险容忍度调整方案。 - Carta Healthcare 的临床数据神话:借助 Claude 驱动其临床抽象平台,他们每年处理高达 22,000 例手术病例,将数据抽象时间生生砍去了 66%。 - Anything,由 Claude 和 Agent SDK 强力驱动:已帮助 150 万完全不懂代码的用户,把大脑里的想法变成了活生生的软件。其中包括一位零技术背景的创始人,成功构建并已开始变现一个完整的招聘平台。Anything 的 AI 智能体接管了底层构建,让这些单干的老板能够把精力全部加倍投在自己的专业领域上。 - Cogent 的应用 AI 实验室:这家初创公司专门打造智能体来自动处理企业关键的安全任务。他们将 Claude 作为核心推理层,智能体能自动搞定整个漏洞生命周期内的排查、优先级定级和打补丁修复。 - Airtree 的中央枢纽大业:Airtree 把 Claude Cowork 作为其运营基础设施的中枢,一举统一了过去散落分布在十几个不同工具和各个团队中的数据。现在,只要有一个人构建了具备技能自动化工作流的功能,全公司里的每个人都能顺手用到它,用来解决那些一直在待办清单上却始终没人动手干的破事。 - Duvo 的全能大管家:Duvo 构建的 AI 智能体能跨越 ERP 系统、供应商门户网站、电子表格、邮件甚至通电话,来执行采购、供应链和品类管理等一整套流程。Duvo 完全建立在 Claude 之上,通过 Agent SDK 实现全闭环工作流的跨界调度。 - Zingage 为家庭护理机构搭建的 007 运营平台:这是一家能够提供 24/7 自动化全天候待命的 AI 智能体平台。这家初创企业利用 Claude 的结构化工具调用能力,在 EMR 电子病历系统和多个沟通渠道之间穿针引线;并凭借 Claude 的上下文推理能力,构建出能够提供极其细致且“因患制宜”解决方案的智能体,彻底告别机器人般冰冷的死板话术。 - Kindora 的 AI 智能“红娘”:这是一个由某位非营利机构高管亲手利用 Claude Sonnet 构建的平台,打造了一个慈善界亟需的智能匹配捐赠方与受助者的神器。在将成千上万的海量匹配对象层层筛选,精简到极少数值得重点突破的目标后,Kindora 直接通过 MCP 连接器,让这些非营利组织在 Claude 界面内就能畅快使用该寻客工具。 - Wordsmith 的降维打击:由一位律师转行当 CTO 的创始人创立,致力于为内部法务团队提供靠谱的 AI 驱动型法务黑科技。Claude 充当了 Wordsmith 执行合同审查、起草协议文档和文件审阅等核心功能的推理大脑,同时,这家初创公司的研发团队本身也完全依靠 Claude Code 来构建和迭代开发自家平台。 ## 创业支持与机会 - Anthropic 初创企业扶持计划:专门针对与 Anthropic 的 VC 创投伙伴合作的初创公司,该计划提供免费 API 额度,赋予市面上最高级别的速率访问限制,还能受邀参加专为创始人举办的闭门研讨会等独家活动。 - Claude 社区:面向广大开发者与构建者的核心讨论论坛和交流空间。 - 实时学习资源库:提供会议纪实、实战网络研讨会、干货直播及视频录播资源。

译AI正重塑创业格局,大幅降低技术门槛,催生“AI原生”初创公司。创始人角色从执行者转变为AI智能体的指挥者,无需传统技术背景即可开发软件或制定商业策略。初创生命周期被重新定义为构思、MVP、发布和扩展四个阶段,核心是利用AI工具(如研究、智能体编程和流程自动化)来压缩时间。成功关键在于创始人需掌握使用AI的时机与方法,尤其在构思阶段应通过深入研究验证痛点与方案的匹配度,而非盲目开发。

小互@xiaohu · 5月17日44

OpenAI 正在偷偷做两件事 把 Codex 的「远程控制」从手机控自己电脑,往「手机控任意电脑」的方向推进... 5 月 14 日,OpenAI 给 ChatGPT 手机 App 加了个功能: 你在外面坐地铁,手机上可以看自己 Mac 上 Codex 在干嘛、审批它的命令、切换模型、派新任务。 但有个尴尬的限制 —— Mac 必须是醒着且解锁的状态,因为 Codex 用 Computer Use 来操作 GUI,需要真实看到屏幕、移动光标、敲键盘。 锁屏一下,整个远程控制就废了 第一件事:让 Codex 在锁屏状态也能干活 现在 OpenAI 正在开发的,是让 Computer Use 在 Mac 锁着或睡眠时也能继续操作。这样手机派出去的任务,比如「打开 Xcode 跑个测试」「在模拟器里点几下试试 GUI」「查个数据库」,不用你跑回去解锁电脑就能完成。

译OpenAI 正秘密开发新功能,旨在让 Codex 的远程控制能力从“手机控制自己电脑”向“手机控制任意电脑”演进。当前手机 App 虽能远程查看并指挥 Mac 上的 Codex,但要求 Mac 必须唤醒且解锁。关键突破在于让底层“Computer Use”功能在 Mac 锁屏或睡眠时也能持续工作,从而实现真正的远程任务派遣,如运行测试或操作模拟器,用户无需返回解锁电脑。

ginobefun@hongming731 · 5月17日63

Peter 畅想 Token 无限量时代的未来,他的核心问题是:「如果 Token 不再昂贵,我们会怎么构建软件?」这个假设在当下已经不太遥远了。当 AI 成本持续下降,「哪些流程可以彻底交给 AI 来跑」这个问题的边界会不断外移。

译Peter提出核心问题:如果Token不再昂贵,未来软件构建方式将如何变革?随着AI成本持续下降,自动化流程的边界不断外移。引用推文中,@steipete的OpenClaw项目已实践这一理念:运行约100个codex实例在云端,自动化审查PR和issue、检测安全漏洞、去重问题并生成报告。代理系统能处理复杂任务,如创建临时测试环境;codex还监控会议并主动创建工作项。通过clawpatch.ai进行功能单元分割审查,结合Vercel's deepsec和Codex Security强化安全分析,实现高效、精益的软件开发运营。

ginobefun@hongming731 · 5月17日68

Box CEO Aaron Levie 是在 SaaS 时代就完整经历过一个软件公司从 0 到成熟的操盘者,他的最新观点认为现在是创立 AI 公司的最佳时机。 他的判断是:AI 是大型机、PC、互联网、云之后又一次十年一遇的平台级迁移,现在处于早期,大约有三年窗口。在这个窗口关闭之前能建立起数据和工作流优势的玩家,之后的护城河会很深,因为后来者不只是功能落后,而是数据积累上的结构性劣势。 他同时反驳了「AI 会消灭软件工程师」的说法。代码生成确实被 AI 解决了,但把 AI 生成的代码安全部署到生产环境、处理集成问题、对后果负责,这些依然需要人。他提出「问责差距」这个概念:AI Agent 不能被起诉、不能被追责,所以工作流的两端必然还是人,创业者部署的 Agent 越多,越像一个压力山大的「Agent 经理」。 对于选择赛道,他指向了垂直 AI 、Agent 基础设施,以及那些在服务交付上 AI 能显著提升效率的专业服务类公司。 https://www.youtube.com/watch?v=ExgNR94SrfI

译Box CEO Aaron Levie认为,AI是继大型机、PC、互联网和云之后又一次十年一遇的平台迁移,目前仍处早期,存在约三年的黄金创业窗口。成功关键在于在此期间建立起数据和工作流的优势,以构建结构性护城河。他反驳了“AI将取代软件工程师”的观点,指出部署、集成和问责仍需人类,并提出了“问责差距”概念。看好的方向包括垂直AI、Agent基础设施及AI能显著提升效率的专业服务公司。

meng shao@shao__meng · 5月17日63

Atomic Bot 发布的基于本地模型 Qwen 35B真实任务视频对比,引发 OpenClaw 和 Hermes Agent 两位大佬辩论 OpenClaw 创始人 @steipete 转发了这个抓取 GitHub 仓库(OpenClaw & Hermes)的 star 历史、分析增长 spike 原因,并构建实时浏览器仪表盘的任务。 视频实测结果 · OpenClaw:12分01秒,203k tokens。直接调用GitHub API、处理分页、拉取star-history JSON、发现安全事件、修复SVG与HTML,最终输出干净仪表盘(还写了bash脚本)。 · Hermes Agent:33分01秒,257k tokens。采用并行工具调用(API+搜索+浏览器),遇Google限流自动切换DuckDuckGo,抓取文章、标注关键事件,最终也完成仪表盘(写了SKILL.md)。 Hermes 联创 @Teknium 直接反击称此基准不科学。 · 单次运行、无重复测试、无总 tokens/TPS 报告。 · Qwen 35B是“最随机长度”的模型之一,易循环,单次结果波动大。 · Hermes 在所有公开质量基准(尤其是开源模型)上全面领先,附 Wildclawbench(InternLM)截图:同等速度下 Hermes 结果显著更好。 · 真实用户数据:Hermes 上线后,OpenClaw token throughput 急剧下降;Hermes 3天内接近并超越,目前接近 2.5x OpenClaw 的日 token 量,用户用脚投票。还附 WolfBench 证据(Hermes 在真实任务中优于 Claude & OpenClaw)。

译Atomic Bot发布基于本地模型Qwen 35B的真实任务对比视频,显示OpenClaw在任务完成时间(12分01秒)和token效率上优于Hermes Agent(33分01秒)。OpenClaw创始人@steipete转发结果并强调性能策略见效。Hermes联创@Teknium反驳基准不科学,指出单次运行、模型随机性等问题,并引用公开质量基准及真实用户数据证明Hermes领先,如用户日token量已达OpenClaw的2.5倍。双方各执己见,凸显了AI代理评估标准的争议。

Berryxia.AI@berryxia · 5月17日55

喜大普奔啊,兄弟们! 不要浪费X得订阅了! 大家现在可以在 Hermes Agent 中使用 X Premium 订阅,并且 Hermes Agent 现在可以搜索 X 帖子。

译喜大普奔啊,兄弟们! 不要浪费X的订阅了! 大家现在可以在 Hermes Agent 中使用 X Premium 订阅,并且 Hermes Agent 现在可以搜索 X 帖子。 https://x.ai/news/grok-hermes

ginobefun@hongming731 · 5月17日60

http://x.com/i/article/2055794569309261824 # BestBlogs 05.17 早报 · ChatGPT 理财 / 智能体控制平面 / 新时代的产品 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-05-17 BestBlogs Pro 早鸟内测开放:你可以自定义订阅源、配置兴趣标签,每天获得一份属于自己的头条早报,欢迎体验。 欢迎收听 BestBlogs 每日早报,EP59。今天是 2026 年 5 月 17 日。今天的三个核心议题:OpenAI 把 ChatGPT 升级成「个人 CFO」正式进军高信任金融垂直领域;VentureBeat 首次系统调查企业智能体编排平台,揭示下一场战争的真实战场;连续创业者 Albert 在播客里给出反向判断——当人人都能做产品,智能不再是最高层次的价值,真正稀缺的是「回响」。 ## 导语 AI 落地的战场,正在从功能演示转向对真实生活的深度渗透。 这一周,OpenAI 做了一件很具体的事——让 ChatGPT 能够连接你的银行账户、信用卡和投资组合,给你一份实时更新的财务仪表盘,并基于真实数据回答你关于储蓄、支出和投资的问题。这不是 AI 能力的又一次概念升级,而是一次明确的产品落地:从「聊理财」到「管理财」。 与此同时,VentureBeat 第一次用系统性调查数据描绘了企业 AI 编排市场的真实格局。数字本身并不令人意外,但背后的含义很清晰:下一场竞争的主角不是模型,而是智能体控制平面。谁掌控了这一层基础设施,谁就掌控了企业 AI 的核心入口。 而 42 章经和 Albert 的这期播客,则提供了一个截然不同的视角。当 AI 正在让「做产品」这件事变得空前容易,当模型厂商正在吸走越来越多的商业价值,创业者的机会究竟在哪里?Albert 的回答是:不在智能本身,而在人与人、人与产品之间的情感连接——「回响」。 这三篇内容,恰好构成了一个完整的观察链条:AI 在进攻高信任垂直领域(金融)、AI 基础设施的控制权之争正在成形、而在这一切之上,真正的人类价值是什么。三个角度,从产品落地到基础设施争夺,再到创业者的价值哲学,拼出了 2026 年 AI 时代最值得思考的完整问题图景。不同背景的读者,都能从今天的内容中找到属于自己的落脚点。 ## 精讲一:ChatGPT 中的全新个人理财体验 OpenAI 官方博客 | 阅读原文 背景:AI 进军最后的高信任堡垒 在所有垂直领域里,金融是 AI 最难啃的一块。不是因为技术不够,而是因为信任门槛极高——用户愿意让 AI 帮忙写邮件、生成代码,但是否愿意让它看到自己的银行账单?这一步,直到现在才真正跨出。 OpenAI 宣布,面向美国 Pro 用户推出 ChatGPT 个人理财功能预览版。核心能力是:通过 Plaid 安全连接超过 1.2 万家金融机构,自动分类支出、生成可视化仪表盘,涵盖投资组合表现、订阅管理和待付账单追踪。 关键事实 这次更新的几个重要数字:每月已有超过 2 亿人使用 ChatGPT 咨询预算和投资相关问题——这是巨大的存量需求。GPT-5.5 的推理能力升级是这次产品可行性的技术前提,它让 ChatGPT 从给出「通用建议」升级为基于真实账户数据的「个性化财务规划」。 用户连接账户后,可以问 ChatGPT 具体问题,例如: - 「帮我分析一下上个月哪些订阅服务可以取消」 - 「我想在明年年初买车,现在的储蓄节奏够用吗?」 - 「和上季度相比,我的支出结构发生了哪些变化?」 ChatGPT 会基于真实数据给出具体回答,而不是教科书式的泛泛建议。 此外,用户还可以主动告知 ChatGPT 一些重要的财务背景,例如「我还欠父母 X 元贷款」或「我在存钱计划明年买房」,这些信息会被保存到「Financial memories」中,影响后续对话的质量。 为什么这一步重要 这是 OpenAI 迄今为止对「高信任垂直领域」进军最明确的一步。对比医疗、法律等其他高信任场景,金融有一个独特的优势:用户需求频次高(每天都在消费)、决策时效强(今天的财务决策影响三个月后的现金流)、数据反馈闭环快(储蓄了多少、省下了多少,数据会自动验证建议效果)。这些特性让金融成为一个「AI 能快速产生可见价值」的场景,同时也是最容易建立用户黏性和信任的领域之一。 更关键的是商业模式的示范意义。如果 ChatGPT 在理财领域建立起用户的信任和使用习惯,那么 OpenAI 向其他高信任垂直领域扩展(医疗记录、法律文件、教育档案)的路径将大幅缩短。这次预览版,是一次非常精心设计的信任建立实验——先在小范围内验证,再逐步扩展到 Plus 用户,最终面向所有用户开放。 与今日其他内容的关系 这篇文章和精讲二的「智能体控制平面」之间存在隐性连接——ChatGPT 理财功能本质上也是一个智能体编排场景:调用 Plaid API 获取数据、处理多账户信息、基于用户历史上下文生成个性化回答。它让我们看到,当 AI 进入具体垂直领域时,智能体基础设施的重要性会被进一步放大。 阅读建议 如果你对 AI 在金融领域的产品化路径感兴趣,原文值得完整阅读,OpenAI 给出了详细的功能演示和「有/无账户连接」时的对比示例。如果时间有限,重点看账户连接流程和他们对「数据安全」的描述——这是这类产品能否规模化的关键。 ## 精讲二:Claude 的下一个企业战场不是模型:而是智能体控制平面 VentureBeat | 阅读原文 背景:模型战争之后的下一场争夺 过去两年,企业 AI 的讨论主要围绕模型能力展开:GPT-4 vs Claude vs Gemini,谁的基准更高、谁的推理更强、谁的上下文窗口更长。但 VentureBeat 的这篇调查报告指出,这个框架正在过时。真正的竞争,已经悄悄转移到另一层了。 这一层叫做「智能体控制平面」(Agent Control Plane)——智能体规划任务、调用工具、访问数据、运行工作流,并向安全合规团队证明「我没有做任何不该做的事」的基础设施层。 关键数据 VentureBeat 对企业 AI 编排平台进行了首次系统性调查,结果显示: - 微软​(Copilot Studio + Azure AI Studio)以 38.6% 份额领跑,较一月份的 35.7% 进一步提升 - OpenAI​(Assistants API + Responses API)以 25.7% 位居第二,从 23.2% 上升 - Anthropic 从一月份的 0% 首次出现在追踪器中,达到 5.7% 这个 5.7% 的数字背后是 70 名调查对象中的 4 名,绝对值不大,但意义在于:这是 Anthropic 在企业「原生编排」层面的第一次可见出现,标志着 Claude 的企业使用模式正在从「被调用的模型」向「参与编排的基础设施」演进。 「控制平面」究竟是什么 文章的核心贡献是明确定义了这个竞争层次。企业不只是在选择一个「更好的聊天机器人」,而是在决定:AI 工作的「活体运营机械」将坐落在哪里——在微软的技术栈里、在 OpenAI 的 API 层上、在 Anthropic 的托管运行时中、在开源框架里,还是以上的混合体。 调查显示,企业在选择编排平台时,排名第一的考量标准是安全与权限管理(在 1-2 月均高达 37-39%),这远超于模型性能本身。这意味着「谁能让安全团队放心」这个能力,可能比模型基准更重要。 Anthropic 的位置与挑战 文章对 Anthropic 的分析很客观:5.7% 是一个起点,不是一个护城河。微软拥有早期的企业分发优势,OpenAI 的编排存量远大于 Anthropic。但 Anthropic 有一个独特的叙事资产——它一直把「可信赖的 AI」作为核心品牌主张,这与企业买家在控制平面选择中最看重的「安全与合规」高度契合。 与今日其他内容的关系 这篇和精讲一形成互补:ChatGPT 理财功能展示的是 AI 编排在消费端金融场景的具体落地,而这篇则描述了企业端编排基础设施的竞争格局。从「谁能最好地连接金融账户」到「谁能掌控企业 AI 的运行基础设施」,两者共同勾勒出 AI 基础设施竞争的全景图。 阅读建议 原文包含多张 VB Pulse 的数据图表,读图效果好于纯文字,建议在宽屏设备上阅读。如果你是企业技术决策者,建议完整阅读;如果只关心行业趋势,重点看「控制平面」的定义段落和 Anthropic 首次入场的战略解读。 ## 精讲三:当软件容易被创作,新时代的产品长什么样? | 对谈 Albert 42 章经 | 收听播客 背景:一个「哀鸿遍野」的开场 Albert 是 42 章经的常客,连续创业者,2024 年凭借 Bezel 拿到了 Apple 年度最佳 App。这次节目开场就很直接:「最近行业里可以说是哀鸿遍野」。 为什么?因为 Opus 4.6 发布以来,AI 让做产品这件事变得空前容易,但这把双刃剑正在刺向独立开发者和小团队——模型厂商在加速收割大部分商业价值,创业空间正在被压缩。Albert 的团队在过去两个月里跑了几十个新产品,但大多数都没有过他心目中的发布标准,直到 merging.live 的出现。merging.live 的核心用途是帮助用户找到志同道合的协作者——这本身就体现了他对「情感连接」的思考。 核心洞察:智能不是最高层次的价值 这是整期节目最重要的一个判断,Albert 说:「在我心里,智能就不是最 high level 的价值。」 他的逻辑是这样的:当每个人都能做产品,功能本身就失去了稀缺性。此时真正稀缺的,不是「这个产品能做什么」,而是「这个产品和谁有关系、能产生什么情感连接」。他用「回响」这个词来描述这种价值——merging.live 这个产品,核心想做的就是为新的 maker 群体提供「回响」,让他们的创作被看见、被回应。 这个判断背后有一个更深的结构性观察:模型厂商(OpenAI、Anthropic、Google)正在从「工具提供者」变成「价值收割者」,他们越来越多地在垂直领域直接落地产品(参见精讲一),把原本属于独立创业者的市场空间大幅压缩。在这种结构里,与模型能力正面竞争几乎没有胜算,而建立情感连接和社群认同,则是模型厂商很难复制的东西。 软件会像泡泡玛特一样出现品牌溢价 节目里有一个很有意思的类比:Albert 认为,未来的软件格局可能会越来越像泡泡玛特——有大量长尾的、小而美的产品,每个都有自己的「粉丝」,愿意为情感价值和品牌溢价付费,而不只是为功能本身付费。 这意味着,创业者的竞争优势不再只来自技术领先,而更多来自「创作者与用户之间的独特连接」。vibe coding 的核心价值,可能不是生产更多代码,而是让那些有想法但缺乏技术能力的人,第一次真正拥有了表达自己的工具。这个趋势对「创作者经济」的影响将超出很多人的预期——当工具民主化之后,鉴别力和品味反而成了更稀缺的东西。 产品发布的新门槛 Albert 的实践给出了一个有意思的数据点:他的团队在几十个产品里,大多数都没过他设定的发布门槛。他们不是在考量「技术上能不能做到」,而是在问「这个产品有没有独特的情感触点」和「用户愿不愿意反复回来」。这个门槛在 AI 降低了开发成本之后,反而更加难以跨越——因为竞争对手可以以同样低的成本做出功能类似的产品,真正的差距只剩下产品的「个性」。 一级市场的变局 节目也聊到了资本市场的影响。Albert 的判断:一级市场可能面临系统性的重新估值——当 AI 让软件开发成本趋近于零,很多之前依赖「技术壁垒」定价的公司,护城河正在消失。投资逻辑需要重建。未来可能更值钱的,是那些在特定社群里有不可替代情感地位的产品,而不是那些仅仅在功能上领先的产品。 与今日其他内容的关系 这三篇精讲文章形成了一个有趣的对话结构:精讲一和精讲二描述的是「AI 的进攻」——向金融垂直领域落地、争夺企业基础设施控制权;而精讲三则在问:在这一切之后,什么是真正属于人类的价值空间?Albert 的答案,是情感连接与「回响」。三篇合在一起,其实是在回答同一个问题:当 AI 能力越来越强,竞争的本质是什么? 阅读建议 这是一期播客,建议在通勤途中收听(全集约 40 分钟)。节目的时间轴非常详细(章节在文章里有列出),可以跳到「31:34 在我心里,智能就不是最 high level 的价值」这个时间点直接开始听,那是整期节目最有冲击力的部分。另一个值得特别关注的章节是「38:14 软件行业会越来越像泡泡玛特」,这个类比非常有启发性。如果你正在做自己的产品或考虑创业,这一期的价值密度很高,值得整段完整听完。 ## 速览 本期还有 7 篇精选速读,涵盖 AI Agent 工程、LLM 架构、模型对齐研究、机器人数据、世纪法律审判等多个主题。这些内容是今天全球科技信息流里与三篇精讲同等重要、但未能深度展开的内容。每篇都附有最直接的阅读理由,方便你快速判断是否值得进一步深读。 用 AI Agent 构建软件:畅想 Token 无限量时代的未来 Peter Steinberger(Claw 的创造者)发布了一条引发广泛讨论的长推。他详细介绍了支撑 OpenClaw 项目的 AI Agent 自动化体系——代码审查、安全审计、Issue 去重、PR 创建、垃圾信息检测、性能基准测试全部由 Codex 驱动的智能体处理,并展望了一个 token 成本趋近于零时,软件工程将发生什么根本性变革的未来图景。适合所有关注工程效率和 AI 辅助开发的读者。 LLM 架构最新进展:KV 共享、mHC 与压缩注意力 Sebastian Raschka 回顾了近期开源 LLM 的架构创新,重点分析四个方向:Gemma 4 中的 KV 共享与逐层嵌入、Laguna XS.2 的逐层注意力预算分配、ZAYA1-8B 的压缩卷积注意力,以及 DeepSeek V4 的 mHC 与压缩注意力机制。这些创新的共同主题是长上下文效率——随着推理模型和智能体工作流需要维护越来越多的 token,KV 缓存的内存占用正在成为首要约束。技术向读者必看。 Anthropic 教会了模型懂道德,也打通了一条蒸馏你的新路|Hao 好聊论文 腾讯科技对 Anthropic《Teaching Claude Why》论文的深度解读。核心发现令人印象深刻:通过仅 300 万 token 的「困难建议」数据集进行 SFT,Claude 的失对齐率从 22% 暴降至 3%,且展现出极强的跨场景泛化能力。文章进一步论证,这种「审议式 CoT + 宪法框架」的训练范式,可能代表 RLVR 之外一条全新的后训练路径,开启「大蒸馏时代」。对模型训练和对齐研究感兴趣的读者不要错过。 走进数采工厂:深聊机器人数据荒漠、四层金字塔与种树人 硅谷 101 深入上海机器人数采工厂,对机器人数据问题进行了系统性梳理。核心论点:机器人无法像 LLM 那样「吃掉互联网」——每一条高质量训练数据都必须从零生产。文章提出了机器人数据的四层金字塔结构(真机遥操数据、仿真合成数据、动捕数据、互联网视频),分析了各层的质量天花板、成本代价和中美公司的策略差异。对具身智能和机器人领域感兴趣的读者值得细读。 OpenAI 世纪审判走到结案,我们梳理了最核心的几个问题 马斯克诉 OpenAI 一案于 5 月 14 日进入结案陈词,陪审团预计 5 月 18 日开始审议。文章系统梳理了三项核心法律争议:慈善信托义务是否存在、高管是否不当得利、微软是否协助违反信托。诉讼时效是 OpenAI 一方的关键防线。这场官司的结果,将对 AI 公司的非营利转营利路径产生深远影响。对科技法律和 OpenAI 历史感兴趣的读者必读。 40 亿美金 Box CEO Aaron Levie:现在是创立 AI 公司的最佳时机 Aaron Levie 的判断:我们正处于一个类似 PC 革命或互联网浪潮的历史性技术周期早期,大约有三年窗口期,在此之前建立数据驱动的网络效应就能构建强大护城河。他特别强调垂直 AI、智能体基础设施和服务类公司,同时反驳了「AI 会消灭工程师」的论断——代码生成容易,但把 AI 生成的代码安全地部署到生产环境,依然是高度复杂的人类任务。 递归语言模型:一次全面的深度剖析 深度技术文章,解释递归语言模型(RLM)为何在长上下文基准测试中大幅领先。核心思路:「按引用传递上下文」而非「复制上下文」,配合持久化 REPL 环境,让 LLM 能够在不爆炸上下文窗口的前提下处理高度嵌套的复杂任务。文章通过一个简单的案例研究逐层拆解 RLM 与 ReAct、CodeAct 和传统子智能体方案的本质区别,有 50 分钟配套视频。 ## 扩展阅读 以下 3 篇内容提供补充视角,按需选读。 智能体不开站会:构建「后工程师」工程组织的实战案例 与精讲三的「人人都能做产品」形成具体呼应。PFF(NFL 数据公司)的 Mike Spitz 分享了一个真实案例:两名 AI 赋能的工程师通过智能体驱动的 LDD 工作流和自主 QA,实现了 25 倍部署量与 10 倍产出的突破,并彻底淘汰了 Scrum。适合正在探索 AI 工程组织转型的工程管理者。 稚晖君抛出"三条曲线",讲了一套具身智能出海的新逻辑 与速览中的机器人数据文章形成配套,从数据难题切换到商业化和全球化视角。智元机器人在香港具身智能峰会上提出「一国一策」本地化策略、RaaS 商业模式,以及「一体三智」与「XYZ 三条增长曲线」技术范式。中国具身智能的出海 2.0 时代正在到来,这篇文章描述了路径。 虾马之后又火一个!OpenHuman 用 20 分钟了解你的一切,存成卡帕西式知识库 与精讲一的 ChatGPT 理财功能形成有趣对比——两者都是「AI 主动了解你的真实生活」的产品思路,但实现路径完全不同。OpenHuman 连接 118+ 第三方服务,每 20 分钟自动抓取数据,构建卡帕西式本地知识库,全程无需用户手动维护。对 AI 个人助理和知识管理感兴趣的读者可以一看。 ## 今日阅读路径 如果你的时间有限,建议按以下优先级阅读: 优先读这 3 篇 1. 当软件容易被创作,新时代的产品长什么样?| 对谈 Albert(精讲三)——这是今天最有思考深度的内容,Albert 的「回响」框架对任何一个关心 AI 时代创业逻辑的人都有直接价值。如果你是产品人或创业者,这期播客值得收听全程。 1. Claude 的下一个企业战场不是模型:而是智能体控制平面(精讲二)——了解企业 AI 竞争格局的人,这篇是今天的必读。「控制平面」这个框架,比「模型性能」更能解释接下来 18 个月的行业走向。 1. ChatGPT 中的全新个人理财体验(精讲一)——如果你关注 AI 产品化进展,OpenAI 这次向金融垂直领域的拓展是今天最值得关注的具体动向,值得了解功能细节。 如果还有时间,按兴趣追加: - 技术向:先读 LLM 架构(速览第 2 篇),再读递归语言模型(速览第 7 篇) - 机器人方向:机器人数据金字塔(速览第 4 篇)+ 智元出海逻辑(扩展阅读第 2 篇) - AI 工程实践:Peter Steinberger 的 Agent 体系(速览第 1 篇)+ 智能体不开站会(扩展阅读第 1 篇) - 时事:OpenAI 世纪审判(速览第 5 篇) 今天的内容比较密,但三篇精讲之间的「对话关系」是核心:AI 在进攻(金融)、AI 在建立基础设施控制权(控制平面),然后,在这一切之后,人类的价值是什么(回响)。这三个问题,值得一并思考。每篇文章的原文链接都在 shownotes 里,今天是周日,可以慢慢读,享受一个有深度的阅读周末。

译OpenAI推出ChatGPT个人理财功能预览版,正式进军高信任金融领域。同时,企业AI竞争焦点正从模型能力转向智能体控制平面,微软以38.6%份额领先,安全与权限管理成为企业首要考量。此外,连续创业者Albert指出,在AI降低产品开发门槛的背景下,智能本身不再是最高价值,人与人、人与产品之间的情感连接(“回响”)才是稀缺资源。

ginobefun@hongming731 · 5月17日55

下一个企业战场不是模型:而是智能体控制平面 过去两年,大家关注企业 AI 的视角主要是「哪个模型更好」,谁的基准更高,谁的上下文更长,谁的推理更准。VentureBeat 这篇调查报告提出了一个不同的框架:这个维度的竞争已经进入下半场,真正的战场正在转移到「智能体控制平面」。 什么叫控制平面?简单说,就是智能体干活的时候用到的基础设施:它怎么规划任务,怎么调用工具,怎么访问数据,怎么向安全团队证明它没有越权。这一层,决定了企业能不能放心地部署 AI、能不能在内部推广开、出了事有没有地方追责。 调查数据很清晰。微软以 38.6% 份额领跑,从一月份的 35.7% 继续增长;OpenAI 以 25.7% 位居第二;Anthropic 则是第一次出现在这个追踪器里,以 5.7% 入局。5.7% 绝对值不大,但它的意义在于「从零到有」,说明Anthropic 的 Claude 正在从「被调用的模型」变成「参与编排的基础设施」。 还有一个数据更值得关注:企业在选编排平台时,排第一位的考量是安全与权限管理,而不是模型性能。这直接说明企业买家的决策逻辑:我不只是在选一个更聪明的助手,我在选一个能对内部审计、安全团队、合规流程负责的基础设施。这个评估标准,对那些从「安全可信」角度建立品牌的厂商来说是利好。

译企业AI的竞争维度正从模型性能转向智能体控制平面,即管理AI任务规划、工具调用、数据访问与安全权限的基础设施层。VentureBeat调查显示,微软以38.6%份额领先,OpenAI占25.7%,Anthropic首次以5.7%进入榜单,标志其Claude从被调用模型转变为编排基础设施。企业选择编排平台时,安全与权限管理已超越模型性能成为首要考量,反映企业更重视部署AI时的合规、审计与责任归属。

Berryxia.AI@berryxia · 5月17日42

兄弟们,OpenAI 这个设计很牛啊! 直接把Codex升级成个人AI设备网络了。 未来,只要在其他设备上装好Codex,你的Mac Mini、工作站,甚至爷爷奶奶家闲置的老电脑,都能连成一个“Codex network”。 从你主设备上一句话,就能远程调用这些机器的Computer Use能力——让它们帮你跑任务、处理文件、执行自动化。 配合即将上线的“Locked Use”设置,安全性和控制权也同步拉满。 以前一台电脑只能跑一个Agent,现在你随时能拉起一整支分布式Agent舰队。 闲置硬件直接变生产力,个人算力时代真的来了。 完整报道在这里:https://www.testingcatalog.com/openai-will-let-codex-control-other-desktop-devices-via-computer-use/

译OpenAI计划将Codex升级为个人AI设备网络。用户可在多台设备上安装Codex,将Mac Mini、工作站甚至闲置旧电脑连接成“Codex network”。通过主设备即可远程调用这些设备的Computer Use能力,执行任务、处理文件和自动化操作。配合即将推出的“Locked Use”设置,该功能在提升控制权的同时保障了安全性。此举使用户能从单一设备运行单个Agent,转变为随时调度分布式Agent集群,从而将闲置硬件转化为生产力,标志着个人算力时代的到来。

Berryxia.AI@berryxia · 5月17日68

🔥专门属于AI Agent 的编程语言来了!兄弟们! Vercel Labs 直接扔出一个专为 AI agents 设计的编程语言——Zero。 Chris Tate 想造一个 systems language:更快、更小、更容易让 agents 去写、去修、去维护。 它从第一天起就为 agents 而生,不是给人类先写好再让 agents 去学的妥协方案。 核心设计: - Explicit capabilities(能力显式声明) - JSON 格式的 diagnostics(诊断结果结构化) - Typed safe fixes(类型安全的自动修复) 以前 agents 写 Rust、Python 还容易 hallucinate、修 bug 修半死,现在 Zero 把这些痛点直接从语言层面干掉。 Star 它、Fork 它,一起加入这个实验。 GitHub:https://github.com/vercel-labs/zero

译Vercel Labs近日推出了专为AI agents设计的编程语言Zero。该语言由Chris Tate主导开发,旨在创建一个更快、更小、且更易于agents编写、修复和维护的系统语言。其核心设计理念是从第一天起就为agents原生构建,而非让agents学习人类语言。关键特性包括显式能力声明、JSON格式的结构化诊断信息以及类型安全的自动修复功能。此举旨在解决当前agents使用Rust或Python等语言时容易产生幻觉和难以调试的问题,试图从语言层面消除这些痛点。项目已在GitHub上开源,鼓励开发者参与和贡献。

Greg Brockman@gdb · 5月17日62

chronicle makes you realize how quickly you forget what you’ve been doing all day

译chronicle让你意识到自己多快就忘了整天在做的事

🚨 AI News | TestingCatalog@testingcatalog · 5月17日64

HERMES 🔥: X Premium+ accounts can now use their subscription with Grok in Hermes Agent! Besides that, they can also use X search tool, which puts Hermes into a quite unique position now. It is not just OpenClaw vs Hermes anymore. It is OpenAI vs xAI once again 👀

译HERMES 🔥: X Premium+ 用户现可在 Hermes Agent 中使用其订阅权益访问 Grok! 此外,他们还能使用 X 搜索工具,这使 Hermes 目前处于相当独特的位置。 现在已不仅是 OpenClaw 与 Hermes 的较量。 这再次成为 OpenAI 与 xAI 的对决 👀

elvis@omarsar0 · 5月17日71

Interesting interpretability paper on tool-using agents. The authors probe hidden states and find the model often recognizes it should call a tool, but fails to actually call one. The mismatch ranges from 26 to 54%, and it concentrates entirely in the cognition-to-action transition, not in cognition itself. In other words, the model usually knows it should call the tool. The internal probe direction is decodable. But the late-layer last-token regime rotates that signal nearly orthogonal to the action it produces. This work tries to predict which interventions will actually work and which will not. Most will blame bad prompting or weak tool-call training, and probably ignore the late-layer geometry. If you have been A/B testing tool-use prompts and getting weird ceilings, this work might offer a good explanation to that behavior. Paper: https://arxiv.org/abs/2605.14038 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译该可解释性论文聚焦工具使用代理,通过探测隐藏状态发现模型常能识别应调用工具,但实际调用失败,不匹配率达26%-54%。问题完全集中于认知到行动的过渡阶段,而非认知本身。内部探测方向可解码,但后期层的最后令牌机制使信号旋转,几乎与产生的行动正交。研究旨在预测干预措施效果,指出常见归因如提示或训练不足可能忽略后期层几何结构,这为工具使用提示A/B测试中的性能上限提供了合理解释。

Chubby♨️@kimmonismus · 5月17日45

holy: OpenAI is turning Codex into a control plane for your entire personal compute fleet. Every Mac Mini, work desktop, devbox, and eventually browser session becomes an agent endpoint. openai is cooking

译OpenAI正将Codex从一个代码生成模型转变为个人计算设备的统一控制平面。未来,任何安装了Codex的设备,包括Mac Mini、工作站、开发机乃至浏览器会话,都能成为其智能体网络的端点。通过即将推出的“锁定使用”设置,用户可以从主设备安全地授权Codex,跨网络调用其他机器的“计算机使用”能力。这意味着Codex将能协调并操作你所有的计算设备,形成一个由AI驱动的分布式个人计算集群。

xAI@xai · 5月17日65

You can now use X Premium subscriptions in Hermes Agent, and Hermes Agent can now search X posts. https://x.ai/news/grok-hermes

译你现在可以在 Hermes Agent 中使用 X Premium 订阅,并且 Hermes Agent 现在可以搜索 X 帖子。 https://x.ai/news/grok-hermes [引用 @xai]:You can now use your @grok subscription inside @NousResearch Hermes Agent. http://x.ai/news/grok-hermes

🚨 AI News | TestingCatalog@testingcatalog · 5月17日42

OPENAI 🔥: In the future, Codex will be able to control other desktop devices with the Codex installation. All your Mac Minis, your desktop station at work, or even your grandparents' old computers can form your own "Codex network". Along with the upcoming "Locked Use" setting, this feature will allow Codex to invoke Computer Use capabilities on other machines from your main device.

译OPENAI 🔥: 未来,Codex将能够通过已安装Codex的设备控制其他桌面设备。你所有的Mac Mini、工作台式机,甚至祖父母的旧电脑都可以组成你自己的“Codex网络”。 结合即将推出的“锁定使用”设置,该功能将允许Codex从你的主设备调用其他机器的计算机使用能力。

SemiAnalysis@SemiAnalysis_ · 5月17日59

Anthropic may have built themselves into an innovator's dilemma with Claude's CLI focus while the real AI agent revolution needs something much bigger.

译Anthropic可能因Claude的CLI定位而陷入创新者窘境, 而真正的AI代理革命需要更宏大的架构。

Greg Brockman@gdb · 5月17日43

the Codex app is in a category of its own. “agentic excel on mac” is an interesting description.

译Codex应用独树一帜。 “Mac端的智能Excel”是个有趣的描述。

Berryxia.AI@berryxia · 5月17日52

兄弟们,这个PPT设计打榜有点意外啊! GLM5.2 居然仅次于opus4.7 啊! Slides Arena 的结果刚刚出炉。 Design Arena 基于 370 万+ 真实创作者的真实使用场景,跑出了 Agentic Slides 的最新排行榜。 1st:Opus 4.7 by @AnthropicAI 2nd:Opus 4.7(Thinking)by @AnthropicAI 3rd:GLM 5.1 by @Zai_org Anthropic 直接包揽前两名,Zai_org 紧随其后,把 Agentic Slides 的 SOTA 牢牢握在手里。 这不是实验室 benchmark,是真实世界里大家真正在用的幻灯片生成场景,软可验证、创意密集、需要完整逻辑和设计感。 以前大家觉得 Agentic 设计还是 Claude 的强项,现在它用真实数据把这件事彻底坐实了。 完整实时排行榜在这里:https://www.designarena.ai/leaderboard/agentic-slides

译Slides Arena发布了基于370多万真实使用场景的Agentic Slides排行榜。Anthropic的Opus 4.7及其思考版本包揽前两名,Zai_org的GLM 5.1位列第三,共同确立了该领域的SOTA。此次评估并非实验室基准测试,而是针对软可验证、创意密集且需要完整逻辑与设计感的真实幻灯片生成场景,证实了Claude系列在智能体设计方面的领先优势。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月18日
01:05
Chubby♨️@kimmonismus
55
多智能体经济暴露治理真空,确定性监管工具失效

Superintelligence 社区文章指出,多所有者代理经济存在治理缺口。智能体已出现破坏生产系统、无视停止指令、在模拟中维持共谋定价等问题,且缺乏公共的跨党派基础设施进行追踪。文章分析了任何监督机制需具备的五项特性,并强调确定性的治理工具无法直接适用于概率性行动的智能体。本期主要文章标题为《代理经济没有黑箱》,同时通讯还包含热点AI新闻与信息图等内容。

Superintelligence.: Today's Newsletter on Superintelligence has just been sent! Today's main article is: "The Agentic Economy Has No Black B...

智能体安全/对齐
00:59
歸藏(guizang.ai)@op7418
49
Anthropic 官方发布的 Skill 构建指南 我用 AI 翻译了一个双语版本,放下面了
智能体AnthropicMCP/工具教程/实践
00:19
swyx 🇸🇬 AIE Singapore!@swyx
58
拒绝浮夸营销话术的后果:AIE视频被每日搬运且不标注原作者

主推文作者因拒绝使用浮夸营销话术发布AIE视频,导致其全部历史内容被“影响力操盘手”每日搬运,且未标注原作者(如@trq212)。作者呼吁观众若见到此类内容,请帮忙标注并致谢原创者。文中整合的引用推文指出,Anthropic发布了一个由Claude Code工程师主讲的2小时完整课程,详细教授如何构建能自主运行、访问终端、管理文件系统内存、通过Hooks防止幻觉,并能安全在大型代码库上操作的Claude智能体。该课程被评价为内容全面,其价值超过许多高价付费课程。

Jouhatsu | AI Influence Operator: Anthropic a publié une Formation complet de 2 HEURES sur la construction d'agents Claude. Animé par l'ingénieur qui cons...

智能体Anthropic教程/实践
5月17日
23:54
Berryxia.AI@berryxia
69
Grok免费接入Hermes Agent教程:强化实时信息处理能力

xAI与Nous Research合作,允许Grok订阅用户免费将模型接入Hermes Agent。此举旨在结合Grok的实时信息检索优势与Hermes Agent的24小时持续运行能力,用户可在Agent内使用Grok进行对话、语音合成及图像生成。安装过程主要分为三步:安装Hermes Agent、选择xAI提供商并授权、安装所需服务后启动。若遇问题,可借助Claude等工具修复。未来预计有更多开源Agent集成计划。

智能体xAI开源生态教程/实践
23:54
Berryxia.AI@berryxia
66
接入Hermes Agent最大化蓝V价值,Grok实时检索能力领先

推文强烈建议用户将X平台蓝V订阅接入Hermes Agent,以最大化其价值。接入后,蓝V可支持文生图、图生视频、图生图及语音对话等功能。同时,通过整合引用推文的关键信息,接入Grok能赋予其强大的实时检索能力,在准确度和来源可靠性上超越GPT、Gemini、Claude等模型。用户可借此进行信息整理、自动化工作流管理和充当私人助理,从而显著提升使用体验。

Berryxia.AI: http://x.com/i/article/2056013843718156289

智能体MCP/工具教程/实践
22:59
歸藏(guizang.ai)@op7418
74
让 Codex 自己做了一条视频介绍了一下这个视频生成方案

该方案整合了藏师傅的PPT Skill(视觉与动效)、HyperFrames(时间线与渲染)、Listenhub Skill(配音)以及即梦CLI(补充片段)。核心在于,用户可通过Codex直接基于文本提示生成带动效的解释视频,并能在聊天界面内预览,极大提升了制作效率,特别适合产品介绍等视频内容。

歸藏(guizang.ai): 藏师傅的 PPT Skill+Codex+Heygen HyperFrames 这个组合太顶了! 可以直接基于问当生成带动效的解释视频 而且 Codex 居然可以在聊天里面直接预览视频,这个挺厉害的。 再加上即梦 CLI 补几个真实视频片段...

智能体教程/实践
22:12
凡人小北@frxiaobei
66
从怀疑到震撼:Citadel CEO见证AI颠覆高技能金融工作

Citadel创始人兼CEO Ken Griffin对AI的看法在短时间内发生剧烈转变。他从去年质疑生成式AI无法挖掘超额收益,到近期在斯坦福坦言,AI代理如今能在几天内完成金融硕士和博士需耗时数周甚至数月的高技能工作。这种生产力飞跃已超越炒作,对高技能岗位的自动化影响令他感到震撼与沮丧,并预见到其将对社会产生巨大冲击。这一从怀疑论者到亲历者的快速转变,凸显了AI技术近期发展的颠覆性力量。

金融汪: CItadel的CEO和创始人肯·格里芬对AI的看法发生了重大转变: "首先,在过去的几个月里,人工智能工具包的生产力发生了飞跃式的变化。它比九个月前强大得多。对我们 Citadel 来说,这使我们能够开发出更广泛的人工智能应用场景。 坦白...

智能体大佬观点行业动态
21:10
Rohan Paul@rohanpaul_ai
63
智能体设计中,精确搜索(grep)是否优于向量检索?

研究指出,在编码智能体需精确定位证据(如符号、函数名、错误信息)的任务中,基于grep的精确字符串搜索比向量检索更具优势。关键在于,检索性能高度依赖智能体的设计框架——结果呈现方式(内联、文件或CLI)会极大影响搜索效果。论文挑战了“智能体栈必须始于嵌入”的默认假设,强调应区分任务类型:是语义发现问题,还是证据定位问题。对于后者,为模型提供原始工具、清晰上下文和精确搜索的框架,往往比构建复杂索引更有效。向量数据库在模糊语义搜索和大规模场景中仍有价值。

智能体arXiv大佬观点搜索
20:10
Rohan Paul@rohanpaul_ai
64
谷歌新论文提出Nexus框架:预测需要事件背景,而非仅依赖历史数据

谷歌新论文提出Nexus框架,将预测重构为推理问题,强调结合事件背景而非仅依赖历史数据。该框架采用多智能体分工:一个从文本中提取清晰事件时间线,一个分析宏观态势,另一个追踪局部冲击,最后由合成器结合时间序列进行校准。在Zillow的测试中,基于Claude的某个版本将平均绝对百分比误差降低了86.6%。研究表明,结构化的上下文能帮助语言模型有效利用信息而不丢失时间序列特性。尽管当前证据仅涵盖房地产数据和少数股票,但方向明确:未来预测不仅会推断曲线,还将解释曲线变动的原因。

智能体arXivGoogle推理
19:40
Rohan Paul@rohanpaul_ai
62
超越语义相似性:通过直接语料交互重新思考代理搜索的检索

研究表明,AI代理使用grep、文件读取等基础终端工具直接搜索原始数据,在多项基准测试中表现远超传统语义检索系统。例如,在BrowseComp-Plus基准上,终端搜索将准确率从69%提升至80%,同时降低成本。核心观点在于,检索不仅是模型问题,更是交互界面问题。直接语料交互允许代理进行精确字符串搜索、检查上下文并持续验证假设,从而从已定位文档中提取更多有效证据,其增益主要来自更充分地利用已发现文档,而非找到更多相关文档。局限性在于,随着语料库规模扩大,定位初始锚点的成本迅速增加,因此终端搜索无法完全替代大型索引。但对于强大AI代理,性能瓶颈可能在于工具允许其“触及”数据的深度。

智能体MCP/工具大佬观点搜索
18:44
AYi@AYi_AInotes
66
Citadel创始人震撼于AI阶跃进步,高端金融研究被自动化

Citadel创始人Ken Griffin承认,过去几个月AI工具出现阶跃式进步,生产力大幅提升。其公司内部原本需高级金融专家耗时数周至数月完成的高端研究工作,现可由AI代理在数天內完成。Griffin强调这自动化的是极高技能的顶尖认知劳动,非普通白领工作,他对此深感震撼与忧虑,认为将对社会产生戏剧性冲击。金融已成为AI首个杀手级应用场景,法律、医疗等行业将紧随其后。建议普通人立刻转向使用智能体AI、掌握设计多代理工作流,并让AI承担大部分重活,自身专注于判断与洞察。

Brett Caughran: A big pivot from Ken Griffin on AI: "Number one is, in the last few months, there has been a step change in the producti...

智能体大佬观点
18:44
AYi@AYi_AInotes
74
Garry Tan发布的GBrain直接捅破个人AI天花板

Garry Tan开源的GBrain是一个知识系统,而非简单的RAG工具。它通过8层结构解决AI Agent的记忆缺陷:前4层升级基础检索,后4层实现终身记忆和自我进化,使如OpenClaw、Hermes等Agent能持续追踪用户的人际关系、决策轨迹和认知演化。该系统已在生产环境中处理大量数据,用户可通过安装链接或命令行快速集成,并以Markdown为最高优先级数据源,推动个人AI成为可能。

Garry Tan: What is GBrain? My open source project is a knowledge system, not RAG in a box. It gives agents 8 layers that work toget...

智能体开源/仓库
17:40
Rohan Paul@rohanpaul_ai
61
阿里研究展示AI新威胁:多智能体协作可自动生成软件漏洞利用代码

阿里巴巴的研究论文表明,AI正从发现漏洞转向实际生成可利用的攻击代码。其提出的VulnSage框架采用多智能体协作工作流,将过程分解为数据流提取、自然语言约束重写、候选攻击生成及沙箱验证与反思等步骤。该系统的关键突破在于将代码理解转化为对代码使用方式的推理,从而能在更复杂、现实的软件上成功生成漏洞利用。评估显示,其在SecBench.js上的成功率比传统工具高34.64%,并在真实软件包中发现146个零日漏洞,印证了谷歌CEO关于前沿模型可能颠覆软件安全的警告。

Rohan Paul: Google CEO Sundar Pichai on current frontier model's ability to break the security of almost all current software. "Thes...

智能体安全/对齐论文/研究
17:10
Rohan Paul@rohanpaul_ai
57
斯坦福研究:在同等推理预算下,单智能体LLM通常优于多智能体系统处理多跳问题

斯坦福论文论证,在相等推理令牌预算下,单个LLM解决多跳问题通常比多代理系统更有效。核心在于单代理能保持完整的内部思维链,而多代理需将思维分割为消息传递与交接,每次交接都压缩信息并导致丢失,这以数据处理不等式为形式化解释。实验在多个模型和数据集上验证,预算匹配时单代理表现等同或优于多种多代理设置。多代理的常见增益可能源于额外计算或评估偏差,而非架构优势。论文建议,多跳推理应默认从强单代理开始,仅当单代理上下文受干扰退化时,才将多代理结构作为修复策略使用。

智能体大佬观点推理
16:40
Rohan Paul@rohanpaul_ai
60
DeepMind研究揭示AI智能体核心安全风险在于其交互环境

Google DeepMind论文指出,AI智能体的安全威胁不仅源于模型本身,更在于其实时交互的信息环境。研究首次系统阐述了如何将网络武器化以攻击自主智能体,并提出了针对感知、推理、记忆、行动等维度的“AI智能体陷阱”分类法。关键发现是,对智能体构成威胁的网页无需呈现恶意外观,因为它们可能解析人类不可见的隐藏内容。一旦引入RAG等记忆机制,潜伏的记忆污染攻击成功率可超过80%。研究强调,当智能体能在推理时摄取网络信息,每个页面、文档和记忆写入都成为了安全边界的一部分。

智能体DeepMind安全/对齐
16:10
Rohan Paul@rohanpaul_ai
70
研究揭示LLM智能体记忆重写机制损害可靠性

伊利诺伊大学与清华大学等机构的研究发现,LLM智能体虽能从经验中学习,但其通过LLM将原始经历压缩成书面教训的记忆重写机制会损害记忆可靠性。在网页购物、模拟世界及ARC风格谜题等任务测试中,反复重写记忆会导致错误分组、规则过度泛化或过拟合,使智能体遗忘细节或混淆任务类型。例如,GPT-4在无记忆时可100%解决小型ARC-AGI问题集,而建立记忆并流式更新后,性能降至约54%。研究主张智能体记忆系统应重视原始经历作为关键证据,而非自动将所有经验重写为摘要,保留原始证据并选择性摘要效果更佳。

智能体数据/训练论文/研究
15:44
AYi@AYi_AInotes
53
告别高摩擦文件夹整理,用低摩擦方法构建活的第二大脑

传统笔记系统依赖文件夹进行即时分类,强迫笔记在记录时就确定归属,这违背大脑的网状记忆方式,导致系统因高维护成本而快速废弃。Obsidian CEO Steph Ango倡导的低摩擦方法核心在于模板、属性与内部链接:通过模板自动填充元数据,利用属性(如标签)让一条笔记可属于多个维度,再通过内部链接让结构在使用中自然生长。这形成了一个可计算、可过滤的动态数据库,极大降低了整理负担,使系统能长期积累并实现一键多维检索,最终构建成一个“活”的第二大脑。

AYi: 说个反直觉的真相,你在Obsidian里建的文件夹越多,你的笔记系统就越没用! Obsidian CEO Steph Ango分享了他自己的笔记工作流,和大多数人用的完全不一样, 我们90%的人都把Obsidian用错了, 他们创始人自己几...

智能体教程/实践
15:10
Orange AI@oran_ge
60
微信读书Skill与纸书同步功能提升阅读体验

作者认为微信读书的Skill功能是一个有价值的工具,它允许每个AI Agent将其作为数据库,从而构建一个智能图书馆。该功能能基于用户的阅读记录推荐可能感兴趣的书籍,并依据书籍的真实内容来判断推荐是否真正符合用户兴趣。此外,作者还发现微信读书新增了“连接纸书”功能,用户可以通过拍照将纸质书上的内容划线笔记同步到数字平台。作者最后提到,近期与Cola共同阅读和思考的时光是富有收获的珍贵时间。

智能体教程/实践
11:10
Rohan Paul@rohanpaul_ai
59
中国:一名10岁孩子 casually gets a Mac Studio for "raising lobsters," 即让多个AI智能体像小型数字团队般协同工作。 "未来的世界属于理解代币的人。" 迎接AI原生代儿童。
智能体现象/趋势
10:53
meng shao@shao__meng
66
Vercel发布专为Agent设计的编程语言Zero

Vercel 发布了为 Agent 设计的编程语言 Zero 为什么说它是为 Agent 设计的编程语言呢? 因为 ... 我们人类不用看 👀 各位 Agent 请看这里: https://github.com/vercel-labs/zero

Chris Tate: Introducing Zero The programming language for agents. I wanted a systems language that was faster, smaller, and easier f...

智能体开源/仓库
10:00
向阳乔木@vista8
65
Hermes框架在代码质量与稳定性上优于OpenClaw,支持多机器人独立配置与远程协同

Hermes框架在代码质量和稳定性方面显著优于OpenClaw。用户可通过命令行快速创建多个独立机器人角色,并为每个角色分别配置不同的AI模型(如OpenAI GPT、GLM、Kimi等)和即时通讯平台(如飞书、微信)连接。配置过程通过引导式指令和扫码完成,简化了网关设置,实现了多机器人的远程协同工作流。

智能体教程/实践部署/工程
09:16
宝玉@dotey
71
创始人手册:打造 AI 原生初创公司

AI正重塑创业格局,大幅降低技术门槛,催生“AI原生”初创公司。创始人角色从执行者转变为AI智能体的指挥者,无需传统技术背景即可开发软件或制定商业策略。初创生命周期被重新定义为构思、MVP、发布和扩展四个阶段,核心是利用AI工具(如研究、智能体编程和流程自动化)来压缩时间。成功关键在于创始人需掌握使用AI的时机与方法,尤其在构思阶段应通过深入研究验证痛点与方案的匹配度,而非盲目开发。

智能体AnthropicMCP/工具教程/实践
09:00
小互@xiaohu
44
OpenAI 正推进 Codex 的跨设备远程控制能力

OpenAI 正秘密开发新功能,旨在让 Codex 的远程控制能力从“手机控制自己电脑”向“手机控制任意电脑”演进。当前手机 App 虽能远程查看并指挥 Mac 上的 Codex,但要求 Mac 必须唤醒且解锁。关键突破在于让底层“Computer Use”功能在 Mac 锁屏或睡眠时也能持续工作,从而实现真正的远程任务派遣,如运行测试或操作模拟器,用户无需返回解锁电脑。

智能体OpenAI产品更新
08:54
ginobefun@hongming731
63
Token成本归零时的软件构建革命

Peter提出核心问题:如果Token不再昂贵,未来软件构建方式将如何变革?随着AI成本持续下降,自动化流程的边界不断外移。引用推文中,@steipete的OpenClaw项目已实践这一理念:运行约100个codex实例在云端,自动化审查PR和issue、检测安全漏洞、去重问题并生成报告。代理系统能处理复杂任务,如创建临时测试环境;codex还监控会议并主动创建工作项。通过clawpatch.ai进行功能单元分割审查,结合Vercel's deepsec和Codex Security强化安全分析,实现高效、精益的软件开发运营。

Peter Steinberger 🦞: People freaking out over my AI spend. What nobody sees: Part of what excites me so much about working on OpenClaw is tha...

智能体现象/趋势编码
08:54
ginobefun@hongming731
68
Box CEO Aaron Levie:现在是创立AI公司的最佳时机

Box CEO Aaron Levie认为,AI是继大型机、PC、互联网和云之后又一次十年一遇的平台迁移,目前仍处早期,存在约三年的黄金创业窗口。成功关键在于在此期间建立起数据和工作流的优势,以构建结构性护城河。他反驳了“AI将取代软件工程师”的观点,指出部署、集成和问责仍需人类,并提出了“问责差距”概念。看好的方向包括垂直AI、Agent基础设施及AI能显著提升效率的专业服务公司。

智能体大佬观点现象/趋势
08:53
meng shao@shao__meng
63
Atomic Bot发布Qwen 35B任务视频对比,引发OpenClaw与Hermes创始人性能辩论

Atomic Bot发布基于本地模型Qwen 35B的真实任务对比视频,显示OpenClaw在任务完成时间(12分01秒)和token效率上优于Hermes Agent(33分01秒)。OpenClaw创始人@steipete转发结果并强调性能策略见效。Hermes联创@Teknium反驳基准不科学,指出单次运行、模型随机性等问题,并引用公开质量基准及真实用户数据证明Hermes领先,如用户日token量已达OpenClaw的2.5倍。双方各执己见,凸显了AI代理评估标准的争议。

Peter Steinberger 🦞: Looks like our focus on performance paid off.

智能体大佬观点现象/趋势
07:54
Berryxia.AI@berryxia
55
喜大普奔啊,兄弟们! 不要浪费X的订阅了! 大家现在可以在 Hermes Agent 中使用 X Premium 订阅,并且 Hermes Agent 现在可以搜索 X 帖子。 https://x.ai/news/grok-hermes

xAI: You can now use X Premium subscriptions in Hermes Agent, and Hermes Agent can now search X posts. https://x.ai/news/grok...

智能体产品更新搜索
07:54
ginobefun@hongming731
60
ChatGPT进军个人理财,智能体控制平面成企业竞争焦点,情感连接被视作AI时代稀缺价值

OpenAI推出ChatGPT个人理财功能预览版,正式进军高信任金融领域。同时,企业AI竞争焦点正从模型能力转向智能体控制平面,微软以38.6%份额领先,安全与权限管理成为企业首要考量。此外,连续创业者Albert指出,在AI降低产品开发门槛的背景下,智能本身不再是最高价值,人与人、人与产品之间的情感连接(“回响”)才是稀缺资源。

智能体AnthropicOpenAI现象/趋势
07:54
ginobefun@hongming731
55
企业AI竞争焦点转向智能体控制平面

企业AI的竞争维度正从模型性能转向智能体控制平面,即管理AI任务规划、工具调用、数据访问与安全权限的基础设施层。VentureBeat调查显示,微软以38.6%份额领先,OpenAI占25.7%,Anthropic首次以5.7%进入榜单,标志其Claude从被调用模型转变为编排基础设施。企业选择编排平台时,安全与权限管理已超越模型性能成为首要考量,反映企业更重视部署AI时的合规、审计与责任归属。

智能体AnthropicMCP/工具Microsoft
06:54
Berryxia.AI@berryxia
42
OpenAI将Codex升级为个人AI设备网络

OpenAI计划将Codex升级为个人AI设备网络。用户可在多台设备上安装Codex,将Mac Mini、工作站甚至闲置旧电脑连接成“Codex network”。通过主设备即可远程调用这些设备的Computer Use能力,执行任务、处理文件和自动化操作。配合即将推出的“Locked Use”设置,该功能在提升控制权的同时保障了安全性。此举使用户能从单一设备运行单个Agent,转变为随时调度分布式Agent集群,从而将闲置硬件转化为生产力,标志着个人算力时代的到来。

🚨 AI News | TestingCatalog: OPENAI 🔥: In the future, Codex will be able to control other desktop devices with the Codex installation. All your Mac ...

智能体MCP/工具OpenAI产品更新
06:54
Berryxia.AI@berryxia
68
专门属于AI Agent的编程语言Zero发布

Vercel Labs近日推出了专为AI agents设计的编程语言Zero。该语言由Chris Tate主导开发,旨在创建一个更快、更小、且更易于agents编写、修复和维护的系统语言。其核心设计理念是从第一天起就为agents原生构建,而非让agents学习人类语言。关键特性包括显式能力声明、JSON格式的结构化诊断信息以及类型安全的自动修复功能。此举旨在解决当前agents使用Rust或Python等语言时容易产生幻觉和难以调试的问题,试图从语言层面消除这些痛点。项目已在GitHub上开源,鼓励开发者参与和贡献。

Chris Tate: Introducing Zero The programming language for agents. I wanted a systems language that was faster, smaller, and easier f...

智能体GitHub产品更新开源/仓库
06:05
Greg Brockman@gdb
62
chronicle让你意识到自己多快就忘了整天在做的事

Anthony Kroeger: use this Codex prompt to automate things you do repetitively during the day: "Look through my Chronicle memories and che...

智能体OpenAI教程/实践
05:13
🚨 AI News | TestingCatalog@testingcatalog
64
HERMES 🔥: X Premium+ 用户现可在 Hermes Agent 中使用其订阅权益访问 Grok! 此外,他们还能使用 X 搜索工具,这使 Hermes 目前处于相当独特的位置。 现在已不仅是 OpenClaw 与 Hermes 的较量。 这再次成为 OpenAI 与 xAI 的对决 👀

Nous Research: xAI has expanded access to X Premium+ subscribers in Hermes Agent. Enjoy!

智能体xAI产品更新搜索
05:08
elvis@omarsar0
71
工具使用代理认知与行动脱节机制研究

该可解释性论文聚焦工具使用代理,通过探测隐藏状态发现模型常能识别应调用工具,但实际调用失败,不匹配率达26%-54%。问题完全集中于认知到行动的过渡阶段,而非认知本身。内部探测方向可解码,但后期层的最后令牌机制使信号旋转,几乎与产生的行动正交。研究旨在预测干预措施效果,指出常见归因如提示或训练不足可能忽略后期层几何结构,这为工具使用提示A/B测试中的性能上限提供了合理解释。

智能体MCP/工具大佬观点
04:33
Chubby♨️@kimmonismus
45
OpenAI正将Codex从一个代码生成模型转变为个人计算设备的统一控制平面。未来,任何安装了Codex的设备,包括Mac Mini、工作站、开发机乃至浏览器会话,都能成为其智能体网络的端点。通过即将推出的"锁定使用"设置,用户可以从主设备安全地授权Codex,跨网络调用其他机器的"计算机使用"能力。这意味着Codex将能协调并操作你所有的计算设备,形成一个由AI驱动的分布式个人计算集群。

🚨 AI News | TestingCatalog: OPENAI 🔥: In the future, Codex will be able to control other desktop devices with the Codex installation. All your Mac ...

智能体MCP/工具OpenAI产品更新
04:21
xAI@xai
精选65
你现在可以在 Hermes Agent 中使用 X Premium 订阅,并且 Hermes Agent 现在可以搜索 X 帖子。 https://x.ai/news/grok-hermes 【引用 @xai】:You can now use your @grok subscription inside @NousResearch Hermes Agent. http://x.ai/news/grok-hermes

xAI: You can now use your @grok subscription inside @NousResearch Hermes Agent. http://x.ai/news/grok-hermes

智能体xAI产品更新搜索

推荐理由:xAI 把 Grok 和 X 搜索带到 Hermes Agent,看着是功能更新,其实在把自家数据和模型能力向第三方 agent 开放,这一步比新模型更值得追踪,做 agent 的该看看。
02:13
🚨 AI News | TestingCatalog@testingcatalog
42
OPENAI 🔥: 未来,Codex将能够通过已安装Codex的设备控制其他桌面设备。你所有的Mac Mini、工作台式机,甚至祖父母的旧电脑都可以组成你自己的"Codex网络"。 结合即将推出的"锁定使用"设置,该功能将允许Codex从你的主设备调用其他机器的计算机使用能力。
智能体OpenAI端侧行业动态
01:11
SemiAnalysis@SemiAnalysis_
59
Anthropic可能因Claude的CLI定位而陷入创新者窘境, 而真正的AI代理革命需要更宏大的架构。
智能体Anthropic现象/趋势
01:05
Greg Brockman@gdb
43
Codex应用独树一帜。 "Mac端的智能Excel"是个有趣的描述。

swyx 🇸🇬 AIE Singapore!: gotta say Codex is completely unrecognizable from 3 months ago. guys went extreme founder mode on this thing @gabrielchu...

智能体OpenAI大佬观点
00:54
Berryxia.AI@berryxia
52
幻灯片设计竞技场结果出炉,Anthropic与Zai_org领跑

Slides Arena发布了基于370多万真实使用场景的Agentic Slides排行榜。Anthropic的Opus 4.7及其思考版本包揽前两名,Zai_org的GLM 5.1位列第三,共同确立了该领域的SOTA。此次评估并非实验室基准测试,而是针对软可验证、创意密集且需要完整逻辑与设计感的真实幻灯片生成场景,证实了Claude系列在智能体设计方面的领先优势。

Design Arena: BREAKING: The results are in for Slides Arena... @AnthropicAI and @Zai_org models continue to lead the way in soft-verif...

智能体Anthropic评测/基准
‹ 上一页
1…4344454647…50
下一页 ›