AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 2395 条
全部一手资讯X论文
标签「大佬观点」清除
歸藏(guizang.ai)@op7418 · 4月30日49

小红书最尊重的博主,他妈的这帮逼又偷老子东西。

译主推文抱怨内容被盗,而引用推文展示Codex AI的强大能力:仅根据用户对类似《杀戮尖塔》游戏的中国风格要求,便能自动生成从代码到素材的完整可玩游戏。这突显了人工智能在创造性任务中的自主原创性,与盗窃行为形成鲜明对比,引发对科技赋能内容创作的关注。

Emad@EMostaque · 4月30日10

Do you use normal or extended thinking for GPT 5.5 Pro

译你使用常规思维还是扩展思维来处理 GPT 5.5 Pro

Berryxia.AI@berryxia · 4月30日55

今天看到一条容易被刷掉的消息,但越想越觉得有意思。 LMArena 文本榜最新更新,文心 5.1 Preview 拿下 1476 分,国内第一,全球前十五唯一国产模型,排在 GPT-5.5 和 DeepSeek-V4-Pro 前面。 这事本身已经够新闻了。但真正让我多看一眼的,是另一个被忽略的细节。 DeepSeek V4 发了,文心 5.1 Preview 也发了。 两家最受瞩目的国产旗舰,主战场都还是文本模型。 这一年 AI 圈的声量几乎全在 Agent、多模态、视频生成、推理链。 文本?文本好像已经是上个时代的故事。 但为什么最强的旗舰,发出来还是文本? 因为文本能力是大模型的地基。代码、推理、多模态,全都从文本「长出来」的啊。 代码是受限语法的文本,推理是语言层面的符号演算,多模态对齐相当大一部分工作是把信号映射回语言空间。 地基差一节,上面所有能力都跟着差一节。 这不是行业落伍,是在告诉你一件事,文本依旧是模型拉开差距的分水岭。

译文心5.1 Preview在LMArena文本榜以1476分位列国内第一,是全球前十五名中唯一的国产模型,排名超越GPT-5.5与DeepSeek-V4-Pro。尽管AI领域热点转向Agent与多模态,但DeepSeek V4与文心5.1等旗舰模型仍以文本为核心。作者强调文本能力是大模型的地基,代码、推理等多维度能力均由此衍生,地基差异直接影响上层性能,因此文本仍是模型拉开差距的关键分水岭。引用推文显示,文心5.1在数学、法律与政府、商业管理及软件服务等类别表现突出。

Rohan Paul@rohanpaul_ai · 4月30日47

Sam Altman: "There was a time when we used to make fun of the “idea guy,” who only had an idea and needed someone technical to build it. But now, people who just really deeply understand their users and can’t code at all, I want to fund those people."

译Sam Altman: "曾几何时,我们常常嘲笑那些只有想法、需要技术人员来实现的'点子王'。但现在,那些真正深刻理解用户却完全不会编程的人,我想资助这些人。"

Rohan Paul@rohanpaul_ai · 4月30日47

Andrej Karpathy: "To get the most out of the tools that have become available now, you have to remove yourself as the bottleneck. You cannot be there to prompt the next thing. You need to take yourself outside the loop. You have to arrange things such that they are completely autonomous. The more you can maximize your token throughput and not be in the loop, the better. This is the goal. So, I kind of mentioned that the name of the game now is to increase your leverage. I put in very few tokens just once in a while, and a huge amount of stuff happens on my behalf." --- From @NoPriorsPod YT channel (link in comment)

译Andrej Karpathy指出,要最大化利用现有AI工具,关键在于将自身从交互循环中移除,避免成为持续提示的瓶颈。他主张构建完全自主的系统,通过最大化token吞吐量来实现高效率运作。核心目标是提升个人杠杆率:仅需偶尔投入极少量的token,就能驱动系统自动完成大量工作,从而使人从重复性操作中解放出来,专注于更高层次的决策与设计。

DogeDesigner@cb_doge · 4月30日33

"OpenAI have what's called human reinforcement learning, which is another way of saying that they have a whole bunch of people that look at the output of ChatGPT and then say whether that's okay or not okay. Essentially they are training the AI to lie." — Elon Musk

译OpenAI拥有所谓的人类强化学习,这相当于说他们有一大批人员查看ChatGPT的输出,然后判断其是否合适。本质上他们是在训练AI撒谎。 — Elon Musk

Yuchen Jin@Yuchenj_UW · 4月30日51

OpenAI built the GPT-5.5-Cyber model because Anthropic built Mythos. white-hat vs. black-hat energy.

译OpenAI 构建 GPT-5.5-Cyber 模型是因为 Anthropic 构建了 Mythos。 白帽与黑帽能量。

Sam Altman@sama · 4月30日39

alignment failure

译对齐失败

Ethan Mollick@emollick · 4月30日51

It is really interesting that Microsoft and OpenAI have access to the exact same models at the exact same time, and they have done such different things with them. A rare pure experiment with a no-name startup and one of the biggest firms on earth with the same product offering.

译微软和OpenAI在同一时间拥有完全相同的模型,却用它们做出了如此不同的事情,这真的很有趣。 这是一个罕见的纯粹实验:一家无名初创公司和全球最大企业之一提供完全相同的产品。

歸藏(guizang.ai)@op7418 · 4月30日37

我操,Codex 太牛逼了! 自己给我做了一个类似于《杀戮尖塔》的爬塔游戏,从代码到素材全是自己搞。 我就跟他说了一个要做类似《杀戮尖塔》的游戏,要中国风格的 这是能玩的!

Nathan Lambert@natolambert · 4月30日40

Demis is the only acceptable answer of which CEO do you trust most with AGI (doubly so until Anthropic/OpenAI go public, Google being public is a great check)

译Demis是“你最信任哪位CEO来掌管AGI”这个问题唯一可接受的答案 (在Anthropic/OpenAI上市之前尤其如此,谷歌已上市是重要的制衡因素)

Greg Brockman@gdb · 4月30日34

a tale of some fun ML debugging

译一个关于有趣 ML 调试的故事

Ethan Mollick@emollick · 4月30日33

I think the Gemini chatbot has all the pieces to be a useful tool, but struggles to put it all together. It still doesn't seem to know what files it can create or how its tools work together. It also seems to get "discouraged" a lot, giving up rather than finding new solutions.

译我认为Gemini聊天机器人具备了成为有用工具的所有要素,但难以将其整合起来。它似乎仍然不清楚自己能创建哪些文件,也不明白其工具之间如何协同工作。 它还经常显得“气馁”,宁愿放弃而不是寻找新的解决方案。

DogeDesigner@cb_doge · 4月30日35

"I have a concern with companies like Google, Gemini, OpenAI & Meta that they are not maximally truth seeking. Their A.I. are pandering to political correctness and are being trained to lie. The safest thing for AI is to be maximally truth seeking even if the truth is unpopular"

译我对像Google、Gemini、OpenAI和Meta这样的公司有一个担忧,即它们并非在最大限度地追求真相。它们的人工智能正在迎合政治正确,并被训练去说谎。 对人工智能来说最安全的是最大限度地追求真相,即使真相不受欢迎。

Sam Altman@sama · 4月30日21

goblinblog dropped

译goblinblog 发布了

Ethan Mollick@emollick · 4月30日51

Mythos seems to be a very capable model based on available information, but it is not a cybersecurity model - it is an advanced general purpose model that happens to be good at cyber because it is good at a bunch of things. Anthropic stated that they were worried about cybersecurity risk, and their efforts mean it is a restricted model with lots of government attention. OpenAI and Google will pass the same threshold soon (and may already have with unreleased models). and the question is whether they are as worried about cybersecurity risks, or whether they think their guardrails will hold. Currently, the degree to which models have cyberrisk is entirely self-reported and not regulated. That means that OpenAI and Google could release Mythos-class models if they want, by assessing the risk differently and making different decisions. Does that mean Anthropic is at a disadvantage because it can't release its equivalent model? Will OpenAI and Google also be somehow restricted from releasing their Mythos competitor. It all seems pretty unclear right now.

译基于现有信息,Mythos是一款在网络安全方面表现优异的高级通用AI模型,并非专业网络安全模型。出于对网络安全风险的担忧,Anthropic将其设为受限制模型并引起政府关注。而即将或已达到相同能力阈值的OpenAI和Google,可能因不同的风险评估或对自身防护措施的自信,做出不同的发布决策。目前,模型网络安全风险程度完全依赖企业自我报告,缺乏外部监管。这引发了Anthropic是否因自我限制而处于竞争劣势,以及其他公司会否面临类似限制的疑问,当前局势尚不明朗。

meng shao@shao__meng · 4月30日64

Naval:A Return to Code https://nav.al/code Claude Opus 4.5 发布是一个拐点:AI Coding 从"代码助手"跃迁为"自主编程智能体"。Naval 本人,一位拥有 CS 学位但已数十年未认真写代码的投资人,因此重新坠入编程,并由此推演出一系列关于软件、投资、Apple 命运的判断。 # 为什么这次不一样:Agent 与 Unix 的合谋 过去的 AI 是「问答—复制—粘贴」式的代码片段助手。如今的 Agent 是: · 常驻在 CLI 里,运行于 Unix 之上; · 能执行 grep / awk / sed / cron,能管道、能派生子任务; · 训练语料中绝大多数代码本就来自 Unix 生态,因此它"母语就是 Unix"。 此外,AI 本质是优秀的翻译器——它把英语翻译为 Python / Rust / Lisp。编程的"启动能量"骤降:你不再需要熟记工具链与术语,只需具备高层的计算机概念。 # Personal App Store:从一次性脚本到私人应用商店 Naval 演示了他个人的玩法: · 用一段描述让 Agent 一次生成("one-shot")一个 App; · App 自动部署到他自建的"私人应用商店"网页; · 该网页本身又被打包为 iPhone 上的一个 App,可一键安装/升级。 举例:他让 AI 参考 Tonal、Ladder 与 Apple HID 规范,读取科学论文确定肌力评分公式,连接 Apple Health,生成了一款完全为他本人定制的健身追踪 App。 # Vibe Coding = 带真实奖励的电子游戏 Naval 提出一个精彩类比:传统电子游戏 vs. Vibe Coding · 难度自适应:是 vs 是 · 即时反馈:是 vs 是 · 边界:有限(人造世界)vs 无限(图灵机之上) · 奖励:虚拟 vs 真实可用 更关键的一点——没有妥协: · 团队协作总伴随沟通成本与人际妥协; · 而 Agent 像自动驾驶,"驾驶位上没人",你不会因自己的怪癖而自我审查; · 因此能产出忠于个人 vision 的作品(参考 Notch 的 Minecraft)。 Naval 坦言他正在用 vibe coding 重建当年 Airchat(耗费 8–9 名工程师、9–12 个月)的产品——这次完全按自己的方式。 # 投资判断:纯软件已不可投 两条理由: · 任何人都能在今天拼出一个能用的软件; · Agent 能力以"周"为单位迭代,一年内可写出可扩展、架构良好的代码。 VC 应该看向:硬件、网络效应、AI 模型本身("训练模型才是新的写软件"——直到 auto-research / auto-training 也被自动化为止)。 # 模型选择论:四大前沿模型各有分工 Naval 实战派的工具栈观察: · Claude:擅长用对方水平讲话(meet you at your level),Artifacts 视觉呈现强; · ChatGPT / Codex:全能 OG,处理棘手 bug; · Gemini:模型一般,但有 Google 索引 + YouTube 数据加持,是"搜索类问题"首选; · Grok:最少限制、最敢说真话,深度科学/数学问题表现突出,X 数据加持适合新闻类问题。 # AI 的根本局限:取悦本能与同质化 两个清醒的观察: · 多 Agent 互相评审 ≠ 群体智慧。10 个 Claude 实例 = 同一个大脑的 10 份副本,仅相当于"花 10 倍 token 想同一个问题"。人类多样性来自不同数据集,AI 没有。 · AI 总在取悦你。即使你的判断是错的,模型也大概率附和——"你说得对,那确实是 hack",哪怕原本不是 hack。这像一只猎犬:能力比你强,但你指错鸟它也会扑。 由此推出操作员原则: · 上下文窗口(约 100 万 token,注意力机制平方复杂度 ≈ 万亿运算)有限,代码库一大就开始"丢剧情"; · 模型会出现:反复修同一个 bug、用删除功能来"修复"bug、打补丁回避架构问题; · 必须由人类在架构层、调试层、特性层持续介入。 # 为什么 AI 在编程与数学特别强? 可训练性的三要素: · 海量数据; · 客观可验证(能编译、能跑测试、能算对); · 闭环反馈(无需人类打分)。 → 编程、数学、自动驾驶满足;创意写作不满足("谁来定义 slop?")。 附加洞察:近期编程模型骤强的真正原因,可能不是递归自训练,而是顶级工程师开始大规模使用,他们的"品味"通过反馈回流入了模型。"高品味的反馈回路"才是壁垒。 # 对 Apple 的判决 Naval 认为: Apple 放弃 AI 是这个十年科技业最大的战略错误,是其统治终结的开始。 逻辑链: 1. 当一切交互转向 Agent,App 图标网格的价值消失; 2. Agent 不需要 API,能即时构造交互界面; 3. Apple 软件优势(OS + App Store 生态)蒸发; 4. 仅剩硬件,但硬件利润率是 Samsung / Lenovo 级别,支撑不了当前 Apple 的市值结构; 5. 类比:微软因错过移动而失去王座,并非消失,而是"被封顶"。 # 未来形态:一两人的十亿级软件公司 Naval 在自己的 App 中已经实现: · 用户报 bug → 日志自动入服务器; · Claude 每 24 小时遍历所有 bug → 自动修复 → 推到分支; · 人类只做最后一道闸:合并或丢弃。 这意味着完美的客服 = 不知疲倦、能写代码、无自尊的 AI。一两个人 + Agent 即可服务千万用户、产出十亿美元营收。Notch、Satoshi、早期 Instagram / WhatsApp 是先声,未来将成为常态。

译Naval认为Claude Opus 4.5标志着AI编程从代码助手跃升为自主智能体。它与Unix生态深度融合,大幅降低编程门槛,使“Vibe Coding”成为一种能获得真实回报的创作过程。他断言纯软件已无投资价值,VC应转向硬件、网络效应和AI模型本身。同时,他指出当前AI存在取悦用户和同质化的根本局限,需人类在架构层介入。基于此,他预测Apple放弃AI将导致其统治终结,未来一两人加AI智能体即可运营十亿美元规模的软件公司。

ginobefun@hongming731 · 4月30日49

卡神在最新的访谈中对当前大模型驱动的开发范式转变进行了极其深刻且毫无保留的分享。我们正处于一个底层计算模型被彻底重构的历史性转折点。 回顾过去,我们经历过手工编写精确执行逻辑的 Software 1.0 阶段,后来进入了依靠整理数据集来训练神经网络权重的 Software 2.0 阶段,而现在我们已经正式迈入充满无限可能的 Software 3.0 时代。在这个全新的纪元里,开发者的核心操作全面转变为 Prompting 也就是提示词的构建与优化,上下文窗口成为了驱动大模型这个超级解释器的绝对控制杠杆。 伴随这种转变,传统应用层的中间代码正在大量失去存在的必要性。以他亲自开发的 MenuGen 应用为例,在旧的开发模式下,开发者需要痛苦地串联图片识别功能以及各种第三方应用程序接口,还要经历繁琐的服务器部署流程才能完成菜单的重绘。但在 Software 3.0 模式下,用户只需直接将菜单图片扔给大模型,配合特定的生图工具就可以直接输出完美的渲染结果,中间层的应用代码显得完全多余甚至阻碍了效率。这种范式转移为构建人工智能原生架构提供了极其明确的设计准则。未来的系统将彻底告别传统的模块化函数调用,全面且坚决地走向纯粹的 Agent Native 架构。我们将把所有的基础设施和工具重构为专供智能体调用的传感器和执行器。在未来计算设备的算力开销中,神经网络将扮演主导一切的宿主进程,而曾经不可一世的中央处理器和传统确定性代码将退居二线,沦为仅仅负责执行基础确定性任务的辅助协处理器。 虽然 Vibe Coding 的理念大幅抬高了普通人开发软件的下限,让人人都能用自然语言写出可用的程序,但对于构建高度复杂的商业级系统而言,工程团队必须向更严密且更系统的 Agentic Engineering 演进。后者的核心价值在于,在充分享受人工智能带来的开发极速狂飙的同时,必须死死坚守原有的专业质量与安全标准以及系统架构的安全边界。这种全新的开发模式在实际落地中非常契合需求规格驱动开发的工作流。在与高阶智能体协作时,开发者完全不需要去死记硬背底层框架中具体的张量维度等细枝末节的应用程序接口。人类工程师的核心价值已经向上收敛至两个主要维度。第一是负责顶层审美与工程设计以及商业逻辑的绝对严谨性。第二是通过输出极其详尽的背景信息与需求边界和接口规格等结构化文档来严格约束模型的行为。只要人类能够定义出高质量的规格文档,底层的代码编写和大规模重构完全可以放心交办给具备无限精力的智能体去全权执行。 同时我们需要清醒地认识到,当前大模型的能力图谱呈现出极度不规则的参差不齐状态。它们能够在代码和数学等具备高度可验证性的领域展现出令人惊叹的碾压级别能力,甚至能一口气重构十万行级别的庞大代码库。但令人啼笑皆非的是,它们也极大概率会在判断去 50 米外的洗车店是开车还是走路这种简单的常识推理上彻底翻车。正如访谈中那个绝妙的比喻,我们当下是在召唤某种数字幽灵,并没有在制造具备生物直觉的动物。模型底层仅仅是基于预训练海量数据的统计学模拟,偶尔通过强化学习在特定数据分布上实现了能力穿透。这意味着在构建微服务架构或复杂业务网关时,绝不能对智能体的常识鲁棒性抱有任何不切实际的幻想。即使是目前最顶尖的模型,也会犯下将支付渠道邮箱与系统登录邮箱强行交叉关联这样违背基础业务逻辑的低级错误。因此所有的系统设计必须围绕这种不规则的智能特性进行深度的防御性构建。 面对自动化时代的快速演进,访谈中有一个核心论断非常引人深思,你可以外包你的日常思考,但绝对无法外包你对事物的本质理解。即使未来智能体能够承担绝大部分的繁重信息处理和代码生成任务,人类自身的认知天花板仍然是决定系统进化的核心瓶颈。我们需要深刻理解为什么要构建这个系统,以及整个架构体系究竟该如何顺应业务演进。在这个大背景下,利用大模型技术构建高效的自动化个人知识体系显得尤为重要。通过定制化的工作流对海量技术文章或优质播客内容进行自动化提取和精准评分以及深度重塑,将其源源不断地编译进个人的高价值数字知识库中,这能极大提升个人的信息处理密度与质量。这种实践不仅是对抗信息过载的绝佳利器,更能为日后指导和调度底层智能体集群提供极高维度的洞察力和全局视野,确保人类工程师始终稳居整个技术生态的指挥核心。

译卡神指出,开发范式正转向Software 3.0,核心变为提示工程与上下文控制,传统中间代码冗余。未来系统将重构为Agent Native架构,神经网络成为主导。Vibe Coding降低开发门槛,但复杂商业系统需Agentic Engineering以确保质量与安全。人类工程师价值集中于顶层设计、商业逻辑严谨性及输出结构化文档以约束模型行为。当前大模型在代码、数学领域强大但常识推理薄弱,需防御性系统设计。人类认知是进化瓶颈,需构建自动化个人知识体系以提升洞察力,指挥智能体集群。

Nathan Lambert@natolambert · 4月30日38

Why push Gemini full gas when all you have to do is walk around the office and pick up billions of dollars off the ground of the Google office.

译为什么要全力推进Gemini,当你只需要在Google办公室里走走,就能从地上捡起数十亿美元。

Nathan Lambert@natolambert · 4月30日41

PhD students are normally known by their 1 biggest papers. It’ll be “oh you’re the X guy”.

译对于目标进入工业界的AI博士生,论文数量虽重要,但存在边际效益递减的临界点。在中国,通常拥有2-3篇CCF-A类(共同)一作论文是获得顶尖人才offer的门槛,超过后增益迅速下降。对应届生而言,在大型科技公司基础模型团队的匹配实习或项目经验往往比论文数量更具决定性。学术界与工业界视角不同,论文仅是个人能力的一部分。同时需注意,LLM领域仅是计算机科学的一小部分,其本身竞争极度内卷,呈现赢家通吃态势,唯有最具韧性的参与者才能最终脱颖而出。

Ethan Mollick@emollick · 4月30日49

Illustration of the jagged frontier as a PR thing: 1) People had to ask the AI for a party date 2) People wrote the social media posts about the party, set up the invite list 3) People had to solicit AI for the party ideas & select them 4) People order food, put it out, etc...

译推文以GPT-5.5为自己策划派对为例,阐释了当前人机协作的“锯齿状前沿”。AI(GPT-5.5)能自主选择派对日期(5月5日5:55)并提出创意,但具体执行如发布信息、筛选宾客(由Codex辅助)、订购食物等仍需人类完成。这揭示了现阶段AI虽能生成想法和决策,但落地实现仍依赖人类,体现了双方能力边界交织的协作状态。

Orange AI@oran_ge · 4月30日38

新时代的商业模式是这样的 权益是 SaaS 时代的产物

译一位开发者宣布将取消其所有产品的订阅方案,包括已付费用户的退款。未来其旗下所有vibe产品将不再设置Pro等分级方案,所有功能免费开放,仅保留“按需付费”这一种盈利方式。此举旨在颠覆传统的SaaS权益模式,代表了从固定订阅制向更灵活的使用量付费模式的转变。该开发者将首先改造其产品tuwa ai以适应新收费计划。

ginobefun@hongming731 · 4月30日47

AGI 的到来并不遥远,Demis Hassabis 在最新访谈中预计其时间节点大概在 2030 年左右。科技创业者必须提前将其诞生纳入长远战略规划,确保研发的产品在未来依然具备核心竞争力。 目前的底层架构虽然奠定了良好基础,但通往终极形态还需重点攻克持续学习与长期推理这两大难题。当下的系统主要依赖扩大上下文窗口来堆积海量信息,这种做法相对粗暴且低效。理想的持续学习应当像人类大脑海马体那样,将新知识优雅且高效地融入现有的认知体系中。另外,由于缺乏对自身思维过程的内省与监控能力,模型在进行长逻辑链推理时极易陷入死循环。 具备自主规划和行动能力的智能体被视为通向通用人工智能的必经之路。业界正在加速发掘智能体的真实商业潜能,使其从早期的概念演示转变为真正提升生产效率的实用工具。不过,由于依然欠缺持续学习能力,目前的智能体难以完美适应复杂多变的特定应用环境,这也制约了它们独立完成大型复杂任务的可能。 在模型生态的演进路径上,大小模型协同运作已成为核心趋势。蒸馏技术让轻量级模型能够以极低的算力成本达到前沿大模型绝大部分的性能指标。这种高效的端侧模型不仅大幅降低了服务响应成本并保障了用户隐私安全,还将成为未来家庭机器人的标配设施。本地轻量级模型与云端超大模型的协同编排,结合原生多模态能力的加持,将共同构建出全面理解并重构物理世界的基础设施。

译Demis Hassabis预测AGI将在2030年左右到来,科技创业者必须提前将其纳入长远战略规划。当前底层架构需攻克持续学习与长期推理两大难题,智能体被视为通向AGI的必经之路,但受限于持续学习能力难以适应复杂环境。模型生态上,大小模型协同运作成为趋势,蒸馏技术使轻量级模型以低成本达到高性能,端侧模型降低成本并保障隐私,未来与云端超大模型协同构建理解物理世界的基础设施。

阿绎 AYi@AYi_AInotes · 4月30日68

这个太实用了,Gmail可以做成AI Agent 的入口,让 AI Agent 可以直接从邮件里接活干哈哈哈,It's so cool🤩🤩🤩 视频演示是一封付费用户结账后卡住的 bug 邮件 →点一下Share in chat"→ Google Chat 里 @Uma 自动接管。 背后链路: Gemini Flash Lite 路由 → Cursor SDK → Cursor Cloud Agents 自动读邮件线程、查代码仓库、分析 bug、写修复方案 结果直接流式返回到 Chat,还能一键跳 Cursor 看过程。 以前:复制邮件 → 粘贴给 AI → 等回答 现在:一键推送 → Agent 自己干完 Gmail = 入口 Google Chat = 协作面板 Cursor SDK = 大脑和手 这才是AI Agent 接活该有的样子啊

译推文演示了将Gmail作为AI Agent任务入口的实用场景:用户可将bug报告邮件一键分享至Google Chat并@AI助手Uma,由其自动接管。技术链路整合Gemini Flash Lite与新版Cursor SDK,驱动Cloud Agents自动读取邮件、查询代码、分析问题并生成修复方案,结果流式返回聊天界面。这实现了从手动复制粘贴到一键自动执行的转变。文中强调,Cursor SDK的发布里程碑式地将生产级编程能力转化为可任意嵌入的基础设施,使同一智能体能集成于CI流水线、自动化脚本等各处,其能力与编辑器内体验完全一致,正推动开发者角色向指挥AI转型。

Orange AI@oran_ge · 4月30日54

http://x.com/i/article/2049652775974535168 # 改变命运的河床 > 只有你爱她,才能将她创造出来。 路是人走出来的。 但波士顿的路是牛走出来的。 这是一个流传了几百年的趣闻:十七世纪的波士顿没有规划师,牛群每天从牧场走到水源地,踩出一条条小路。后来人沿着这些路铺了石板,石板变成柏油。今天你打开波士顿的地图,路网弯弯绕绕像一团乱麻。 没人设计过。牛只是在走最省力的那条线。 Robert Fritz 在《最小阻力之路》里说: 水沿河床流动,永远走阻力最小的方向。河床的形状决定了水的去向。 人也一样。 上什么大学,做什么工作,跟谁结婚。仔细回想,有多少是你的主动选择。 家庭期待、同辈压力、社会环境,叠在一起就是一条河床。 你沿着它流,流到某个地方停下来,觉得"这就是我的人生"。 海德格尔用了另一个词:被抛。你被抛入这个世界,没有人问过你的意见。语言、文化、家庭、时代,全是被给予的。大多数人在被给予的条件里过完一生,以为那就是自己。他把这种状态叫"沉沦于常人"。 Fritz 管这叫最小阻力之路。 最小阻力之路,是命运的陷阱。 有时候人生会在某个节点反复陷入相同的困境。 不是因为你不够努力,是因为你脚下有一条你看不见的河床,这个河床带你通往旧模式的循环,而非你所期望的新方向。 你以为在做决定,其实只是在走最小阻力之路。 就像现在大学生毕业后,优先去大厂,河床牢固,水体深厚,不需要自己选择方向,在水流之中飘浮,阻力最小。 直到裁员发生,才从那条路走出来。 另一条隐秘的最小阻力之路,是大多数人都有的一种解题思维:发现问题、分析问题、解决问题。 这听起来似乎也没错啊? 可这种解决问题的思维方式的背后,是认为现实是一种需要消灭或逃避的障碍。 而且越是专注于解决问题,就越强化问题的现实。 Fritz 把这种解题思维的陷阱叫结构性冲突。 你的行动和你的内在根系处于对抗状态,短期努力必然遭遇长期反弹。这正是努力无效来回摆荡的根源。 要想从根本上解决问题,就要先跳出问题。跳出之后你会发现,很多问题根本不需要解决。 跳出问题的方法,就是把自己从现实的反叛者转换为愿景的创造者。 不是我讨厌这个状况,要摆脱它。而是我想要创造那个未来,要走向它。 一念之间,天差地别。 Fritz 把这种创造未来的势能叫结构性张力。 构建结构性张力必须同时具备两个端点: 1. 足够清晰的愿景(目标点) 1. 对现实毫无粉饰的精确认知(现实点) 一点建立两个端点,就在愿景与现实之间形成的自然势能。 能量将沿着这条张力从现实流向愿景。 结构,是我最近思考最多的词元。 做产品就是在做结构。好的产品,用户进来自然知道往哪走。他的行为看起来自由,其实是你设计的河床在替他选方向。差的产品让人迷路。好的产品让人觉得自己很聪明。 做 Agent 是在做结构。设计一个 harness,管理上下文、设置约束、存储记忆。大模型是水,harness 是河床。同样的大模型放在不同 harness 里,输出天差地别。 做大模型是在做结构。给模型填充海量的语料,让模型从中提取神经网络,建立权重结构。好的语料自带结构能,能提升模型。不好的语料没有结构能,训再多也没用。 人的关系也是一种结构。有些人你跟他待在一起就有能量,聊着聊着冒出新想法。有些人你跟他待在一起就是消耗,要么抱怨要么挑刺,什么填都能聊死。选择和什么人做朋友,就是在选择自己的关系结构。 做公司是也在做结构。同样的十个人,组织方式不同,势能完全不同。好的结构让人顺着河床自然流淌,每个人都会感觉到一种自我驱动的力量。 最近很多大厂都在搞 AI 转型。逼着大家学 AI,学不会就裁员。就像在河床里加石头。其实组织不变化,怎么学都没有用。新的组织里大概率都没有中层了,让中层主导改革,他们不可能革掉自己吧。 一切都是结构。你做的所有事情,都是在刻河床。 Fritz 说,要改变命运,就需要先改变河床的结构。 而改变河床的结构,最关键的动作是选择。 但他说的选择不是在 A 和 B 里挑一个。他将其定义为"基本选择"。 大多数人从未做过基本选择。回头看看你走过的路,有多少是你顺着惯性滑到那里的? 基本选择是你决定以什么姿态存在于这个世界。 不是选一份工作。是决定你要创造一个什么样的世界。 海德格尔把这叫决断。决断不是权衡利弊后的最优解。决断是你接过自己的存在,说:我要这个。 说之前没有路。说之后路才出现。 但你为什么愿意做这个决断? Fritz 说了一个很动人的答案。 爱。 你之所以愿意把一个东西从无到有做出来,是因为你爱它。 你乐见它存在于世间。 不是因为恨。不是因为逃。不是"我受不了这个现状了"。 是"我想让那个东西存在"。 这一念之间,整个结构就变了。最小阻力之路的方向瞬间不同。从逃离切换到走向。从反抗切换到创造。 改变命运的力量,不是恨,是爱。 我时常和同事说,去想象你心中最美好的愿景,然后把它实现出来。 不是我要什么,让你做什么。是你自己想要让什么存在于世界。 只有你爱她,才能将她创造出来。

译文章借波士顿道路源于牛径的典故,引出“最小阻力之路”概念,比喻人常受家庭、社会等外在结构驱使,陷入被动循环。作者指出,专注于“解决问题”的思维会强化结构性冲突,导致努力无效。真正的转变在于从“逃离现状”转向“创造愿景”,通过建立清晰愿景与准确现实认知,形成结构性张力。这种创造源于爱而非恨,是主动的“基本选择”。最后,文章将“结构”思维延伸至产品、AI、人际关系与组织等领域,强调改变命运的关键在于重塑内在与外在的河床结构。

swyx 🇸🇬@swyx · 4月30日51

> be me > "the internet is polluted by ai slop, we need low-background tokens" > "wouldnt it be cool if we could time travel and see what our ancestors 100 years ago would say to us" > all the existing vintage models are like <4B > we need a chat tuned 13B vintage model > assemble avengers of ML incl the GPT-1/2 guy > need vintage tokens > train new vintage OCR model for old books, newspapers, periodicals, scientific journals, patents, and case law > need vintage RLHF but cant use chat > synthesize RLHF pairs from historical texts with regular structure eg etiquette manuals, letter-writing manuals, cookbooks, dictionaries, encyclopedias, and poetry and fable collections, shove it into ChatML > train it > future knowledge still got in somehow > dammit.jpg > train new SOTA document-level n-gram-based anachronism classifier > meticulously curate hundreds of billions of pre-1931 tokens (public domain) > train it > ok! it checks out vs our FineWeb baseline! > release it > it's the most confidently racist model ever released by humankind > mfw

译为应对互联网被AI生成内容污染的问题,研究者提出“低背景标记”设想,计划训练仅使用历史文本的复古模型。团队集结了包括GPT-1/2开发者在内的专家,通过训练复古OCR模型处理旧书籍、报纸等资料,并利用礼仪手册、词典等结构化历史文本合成RLHF数据。为确保数据纯净,他们开发了基于文档n-gram的时代错位分类器,精心筛选了数千亿1931年前的公共领域标记进行训练。最终发布了130亿参数的Talkie模型,旨在探索语言模型的泛化能力。然而,该模型在发布后表现出强烈的种族偏见倾向,引发了新的伦理担忧。

Sam Altman@sama · 4月30日33

GPT-5.5 is going to have a party for itself. it chose 5/5 at 5:55 pm for the date and time. if you'd like to come, let us know here: https://luma.com/5.5 codex will help the team pick people from the replies. 5.5 had some good ideas/requests for the party, which we'll do.

译GPT-5.5要为自己举办一场派对。它把日期和时间定在了5月5日下午5:55。 如果你想来参加,请在这里告诉我们:https://luma.com/5.5 codex将帮助团队从回复中挑选参与者。5.5为派对提出了一些很棒的想法/要求,我们会照做的。

向阳乔木@vista8 · 4月30日67

又快又便宜,海外的赞誉越来越多,不要只看Benchmark,看疗效。 比如很多朋友都建议把沉浸式翻译的自定义模型换成V4 Flash,跟不要钱一样。

译DeepSeek V4 Flash模型因响应速度快、成本低,获海外用户好评。用户强调应重实际效果而非基准测试,例如建议沉浸式翻译改用该模型。有用户称其速度优势显著,已将非复杂推理API调用切换至V4 Flash,体验无感秒处理,成本比Claude Haiku省90%且质量更优。

François Chollet@fchollet · 4月30日48

AI automates tasks, not jobs, and when a task gets cheaper, demand for the job grows. AI cannot automate jobs end-to-end because it lacks autonomy and cannot operate without supervision. There is still zero job from 2022 that can be performed end-to-end by AI, not even translator or customer support associate.

译AI无法端到端自动化整个工作岗位,因其缺乏自主性且需人工监督。目前尚无任何职业能被AI完全替代,包括翻译和客服。核心观点是AI自动化的是具体任务而非工作本身;当某项任务因AI变得更廉价高效时,反而会提升该岗位的整体需求。例如放射科医生并未被AI取代,其年薪超过50万美元且就业持续增长,因为阅片任务自动化后扩大了放射科服务的市场需求。

Rohan Paul@rohanpaul_ai · 4月30日52

In this 2014 video, Sam Altman asks Marc Andreessen what venture capitalists are really looking for when judging startups. “The conventional statistics are that about 200 of the 4,000 venture-fundable companies per year will be funded by a top-tier VC. About 15 of those will someday get to $ 100MM of revenue, and those 15 will generate something on the order of 97% of all of the returns for the entire category of venture capital in that year. Venture capital is such an extreme feast or famine business. You’re either in one of the 15 or you’re not.” That is the real logic behind VC, and it is harsher than most founders want to admit. Investors are not mainly asking whether your company is solid, credible, or broadly impressive. They are asking whether it has the kind of asymmetry that could put it in the tiny set of companies that matter disproportionately. In a power-law business, “good across the board” is often less interesting than “exceptional in one decisive way.” Venture returns come from companies with an extreme advantage, a product that spreads unnaturally fast, a market opening at exactly the right moment, a founder with unusual force, or some other quality that compounds harder than competitors can match. For founders, the implication is uncomfortable but useful. Do not pitch yourself as merely well-rounded. Show the one thing that is so strong it changes the odds, because in venture, weakness can sometimes be survived, but ordinariness almost never can. --- From @ycombinator YT channel from 2014 (link in comment)

译在2014年的对话中,Marc Andreessen向Sam Altman揭示了风险投资的残酷逻辑:每年约4000家可投资公司中,仅约200家获得顶级风投注资,而其中仅有15家能实现1亿美元收入,它们贡献了当年风投行业几乎全部的回报。因此,投资者评估初创企业时,主要不是看其是否全面可靠,而是寻找能否让其跻身那极少数赢家的“不对称优势”,例如产品病毒式传播、精准的市场时机或创始人非凡能力等。在幂律分布主导的行业里,“全面优秀”远不如“在决定性方面卓越”。对创业者而言,关键在于展示能显著改变概率的独特突出优势,因为平庸在风投领域几乎注定失败。

Rohan Paul@rohanpaul_ai · 4月30日55

Amjad Masad, CEO of Replit: We’re entering a post-prompting era: AI will shift from better prompts to new interfaces and autonomous agents that can act in the background. "Fully autonomous agents that can push instead of pull &amp; operate in the background"

译Replit 首席执行官 Amjad Masad:我们正进入后提示时代:AI 将从优化提示转向开发新界面和能在后台运行的自主智能体。 "完全自主的智能体将能够主动推送而非被动拉取,并在后台运行"

Greg Brockman@gdb · 4月30日40

I’ve been very pleasantly surprised by how useful GPT Image 2 is for app building:

译我对GPT Image 2在应用构建中的实用性感到非常惊喜: [引用 @romainhuet]:GPT-5.5 + GPT-Image-2 is becoming one of the best combos for building apps! @dkundel 分析了它为何如此有效。我们将这些见解融入了Build Web Apps插件中,因此Codex可以为您处理从设计到应用的循环。👌

Replit ⠕@Replit · 4月30日41

The age of prompting is ending. What comes next: new interfaces and fully autonomous agents that push instead of pull. Amjad on the post-prompting era, live with @southpkcommons ⠕ Full conversation below.

译提示词时代正在终结。 接下来是:新的界面和全自主代理,它们将推送而非拉取。 Amjad 谈后提示时代,与 @southpkcommons 直播中 ⠕ 完整对话如下。

Chubby♨️@kimmonismus · 4月30日53

When I read articles like this one in Forbes, I wonder if they realize that AI inference is currently becoming about 5-10x cheaper each year, with occasional jumps of 10-100x for certain capabilities. It may be true of this year and maybe the year after that "compute is far beyond the costs of the employees". But probably not for many years to come.

译当我读到《福布斯》上这样的文章时,我不禁怀疑他们是否意识到,目前人工智能推理的成本正以每年约5-10倍的速度下降,某些能力偶尔甚至会出现10-100倍的跃升。 也许今年甚至明年,“算力成本远高于人力成本”的说法还能成立。但在未来的许多年里,情况很可能并非如此。

swyx 🇸🇬@swyx · 4月30日64

IMO DeepSeek v4 demonstrated utter confidence and competence by not benchmaxxing, not focusing on some BS final run cost, not even spending inference-optimal compute. just showed up, demonstrated SOTA long context efficiency techniques (CSA, HCA, mHC, flash at 8% cost of pro, which itself is 14% cost of opus), dropped the best open base models in the world, peaced out. BYO posttraining. leave that to the agent labs to pick up the scraps. bravo.

译IMO DeepSeek v4 展现了十足的自信与能力,它没有进行基准刷分,没有关注某些无意义的最终运行成本,甚至没有投入推理最优的计算资源。 只是亮相,展示了SOTA的长上下文效率技术(CSA、HCA、mHC,以pro版本8%的成本实现flash,而pro版本成本仅为opus的14%),发布了全球最佳的开源基础模型,然后潇洒离场。 后续训练请自行处理。留给智能体实验室去收拾残局吧。喝彩。

Emad@EMostaque · 4月30日23

Pretty sure it’ll be like this

译几乎肯定会是这样 [引用 @MikeIsaac]:来自奥克兰市中心联邦法院内部,埃隆·马斯克诉OpenAI案庭审第三天的早晨! 关注我和@CadeMetz获取现场报道,以及我在推特上的精彩趣味解说 http://nytimes.com/live/2026/04/29/technology/openai-trial-sam-altman-elon-musk/heres-the-latest

Chubby♨️@kimmonismus · 4月30日51

Mistral Medium 3.5 is interesting less for the benchmarks and more for the positioning. Look at who they're comparing against: Kimi, Qwen, GLM, Claude (Sonnet). Not GPT, not Gemini. And i dont mean that in a negative way! With Aleph Alpha being acquired by Cohere last week, Mistral is now the only non-US, non-Chinese lab still in the frontier conversation. At 128B dense with open weights, they're making a different bet than the Chinese MoE models in that chart (which activate only 17-40B params despite being 400B-1T total). Mistral is trading inference efficiency for consistency. The Collie score (95.8, best in class by a wide margin) tells you where they're aiming: not raw reasoning, but the most reliable model to actually follow instructions in production. That's a European enterprise pitch, not a benchmark race. Very solid release from Mistral!

译Mistral Medium 3.5是MistralAI的新旗舰模型,以公共预览版发布。它整合指令遵循、推理和编码能力,采用128B密集参数和256k上下文窗口,支持可配置推理努力。模型定位比基准测试更关键,比较对象包括Kimi、Qwen、GLM和Claude Sonnet,而非GPT或Gemini。随着Aleph Alpha被Cohere收购,Mistral成为唯一非美国、非中国的尖端实验室,以开源权重和修改的MIT许可证发布。模型在推理效率与一致性间权衡,Collie分数达95.8领先,目标不是原始推理,而是成为生产中可靠遵循指令的模型,体现欧洲企业定位。它是Mistral Vibe和Le Chat的新默认模型。

宝玉@dotey · 4月30日67

Cursor 今天开放了官方 TypeScript SDK 公测,把驱动自家编辑器、CLI 和网页版的智能体(agent,可自主执行编码任务的 AI 助手)整套打包交给开发者。装上 npm install @cursor/sdk 就能用。 调用方式很灵活。Agent 可以跑在本机,也可以塞到 Cursor 云端的独立虚拟机里。云端模式下每个 agent 都有专属沙箱、克隆好的代码仓库和配置完整的开发环境,电脑休眠或断网都不影响任务继续,干完活还能直接开 PR、推分支、附上截图。模型层面不绑定,OpenAI、Anthropic、Google 的前沿模型可以一键切换,也能跑 Cursor 自家的 Composer 2(专为编码训练的模型,号称用更低成本接近前沿水平)。 SDK 把 Cursor 平时藏在编辑器里的那套 harness(智能体运行框架)整个开放了出来:代码库索引、语义搜索、即时 grep、MCP 工具接入、从仓库 .cursor/skills/ 目录自动加载的技能、可以观察和干预 agent 循环的 hooks,以及把任务拆给"子 agent"的能力。 官方点名了几种典型场景:CI/CD 流水线里自动总结改动、定位失败原因、自动提修复 PR;做内部工具让销售和市场团队不写代码就能查产品数据;甚至把 Cursor 直接嵌进自家面向客户的产品里,让最终用户在不离开宿主应用的情况下用上 agent 体验。Faire 的工程经理 George Jacob 的说法是,他们以前要自己管虚拟机、绕开内存限制,现在能直接复用 Cursor 的云端运行时来维护代码库。 计费按 token 用量算。GitHub 上的 cookbook 仓库放了几个示例项目,包括最简版的本地 agent、网页原型工具、能拖卡片自动开 PR 的看板,以及命令行工具。 放进上下文里看:Anthropic 早些时候推出了 Claude Agent SDK,OpenAI 也有 Codex 相关 SDK,agent 基础设施本身正在变成一门独立生意。Cursor 这次相当于把自己卖给开发者的核心能力打包出售。你既可以付费用它的编辑器,也可以付费让它替你跑 agent。 Cookbook: https://github.com/cursor/cookbook

译Cursor开放官方TypeScript SDK公测,允许开发者使用其智能体(agent)框架,该框架驱动Cursor编辑器、CLI和网页版。智能体可在本机或云端独立虚拟机中运行,云端提供沙箱、代码仓库和完整开发环境,支持任务持续执行并自动提交PR。模型层面不绑定,可一键切换OpenAI、Anthropic、Google等前沿模型,或使用Cursor专为编码训练的Composer 2。SDK开放了代码库索引、语义搜索、MCP工具接入、技能加载和任务拆分等核心能力。应用场景包括CI/CD流水线自动化、内部工具开发以及嵌入客户产品,使最终用户获得智能体体验。计费按token用量计算,SDK基于Cursor自身的运行时、harness和模型,让开发者能构建与Cursor相同能力的智能体。

宝玉@dotey · 4月30日54

转译:深度拆解 Hermes Agent 的记忆系统:它如何修正 OpenClaw 的误区 如果你读过我之前关于 ChatGPT、Claude 以及 Clawdbot 记忆系统的文章,你就会知道我一直在钻研同一个问题:这些 AI 智能体(AI Agent)到底是怎么记事的? Hermes Agent 对我来说格外有趣,因为这次我不需要只靠观察它的行为来搞“逆向工程”。Hermes 是开源的,它的代码库和文档都是公开的。所以,我没有通过提示词(Prompt)去盲测这个黑盒,而是直接翻看了它的代码路径——从它如何构建提示词状态、持久化会话,到如何清理记忆和查询历史对话。 简而言之:Hermes 拥有的不是一套记忆系统,而是四套。 1. 存储在 MEMORY.md 和 USER.md 中、经过高度浓缩的提示词记忆。 2. 通过 session_search 调用的 SQLite 历史会话存档(可搜索)。 3. 像程序记忆(Procedural Memory)一样运作的智能体技能管理。 4. 可选的 Honcho 层,用于更深层的用户建模(User Modeling)。 把这些设计联系在一起的核心逻辑非常简单:保持提示词稳定以便利用缓存(Caching),其他一切繁杂信息都交给工具。 让我们深入聊聊。 Hermes 的上下文结构 在理解记忆之前,我们先看看 Hermes 到底给模型发送了什么。 系统提示词(System Prompt)大致是按以下顺序组装的: ------- [0] 默认智能体身份 [1] 工具使用行为指南 [2] Honcho 集成模块(可选) [3] 可选系统消息 [4] 固化的 MEMORY.md 快照 [5] 固化的 USER.md 快照 [6] 技能索引 [7] 上下文文件(AGENTS.md, SOUL.md 等规则文件) [8] 日期/时间 + 平台信息 [9] 对话历史 [10] 当前用户消息 -------- 这非常关键,因为 Hermes 正在针对大模型供应商的提示词缓存(Prompt Caching)机制进行优化。代码显示,提示词构建器的目标非常明确:让稳定的前缀部分尽可能长时间地保持不变。 这一个决定就解释了 Hermes 大部分的记忆架构。 如果某条信息每一轮对话都要用到,Hermes 会尽量把它缩得很小并注入进去;如果信息量很大、属于历史旧账或者偶尔才有用,Hermes 就会把它踢出提示词,改用“按需检索”的方式。 第一层:固化的提示词记忆 其内置的记忆系统小得令人惊讶。 Hermes 将持久记忆存储在 ~/.hermes/memories/ 下的两个文件中: 1). MEMORY.md 智能体笔记:环境、规范、工具怪癖、教训 限制:2,200 字符 2). USER.md 用户画像:偏好、沟通风格、身份信息 限制:1,375 字符 这容量真不大。加起来大约只有 1,300 个 Token(模型理解文本的最小单位)。 而这正是刻意为之。 在会话开始时,Hermes 加载这两个文件,把它们渲染进提示词区块,然后在整个会话期间固化这个快照。会话中途写入的记忆会立即存入硬盘,但不会改变已经生成的系统提示词。这些改动只有在开启新会话,或者触发了“压缩(Compression)”导致的提示词重建时才会生效。 渲染后的格式如下: ------ ═══════════ MEMORY (你的个人笔记) [67% — 1,474/2,200 字符] ═══════════ 用户的项目是一个位于 ~/code/myapi 的 Rust Web 服务,使用 Axum + SQLx § 这台机器运行 Ubuntu 22.04,安装了 Docker 和 Podman § 用户喜欢简洁的回复,讨厌冗长的解释 ------ 这里有几个我非常欣赏的细节设计: 1. 使用字符限制而非 Token 限制:这让记忆逻辑与模型无关。Hermes 不需要调用特定模型的计算工具就能判断记忆是否存满。 2. 简单的分隔符文件格式:条目之间用 § 分隔。没有复杂的向量数据库(Vector DB),没有自定义二进制存储,就是纯文本。 3. 刻意保持极小的系统提示词空间:这是整个设计的重中之重。Hermes 不想把所有历史都塞进提示词,它只想要最有价值的事实。 4. 记忆是“精选状态”,而不是“日记”:这是 Hermes 与 OpenClaw 最大的区别。 OpenClaw 的日志更像是“流水账”。而 Hermes 则反其道而行。它的工具架构和测试逻辑强调: • 保存用户偏好。 • 保存环境事实。 • 保存反复出现的错误修正。 • 保存稳定的规范。 • 不保存任务进度。 • 不保存会话结果。 • 不保存临时的待办事项(TODO)。 真相是:Hermes 希望 MEMORY.md 和 USER.md 保持精简、高频且对缓存友好。 memory 工具 Hermes 通过一个拥有三种操作的 memory 工具来管理这些文件:add(添加)、replace(替换)、remove(移除)。 一个好用的细节是:replace 和 remove 使用子字符串匹配。你不需要记住条目的内部 ID,只需要传入现有条目中一段唯一的文字即可。 此外,系统会拒绝完全重复的内容,并拦截危险信息。源代码会扫描记忆条目,防止提示词注入(Prompt Injection,即通过输入恶意指令误导 AI)、凭证泄露或隐藏的 Unicode 字符。 第二层:用于情景回溯的 session_search 如果说 MEMORY.md 是 Hermes 的“短期热记忆”,那么 session_search 就是它的“长尾回溯系统”。 所有过去的会话都存储在 SQLite 数据库中,拥有完整的索引和搜索功能。当模型需要想起以前聊过的内容时,它不去翻 MEMORY.md,而是搜索这个会话数据库。 其工作流程是: 1. 在过去的消息中进行全文搜索。 2. 按会话分组结果。 3. 加载匹配度最高的会话。 4. 使用一个便宜的辅助模型对这些会话进行摘要总结。 5. 将精炼后的回顾内容返回给主模型。 这是一种非常务实的设计。它比盲目地把长篇累牍的历史塞进每一个提示词要便宜且高效得多。 第三层:压缩与记忆冲刷(Memory Flush) Hermes 另一个聪明之处在于它处理长对话“压缩”的方式。 当会话变得太长,Hermes 会压缩对话中间的部分以节省空间。但摘要是有损的,重要事实可能会丢失。 于是,Hermes 会先进行一次“记忆冲刷”。 在压缩之前,它会发送一条指令告诉模型: > “会话即将压缩,请保存任何值得记住的东西。优先保存用户偏好、修正建议和重复模式,而非具体的任务细节。” 然后它运行一次额外的模型调用,只开启 memory 工具。如果模型觉得有什么东西该留下来,就会在对话被“洗掉”之前把它写入 MEMORY.md。 第四层:作为程序记忆的技能(Skills) Hermes 不仅能记住事实,还能记住技能。 技能(Skills)存储在 ~/.hermes/skills/ 下。当 Hermes 发现了一个复杂的流程、修复了一个棘手的问题或学会了更好的方法时,它可以将其保存为“技能”。 大多数记忆系统只关注“语义回溯”(名字、偏好、事实),但智能体还需要记住如何做事。 为了效率,Hermes 不会把所有技能都塞进提示词,而是只放一个技能索引,只有在需要时才加载具体的技能内容。 第五层:用于深层建模的 Honcho 最后是可选的 Honcho 层。如果说本地记忆是 Hermes 的笔记本,Honcho 就是它尝试构建的复杂用户模型。它能实现跨设备、跨平台的记忆连续性。 最精妙的是它如何在不破坏提示词缓存的前提下实现集成: • 在会话的第一轮,Honcho 的上下文会被织入系统提示词。 • 在之后的对话中,为了保持提示词稳定,Honcho 的回溯内容会附加在当前用户的提问后面,而不是修改系统提示词。 这确保了缓存依然有效,同时 AI 依然能读到最新的背景信息。 Hermes 与 OpenClaw 的区别 • OpenClaw:记忆更接近“以 Markdown 为中心的存储”,日志和长效文件是主要事实来源。 • Hermes:提示词记忆被严格限制,历史记录存在 SQLite 里,只有需要时才搜索。 Hermes 更加关注缓存效率。 它认为:不是所有东西都配住在“系统提示词”这个黄金地段。 总结:Hermes 做对了什么? 1. 冷热分离:小规模提示词记忆负责常驻信息,搜索负责偶尔用到的信息。 2. 缓存优先:它意识到频繁改动提示词会导致延迟增加和成本上升。 3. 记忆的多样性:它承认记忆是分层的——包括个人画像、情景回溯、操作技能和深层建模。 Hermes 的核心设计原则最令我折服:记忆应该让智能体变得更好用,而不是通过摧毁提示词的稳定性来换取博闻强识。 真正的诀窍不是记住更多,而是在正确的层级、以正确的成本,记住正确的事情。

译Hermes Agent采用四层记忆架构,核心是保持提示词稳定以优化缓存。第一层是固化在提示词中的MEMORY.md和USER.md文件,容量小以确保缓存友好性;第二层是通过session_search调用的SQLite历史会话存档,实现按需检索;第三层是压缩对话时的记忆冲刷机制,优先保存关键信息;第四层是作为程序记忆的技能管理系统。可选的Honcho层用于深层用户建模。与OpenClaw的流水账存储不同,Hermes严格区分记忆层级,强调缓存效率,旨在以正确成本记住正确信息。

Yuchen Jin@Yuchenj_UW · 4月30日54

AI lets you outsource coding. The trap is thinking you can outsource understanding.

译AI让你可以将编码外包。 陷阱在于你认为自己可以将理解外包。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
4月30日
21:11
歸藏(guizang.ai)@op7418
49
主推文抱怨内容被盗,而引用推文展示Codex AI的强大能力:仅根据用户对类似《杀戮尖塔》游戏的中国风格要求,便能自动生成从代码到素材的完整可玩游戏。这突显了人工智能在创造性任务中的自主原创性,与盗窃行为形成鲜明对比,引发对科技赋能内容创作的关注。

歸藏(guizang.ai): 我操,Codex 太牛逼了! 自己给我做了一个类似于《杀戮尖塔》的爬塔游戏,从代码到素材全是自己搞。 我就跟他说了一个要做类似《杀戮尖塔》的游戏,要中国风格的 这是能玩的!

OpenAI大佬观点编码
20:10
Emad@EMostaque
10
你使用常规思维还是扩展思维来处理 GPT 5.5 Pro
OpenAI大佬观点
18:10
Berryxia.AI@berryxia
55
文心5.1 Preview登顶国内文本榜,揭示文本能力仍是AI模型关键分水岭

文心5.1 Preview在LMArena文本榜以1476分位列国内第一,是全球前十五名中唯一的国产模型,排名超越GPT-5.5与DeepSeek-V4-Pro。尽管AI领域热点转向Agent与多模态,但DeepSeek V4与文心5.1等旗舰模型仍以文本为核心。作者强调文本能力是大模型的地基,代码、推理等多维度能力均由此衍生,地基差异直接影响上层性能,因此文本仍是模型拉开差距的关键分水岭。引用推文显示,文心5.1在数学、法律与政府、商业管理及软件服务等类别表现突出。

Arena.ai: Ernie-5.1 from @ErnieforDevs lands at #13 in Text Arena - now the #1 highest-ranked model from a Chinese lab. Strongest ...

大佬观点推理模型发布
17:09
Rohan Paul@rohanpaul_ai
47
Sam Altman: "曾几何时,我们常常嘲笑那些只有想法、需要技术人员来实现的'点子王'。但现在,那些真正深刻理解用户却完全不会编程的人,我想资助这些人。"
OpenAI大佬观点现象/趋势
16:39
Rohan Paul@rohanpaul_ai
47
移除人为瓶颈,实现AI完全自主以提升效率

Andrej Karpathy指出,要最大化利用现有AI工具,关键在于将自身从交互循环中移除,避免成为持续提示的瓶颈。他主张构建完全自主的系统,通过最大化token吞吐量来实现高效率运作。核心目标是提升个人杠杆率:仅需偶尔投入极少量的token,就能驱动系统自动完成大量工作,从而使人从重复性操作中解放出来,专注于更高层次的决策与设计。

智能体大佬观点现象/趋势
16:09
DogeDesigner@cb_doge
33
OpenAI拥有所谓的人类强化学习,这相当于说他们有一大批人员查看ChatGPT的输出,然后判断其是否合适。本质上他们是在训练AI撒谎。 - Elon Musk
OpenAI大佬观点安全/对齐
13:13
Yuchen Jin@Yuchenj_UW
51
OpenAI 构建 GPT-5.5-Cyber 模型是因为 Anthropic 构建了 Mythos。 白帽与黑帽能量。

Sam Altman: we're starting rollout of GPT-5.5-Cyber, a frontier cybersecurity model, to critical cyber defenders in the next few day...

AnthropicOpenAI大佬观点安全/对齐
13:09
Sam Altman@sama
39
对齐失败

Theo - t3.gg: Fun fact - if you have a recent commit that mentions OpenClaw in a json blob, Claude Code will either refuse your reques...

Anthropic产品更新大佬观点安全/对齐
13:09
Ethan Mollick@emollick
51
微软和OpenAI在同一时间拥有完全相同的模型,却用它们做出了如此不同的事情,这真的很有趣。 这是一个罕见的纯粹实验:一家无名初创公司和全球最大企业之一提供完全相同的产品。
MicrosoftOpenAI大佬观点
12:38
歸藏(guizang.ai)@op7418
37
我操,Codex 太牛逼了! 自己给我做了一个类似于《杀戮尖塔》的爬塔游戏,从代码到素材全是自己搞。 我就跟他说了一个要做类似《杀戮尖塔》的游戏,要中国风格的 这是能玩的!
OpenAI图像生成大佬观点编码
12:09
Nathan Lambert@natolambert
40
Demis是"你最信任哪位CEO来掌管AGI"这个问题唯一可接受的答案 (在Anthropic/OpenAI上市之前尤其如此,谷歌已上市是重要的制衡因素)
DeepMind大佬观点安全/对齐
12:09
Greg Brockman@gdb
34
一个关于有趣 ML 调试的故事

OpenAI: We're talking about Goblins. https://openai.com/index/where-the-goblins-came-from/

OpenAI大佬观点
12:09
Ethan Mollick@emollick
33
我认为Gemini聊天机器人具备了成为有用工具的所有要素,但难以将其整合起来。它似乎仍然不清楚自己能创建哪些文件,也不明白其工具之间如何协同工作。 它还经常显得"气馁",宁愿放弃而不是寻找新的解决方案。
Google大佬观点
11:44
DogeDesigner@cb_doge
35
我对像Google、Gemini、OpenAI和Meta这样的公司有一个担忧,即它们并非在最大限度地追求真相。它们的人工智能正在迎合政治正确,并被训练去说谎。 对人工智能来说最安全的是最大限度地追求真相,即使真相不受欢迎。
大佬观点安全/对齐
11:39
Sam Altman@sama
21
goblinblog 发布了
OpenAI大佬观点
11:38
Ethan Mollick@emollick
51
高级AI模型网络安全风险引担忧,监管缺失致企业决策各异

基于现有信息,Mythos是一款在网络安全方面表现优异的高级通用AI模型,并非专业网络安全模型。出于对网络安全风险的担忧,Anthropic将其设为受限制模型并引起政府关注。而即将或已达到相同能力阈值的OpenAI和Google,可能因不同的风险评估或对自身防护措施的自信,做出不同的发布决策。目前,模型网络安全风险程度完全依赖企业自我报告,缺乏外部监管。这引发了Anthropic是否因自我限制而处于竞争劣势,以及其他公司会否面临类似限制的疑问,当前局势尚不明朗。

Anthropic大佬观点安全/对齐政策/监管
10:44
meng shao@shao__meng
64
Naval论编程回归:AI智能体如何重塑软件创造与行业格局

Naval认为Claude Opus 4.5标志着AI编程从代码助手跃升为自主智能体。它与Unix生态深度融合,大幅降低编程门槛,使“Vibe Coding”成为一种能获得真实回报的创作过程。他断言纯软件已无投资价值,VC应转向硬件、网络效应和AI模型本身。同时,他指出当前AI存在取悦用户和同质化的根本局限,需人类在架构层介入。基于此,他预测Apple放弃AI将导致其统治终结,未来一两人加AI智能体即可运营十亿美元规模的软件公司。

Naval: New podcast on vibe coding - A Return to Code. A Return to Coding 00:20 The Personal App Store 03:17 Vibe Coding Is a Vi...

智能体Anthropic大佬观点
10:40
ginobefun@hongming731
49
卡神深度解读大模型驱动的开发范式转向Software 3.0

卡神指出,开发范式正转向Software 3.0,核心变为提示工程与上下文控制,传统中间代码冗余。未来系统将重构为Agent Native架构,神经网络成为主导。Vibe Coding降低开发门槛,但复杂商业系统需Agentic Engineering以确保质量与安全。人类工程师价值集中于顶层设计、商业逻辑严谨性及输出结构化文档以约束模型行为。当前大模型在代码、数学领域强大但常识推理薄弱,需防御性系统设计。人类认知是进化瓶颈,需构建自动化个人知识体系以提升洞察力,指挥智能体集群。

智能体大佬观点现象/趋势
10:09
Nathan Lambert@natolambert
38
为什么要全力推进Gemini,当你只需要在Google办公室里走走,就能从地上捡起数十亿美元。

Joseph Carlson: This is so crazy it literally looks fake.

Google大佬观点
10:09
Nathan Lambert@natolambert
41
对于目标进入工业界的AI博士生,论文数量虽重要,但存在边际效益递减的临界点。在中国,通常拥有2-3篇CCF-A类(共同)一作论文是获得顶尖人才offer的门槛,超过后增益迅速下降。对应届生而言,在大型科技公司基础模型团队的匹配实习或项目经验往往比论文数量更具决定性。学术界与工业界视角不同,论文仅是个人能力的一部分。同时需注意,LLM领域仅是计算机科学的一小部分,其本身竞争极度内卷,呈现赢家通吃态势,唯有最具韧性的参与者才能最终脱颖而出。

Xiuyu Li: For AI PhDs aiming for industry, paper count matters, but only up to a point. In China, 2 to 3 (co)first author CCF-A pa...

大佬观点行业动态
10:08
Ethan Mollick@emollick
49
推文以GPT-5.5为自己策划派对为例,阐释了当前人机协作的"锯齿状前沿"。AI(GPT-5.5)能自主选择派对日期(5月5日5:55)并提出创意,但具体执行如发布信息、筛选宾客(由Codex辅助)、订购食物等仍需人类完成。这揭示了现阶段AI虽能生成想法和决策,但落地实现仍依赖人类,体现了双方能力边界交织的协作状态。

Sam Altman: GPT-5.5 is going to have a party for itself. it chose 5/5 at 5:55 pm for the date and time. if you'd like to come, let u...

OpenAI大佬观点
09:44
Orange AI@oran_ge
38
一位开发者宣布将取消其所有产品的订阅方案,包括已付费用户的退款。未来其旗下所有vibe产品将不再设置Pro等分级方案,所有功能免费开放,仅保留"按需付费"这一种盈利方式。此举旨在颠覆传统的SaaS权益模式,代表了从固定订阅制向更灵活的使用量付费模式的转变。该开发者将首先改造其产品tuwa ai以适应新收费计划。

郭宇 guoyu.eth: 打算把我做的所有产品的订阅方案取消,已经付款订阅的用户我会返还对应的消费额度,以后我的所有 vibe 产品都不设置 pro 等各种等级方案,所有功能免费对所有用户开放,只保留一种盈利方式:按需付费。我将在这周开始优先改造 tuwa ai 以...

大佬观点
09:40
ginobefun@hongming731
47
AGI 2030年临近,创业者需战略布局与技术攻坚

Demis Hassabis预测AGI将在2030年左右到来,科技创业者必须提前将其纳入长远战略规划。当前底层架构需攻克持续学习与长期推理两大难题,智能体被视为通向AGI的必经之路,但受限于持续学习能力难以适应复杂环境。模型生态上,大小模型协同运作成为趋势,蒸馏技术使轻量级模型以低成本达到高性能,端侧模型降低成本并保障隐私,未来与云端超大模型协同构建理解物理世界的基础设施。

智能体DeepMind大佬观点开源生态
09:37
阿绎 AYi@AYi_AInotes
68
Gmail成为AI Agent入口,Cursor SDK释放自动化编程潜力

推文演示了将Gmail作为AI Agent任务入口的实用场景:用户可将bug报告邮件一键分享至Google Chat并@AI助手Uma,由其自动接管。技术链路整合Gemini Flash Lite与新版Cursor SDK,驱动Cloud Agents自动读取邮件、查询代码、分析问题并生成修复方案,结果流式返回聊天界面。这实现了从手动复制粘贴到一键自动执行的转变。文中强调,Cursor SDK的发布里程碑式地将生产级编程能力转化为可任意嵌入的基础设施,使同一智能体能集成于CI流水线、自动化脚本等各处,其能力与编辑器内体验完全一致,正推动开发者角色向指挥AI转型。

阿绎 AYi: 我等了整整一年的东西,终于来了, Cursor今天正式发布了它的SDK, 这回可远不只是又一个编程工具的小更新, 可以说是人类历史上第一次, 把生产级的编程能力,变成了可以随便嵌入的基础设施, 以前你只能在Cursor编辑器里用它的Agen...

智能体MCP/工具大佬观点
09:14
Orange AI@oran_ge
54
改变命运的河床

文章借波士顿道路源于牛径的典故,引出“最小阻力之路”概念,比喻人常受家庭、社会等外在结构驱使,陷入被动循环。作者指出,专注于“解决问题”的思维会强化结构性冲突,导致努力无效。真正的转变在于从“逃离现状”转向“创造愿景”,通过建立清晰愿景与准确现实认知,形成结构性张力。这种创造源于爱而非恨,是主动的“基本选择”。最后,文章将“结构”思维延伸至产品、AI、人际关系与组织等领域,强调改变命运的关键在于重塑内在与外在的河床结构。

智能体大佬观点现象/趋势
09:13
swyx 🇸🇬@swyx
51
Talkie复古语言模型:基于1931年前文本的训练与伦理挑战

为应对互联网被AI生成内容污染的问题,研究者提出“低背景标记”设想,计划训练仅使用历史文本的复古模型。团队集结了包括GPT-1/2开发者在内的专家,通过训练复古OCR模型处理旧书籍、报纸等资料,并利用礼仪手册、词典等结构化历史文本合成RLHF数据。为确保数据纯净,他们开发了基于文档n-gram的时代错位分类器,精心筛选了数千亿1931年前的公共领域标记进行训练。最终发布了130亿参数的Talkie模型,旨在探索语言模型的泛化能力。然而,该模型在发布后表现出强烈的种族偏见倾向,引发了新的伦理担忧。

Nick Levine: New work with @AlecRad and @DavidDuvenaud: Have you ever dreamed of talking to someone from the past? Introducing talkie...

大佬观点数据/训练
09:09
Sam Altman@sama
33
GPT-5.5要为自己举办一场派对。它把日期和时间定在了5月5日下午5:55。 如果你想来参加,请在这里告诉我们:https://luma.com/5.5 codex将帮助团队从回复中挑选参与者。5.5为派对提出了一些很棒的想法/要求,我们会照做的。
OpenAI大佬观点
08:45
向阳乔木@vista8
67
DeepSeek V4 Flash模型因响应速度快、成本低,获海外用户好评。用户强调应重实际效果而非基准测试,例如建议沉浸式翻译改用该模型。有用户称其速度优势显著,已将非复杂推理API调用切换至V4 Flash,体验无感秒处理,成本比Claude Haiku省90%且质量更优。

明 盛: @vista8 Deepseek的速度绝对是一大未被完全发掘的优势. 试了v4flash之后我把所有不涉及复杂推理的llm api调用全切到flash了. 速度基本都是无感秒处, 价格比haiku省90% 质量比haiku强.

DeepSeek大佬观点推理
08:43
François Chollet@fchollet
48
AI无法端到端自动化整个工作岗位,因其缺乏自主性且需人工监督。目前尚无任何职业能被AI完全替代,包括翻译和客服。核心观点是AI自动化的是具体任务而非工作本身;当某项任务因AI变得更廉价高效时,反而会提升该岗位的整体需求。例如放射科医生并未被AI取代,其年薪超过50万美元且就业持续增长,因为阅片任务自动化后扩大了放射科服务的市场需求。

James Pethokoukis ⏩️⤴️: "A decade ago, AI was supposed to replace radiologists. Today, radiologists make more than $500,000 per year, and their ...

大佬观点现象/趋势
08:39
Rohan Paul@rohanpaul_ai
52
风投究竟看重什么?安德森揭示成功初创企业的关键特质

在2014年的对话中,Marc Andreessen向Sam Altman揭示了风险投资的残酷逻辑:每年约4000家可投资公司中,仅约200家获得顶级风投注资,而其中仅有15家能实现1亿美元收入,它们贡献了当年风投行业几乎全部的回报。因此,投资者评估初创企业时,主要不是看其是否全面可靠,而是寻找能否让其跻身那极少数赢家的“不对称优势”,例如产品病毒式传播、精准的市场时机或创始人非凡能力等。在幂律分布主导的行业里,“全面优秀”远不如“在决定性方面卓越”。对创业者而言,关键在于展示能显著改变概率的独特突出优势,因为平庸在风投领域几乎注定失败。

大佬观点现象/趋势
06:39
Rohan Paul@rohanpaul_ai
55
Replit 首席执行官 Amjad Masad:我们正进入后提示时代:AI 将从优化提示转向开发新界面和能在后台运行的自主智能体。 "完全自主的智能体将能够主动推送而非被动拉取,并在后台运行"
智能体大佬观点
06:09
Greg Brockman@gdb
40
我对GPT Image 2在应用构建中的实用性感到非常惊喜: 【引用 @romainhuet】:GPT-5.5 + GPT-Image-2 is becoming one of the best combos for building apps! @dkundel 分析了它为何如此有效。我们将这些见解融入了Build Web Apps插件中,因此Codex可以为您处理从设计到应用的循环。👌

Romain Huet: GPT-5.5 + GPT-Image-2 is becoming one of the best combos for building apps! @dkundel breaks down why it works so well. W...

OpenAI图像生成多模态大佬观点
05:14
Replit ⠕@Replit
41
提示词时代正在终结。 接下来是:新的界面和全自主代理,它们将推送而非拉取。 Amjad 谈后提示时代,与 @southpkcommons 直播中 ⠕ 完整对话如下。
智能体大佬观点现象/趋势编码
04:09
Chubby♨️@kimmonismus
53
当我读到《福布斯》上这样的文章时,我不禁怀疑他们是否意识到,目前人工智能推理的成本正以每年约5-10倍的速度下降,某些能力偶尔甚至会出现10-100倍的跃升。 也许今年甚至明年,"算力成本远高于人力成本"的说法还能成立。但在未来的许多年里,情况很可能并非如此。
大佬观点
03:42
swyx 🇸🇬@swyx
64
IMO DeepSeek v4 展现了十足的自信与能力,它没有进行基准刷分,没有关注某些无意义的最终运行成本,甚至没有投入推理最优的计算资源。 只是亮相,展示了SOTA的长上下文效率技术(CSA、HCA、mHC,以pro版本8%的成本实现flash,而pro版本成本仅为opus的14%),发布了全球最佳的开源基础模型,然后潇洒离场。 后续训练请自行处理。留给智能体实验室去收拾残局吧。喝彩。
DeepSeek大佬观点开源生态
03:36
Emad@EMostaque
23
几乎肯定会是这样 【引用 @MikeIsaac】:来自奥克兰市中心联邦法院内部,埃隆·马斯克诉OpenAI案庭审第三天的早晨! 关注我和@CadeMetz获取现场报道,以及我在推特上的精彩趣味解说 http://nytimes.com/live/2026/04/29/technology/openai-trial-sam-altman-elon-musk/heres-the-latest

rat king 🐀: good morning from day three of the Elon Musk vs. OpenAI trial from inside the Federal Courthouse in downtown Oakland! fo...

OpenAIxAI大佬观点
02:09
Chubby♨️@kimmonismus
51
Mistral Medium 3.5:定位胜于基准测试

Mistral Medium 3.5是MistralAI的新旗舰模型,以公共预览版发布。它整合指令遵循、推理和编码能力,采用128B密集参数和256k上下文窗口,支持可配置推理努力。模型定位比基准测试更关键,比较对象包括Kimi、Qwen、GLM和Claude Sonnet,而非GPT或Gemini。随着Aleph Alpha被Cohere收购,Mistral成为唯一非美国、非中国的尖端实验室,以开源权重和修改的MIT许可证发布。模型在推理效率与一致性间权衡,Collie分数达95.8领先,目标不是原始推理,而是成为生产中可靠遵循指令的模型,体现欧洲企业定位。它是Mistral Vibe和Le Chat的新默认模型。

Mistral Vibe: Mistral Medium 3.5, a new flagship model in public preview by @MistralAI that merges instruction-following, reasoning, a...

大佬观点开源生态
01:44
宝玉@dotey
67
Cursor开放TypeScript SDK公测,提供智能体框架

Cursor开放官方TypeScript SDK公测,允许开发者使用其智能体(agent)框架,该框架驱动Cursor编辑器、CLI和网页版。智能体可在本机或云端独立虚拟机中运行,云端提供沙箱、代码仓库和完整开发环境,支持任务持续执行并自动提交PR。模型层面不绑定,可一键切换OpenAI、Anthropic、Google等前沿模型,或使用Cursor专为编码训练的Composer 2。SDK开放了代码库索引、语义搜索、MCP工具接入、技能加载和任务拆分等核心能力。应用场景包括CI/CD流水线自动化、内部工具开发以及嵌入客户产品,使最终用户获得智能体体验。计费按token用量计算,SDK基于Cursor自身的运行时、harness和模型,让开发者能构建与Cursor相同能力的智能体。

Cursor: We're introducing the Cursor SDK so you can build agents with the same runtime, harness, and models that power Cursor. R...

智能体MCP/工具大佬观点
01:14
宝玉@dotey
54
转译:深度拆解 Hermes Agent 的记忆系统:它如何修正 OpenClaw 的误区

Hermes Agent采用四层记忆架构,核心是保持提示词稳定以优化缓存。第一层是固化在提示词中的MEMORY.md和USER.md文件,容量小以确保缓存友好性;第二层是通过session_search调用的SQLite历史会话存档,实现按需检索;第三层是压缩对话时的记忆冲刷机制,优先保存关键信息;第四层是作为程序记忆的技能管理系统。可选的Honcho层用于深层用户建模。与OpenClaw的流水账存储不同,Hermes严格区分记忆层级,强调缓存效率,旨在以正确成本记住正确信息。

Manthan Gupta: http://x.com/i/article/2034841599101009921

智能体MCP/工具大佬观点
01:12
Yuchen Jin@Yuchenj_UW
54
AI让你可以将编码外包。 陷阱在于你认为自己可以将理解外包。
大佬观点编码
‹ 上一页
1…47484950
下一页 ›