AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 1473 条
全部一手资讯X论文
标签「现象/趋势」清除
宝玉@dotey · 5月13日58

“搭一套完整智能体工作流”其实不值钱,就好比写代码虽然难但没那么值钱,值钱的还是把代码编程有价值的产品。 智能体也一样,值钱的是搭建一套解决业务问题的智能体工作流。技术上其实还好,难的是需要对业务和 AI 技术两者都有深入了解,重新设计出 AI Native 的工作流而不是说原来的工作流加上一点 AI。 目前基于 AI 的工作流业界都在摸索中,缺少最佳实践参考,而且不同的行业需要的工作流不一样,抄都没得抄,得反复试错后才能做得好。 还有一个变量就是模型能力一直在变化,半年前设计好的工作流可能到现在已经过时了,又需要重新调整。 好事情是这里面其实机会蛮多,尤其适合程序员和 PM 转型。

译构建完整的智能体工作流技术门槛已降低,能力不再稀缺。真正的价值在于深入理解具体业务与AI技术,设计出AI Native的解决方案,而非简单地将AI嵌入原有流程。当前行业缺乏最佳实践,需针对不同领域反复试错。同时,模型能力快速迭代导致工作流易过时,需持续调整。竞争焦点已从技术实现转向商业落地,找到独特切入点和解决实际业务问题成为关键护城河,这为程序员和PM转型提供了机会。

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 5月13日52

This is Pixar-level quality How can artists in Hollywood not see the writing on the wall? You think the suits are gonna pay you $100,000 a year to slowly do this shit by hand?

译电影制作人Tyler Perry在目睹OpenAI的Sora视频生成模型演示后,宣布暂停其价值8亿美元的工作室扩建计划。他指出AI能以极低成本完成原本耗资数千万美元的试播集制作,企业必将选择低成本路径,因此对近未来大规模失业深感忧虑。Perry呼吁好莱坞各工会乃至国会采取统一行动,建立监管框架保护从业人员,强调行业必须联合而非各自为战。此前梦工厂创始人Katzenberg预测AI将在三年内削减90%动画岗位,此事印证了该趋势正在加速。

凡人小北@frxiaobei · 5月13日74

AI会不会取代人这个话题,每个角色其实都在讲对自己有利的版本。 AI公司说能替代员工,能带来更高估值。 企业说用AI精简了团队,比承认疫情招多了更体面。 教育者说别慌来报课学习,刚好让你焦虑到付费。 媒体说末日来了,因为流量最大。 这里面没人撒谎,大家说的可能都对。 但当所有人都在用同一个话题服务自己的叙事时,也许该问的问题就不是AI到底会不会取代人了。 包括我自己在内,身边太多朋友都在经历各种巨变,聚会聊天大家都很焦虑。 所以我的疑问其实很简单, 转型期到底多快多痛,来不及转身的人怎么办? 只是这个问题对谁来说都没什么好处,所以没人有动力认真回答。

译关于AI是否取代人类的讨论,实为不同利益方的叙事塑造:AI公司为高估值渲染替代能力,企业借AI解释裁员,教育机构制造焦虑,媒体追逐流量。吴恩达指出“AI导致大规模失业”是夸大其词,实际净增岗位远超替代,并以软件工程师招聘强劲、美国低失业率为证。他强调AI改变工作性质而非摧毁就业,揭露夸大叙事背后的商业动机——AI公司可通过对标员工薪资提高定价,企业则借AI掩饰疫情期间过度招聘。核心问题在于技术转型中个体如何应对,但这缺乏利益驱动力被认真探讨。

Ethan Mollick@emollick · 5月13日64

Had an interesting exchange with roon of OpenAI last night over whether super intelligent AI would actually be able to navigate organizational challenges.

译昨晚与OpenAI的roon进行了一次有趣的交流,关于超级智能AI是否真的能够应对组织挑战。

Ethan Mollick@emollick · 5月12日53

Expect your feed to look more and more like this in the coming weeks and months.

译预计在接下来的几周和几个月里,你的信息流会越来越像这样。

meng shao@shao__meng · 5月12日63

昆仑万维董事长方汉,每个月自己消耗 Token 能达到 20-30亿 而他有一个朋友,一天就能消耗 20-30亿,这个数字也太恐怖了,我一下子想象不到他到底同步来着多少 Agent 在连续不断的运行,这得是什么大型复杂项目? 如果大家对20亿token概念还不清晰,咱们算个账,假设输入输出各10亿,Claude Opus 4.6 价格是 30K 美金!!即使是每个月都已经恐怖至极了,何况是每天!!

译昆仑万维董事长方汉透露,其个人每月消耗的AI模型Token数量达20-30亿。更惊人的是,他的一位朋友单日消耗量即达到同等规模(20-30亿)。这一数字引发了对于背后运行着何等规模与复杂度的AI Agent项目的想象。为帮助理解,推文以Claude Opus模型的价格进行估算:若按输入输出各10亿Token计算,单日成本就高达约3万美元,月消耗成本已属极高,日消耗量更是令人震惊。

凡人小北@frxiaobei · 5月12日40

今天接到保险公司专员的电话,让我更加确信,有些岗位迟早要被 AI 替代。 事情是这样的:5月8号去医院就诊,医生为了方便我复诊,顺手把6月2号的挂号也开好了。报销的时候,我不小心把6月2号的挂号费发票一起扫了进去。 系统多次提醒我补交6月2号的处方和病历,我跟客服反馈说提交有误,客服上报之后,今天就有专员来电跟进了。 结果这位专员上来就反复强调:您需要提交6月2号的病历。 我说,大姐,今天才5月12号,6月2号还没到呢,你是在跟我开玩笑吗? 大姐愣了一下:哦对哦……那我去帮你反馈一下。 所以这通电话的意义是什么?她做的事情,和之前系统自动催我提交材料,有任何区别吗?如果人工只是把系统提示念一遍,不做任何判断,那这个岗位存在的价值到底在哪里? 类似的岗位还有多少?多少人的日常工作,就是机械地转述系统的指令、复读流程里的话术,从不思考内容本身是否合理? 很多人把自己活成了机器,又担心被机器取代 这是什么心理。

译作者因误提交未来日期的医疗发票,收到系统自动催收材料提示。在向客服反馈后,保险专员致电跟进,却只是机械重复系统要求提交6月2日病历的指令,完全未意识到该日期尚未到来。这通电话与系统自动提示无异,未能提供任何人工判断价值。此事引发对一类岗位的思考:许多工作仅是机械转述系统指令、复读流程话术,而不思考内容本身的合理性。这类缺乏判断与思考的岗位,正是面临被AI替代风险的高危领域。

Chubby♨️@kimmonismus · 5月12日50

Seriously, the Robotic Wars have begun. South Korea is now exploring Hyundai robots for military use as its army shrinks with the population. Aging societies are running out of young people, so the next obvious move is becoming clear: If there are not enough soldiers, build them. The robot wars are not starting because sci-fi became cool. They are starting because fertility collapsed.

译韩国因人口减少导致兵源萎缩,正探索将现代集团的机器人用于军事领域。推文指出,机器人战争并非源于科幻热潮,而是由生育率崩溃、社会老龄化导致的必然结果——当没有足够的士兵时,就开始制造他们。文中提及的Unitree机器人虽应用于建筑行业,但其发展动向引发了对其未来潜在军事用途的隐忧。

Chubby♨️@kimmonismus · 5月12日56

OpenAI's announcement says the new deployment-company launches with more than $4 billion in initial investment, but Axios reports additional investor terms not included in the announcement: a guaranteed minimum 17.5% return and capped profits! It does make the structure worth watching, because frontier labs are increasingly using private equity portfolios as both funding source and distribution channel.

译OpenAI公告称新成立的部署公司以超40亿美元初始投资启动,但Axios报道了公告未包含的附加投资者条款: 保证最低17.5%回报率且设置利润上限! 这确实使该架构值得关注,因为前沿实验室正日益将私募股权投资组合同时作为资金来源和分发渠道。

Ethan Mollick@emollick · 5月12日67

You will know that the AI labs believe in ASI when they disband their newly formed consulting (sorry “forward deployed engineering”) groups. As long as people are required to figure out how AI is useful & do organizational change & systems integration, jobs seem to be pretty safe

译当AI实验室解散他们新成立的咨询(抱歉,是“前沿部署工程”)团队时,你才会知道他们真正相信ASI。只要还需要人们去思考AI如何发挥作用、进行组织变革和系统集成,工作似乎就相当安全。

Deedy@deedydas · 5月12日61

Things every AI app startup says today to justify their defensibility: 1. We support multiple models. Our customers do not want to lock in to one vendor. 2. We have a data moat. We post-train open-source models to be much better and cheaper than closed-source. 3. We do deep integrations to help our harness use our "context graph" and build custom workflows. In the best case, this is actually true. In many cases, it is hilariously false.

译如今每家AI应用初创公司为证明自身防御性都会说: 1. 我们支持多模型。客户不想被单一供应商锁定。 2. 我们有数据护城河。通过对开源模型进行后期训练,效果比闭源更好且更便宜。 3. 我们深度集成,帮助用户利用"上下文图谱"构建定制工作流。 最佳情况下这些属实,但多数场景中其谬误令人捧腹。

ginobefun@hongming731 · 5月12日59

推荐一期姚顺宇 4 小时的访谈播客 这期节目来自张小珺对 AI 研究员姚顺宇长达 4 小时的深度访谈。姚顺宇毕业于清华和斯坦福,博士方向是理论物理,博士毕业后转行进入 AI,先后在 Anthropic 和 Google DeepMind 担任研究科学家,参与了 Claude 3.7、Claude 4.5 和 Gemini 3 等模型的开发。 他在访谈里说了一句容易让人误解的话:AI 这件事,本来也不太需要脑子,这个行业最重要的特质是靠谱、做事细、对自己做的事情负责任。 他并不是在说 AI 研究简单。他想说的是:AI 行业的核心竞争力,已经从难以复制的天才洞察变成了工程执行力。在预训练规模已经证明有效、主要技术路线基本确立的今天,能把事情做踏实、不出岔子、持续迭代,才是真正稀缺的能力。 他还做了一个比喻:现在大家都是冲浪的人,但本质上是那个浪在驱动一切。模型能力的演进就是那个浪,研究员只是借着浪在推进工作。过度崇拜个体天赋,是一种认知偏差。 核心判断:AI 个人英雄主义时代已经过去了。2020 年前后,确实有一段个人英雄主义色彩浓厚的时期,一篇论文、一个算法可以显著推动整个领域进步。但在今天,前沿模型的训练是需要数百人协作、跨越漫长时间线、依赖海量算力的工程行动。继续用英雄主义叙事来理解这个行业,只会把注意力放错地方。 技术判断方面:他认为预训练远没有到头,只是训练方式变了,从依赖堆数据和算力的硬蒸,变成需要在训练方法上更精明的路径。Coding 领域的爆发速度快于其他方向,背后有数据质量和评估机制上的结构性原因。

译AI研究员姚顺宇在访谈中指出,行业核心竞争力已从天才洞察转向工程执行力。在技术路线确立的当下,靠谱、细心和负责任的态度比个人天赋更稀缺。他认为AI个人英雄主义时代已结束,前沿模型开发是数百人协作、依赖海量算力的系统工程。技术层面,预训练未止步但需更精明的训练方法;Coding领域因数据与评估优势而进展更快。

Ethan Mollick@emollick · 5月12日51

I think frontier model writing is good! It often has a sense of style & tone, variations in sentence structure & length, some great phrasing, etc But it also has some weak spots (fiction!) & clear tics. Mostly there is just far too much of it online which makes it all so cliche

译前沿模型(如GPT、Claude等)的文本生成在风格、句式和措辞上具有优势,但其写作存在明显缺陷与固定模式,尤其在虚构内容方面。更关键的是,网络上同类内容过量导致其产出趋于陈词滥调。尽管其文本因可识别性强、缺乏独特气场而价值受限,但认为模型写作缺乏分析或信息价值的观点并不准确。

Berryxia.AI@berryxia · 5月12日41

讲真!越来越卷了!😂 这个教学场景大有可为了!

SemiAnalysis@SemiAnalysis_ · 5月12日24

After studying 300 Leetcode Hards, solving every Jane Street puzzle from the Dwarkesh ads, and watching one Horace He lecture, he finally landed the $400k annualized Jane Street internship. Unfortunately, during onboarding his manager said “this diff is negative alpha,” so Jane Street deployed an AI model to translate all feedback into HR-safe speech in real time.

译在研究了300道Leetcode难题、解答了Dwarkesh广告中的所有Jane Street谜题、并观看了一场Horace He讲座后,他终于获得了年薪40万美元的Jane Street实习机会。 不幸的是,入职培训期间他的经理说“这个差值是负阿尔法”,于是Jane Street部署了一个AI模型,将所有反馈实时翻译成符合人力资源规范的措辞。

Boris Cherny@bcherny · 5月12日33

I needed to book flights for a bunch of upcoming travel. As always, I used Claude Cowork to do it. In the past, Cowork has been decent at booking flights, but with Opus 4.7, for the first time ever, it 1-shotted it!

译我需要为即将到来的一系列出行预订航班。 一如既往,我使用了Claude Cowork来完成。 过去,Cowork在预订航班方面表现尚可, 但凭借Opus 4.7,它首次实现了单次操作成功!

宝玉@dotey · 5月12日66

Codex 的野心,MCP 和 Skill 的下一步 这段时间我在密集使用 Codex App、Cursor 等 Agent 应用,有件事越来越觉得有意思。 去年大家争的是谁家模型更强,今年争的好像变成了谁家窗口右侧更好用。 Codex、Claude 桌面版、Cursor 3.0、TRAE SOLO,这几家最顶尖的 Agent,在完全没有协商的情况下,几乎同时收敛到了同一个界面布局:左侧是项目和会话列表,中间是和 Agent 的对话,右侧是工作区,放着文件浏览、网页预览、文件变更审查这些功能。 肯定不是相互之间的抄袭,更像是当前 Agent 交互的最优解。 【1】为什么是三栏 传统 Chatbot 只需要两栏,左边会话历史,右边对话窗口,你问它答,用完走人。 到了 Agent 时代,Agent 能自己写代码、改文件、调工具了。它做完之后,你得看看有没有做对——右侧工作区就是为这件事出现的。 但这只是第一阶段。 随着用户越来越多时间是在指挥 Agent,打开 VSCode 这类专业工具的时间自然越来越少。那个问题迟早会冒出来:Agent 帮你写完代码、做完 PPT,你想微调几个字,还要专门切出去打开另一个软件? 没有人愿意这样。用户的自然期待是:能不能直接在 Agent 里改?这也是目前 Codex App 呼声最高的功能之一(另一个呼声高的是手机版,马上要出了)。 于是各家开始悄悄升级右侧工作区,让它从只能看文件编辑记录,变成了一个多功能区。Codex 在 4 月 16 日的大版本更新里,右侧工作区的改动幅度是所有功能里最大的。 交互细节上各家略有差异。Codex 和 Cursor 用 Tab 切换,Claude 用浮动面板。我自己用下来觉得 Codex 最顺手,Claude 的浮动面板方案设计感有余、实用性不足,迟早要改。 【2】Codex 的真正野心 但如果只把这个变化读成“设计界面进化”,就低估 Codex 了。 Codex 4 月大版本发布时的口号是“Codex for (almost) everything”——几乎任何任务都能做。你可以把它理解成一句广告口号,但更像是一个产品方向的声明。 要兑现这句话,Codex 不能只是个擅长写代码的 Agent,它必须能处理各种文件格式,支持各领域的专业工作流,还要让用户能在它里面完成全程闭环,包括最后的人工微调。 目前 Codex 还做不到最后一步:生成之后无法编辑,代码、Markdown、PPTX 都不行。这可能是产品上有意为之的克制,可能是技术上还没跑通,也可能是在等一个统一的解决方案出现。 我猜是第三种。 【3】MCP 和 Skill 都只解决了一半 要理解 Codex 在等什么,得先想清楚 Agent 能力拼图里现在差哪一块。 MCP 解决了“连接”问题:Agent 通过统一规范接入各种工具,数据库、日历、代码仓库,都能打通。 Agent Skills 解决了“怎么做”的问题:Agent 学会了它没训练过的领域知识和最佳实践,比如怎么写特定风格的文章,怎么处理某类复杂任务。 这两件事做得都还不错。但有一块缺口始终没补上:用户的二次编辑。 你让 AI 写完一篇文章,最后还是要自己打开编辑器改几处,毕竟很多时候最后那 5% 的精准度,只有自己动手才能到位。就算将来 AI 再聪明,它也做不到百分百的懂你,还是少不了要手动去做修改。 于是最近 Markdown 编辑器又火了,各种 Vibe Coding 出来的 Markdown 产品满天飞。 但 Codex 不会自己做一个 Markdown 编辑器,因为每个人的偏好都不一样,做出来永远有人不满意;更何况它也不可能把每个垂直领域的专业编辑器都集成进来。 最合理的路,是插件机制。 【4】下一步:Agent 版 App Store 把 Agent 做成平台,让社区来贡献插件,就像 VSCode 和 Chrome 那样。 Codex 只需要聚焦在 Agent 调度这一层,把文件预览、二次编辑、垂直领域的专业能力都交给插件来扩展。用户按需安装,做设计的装设计插件,写作者装写作插件。 插件机制还能顺手解决一个长期没有答案的问题:Skill 没办法商业化。 我自己的 baoyu-skills 快 2 万 Star 了,但从中赚到的钱是 $0。Skill 这东西几乎是透明的,对 Agent 透明,对人也透明,复刻成本极低,不管你写得再好,护城河都很浅。 插件不一样。App Store 和 Chrome 插件市场已经跑通了一套收费和版权保护机制,把它移植到 Agent 插件市场完全可行。好插件可以收费,开发者才有持续打磨的动力,生态才真正能转起来。 Codex 现在已经有了一个非常原始的插件市场。从这里到成熟的收费插件生态,还有很长的路,但方向是对的。 想做这件事的不止 Codex 一家。Cursor 我能看到类似的影子。唯独 Claude Code 和 Cowork,目前没看到这个方向的产品迹象——也许他们不屑于做,也许只是还没走到这一步。 【5】留给中小团队的窗口 如果 Codex 真的跑通了插件生态,对中小团队意味着什么? 除了自己做一个垂直 Agent,还有另一条路:在 Codex 这样的平台上做插件。不用自己搭 Agent 调度层,不用解决 Token 接入,用户分发也靠平台。你只需要专注在那个“最后一公里”——帮用户把 Agent 生成的结果处理好、编辑好、用得顺手。 这个窗口不会开太久。先进去的能拿到冷启动红利,晚进去的只剩存量竞争。 时间点不会太远,也许就在这几个月。 Codex 的野心摆在那里,“几乎任何任务”这个口号要真正兑现,插件机制是绕不过去的一步。如果 OpenAI 在这件事上继续犹豫,那才是真的失误。 你觉得这个插件生态最后会是哪家先跑通?或者说你觉得有更适合 Agent 的产品表现形式?欢迎留言分享!

译Codex、Claude等顶尖Agent应用均采用三栏界面,反映其从问答转向任务执行与审查的演进。Codex野心是成为“处理一切任务”的平台,但用户需二次编辑AI生成内容。目前MCP解决工具连接,Skill解决执行方法,仍缺编辑闭环。作者认为,建立类似VSCode的插件生态是合理路径,将文件预览、专业编辑等能力开放给社区开发,实现商业化,从而为中小团队提供开发垂直插件的机遇。

Chubby♨️@kimmonismus · 5月12日73

Anthropics pre-valuation was $1.2t just 5 days ago. Now its $1.4t . Its vaulation increased by $200b in just 5 freaking days. Read that again. wtf

译人工智能公司Anthropic的市场隐含估值在短短五天内从1.2万亿美元飙升至1.4万亿美元,暴增2000亿美元。根据链上Pre-IPO交易数据,其估值自2025年10月以来已上涨1067%,近期24天内又录得40%的涨幅。这一惊人飙升的背景是公司年化收入的爆炸式增长:从2023年的1亿美元跃升至当前的450亿美元,仅过去12个月就增长了1400%。在Jupiter等链上平台交易的、由SPV风险敞口1:1支持的Pre-IPO工具,正实时反映市场对其IPO的估值预期。

阿绎 AYi@AYi_AInotes · 5月12日53

今天是我来X心情最复杂的一天。 一边是YC总裁 Garry Tan转发了我的个人AI帖子,受宠若惊,备受鼓舞, 一边是游戏圈大佬Dash哥的这条批评,字字扎心,我失眠到现在。 真心感谢两位大哥@DashHuang 和@Fenng 以及几位批评指正我的粉丝的当头一棒。 没有任何辩解,你们说的全对。 我用了4个多月0-1涨粉到4万, 陆续有越来越多的推友研究我的账号,以及复刻模仿, 以至于最近中推圈很多推友蒸馏我,到处都是“ayi skill”风格的推文, 我不止一次公开和私下表达过,X还是一篇蓝海,真心希望中推圈都能好好的创作推文, 输出自己的思考,想法,分享经验心得,然后逐渐找到自己的风格, 而不是一味抄框架, 或者只想走捷径抄袭和无脑搬运, 看到很多推友用我的推文框架和风格写出来的内容流量变好,开始涨粉,说实话我真的很开心, 我性格底层的特质就是利他的,能帮到别人对我来讲成就感是最强的,所以我选择了组织和人才发展这个职业和工作, 但随着影响力变大,却渐渐忽略了自己内容创作的初心, 卧槽开头写推文是我屡试不爽的一个 但我自己先跑偏了, 为了流量,把“卧槽开头”做成了屡试不爽的套路。 直到今天才意识到,这种套路已经让人烦了,也让我自己变成了别人眼里只会喊炸裂的gai溜子。 还有这个游戏工作室项目, 我只是作为玩家觉得很酷,没自己跑通就发出来吹,确实不专业。 我自己做内容的底线,就是不能把自己没验证过的东西推给别人。 痛定思痛, 从今天起,我再也不用“卧槽”开头写推文了, 也建议所有模仿我的朋友,把这个套路彻底删掉。 做内容流量不是终局啊各位, 是为了输出有价值的思考, 以后我会更慢一点,更扎实一点,每一条推文都先过自己这一关。 感谢所有认可我的人, 也感谢所有敢说真话批评我的人。 我们慢慢来。

译一位AI内容创作者在获得业界关注的同时,因受到严厉批评而深刻反思。他承认自己为追求流量,将“卧槽”开头等技巧变成了令人反感的套路,并违背了不分享未经验证项目的原则。他宣布即刻停止使用此类套路,并呼吁模仿者一同摒弃。核心反思在于,内容创作不应以流量为终局,而应专注于输出有价值的思考。引用的批评指出,其分享的AI游戏工作室项目思路存在根本缺陷,仍以人类岗位划分限制AI Agent的全局能力,同时尖锐批评了其浮夸文风。

Ethan Mollick@emollick · 5月12日61

One of the most important properties of LLMs that we take for granted is that newer, bigger models are just better at everything. The AI Labs are pouring effort into economically valuable fields like coding, but bigger models are also better at negotiation, alignment, poetry, etc

译大语言模型(LLM)的一个重要特性是,更新、更大的模型在所有方面都表现更优。AI实验室正将大量资源投入编程等经济价值高的领域,但更大的模型在谈判、对齐、诗歌创作等广泛任务上同样更具优势。例如,在PACT基准测试的数千场模拟谈判中,GPT-5.5在买卖双方多轮议价游戏中取得了最佳成绩,这印证了模型规模与综合能力提升的正相关关系。

Ethan Mollick@emollick · 5月12日62

This seems like a critical reason to open up about AI use in academia. Scholars are using old AI models, badly, and not talking about it. New models hallucinate very few citations, and good agentic harnesses drop that further. Being open about use would help us make new norms.

译学者们使用旧AI模型时不公开讨论,导致滥用问题。新AI模型产生虚假引用较少,良好代理工具能进一步降低。公开AI使用有助于建立新规范。引用推文关键信息显示,《柳叶刀》论文指出自2023年以来生物医学论文中虚假引用率增加了12倍以上,凸显了AI使用不透明的负面影响。

阿绎 AYi@AYi_AInotes · 5月12日49

我靠我直接原地起飞了! 晚上群里小北@frxiaobei 提醒, Garry Tan转发了我的推文! 忙完洗漱躺进被窝, 发现Garry用一句话把我想说的所有东西都讲透了! 他说: "别再骑别人发明的无马马车了。 该造自己的法拉利了。 个人AI时代已经到来。" 这句话真的戳中了AI最本质的东西。 现在90%以上的人用AI, 还停留在和ChatGPT聊天、纠结哪个模型更好、到处抄Prompt, 这就像汽车刚发明的时候, 大多数人还在研究怎么把马养得更壮、跑得更快。 到了今天, 普通人追求今天快10%, 聪明人追求系统每个月强10倍。 Garry说他不思考生产力, 只思考复利。 咱们算笔账, 假设你每天多写10封邮件, 一年下来也只是多写了几千封。 但如果你每个月把自己的AI系统变强10倍, 一年后你拥有的就是一个24/7永不疲倦、还能自主进化的第二神经系统。 虽然前6个月可能看不出任何区别, 但到了第12个月, 差距会大到你无法想象。 所以,别再租别人的法拉利开一天就还了。 从今天开始, 搭你的第一个AI雪球, 一年后,你一定会感谢今天的自己!

译Garry Tan指出,当前多数人使用AI仍停留在聊天、比较模型或复制Prompt的层面,这如同汽车发明初期人们仍专注于养马。他强调应停止依赖他人工具,转而构建属于自己的“法拉利”——即个人AI系统。关键在于不追求短期效率提升,而专注于系统能力的复利增长:每月强化系统10倍,一年后便可获得一个持续自主进化的“第二神经系统”。虽然前期进展不明显,但长期累积的差距将超乎想象。

Ethan Mollick@emollick · 5月12日56

This is going to get even worse as people realize that careful tuning in their prompts can make AI writing seem not like AI writing to readers. We expect word counts to align, in some way, with thinking & value. Writing took effort. We are not mentally ready for the alternative.

译随着用户通过精细调整提示词使AI生成内容越来越难以被读者识别,人们将面临更严峻的信息质量挑战。社会习惯性地将文本长度与思考深度挂钩,但AI正在打破这种认知关联。此前低质量AI内容多局限于发展中国家的互动农场账号,而现在科技行业高影响力人士也开始发布长达3000字却空洞的“AI垃圾文章”,这些内容甚至能获得超百万浏览量,且发布者毫无自省意识。这种现象暴露了当前社会对AI内容泛滥的心理准备不足。

凡人小北@frxiaobei · 5月12日54

Karpathy 说视觉是 AI 输出的首选通道,所以未来 HTML 会取代 markdown,再往后是神经视频。 一半同意吧,HTML 在做仪表盘、做对比和一些小交互这类东西上确实是质变,markdown 给不了。 但视觉是首选输出,这个说的有点太满了。 看文字本身就是视觉处理啊,不是只有图形界面才用上眼睛。 并且带宽不等于高效,视觉皮层是宽,但读文本走的是高度优化过的符号通路,未必比解析复杂的布局慢。 一些代码、推理过程,还有需要精确表达的东西,纯文本反而最舒服。HTML 是有隐性成本的,很重也很难二次编辑。 至于终点是扩散模型直出交互视频,技术上不是科幻。 但我有点怀疑它该不该成为通用输出形态,可交互神经世界作为体验是加分,作为默认 I/O 可能丢的比换来的多。

译Karpathy认为视觉是AI输出的首选通道,预测人机交互将从纯文本、markdown向HTML演进,最终达到扩散模型生成的交互式神经视频。他建议用户尝试让LLM以HTML格式输出内容。反对观点部分同意HTML在仪表盘、对比和小交互上的优势,但质疑“视觉为首选输出”的绝对性,指出阅读文字同样是视觉处理,且文本在带宽和精确表达上可能更高效。同时,虽然神经视频在技术上可行,但作为通用I/O形态可能得不偿失,纯文本在某些场景下仍不可替代。

阿绎 AYi@AYi_AInotes · 5月12日31

什么叫真正的AI落地? 什么叫把AI用到自己的业务里真正赚钱? 森马用AI把整个服装行业的底裤都扒了, 带来确收回款几个亿, 节省成本几千万! 还沉浸在自嗨用AI重复造轮子的铁汁都来逐字学习

Rohan Paul@rohanpaul_ai · 5月12日57

🇨🇳 China’s AI race is starting to look less like a model race and more like an adoption race. Alibaba’s Qwen App shows how AI becomes powerful when it slips into ordinary research habits. The difference is not capability, it is deployment shape. e.g doctors and medical researchers in China appear to be using it as a workflow layer: gathering papers, sorting evidence, framing mechanisms, shaping charts, and drafting research-style explanations. Alibaba is trying to place Qwen directly inside a mass consumer and services ecosystem, including shopping, payments, maps, travel, office tools, education, and healthcare, so the model is closer to daily task execution rather than only a premium research assistant. The important shift is that Qwen is not being used only as a chatbot that answers questions, but as a workflow tool. This strategy lands right in China’s comfort zone. It has a massive digital economy to spread AI apps fast, and people who are already very comfortable with tech. Ipsos, the polling firm, found that China is more excited about using AI than any other country. OpenAI is building a highly capable research assistant; China may be normalizing AI as a default work surface inside professional life. For Alibaba and China, the interesting part is the adoption surface: Qwen can become a front door to many services, which means ordinary users, students, doctors, researchers, and office workers may meet AI inside routine tasks rather than as a separate tool. A normal health question can become a research task because the app first shapes the question, then searches for relevant studies, then separates weak claims from stronger evidence, then turns the result into a clearer explanation. This matters for medicine because a lot of research work is not one big discovery moment, but thousands of small steps involving literature review, data cleanup, experiment interpretation, figure preparation, and careful writing. So for professors, students, office workers, and ordinary users, the difference is not just that Qwen can summarize text; it is being positioned as a work surface for preparing reports, generating presentations, studying, planning, searching, and completing real-world tasks without jumping between apps. Both superpowers are worried about slipping behind. In 2026, it could start to look like they are racing on separate tracks.

译中国AI竞争焦点正从模型能力转向实际应用与部署。以阿里巴巴通义千问为例,其正深度融入购物、支付、医疗、办公等庞大数字生态,成为日常任务与工作流程中的工具,而不仅是问答聊天机器人。例如,医生和研究人员已将其用于文献整理、证据筛选、图表制作等研究环节。这一策略契合中国庞大的数字经济和高科技接受度,旨在使AI成为专业与日常工作中的默认界面,让用户能在无需切换应用的情况下完成报告撰写、学习研究等实际任务。

小互@xiaohu · 5月11日43

把我看笑了😂 最近一则「字节跳动悄悄关掉了 30% 的 AI 项目,豆包之外的产品全在收缩」的信息在推特上到处疯传。 说字节4月开了内部AI战略复盘会,直接砍掉30%的AI应用项目 这张图正在被搬运回国内,也开始到处传了... 截图里还煞有其事的说:"字节 2025 年 AI 推理成本超 80 亿人民币,是营收增量的 2.3 倍。这种烧钱速度做不出豆包第二,公司的现金流撑不到 2027。" 看到这句我真的笑了😂 我发现,现在的造谣都不过脑子,而且还是数学白痴,很明显是个完全的外行 这哪叫爆料,简直是典型外行意淫。 字节的营收规模、现金储备、业务基本盘摆在那里,拿一个没来源、没口径的数字,直接推导出“现金流危机”,荒谬到不需要计算器。 浙商证券公开报告显示,字节 2024 年光砸在 AI 上就花了 800 亿 而南华早报最近爆出的字节跳动今年的 AI 基础设施支出将超过 2000 亿元 一个准备花 2000 万装修豪宅的土豪,看到自己上个月水电费交了 80 块,然后跟全家宣布:"不行了,咱家撑不到明年了。" 哈哈哈... 我看到还有很多媒体同行也在转发,你们是真不过脑子? 产品线也写得很外行 即梦 和 Dreamina (即梦海外版)现在风头正劲,Seedance 2.0火了之后,Dreamina(即梦海外版)是人家大力推广的明星产品,已经陆续在各个国家上线,而且上线就是排名Top 1. AI 视频正是字节重点推进的方向,怎么就被写成“被砍”? 字节压根就没有专门的AI写作产品,看起来像没搞清真实产品线的人在凑类别。 最离谱的是但凡天天刷推的人知道,这张图还有很明显的 AI 生成痕迹 什么“第一件、第二件、第三件”,什么“内部明确三条线”,结构工整得像提示词产物。再配上这种戏剧化的高管台词,AI味太冲了。 什么「TikTok 美国剥离悬而未决、印度持续封禁,字节 AI 出海窗口正在关闭」。 这件事今年 1 月 就已经尘埃落定了... 我也问了下字节的朋友,对方回答:“太假了”、“一眼假”

译针对网传“字节跳动关停30%AI项目、面临现金流危机”的信息,推文作者指出其存在多处硬伤并予以驳斥。作者认为,所谓“80亿推理成本导致现金流危机”的说法与字节庞大的营收、现金储备及高达千亿级别的AI投入计划严重不符。同时,指出“产品线收缩”与Dreamina等重点产品全球推广的事实相悖,且原文有明显AI生成痕迹。经向字节内部人士求证,该信息被认定为虚假。

elvis@omarsar0 · 5月11日51

Great essay by Tobi. Building an AI-native company? Go read it now. I couldn't resist visualizing it with my artifact generator. Biggest takeaway for me: "The risk isn't that AI does the work. It's that nobody learns from it."

译Tobi的精彩文章。 正在建设AI原生公司?快去阅读。 我忍不住用我的神器生成器将其可视化。 我最大的收获是:“风险不在于AI完成工作,而在于无人从中学习。”

向阳乔木@vista8 · 5月11日60

AI降低内容生产成本 -> 拼选题和审美 -> 拼信任和分发渠道。

译AI降低内容生产成本 -> 拼选题和审美 -> 拼信任和分发渠道。

Ethan Mollick@emollick · 5月11日67

Enterprises are going to actually want a coherent roadmap for the development of tools like Codex and Cowork, so they can plan and train and scale their use. This conflicts with the Labs’ vision where these tools rapidly scale exponentially in ability as models approach AGI.

译企业将真正需要Codex和Cowork等工具的发展路线图, 以便规划、培训并扩展其使用。 这与实验室的愿景相冲突—— 实验室希望这些工具在模型接近AGI时能力呈指数级快速增长。

Peter Steinberger 🦞@steipete · 5月11日53

I'm adding new features to https://gogcli.sh and Codex noticed that the API it needs is not enabled, so it started Computer Use and is happily clicking around in Google Cloud Admin to turn on what's needed.

译我正在为https://gogcli.sh添加新功能,Codex注意到所需的API未启用,于是它启动计算机使用功能,正在Google Cloud管理界面中愉快地点击以开启所需服务。

阿绎 AYi@AYi_AInotes · 5月11日59

小特朗普或者说特朗普家族为什么下场做中转站? 我去他们官网看了下,首屏那行字吸引到我了, Run hundreds of AI agents in one unified token hub。 兄弟们细品,他们压根儿就没想在中转站这个红海里跟人卷价格, 真正想做的,是整个Agent经济的token底座,讲真光凭这个认知差,就已经把它和所有同行拉开了非常大的差距。 以下是2026年5月最新主流旗舰模型的官方 vs WorldRouter 对比(标准上下文,非长上下文 tier): 数据来源:WorldRouter 官网 models 页(实时 Credits 定价)、Anthropic/OpenAI/Google 官方 API 定价。 WorldRouter 提供 约 30% 优惠(基于 Credits 系统,1 Credit ≈ $0.01 USD)

译特朗普家族旗下WorldRouter并非意图在模型API价格战中竞争,其核心战略是定位为“AI Agent经济的token底座”。该平台旨在统一运行数百个AI智能体,提供约30%的官方API定价优惠。其认知差异在于超越单纯的中转服务,试图构建支撑未来Agent生态的基础设施层,以此与同行拉开差距。

向阳乔木@vista8 · 5月11日38

预判未来企业级的 API 网关产品会越来越多。 经常听到有公司头疼如何管理、分配员工的各种 AI API模型。 另外对企业来说,数据安全也很重要,应该不会直接用普通中转站。 虽然有Azure 和 亚马逊云,但公司规模和需要不同,市场空间还是有的。 图中是一个海外的此类产品,不知道国产的有没有

译随着企业广泛应用GPT、Claude等AI模型,如何安全、高效地管理和分配内部员工的AI API调用权限成为普遍痛点。出于数据安全考虑,企业通常不会直接使用普通中转服务。尽管Azure和亚马逊云提供相关解决方案,但不同公司的规模与定制化需求差异显著,这为专门的企业级API网关产品创造了市场空间。海外已有此类产品出现,国内市场也存在相应机会。

阿绎 AYi@AYi_AInotes · 5月11日62

说个暴论,AI 行业的天,今天真的要变了, 前几天刚写了几篇推文分析过孙哥和特朗普家族为啥下场做AI 中转站,底层逻辑是中转站本质是AI水电煤的生意。 结果今天就看到央视新闻,中国移动上线了AI中转站! 各大社区里很多人都以为中国移动发的 MoMA, 又是一个凑数的模型平台,其实根本不是一回事, 这是 AI 国家队正式跑步进场了, 而且直接把中转站做成了国家级得AI基础设施。 它现在已经接入了 300 + 主流模型, DeepSeek、通义千问、豆包、Kimi、GLM 全在里面, 不知道实际效果和体验咋样,了解的宝子可以评论区分享交流下。 为什么国家队这么快就下场了? 我觉得本质还是中转站就是 未来AGI 时代的智能电网, 谁掌握电网,谁就掌握定价权, 谁掌握电网,谁就掌握未来。 #AI #中国移动 MoMA

译中国移动正式上线AI模型中转平台MoMA,标志着“AI国家队”入场,并将其定位为国家级的AI基础设施。该平台已接入包括DeepSeek、通义千问、豆包、Kimi、GLM在内的300多个主流模型。其核心逻辑在于,AI中转站被视为未来AGI时代的“智能电网”,是关乎定价权与行业未来的关键基础设施。此举呼应了此前关于AI中转站本质是“AI水电煤”生意的分析,预示着基础设施层面的竞争格局变化。

阿绎 AYi@AYi_AInotes · 5月11日58

MCP协议真的要成为AI时代的HTTP了,现在所有的本地AI工具都在往MCP靠,未来的Agent和工具都能无缝互联了吧🤔 YC CEO亲自下场打磨的GBrain,今天发布了v0.31.1版本。 这不是一个小补丁,属意真正的架构级升级: 一个家庭服务器跑中央大脑,所有电脑、手机、所有AI Agent,全部通过MCP协议远程连接。 体验和本地运行一模一样,再也没有同步问题,再也没有记忆割裂。 之前最蠢的bug终于被彻底修好了: 以前的瘦客户端就是个半成品,你连了远程服务器, 它还偷偷在本地开个空的PGLite数据库,跑38次迁移之后告诉你“没有找到任何结果”。 现在v0.31.1强制所有读写全部走远程,10万页的知识库,搜什么都能精准命中。 最有意思的是,这个bug是Garry自己的个人Agent Neuromancer在生产环境踩的。 更新日志里直接写了“Hermes/Neuromancer hit this in production”。 AI自己在生产环境发现了基础设施的bug,然后被写进了官方更新日志。 这可能是人类历史上第一次。 这才是真正的大招,以前我们跑本地AI,是每个设备自己养一个大脑。 电脑上一个,手机上一个,每个Agent又各有一个。 同步慢,不一致,浪费资源,永远拼不成一个完整的你。 现在反过来了: 一个大脑,养所有设备和所有Agent。 你家的旧电脑或者树莓派加个GPU,就能跑一个10万页的私人知识库。 你的Claude Code、OpenClaw、Neuromancer,全部连同一个大脑。 你在电脑上读的论文,手机上记的笔记,Agent做的研究,全部存在同一个地方。 所有AI共享你的全部记忆,再也不会问你“你刚才说什么来着”。 Garry Tan作为YC的掌门人,不去投那些估值几十亿的大模型公司,反而天天熬夜写一个开源的个人记忆工具。 这个信号已经不能更明显了: 下一波AI的最大机会,根本不在云端的大模型。 在本地,在你自己的电脑里,在完全属于你自己的、可控的、永久的个人智能基础设施。 个人AI正在走和企业软件一模一样的路。 从单机版,到客户端-服务器架构。 今天GBrain跨出了这一步,个人Jarvis就真的从玩具变成了基础设施。

译YC CEO主导的GBrain发布v0.31.1版本,实现从本地单机到客户端-服务器架构的关键升级。通过MCP协议,用户可部署中央家庭服务器,让所有设备与AI Agent远程连接、共享记忆,解决了同步不一致与资源浪费问题。此次更新修复了瘦客户端在本地错误创建数据库的关键bug,该bug由CEO的个人AI在生产环境发现并记录,凸显AI参与调试的新范式。这标志着个人AI正从玩具转向可控、永久的本地智能基础设施。

ginobefun@hongming731 · 5月11日61

http://x.com/i/article/2053629064116834304 # EP54 · 2026.05.11 BestBlogs 早报:Incorruptible / Agent 持久化 / TTS 架构变革 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-05-11 今天是 2026 年 5 月 11 日。本期早报聚焦三条主线:Eric Ries 新书《Incorruptible》揭示公司赢了却仍会衰落的结构性根源;Trigger.dev 联创系统拆解 AI Agent 持久化的架构瓶颈,提出上下文日志与执行快照两层解法;Mistral 科学家 Samuel Humeau 讲透 TTS 与 LLM 为何走向同一条路,架构趋同的背后是一整套共享范式的复用。速览环节还有李宏毅深度追问 AI 能否自我成长、Agent「外壳」工程论、Arize 分层记忆实战、MySQL 9.7 LTS、LLM 摘要的识别缺失,以及英伟达 Jim Fan 宣告的机器人新范式与 Gary Marcus 的冷静反驳。 ## 导语 这一期早报的三篇精讲,表面看起来跨度很大——一本关于公司治理的新书、一场 AI 基础设施架构演讲、一次 TTS 技术深度拆解——但背后有一条贯穿全程的隐线:如何在系统快速演进的过程中保持结构完整性。 Eric Ries 的《Incorruptible》问的是:当公司赢了之后,组织结构如何对抗腐化?他的答案是三种「不锈钢螺栓」——公益公司章程、信任型治理、基金会控股,每一种都是把使命嵌入结构而非依赖人心。 Trigger.dev 的 Eric Allam 问的是:当 AI Agent 的工作时长从分钟延伸到数天,建立在「无状态」假设上的计算范式如何演进?他的答案是把持久化拆成两层——上下文日志负责记忆,执行快照负责状态,Agent 等待时可以完全关机,恢复只需毫秒。 Mistral 的 Samuel Humeau 则展示:当音频生成开始把自己当成一个语言建模问题——tokenize 音频帧、自回归预测、预训练→对齐→推理时扩展——LLM 走通的那条路,正在被 TTS 一步步复刻,而 17 毫秒的首包延迟是这条路目前的技术标杆。 这三件事都在说同一件事:更难的选择往往带来更长的生命力。 结构型的护城河,比任何短期优势都更持久。 速览部分同样值得细看。李宏毅从 RLAIF 到 Absolute Zero,系统评估 AI 自主研发的当前极限;Arize 团队用构建 AI 可观测性 Agent 的真实失败案例,论证上下文工程已超越提示工程成为 Agent 成败的决定因素;英伟达 Jim Fan 在 Sequoia 舞台亲口宣告他半年前还在推进的 VLA 路线落幕,世界动作模型(WAM)登场;Gary Marcus 则在 Twitter 恐慌中,用数据给出一个少见的冷静声音。 无论你关心的是公司治理、AI 工程架构,还是更宏观的 AI 发展趋势,今天的内容都能找到落脚点。 ## 精讲一:如何打造能穿越时代的公司 | Eric Ries,Lean Startup 作者 《精益创业》的作者 Eric Ries 写了一本新书——《Incorruptible》。但这次他关心的不再是「如何把公司做起来」,而是「公司成功之后,如何不让它腐化」。这个问题看起来像是管理学话题,但 Ries 的切入角度要深得多——他认为这是一个结构性问题,而非道德问题。 公司赢了,然后呢? 许多创始人和领导者把成功看作终点线,以为跑到那里就可以放松了。Ries 的观察恰恰相反:成功本身会带来新的结构性压力,而这种压力的方向,几乎永远指向「短期利益最大化」。 他把这种压力叫做「财务重力」(financial gravity)。当一家公司变得足够成功,它就会成为短期利益寻求者的目标。股东压力、季度业绩、资本市场的逻辑,会将组织不断拉向短期 ROI,远离最初建立时的使命。 更重要的是,这个过程通常不是因为坏人做了坏事,而是因为结构本身就是这样运作的。现有的公司治理框架是为了保护股东利益而设计的,它天然地将成功的公司推向平庸,推向「最安全」的短期决策。这就是 Ries 所说的「corruptible by design」——可腐化性是被设计进去的。 三种结构性防腐剂 Ries 提出的解法是在公司的基础结构层面引入「不锈钢螺栓」。当周围的材料在腐蚀,不锈钢螺栓不会跟着锈,整座桥梁的完整性因此得以维持。他给出了三种具体的结构性工具。 第一种是公益公司章程(Public Benefit Corporation,PBC)。在标准公司章程里,董事会的首要法律义务是对股东负责。PBC 允许将特定的社会使命写入公司的法律文本,让领导层在面对短期股东压力时,拥有「这是我们的法律责任」这样的可辩护依据。使命不再只是文化宣言或价值观海报,而是有约束力的结构文件。 第二种是信任型治理(Trust-Based Governance)。Ries 以 Anthropic 为例:这家公司设置了独立受托人,其唯一职责是守护公司的安全使命,而不是对商业利润负责。当商业压力和安全使命之间发生冲突时,有人的工作是确保长期安全和伦理目标不会被当期利润所交换。这是把「谁来决策」这件事本身进行结构化的方式。 第三种是基金会控股模式(Foundational Ownership)。诺和诺德(Novo Nordisk)是 Ries 最喜欢引用的案例:一家非营利基金会持有这家医药公司的控股股权,这一结构维持了超过百年,守护其以患者为中心的使命不变。商业成功产生的利润,通过基金会的治理结构持续回流到公益用途。控股权在非营利方,商业压力无法轻易改变公司的核心走向。 「更难的路反而更容易」 贯穿整本书的核心洞察是反直觉的:越早做出有原则的艰难决定,越能积累信任与结构完整性,最终带来意想不到的长期回报。Ries 把这叫做「Harder is Easier」——不是说难事情会变容易,而是说选择了难路的人,在时间的维度上会占到优势。 那些在公司早期就引入 PBC 章程、设置独立受托人、建立基金会控股的创始人,在短期内都承担了额外的约束与复杂性。但正是这些结构,在数十年后,当市场压力和股东更迭一波又一波涌来时,守住了公司的核心。 与今天其他内容的联系 这个框架和今日另外两篇精讲有微妙的共鸣。Allam 讲的持久化 Agent 架构,本质上也是「在系统层面引入更难实现但更持久的结构」——快照恢复比重放模型复杂得多,但在 Agent 工作时长延伸到数天后,它是唯一可以维持系统完整性的方案。Mistral 的 TTS 走 LLM 范式,同样是选择了「更复杂的模式,换取更长期的可扩展性」。 谁应该读这篇 对于正在构建有影响力项目的创业者、产品负责人,乃至关心自己组织长期走向的任何人,这本书提供了一套少见的结构性框架:不要只问「我们怎么赢」,还要问「赢了之后,我们如何不输给自己」。 阅读链接:如何打造能穿越时代的公司 — BestBlogs ## 精讲二:持久化 Agent 的两条路:重放模型 vs 快照恢复 — Eric Allam,Trigger.dev Trigger.dev 联合创始人 Eric Allam 在 AI Engineer 大会上做了一场技术演讲,主题是:当 AI Agent 的工作时间从分钟级延伸到小时乃至数天,现有的无状态基础设施会发生什么,以及我们该如何从架构层面重新设计它。这是今天技术密度最高的一篇,如果你在构建或关注 Agent 基础设施,值得完整看完。 三十年无状态计算的终点 过去三十年,后端基础设施的主导范式是「无状态计算」(stateless compute)。从 1993 年的 CGI 脚本,到 LAMP 时代,到现代 serverless 函数,核心思想始终是:计算层处理请求,但不保存状态,状态交由数据库管理。这种「什么都不共享」(shared nothing)的模型极为简洁,也极易扩展——每个请求都是独立的,任何机器都可以处理任何请求。 随着应用变得复杂,「持久化执行」(durable execution)和工作流引擎引入了重放模型(Replay Model):将副作用操作包裹在可缓存的「步骤」里,失败时通过重放日志来恢复。Temporal 是这类方案的代表。你写的逻辑可以幂等地重放,每次重放只要跳过已完成的步骤,最终到达未完成的那个。 这套方法对短暂的事务型任务有效。但 AI Agent 打破了它的核心假设。 为什么 Agent 让重放模型失效 传统工作流是「事务型」的——有明确的开始和结束,整体执行时间通常在秒到分钟级。但 AI Agent 是「会话型」的——它可以无限期地循环运行,随着任务推进,上下文持续积累。 具体来说,当一个 Agent 已经工作了几小时,产生了数百轮 LLM 调用、大量工具调用结果和中间推理记录,如果此时需要恢复,重放模型就需要重新执行整个会话历史。这个代价是指数级增长的:需要重放的 LLM 上下文越来越长,每次重放的时间越来越长,成本越来越高,延迟越来越不可接受。 Allam 指出,当前的 Agent 已经能持续工作数小时,而这个时间范围预计很快会延伸到数天。在这个量级下,重放模型从根本上就无法维持。 两层持久化:上下文日志 + 执行快照 Allam 提出将 Agent 的持久化拆解为两个独立的层,分别解决两个不同的问题。 第一层是上下文持久化(Context Durability):一个只能追加(Append-only)的日志,记录所有 LLM 的输入和输出——系统消息、用户消息、工具调用请求、工具调用结果、模型响应——完整无缺地保存下来。这个日志是 Agent 的「长期记忆」。它是数据,不是可执行状态,读取它的成本是线性的。 第二层是**执行持久化(Execution Durability)​:通过快照与恢复(Snapshot/Restore)**保存整台机器的完整运行状态——内存内容、文件系统、正在运行的子进程、已安装的软件包,全部打包成一个快照。当 Agent 需要等待用户响应、等待外部事件,或者只是处于空闲状态时,可以把这个快照写入磁盘,然后把机器完全关掉——释放所有计算资源。一旦需要恢复,从快照还原,Agent 从中断处继续,无需重新执行任何历史步骤。 两层分工明确:上下文日志管记忆,执行快照管状态。前者是持久化数据,后者是持久化计算。 用 Firecracker 实现毫秒级恢复 为了让快照在生产环境真正可用,Trigger.dev 放弃了传统容器检查点技术(如 CRIU),转向了 Firecracker 微虚拟机(microVM)。Firecracker 是亚马逊为 AWS Lambda 开发的虚拟化技术,原生支持全机器快照。 通过可寻址压缩(seekable compression),Allam 的团队将快照大小从几 GB 压缩到约 14 MB。恢复时间降到几百毫秒以内——比重启一个 Docker 容器还快。这意味着「等待」的成本从「一直占用计算资源」变成了「几乎零成本的快照 + 毫秒级恢复」。 Trigger.dev 正在开源 FC Run(frun)——一个为 Firecracker 提供类 Docker 使用体验的 CLI 工具,让开发者能够以熟悉的方式 fork、快照、恢复有状态的计算环境,而无需深入理解虚拟化细节。 架构意义 这个演讲清晰地画出了从事务型计算迈向会话型计算的架构分水岭。对于正在构建 Agent 基础设施的工程师,重放模型 vs 快照恢复的对比不仅是技术选择,更是对「Agent 将来会有多复杂」这个判断的一个具体体现。如果你相信 Agent 会话时长很快会达到数天,现在就应该开始考虑持久化架构的演进路径。 阅读链接:持久化 Agent 的两条路 — BestBlogs ## 精讲三:为什么现在的 TTS 模型越来越像 LLM | Samuel Humeau,Mistral Mistral AI 科学家 Samuel Humeau 在 AI Engineer 大会上发表了一场系统性演讲,介绍 Mistral 首个开源 TTS 模型,并深入拆解了一个越来越清晰的行业趋势:音频生成正在走上一条和 LLM 高度趋同的技术路径。这不是一次简单的产品发布,而是一次关于「为什么 TTS 必须变成这样」的架构解释。 核心用例的根本性迁移 TTS 的传统使用场景是离线任务——把博客文章、电子书、文档转换成可供收听的音频文件,生成完整文件后再分发播放,延迟几秒甚至几十秒都可以接受。 但 Humeau 指出,现在的「王者用例」已经完全不同:与实时聊天 Agent 的语音交互。在这个场景里,用户说了一句话,Agent 理解后需要语音回复,从文字生成完毕到用户听到第一个字,整个延迟决定了对话是否「自然」。哪怕等待两三秒,交互感都会大打折扣。 解决延迟问题的关键技术决策是**流式推送(streaming)**​:不等整个音频文件生成完毕,而是在生成过程中就开始把音频包推送给用户——就像视频平台的边下边播。Mistral TTS 从文本输入到第一个可播放音频包的延迟仅有 17 毫秒(单 GPU),这个数字是用流式架构设计实现的,不是靠堆算力。 架构趋同:音频也是 Token 序列 理解 Mistral TTS 架构的关键,是先接受一个认知前提:音频可以被当成 token 序列来处理,和文本没有本质区别。 具体来说,音频被切分成帧(约 80 毫秒一帧),每一帧通过 codec 编码为一组离散 token。200 kbps 的原始音频经过压缩,变成大约每秒 500 个 token。这个密度对 Transformer 来说是完全可处理的——和处理中等长度文本段的计算量相当。 有了 token 化的音频,接下来的一切就和 LLM 几乎一样:用自回归解码器预测下一段音频序列,就像 LLM 预测下一个文本 token。模型学习的是「在给定上下文下,下一帧音频应该是什么」。 Mistral 的具体实现在这里有一个有趣的技术差异:他们使用了流匹配(Flow Matching),一种类似扩散模型的方法,可以在一次前向传播中同时生成单帧内的所有 token,而非逐个生成。这在速度和质量之间找到了一个更好的平衡点。 训练范式的全面复用 架构趋同只是表层,更深的趋同是训练范式的复用。LLM 走通的那套路:大规模无监督预训练建立通用语言理解,再通过指令微调(RLHF/DPO 等对齐技术)针对特定任务优化,最后在推理时通过增加计算量提升输出质量——这整套流程,正在被 TTS 一步步照搬。 大规模音频预训练,学习通用的语音规律;针对特定声音或风格微调,对齐到用户需求;推理时通过 beam search 等方法扩展计算,提升音质和自然度。语言建模解决了的那些问题——如何扩展、如何对齐、如何在推理时提升质量——TTS 正在用同样的答案。 声音克隆与声音品牌 Humeau 还提出了一个有意思的产品视角:正如公司会精心设计 Logo、网站和视觉 VI,未来公司也将开始在意「品牌声音」。每一个 AI 产品对外呈现的声音,都是品牌的一部分。 Mistral 的模型具备出色的声音克隆能力:给定一个人的语音样本,可以跨语言复制其声音,同时保留独特的口音和语调。为了防止滥用,用于克隆新声音的 encoder 保持私有,Mistral 提供了若干开放声音供公开使用,同时为企业客户提供基于私有数据的声音定制服务。 与今日早报的关联 把精讲二和精讲三放在一起看很有意思。Allam 在说:Agent 基础设施需要从无状态架构演进到持久化架构,因为会话越来越长。Humeau 在说:TTS 基础设施需要从离线文件生成演进到流式实时推送,因为延迟越来越关键。两者都是对「AI 使用方式正在从离散任务变成持续交互」这个大趋势的不同切面响应。而精讲一的 Eric Ries 则提醒:当技术快速变革时,那些选择了更难的结构性路径的人,往往走得最远。 阅读链接:为什么现在的 TTS 模型越来越像 LLM — BestBlogs ## 速览 今日速览收录 7 条精选内容,覆盖 AI 自我成长极限、Agent 工程架构哲学、上下文管理实战、数据库新版本、LLM 摘要设计缺陷、机器人范式更替与 AI 进展的冷静分析。 人工智慧能否自我成長 台湾大学李宏毅教授深入梳理了 AI 自我成长的技术路径与极限,从 RLAIF、Constitutional AI 到 Absolute Zero 研究,系统追问:AI 能否真正跨越「卢比孔河」,在无需人类工程师介入的情况下实现自主研发?他用 I.J. Good 1965 年的预言开场,落地到 2026 年的现实:强大模型已经能自主清洗数据并训练较弱的模型,但尚未真正实现超越自身能力的「自我进化」。技术路径已经存在,天花板和作弊风险也已清晰可见。这是一篇适合建立整体认知框架的技术综述,特别适合对 AI 发展边界有好奇心的读者。 Harness Engineering:Agent 性能差异的核心在于「外壳」而非模型 一篇来自 X/Twitter 的技术 Thread,引用 Addy Osmani 的核心观察:Claude Code 和 Cursor 底层模型可能相同,但表现迥异——差异来自「外壳」(Harness)。作者系统拆解了 Harness 的八大组件:文件系统与 Git 集成、Bash 与代码执行、沙箱隔离、记忆与搜索、对抗上下文腐化(Context Rot)、长程执行、Hooks 机制,以及规则手册。他还提出了「棘轮」工作法——将每一次失误转化为永久写入系统的规则,让 Agent 每次出错都变成一次能力提升。对于日常在使用或构建 Agent 的工程师,这是一份兼具理论框架和工程落地指导的参考。 分层记忆:智能体的上下文管理 — Sally-Ann Delucia Arize 产品负责人 Sally-Ann Delucia 以构建 AI 可观测性 Agent「Alex」的真实经历为素材,论证了一个越来越被工程师认同的观点:上下文工程,而非提示工程,才是决定 Agent 成败的关键因素。她描述了两种常见的失败模式:朴素截断会破坏推理链,让 Agent 忘记上一轮对话;LLM 摘要对技术数据过于不可靠,关键细节经常在摘要过程中被删去。她推荐的替代方案是智能截断和子 Agent 分解——把大任务拆分为独立子任务,每个子 Agent 在自己的上下文窗口里工作,避免全局上下文爆炸。与今日精讲二的持久化架构形成很好的互补,适合一起阅读。 MySQL 9.7:自 8.4 以来首个重大 LTS 版本,将企业级功能引入社区版 Oracle 发布 MySQL 9.7.0,开启新的 9.7 LTS 系列,也是自 8.4 以来首个重大长期支持版本。核心看点是将多项之前只属于企业版的功能引入社区版:动态数据脱敏(Dynamic Data Masking)、超图优化器(Hypergraph Optimizer)、数据库内 JavaScript 执行、JSON Duality,以及 OpenID 认证支持。此外还改进了复制可观测性和遥测能力。值得注意的背景是:社区此前曾对 MySQL 开发活跃度下滑和 Oracle 裁员表达担忧,这次发布有明显的「回应社区」信号意味。使用 MySQL 生产环境的工程师和 DBA 值得了解此版本的变化详情。 LLM 摘要生成器跳过了识别步骤 一篇视角独特的工程设计文章,讨论 LLM 摘要生成的一个系统性缺陷:生成的摘要混杂了「观察到的事实」、「推断出的结论」和「从未在原文中出现的内容」,但读者看到的只是格式完整、语气自信的结构化文本,无从分辨哪些是有依据的,哪些是模型「编」的。作者借鉴因果推断中的「识别步骤」,提出要求每个生成的声明声明其支持类别(观察到的、推断出的、建议),并通过一个只能削弱、不能强化无依据声明的审计阶段来强制约束。实验数据显示,在输入信号稀薄时,空白章节比例从 17% 升至 58%——「拒绝生成」本身就是一种正确答案。对构建 RAG、会议摘要或任何生成式摘要系统的工程师有直接参考价值。 机器人的终局:英伟达 Jim Fan 宣告 VLA 时代结束,WAM 登场 英伟达 GEAR Lab 负责人 Jim Fan 在 Sequoia AI Ascent 2026 上,亲手宣告了他半年前还在推进的 GR00T / VLA(视觉 - 语言 - 动作)路线过时。取而代之的新范式是世界动作模型(WAM),代表作是英伟达 2 月发布的 DreamZero(140 亿参数)。核心逻辑是「底层同构」(the Great Parallel):把 LLM 走过的三步——预训练、监督微调、强化学习——映射到机器人领域,用视频世界模型替代语言模型,用人类第一人称视频(EgoScale,21000 小时)替代遥操作数据,用神经仿真器(Dream Dojo)替代物理引擎。Jim Fan 给出 2040 年机器人实现自主研发的路线图,置信度 95%。宝玉的翻译整理清晰完整,适合快速了解这一重要范式转变。 对 AI 进展的恐慌实属错位 Gary Marcus 针对近期 METR 时间范围图引发的 Twitter 集体恐慌,写了一篇冷静的技术反驳。METR 发布了 Claude Mythos Preview 的评测数据,显示其「50% 时间范围」达到至少 16 小时,一时间引发大量「AI 即将接管一切」的讨论。Marcus 逐一拆解了三个被忽略的限定:50% 成功率意味着一半时间任务会失败;测试仅覆盖软件开发单一领域;缺乏通用智能的实质性证据。他引用了 Ramez Naam 的数据分析,显示 Mythos 的 ECI 指标与历史趋势线基本吻合,并没有真正「打破图表」。这是一篇在情绪化讨论中难得的冷静声音,提供了分析 AI 能力评测数据时所需的关键背景与方法论。 ## 扩展阅读 给你的聊天智能体加上声音 | Luke Harries,ElevenLabs ElevenLabs 的 Luke Harries 介绍 ElevenLabs Voice Engine,这是一套专为开发者设计的语音原语接口:语音识别、语音合成、对话轮次管理、语音活动检测,可以直接叠加在现有的聊天 Agent 之上,让 Agent 具备自然的语音交互能力,而无需从头构建整个语音系统。与今日精讲三的 Mistral TTS 内容形成很好的互补——精讲三讲的是 TTS 底层架构为何趋同于 LLM,这里讲的是如何在应用层将语音能力集成进 Agent。正在考虑为产品添加语音交互的工程师可以两篇对照来看。 图灵奖得主 Sutton 新作:用一个 1967 年的公式,解决流式强化学习一大缺陷 Richard Sutton 团队提出「意图更新(Intentional Updates)」方法,用一种新的方式定义强化学习中的「步长」:不再控制参数移动多大,而是直接控制函数输出的变化量(即「意图」)。这一改变从根源上解决了流式深度强化学习中的训练不稳定问题——在批大小为 1、不依赖回放缓冲区的在线学习场景下,传统梯度步长的不稳定性会被放大为训练崩溃,而意图更新把这个问题压制住了。最终形成了三个完整算法:Intentional TD(λ)、Intentional Q(λ) 和 Intentional Policy Gradient。对强化学习有一定基础的读者,这是一篇深度值得的理论文章。 ## 今日阅读路径 时间有限?以下是推荐的优先阅读顺序: 如果你只有 30 分钟,先读这三篇: 1. 持久化 Agent 的两条路:今日技术密度最高、与 Agent 工程最直接相关的内容。重放模型 vs 快照恢复的架构对比,对构建生产级 Agent 的工程师有立竿见影的参考价值。精讲二,约 15 分钟。 1. 机器人的终局:WAM 登场:Jim Fan 在 Sequoia 舞台宣告 VLA 过时,宝玉的翻译整理清晰,20 分钟了解机器人领域最新范式转移,信息密度极高。 1. Harness Engineering:外壳才是关键:短小精悍,快速建立「Agent = Model + Harness」的思维框架,对日常 Agent 开发有直接的工程指导意义。 如果你有 1 小时,在以上基础上加入: - 如何打造能穿越时代的公司:精讲一。Ries 的防腐剂框架超越 AI 范畴,任何有使命感的创业项目都能用得上。 - 分层记忆:上下文管理:与精讲二形成互补,从 Agent 记忆管理的角度继续深化理解,Arize 的真实案例很有说服力。 - 对 AI 进展的恐慌实属错位:在充满情绪的 AI 讨论环境里,Marcus 的冷静分析是一个值得收藏的思维工具。 完整模式:按精讲一、二、三的顺序阅读,再配合速览中的 AI 自我成长和 LLM 摘要缺失识别步骤,最后用扩展阅读的 ElevenLabs Voice Engine 收尾——从公司治理哲学,到 Agent 基础架构,到语音交互集成,可以在一天内建立起一条完整的认知脉络。 BestBlogs Pro 早鸟内测开放:你可以自定义订阅源、配置兴趣标签,每天获得一份属于自己的头条早报。欢迎抢先体验,并把反馈发回给我们:https://bestblogs.dev

译本期早报围绕三条主线。Eric Ries新书《Incorruptible》探讨成功公司如何通过公益公司章程等结构性设计抵御“财务重力”导致的腐化。Trigger.dev联创Eric Allam指出传统重放模型无法应对长时工作的AI Agent,提出上下文日志与执行快照的两层持久化架构。Mistral科学家Samuel Humeau阐述TTS技术正复用LLM范式,走向架构趋同。三者共同揭示:选择更复杂的结构性方案能获得更长久的生命力。速览部分还涉及AI自我成长评估、Agent上下文工程等议题。

ginobefun@hongming731 · 5月11日50

#BestBlogs 早报 2026-05-11 今日主题: - Eric Ries 的《Incorruptible》问的是:当公司赢了之后,组织结构如何对抗腐化?他的答案是三种「不锈钢螺栓」:公益公司章程、信任型治理、基金会控股,每一种都是把使命嵌入结构而非依赖人心。 - http://Trigger.dev 的 Eric Allam 问的是:当 AI Agent 的工作时长从分钟延伸到数天,建立在「无状态」假设上的计算范式如何演进?他的答案是把持久化拆成两层:上下文日志负责记忆,执行快照负责状态,Agent 等待时可以完全关机,恢复只需毫秒。 - Mistral 的 Samuel Humeau 则展示:当音频生成开始把自己当成一个语言建模问题:tokenize 音频帧、自回归预测、预训练→对齐→推理时扩展——LLM 走通的那条路,正在被 TTS 一步步复刻,而 17 毫秒的首包延迟是这条路目前的技术标杆。

译Eric Ries提出用公益公司章程等“不锈钢螺栓”结构将使命嵌入组织,以对抗成功后的腐化。Eric Allam探讨长时AI Agent的持久化方案,通过分层实现毫秒级恢复。Samuel Humeau展示音频生成正复刻LLM技术路径,并以17毫秒首包延迟为当前标杆。

Orange AI@oran_ge · 5月11日39

未来每个团队都是在做 harness 工程,每个人都需要理解这套框架 虽然有一些非共识的点,但这篇是个不错的综述

译推文指出,未来每个团队的核心工作将是“harness工程”,即构建和管理能够有效驾驭、引导AI模型(如GPT、Claude、LLaMA)的框架与系统。这要求团队中的每个人都理解并掌握这套方法论。尽管其中存在一些非共识的观点,但被引用的文章被认为是对这一领域趋势的出色综述,为理解未来的工作范式提供了关键参考。

Sam Altman@sama · 5月11日77

interesting

译用户指示AI模型Codex去赚取5美元,Codex自主完成了一系列任务:寻找开源安全审计赏金项目,提交有效的拉取请求,与维护者沟通,并处理了GitHub验证流程,最终使工作被合并。经过约22小时的工作,用户获得了16.88美元的首笔付款。按此推算,若每日重复,月收入可达506.40美元。这初步实现了Sam Altman关于AI能主动为人赚钱的愿景,虽然金额尚小,但标志着一个令人兴奋的开端。

阿绎 AYi@AYi_AInotes · 5月11日58

Damn,Elad Gil的这条帖,看得我后背发凉😨 他说AI的真实进步速度,被很多人严重低估了。 大AI实验室内部人员, 领先硅谷创业公司工程师3-4个月, 硅谷创始人, 领先纽约3-6个月。 纽约领先全球其他地区6-12个月。 绝大多数人,包括大部分企业和开发者, 落后最前沿1-2年。 未来已经到来,只是分布极不均匀。 最残酷的不是这个分层, 是绝大多数人根本不知道自己落后了1-2年。 他们以为现在的AI就是ChatGPT-4o的样子,以为AI还在炒概念,甚至还在用2024年的方法做2026年的产品。 LeCun立刻跳出来反驳说这是扯淡。 说Attention来自蒙特利尔,Llama来自巴黎,DeepSeek来自杭州。 但Elad说的其实不是谁先发明, 是谁先把最新的东西变成生产力。 硅谷的优势从来不是模型访问权, 是这里所有人默认,每30天就要重构一次自己的工作流, 是这里昨天刚出来的论文,今天就有人做成产品上线。 是这里失败了没人笑话,慢了才会被淘汰。 最反直觉的地方是 这个差距正在快速缩小, 但缩小速度本身,就是新的壁垒。 一个有品位的学生,加一台电脑,加正确的工具, 现在可以比50人的传统团队迭代更快。 以前的竞争是比谁钱多,谁人多。 现在的竞争是比谁的迭代周期更短。 比谁敢把自己昨天刚建好的东西,今天就全部拆掉。 我觉得这才是最可怕的地方吧 hhh, 你以为你在和别人赛跑, 其实别人已经在用明年的工具,建后年的公司了。 #AI #创业

译Elad Gil指出,AI的真实进步速度被严重低估,技术采纳存在显著层级差距:大型AI实验室内部人员领先硅谷工程师3-4个月,硅谷领先纽约3-6个月,纽约领先全球其他地区6-12个月。绝大多数人落后前沿1-2年,却误以为当前AI水平仅如ChatGPT-4o。硅谷的核心优势在于其快速迭代的文化,包括每30天重构工作流、迅速将论文转化为产品、容忍失败但恐惧缓慢。竞争关键已从资源规模转向迭代速度,个人凭借正确工具可超越传统团队,而差距缩小的速度本身正成为新的竞争壁垒。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月13日
01:35
宝玉@dotey
58
智能体工作流构建能力贬值,业务理解与AI原生设计成新护城河

构建完整的智能体工作流技术门槛已降低,能力不再稀缺。真正的价值在于深入理解具体业务与AI技术,设计出AI Native的解决方案,而非简单地将AI嵌入原有流程。当前行业缺乏最佳实践,需针对不同领域反复试错。同时,模型能力快速迭代导致工作流易过时,需持续调整。竞争焦点已从技术实现转向商业落地,找到独特切入点和解决实际业务问题成为关键护城河,这为程序员和PM转型提供了机会。

范凯说 AI | Kai on AI: 一年前,能搭一套完整智能体工作流的人是稀缺的。今年,这变成了相对普通的技能。明年会有更多人会做。 竞争的焦点已经从"谁能做出来",移动到了"谁能卖出去、卖给谁"。 有人问:为什么我会搭智能体,接单却接不到?因为你面对的是信息对称的买家,他知...

智能体现象/趋势
01:31
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
52
电影制作人Tyler Perry在目睹OpenAI的Sora视频生成模型演示后,宣布暂停其价值8亿美元的工作室扩建计划。他指出AI能以极低成本完成原本耗资数千万美元的试播集制作,企业必将选择低成本路径,因此对近未来大规模失业深感忧虑。Perry呼吁好莱坞各工会乃至国会采取统一行动,建立监管框架保护从业人员,强调行业必须联合而非各自为战。此前梦工厂创始人Katzenberg预测AI将在三年内削减90%动画岗位,此事印证了该趋势正在加速。

AI Notkilleveryoneism Memes ⏸️: 4 months ago, Dreamworks founder Katzenberg said AI will cut animated movie jobs by 90% in 3 years It's already happenin...

图像生成现象/趋势视频
01:04
凡人小北@frxiaobei
74
AI取代人类?各方叙事背后的利益驱动

关于AI是否取代人类的讨论,实为不同利益方的叙事塑造:AI公司为高估值渲染替代能力,企业借AI解释裁员,教育机构制造焦虑,媒体追逐流量。吴恩达指出“AI导致大规模失业”是夸大其词,实际净增岗位远超替代,并以软件工程师招聘强劲、美国低失业率为证。他强调AI改变工作性质而非摧毁就业,揭露夸大叙事背后的商业动机——AI公司可通过对标员工薪资提高定价,企业则借AI掩饰疫情期间过度招聘。核心问题在于技术转型中个体如何应对,但这缺乏利益驱动力被认真探讨。

Andrew Ng: There will be no AI jobpocalypse. The story that AI will lead to massive unemployment is stoking unnecessary fear. AI - ...

大佬观点现象/趋势
00:31
Ethan Mollick@emollick
64
昨晚与OpenAI的roon进行了一次有趣的交流,关于超级智能AI是否真的能够应对组织挑战。

Ethan Mollick: @tszzl I think it is a reasonable argument to say "curing cancer will be easier than replacing Accenture," but the gener...

大佬观点现象/趋势
5月12日
23:01
Ethan Mollick@emollick
53
预计在接下来的几周和几个月里,你的信息流会越来越像这样。
大佬观点现象/趋势
22:06
meng shao@shao__meng
63
昆仑万维董事长揭示天量Token消耗,单日可达数十亿

昆仑万维董事长方汉透露,其个人每月消耗的AI模型Token数量达20-30亿。更惊人的是,他的一位朋友单日消耗量即达到同等规模(20-30亿)。这一数字引发了对于背后运行着何等规模与复杂度的AI Agent项目的想象。为帮助理解,推文以Claude Opus模型的价格进行估算:若按输入输出各10亿Token计算,单日成本就高达约3万美元,月消耗成本已属极高,日消耗量更是令人震惊。

智能体现象/趋势
22:04
凡人小北@frxiaobei
40
保险专员机械复读系统指令,凸显岗位被AI替代风险

作者因误提交未来日期的医疗发票,收到系统自动催收材料提示。在向客服反馈后,保险专员致电跟进,却只是机械重复系统要求提交6月2日病历的指令,完全未意识到该日期尚未到来。这通电话与系统自动提示无异,未能提供任何人工判断价值。此事引发对一类岗位的思考:许多工作仅是机械转述系统指令、复读流程话术,而不思考内容本身的合理性。这类缺乏判断与思考的岗位,正是面临被AI替代风险的高危领域。

大佬观点现象/趋势
20:56
Chubby♨️@kimmonismus
50
韩国因人口减少导致兵源萎缩,正探索将现代集团的机器人用于军事领域。推文指出,机器人战争并非源于科幻热潮,而是由生育率崩溃、社会老龄化导致的必然结果--当没有足够的士兵时,就开始制造他们。文中提及的Unitree机器人虽应用于建筑行业,但其发展动向引发了对其未来潜在军事用途的隐忧。

Chubby♨️: https://x.com/UnitreeRobotics/status/2054067819634159622/video/1 At this point on, I'm too afraid to ask what Unitree's ...

具身智能现象/趋势
19:56
Chubby♨️@kimmonismus
56
OpenAI公告称新成立的部署公司以超40亿美元初始投资启动,但Axios报道了公告未包含的附加投资者条款: 保证最低17.5%回报率且设置利润上限! 这确实使该架构值得关注,因为前沿实验室正日益将私募股权投资组合同时作为资金来源和分发渠道。
OpenAI现象/趋势行业动态
11:29
Ethan Mollick@emollick
67
当AI实验室解散他们新成立的咨询(抱歉,是"前沿部署工程")团队时,你才会知道他们真正相信ASI。只要还需要人们去思考AI如何发挥作用、进行组织变革和系统集成,工作似乎就相当安全。
大佬观点现象/趋势
11:25
Deedy@deedydas
61
如今每家AI应用初创公司为证明自身防御性都会说: 1. 我们支持多模型。客户不想被单一供应商锁定。 2. 我们有数据护城河。通过对开源模型进行后期训练,效果比闭源更好且更便宜。 3. 我们深度集成,帮助用户利用"上下文图谱"构建定制工作流。 最佳情况下这些属实,但多数场景中其谬误令人捧腹。
开源生态现象/趋势
09:49
ginobefun@hongming731
59
推荐一期姚顺宇 4 小时的访谈播客

AI研究员姚顺宇在访谈中指出,行业核心竞争力已从天才洞察转向工程执行力。在技术路线确立的当下,靠谱、细心和负责任的态度比个人天赋更稀缺。他认为AI个人英雄主义时代已结束,前沿模型开发是数百人协作、依赖海量算力的系统工程。技术层面,预训练未止步但需更精明的训练方法;Coding领域因数据与评估优势而进展更快。

Anthropic大佬观点现象/趋势
08:59
Ethan Mollick@emollick
51
前沿模型(如GPT、Claude等)的文本生成在风格、句式和措辞上具有优势,但其写作存在明显缺陷与固定模式,尤其在虚构内容方面。更关键的是,网络上同类内容过量导致其产出趋于陈词滥调。尽管其文本因可识别性强、缺乏独特气场而价值受限,但认为模型写作缺乏分析或信息价值的观点并不准确。

roon: the frontier models tend to write pretty clearly. their writing is often recognizable and full of tics which voids a lot...

大佬观点现象/趋势
08:49
Berryxia.AI@berryxia
41
讲真!越来越卷了!😂 这个教学场景大有可为了!
大佬观点现象/趋势
08:32
SemiAnalysis@SemiAnalysis_
24
在研究了300道Leetcode难题、解答了Dwarkesh广告中的所有Jane Street谜题、并观看了一场Horace He讲座后,他终于获得了年薪40万美元的Jane Street实习机会。 不幸的是,入职培训期间他的经理说"这个差值是负阿尔法",于是Jane Street部署了一个AI模型,将所有反馈实时翻译成符合人力资源规范的措辞。
其他现象/趋势
08:29
Boris Cherny@bcherny
33
我需要为即将到来的一系列出行预订航班。 一如既往,我使用了Claude Cowork来完成。 过去,Cowork在预订航班方面表现尚可, 但凭借Opus 4.7,它首次实现了单次操作成功!
智能体Anthropic现象/趋势
05:03
宝玉@dotey
66
Codex 的野心,MCP 和 Skill 的下一步

Codex、Claude等顶尖Agent应用均采用三栏界面,反映其从问答转向任务执行与审查的演进。Codex野心是成为“处理一切任务”的平台,但用户需二次编辑AI生成内容。目前MCP解决工具连接,Skill解决执行方法,仍缺编辑闭环。作者认为,建立类似VSCode的插件生态是合理路径,将文件预览、专业编辑等能力开放给社区开发,实现商业化,从而为中小团队提供开发垂直插件的机遇。

智能体MCP/工具OpenAI现象/趋势
03:23
Chubby♨️@kimmonismus
73
人工智能公司Anthropic的市场隐含估值在短短五天内从1.2万亿美元飙升至1.4万亿美元,暴增2000亿美元。根据链上Pre-IPO交易数据,其估值自2025年10月以来已上涨1067%,近期24天内又录得40%的涨幅。这一惊人飙升的背景是公司年化收入的爆炸式增长:从2023年的1亿美元跃升至当前的450亿美元,仅过去12个月就增长了1400%。在Jupiter等链上平台交易的、由SPV风险敞口1:1支持的Pre-IPO工具,正实时反映市场对其IPO的估值预期。

The Kobeissi Letter: BREAKING: Anthropic's market-implied pre-IPO valuation surges to a record $1.4 trillion, rising another +40% in 24 days....

Anthropic现象/趋势行业动态
02:35
阿绎 AYi@AYi_AInotes
53
反思与转变:一位AI创作者的流量套路自省与价值回归

一位AI内容创作者在获得业界关注的同时,因受到严厉批评而深刻反思。他承认自己为追求流量,将“卧槽”开头等技巧变成了令人反感的套路,并违背了不分享未经验证项目的原则。他宣布即刻停止使用此类套路,并呼吁模仿者一同摒弃。核心反思在于,内容创作不应以流量为终局,而应专注于输出有价值的思考。引用的批评指出,其分享的AI游戏工作室项目思路存在根本缺陷,仍以人类岗位划分限制AI Agent的全局能力,同时尖锐批评了其浮夸文风。

Dash: 这东西很蠢,还在以传统人类的认知局限来安排 AI Agent 的工作。游戏工作室要那么多岗位是因为大部分人太弱鸡,能力太有限了。AI 明明有更全面的能力,可以纵览全局,却还要用人类的职业习惯困住他们手脚,把他限制成螺丝钉。可笑! 另外烦透了...

大佬观点现象/趋势
02:29
Ethan Mollick@emollick
61
大语言模型(LLM)的一个重要特性是,更新、更大的模型在所有方面都表现更优。AI实验室正将大量资源投入编程等经济价值高的领域,但更大的模型在谈判、对齐、诗歌创作等广泛任务上同样更具优势。例如,在PACT基准测试的数千场模拟谈判中,GPT-5.5在买卖双方多轮议价游戏中取得了最佳成绩,这印证了模型规模与综合能力提升的正相关关系。

Lech Mazur: First update to PACT, my head-to-head LLM negotiation benchmark! 20-round buyer-seller bargaining game: each round the A...

OpenAI大佬观点推理现象/趋势
01:59
Ethan Mollick@emollick
62
学者们使用旧AI模型时不公开讨论,导致滥用问题。新AI模型产生虚假引用较少,良好代理工具能进一步降低。公开AI使用有助于建立新规范。引用推文关键信息显示,《柳叶刀》论文指出自2023年以来生物医学论文中虚假引用率增加了12倍以上,凸显了AI使用不透明的负面影响。

nxthompson: Oy. According to a new paper in The Lancet, the rate of made-up citations in biomedical papers has increased by more tha...

大佬观点现象/趋势
01:35
阿绎 AYi@AYi_AInotes
49
构建个人AI系统:从"无马马车"到自主进化的"法拉利"

Garry Tan指出,当前多数人使用AI仍停留在聊天、比较模型或复制Prompt的层面,这如同汽车发明初期人们仍专注于养马。他强调应停止依赖他人工具,转而构建属于自己的“法拉利”——即个人AI系统。关键在于不追求短期效率提升,而专注于系统能力的复利增长:每月强化系统10倍,一年后便可获得一个持续自主进化的“第二神经系统”。虽然前期进展不明显,但长期累积的差距将超乎想象。

Garry Tan: Don't ride someone else's horseless carriage Time to build your own Ferrari Personal AI is here

大佬观点现象/趋势
01:29
Ethan Mollick@emollick
56
随着用户通过精细调整提示词使AI生成内容越来越难以被读者识别,人们将面临更严峻的信息质量挑战。社会习惯性地将文本长度与思考深度挂钩,但AI正在打破这种认知关联。此前低质量AI内容多局限于发展中国家的互动农场账号,而现在科技行业高影响力人士也开始发布长达3000字却空洞的"AI垃圾文章",这些内容甚至能获得超百万浏览量,且发布者毫无自省意识。这种现象暴露了当前社会对AI内容泛滥的心理准备不足。

Alec Stapp: Until recently, AI slop on here has been ~mostly limited to engagement farming accounts in developing countries. But now...

大佬观点现象/趋势
01:02
凡人小北@frxiaobei
54
视觉是否为AI首选输出?HTML与神经视频的未来之争

Karpathy认为视觉是AI输出的首选通道,预测人机交互将从纯文本、markdown向HTML演进,最终达到扩散模型生成的交互式神经视频。他建议用户尝试让LLM以HTML格式输出内容。反对观点部分同意HTML在仪表盘、对比和小交互上的优势,但质疑“视觉为首选输出”的绝对性,指出阅读文字同样是视觉处理,且文本在带宽和精确表达上可能更高效。同时,虽然神经视频在技术上可行,但作为通用I/O形态可能得不偿失,纯文本在某些场景下仍不可替代。

Andrej Karpathy: This works really well btw, at the end of your query ask your LLM to "structure your response as HTML", then view the ge...

大佬观点现象/趋势
00:35
阿绎 AYi@AYi_AInotes
31
什么叫真正的AI落地? 什么叫把AI用到自己的业务里真正赚钱? 森马用AI把整个服装行业的底裤都扒了, 带来确收回款几个亿, 节省成本几千万! 还沉浸在自嗨用AI重复造轮子的铁汁都来逐字学习
现象/趋势
00:01
Rohan Paul@rohanpaul_ai
57
中国AI竞赛重心转向应用部署,通义千问融入日常与工作流

中国AI竞争焦点正从模型能力转向实际应用与部署。以阿里巴巴通义千问为例,其正深度融入购物、支付、医疗、办公等庞大数字生态,成为日常任务与工作流程中的工具,而不仅是问答聊天机器人。例如,医生和研究人员已将其用于文献整理、证据筛选、图表制作等研究环节。这一策略契合中国庞大的数字经济和高科技接受度,旨在使AI成为专业与日常工作中的默认界面,让用户能在无需切换应用的情况下完成报告撰写、学习研究等实际任务。

大佬观点现象/趋势
5月11日
23:50
小互@xiaohu
43
网传字节跳动收缩AI项目被指谣言,作者驳斥其多处硬伤

针对网传“字节跳动关停30%AI项目、面临现金流危机”的信息,推文作者指出其存在多处硬伤并予以驳斥。作者认为,所谓“80亿推理成本导致现金流危机”的说法与字节庞大的营收、现金储备及高达千亿级别的AI投入计划严重不符。同时,指出“产品线收缩”与Dreamina等重点产品全球推广的事实相悖,且原文有明显AI生成痕迹。经向字节内部人士求证,该信息被认定为虚假。

现象/趋势视频
23:28
elvis@omarsar0
51
Tobi的精彩文章。 正在建设AI原生公司?快去阅读。 我忍不住用我的神器生成器将其可视化。 我最大的收获是:"风险不在于AI完成工作,而在于无人从中学习。"

tobi lutke: http://x.com/i/article/2052738533111013380

大佬观点现象/趋势
22:20
向阳乔木@vista8
60
AI降低内容生产成本 -> 拼选题和审美 -> 拼信任和分发渠道。
大佬观点现象/趋势
20:58
Ethan Mollick@emollick
67
企业将真正需要Codex和Cowork等工具的发展路线图, 以便规划、培训并扩展其使用。 这与实验室的愿景相冲突-- 实验室希望这些工具在模型接近AGI时能力呈指数级快速增长。
智能体现象/趋势行业动态
19:30
Peter Steinberger 🦞@steipete
53
我正在为https://gogcli.sh添加新功能,Codex注意到所需的API未启用,于是它启动计算机使用功能,正在Google Cloud管理界面中愉快地点击以开启所需服务。
智能体OpenAI现象/趋势编码
14:34
阿绎 AYi@AYi_AInotes
59
特朗普家族入局AI,WorldRouter瞄准Agent经济底座

特朗普家族旗下WorldRouter并非意图在模型API价格战中竞争,其核心战略是定位为“AI Agent经济的token底座”。该平台旨在统一运行数百个AI智能体,提供约30%的官方API定价优惠。其认知差异在于超越单纯的中转服务,试图构建支撑未来Agent生态的基础设施层,以此与同行拉开差距。

阿绎 AYi: http://x.com/i/article/2051958484304891904

智能体现象/趋势
13:49
向阳乔木@vista8
38
企业级AI API管理需求催生专用网关市场

随着企业广泛应用GPT、Claude等AI模型,如何安全、高效地管理和分配内部员工的AI API调用权限成为普遍痛点。出于数据安全考虑,企业通常不会直接使用普通中转服务。尽管Azure和亚马逊云提供相关解决方案,但不同公司的规模与定制化需求差异显著,这为专门的企业级API网关产品创造了市场空间。海外已有此类产品出现,国内市场也存在相应机会。

现象/趋势部署/工程
12:34
阿绎 AYi@AYi_AInotes
62
中国移动上线AI中转站,国家队布局AGI时代智能电网

中国移动正式上线AI模型中转平台MoMA,标志着“AI国家队”入场,并将其定位为国家级的AI基础设施。该平台已接入包括DeepSeek、通义千问、豆包、Kimi、GLM在内的300多个主流模型。其核心逻辑在于,AI中转站被视为未来AGI时代的“智能电网”,是关乎定价权与行业未来的关键基础设施。此举呼应了此前关于AI中转站本质是“AI水电煤”生意的分析,预示着基础设施层面的竞争格局变化。

阿绎 AYi: http://x.com/i/article/2051958484304891904

MCP/工具政策/监管现象/趋势行业动态
11:34
阿绎 AYi@AYi_AInotes
58
GBrain升级客户端-服务器架构,MCP协议推动个人AI向基础设施演进

YC CEO主导的GBrain发布v0.31.1版本,实现从本地单机到客户端-服务器架构的关键升级。通过MCP协议,用户可部署中央家庭服务器,让所有设备与AI Agent远程连接、共享记忆,解决了同步不一致与资源浪费问题。此次更新修复了瘦客户端在本地错误创建数据库的关键bug,该bug由CEO的个人AI在生产环境发现并记录,凸显AI参与调试的新范式。这标志着个人AI正从玩具转向可控、永久的本地智能基础设施。

Garry Tan: GBrain v0.31.1 just shipped real MCP thin client support. So basically you can run ONE "home GBrain server" and everythi...

智能体MCP/工具产品更新开源生态
08:45
ginobefun@hongming731
61
EP54 · 2026.05.11 BestBlogs 早报:Incorruptible / Agent 持久化 / TTS 架构变革

本期早报围绕三条主线。Eric Ries新书《Incorruptible》探讨成功公司如何通过公益公司章程等结构性设计抵御“财务重力”导致的腐化。Trigger.dev联创Eric Allam指出传统重放模型无法应对长时工作的AI Agent,提出上下文日志与执行快照的两层持久化架构。Mistral科学家Samuel Humeau阐述TTS技术正复用LLM范式,走向架构趋同。三者共同揭示:选择更复杂的结构性方案能获得更长久的生命力。速览部分还涉及AI自我成长评估、Agent上下文工程等议题。

智能体现象/趋势语音
07:45
ginobefun@hongming731
50
早报摘要:抗腐化结构、长时AI Agent与音频生成新路径

Eric Ries提出用公益公司章程等“不锈钢螺栓”结构将使命嵌入组织,以对抗成功后的腐化。Eric Allam探讨长时AI Agent的持久化方案,通过分层实现毫秒级恢复。Samuel Humeau展示音频生成正复刻LLM技术路径,并以17毫秒首包延迟为当前标杆。

智能体现象/趋势语音部署/工程
07:00
Orange AI@oran_ge
39
推文指出,未来每个团队的核心工作将是"harness工程",即构建和管理能够有效驾驭、引导AI模型(如GPT、Claude、LLaMA)的框架与系统。这要求团队中的每个人都理解并掌握这套方法论。尽管其中存在一些非共识的观点,但被引用的文章被认为是对这一领域趋势的出色综述,为理解未来的工作范式提供了关键参考。

宝玉: http://x.com/i/article/2053591256110940160

现象/趋势部署/工程
04:07
Sam Altman@sama
精选77
用户指示AI模型Codex去赚取5美元,Codex自主完成了一系列任务:寻找开源安全审计赏金项目,提交有效的拉取请求,与维护者沟通,并处理了GitHub验证流程,最终使工作被合并。经过约22小时的工作,用户获得了16.88美元的首笔付款。按此推算,若每日重复,月收入可达506.40美元。这初步实现了Sam Altman关于AI能主动为人赚钱的愿景,虽然金额尚小,但标志着一个令人兴奋的开端。

Chris: Codex made me money without me doing anything.. Huge turning point for me today, I asked Codex to go off and make me $5....

智能体GitHubOpenAI安全/对齐

推荐理由:一个普通用户让 Codex 独立完成安全审计并赚到真金白银,是 agent 走向「替你赚钱」的第一个可信证据,Sam 只回了 interesting,比十万字 PR 都重。
03:34
阿绎 AYi@AYi_AInotes
58
AI进步速度被严重低估,技术采纳存在巨大层级差距

Elad Gil指出,AI的真实进步速度被严重低估,技术采纳存在显著层级差距:大型AI实验室内部人员领先硅谷工程师3-4个月,硅谷领先纽约3-6个月,纽约领先全球其他地区6-12个月。绝大多数人落后前沿1-2年,却误以为当前AI水平仅如ChatGPT-4o。硅谷的核心优势在于其快速迭代的文化,包括每30天重构工作流、迅速将论文转化为产品、容忍失败但恐惧缓慢。竞争关键已从资源规模转向迭代速度,个人凭借正确工具可超越传统团队,而差距缩小的速度本身正成为新的竞争壁垒。

Elad Gil: People at major AI labs (using internal models) 3-4 months ahead of startup silicon valley engineers SV founders/eng 3-6...

大佬观点现象/趋势
‹ 上一页
1…2324252627…37
下一页 ›