AIHOT

5月23日

00:28

Tomer Tunguz 博客（VC 分析）

精选70

Salesforce已采用无头架构，允许销售人员通过AI直接更新数据，许多公司正通过MCPs跟进。同时，AI专家们正推动超越纯文本、更丰富的界面（如HTML），支持图表与交互。AI能根据场景动态生成定制化界面。无头系统并非移除前端，而是支持多种可塑化界面（如音频、网页）。未来软件的核心价值在于动态管理这些界面、确保其准确性，并将各类AI产物整合为可演化的上下文数据库与制品库。用户界面并未消失，而是变得“可塑”，能按需变形。

多模态现象/趋势

推荐理由：动态 UI 不是消灭界面，而是让界面变得可塑性。Airbnb CEO 和 Anthropic 工程师都在押注 HTML 输出，这篇文章把信号串了起来，做产品的人值得一看。

00:16

Hugging Face：Blog（RSS）

专业化胜过规模：Dharma 发布 DharmaOCR，3B 专用模型在 OCR 基准上超越商业前沿 API

4月，Dharma 发布 DharmaOCR——一对 3B 参数专用小语言模型，用于结构化 OCR，同时开源基准与论文。在巴西葡萄牙语 OCR 基准上，该 3B 专用模型通过全微调实现综合得分 0.911，超过所有测试的商业前沿 API（Claude Opus 4.6 0.833、Gemini 3.1 Pro 0.820、GPT-5.4 0.750）。每百万页成本仅为 Claude Opus 4.6 的约 1/52，质量与成本均占据 Pareto 前沿。结果表明：当训练数据与部署任务充分对齐时，参数规模不再是决定性变量，专业化微调能以极低代价实现更高性能。

arXivHugging Face数据/训练现象/趋势

5月22日

22:00

Gary Marcus：The Road to AI We Can Trust（RSS）

精选65

这个奇怪操作可能让你的养老基金损失数十亿美元

国会当前推进的某项政策调整，可能导致美国养老基金遭受数十亿美元的巨额损失。该政策变更被指存在重大漏洞，将直接影响数百万退休人员的资产安全。有专家发出警告，呼吁民众立即联系所在选区的国会议员，要求其重新评估并阻止这一潜在损害养老金储备的决策。

OpenAI大佬观点

推荐理由：Gary Marcus 把 S&P 500 规则变更和你的退休金直接挂钩，逻辑链清晰——这可能是普通人第一次切身感受 AI 泡沫的传导渠道，值得警惕。

03:28

Tomer Tunguz 博客（VC 分析）

精选69

SpaceX的无限野心：AI企业集团

SpaceX在提交S-1文件后，展现为一家AI时代的企业集团。公司由三大业务构成：Starlink（星链）、太空业务与AI业务。2025年总营收达187亿美元。其中，星链是绝对的核心与现金引擎，贡献了61%的营收并实现39%的营业利润率。太空业务收入占比22%，而AI业务（含X平台与xAI）虽仅占17%且处于巨额投入阶段，但代表了未来的战略方向。整体上，星链的强劲盈利为公司的太空探索与AI雄心提供了关键的资金支持。

xAI行业动态部署/工程

关联讨论 1 条

推荐理由：SpaceX的S-1文件罕见披露了AI业务的财务底牌，Tunguz的拆解很精炼，让你看懂Starlink怎么为烧钱的AI和Starship供血，太空AI算力这个叙事值得关注。

02:00

Gary Marcus：The Road to AI We Can Trust（RSS）

精选62

核算OpenAI和Anthropic最新动态背后的数学

OpenAI与Anthropic近期相继发布重要产品更新。Claude 3.5 Sonnet在多项基准测试中超越GPT-4o，同时宣布API价格下调50%。Anthropic披露其模型训练成本年均增长约3.2倍，而OpenAI被曝已通过企业服务实现单季度超10亿美元营收。两家公司在技术突破与商业化竞赛中，正通过精密的成本核算与性能权衡重塑行业格局。

AnthropicOpenAI大佬观点推理

推荐理由：Gary Marcus觉得OpenAI的数学奇迹更可能是模型营销，Anthropic的盈利全靠SpaceX折扣，提醒你别急着下结论，AI的现实没那么简单。

01:04

Cursor Blog

精选58

构建云端智能体的经验总结

云端智能体已从本地智能体的简单扩展，发展为具备独立环境、可并行无人值守处理长任务的系统。构建的核心经验在于：完整的开发环境是输出质量的关键，这需重建大量基础设施；可靠性方面，团队从自研架构迁移至Temporal平台，将可靠性提升至99.9%以上，该平台每日处理超5000万次操作，支撑超40%的代码拉取请求；同时，实现了智能体循环、机器状态与对话状态的解耦，以适应复杂的跨环境协作。

智能体教程/实践编码

推荐理由：Cursor 把这一年踩过的坑全摊开了，从环境构建到持久化执行，基本就是一份 agent 平台内部架构课，搭同类产品的团队值得逐段读。

5月21日

21:57

公众号：百度智能云（文心）

AI重构的2026年，普通人的边界在哪里？

文章来自百度智能云，探讨2026年AI技术对普通人能力与职业边界的影响。文中未提及具体模型、版本或benchmark数据，仅从宏观视角讨论AI重构带来的机遇与挑战。

搜索现象/趋势

20:05

公众号：昆仑万维（天工）

算力拉开行业差距！方汉深度解读 AI 产业变革、职场走向与企业转型之道

昆仑万维天工方汉指出，算力是拉开AI行业差距的核心因素。他从AI产业变革、职场走向与企业转型三个维度展开深度阐述，强调算力竞争将主导下一阶段发展格局。

大佬观点现象/趋势

10:30

公众号：智谱（GLM）

下一代大模型推理网络架构：ZCube如何有效破解网络瓶颈？

智谱（GLM）提出ZCube，这是一种专为下一代大模型设计的推理网络架构，目标在于有效破解大规模模型推理时面临的网络瓶颈问题。

推理教程/实践部署/工程

06:27

Tomer Tunguz 博客（VC 分析）

精选67

不可持续的补贴

三大AI厂商定价策略出现显著分化：Google的AI价格年增两倍，但其旗舰模型Gemini 3.1 Pro（输入2美元、输出12美元）仍是市场最低价；OpenAI的GPT-5.5（5美元/30美元）经历短期补贴后再次涨价；Anthropic的Claude Opus 4.7（5美元/25美元）价格保持稳定，且对最强模型有所下调。这些变动标志着行业正从不惜成本的市场份额争夺，转向注重利润与现金流管理的商业理性，以应对持续高昂的资本支出压力。

AnthropicGoogleOpenAI大佬观点

推荐理由：Tunguz 把三家模型厂的定价画成曲线，涨价的真相一目了然——烧钱抢份额的阶段结束了，做 AI 产品的都该重新算算成本模型。

00:48

Claude：Blog（网页）

精选59

Anthropic销售负责人如何利用Claude Cowork管理4000个客户账户

Anthropic美国中端市场业务负责人Travis Bryant利用Claude Cowork自动化销售管理工作。该工具帮助他高效完成客户倾向性评分、每日客户简报准备及每周销售预测报告生成，每晚自动处理4000个账户数据，替代了以往跨部门团队需数百小时完成的工作。通过自动化日常任务调度，他每天节省约90分钟，并将数据整合为可交互的销售仪表板，使其能更专注于客户沟通与战略决策。

Anthropic教程/实践部署/工程

推荐理由：Travis 把 4000 个账户的评分一夜跑通，比自动报表更值得关注，中小销售团队照抄就能省掉跨部门数百小时，这是 Claude Cowork 在企业场景最落地的实践之一。

5月20日

23:55

Gary Marcus：The Road to AI We Can Trust（RSS）

精选65

生成式AI是否会沦为科技行业的"越南战争"？公众抵制能否引领AI走向更优的发展路径？

当前生成式AI的狂飙突进正引发深度审视，其潜在风险与社会反弹可能将该技术拖入类似“越南战争”的漫长泥潭。公众的担忧与抵制运动，正从数据隐私、内容真实性到伦理冲击等多方面施加压力，迫使行业进行根本性反思。这些反作用力虽可能延缓发展，却也可能成为校准方向的关键力量，推动技术在安全、透明和负责任的基础上重新定义进步。我们正身处一个充满挑战与不确定性的“有趣时代”。

大佬观点安全/对齐政策/监管现象/趋势

推荐理由：Marcus 这篇短文抓住了两个信号，毕业典礼上嘘声和特朗普突然考虑预检，反冲已经从边缘走到中央，做 AI 的不能再假装一切安好。

20:00

OpenRouter：Announcements（RSS）

一个机器人正朝你奔来：你希望它运行在Claude还是Grok上？

一场涵盖11个大语言模型的30轮大逃杀式评测，花费482美元推理成本，得出了一个应改变读者阅读模型基准方式的关键发现。

推理评测/基准

19:09

公众号：火山引擎

在戛纳，和电影大师们聊了聊Seedance

火山引擎的Seedance在戛纳电影节上与多位电影大师进行了交流。

其他视频

07:33

Anthropic：Newsroom（网页）

精选65

拓宽关于前沿AI的对话

Anthropic为构建负责任的先进AI，正与全球多元群体展开对话。首轮讨论汇集了超过15个宗教、哲学及跨文化传统的学者与伦理学者，旨在为Claude等模型的道德形成与价值观对齐提供多元视角。受“外部良知”概念启发，团队开发并测试了伦理承诺提醒工具，初步实验显示其能有效降低模型不对齐行为。公司计划未来将对话拓展至法律、心理学及公民社会等领域，以共同应对AI对社会结构的重塑。

Anthropic安全/对齐推理

关联讨论 1 条

推荐理由：Anthropic在做一件少见的事——请神学家和哲学家帮忙塑造Claude的‘性格’，初步实验发现让模型在决策前暂停反思能降低偏差，做AI对齐的值得读一下。

05:45

Claude：Blog（网页）

精选73

Claude Code的HTML输出：非凡的有效性

Claude Code团队正从Markdown转向HTML作为主要输出格式。Markdown虽简洁，但在信息密度、阅读性、分享和交互方面存在局限。HTML能支持表格、CSS样式、SVG图表和JavaScript交互，提供更清晰的视觉结构和高信息密度。由于HTML文件可通过浏览器直接打开和分享，便于团队协作审阅。Claude Code利用其广泛的上下文获取能力生成实用的HTML制品，适用于项目规划、文档编写和验证等多种场景，显著提升了AI生成内容的可读性与实用性。

智能体Anthropic教程/实践编码

推荐理由：Claude Code 团队的人亲自告诉你为什么用 HTML 而不是 Markdown，从设计原型到可交互报告全在一个文件里搞定。附带的模板和提示词，开发者可以直接抄。

02:18

Google Blog：AI（RSS）

精选71

AI Mode 如何改变美国人的搜索方式

AI Mode 上线一周年，美国用户搜索行为呈现关键转变。数据显示，用户正从传统的关键词输入模式逐渐转向自然语言查询，这一变化反映了AI搜索技术的普及和用户交互方式的优化。自然语言查询的使用率显著提升，体现了AI搜索在日常信息获取中的影响力增强，预示着未来搜索体验的革新方向。

Google搜索现象/趋势

推荐理由：AI Mode 上线一周年，Google 第一次拿出用户行为数据，从关键词到自然语言的转向比想象中快，做搜索和 SEO 的可以重新理解用户意图了。

5月19日

03:19

Tomer Tunguz 博客（VC 分析）

多模型协作写作的实践与思考

作者分享了16年来运用AI辅助写作的经验。他尝试组建由Gemini、Claude和OpenAI Codex构成的“AI编辑委员会”，让多模型协作修改文章，结果却如手指画般混乱。每个AI模型都有其独特的“声音”与编辑理念，难以达成统一的文风与基调。作者最终指出，AI虽能高效生成内容，但正是写作中那些类似黑胶唱片噼啪声或胶片光晕般的不完美细节，才构成了真实而优秀的写作，这是AI目前难以模仿的核心所在。

其他大佬观点

03:14

Runway：News（网页）

精选57

分布式训练为何艰难：DTensor、正确性与抽象的代价

本文探讨了分布式训练中的正确性难题及DTensor方案的权衡。DTensor通过为张量附加放置元数据（如Shard、Replicate）来自动管理通信，确保计算正确性。文章通过一个并行化案例，展示了不使用DTensor时手动处理梯度计算可能引发的静默错误（如梯度为零或倍增），从而凸显了正确性的复杂性。然而，DTensor的抽象层在简化开发的同时，也可能在大规模场景下引入隐性的性能开销。因此，在设计分布式系统时，需要在抽象的开发便利与底层的计算效率之间做出审慎权衡。

教程/实践部署/工程

推荐理由：Runway 工程师用四次失败的并行化尝试把分布式训练的正确性难题拆解得明明白白，还给出了 DTensor 在规模下吃掉的 MFU 和编译陷阱的一手数据，做大模型训练的人值得从头读到尾。

02:45

Gary Marcus：The Road to AI We Can Trust（RSS）

世纪AI审判悄然结束

世纪性的AI审判最终以微弱的方式落幕，未能公开关键技术细节和决策过程。审判结果未提供具体数据或指标，仅以概括性结论结束，留下多个未解之谜，包括影响范围和责任划分等。这导致一些核心信息永远无法知晓，引发了公众对AI透明度和伦理问题的持续关注。

OpenAI大佬观点

00:52

Hugging Face：Blog（RSS）

精选67

NVIDIA Cosmos Predict 2.5 微调：使用 LoRA/DoRA 生成机器人视频

NVIDIA Cosmos Predict 2.5 是一个 2B 参数的世界模型，可根据文本、图像或视频片段生成物理合理的视频。通过 LoRA 或 DoRA 在 DiT 的注意力层（to_q, to_k, to_v, to_out.0）和前馈层注入可训练适配器，冻结全部基座权重，在单个 80GB GPU 上即可完成参数高效微调，避免了全量微调的高成本与灾难性遗忘。该流程使用 diffusers 和 accelerate 库，利用 92 个机器人操作视频训练集与 50 个 (prompt， image) 测试对进行微调，并展示如何用微调模型生成合成机器人轨迹以支持下游机器人学习任务。支持单 GPU 与多 GPU 训练，切换不同领域适配器无需重训。

具身智能教程/实践数据/训练视频

推荐理由：这篇教程把微调Cosmos Predict 2.5的方法从头到尾讲清楚了，做机器人合成数据的同行可以直接抄作业，LoRA/DoRA切换也很方便，值得收藏。

5月18日

21:45

Cloudflare Blog

精选59

玻璃翼项目：Mythos向我们展示了什么

近期，团队将Mythos及其他聚焦安全的大语言模型应用于关键基础设施的实时代码测试。测试揭示了模型在识别漏洞和代码审计方面的优势，例如在复杂逻辑中发现潜在风险的能力，同时也暴露了其存在的局限性，包括产生误报以及对上下文理解的不稳定。文章指出，在将这些安全LLM的能力扩展到更大规模之前，必须围绕其建立一套可靠的工作流程，包括持续验证和人工复核机制。

教程/实践部署/工程

推荐理由：Cloudflare 用安全 LLM 扫自家代码这事，比很多安全厂商的营销稿实在得多。虽然还没到能规模化的时候，但哪些模型好用、哪里会踩坑，做 DevSecOps 的可以直接抄作业。