AIHOT

5月5日

00:07

Berryxia.AI@berryxia

29

为庆祝母亲节，全球首个家庭AI--Nori发起了"妈妈梦想，我们用AI实现"挑战赛。该赛事鼓励参与者利用Nori AI，针对母亲们日常面临的实际痛点（如日程混乱、膳食计划、购物清单等）开发实用的AI工具。优胜者将由社区投票选出，并获得1000美元奖金。Nori AI旨在通过自然语言指令，一站式管理家庭日程、任务、膳食等繁杂事务。

智能体行业动态

00:04

Ethan Mollick@emollick

64

Anthropic 的联合创始人，有趣的是他引用公开来源，而他显然也知道许多无法讨论的内部来源。我猜他在 Anthropic 也看到了同样的事情。

Anthropic大佬观点安全/对齐

5月4日

23:58

Epoch AI@EpochAIResearch

46

探讨AI基准测试的困境与未来方向

针对“AI基准测试是否已失效”的悲观论调，讨论者进行了反驳，并深入探讨下一代AI基准测试的可能形态。核心议题包括基准测试开发的成本与收益、可扩展基准（如MirrorCode）的构建、AI技术对基准开发本身的加速作用，以及当前基准测试与现实应用能力之间存在的差距。对话还触及了构建通用人工智能（AGI）基准的可行性，并展望了超越自动化评分的更全面评估方法。

数据/训练评测/基准

23:53

swyx 🇸🇬@swyx

40

演讲者基于长期支持，特邀Patrick Debois在欧洲会议进行主题演讲。Debois指出，当前AI编程中语境是工程化最不足的层面。他认为，如果智能体由提示、规则和记忆驱动，那么语境理应获得与代码同等的工程严谨性。该观点呼应了AI工程师社区对语境层重要性的讨论。

智能体大佬观点编码

23:52

Berryxia.AI@berryxia

47

DeepMind CEO将AGI实现时间表明确设定于2030年

DeepMind CEO Demis Hassabis在AI Ascent 2026上明确将AGI实现时间定于2030年，并指出AI将极大加速药物发现、材料科学等“慢科学”领域，把研发周期从数年压缩至数天。他强调，未来1-2年是关键拐点，真正改变世界的将是AI推动科学迭代速度的指数级加速，而非AGI降临的瞬间。

DeepMind大佬观点现象/趋势

23:45

Chubby♨️@kimmonismus

62

初创公司Video Rebirth的文本生成视频模型Bach-1.0 Preview在Artificial Analysis的全球AI视频排行榜上首次亮相即位列第六。其性能与Vidu Q3 Pro、Kling 3.0 Omni 1080p （Pro）及grok-imagine-video等知名模型相当。该模型计划于五月下旬广泛发布。

模型发布视频评测/基准

23:28

Chubby♨️@kimmonismus

60

Anthropic的Jack Clarke现在认为，递归自我改进有60%的概率在2028年底前发生。

Anthropic大佬观点

23:23

阿绎 AYi@AYi_AInotes

精选71

一个100行的文件，干翻了所有LLM编码prompt

一个名为CLAUDE.md的百行文件在GitHub上迅速走红，一周内获得超4.4万星。它没有依赖和配置，仅将Andrej Karpathy总结的LLM编码坏习惯浓缩为四条核心规则：先思考再编码、简约至上、手术式修改、目标驱动执行。开发者只需将其置于项目根目录，Claude Code等工具便能自动读取并遵循，从而显著提升代码质量，减少返工和token浪费。此举被视为对当前需要反复纠正AI模型的开发体验的集体反叛，以零成本方案为AI编码设定明确规范。

MCP/工具教程/实践编码

推荐理由：一个100行文件干翻一堆Agent框架，本质是开发者受够了哄模型，不如直接定规矩。如果你也用Claude Code，花一分钟扔进去，Token浪费砍半不是夸张。

23:11

Sam Altman@sama

31

我们将为所有申请参加GPT-5.5派对但因名额限制未能到场的朋友准备一份心意。希望你们喜欢！

OpenAI行业动态

22:58

elvis@omarsar0

67

Meta FAIR开发的Autodata是一个能自主构建高质量训练与评估数据的代理系统。其核心在于"代理式自我指导"循环：编排器LLM指导挑战者代理基于领域文档生成问题，由弱、强解算器尝试解答，法官评分后分析失败并循环优化，从而产出能有效区分模型能力的挑战性数据。在CS研究QA任务中，该方法产生了34个百分点的性能差距，远超标准方法的1.9点。系统还具备元优化能力，通过外循环调整指令，将验证通过率从12.8%提升至42.4%。研究处理了超万篇论文，产出2，117个优质QA对，通过增加推理计算使数据更具挑战性，从而提升下游模型性能。

智能体Meta数据/训练论文/研究

22:40

Rohan Paul@rohanpaul_ai

67

路透：AI芯片制造商Cerebras瞄准35亿美元美国IPO，每股定价115-125美元

AI芯片制造商Cerebras正计划在美国进行IPO，目标融资高达35亿美元，每股定价区间为115至125美元。该公司采用独特的晶圆级芯片技术，将几乎整个硅晶圆集成为一个巨型处理器，旨在通过将海量计算和内存置于单一硅片上，减少芯片间数据移动的瓶颈，从而为特定大型AI工作负载加速训练和推理过程。其技术路线与依赖多GPU协作、受限于数据移动速度的传统AI硬件形成对比。此次IPO是公司在撤回先前尝试后的新一轮努力，其竞争对手包括英伟达和AMD，后者同时也是其支持者。

行业动态部署/工程

22:37

Rohan Paul@rohanpaul_ai

精选71

OpenAI启动百亿美元合资公司"部署公司"加速企业AI应用

OpenAI成立了名为“部署公司”的百亿美元合资公司，筹集超40亿美元，旨在帮助企业克服AI部署障碍。核心观点是，当前企业采用AI的主要瓶颈已非模型质量，而是缺乏整合团队、工作流程、数据访问和安全规则的能力。该公司通过联合TPG、Brookfield等私募股权投资者，打包软件、咨询和部署方案，直接触达超2000家投资组合公司，实现规模化分发。同时，Anthropic也正与Blackstone、Goldman Sachs等华尔街机构组建类似合资公司，为私募股权支持的企业部署Claude并重建工作流程。这标志着AI实验室的竞争焦点正从模型性能演示转向工业化部署速度与路径控制的争夺。

AnthropicOpenAI行业动态部署/工程

推荐理由：OpenAI和Anthropic几乎同时拉上黑石、高盛成立合资公司，把模型部署包装成服务卖给数千家企业。模型竞争正在降级，谁能最快把AI塞进真实业务流程才是下一阶段的王。

22:23

elvis@omarsar0

精选71

Sakana AI提出新型7B"指挥者"模型，通过协同多个智能体实现性能突破

Sakana AI在ICLR 2026上发表研究，提出一个仅70亿参数的“指挥者”模型。该模型不直接解决问题，而是通过强化学习训练，专注于为混合开源与闭源模型的工作者智能体设计通信拓扑结构，并为每个工作者生成精准指令以发挥其特长。经随机化智能体池训练后，它能在推理时适应任意智能体组合。其关键创新在于，当允许指挥模型将自己也选为工作者时，系统会形成递归拓扑，实现动态测试时扩展。该模型在GPQA-Diamond和LiveCodeBench上达到SOTA水平，在AIME25和GPQA-D上的性能比最佳单体工作者提升约3%，这相当于前沿模型一个代际的改进幅度，且增益完全来源于协同优化。

智能体arXivMCP/工具推理

推荐理由：Sakana AI 这篇 ICLR 论文把 Agent 之间的通信拓扑和提示词一起做成可训练的，协调本身变成模型，做多 Agent 系统的人真该重新想想架构了。

22:19

Chubby♨️@kimmonismus

45

1/ 天呐：天文学家刚刚将AI对准了NASA来自220万颗恒星的数据。它发现了超过100颗隐藏的行星，其中包括一些极端到依据现有理论甚至不该存在的星球。我太喜欢这个发现了。让我们来详细解析并解释这意味着什么 🧵：

其他

22:13

Berryxia.AI@berryxia

19

Nori AI发起母亲节AI产品挑战赛，奖金千元

Nori AI推出“Mom Dreams It, We Create It with AI”挑战赛，庆祝母亲节，旨在鼓励构建AI产品解决忙碌妈妈的痛点或实现其梦想工具，优胜者可获1000美元奖金，并由社区投票选出。Nori AI被描述为世界首个家庭AI，能通过自然语言命令处理日程、任务、餐计划等家庭事务。挑战赛和产品链接已提供，呼吁开发者参与构建帮助妈妈的AI产品。

智能体行业动态

22:13

Ethan Mollick@emollick

49

作者对一篇得出AI对教育有负面影响的论文被撤稿表示并不意外。他指出，其他经过同行评审的元分析研究发现了AI对学习的积极影响，并引用了一项具体的元分析研究作为佐证。作者强调，关于AI助益的最有力证据来自采用AI导师干预的随机对照试验（RCTs）。他引用的推文也表达了对其引用论文中积极结果的些许惊讶，这间接支持了作者对AI教育应用持审慎乐观态度的核心观点。

大佬观点现象/趋势

22:09

Runway@runwayml

20

过去需要奇迹才能让想法变为现实。现在只需要你的视角。所有可能的电影。所有可能的广告。你能想象的每个创意，都在等待你用Runway生成。通过Runway Academy学习操作方法。点击下方链接开始体验。

产品更新

22:09

Rohan Paul@rohanpaul_ai

64

初创公司Video Rebirth凭借其模型Bach-1.0 Preview，在Artificial Analysis的文本转视频榜单中首次进入前六名，打破了该榜单长期由阿里巴巴、字节跳动、xAI等万亿美元级巨头主导的局面。其模型性能与Vidu Q3 Pro、Kling 3.0 Omni 1080p （Pro）及grok-imagine-video等顶尖模型相当，并计划于五月下旬广泛发布。这一突破标志着初创企业在高质量AI视频生成领域取得了显著进展，为该领域的竞争格局带来了新的变数。

模型发布视频

22:09

meng shao@shao__meng

精选72

Cursor团队发布官方工作流插件，集成17项核心开发技能

Cursor官方团队将其内部使用的开发工作流打包成名为“cursor-team-kit”的插件。该插件集成了17个核心Skills、1个Agent和2条Rules，旨在提升团队协作与代码质量。核心Skills涵盖五大领域：CI/合并循环自动化、PR全流程管理、验证与测试、总结复盘以及代码治理。其中，ci-watcher Agent可后台监听CI状态，而两条Rules则强制规定了TypeScript的代码风格。该插件是团队用于构建Cursor产品自身经验的封装，专注于验证变更、驱动本地工具和交付可评审的PR。

智能体产品更新编码

推荐理由：Cursor 把自己的开发流程开源成插件了，这一套 17 个 skill 从 CI 盯盘到写周报全包，最牛的 verify-this 把 debug 变成了科学实验，装了立刻就能用。

22:08

Berryxia.AI@berryxia

精选70

Sam Altman驳斥AI"抢饭碗"论：真正风险是效率鸿沟

Sam Altman批评一些CEO宣称AI将导致大规模失业的言论是“不懂人情”。他引用案例指出，GPT-5.5的Codex版本能将耗时数周的工作压缩至一小时，但结果却是使用者“前所未有的忙碌”。AI并未消灭工作，而是极大提升个人产能，使功能开发和试错速度呈指数增长，导致拥抱AI者因生产力暴增而承担更多任务，其野心也随之扩张。当前AI时代的核心分化在于“善用AI者”与“拒绝AI者”之间不断扩大的效率鸿沟。真正的淘汰风险在于旁观而非主动利用工具。

OpenAI大佬观点现象/趋势

推荐理由：Sam Altman这回应干脆，但更值得琢磨的是那个案例，一个人用GPT-5.5 Codex之后反而更忙了。生产力暴增时，野心也暴增。这可能是未来五年每个人都要面对的真实处境。

22:03

向阳乔木@vista8

58

躺平神器开源！Xbox手柄秒变Mac万能遥控器~

一款名为“xbox-mac-ctrl”的开源工具，可将Xbox手柄转变为Mac电脑的通用遥控器。用户能通过手柄控制YouTube、B站等视频播放（全屏、快进、音量调节），并操作微信读书、浏览器及任意Mac软件（如Tab切换、滚动翻页）。该项目由开发者借助DeepSeek v4 Pro通过几轮对话编程实现，旨在满足躺卧时遥控刷小说、看视频的需求，并鼓励开发者fork以适配Switch手柄等其他硬件。

向阳乔木：DeepSeek v4 Pro还是可以的。几轮对话，实现一个工具，用xbox手柄控制电脑应用和浏览器。当遥控器，躺床上刷小说和看视频。

MCP/工具开源/仓库教程/实践

22:00

Orange AI@oran_ge

37

近期有文章揭露，部分AI模型token中转服务存在欺诈行为，即在后台替换为劣质模型，却以高价模型名义收费。这一现象已被广泛传播和讨论。然而，当前中文社交平台上却出现大量将此类中转站宣传为"好生意"的言论。作者对此种降低行业标准、混淆视听的趋势表示难以理解和强烈不满。

马东锡 NLP：前几周在 x 上，有篇文章已经完全证实了， token 中转就是背后换模型，以次充好，挂着羊牛卖狗肉，骗用户，大几十万阅读，似乎人人皆知了。现在简中推，到处…

现象/趋势部署/工程

21:48

Greg Brockman@gdb

37

Codex 助你快速交付【引用 @linuz90】：Codex 是我目前最爱的编程应用。它界面简洁，却具备快速交付所需的一切功能。使用体验愉悦流畅，能展示充足的上下文信息而不过载。我曾犹豫是否尝试，因为不喜欢受限于单一服务商，而且原本非常习惯在终端工作。但现在我90%以上的工作都在用它完成。

OpenAI大佬观点编码

21:25

小互@xiaohu

精选72

为AI编程立规矩：CLAUDE.md文档的四条核心原则

针对AI编程工具常犯的“默默假设”、“过度自信”和“无效重构”等问题，一份名为CLAUDE.md的文档被整理出来，旨在为AI设定工程纪律。其核心四条原则是：编码前先思考并澄清歧义；优先用最简代码实现需求；仅修改与需求直接相关的代码；为任务设定明确、可验证的目标。这套规则旨在约束AI行为，使其更接近靠谱工程师的作风，解决其“太积极、太爱脑补、太喜欢顺手优化”的痛点。

智能体教程/实践编码

推荐理由：把 Karpathy 的观察变成可执行的 CLAUDE.md，直接解决了 Claude Code 太爱脑补、乱改代码的臭毛病，对日常用 AI 编程的人很管用，放进项目就能让 AI 少犯傻。

21:25

叫我阿杭@Astronaut_1216

54

先探索边界，再优化成本：从OpenClaw看工程化思维

对话中提到使用OpenClaw时，初期不应先计较成本，而应全力探索其能力边界与可能场景，甚至不惜高投入。这种思维同样适用于创业与工程化：先通过大量实践摸清所有模式、陷阱与机会，将工具或业务转化为可重复执行的系统。只有在完整认知边界后，再回头优化时间、经济与认知成本，此时的决策才是基于已验证的系统，而非模糊想法。核心在于“先探索，后优化”，以实现规模化路径。

MCP/工具大佬观点现象/趋势

21:17

Orange AI@oran_ge

56

豆包要上付费会员了专业版一年 5000 块每人每月在 AI 上花个 100 美金，应该会成为未来人们的基本开销强如字节也要尊重商业模式，尊重时代发展

产品更新其他

21:15

OpenRouter@OpenRouter

54

拥有你的数据。一键ZDR：https：//openrouter.ai/workspaces/default/guardrails/default/models

产品更新安全/对齐

21:10

Rohan Paul@rohanpaul_ai

44

Nori发起挑战：连接母亲创意与AI开发，共筑智慧家庭生活

Nori发起一项创新挑战，旨在让母亲与AI开发者直接协作，共同解决家庭实际痛点。挑战分为两部分：母亲们提交她们急需的家庭生活工具创意，如管理日程、分担家务等；开发者则基于这些真实问题构建AI应用、智能体或工作流原型。社区将对提交方案进行投票，并设立两个1000美元奖项，分别表彰最佳创意和最佳产品。Nori作为家庭AI助手，希望通过此举推动AI技术从真实用户需求出发，切实减轻家庭运营负担，而非单纯追求技术展示。

智能体行业动态

20:55

小互@xiaohu

56

传谷歌I/O将发布Omni模型，Gemini或升级为全模态生产力入口

据传谷歌将在I/O大会发布名为“Omni”的新模型，旨在将Gemini从聊天助手升级为集成写作、图片、视频、长上下文记忆与复杂任务流的全模态生产力平台。该模型可能原生支持视频生成与输出，超越现有的Veo 3.1。同时，Gemini 3.2/3.5版本或专注于提升推理速度与效率，而Ultra版本则向长上下文、重记忆及多步骤工作流方向深化。若消息属实，Gemini将成为首个具备视频输出能力的顶级Omni模型。

Google多模态模型发布视频

19:55

Chubby♨️@kimmonismus

49

教育亟需拥抱AI，但须警惕思考外包

作者指出，尽管AI将彻底改变教育已是事实，学生普遍使用ChatGPT、Claude等工具进行研究与写作，但当前教育体系仍停留在20世纪模式。核心矛盾并非是否该使用AI，而是如何将其整合进教育，避免将思考过程完全外包给机器。教育必须重新设计，在利用AI提升学习效率与生产力的同时，坚守培养学生批判性思维与自我反思能力的根本目标。学术界需就如何正确融合AI展开紧迫而严肃的讨论。

OpenAI现象/趋势

18:20

阿绎 AYi@AYi_AInotes

49

豆包要收费了，三档会员68元/月、200元/月、500元/月，免费版还在，但PPT生成，数据分析得掏钱了，果然宇宙的尽头是VIP🥹

产品更新行业动态

17:52

阿绎 AYi@AYi_AInotes

50

这段AI可视化视频有点震撼，13秒看懂神经网络到底在干嘛

一段13秒的可视化视频直观揭示了神经网络的工作机制。左侧9个波形代表虚拟生物的感官输入，中间动态变化的光点与连线模拟神经元与权重的计算过程，右侧13个数值输出觅食、逃跑等决策。这生动演示了前向传播如何将数据转化为行动，体现了深度学习层层提取特征的本质：底层感知碎片，高层组合意义。当今复杂的AI系统与此原理相同，仅规模存在量级差异。视频中出现的“自杀”选项，直观成为AI可能学习极端行为及对齐问题的视觉隐喻。

其他教程/实践

17:44

Artificial Analysis@ArtificialAnlys

56

Bach-1.0 Preview from Video Rebirth 在 Artificial Analysis 文本转视频排行榜（无音频）中首次亮相，位列第6！ Bach-1.0 Preview 是来自 @video_rebirth 的最新文本转视频模型，其性能与 Vidu Q3 Pro、Kling 3.0 Omni 1080p （Pro）和 grok-imagine-video 相近。 Bach-1.0 Preview 计划于五月下旬广泛发布。在下方 Artificial Analysis 视频竞技场中查看 Bach-1.0 Preview 的生成示例 🧵

模型发布视频

17:40

Rohan Paul@rohanpaul_ai

66

Anthropic与华尔街巨头组建合资公司，瞄准私募股权领域AI部署

Anthropic正与黑石、高盛等华尔街机构敲定一项合资协议，旨在向私募股权支持的公司销售AI工具。各方预计共同投资约10.5亿美元，新公司将作为AI部署部门，不仅提供Claude访问权限，更帮助企业围绕大语言模型重构从客服、财务到编码、法务及内部研究的工作流程。此举目标锁定私募股权公司，因其拥有大量企业、成本控制严格且能快速推行变革。这标志着AI实验室的竞争已从模型质量，延伸至对“模型到业务流程”路径的控制权争夺。

Anthropic行业动态部署/工程

关联讨论 1 条

17:39

Chubby♨️@kimmonismus

31

为什么Windows的搜索功能如此糟糕？我无法理解。一方面，Windows想把CoPilot AI集成到各处。然后操作系统的搜索功能却差到连最简单的东西都找不到。

其他搜索

17:33

向阳乔木@vista8

47

DeepSeek v4 Pro还是可以的。几轮对话，实现一个工具，用xbox手柄控制电脑应用和浏览器。当遥控器，躺床上刷小说和看视频。

DeepSeek教程/实践编码

17:11

TestingCatalog News 🗞@testingcatalog

62

xAI 正在为 Grok 推出连接器 🔥 GitHub、Notion、Linear、Google 和 Microsoft 套件现已可用，自定义 MCP 连接器也已就绪！

MCP/工具xAI产品更新

17:10

OpenClaw🦞@openclaw

54

OpenClaw 插件保持核心快速轻量：仅安装你需要的频道、提供者、工具或技能。示例： `openclaw plugins install @openclaw/discord`，重启 Gateway，然后检查。清单 + 安装说明：https：//docs.openclaw.ai/plugins/plugin-inventory

智能体产品更新部署/工程

17:03

Marc Andreessen 🇺🇸@pmarca

47

许多人正确地说。

OpenAI大佬观点现象/趋势

16:44

叫我阿杭@Astronaut_1216

37

当前 AI 与人类知识的关系：模型比任何个人知道得多，但任何个人比模型学得快

数据/训练现象/趋势