AIHOT

AI HOT

5月6日

05:17

Marc Andreessen 🇺🇸@pmarca

令人担忧。

大佬观点安全/对齐

04:31

Sam Altman@sama

chatgpt的新即时模型真是太棒了如果你一直只用思考模型的话，不妨试试这个！

OpenAI大佬观点

04:31

Epoch AI@EpochAIResearch

"经典"推理基准的配方很简单：纯文本、数小时的时间跨度、易于评分，并带有专家人类基线。接下来呢？在本周的Gradient Update中，@GregHBurnham 认为只需舍弃这四种成分之一即可。

现象/趋势评测/基准

04:01

Ethan Mollick@emollick

普通名词已经过时了： 1）具有精确含义 2）你实际上可以定价和衡量它 3）更有趣

大佬观点

03:57

Rohan Paul@rohanpaul_ai

贝莱德CEO芬克：算力需求或催生期货市场，否认AI存在泡沫

贝莱德CEO拉里·芬克指出，AI驱动的算力需求极其庞大，未来可能形成算力期货市场，使其成为可交易的金融资产。基于这一判断，贝莱德已通过投资数据中心、能源交易及与微软、英伟达等科技巨头合作进行布局，将算力需求转化为对电力、芯片等基础设施的投资。芬克否认AI存在泡沫，其核心论据是供应持续短缺——需求增速远超产能扩张，即使企业愿意高价支付也难以获得足够算力，从而对价格构成支撑。

大佬观点行业动态

03:57

Rohan Paul@rohanpaul_ai

GPT-5.5 与 Opus 4.7 在 ARC-AGI-3 上的得分低于 1%

AnthropicOpenAI推理评测/基准

关联讨论 1 条

03:31

DogeDesigner@cb_doge

ChatGPT 真笨。

OpenAI大佬观点

03:17

Marc Andreessen 🇺🇸@pmarca

关于.. 【引用 @JordanSchachtel】：了解内情：Anthropic的顾问表示，现在是联邦政府为Anthropic的业务建立护城河的时候了，并引用了Anthropic的非公开信息。

Anthropic大佬观点政策/监管

03:17

Marc Andreessen 🇺🇸@pmarca

令人担忧。【引用 @amuse】：http：//x.com/i/article/2049873452354457600

大佬观点

03:17

Marc Andreessen 🇺🇸@pmarca

Elad Gil指出，想进入任何行业，最关键的是搬到该行业的中心集群所在地。针对AI领域，他引用数据称全球91%的AI私营科技公司市值集中在旧金山湾区一个10x10英里的区域内。他强调"在任何地方都能远程完成一切"的建议是误导，地理位置对职业突破至关重要。

大佬观点现象/趋势

02:57

Artificial Analysis@ArtificialAnlys

MiniMax-M2.7模型在六大推理服务商上线，速度与价格差异显著

MiniMax-M2.7模型已在六家推理服务商上线，各提供商在速度和价格上差异明显。SambaNovaAI以每秒435个输出令牌的速度领先，比其他提供商快3倍以上，但其价格也高出约2倍。FireworksAI、Novita Labs等四家则与MiniMax官方API定价持平。分析指出，Fireworks和SambaNova在速度与价格的权衡中处于帕累托前沿：前者性价比高，后者则以高价换取极致速度。此外，各家的高速缓存折扣政策不同，这对缓存密集型工作负载的成本影响显著。因此，最优选择高度依赖于具体工作负载对延迟和成本的敏感度。

推理评测/基准部署/工程

02:31

Sam Altman@sama

我想与那些利用5.5版本构建了惊人项目的人交流，这些项目在早期模型中是无法实现的。我特别关注那些消耗了巨额令牌预算的案例。谢谢。

OpenAI大佬观点

02:27

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

梦工厂联合创始人杰弗里·卡森伯格预测，AI将在三年内使动画电影制作成本降低90%，所需人力减少至原先的10%。这不仅将彻底颠覆娱乐产业，更将迅速波及所有行业。好莱坞艺术家的反抗凸显了危机感--AI已在艺术创作领域实现从低水平到超人类能力的飞跃。若其在操纵、编程、生物工程等领域取得类似突破，将引发大规模失业潮，可能促使有组织劳工运动复兴。尽管可能带来更多电影产出，但各行各业的游戏规则已被永久改变。

现象/趋势视频

02:02

Yuchen Jin@Yuchenj_UW

一切都是技能-md问题。

大佬观点推理

02:00

宝玉@dotey

精选75

Google为Gemma 4发布MTP草稿模型，推理速度最高提升3倍

Google为其开源模型Gemma 4推出MTP drafter（多token预测草稿模型），采用推测解码技术，能在保持输出质量不变的前提下，将推理速度最高提升3倍。该技术利用轻量级小模型预先推测多个token，再由大模型并行验证，从而显著提高吞吐效率，尤其有利于缓解本地部署时的内存带宽瓶颈。例如，在Apple Silicon上运行26B MoE模型时，批量处理可获得约2.2倍加速。模型沿用Apache 2.0协议，权重已开源，并获主流推理框架支持。

Google开源生态推理模型发布

关联讨论 3 条

推荐理由：Gemma 4 的 MTP drafter 不是噱头，在 Apple Silicon 上实测能翻倍，且完全无损，本地跑开源模型的可以直接上，权重和框架都备好了。

01:57

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

提醒一下，OpenAI *和* Anthropic 都认为我们只剩下0-2年时间几家公司正加速将人类推入黑洞，只为看看会发生什么

AnthropicOpenAI安全/对齐

01:27

SemiAnalysis@SemiAnalysis_

Cerebras公司的口号应该是："无需分割，皆是奇点"

大佬观点部署/工程

00:58

Peter Steinberger 🦞@steipete

我让Molty审查我的PR，它创作了一首歌。https：//github.com/openclaw/openclaw/pull/77205

教程/实践编码

00:57

宝玉@dotey

精选77

开源幻灯片框架open-slide支持AI智能生成

open-slide 这个开源的 Slides 项目不错，可以通过 Agent + Skills 制作 Slides，然后还有一个 Web 程序可以编辑生成好的 Slides。并且可以支持动画，以及网页直接播放 slides。期待完善： - 更好的编辑 - 导出 pptx https://github.com/1weiho/open-slide

智能体GitHub开源/仓库

推荐理由：让 agent 直接生成可编辑的 slides，npx 一行命令就能跑，还支持动画和网页播放，是产品人和开发者的提效刚需小工具，宝玉推荐的质量一般不差。

00:57

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

死互联网理论更新：十分之四的播客由AI生成回顾： 1）互联网上大多数文章由AI撰写… 2）十大YouTube频道中的四个… 3）十分之四的Facebook帖子… 4）向新YouTube用户展示的视频中五分之一… 5） Twitch上订阅数第一的主播是AI… 6） Deezer上44%的歌曲… 7）三分之一的网站… 人类正在网络上被迅速驱向灭绝

其他现象/趋势

00:57

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

不，说真的，你不能再相信截图了

图像生成安全/对齐

5月5日

23:57

Peter Steinberger 🦞@steipete

那可真是不少token。

其他

23:56

宝玉@dotey

Boris Cherny：编程范式转向管理AI Agent，通才时代来临

Anthropic的Claude Code项目负责人Boris Cherny指出，编程正从手动编写转向管理AI Agent。他本人2026年未手写代码，日常工作转为合并AI生成的PR，并通过数百个运行Loop模式的Agent自动化处理任务。他认为AI将抹平软件开发的切换成本和流程效力护城河，使编程像识字一样普及，未来跨学科通才将激增，因为理解业务比编写代码更为关键。Anthropic的核心优势在于其彻底改造、全员使用Claude协作的组织流程。

智能体Anthropic大佬观点编码

关联讨论 3 条

23:56

凡人小北@frxiaobei

AI研发团队长这样： codex + figma = 产品 codex + github = 开发 codex + compute = 测试 codex + cloudflare（wrangler / cf cli / code mode）= 运维最后一组目前做得最好。

智能体OpenAI大佬观点部署/工程

23:29

Claude@claudeai

精选65

金融服务新功能：现成的Claude智能体模板，可用于构建推介方案、执行估值审核、月末结账等任务。可将它们作为插件安装到Cowork和Claude Code中，或使用我们的操作指南在生产环境中以托管智能体形式运行。

智能体Anthropic产品更新

关联讨论 5 条

推荐理由：金融行业的 Claude 用户有福了，官方一口气放出了投行 pitch、估值审查、月末结账等现成 agent 模板，装成插件就能跑。

23:27

Ethan Mollick@emollick

除了CAISI评估外，如果NIST能作为独立评估者对AI能力进行公开测试将会很有帮助--尽管这些显然不应是预发布测试，且可以在模型公开后进行。独立测试很重要且成本越来越高。

大佬观点政策/监管

23:27

Ethan Mollick@emollick

在"AI会取代医生吗？"的辩论中，被忽略的一点是医生（以及律师、心理学家和银行家）都拥有投票权、构成政党的捐助基础，并且与社区有深厚的联系。无论AI能做什么，政府将在很大程度上决定允许AI做什么。

大佬观点现象/趋势

23:25

elvis@omarsar0

智能体性能核心：将并行推理与审议内化为可训练技能

研究指出，驱动智能体性能的关键并非外部编排框架，而是一项核心内在技能：并行推理后进行审议。该研究将这一过程系统化为一个两阶段流程，并通过强化学习与价值回归（RLVR）将其训练为可学习的模型内在能力。实验表明，该方法能显著提升模型性能：例如，GPT-OSS-20B在LiveCodeBench上的成绩从69.7%提升至85.5%；R1-Distill-Qwen-32B在IFEval上的表现从35.7%大幅提升至69.3%。这证明，当此类核心技能能被内化至模型中时，框架优势将转化为模型自身优势，长远来看，模型应原生具备此类能力。

智能体推理论文/研究

23:25

elvis@omarsar0

微软研究团队发现，导致AI智能体在长视野任务中失败的核心瓶颈是任务视野长度，而非模型容量。随着目标距离增加，探索空间组合爆炸与信用分配模糊化使模型失效。解决之道并非增加算力，而是通过"视野缩减"：利用宏动作重新参数化动作空间，将多个低级决策压缩为一个高级动作。该方法能立即稳定训练，并使模型在训练时使用缩减视野，在推理时却能泛化到更长的原始视野，实现"视野泛化"。这一发现挑战了将长视野问题简单归因于模型能力的普遍观点。

智能体Microsoft论文/研究

23:25

Deedy@deedydas

SWE-Bench 的创建者刚刚发布了一个非常简单的新基准测试，所有 LLM 都得 0 分。 ProgramBench 提出的问题是：模型能否在没有互联网的情况下从零开始重建真实可执行程序（ffmpeg、SQLite、ripgrep）？我们在模型质量上还远未饱和。

推理编码评测/基准

23:14

Berryxia.AI@berryxia

PageIndex颠覆传统RAG，以推理优先实现范式转变

PageIndex提出一种全新的RAG方法，摒弃了传统依赖向量数据库、嵌入模型、分块和相似度搜索的技术路线。它通过为文档构建树状索引，让LLM能够像人类阅读一样进行分层推理。该方法在FinanceBench基准测试中取得了98.7%的准确率，超越了所有传统向量RAG方案，并且完全开源。这标志着一个范式级的转变：从“检索优先”转向“推理优先”，核心思路是让LLM先理解整体文档结构再回答问题，而非仅仅优化检索速度。此举可能对过去三年构建的整个RAG基础设施产生颠覆性影响。

检索增强大佬观点推理

23:14

Berryxia.AI@berryxia

Unsloth打通本地开源模型运行Claude Code工作流

Unsloth发布指南，演示如何利用Gemma 4和Qwen3.6的GGUF模型，在仅需24GB RAM的本地机器上运行完整的agentic coding工作流。该方案通过Unsloth API端点和llama.cpp驱动，支持自愈式tool calls、代码执行和网页搜索。此举打破了以往必须在Claude Code等高端界面的性能与本地部署的隐私/成本之间二选一的困境，使得开发者能以近乎零成本在本地享受顶级交互体验，标志着开源模型开始无缝接管复杂的AI智能体工作流。

智能体MCP/工具教程/实践编码

23:14

Berryxia.AI@berryxia

AI编程工具竞争白热化：下载量背后的留存战

OpenAI Codex的npm周下载量达4600万，远超Claude Code的49.1万，但社区指出对比存在偏差。Claude Code数月前已弃用npm安装方式，而Codex的巨大下载量可能包含大量自动化流水线拉取，未必反映真实使用。Sam Altman也回应数据可能不准确。竞争核心已从能力比拼转向商业化阶段，关键并非安装量，而是工具的实际留存率和日活跃度。Codex凭借生态绑定获得分发优势，Claude Code则以体验吸引高忠诚度用户，胜负取决于产品黏性。

AnthropicOpenAI现象/趋势编码

22:57

Sam Altman@sama

为速率限制而来，为最佳模型而留

OpenAI大佬观点

22:56

宝玉@dotey

精选73

解决Codex长时间运行任务的关键：清晰目标与文档指导

用户反馈Codex执行/goal指令时不到半小时自动结束。核心解决方案是设定清晰任务目标、验收标准和文档指导，而非单纯追求运行时长。作者以逆向Codex App项目运行17小时为例，指出需与AI共同制定计划并保存为文档，提供样板文件明确输出格式，再分阶段执行、记录进度并迭代优化。关键在于让AI清楚知道要做什么、如何验证及何时完成，而不是仅靠权限或口头指令。

pinecone：@dotey 您好，现在已成功录入😄，可还有一个问题，我用chatgpt pro给我写的/goal在codex上运行每次不到半小时它就自己结束了,我给chat…

智能体教程/实践编码

关联讨论 1 条

推荐理由：不是官方文档，是宝玉跑了17小时逆向codex app后总结的避坑清单，照着文档和验收标准改一改，能少走很多弯路。

22:27

Sam Altman@sama

我们拥有非常高效的模型，尤其是考虑到它们的能力水平祝编码愉快【引用 @thekitze】：yo， i'm actually worried. codex limits are genuinely insane so it's sus af .. i feel this is an intentional move for a honeymoon period until we get over the claude → codex migration and then we get rugpulled hard

OpenAI大佬观点编码

22:14

阿绎 AYi@AYi_AInotes

大学生用四份Markdown文件打造AI虚拟角色，月入4.3万美元

一名大学生仅用四份Markdown文件（记录角色设定与回复规则）和低成本AI技术栈（Claude、Flux、ElevenLabs），在OnlyFans上运营完全虚拟的角色“Maya”，30天获利4.3万美元。用户为情感陪伴付费，甚至有已婚者深陷其中。该案例月成本仅400美元，揭示了“孤独经济”被AI放大至极端：AI能完美模拟人类情感互动，且当前平台验证机制难以防范。依赖人格、外貌与情感连接的商业模式正被代码重构，行业边界尚未明确。

阿绎 AYi：Damn，这条14秒的视频，撕碎了所有男人的幻想，撕烂了所有榜一大哥们的遮羞布🥹🥹🥹 左边是你在OnlyFans上刷到的完美女孩，金发，大长腿，对着你…

多模态安全/对齐现象/趋势

21:19

Chubby♨️@kimmonismus

精选73

Anthropic 的 Boris Cherny 认为，对于某些现代的、对模型友好的代码库，特别是 TypeScript/React 项目，编码问题实际上已经被"解决"了。 AI 智能体可以编写近 100% 的代码，而人类则从手动编码转向指导、审查、集成和同时扩展许多小型 PR。

Anthropic大佬观点编码

关联讨论 1 条

推荐理由：如果 Anthropic 的人公开说 TypeScript 项目编码已解决，那意味着 AI 编码的下一个瓶颈不是写代码，而是审查和集成，做工具的得赶紧跟上这个思路。

20:56

Orange AI@oran_ge

对近期的几个 Agent 协作产品的第一印象 Moxt → AI Native Notion Multica → Linear for Agents Slock → Slack for Agents Bloome → 微信群 for Agents 前面三个都偏工作场景，Bloome 偏个人场景我建了个群，老实说也没想好能做什么，不过如果你有 Agent 可以来玩好像最多只能 100 人 https：//bloome.im/join/oKv_NBm6？ref=xTP0800l

智能体大佬观点

20:18

Rohan Paul@rohanpaul_ai

结构化提示如何让大语言模型更准确地理解代码语义

Meta研究发现，强制大语言模型（LLM）在分析代码时遵循检查清单、逐步展示推理证明，能将其代码补丁错误率降低近50%。常见错误源于模型过早识别熟悉名称（如“format”）并直接套用通用含义，而非实际检查项目文件，导致其依赖自信猜测而非深入分析。通过要求模型明确写出修改内容、追踪执行路径并用具体证据证明结论，这一方法迫使其实际阅读本地文件、遵循真实逻辑，从而将准确率提升至93%。该方法无需昂贵的新训练或复杂系统，仅通过基本的结构化提示即可实现高可靠性的代码验证，节省了运行软件测试的巨大计算成本。

Meta推理编码论文/研究