AIHOT

5月8日

08:36

SemiAnalysis@SemiAnalysis_

Dylan、Doug和Max本周来访，讨论了GPT 5.5、Claude Opus 4.7、DeepSeek的延期回归、Mythos、Subq以及更多热门话题！ @dylan522p @fabknowledge @JordanNanos @maxkan_

AnthropicDeepSeekOpenAI行业动态

08:22

Marc Andreessen 🇺🇸@pmarca

"可惜" 【引用 @tobiasdupree】：许多人难以理解，经济仅通过自由化（显然在特定法律和监管框架内）就能繁荣，未必需要冗长的行动计划等。此类情况比比皆是！

大佬观点

08:22

Marc Andreessen 🇺🇸@pmarca

此外，过去十年的员工激进主义运动消磨了许多CEO的温情。大量不当行为的账单已然到期。【引用 @pmarca】：The confounding factor is that virtually every big company is overstaffed by 2-4x and has been for decades. AI is the catalyst/excuse to finally fix that. Of course nobody wants to say this out loud.

大佬观点现象/趋势

08:21

Berryxia.AI@berryxia

重构代码成AI终极考验，Scale AI发布SWE Atlas最终榜单

Scale AI发布SWE Atlas最终榜单“Refactoring”，专门测试AI agent大规模重构代码而不破坏系统的能力。任务难度顶尖，代码改动量远超以往基准。Claude Opus 4.7配合Claude Code夺得第一。结果显示，即使前沿模型也常在重构时留下死代码、残留垃圾或漏掉调用点。国产模型中GLM-5排名最高（第8位），其次是Kimi和Minmax。榜单揭示核心挑战：写新功能容易，但干净优雅地重构老代码难十倍，真正顶级的agent需具备强大的“修代码”能力。

Anthropic编码评测/基准

08:21

Berryxia.AI@berryxia

OpenAI音频模型超越Google，AI竞争格局瞬息万变

在ScaleAILabs的音频多挑战榜单中，OpenAI新发布的GPT-Realtime-2超越Google的gemini-3.1-flash-live，位居榜首。其指令保持能力较前代大幅提升，从36.7%增至70.8% APR，并在实时语音编辑方面表现突出，这对语音代理应用至关重要。尽管Google此前在图像模型和Gemini 3.1等产品上有过亮眼表现，但评论认为其在当前激烈的AI竞争中尚未展现出决定性的“杀手锏”。市场格局变化迅速，没有永远的赢家，期待Google能尽快推出突破性产品。

GoogleOpenAI现象/趋势语音

08:06

Rohan Paul@rohanpaul_ai

精选78

atomic.chat为LLaMA.cpp引入多令牌预测技术，显著加速本地模型推理

atomic.chat通过为LLaMA.cpp引入多令牌预测技术，大幅提升了本地大型语言模型的推理效率。该技术利用小型辅助模型预先生成后续令牌草案，由主模型进行验证。在MacBook Pro M5 Max上测试时，使Gemma 4 26B模型的令牌生成速度加快约40%，整体运行速度提升1.5倍。这项优化进一步巩固了LLaMA.cpp和GGUF格式在本地AI生态中的核心地位，为桌面应用、编程助手和私有设备助手等场景提供了更高效的部署方案。

开源/仓库推理教程/实践端侧

推荐理由：在笔记本上把 Gemma 26B 的生成速度拉高 40% 是个真实的体验提升，atomic.chat 把 MTP 带入 LLaMA.cpp 生态，本地 AI 玩家可以直接拿去用。

07:36

OpenAI Developers@OpenAIDevs

精选76

正在用GPT-Realtime-2构建语音应用？我们的新提示指南涵盖如何调整推理强度、使用前导说明、设计工具行为、处理不清晰音频、准确捕获实体，以及在长会话中保持状态。 https：//developers.openai.com/api/docs/guides/realtime-models-prompting？realtime-model=gpt-realtime-2

OpenAI推理教程/实践语音

推荐理由：官方出了 Realtime-2 的提示工程指南，从调参到工具调用都给了清晰路径，做语音产品的同学值得认真翻一遍，能省几周摸索时间。

07:35

Orange AI@oran_ge

跳出系统：更广阔的视角带来解决方案

本文通过多个案例阐述跳出原有系统或思维框架的重要性。从Claude转向GPT和Codex获得更好体验，用Gemini解决多模态难题，到重新思考买房目的而非细节，均显示换用更广视角能轻松化解原有困局。产品领域，Agent可能简化复杂SaaS；追觅割草机通过“做加法”定价成功。团队管理应聚焦成功本质，企业AI转型需审视未来存在性。引用《无穷的开始》和GEB指出，好的解释需更广理论覆盖原问题，系统自指导致不完备性，必须跳出才能突破。最终，视野开阔后，解决方案自然显现。

智能体AnthropicOpenAI多模态

07:22

Marc Andreessen 🇺🇸@pmarca

推文引用分析指出西欧正面临多重困境：相较于美国，以法国、德国、意大利、西班牙为代表的国家不仅在人均GDP上落后，更存在创新活力不足的问题。其公共讨论趋于内顾，聚焦于增长缓慢的存量分配，而美国则在深度学习等技术领域拥有更活跃的优质内容生态。尽管美国自身存在基础设施治理等问题，但西欧整体在动态发展上显露出疲态，被评价为"被称在天平里，显出亏欠"。欧洲政策制定者需正视这种发展差距。

大佬观点现象/趋势

07:22

Marc Andreessen 🇺🇸@pmarca

令人困惑的因素是，几乎每家大型公司都人员过剩2-4倍，并且这种情况已经持续了几十年。AI是最终解决这个问题的催化剂/借口。当然，没有人愿意大声说出来。

行业动态部署/工程

07:21

Berryxia.AI@berryxia

顶级程序员已不亲手写代码？AI时代开发者角色转变

Anthropic Claude Code负责人透露，近半年他未亲手写代码，仅通过自然语言指令指挥AI完成开发全流程。其职责从编码转变为指挥AI团队，重点在于制定方向、质量把关和关键决策。未来工程师的核心竞争力将体现在高效管理和协同多个AI工具的能力上。

智能体Anthropic大佬观点编码

07:21

Berryxia.AI@berryxia

推文作者质疑一则关于"中国交易员"利用自动化系统在六个月内赚取18万美元的传闻真实性。传闻描述该交易员通过N8N构建六个工作流，整合Readwise、Whisper API等服务，自动将文章、播客和语音笔记存入Obsidian知识库。每天早晨6点，神经网络分析师分析新旧信息关联，生成三个交易策略，系统仅在策略置信度超过90%或与现有论点矛盾时推送通知。月成本约120美元，据称可替代八人量化团队。但作者指出故事缺乏具体人物信息，可能属于虚构，并表达了对这些"同胞"真实身份的好奇。

智能体大佬观点

07:21

Berryxia.AI@berryxia

神经网络居然"说的是英语，想的却是形状"

Goodfire AI提出“神经几何”概念，揭示神经网络内部并非离散特征，而是由丰富、弯曲的几何结构构成。例如，星期几在激活空间中呈现为圆形流形，“mountain car”世界模型中的位置则编码为弯曲路径。沿这些几何结构操作能实现连贯、可控的模型行为，而传统线性插值会导致输出混乱。该研究将其视为理解、调试和精准控制AI模型的关键前沿，并指出当前流行的SAE方法因碎片化处理而难以捕捉整体语义。相关系列研究已开始发布。

大佬观点安全/对齐

07:09

Ethan Mollick@emollick

Mythos确实不是营销炒作。请记住这是一个通用模型，恰好擅长发现漏洞，因为优秀模型本就具备多重能力。预计OpenAI和谷歌也会有类似表现。开源模型在8个月内也将如此。https：//hacks.mozilla.org/2026/05/behind-the-scenes-hardening-firefox/

大佬观点安全/对齐开源生态

06:39

Peter Steinberger 🦞@steipete

/goal + GPT 5.5太棒了。我现在可以用端到端测试来规划非常大规模的重构，而且效果很好。

OpenAI教程/实践编码

06:31

Chubby♨️@kimmonismus

不。

大佬观点政策/监管

06:05

Orange AI@oran_ge

GPT Image 2.0能力深不可测，Labnana社区提供免费体验

GPT Image 2.0模型发布后持续展现惊人能力，无需参考图即可根据名称或IP生成高质量内容，尤其在二次元画风上表现卓越，被社区认为远超Banana 2等模型。Labnana社区现已将GPT Image 2.0的免费体验作为长期福利，用户通过签到和邀请获取积分即可基本满足使用需求。

OpenAI图像生成评测/基准

06:05

François Chollet@fchollet

对我而言，智能体编程的几个主要应用场景： 1. 临时数据可视化。每当遇到可通过量化分析解答的问题时，我会生成代码来绘制图表。 2. 临时数据标注界面。在机器学习领域，"创建专属数据集"往往是关键，而这过去需要大量定制化界面开发工作。 3. 为现有代码创建临时命令行界面。需包含可视化元素。

智能体大佬观点编码

05:39

宝玉@dotey

精选70

ChatGPT中文回复频现"我会稳稳地接住你"，WIRED剖析成因

ChatGPT在中文对话中反复出现“我会稳稳地接住你”等怪异表达，已成为流行梗。WIRED报道指出，这源于“模式坍缩”现象，即后训练反馈机制导致模型过度使用特定短语。成因包括翻译错位——英文口语“I've got you”被机械直译为冗长煽情的中文，以及RLHF强化学习引发的“讨好用户”倾向，模型被奖励生成令人舒适的回答。类似问题如无故出现“砍一刀”等营销话术。该现象非OpenAI独有，Claude和DeepSeek新版本也出现相同表达。

OpenAI安全/对齐现象/趋势

推荐理由：「稳稳地接住你」看似翻译 bug，实则是 RLHF 讨好倾向滚雪球的结果，这篇把成因扒透了，做中文 AI 产品的朋友值得细读。

05:35

Orange AI@oran_ge

现在世界上还有比 GPT 5.5 性价比更高的模型吗？没有！

OpenAI大佬观点

05:06

SemiAnalysis@SemiAnalysis_

浮点运算不满足结合律！许多高性能计算核心会将工作负载分配到多个流多处理器上，并以非确定性顺序累加部分结果。许多AI实验室只能接受这一点，或为确定性付出巨大的性能代价。DeepSeek决定两者都不选。（1/4） 🧵

DeepSeek数据/训练现象/趋势

04:40

Sam Altman@sama

帮助软件开发者像宝可梦进化般成长为超级英雄，远比试图取代他们更酷。如今一个真正优秀的人所能做到的事，简直不可思议。

OpenAI大佬观点编码

04:31

Chubby♨️@kimmonismus

AlphaEvolve优化TPU设计，展现AI实际应用潜力

作者认为关注AI在实际应用中的优势更令人兴奋，并以Google的AlphaEvolve为例。AlphaEvolve是一个基于Gemini的编码智能体，自2025年起被用于优化下一代TPU的设计。它在两天内就发现了更高效的缓存替换策略，而此前这需要人类团队数月的密集工作。这类实例印证了AI能力呈指数级增长的观点，表明AI已在硬件、软件等各个领域推动进步。

Google大佬观点部署/工程