AIHOT

4月28日

08:00

Tomer Tunguz 博客（VC 分析）

精选63

AI销售策略正从询问软件预算转向三个核心问题：软件总预算、劳动力总预算，以及客户期望三年后两者的比例。这一转变将销售对话提升至战略层面。当前数据显示，销售、支持和工程部门的人力与软件成本比分别为10:1、4:1和最高25:1，高比率意味着巨大的AI替代潜力。新的销售流程分为两步：先切入现有软件预算，再拓展至AI所释放的劳动力预算，最终目标是重新定义企业对成本结构的认知。

智能体大佬观点现象/趋势

推荐理由：Tunguz 用一张劳动力/软件支出比率表把 AI 销售的底层逻辑讲透了，做 ToB SaaS 或 Agent 产品的人看完会重新想自己的定价天花板在哪。

08:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

Our commitment to community safety

OpenAI 通过多层防护机制保障 ChatGPT 的社区安全。具体措施包括内置模型安全护栏、实时监测滥用行为、严格执行使用政策，并与外部安全专家深度合作。这些系统性防护旨在主动识别并拦截有害内容生成，同时持续优化安全策略以应对新型风险。平台强调技术防护与人工审核相结合，致力于在保持 AI 对话能力的同时维护用户安全。

OpenAI安全/对齐

08:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选71

OpenAI模型、Codex与托管智能体登陆AWS平台

OpenAI的GPT系列模型、代码生成模型Codex以及托管智能体现已正式上线亚马逊云科技。企业用户可直接在AWS环境中集成并调用这些AI服务，基于自身云基础设施构建安全、可控的定制化人工智能应用。此次合作将OpenAI的前沿模型能力与企业级云环境的安全性和可扩展性相结合，为企业部署生成式AI与自动化智能体提供了新的平台选择。

OpenAI行业动态部署/工程

关联讨论 6 条

推荐理由：OpenAI 终于上了 AWS，这意味着大量被云锁定的企业不用再绕道 API，直接在自家环境里跑 GPT 和 Codex，对做企业级 AI 产品的人来说是个真信号。

03:02

Midjourney：Updates（RSS）

High-res rating

Midjourney团队正为v8.1/8.2版本筹备重大美学更新，并公开征集用户协助进行图像排序以改进模型。此次工作的核心在于，团队将首次在完整的2K分辨率下进行图像排序活动，旨在为模型获取最优的高清像素数据，以提升图像生成质量。

产品更新图像生成

00:46

CMU：Machine Learning Blog

精选60

介绍ARFBench：基于真实事件的时间序列问答基准

每年系统故障导致损失超万亿美元，工程师需通过分析时间序列数据快速定位问题。时间序列问答（TSQA）是关键运维任务，对AI模型构成挑战。为此，研究团队推出ARFBench基准，基于Datadog真实内部事件及遥测数据构建。测试显示，当前领先的大型语言模型、视觉语言模型和时间序列基础模型在ARFBench上表现均有较大改进空间。团队提出混合TSFM-VLM模型，其整体性能接近前沿水平，为TSQA任务提供了新评估框架和改进方向。

论文/研究评测/基准部署/工程

推荐理由：CMU 和 Datadog 联手搞了个基于真实事故的时序问答基准，结论很诚实，现有模型全拉胯。做 SRE Agent 的团队该看看，这比合成数据的 benchmark 有说服力得多。

00:16

Gary Marcus：The Road to AI We Can Trust（RSS）

达里奥·阿莫代伊、炒作、AI安全与氛围编码AI灾难的爆发

AI领域的鼓吹者往往回避讨论关键风险。随着GPT、Claude、LLaMA等大型语言模型的快速迭代，行业在竞相追求参数规模与商业落地的同时，AI安全问题正以“氛围编码”的形式被系统性低估——即通过模糊的修辞淡化潜在危害。 Anthropic联合创始人达里奥·阿莫代伊等研究者多次警示，缺乏严格安全框架的AI发展可能引发连锁性灾难，包括恶意使用、社会分化与失控性风险。当前行业亟需将安全指标从抽象讨论转化为可量化的技术约束。

大佬观点安全/对齐现象/趋势

00:00

Claude：Blog（网页）

精选72

像培训新开发者一样引导Claude Code：来自17年开发的经验教训

华盛顿大学MacCoss实验室的Brendan MacLean将培训新开发者的方法论应用于Claude Code，以管理拥有70万行C#代码、持续开发17年的开源蛋白质分析软件Skyline。他通过创建独立的AI上下文仓库、编写CLAUDE.md引导文件以及设计“技能”模块（如调试技能），为Claude Code建立项目认知。该方法显著提升了开发效率：搁置一年的文件视图面板功能在两周内完成；CSS布局更新从依赖设计师变为不到一天实现。此外，Claude Code还自动化了2000多张教程图片的截图比对和每日测试报告生成，团队现在主要依靠它生成代码和脚本。

AnthropicMCP/工具教程/实践编码

推荐理由：这不是又一篇 Claude Code 安利文，而是一个维护了 17 年 70 万行 C# 代码库的人，把带新人的方法论原封不动搬给了 AI，结果真管用。做 legacy 项目的人应该认真看他的 context 管理和 skill 库设计。

4月27日

23:58

GitHub Blog

精选79

GitHub Copilot 将转向基于使用量的计费模式

自6月1日起，GitHub Copilot 的使用将开始消耗 GitHub AI Credits，计费模式正式从固定订阅制转变为基于实际使用量的计费。这一变化意味着用户的费用将与 AI 助手的具体调用量直接挂钩，而非统一的月费或年费。

编码行业动态部署/工程

关联讨论 3 条

推荐理由：GitHub Copilot 从订阅制转向按量计费，这是 AI 编程工具定价范式的标志性拐点，所有重度用户和竞品都得重新算账。

22:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

OpenAI获得FedRAMP Moderate授权

OpenAI的ChatGPT Enterprise与API已获得FedRAMP Moderate安全授权，允许美国联邦机构在符合数据安全与隐私合规要求的前提下，安全采用其人工智能服务。

OpenAI政策/监管行业动态

21:51

Dwarkesh Patel：Podcast & Blog（RSS）

周末随想--更多开放性问题、智能与权力、科学验证难题、达尔文主义的并行发现

作者围绕多个开放性问题展开探讨，包括人工智能领域中智能与权力的本质区别及其对社会结构的潜在影响。科学验证机制面临的可靠性危机被提及，尤其是在复杂系统研究中。同时，文章指出达尔文进化论的核心概念曾出现多地域独立发现的现象，这引发了对知识创造与传播模式的思考。这些议题共同指向技术发展背后更深层的认知与伦理挑战。

大佬观点现象/趋势

21:00

Google Blog：AI（RSS）

加入 Google 与 Kaggle 的全新 AI Agents Vibe Coding 课程

Google 与 Kaggle 再度推出为期 5 天的 AI Agents 强化课程，现已开放注册。该课程旨在教授开发者如何构建和部署 AI 智能体，内容涵盖从基础概念到实际应用。课程形式为短期集中学习，参与者将通过 Kaggle 平台进行实践。

智能体Google教程/实践

15:00

Google DeepMind：Blog（RSS）

精选56

宣布我们与大韩民国的合作伙伴关系

Google DeepMind 与韩国政府建立合作伙伴关系，旨在利用前沿AI模型加速科学突破。此次合作将聚焦于将如Gemini、Claude、GPT-4等大型语言模型以及AlphaFold等科学AI工具，应用于关键研究领域，特别是生物技术和材料科学。目标是提升韩国的AI研发能力，计划在未来五年内培养超过1000名AI专家，并支持10个以上由AI驱动的大型科研项目。

DeepMindGoogle行业动态

推荐理由：韩国政府和 DeepMind 的合作意向，信号意义大于实质内容，目前没有具体项目披露，做 AI 地缘分析的可以留意，其他人可以先跳过。

14:37

DeepSeek：GitHub 新仓库

精选56

deepseek-ai/awesome-deepseek-agent

该项目是一个精选指南列表，旨在帮助用户将 DeepSeek 模型集成到多种流行的 AI 智能体和代码助手工具中。目前覆盖了 Claude Code、GitHub Copilot、OpenCode、Hermes 等十余种工具，每份指南都详细说明了从安装、配置到首次运行的具体步骤，让用户能在几分钟内于自己喜爱的工具中启用 DeepSeek-V4-Pro 或 DeepSeek-V4-Flash 模型。列表内容将持续更新，并鼓励社区通过提交 Issue 或 Pull Request 来贡献新工具的集成指南。

智能体DeepSeek产品更新开源/仓库

推荐理由：DeepSeek 官方出了一份 Agent 工具集成指南合集，覆盖 Claude Code、Copilot 等十几款工具，想把 DeepSeek-V4 接进现有工作流的人可以省掉大量踩坑时间，但内容本身是配置教程而非新能力。

14:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选81

Microsoft 与 OpenAI 合作进入新阶段

OpenAI 与 Microsoft 宣布修订合作协议，旨在简化合作结构并明确长期合作框架。新协议将为持续的大规模人工智能创新提供支持，标志着双方战略伙伴关系进入更清晰、更稳定的新阶段。此次调整侧重于强化合作效率与长期目标的一致性，共同推进 AI 技术的前沿发展。

MicrosoftOpenAI行业动态

关联讨论 8 条

推荐理由：OpenAI 和微软重新谈定了合作框架，这事牵动的不只是两家公司，Azure 上跑 OpenAI API 的每一个产品都在这个棋盘上。不过目前公告措辞极模糊，具体条款还得等后续披露。

08:00

OpenRouter：Announcements（RSS）

精选57

Opus 4.7新分词器对成本的实际影响

Anthropic在Claude Opus 4.7版本中更新了分词器。通过对比4.6到4.7版本的实际使用数据，分析发现这一技术调整改变了文本转换为令牌的方式，直接影响API计价。相同的文本输入可能产生不同数量的令牌，从而导致用户的实际使用成本发生可量化的变化。这一调整虽不改变模型能力，但关乎运营开销，是开发者和企业用户需评估的关键因素。

Anthropic评测/基准部署/工程

推荐理由：Opus 4.7 换了 tokenizer，大多数人只知道模型变强了，不知道计费逻辑也变了。OpenRouter 用真实流量数据算了一笔账，做成本预算的产品人值得扫一眼。

08:00

Tomer Tunguz 博客（VC 分析）

精选64

GPU现货价格六周内暴涨114%

根据Ornn Compute Price Index数据，NVIDIA B200 GPU的现货租赁价格在六周内飙升114%，从三月初的2.31美元涨至本周的4.95美元/小时。此次价格暴涨与GPT-5.5等前沿模型发布带来的需求冲击紧密相关，这些模型需要Blackwell架构提供的内存支持。与此同时，B200与上一代H200的价差从0.28美元大幅扩大至1.80美元，不同云服务商之间的报价差距也扩大了一倍以上，反映出市场供应紧张。预计夏季B200价格将维持在5美元以上，云端推理成本持续上升。

现象/趋势行业动态部署/工程

推荐理由：Tomer Tunguz 用 Ornn 真实价格指数拆出 B200 六周涨 114% 的供需逻辑，做 AI infra 选型或算力采购的人该把这张图存下来，夏天 B200 破 5 刀基本板上钉钉。

08:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

Choco 利用 AI 智能体实现食品分销自动化

Choco 通过集成 OpenAI API 构建了 AI 智能体系统，以自动化餐饮行业的食品采购与分销流程。该系统能自动处理订单、协调物流并优化库存，将人工操作时间减少了 70%，订单处理效率提升 50%。这一变革显著降低了供应链中的食物浪费，并帮助公司实现了业务规模化增长，展示了 AI 在传统产业中的实际应用价值。

智能体行业动态

08:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选70

一个用于编排的开源规范：Symphony

Symphony 是一个用于 Codex 编排的开源规范，能够将问题跟踪器转化为持续运行的智能体系统。该系统通过自动化任务协调与执行，显著提升工程团队的产出效率，同时减少开发者在不同任务间频繁切换带来的认知负担。其核心在于以标准化、可扩展的方式，将日常开发流程转化为由智能体持续驱动的工作流。

智能体OpenAI产品更新开源/仓库

关联讨论 3 条

推荐理由：OpenAI 把 Codex 的编排层抽成开源规范，等于告诉所有做 coding agent 的团队，底层调度逻辑不用自己造轮子了。做 AI 编程工具的值得花半小时看架构思路。

08:00

Hugging Face：Blog（RSS）

如何利用OpenAI的Privacy Filter构建可扩展的Web应用

OpenAI正致力于通过开源与开放科学推动人工智能的进步与民主化。这一举措旨在降低AI技术的使用门槛，促进更广泛的创新与合作。其Privacy Filter工具为开发者提供了构建可扩展Web应用的关键支持，帮助在保障用户数据隐私的同时，高效集成AI能力。这一方向强调了技术开放性与负责任开发并重的理念。

OpenAI教程/实践部署/工程

02:39

腾讯混元：Research（API）

Real life is where context gets hard

00:00

Mistral AI：News（网页）

精选68

Mistral AI 发布 Workflows 公开预览版，为企业AI工作流提供编排支持

Mistral AI 正式推出 Workflows 公开预览版，该产品定位为企业AI的编排层，旨在通过提供持久性、可观察性和容错性，帮助AI驱动的工作流从概念验证可靠过渡到生产环境。它集成于Studio平台，允许开发者用Python编写工作流，并可发布至Le Chat供组织成员触发。其核心功能包括持久化执行（支持从断点恢复）、完整的步骤跟踪与审计，以及通过 wait_for_input() 等方法实现人工介入审批。目前已有ASML、ABANCA等企业客户使用其自动化货物放行、文档合规检查等关键业务流程，将原本耗时数小时的人工操作缩短至几分钟。

智能体产品更新部署/工程

推荐理由：Mistral 把 Temporal 的持久执行引擎包装成企业 AI 编排层，解决的是「demo 能跑、上线就挂」这个最痛的落地问题。做企业级 Agent 的团队值得认真看看，尤其是 human-in-the-loop 那个 wait_for_input 一行代码的设计。

00:00

Anthropic：Newsroom（网页）

Anthropic 任命澳新总经理并正式开设悉尼办公室

Anthropic 正式任命 Theo Hourmouzis 为澳大利亚和新西兰总经理，并同步开设悉尼办公室。Hourmouzis 拥有超过20年的亚太科技行业领导经验，将负责制定本地战略，推动 Claude 人工智能进入客户核心业务。公司正深化与联邦银行等企业的合作，并与澳大利亚国立大学等研究机构推进 AI for Science 项目。同时，Anthropic 近期与 Canva、Xero 建立了深度平台合作。悉尼办公室是其在亚太地区的最新布局，旨在贴近当地客户与市场。

Anthropic行业动态

00:00

Runway：News（网页）

精选58

无闲置GPU：Runway的研究计算管理

Runway通过采用Kueue作为Kubernetes准入控制器，将GPU利用率提升超过20%，同时保障团队容量。其核心机制是为关键工作预留配额，并设立共享队列借用闲置容量，当配额所有者需要时通过抢占回收资源。该系统运行于昂贵的多租户GPU集群，支持多节点训练的拓扑感知调度和弹性工作负载。具体实现中，团队拥有专用预留队列，而默认队列作为共享机会池，可借用闲置配额运行可中断工作负载。当预留队列需资源时，Kueue基于优先级和运行时间抢占默认队列中的任务，实现资源高效管理。

教程/实践部署/工程

推荐理由：Runway 把 Kueue + Kubernetes 的 GPU 调度实战写成了保姆级工程笔记，利用率翻倍的方案和踩坑细节都有，做大规模训练集群调度的团队可以直接抄作业。

00:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

Our Principles

OpenAI 联合创始人 Sam Altman 阐述了指导公司工作的五项核心原则。这些原则围绕确保 AGI（通用人工智能）惠及全人类的使命展开，具体包括：致力于开发安全有益的 AGI；持续推动前沿技术研究；广泛共享研究成果与收益；积极与全球政策制定者合作应对风险；以及确保 AGI 的发展不被过度商业化垄断，最终服务于人类的整体福祉。

OpenAI大佬观点

4月24日

22:17

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/DR-Venus-4B-SFT-GGUF

该项目致力于通过开源与开放科学推动人工智能的发展与普及。团队正持续推进技术民主化进程，旨在让更广泛的群体能够接触并利用先进AI工具。其核心路径是依托开放协作模式，降低技术门槛，促进创新生态的构建。

开源/仓库模型发布端侧

20:00

OpenRouter：Announcements（RSS）

精选55

Agent SDK：在 OpenRouter 上构建多轮智能体工作流

OpenRouter 发布 Agent SDK，其核心是 callModel 函数。该函数可将一次聊天完成转化为具备工具调用、停止条件与成本追踪功能的多步骤智能体工作流。这一工具兼容平台上的 300 多个模型，使开发者能够便捷地构建复杂的多轮交互智能体应用。

智能体MCP/工具产品更新

推荐理由：OpenRouter 把多轮 agent 编排封装成一个 callModel 函数，300+ 模型统一调用，做 agent 产品的人可以少写不少胶水代码，但本质上是工程封装而非技术突破。

20:00

OpenRouter：Announcements（RSS）

使用 Agent SDK 构建你自己的 Harness

Anthropic 发布了 Agent SDK，开发者可利用 `create-agent-tui` 和 `create-headless-agent` 技能，在几分钟内搭建个性化的编码智能体。该 SDK 支持两种模式：一是提供终端用户界面的交互式代理，二是无界面的“headless”代理，便于集成到自动化脚本和流水线中。这显著降低了为特定编码任务定制 AI 助手的门槛。

智能体产品更新编码

12:19

Anthropic：Newsroom（网页）

精选59

Anthropic与NEC合作，共建日本最大AI工程团队

Anthropic与NEC达成战略合作，旨在打造日本规模最大的AI原生工程团队。NEC将成为Anthropic在日本的首个全球合作伙伴，为集团全球约3万名员工部署Claude AI工具。双方将针对金融、制造和地方政府等领域，联合开发安全的行业专用AI解决方案，并将Claude集成到NEC的安全运营中心及下一代网络安全服务中。NEC内部将设立卓越中心，通过技术培训构建AI工程团队，并广泛应用Claude Code等工具。目前，全球员工的工具部署与行业解决方案的联合开发已同步启动。

智能体Anthropic行业动态

推荐理由：NEC 三万人上 Claude，是 Anthropic 在日本市场拿下的最大企业单子，信号意义大于产品本身。做 To B 的可以观察日本企业 AI 采购节奏，但对普通开发者没什么可抄的。

08:00

Apple Machine Learning Research（RSS）

精选57

Learning Long-Term Motion Embeddings for Efficient Kinematics Generation

研究提出了一种通过长时运动嵌入来高效生成运动学的方法，直接对从追踪器模型获取的大规模轨迹中学习到的嵌入进行操作，将场景动态建模效率提升了数个数量级。该方法能够根据文本提示或空间戳指定的目标，高效生成长而真实的运动序列，避免了传统全视频合成在探索多种可能未来时效率低下的问题。

具身智能多模态论文/研究

推荐理由：Apple 把运动预测从逐帧生成拉到嵌入空间操作，效率提升几个数量级，做机器人或虚拟角色动画的团队值得留意这个思路，但离产品落地还有距离。

08:00

Hugging Face：Blog（RSS）

精选78

DeepSeek-V4：智能体可实际使用的百万token上下文

DeepSeek发布新一代模型DeepSeek-V4，其核心突破在于实现了长达百万token的上下文窗口，并确保智能体能够有效利用这一扩展的上下文能力。该模型延续了通过开源与开放科学推动人工智能发展与普及的使命，标志着大模型在长上下文理解和实际应用方面迈出重要一步。

智能体DeepSeek开源生态模型发布

关联讨论 5 条

推荐理由：DeepSeek 把上下文窗口推到百万 token 不稀奇，关键是「agent 能实际用」这六个字。如果实测成立，RAG 的很多工程妥协可以扔掉了，做长文档和复杂 agent 的人该第一时间跑一遍。

07:24

Claude Code：GitHub Releases（RSS）

精选56

Claude 代码工具 v2.1.119 版本更新

Claude 代码工具发布 v2.1.119 版本，带来多项功能优化与问题修复。主要更新包括：用户配置现持久化至本地文件；新增 `prUrlTemplate` 设置以自定义 PR 徽章链接；`--from-pr` 命令扩展支持 GitLab、Bitbucket 等多个平台。工具权限与交互行为在多处实现统一，例如 `--print` 模式现在遵从代理的前置元数据定义。界面体验获得改进，如斜杠命令建议会高亮匹配字符，长描述自动换行。此外，本次更新修复了大量已知问题，涉及粘贴格式错乱、工具意外隐藏、MCP 服务器连接失败、权限模式行为异常及界面显示错误等。

Anthropic产品更新编码

推荐理由：Claude Code 这次更新全是打磨细节，没有大功能但修了一堆让人骂娘的 bug，重度用户值得升级，其他人等下一个大版本也行。

06:15

OpenAI：Alignment 研究博客（RSS）

精选58

开源可监控性评估

研究团队开源了论文《Monitoring Monitorability》中的数据集与代码，并分享了一种针对噪声主导干预评估实例的新过滤策略。这一举措旨在提升AI系统监控能力的评估透明度与可复现性，为社区提供了可直接使用的工具和方法。新提出的过滤策略能有效识别并处理评估过程中噪声干扰严重的实例，有望提高评估结果的准确性与可靠性。

OpenAI安全/对齐论文/研究

推荐理由：OpenAI 把自家对齐监控的评测数据集和代码全开源了，做 AI 安全评估的团队可以直接拿来用，但对普通开发者来说门槛还是偏高。

4月23日

08:00

Google Developers Blog（RSS）

精选59

使用 LiteRT 与 NPU 构建现实世界中的设备端人工智能

LiteRT 是一个生产就绪的框架，旨在帮助移动开发者充分发挥神经处理单元（NPU）的效能，以突破传统 CPU 或 GPU 在性能与电池续航上的瓶颈。该框架通过提供统一的 API 来屏蔽底层硬件复杂性，已成功助力 Google Meet、Epic Games 等行业领先者高效部署复杂的 AI 模型，实现实时视频处理、动画生成与语音识别等高级功能。此外，平台还提供基准测试工具并具备跨平台兼容性，能够支持 AI 应用无缝部署于移动设备、AI PC 及工业物联网硬件等多种终端。

Google产品更新端侧部署/工程

推荐理由：Google 把 LiteRT 从实验品推到生产级，统一 NPU 调用 API，做端侧 AI 的开发者终于不用逐家适配芯片了。虽然不是新概念，但 Google Meet 和 Epic Games 已经在用，说明不是 PPT。

08:00

Hugging Face：Blog（RSS）

精选57

如何在 Chrome 扩展中使用 Transformers.js

本文介绍在 Chrome 扩展中集成 Transformers.js 库的具体方法，涵盖从环境配置、模型加载到前后端通信的关键步骤。通过示例代码演示了如何利用该库在扩展中实现本地机器学习推理，同时处理扩展权限限制与安全策略。文中还对比了 Web Worker 与 Service Worker 两种部署方案，并提供了性能优化建议，帮助开发者在浏览器扩展环境中高效运行 Transformer 模型。

开源生态教程/实践端侧

推荐理由：Hugging Face 官方出的 Transformers.js 浏览器插件教程，想在 Chrome 里跑端侧推理的前端开发者可以直接抄，省掉自己踩坑的时间。

08:00

蚂蚁百灵：Developer Blog（网页）

精选67

Ling-2.6-flash 发布：更快响应、更强执行、更高 Token Efficiency

针对智能体任务中Token消耗快速增长的问题，Ling-2.6-flash模型正式发布。该模型采用混合线性架构等技术进行系统性优化，旨在实现更高推理效率和更低使用成本。其推理速度在4卡H20条件下最快可达340 tokens/s，在Artificial Analysis评测中仅消耗约对比模型1/10的Tokens。模型在多个Agent相关基准测试中达到同尺寸SOTA水平，保持了强大的任务执行与工具调用能力。

智能体模型发布部署/工程

关联讨论 2 条

推荐理由：蚂蚁百灵这次打的是「省 token」这张牌，104B 总参但只激活 7.4B，Agent 场景评测对齐同尺寸 SOTA，输出 token 消耗只有竞品的 1/10。做 Agent 产品、被推理成本卡脖子的团队值得认真看看这个路线。