5月5日
09:48
IT之家(RSS)
66
美媒披露 OpenAI 总裁布罗克曼庭审细节:300 亿美元持股遭马斯克律师质疑

在庭审中,OpenAI总裁格雷格·布罗克曼透露其持股价值近300亿美元。马斯克的律师史蒂文·莫洛就此盘问,质疑他为何不将大部分收益捐给公司的非营利基金会,并援引其2017年日记中“如何达到10亿美元财富”的记载,以证明布罗克曼与CEO奥尔特曼更关注个人致富而非造福人类。布罗克曼辩称当时是在权衡公司发展路径,且OpenAI的成就靠团队拼搏而来。法官指出他未直接回答捐款质疑。

OpenAI行业动态
09:48
Hacker News 热门(buzzing.cc 中文翻译)
67
特工技能

Google工程总监Addy Osmani提出“特工技能”框架,界定AI智能体所需的核心能力。该框架将技能分为基础与高阶两类:基础技能涵盖规划、工具使用、记忆及多模态理解;高阶技能包括团队协作、个性化、创造力与长期目标达成。Osmani指出,拥有这些综合能力的智能体可更自主地处理复杂任务,例如仅凭一句“规划假期”指令即能完成全流程安排。这标志着AI智能体正从简单指令执行者向能解决复杂问题的“数字员工”演进。

智能体教程/实践
09:26
meng shao@shao__meng
55
OpenAI 如何实现规模化的低延迟语音 AI

为实现语音AI的自然对话感,OpenAI采用WebRTC支持音频流式处理。针对1:1场景,采用Transceiver模型集中管理WebRTC状态,使后端可横向扩展。为解决WebRTC与K8s的端口和状态粘性问题,设计了Relay+Transceiver架构:轻量Relay层收敛公网UDP入口,并利用ICE ufrag字段编码路由信息,实现首包精准转发至对应Transceiver。该设计保留了协议语义,状态集中,并通过全球部署Relay优化路径,最终在K8s上实现了低延迟、高可扩展的语音交互系统。

OpenAI教程/实践语音部署/工程
09:09
DogeDesigner@cb_doge
精选77
奥特曼与布罗克曼被指在OpenAI进行自我交易,涉嫌背叛马斯克

推文指控萨姆·奥特曼和格雷格·布罗克曼在OpenAI非营利架构下进行自我交易。2017年,布罗克曼秘密持有Cerebras股份,并同期推动OpenAI与之合并,却未向埃隆·马斯克披露个人利益。2025年末至2026年,OpenAI与Cerebras签署了总额超200亿美元的合作协议并提供贷款,直接助推Cerebras估值从80亿飙升至近270亿美元。布罗克曼在宣誓证词中承认交易讨论期间自己是Cerebras投资者,但无法提供任何向马斯克披露此利益的邮件、聊天或文字记录。此举涉嫌违反加州慈善信托法,将本为造福人类的非营利组织变为个人牟利工具。

OpenAI行业动态
关联讨论 2X:AI Safety Memes (@AISafetyMemes)X:阿易 AI Notes (@AYi_AInotes)
推荐理由:庭审爆出大量证词,Altman和Brockman在一桩$20B交易中涉嫌未披露个人持股,慈善信托的自我交易指控对OpenAI公信力是沉重一击。
08:50
IT之家(RSS)
30
128 年校庆,北大发布首部 AI 宣传片

北京大学在建校128周年之际,发布了首部AI生成的校庆宣传片《举火》。该片回顾了学校自1898年创办以来的重要历史事件、知名校友及科研成果,例如在23位“两弹一星”元勋中,有12位是北大校友。视频以“举火”为主题,展现了从历史传承到当代青年接续奋斗的脉络,标志着北大在利用人工智能技术进行形象传播方面迈出新的一步。

行业动态视频
08:46
Simon Willison 博客
46
引用 John Gruber:Y Combinator 在 OpenAI 的持股比例

知名科技博主 John Gruber 披露了 Y Combinator 在 OpenAI 的具体持股比例。根据其从知情人士处获得的信息,Y Combinator 持有 OpenAI 约 0.6% 的股份。以 OpenAI 当前 8520 亿美元的估值计算,这部分股权的价值超过 50 亿美元。这一具体数字此前难以获知,揭示了这家知名孵化器在人工智能巨头中的财务利益规模。

OpenAI行业动态
08:34
08:19
Rohan Paul@rohanpaul_ai
54
DeepMind新研究让LLM学会在对话中学习

Google DeepMind的研究通过“师生对话”框架训练大型语言模型(LLM),使其能在对话中有效利用用户反馈进行学习。传统LLM将对话视为独立轮次,难以整合修正信息。该研究让“学生”模型尝试回答,由掌握额外信息的“教师”提供指导,并训练学生利用指导得出正确答案。在线强化学习训练效果优于离线过滤,且在简短对话中习得的技能能迁移至更长对话。该方法从数学任务泛化至编程任务,并能处理信息逐步到达的模糊任务。通过“Q-priming”步骤,模型在模糊任务中主动寻求澄清的可能性提高五倍以上,使对话更像与一个能在交流中实时学习的伙伴协作。

智能体DeepMind推理论文/研究
08:18
Rohan Paul@rohanpaul_ai
69
白宫拟对重大AI模型实施发布前政府审查,政策风向逆转

白宫正考虑对主要AI模型建立发布前政府审查机制,审查核心聚焦于模型的网络能力,即其发现、利用或串联软件漏洞以改变现实安全风险的水平。此举标志重大政策转向,此前政府曾放宽对强大AI系统的报告要求。政策转变的直接诱因是Anthropic公司的Mythos模型,该公司评估其发现软件漏洞的能力过强,广泛发布风险过高。此类模型能快速扫描代码、识别弱点并建议攻击路径,虽对防御方有用,但也恐助长攻击者入侵关键系统。审查不一定会阻止发布,但可让美国政府提前获取并测试先进模型。

Anthropic安全/对齐政策/监管
关联讨论 2X:Rohan Paul (@rohanpaul_ai)The Decoder:AI News(RSS)
08:16
Berryxia.AI@berryxia
65
Claude Code创始人详解高级工程化用法,释放工具90%潜力

Claude Code创始人Boris Cherny通过30分钟视频,系统讲解了该工具的高级工程化用法。核心观点是:为Claude提供越多上下文,它就越智能。视频详细演示了如何通过CLAUDE.md文件在企业、项目、本地层级注入上下文规则,如何将内部工具集成到Agent工作流,并优化了数十个终端设置与权限管理等细节。他指出,多数用户仅发挥其10%潜力,仅用于简单对话,而未能将其作为驱动整个工程团队的生产力基础设施。

AnthropicMCP/工具教程/实践编码
关联讨论 3Anthropic:Engineering(事故复盘 + 工程实践 · 网页)X:宝玉 (@dotey)X:Claude Devs (@ClaudeDevs)
08:09
ginobefun@hongming731
46
#BestBlogs 早报 2026-05-05

本期早报聚焦AI对软件开发的变革。Anthropic Claude Code创始人宣称“编程已被解决”,软件创作将交由AI Agent。OpenAI罕见公开其支撑9亿周活语音服务的WebRTC Relay重构技术细节。同时有观点指出,企业应用AI失败的核心原因在于自身无法清晰定义需求。此外,内容还涵盖了Supabase Skills、规范驱动开发等工程实践与一篇AI主题科幻短篇。

智能体AnthropicOpenAI行业动态
08:03
IT之家(RSS)
63
Anthropic:成立 AI 服务公司,面向中型企业落地 Claude

Anthropic宣布与黑石、赫尔曼与弗里德曼及高盛共同成立一家新的AI服务公司,旨在面向各行业的中型企业落地其AI模型Claude。该公司将通过Anthropic的应用AI工程师与客户团队协作,为中型企业构建定制化的Claude解决方案并提供长期支持。此外,据彭博社报道,Anthropic正考虑新一轮融资,估值有望达到9000亿美元(约合6.15万亿元人民币),或将超越OpenAI成为全球最具价值的AI初创企业。

Anthropic行业动态
08:03
meng shao@shao__meng
66
KroWork:通过"对话生成软件"模式,将AI对话转化为本地持久应用

KroWork的核心创新在于“chat-to-software”模式,旨在超越仅能提供建议或代码的传统AI聊天机器人。它是一个桌面AI智能体,能通过20多种内置技能端到端自动化执行任务,并将完整工作流转化为名为“Kro App”的持久性本地应用程序。该应用可一键安装至系统菜单,像常规软件一样运行,且重复使用无需消耗token或重新构建。所有操作均在用户本地设备上完成,保障数据隐私,无需云端依赖,用户也无需具备编程背景即可创建属于自己的可复用软件。

智能体产品更新开源/仓库端侧
08:00
HuggingFace Daily Papers(社区热门论文)
55
参数高效的多视角技能熟练度估计:从判别式分类到生成式反馈

评估人的动作完成质量(熟练度)对教学、康复等领域至关重要,但其挑战在于细微的时空差异分布于多视角视频中。本文针对Ego-Exo4D数据集提出三种创新方法:SkillFormer采用参数高效的判别式架构实现选择性多视角融合;PATS通过保留基础动作的局部密集片段来改进时序采样;ProfVLM则将任务重构为条件语言生成,通过门控跨视角投影器和紧凑语言模型,同时输出熟练度标签与专家风格反馈。这些方法仅需比视频Transformer基线少20倍的可训练参数和少3倍的训练周期,即达到最优准确率,推动了该任务从封闭集分类向可解释反馈生成的范式转变。

具身智能多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
APEX:面向AI生成音乐的大规模多任务美学感知流行度预测框架

APEX是首个面向AI生成音乐的大规模多任务学习框架,旨在联合预测流行度与美学质量。该框架基于Suno和Udio平台的21.1万首歌曲(约1万小时音频)训练,利用自监督音乐理解模型MERT提取音频嵌入,同时预测基于参与度的流行度指标(播放量与点赞数)以及五个感知美学维度。在包含11个未见生成系统的Music Arena数据集上进行分布外评估发现,加入美学特征能持续提升人类偏好预测准确性,表明所学表征在不同生成架构间具备强泛化能力。美学质量与流行度共同揭示了AI生成音乐的互补价值。

多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
58
反思推理密集型检索:在智能体搜索系统中评估与提升检索器

推理密集型检索旨在为下游推理提供证据支持,而非仅匹配主题相似性,这对需要迭代搜索与证据合成的智能体搜索系统至关重要。针对现有评估与训练的不足,研究发布了BRIGHT-Pro专家标注基准,为每个查询扩展了多维度黄金证据,并在静态与智能体搜索两种协议下评估检索器。同时,研究构建了RTriever-Synth合成语料库,通过生成互补正例和正例条件硬负例,对Qwen3-Embedding-4B进行LoRA微调得到RTriever-4B。实验表明,维度感知与智能体评估能揭示标准指标所掩盖的检索行为,而RTriever-4B相比其基础模型取得了显著提升。

arXivMCP/工具检索增强推理
08:00
HuggingFace Daily Papers(社区热门论文)
精选71
RLDX-1技术报告

为提升视觉-语言-动作模型在复杂现实任务中的功能覆盖,研究团队推出通用机器人策略RLDX-1。该模型基于多流动作变换器架构,整合运动感知、记忆决策与物理传感等异构模态,并辅以合成罕见场景数据、仿人操作学习流程及实时推理优化等系统设计。在仿真与真实测试中,RLDX-1全面超越前沿模型π_{0.5}和GR00T N1.6,尤其在ALLEX人形机器人任务上取得86.8%的成功率,显著高于对照模型的约40%,标志着其在接触密集型动态灵巧操作领域取得关键进展。

智能体具身智能多模态论文/研究

推荐理由:在 ALLEX 人形任务上把成功率从 40% 拉到 86.8%,RLDX-1 证明了多模态流架构对灵巧操作的价值,做机器人的同学可以重点关注一下。
08:00
HuggingFace Daily Papers(社区热门论文)
59
Stream-R1:面向流式视频生成的可靠性-困惑度感知奖励蒸馏框架

针对流式视频扩散模型的分布匹配蒸馏方法普遍均等对待所有输出,限制了质量提升。Stream-R1框架提出统一的奖励引导机制,从两个层面自适应重加权蒸馏目标:在序列间,依据预训练奖励分数对损失进行重缩放,让高可靠性序列主导优化;在序列内,利用同一奖励模型的反向传播生成像素级时空权重,将优化集中于预期增益最大的区域和帧。该方法在标准基准测试中,于视觉质量、运动质量和文本对齐方面均持续优于基线,且无需改变架构或增加推理开销。

多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
68
唤醒统一多模态理解与生成中的空间智能

JoyAI-Image是一个统一的多模态基础模型,集成了视觉理解、文本生成图像和指令引导的图像编辑功能。它通过空间增强的多模态大语言模型与多模态扩散变换器的耦合架构,实现了感知与生成的交互。其可扩展的训练方案融合了统一指令调优、长文本渲染监督及空间编辑信号,增强了模型的几何感知推理与可控视觉合成能力。实验表明,该模型在多项基准测试中达到领先或极具竞争力的性能。其核心在于通过增强理解、可控空间编辑和新视角推理之间的双向循环,推动模型向更强的空间智能演进,为下游应用提供了新路径。

图像生成多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
PatRe:一个用于专利审查的全周期审查意见与答复生成基准

针对现有基准将专利审查简化为分类或静态抽取的局限,本文提出了PatRe,首个模拟完整专利审查生命周期(包括审查意见生成与申请人答复)的基准。它包含480个真实案例,支持基于标准答案和检索模拟两种评估设置。研究通过多类大语言模型的实验发现,专有与开源模型性能存在差异,且审查员分析与申请人答复任务间存在不对称性。这些结果揭示了LLMs在模拟专利审查中复杂的法律推理与技术新颖性判断时,兼具潜力与当前局限。相关代码与数据集已开源。

arXiv论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
65
SymptomAI:面向日常症状评估的对话式AI代理

研究通过Fitbit应用向13,917名参与者随机部署SymptomAI对话代理进行症状访谈与鉴别诊断。在1,228名报告临床诊断的参与者中,SymptomAI的诊断准确性显著高于独立临床医生(OR = 2.47)。采用专用症状访谈策略(在诊断前获取额外信息)的代理表现优于用户引导对话。基于1,509个普通人群对话的辅助分析验证了结果的普适性。此外,利用SymptomAI诊断标签分析超50万天可穿戴数据发现,急性感染(如流感)与生理指标变化存在强关联(OR > 7)。

智能体arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
精选72
OpenSeeker-v2:利用高信息量、高难度轨迹突破搜索智能体的极限

本研究提出了一种仅通过监督微调(SFT)训练前沿搜索智能体的高效方法。该方法基于三项关键数据合成改进:扩展知识图谱规模、增加工具集以及进行严格的低步数过滤。仅使用1.06万条数据训练的OpenSeeker-v2,在四个基准测试中均取得了领先性能,全面超越了采用复杂CPT+SFT+RL流程训练的同类模型。这是首个由纯学术团队仅通过SFT实现的、在同等模型规模与范式下的顶尖搜索智能体,其模型权重将开源以促进社区研究。

智能体开源生态搜索论文/研究

推荐理由:纯学术团队仅靠SFT和一万条数据,就在多个搜索基准上反超工业级管线,并且开源模型。这证明高质量数据比烧钱RL更关键,做Agent的朋友值得认真看。
08:00
HuggingFace Daily Papers(社区热门论文)
67
Workspace-Bench 1.0:针对具有大规模文件依赖的工作空间任务的AI智能体基准测试

本文提出了Workspace-Bench 1.0基准,用于评估AI智能体在需要处理大规模异构文件依赖的真实工作空间任务中的能力。该基准构建了包含5类工作者档案、74种文件类型、超2万个文件(最大20GB)的模拟工作空间,并设计了388项附带文件依赖图的任务,总计7399个评分项,要求智能体进行跨文件检索、上下文推理与自适应决策。同时提供的精简版Workspace-Bench-Lite(100项任务)可将评估成本降低约70%。对4种主流智能体框架和7个基础模型的测试表明,最佳智能体得分仅为68.7%,远低于人类表现的80.7%,平均表现仅47.4%,揭示出现有AI在此类任务上仍远未达到可靠水平。

智能体论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
63
交互式世界模型基准测试与统一动作生成框架

为系统评估交互式世界模型的物理交互能力,研究团队提出了iWorld-Bench基准测试。该基准包含一个33万视频片段的数据集,并精选了2100个涵盖多视角、天气与场景的高质量样本。针对现有模型交互模态不统一的问题,研究设计了一个统一的动作生成框架,构建了六类任务共4900个测试样本,以综合评估模型在视觉生成、轨迹跟随和记忆等方面的性能。通过对14个代表性模型的评估,研究揭示了当前关键局限,为未来方向提供了见解。相关排行榜已公开。

arXiv具身智能多模态论文/研究
08:00
Apple Machine Learning Research(RSS)
精选62
Stochastic KV Routing: 实现自适应深度方向的缓存共享

为降低大语言模型推理时KV缓存的高昂内存开销,研究提出了一种沿模型深度维度优化的新方法。该方法通过随机KV路由,在Transformer模型的各层之间动态共享KV缓存,而非每层保留完整独立缓存。实验表明,在保持模型质量基本不变的前提下,该方法能将KV缓存的内存占用减少高达50%,为降低大模型服务成本提供了与现有时间轴压缩、淘汰技术正交的新优化路径。

论文/研究部署/工程

推荐理由:苹果这篇不走寻常路,从深度维度压缩KV缓存,是推理服务端降本的新思路,做LLM部署的值得一读。
08:00
Tomer Tunguz 博客(VC 分析)
精选63
当公司里每个人都是关键人物时

本文探讨了初创公司工程团队中AI与人力比例变化带来的结构性风险。当AI占比从10%提升至90%时,团队从20名工程师的传统层级结构,演变为仅由3名工程师核心操控大量自主代理的无管理层模式。核心权衡在于系统韧性而非吞吐量:将编排知识高度集中于极少数人,等同于以100%的利用率运行,一旦关键人员离职将造成33%的“制度记忆”损失。文章借鉴制造业保持70-90%利用率以维持系统稳健的经验,建议大多数初创公司应避免过早采用极高AI占比的模式,因为其中缺乏冗余和缓冲空间。

智能体现象/趋势部署/工程

推荐理由:当三个人管理着一支AI代理大军,任何一个人离开就是30%的知识蒸发。这篇文章用制造业利用率逻辑警告那些想用AI替换所有工程师的创始人:弹性才是真正的瓶颈。
08:00
Tomer Tunguz 博客(VC 分析)
精选55
优化软件工厂

软件工程团队中AI与人力比例的选择核心在于韧性而非吞吐量。在10/90比例下,约20名工程师使用Copilot等AI工具,保持传统层级结构;50/50比例时,12名工程师管理代理群,角色转向解决方案架构;90/10比例则仅需3名工程师核心操控自主代理,负责生成、测试和部署,无管理层级。高AI比例虽提升效率,但知识集中于少数人,团队利用率达100%,一旦人员离职将引发严重风险。借鉴制造业70-90%利用率原则,保持冗余可增强系统稳健性。因此,目前大多数初创公司不宜过度依赖AI。

智能体大佬观点编码

推荐理由:Tomer Tunguz 把 AI 团队比作工厂,点出反直觉结论,AI Agent 不是越多越好,关键在于预留弹性,避免单点故障。做工程管理的读完会重新算一算配比。
08:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选64
购买ChatGPT广告的新方式

OpenAI扩展ChatGPT广告服务,推出自助广告管理平台测试版,新增CPC竞价功能和增强的广告效果测量工具。新平台注重隐私保护,确保广告内容与用户对话相互独立,帮助广告主更精准地定位目标受众并优化广告投放效果。

OpenAI产品更新

推荐理由:OpenAI 把广告变成了自助服务,CPC 竞价和 Ads Manager 是商业化一大步,对开发者生态影响不小,但对话里塞广告会不会翻车,还不好说。
07:53
TestingCatalog News 🗞@testingcatalog
50
Anthropic将为Claude Cowork推出主动式AI助手"Orbit"

Anthropic计划为其Claude Cowork平台推出名为“Orbit”的主动式AI助手。该助手能够主动分析用户来自Gmail、Slack、GitHub、日历、Drive、Figma等多个应用的数据,并生成个性化洞察。用户还可以部署“Orbit apps”并置顶常用功能以便快速访问。这一动向标志着AI助手正从被动响应转向主动服务模式,OpenAI的ChatGPT Pulse、Google及Perplexity也都在开发类似功能。据悉,Orbit很可能作为一项高级功能,仅向Claude Max订阅用户开放。

智能体AnthropicMCP/工具产品更新
07:49
Simon Willison 博客
44
Granite 4.1 3B模型SVG鹈鹕图集

IBM近日发布了采用Apache 2.0许可证的Granite 4.1大语言模型系列。随后,Unsloth提供了该系列3B模型的21个GGUF量化变体。作者利用这些大小从1.2GB到6.34GB不等的量化模型,尝试生成“鹈鹕骑自行车”的SVG图像以测试其能力。实验结果显示,所有模型生成的图像质量均较差,且未观察到模型大小与输出质量之间存在明显关联。基于此次不理想的尝试,作者表示未来将选用更擅长图像生成的模型重新进行此类实验。

图像生成开源生态评测/基准