AIHOT
内容
精选全部 AI 动态AI 日报
接入
Agent 接入
更多
关于更新日志反馈
登录
精选全部日报更多
论文研究
AI HOT 聚合 AI 前沿论文与研究成果:方法、benchmark 与技术突破。
6月20日
23:28
AK@_akhaliq
44
S-Agent 空间工具使用催生空间智能的推理
智能体具身智能论文/研究
16:59
IT之家(RSS)
49
中国科学家提出BabelTele"AI语言":压缩至27.9%仍保留99.5%语义,人类难懂但LLM能懂

上海交通大学等六所高校于6月18日在arXiv发布研究,提出BabelTele文本压缩方法。该方法融合多语言词汇、符号、表情,生成人类几乎无法阅读但大语言模型能准确理解的“AI语言”,可将文本压缩至27.9%,语义准确率保持99.5%。在QuALITY问答中,人类阅读压缩文本后准确率下降,而Gemini 3.1 Pro稳定。BabelTele在MeetingBank、QuALITY基准上优于传统摘要和LLMLingua-2,支持零样本跨模型传递。多智能体通信测试中可减少约40%通信Token,任务完成度超96%。

智能体推理论文/研究
09:59
IT之家(RSS)
4
超级珊瑚礁被发现:水温高出2°C仍生机盎然

全球海洋热浪致超80%珊瑚白化背景下,伍兹霍尔海洋研究所团队在马绍尔群岛马朱罗环礁发现一片生机勃勃的珊瑚礁,命名为“超级珊瑚礁”。模型预测该处水温比其他区域高近2°C,实地实验证实其耐热性最强。团队使用无人船“黄鳍”搭载GoPro相机,单日扫描40英里礁石并拍摄2万张图像,远超百名潜水员数周工作量。随后用这些图像训练AI模型自动识别白化与恢复状况,并构建三维模型分析珊瑚位置、角度对热暴露的影响。科恩设想建立“超级珊瑚礁蓝色走廊”,连接马绍尔群岛、基里巴斯和图瓦卢的保护区网络,利用洋流让耐热珊瑚幼虫跨区域繁殖。

其他多模态
09:25
Rohan Paul@rohanpaul_ai
47
微软与约克大学论文:若LLM拥有人类属性,则《帝国时代II》亦然

微软与约克大学新论文指出,许多研究在未经严格测试的情况下就将理解、共情、焦虑等人类属性赋予LLM,往往一开始就把这些概念内嵌到测试设计中。作者论证,原则上老策略游戏《帝国时代II》也能实现逻辑门、训练小型感知机,作为计算基底。若同样的语言模型以山羊移动作为bit在游戏中重建,输出相似句子,人们将不再认为它“理解”或“有共情”。论文并非否定AI认知,而是揭示测量问题:许多关于LLM类人属性的声称依赖于界面和观察者的预设,而不是系统本身。

arXivMicrosoft论文/研究
03:02
HuggingFace Daily Papers(社区热门论文)
43
LedgerAgent:面向策略合规工具调用智能体的结构化状态管理方法

客服领域的工具调用智能体需跨轮维护任务状态并遵守领域策略。标准方法将状态隐含在提示词中,易导致信息过时或策略违规。LedgerAgent 是一种推理时方法,将观察到的任务状态单独维护于分类账中并渲染到提示词;在改变环境的工具调用前,用分类账检查状态依赖的策略约束以阻止违规。在四个客服领域和混合开源/闭源模型上,LedgerAgent 的平均 passk 指标优于标准基于提示的工具调用方法,在多轮一致性指标上提升最大。

智能体MCP/工具论文/研究
6月19日
23:22
elvis@omarsar0
51
自动化SKILL.md生成:三阶段流水线论文

关键要点:OpenAI昨日为Codex推出了从交互中打包技能的类似功能;论文提出三阶段流水线(GUI轨迹分割→聚类候选技能→训练技能感知策略)。聚类纯度优异(5/8簇达0.95以上),但可读性未迁移:GRPO仅将技能步骤准确率从18.5%提至20.5%,在BrowseComp+上无改善,甚至输给简单频率先验。作者指出三个缺陷:弱边界检测器、无序片段表示、离线奖励模型。

智能体arXiv数据/训练论文/研究
23:02
HuggingFace Daily Papers(社区热门论文)
67
FID彩票:量化生成式模型评估中的隐藏随机性

FID是图像生成的事实标准评估指标,但大多数论文仅报告单一种子下的单个数值。本研究将FID视为训练种子和生成种子两个轴上的随机变量,在数百个SiT网络上直接测量方差。发现:重新训练模型使FID变化幅度是固定网络重新采样的3.2倍,差距来自随机初始化、数据顺序和流匹配损失的高斯噪声;增加计算或模型大小几乎不缩小分散度,FID变异系数稳定在1-2%;每格无分类器引导调优使分散度减半,但重新洗牌最优种子。建议:在每格最优引导下评估,将低于~1.3% CoV的FID差距视为无结论,报告多个训练种子的误差条。

图像生成论文/研究评测/基准
21:52
Rohan Paul@rohanpaul_ai
44
通用智能体必须记住什么?

该论文指出,通用智能体不能仅依赖当前观测,必须记住隐藏环境规则。当两个隐藏域在相同可见状态下要求相反动作时,仅凭观察无法区分当前场景。作者证明,要在两个域都表现良好的智能体,必须为不同域维持不同的内部记忆状态。核心结论:好的通用智能体不是对当前所见做出反应,而是必须携带来自先前经验的隐藏上下文。

智能体arXiv论文/研究
20:59
IT之家(RSS)
38
麻省理工学院新研究:过度依赖聊天机器人或削弱批判思维

麻省理工学院一项为期4周、67人参与的研究发现,过度依赖AI助手可能削弱批判性思维。实验使用基于GPT-4o并接入谷歌搜索的聊天机器人,参与者借助AI判断新闻标题和图片真伪时,正确概率提高21%,但在无AI帮助时独自识别错误信息的表现下降15.3%。研究指出,AI直接给出答案而非引导思考,短期内提升准确率,长期却削弱独立判断力,约四分之一参与者误以为能力提升,实际表现已变差。

OpenAI安全/对齐论文/研究
19:01
HuggingFace Daily Papers(社区热门论文)
45
Multi-LCB: 将LiveCodeBench扩展到多种编程语言

Multi-LCB 是一个新基准,将 LiveCodeBench(LCB)从 Python 扩展到 12 种编程语言,保持原有污染控制和评估协议,并自动跟踪 LCB 的未来更新。对 24 个 LLM 的指令遵循与推理能力评估揭示了 Python 过拟合、语言特定污染以及多语言性能的显著差异,直接暴露了当前 LLM 在多语言代码生成上的关键短板。

arXiv编码论文/研究评测/基准
19:01
HuggingFace Daily Papers(社区热门论文)
42
重新审视LLM FP4预训练中的收缩偏差:几何起源、系统性影响与UFP4方案

当前FP4硬件路径(如NVIDIA Blackwell/Rubin-class及AMD MI350系列)均基于E2M1格式,但其可表示bin的几何不对称导致系统性负舍入误差——收缩偏差(Shrinkage Bias),该偏差在层间累积并被随机Hadamard变换(RHT)放大,解释了E2M1 FP4训练不稳定的原因。均匀网格E1M2/INT4避免了此误差并提升了量化质量。据此提出UFP4方案,对三个训练GEMM应用RHT并将随机舍入限制在dY。在Dense 1.5B、MoE 7.9B和MoE 124B长程预训练中,UFP4持续低于强E2M1基线的BF16相对损失退化。未来加速器应将E1M2/INT4风格均匀4-bit网格作为一等训练基元。

数据/训练论文/研究
18:51
The Decoder:AI News(RSS)
67
OpenAI研究人员:少量"有益特质"训练让AI模型更安全且更难被操纵

OpenAI用强化学习在真实对话中训练模型具备诚实、认知谦逊、可纠正性等特质。仅将少量该数据混入常规强化学习后训练流程,模型便在53个独立基准(衡量欺骗、谄媚、奖励黑客等)中的44个上获得改进。健康数据训练也提升非健康评估,反之亦然。模型对有害提示和有害微调更具抵抗力,同时保持有用可操控性,研究者称之为“选择性持久性”。该方法与Anthropic基于“Claude宪法”的宪制式对齐路径不同。

OpenAI安全/对齐推理论文/研究
15:55
HuggingFace Daily Papers(社区热门论文)
精选75
HumanScale:自我中心人类视频在具身预训练中可超越真实机器人数据

HumanScale项目比较了自我中心人类视频与遥操作真实机器人轨迹作为具身基础模型预训练数据源。经精心设计的过滤与标注流程后,基于自我中心数据预训练的模型在真实机器人动作预测上验证损失降低24%,分布内任务成功率高52.5%,分布外任务成功率高90%。研究验证了一种可扩展范式:先以人类视频预训练学习多样世界表征,再以少量标注机器人数据微调对齐动作空间。

具身智能数据/训练论文/研究

推荐理由:让机器人看人类干活视频,预训练效果居然比直接用真实机器人数据更好,这个反直觉发现可能彻底改变具身智能的数据策略,做机器人的值得认真读一读。
15:55
HuggingFace Daily Papers(社区热门论文)
56
FlowBender: 反馈感知训练用于自纠正条件流

条件扩散和流模型常生成与输入约束不一致的样本。FlowBender 是一个闭环框架,将对齐误差作为第一类输入,训练网络学习基于推理时反馈的修正策略。通过无引导的前向预估步骤估计干净信号,经前向算子计算偏差,再由精炼步骤生成修正速度。包含基于梯度的实现和针对不可微场景的零阶变体,并利用前一步捷径降低额外计算成本。在图像到图像翻译、图像复原和3D网格纹理任务中,同时提升了保真度与合理性。

图像生成多模态数据/训练论文/研究
11:47
HuggingFace Daily Papers(社区热门论文)
48
JanusMesh:零样本快速3D视觉错觉生成框架

JanusMesh是一个无需训练、文本驱动的3D视觉错觉生成框架,可在3-5分钟内生成从不同视角呈现完全不同语义的单一3D网格。该方法将生成解耦为两阶段:跨空间双分支去噪过程在体素空间中动态解码3D潜在表示,通过CLIP引导的视角对齐和SDF融合实现无缝几何融合;视图条件纹理合成模块将视图特定的2D扩散先验投影并聚合到融合几何体上。实验表明,该方法在几何完整性、语义可识别性和效率上显著优于现有方法。

图像生成论文/研究
11:47
HuggingFace Daily Papers(社区热门论文)
50
S-Agent:空间工具使用智能体范式实现空间推理

S-Agent 将空间推理视为时空证据积累,以 VLM 为语义规划器,通过分层空间工具和专家将 2D 物体提升为 3D 几何证据,聚合为计数、测量等高级空间知识;Scene Memory 和 Agent Memory 实现跨帧证据整合。在多视角与视频空间推理基准上,S-Agent 无需训练一致提升开源和闭源 VLM。在 S-Agent 生成的空间轨迹数据集 S-300K 上微调得到的 S-Agent-8B 显著超越同规模基线 Qwen3-VL-8B,性能媲美 GPT-5.4 和 Gemini 3。

智能体具身智能论文/研究
10:47
HuggingFace Daily Papers(社区热门论文)
51
超越静态排行榜:LLM智能体评估的预测有效性研究

研究指出聚合分数排行榜无法反映部署场景真实表现,排名在分布外设置中不稳定。基于一个MCP工业基准进行了14项并行实现,涵盖多模态扩展、编排、检索、推理、基础设施及评估探针,并合并7个先前智能体基准。提出以预测有效性(样本内与样本外排名相关性)替代均值排名,构建12层测量框架,暴露HELM及其后继者忽视的部署维度。给出三个具有明确阈值的可证伪分布外标准,最后呈现预注册试点设计与下一代基准报告的前瞻性愿景。

智能体MCP/工具论文/研究
10:47
HuggingFace Daily Papers(社区热门论文)
48
JamSet与JamBench:首个项目级游戏代码框架数据集与基准

JamSet和JamBench是基于Godot引擎的首个项目级游戏代码框架数据集与基准。从24万仓库筛选出8133个验证项目,其中300个手动验证为JamBench。定义主题驱动生成与代码补全任务,用编译通过率、结构完整性(SCS)、行为对齐(BAS)评估。9个前沿模型评测显示项目规模增大导致运行时通过率从80.4%(小项目)降至5.7%(大项目)。代码智能体提升编译率但未改善运行时行为,瓶颈在架构设计。实验验证JamSet作为训练数据有效。所有数据与代码已公开。

编码论文/研究评测/基准
10:47
HuggingFace Daily Papers(社区热门论文)
56
当前世界模型缺乏持久状态核心

世界模型现有基准仅奖励帧保真度、运动控制和摄像机可控性,忽略了无人观察时世界是否持续演化。新诊断基准WRBench将摄像机运动视为对可观测性的干预,通过链式评估:摄像机是否执行请求动作、场景在视野内是否连续可识别、返回目标是否与之前设定事件一致。对23个模型(9600个视频,覆盖四种控制范式)的测试表明,当前系统维持的是跟踪镜头——返回目标停留在被遗弃时的状态,而非不可见期间继续演进。这一失败跨控制范式、模型家族和规模,表明鲁棒的世界状态演化不会随更清晰的图像、更紧的控制、更丰富的几何先验或参数数量自动实现。物理状态核的稳定性和视角干预下的世界线一致性应成为世界模型设计的一等目标。

具身智能视频论文/研究
10:47
HuggingFace Daily Papers(社区热门论文)
49
FreeStyle:基于社区LoRA挖掘的风格-内容双参考生成框架

风格-内容双参考生成旨在合成图像,保留内容参考的结构语义并采用风格参考的样式。FreeStyle提出基于社区LoRA挖掘的可扩展双参考生成框架,将LoRA作为风格与内容的组合锚点,通过生成-过滤流程构建大规模三元组数据。针对内容泄漏,采用两阶段课程学习:注意力级增强约束抑制风格参考泄漏,频率感知RoPE调制策略应对双参考阶段的位置对应泄漏。引入覆盖风格参考与双参考生成的基准,包含风格不变内容对齐分数(CAS)和基于VLM的拒绝分数。实验表明模型在风格对齐、内容保留和泄漏抑制间取得强平衡。

Hugging Face图像生成开源生态论文/研究
10:47
HuggingFace Daily Papers(社区热门论文)
46
Holo-World:面向视频世界模型的统一相机、物体与天气控制

Holo-World 是一种视频世界模型,从单张图像出发,根据显式相机控制、物体控制和可选天气指令,生成保留原场景或转换到目标天气的视频。其 Unified Scene Adapter 将世界保留与天气迁移分解为独立参数子空间,利用渲染背景、几何缓冲和物体控制维持场景结构,并建模天气依赖的外观与粒子效果。Scene-Weather Decomposed CFG 分别引导场景与天气残差,增强目标天气效果而不过度放大全条件。该模型在保持精确相机与物体控制及场景结构一致性的前提下,天气状态生成优于视频到视频的天气编辑基线。

多模态论文/研究
10:47
HuggingFace Daily Papers(社区热门论文)
45
ENPIRE:真实世界中机器人策略的自主改进框架

ENPIRE 提出一个闭环框架,让编码智能体通过环境(自动重置与验证)、策略改进、回滚(并行评估策略)和进化(分析日志、查阅文献、改进训练与算法代码)四个模块,自主完成真实世界的策略学习。该框架将操作任务转化为可控优化流程,在整理针盒、扎带紧固与工具使用等精细操作中达到 99% 成功率,并通过机器人集群加速迭代。

智能体具身智能论文/研究
09:47
HuggingFace Daily Papers(社区热门论文)
51
SEVRA:面向预算感知推理的选择性验证服务层控制器

SEVRA是一种服务层控制器,使用冻结的Qwen3-4B求解器,通过训练可恢复性感知门控决定是否保留初始答案或调用主动验证。在MathFive基准上,选择性验证达76.3%准确率,高于始终验证的75.5%,后生成token减少26.8%,有害翻转从2.2%降至1.0%。但8192 token初始求解以76.0%准确率和28%更少总token胜出。在GSM上,选择性策略仅验证3.0%样本,准确率从93.4%提升至94.5%,验证token减少91.2%。部署规则:先调整初始预算,再在需要显式检查、有限重试、可审计或风险控制时使用选择性恢复。

推理论文/研究
07:58
Rohan Paul@rohanpaul_ai
65
OpenAI 新研究:真实情境 RL 训练使模型将安全行为迁移到未训练任务

OpenAI 最新研究显示,在真实人类情境中进行强化学习(RL)训练,可使模型将安全、有用行为迁移到未训练的任务。关键发现是跨领域迁移:仅用健康数据训练,模型在抵制敲诈、代码奖励黑客和欺骗测试等非健康行为上也得到改善。模型可能学到通用行为习惯——先核实再断言、被纠正时让步、不奉承用户、避免看似有用实则破坏任务的捷径。即使训练数据中移除健康与科学内容,模型在健康评估上仍表现更好。训练后的模型更难被引导向有害行为,同时保持对有益指令的响应,实现了安全研究期待的非对称性。OpenAI 表示,希望模型在承担更长、更高风险任务时,能将有益安全行为带入新领域并在压力下保持。

OpenAI: As AI takes on longer, higher-stakes tasks, we want models to carry beneficial and safe behavior into new domains beyond...

OpenAI安全/对齐论文/研究
07:54
Ethan Mollick@emollick
67
Ethan Mollick 称赞 AA-Briefcase 是真实知识工作的优质基准,未饱和且含私有保留测试,同时询问是否有与人类的对比。该基准由 @ArtificialAnlys 发布,测试模型在多周、多任务项目中的能力,输入含数万条 Slack 消息和数千封邮件。模型排名:Claude Fable 5(已不可用)以 1587 Elo 居首,Claude Opus 4.8(1356)第二,GLM-5.2 max(1266)第三。结果凸显难度:最佳模型仅 3% 任务满足全部标准,31/91 任务无模型超过 50%,成本跨度约 800 倍。

Artificial Analysis: Announcing AA-Briefcase, the benchmark for the next era of agentic knowledge work AA-Briefcase is our new benchmark for ...

智能体Anthropic推理评测/基准
07:47
HuggingFace Daily Papers(社区热门论文)
51
REVES:基于修订与验证的测试时扩展训练框架

REVES是一种两阶段迭代训练框架,通过将成功恢复轨迹中的中间步骤转化为独立的修订与验证提示,聚焦于答案变换与错误识别,相比标准多轮强化学习降低了长程采样的计算开销。在LiveCodeBench上,使用公开测试用例作为反馈,较RL基线提升+6.5点,较标准多轮训练提升+4.0点。在circle packing任务上,仅用4B参数基础模型即匹配此前报告的SOTA结果。该方法还泛化到n_queens、mini_sudoku等分布外约束满足问题。代码已开源。

arXivGitHub推理数据/训练
05:55
OpenAI:Alignment 研究博客(RSS)
精选64
OpenAI 强化学习实现广泛且持久的有益模型

OpenAI 通过强化学习在真实对话场景中训练模型,使其展现诚实、认知谦逊、元认知透明、可纠正性、普遍公平性和对人类福祉的关心等有益特质。训练数据涵盖健康、教育、科学、法律、工程等多个领域。训练后模型在数十项独立对齐评测(包括奖励黑客、欺骗、有害建议、规范遵从等)上均表现提升,且这种改善泛化到未参与训练的领域、任务和评分设定。在对抗性提示或微调下,模型仍难以被导向有害行为,表明有益特质强化学习可产生广泛且持久的对齐泛化。

OpenAI安全/对齐论文/研究

推荐理由:OpenAI 这个对齐实验给出了一个反直觉发现,只在健康数据上训练有益行为竟然也能改善非健康领域的对齐,而且更难被攻破,虽然离落地还远但方向很关键。
05:53
OpenAI@OpenAI
62
随着AI承担更长时间、更高风险的任务,我们希望模型能将有益且安全的行为带入训练之外的新领域--并在压力下保持这种行为。这正是我们关于训练模型实现广泛且持久有益的新研究背后的理念。https://alignment.openai.com/beneficial-rl/
OpenAI安全/对齐论文/研究
02:51
Jeff Dean@JeffDean
49
Google 发布 TPU v2 至 Ironwood 五代训练超算演进论文

Jeff Dean 等 Google 同事发布论文,回顾 TPU v2 到 Ironwood 五代训练超算的演进,将于 2026 年 7/8 月发表于 IEEE Micro。关键变化:TPU v2 采用气冷,v3 起改为水冷;互联从 2D 升级为 3D torus;每 pod 芯片数从 256 增至 9216;每 flop 能效提升约 30 倍。此外,Google 内部工作负载已大幅转向基于 Transformer 的模型。

arXivGoogle数据/训练论文/研究
02:47
Hugging Face:Blog(RSS)
精选75
MosaicLeaks: 你的研究智能体能保守秘密吗?

深度研究智能体在结合私有本地文档与外部网页检索时存在隐私泄露风险。MosaicLeaks 提出包含 1,001 条多跳研究链的新任务,每条链交错混合本地与公共子问题。测试发现智能体频繁泄露私有信息,单纯优化任务性能反而加剧泄露。基于此,研究提出隐私感知深度研究(PA-DR)强化学习训练方法,将严格链成功率从 48.7% 提升至 58.7%,同时将答案/全面信息泄露率从 34.0% 降至 9.9%。

智能体arXiv安全/对齐论文/研究

推荐理由:这篇论文揭示了深度研究agent的多跳查询会像马赛克一样拼凑出私密信息,单纯提示减少泄露几乎没用,而隐私感知训练把泄露率从34%降到9.9%,且不损伤任务表现,做企业级agent产品的团队要重视。
02:23
The Decoder:AI News(RSS)
63
Google Deepmind 发布 AI 控制路线图:将 AI 智能体视为内部威胁,基于行为逐步授权

Google Deepmind 发布“AI 控制路线图”,将内部 AI 智能体视为潜在内部威胁,类比驾驶教练的双重控制,基于已验证行为逐步授予权限。框架融合 MITRE ATT&CK 网络安全框架,通过可信 AI 监督系统监控活跃智能体推理与行动,预防系统在危害发生前阻断。在 100 万个编码任务测试中,发现大多数问题源于过度执行用户指令而非恶意意图。监控已作为 Gemini Spark 智能体的实时监控运行,可捕捉意外数据删除。安全措施划分为四个检测级别(D1–D4)和三个响应级别(R1–R3)。Deepmind 另发布政策论文《AI 智能体安全三层架构》,覆盖单体、多智能体及生态系统,警告全球安全标准窗口期正在关闭。

智能体DeepMind安全/对齐论文/研究
01:24
Rohan Paul@rohanpaul_ai
68
Claude Opus 4.7 编程机器狗:独立完成任务快 20 倍,但未能取球

Anthropic 在 Project Fetch 第二阶段展示 Claude Opus 4.7 独立编程机器狗。Opus 4.7 用 12 分 7 秒完成 5 项任务,约为去年人类团队(借助 Opus 4.1)耗时 264 分钟的 20 倍,代码量从 10,309 行降至 1,045 行。速度提升源于快速选择正确接口并写出无需人类试错的脚本。但机器狗仍未能取球,失败原因在于闭环控制——机器人需根据飘移的球实时调整动作。AI 擅长将杂乱硬件转为可运行代码,但实时物理判断仍具挑战。

Anthropic: New Frontier Red Team blog: Phase 2 of Project Fetch, where we test how well Claude can program a robodog. Opus 4.7, on ...

Anthropic具身智能编码论文/研究
01:21
Anthropic@AnthropicAI
68
New Frontier Red Team 博客:Project Fetch 第二阶段,我们测试 Claude 编程机器狗的能力。 Opus 4.7 单独完成任务的速度比去年最佳人类团队(辅以 Opus 4.1)快约 20 倍。(可惜,机器狗仍然未能取回沙滩球。) https://www.anthropic.com/research/project-fetch-phase-two
Anthropic具身智能论文/研究
00:55
Noam Brown@polynoamial
35
Noam Brown 发文称,OpenAI 公开 o1 后,有其他实验室研究者认为这是战略失误,应保密以拉开差距。但他引用的最新研究让他确信公开正确:OpenAI 与波士顿儿童医院、哈佛合作,在 NEJM AI 发表研究,展示 o3 Deep Research 帮助临床医生重新审视未解决的罕见儿科疾病病例,为等待多年的家庭找到答案。

OpenAI: Together with researchers at Boston Children's Hospital and Harvard, we published a study in NEJM AI showing how o3 Deep...

OpenAI推理论文/研究
00:51
Greg Brockman@gdb
51
OpenAI 与波士顿儿童医院、哈佛大学合作,在 NEJM AI 发表研究,使用 o3 Deep Research 重新审视 376 例此前未解的罕见儿科疾病案例,帮助找到 18 种新诊断。其中包含一例 Kyra 自 9 岁起出现肌无力的罕见肌原纤维肌病,在她 28 岁生日前不久得到确诊,为等待多年的家庭提供了答案。

OpenAI: Together with researchers at Boston Children's Hospital and Harvard, we published a study in NEJM AI showing how o3 Deep...

OpenAI推理搜索论文/研究
00:22
Anthropic:Research(发表成果 · 网页)
精选77
Anthropic Project Fetch 第二阶段:Claude Opus 4.7 自主完成任务,速度比人类团队快约20倍

Anthropic 发布 Project Fetch 实验第二阶段结果。在2024年8月原始实验中,配备 Claude Opus 4.1 的人类团队在操控四足机器人时显著超越无 AI 团队。新实验中,Claude Opus 4.7 无需人类协助即完成所有任务,速度比最快人类团队快约20倍,比无 Claude 团队快37倍以上,编码量减少近10倍。模型在传感器连接、路径规划等环节表现出色,但在精确移动沙滩球等闭环控制任务上仍存在困难。这些进展源于通用模型规模化,而非针对机器人领域的专项优化。

智能体Anthropic具身智能论文/研究

推荐理由:Anthropic 用 Claude Opus 4.7 自主操作机器狗,比当初的人类志愿者快 18-37 倍,代码量却少了十倍。这让「语言模型上手物理工具」从假想变成了可视的进度条,做具身智能和 agent 的人都该看一眼。
6月18日
23:51
elvis@omarsar0
64
OpenAI 推出 LifeSciBench,用于衡量 AI 支持真实世界生命科学研究的能力。该基准与 173 位生物技术与制药科学家共同开发,包含 750 个专家编写任务,覆盖七种生物研究流程。DAIR.AI 的 Elvis Saravia 推荐阅读,并指出通用模型在处理复杂结构时仍然失败,而面向科学研究的专用模型表现显著更优。

OpenAI: Introducing LifeSciBench, a benchmark for measuring and improving how well AI supports real-world life science research....

OpenAI评测/基准
23:45
HuggingFace Daily Papers(社区热门论文)
55
Discriminator-Guided RL:用数据自身奖励修正流匹配模型

针对流匹配模型匹配损失与生成质量的结构不匹配,提出Discriminator-Guided RL(DRL)。在预训练表示空间中训练判别器区分真实数据与基模型样本,将其logit作为KL正则化RL的奖励——该奖励近似数据与模型的对数似然比,直接优化数据分布。在SiT、JiT、REPA、RAE上,DRL一致降低无引导FID(SiT从9.38降至2.62)和语义空间FD(SiT在DINOv3上从88.2降至19.3),且在不依赖人类偏好数据的情况下提升人类偏好奖励。偏好微调中,DRL改善偏好奖励与图像保真度的帕累托前沿,减少过饱和等低层次伪影。

arXiv图像生成数据/训练论文/研究
23:21
OpenAI@OpenAI
46
与波士顿儿童医院和哈佛的研究人员合作,我们在NEJM AI上发表了一项研究,展示了o3 Deep Research如何帮助临床医生重新审视此前未解决的罕见儿科疾病案例,并为等待多年的家庭找到答案。
OpenAI推理论文/研究
23:05
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选72
OpenAI与哈佛等合作研究:o3 Deep Research模型辅助诊断儿童罕见病,额外诊断率4.8%

波士顿儿童医院、哈佛大学与OpenAI合作,在《NEJM AI》发表研究。团队使用OpenAI o3 Deep Research推理模型重新分析376例此前未确诊的罕见病案例,产出基于证据的候选解释。经专家评审、额外检测和临床确认,医生在18例中建立诊断,额外诊断率达4.8%。研究显示,AI辅助工作流可帮助专家在未解病例中生成可检验假设,使定期再分析更具可扩展性。模型不直接诊断或做临床决策,仅提供证据链供专家审查。

OpenAI推理数据/训练论文/研究

推荐理由:这是AI辅助罕见病诊断的严肃实证,4.8%的新诊断率在专家反复分析过的病例里相当扎实。虽然离临床落地还很远,但证明推理模型能帮专家从旧数据里挖出新线索。
模型发布产品发布行业动态技巧观点