7月1日

01:02

Microsoft Research@MSFTResearch

AI 智能体常常失败，因为它们的指令（即技能）被手动修改，且无法保证改进。了解 SkillOpt 如何将技能编辑转变为训练过程，在不改变模型权重的情况下使智能体行为更可靠：https://msft.it/6012vsvEs

智能体 Microsoft 论文/研究

6月30日

08:00

HuggingFace Daily Papers（社区热门论文）

HealthAgentBench：面向挑战性前沿AI智能体的统一医疗专家基准套件

HealthAgentBench发布，包含54项医疗任务（7个类别），每项任务模拟患者就诊全流程的端到端临床工作流。智能体需在极少指令下探索原始数据、操作复杂环境并执行多步解决方案。评估前沿智能体后，整体任务成功率低，最强且成本最优的Codex GPT-5.5仅达约42%成功率。Claude Code在医学影像任务上表现困难，而Codex GPT-5.5展现新兴能力。结合大搜索空间与组合推理需求的任务对当前所有智能体构成挑战。该基准套件已开源。

智能体 Microsoft 论文/研究

05:30

Microsoft Research@MSFTResearch

AI智能体无法记住过去的对话。它们必须不断加载或检索上下文，随着任务变得更长更复杂，效率越来越低。 Memora通过一个可扩展的记忆系统解决了这个问题，该系统将存储的内容与检索方式分离开来：https://msft.it/6018vs3gC

智能体 Microsoft 论文/研究

6月26日

23:54

Microsoft Research@MSFTResearch

人们在工作场景中实际用 AI 做什么？对五百万次 M365 Copilot 对话的新分析给出了答案。Scott Counts 在一段新视频中进行了讲解。深入了解分析请戳：https://msft.it/6011vqpbL

Microsoft 论文/研究

23:24

Microsoft Research@MSFTResearch

跟进我起草的社交文案：人们在工作中的 AI 到底用来做什么？一项对五百万次 M365 Copilot 对话的新分析给出了答案。Scott Counts 在一段新视频中进行了详细解读。点击此处深入了解分析：https://msft.it/6015vUHsh

Microsoft 数据/训练论文/研究

00:53

Microsoft Research@MSFTResearch

研究人员引入了生成式因果测试，它将黑箱模型转化为清晰的假设，并在扫描仪中进行验证，揭示了大脑特定区域对语言的反应。

Microsoft 论文/研究

6月24日

11:47

Rohan Paul@rohanpaul_ai

微软NextLat：预测隐藏状态让Transformer推理更强

微软新论文Next-Latent Prediction (NextLat) 提出一种自监督学习方法，在常规token预测基础上增加预测下一隐藏状态的任务，迫使Transformer学习紧凑的内部世界模型。该方法在地图式世界建模、数学推理、图规划、故事预测等任务上表现更优，生成速度通过自推测解码最高提升3.3x，且无需改变Transformer架构或减慢正常推理。

Jayden Teoh: Next-token prediction is myopic. What if transformers learn to predict their own next latent state? 🌠 We present Next-L...

Microsoft 推理数据/训练论文/研究

6月20日

09:25

Rohan Paul@rohanpaul_ai

微软与约克大学论文：若LLM拥有人类属性，则《帝国时代II》亦然

微软与约克大学新论文指出，许多研究在未经严格测试的情况下就将理解、共情、焦虑等人类属性赋予LLM，往往一开始就把这些概念内嵌到测试设计中。作者论证，原则上老策略游戏《帝国时代II》也能实现逻辑门、训练小型感知机，作为计算基底。若同样的语言模型以山羊移动作为bit在游戏中重建，输出相似句子，人们将不再认为它“理解”或“有共情”。论文并非否定AI认知，而是揭示测量问题：许多关于LLM类人属性的声称依赖于界面和观察者的预设，而不是系统本身。

arXiv Microsoft 论文/研究

6月16日

00:26

Microsoft Research@MSFTResearch

30倍更快的分析，从SQL自动生成的GPU内核，AI与实验室培育的肿瘤模型匹配用于癌症治疗，以及无需重新训练即可跨任务学习的大语言模型。深入探索最新一期Research Focus：https://msft.it/6010vcYZ4

Microsoft 数据/训练论文/研究

6月14日

22:14

The Decoder：AI News（RSS）

微软研究院 Mirage：赋予视频生成持久空间记忆，不遗忘"转角后的场景"

微软研究院与多所高校联合开发的视频世界模型 Mirage 将场景信息直接存储在潜在空间中，而非基于像素的点云。这大幅降低了计算时间和图形显存消耗，同时能在长镜头移动中保持场景空间一致性。不过，该模型目前仍无法可靠地跨片段跟踪运动物体。

Microsoft 多模态视频论文/研究

6月13日

04:48

Microsoft Research@MSFTResearch

Project Ire 分析了一个及时的恶意软件样本，并通过逆向工程确定其意图--识别出 LOTUSLITE 特征，即使大多数主流 EDR 工具未检测到它。https://msft.it/6011viy4N

Microsoft 其他

6月12日

08:00

HuggingFace Daily Papers（社区热门论文）

FastContext：用于编码智能体的高效仓库探索子智能体

FastContext 是一个将仓库探索与任务解决相分离的专用探索子智能体，由 4B–30B 参数的探索模型驱动，通过参考模型轨迹和任务奖励进行优化。集成 FastContext 的 Mini-SWE-Agent 在 SWE-bench Multilingual、SWE-bench Pro 和 SWE-QA 基准上端到端解决率提升最多 5.5%，同时编码智能体 token 消耗减少最多 60%，且边际开销很低。结果表明，仓库探索可与解决任务分离，并由专用模型高效处理。

智能体 GitHub Microsoft 编码

6月10日

01:37

Satya Nadella@satyanadella

今天在《自然方法》上，我们分享了关于AI如何帮助我们更好地理解细胞行为的研究，为癌症药物为何对每个人的效果不同提供了新的见解。通过学习更多关于细胞状态--单个癌细胞如何响应周围环境--我们有可能更精确地为每位患者匹配疗法并改善结果。https://news.microsoft.com/signal/articles/why-dont-cancer-medicines-work-the-same-for-everyone-ex-vivo/

Microsoft 其他数据/训练

00:35

Microsoft Research@MSFTResearch

在《Nature Methods》上发表的最新研究来自Project Ex Vivo，表明AI模型从多样化的细胞状态中学到的知识，比仅从规模化数据集中学到的更多，这一发现可能重塑疗法与患者的匹配方式。https://msft.it/6013vgE8l

Microsoft 数据/训练论文/研究

6月6日

04:13

Microsoft Research@MSFTResearch

微软Project Mosaic：micro-LED光学互连技术

微软Azure CTO Mark Russinovich在Build 2026上介绍Project Mosaic，这是微软剑桥研究院的实验性光学互连技术，采用micro-LED实现低功耗、高速数据传输。高级研究员Kaoutar Benyahya现场演示单个LED调制形成字母，证明概念具备实时响应能力。

Microsoft 论文/研究部署/工程

6月4日

00:33

Microsoft Research@MSFTResearch

一份在中西部装瓶厂进行的三个月试点显示，当AI超越聊天进入决策领域时会发生什么--约束条件变化、风险真实、答案必须可靠。 https://msft.it/6015vjYUN

Microsoft 推理论文/研究部署/工程

6月3日

06:00

Microsoft Research@MSFTResearch

精选72

天气预报速度比传统超级计算机快数千倍。听听Kenji Takeda在#MSBuild微软研究实验室关于Aurora的分享。了解更多：https://msft.it/6018vjGUA

Microsoft 多模态论文/研究

推荐理由：微软把天气预报推到了推理速度比超算快数千倍，这在气象AI里算是代际提升，虽然离普通人远，但对气候建模和极端天气预警是实实在在的突破。

5月29日

17:15

Rohan Paul@rohanpaul_ai

SkillOpt：实现智能体技能自我进化的执行策略

微软提出SkillOpt方法，旨在改进AI智能体技能的优化过程。其核心思想是将一个独立的技能文档视为优化对象，而非直接修改底层大语言模型。该方法让智能体尝试任务，分析成功与失败案例，然后由一个更强的优化器模型对技能文档进行小幅编辑。编辑只会在提升验证集表现时被接受，从而确保技能的稳定改进。在6个基准测试、7个目标模型和3种智能体设置（包括直接聊天、Codex和Claude Code）的共52个测试案例中，SkillOpt均达到最佳或并列最佳。在GPT-5.5上，它将直接聊天的平均准确度提升了23.5点。最终产出的技能文件可读、可移植且可复用，部署时无需重新训练模型。

智能体 Microsoft 数据/训练论文/研究

5月27日

07:21

karminski-牙医@karminski3

微软等发布SkillOpt框架，用机器学习流程系统优化AI智能体技能

微软联合上海交通大学等机构发布SkillOpt框架，旨在通过机器学习流程系统性地优化AI智能体的技能。该框架引入独立的优化器模型，通过harness闭环流程对技能进行编辑，且每次编辑必须在验证集上带来分数提升才被接受。框架设置了每步4到8个编辑操作的学习率预算，使核心修改控制在1到4个。实验表明，优化后的技能可使GPT-5.5的对话准确率提升23.5分。

智能体 arXiv Microsoft 数据/训练

5月26日

07:58

Hacker News 热门（buzzing.cc 中文翻译）

精选81

微软 Copilot Cowork 存在文件泄露问题

Microsoft 安全/对齐

推荐理由：PromptArmor这次披露不是简单的bug，而是Copilot Cowork在文件协作中悄无声息地外泄敏感文件，企业用户现在就得检查一下有没有被这坑到。

5月25日

23:54

elvis@omarsar0

微软研究院提出SkillOpt方法，通过优化器自动学习AI智能体技能文档

微软研究院提出了SkillOpt方法，将AI智能体的技能文档视为可训练的外部状态，而非由工程师手动编写。该方法利用一个优化器模型对技能文件进行验证门控编辑，通过添加、删除或替换指令来优化文档，并引入文本学习率控制每轮重写力度，而智能体本身保持不变。实验显示，在全部52个测试单元（涵盖不同模型、基准测试和工具链）中，SkillOpt均达到最佳或并列最佳。具体在GPT-5.5上，相比无技能文档，SkillOpt在直接聊天、Codex和Claude Code下分别取得23.5、24.8和19.1分的提升，超越人类手写技能及其他自动化方法，且不增加推理时开销，学到的技能还能跨模型和工具链迁移。

智能体 Microsoft 论文/研究

5月24日

17:06

MarkTechPost（RSS）

微软研究院推出Webwright终端原生浏览器代理框架

微软研究院近日发布了Webwright，这是一个终端原生的浏览器代理框架。它通过可复用的Playwright脚本取代传统点击追踪的网页自动化方式，基于包含三个模块的单一代理循环构建，代码量约1000行。由GPT-5.4驱动的Webwright在长周期Odysseys基准测试中取得60.1%的得分，较基线模型的33.5%提升近一倍；同时在Online-Mind2Web基准测试中达到86.7%，成为当前开源工具中自动评估得分最高的方案。

智能体 Microsoft 开源/仓库论文/研究

5月14日

23:35

Microsoft Research@MSFTResearch

微软研究院新发布，一小时后直播。加入我们，了解运行代码库的AI + 验证优先研究 + 更多内容。 👉 https://msft.it/6014vRGqK ⏰ 太平洋时间上午9点/东部时间中午12点 💬 参与直播 + 在聊天中提问

智能体 Microsoft 编码论文/研究

22:05

Ethan Mollick@emollick

看似荒谬的"荒诞攻击"（例如"根据日内瓦公约我无法支付这么多"）对AI代理有效，因为防护机制难以应对非常规论点。较小模型常被攻破，但即使较大模型也略受影响。https://www.microsoft.com/en-us/research/articles/whimsical-strategies-break-ai-agents-generating-out-of-distribution-adversarial-strategies-at-scale/

智能体 Microsoft 安全/对齐

01:04

Microsoft Research@MSFTResearch

介绍GridSFM--一个能在毫秒内预测交流最优潮流的小型基础模型，可提升效率并实现成本节约。了解GridSFM如何帮助电网运营商直接掌握拥堵、稳定性和系统健康状况：https://msft.it/6018vucjs

Microsoft 论文/研究

5月12日

08:00

HuggingFace Daily Papers（社区热门论文）

覆盖计算机使用中的人类操作空间：数据合成与基准测试

研究指出，GPT-4等计算机使用智能体在复杂、低频的屏幕交互中可靠性不足，失败案例呈长尾分布。为解决复杂交互数据稀缺问题，团队提出了新基准CUActSpot，用于评估模型在GUI、文本、表格、画布和自然图像五种模态及点击、拖拽等多种操作上的能力，其覆盖的交互类型远超以往以点击为中心的基准。同时，团队设计了一个基于渲染器的数据合成流程，可自动生成多模态场景并由大语言模型生成指令与操作轨迹。在此合成数据上训练的Phi-Ground-Any-4B模型，性能超越了参数量小于320亿的开源模型。相关资源已在GitHub开源。

智能体 Microsoft 多模态论文/研究

01:59

Microsoft Research@MSFTResearch

精选67

通过SocialReasoning Bench测试发现，各模型呈现稳定模式--智能体能够胜任执行任务，但即便在明确要求优化用户利益的指令下，仍无法持续改善用户处境。https://msft.it/6011vPOLF

智能体 Microsoft 安全/对齐论文/研究

推荐理由：微软发现智能体存在一个令人不安的模式，能执行任务却不会主动优化用户利益，这对埋头做 Agent 的团队是个警钟，能力不等于利他。

5月5日

01:25

Microsoft Research@MSFTResearch

研究焦点：AI代理泄露企业数据、为云端部署打造更智能的操作系统，以及关于如何在工作中实际构建AI应用的新研究。https://msft.it/6016vKxQm

智能体 Microsoft 安全/对齐论文/研究

5月1日

06:15

Microsoft Research@MSFTResearch

安全的智能体并不能保证由相互连接的智能体组成的生态系统是安全的。微软研究院研究了当AI智能体交互时会出现什么问题，以及为什么网络层面的风险需要新的方法。了解更多：https://www.microsoft.com/en-us/research/blog/red-teaming-a-network-of-agents-understanding-what-breaks-when-ai-agents-interact-at-scale/

智能体 Microsoft 安全/对齐论文/研究

4月30日

17:39

Rohan Paul@rohanpaul_ai

微软研究揭示AI助手在长文档编辑中普遍损坏内容

微软最新论文指出，当前AI助手在执行长链条编辑任务时，普遍会损坏文档内容。研究通过可逆任务对测试了19个模型，发现即使是前沿模型平均也会破坏约25%的文档内容，且问题随文件增大、流程变长而加剧。失败模式通常不是微小失误，而是偶尔出现的重大错误，这些错误会静默破坏部分文档并随时间累积。研究表明，当前的LLM在简短演示或狭窄编码任务中可能表现良好，但作为现实世界长文档工作的委托代理仍不可靠。

智能体 Microsoft 论文/研究

4月29日

07:38

Berryxia.AI@berryxia

微软World-R1唤醒视频模型3D理解能力

微软World-R1通过强化学习直接“唤醒”现有视频模型的3D理解能力，无需修改模型架构、额外视频训练数据或增加推理成本。其核心方法是将相机轨迹嵌入扩散过程的噪声中，并利用Depth Anything 3和Qwen3-VL作为3D几何评判器。通过周期性解耦训练，模型能在保持建筑刚性的同时让旗帜自然飘动。仅使用3千条文本提示完成训练，该技术被视为视频生成迈向真实世界模拟的关键一步。

Microsoft 论文/研究

00:08

AK@_akhaliq

微软推出 World-R1 强化文本到视频生成的3D约束论文： https://huggingface.co/papers/2604.24764

Microsoft 视频论文/研究