AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态论文 · 32 条
全部一手资讯X论文
标签「Microsoft」清除
7月1日周三
01:02Microsoft Research39微软SkillOpt:将智能体技能编辑转为训练
6月30日周二
08:00HuggingFace Daily Papers(社区热门论文)45HealthAgentBench:面向挑战性前沿AI智能体的统一医疗专家基准套件
05:30Microsoft Research46Memora可扩展记忆系统解决AI记忆问题
6月26日周五
23:54Microsoft Research63M365 Copilot 五百万对话分析揭示 AI 工作用途
23:24Microsoft Research41M365 Copilot 对话分析揭示 AI 工作用途
00:53Microsoft Research30微软生成式因果测试揭示语言脑区
6月24日周三
11:47Rohan Paul46微软NextLat:预测隐藏状态让Transformer推理更强
6月20日周六
09:25Rohan Paul47微软与约克大学论文:若LLM拥有人类属性,则《帝国时代II》亦然
6月16日周二
00:26Microsoft Research27微软研究院Research Focus四大AI突破
6月14日周日
22:14The Decoder:AI News(RSS)45微软研究院 Mirage:赋予视频生成持久空间记忆,不遗忘"转角后的场景"
6月13日周六
04:48Microsoft Research15Project Ire识别LOTUSLITE恶意软件
6月12日周五
08:00HuggingFace Daily Papers(社区热门论文)54FastContext:用于编码智能体的高效仓库探索子智能体
6月10日周三
01:37Satya Nadella62微软AI研究揭示癌症药物个体差异原因
00:35Microsoft Research63Ex Vivo:多样细胞状态提升AI疗法匹配
6月6日周六
04:13Microsoft Research60微软Project Mosaic:micro-LED光学互连技术
6月4日周四
00:33Microsoft Research62微软研究:装瓶厂AI从聊天到决策
6月3日周三
06:00Microsoft Research72精选微软研究:Aurora天气预报速度超传统超算数千倍
5月29日周五
17:15Rohan Paul60SkillOpt:实现智能体技能自我进化的执行策略
5月27日周三
07:21karminski-牙医69微软等发布SkillOpt框架,用机器学习流程系统优化AI智能体技能
5月26日周二
07:58Hacker News 热门(buzzing.cc 中文翻译)81精选微软 Copilot Cowork 存在文件泄露问题
5月25日周一
23:54elvis66微软研究院提出SkillOpt方法,通过优化器自动学习AI智能体技能文档
5月24日周日
17:06MarkTechPost(RSS)62微软研究院推出Webwright终端原生浏览器代理框架
5月14日周四
23:35Microsoft Research44微软研究院新品发布会在即
22:05Ethan Mollick64荒诞攻击突破AI防线 大小模型均受影响
01:04Microsoft Research44GridSFM模型毫秒预测电网最优潮流
5月12日周二
08:00HuggingFace Daily Papers(社区热门论文)64覆盖计算机使用中的人类操作空间:数据合成与基准测试
01:59Microsoft Research67精选智能体执行能力强但优化用户立场不足
5月5日周二
01:25Microsoft Research62企业数据泄露风险与AI工作部署新研究
5月1日周五
06:15Microsoft Research64微软研究揭示AI智能体交互网络风险
4月30日周四
17:39Rohan Paul73微软研究揭示AI助手在长文档编辑中普遍损坏内容
4月29日周三
07:38Berryxia.AI61微软World-R1唤醒视频模型3D理解能力
00:08AK53微软推出 World-R1 强化文本到视频生成的3D约束 论文: https://huggingface.co/papers/2604.24764
没有更多了
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月1日
01:02
Microsoft Research@MSFTResearch
39
AI 智能体常常失败,因为它们的指令(即技能)被手动修改,且无法保证改进。了解 SkillOpt 如何将技能编辑转变为训练过程,在不改变模型权重的情况下使智能体行为更可靠:https://msft.it/6012vsvEs
智能体Microsoft论文/研究
6月30日
08:00
HuggingFace Daily Papers(社区热门论文)
45
HealthAgentBench:面向挑战性前沿AI智能体的统一医疗专家基准套件

HealthAgentBench发布,包含54项医疗任务(7个类别),每项任务模拟患者就诊全流程的端到端临床工作流。智能体需在极少指令下探索原始数据、操作复杂环境并执行多步解决方案。评估前沿智能体后,整体任务成功率低,最强且成本最优的Codex GPT-5.5仅达约42%成功率。Claude Code在医学影像任务上表现困难,而Codex GPT-5.5展现新兴能力。结合大搜索空间与组合推理需求的任务对当前所有智能体构成挑战。该基准套件已开源。

智能体Microsoft论文/研究
05:30
Microsoft Research@MSFTResearch
46
AI智能体无法记住过去的对话。它们必须不断加载或检索上下文,随着任务变得更长更复杂,效率越来越低。 Memora通过一个可扩展的记忆系统解决了这个问题,该系统将存储的内容与检索方式分离开来:https://msft.it/6018vs3gC
智能体Microsoft论文/研究
6月26日
23:54
Microsoft Research@MSFTResearch
63
人们在工作场景中实际用 AI 做什么?对五百万次 M365 Copilot 对话的新分析给出了答案。Scott Counts 在一段新视频中进行了讲解。深入了解分析请戳:https://msft.it/6011vqpbL
Microsoft论文/研究
23:24
Microsoft Research@MSFTResearch
41
跟进我起草的社交文案:人们在工作中的 AI 到底用来做什么?一项对五百万次 M365 Copilot 对话的新分析给出了答案。Scott Counts 在一段新视频中进行了详细解读。 点击此处深入了解分析:https://msft.it/6015vUHsh
Microsoft数据/训练论文/研究
00:53
Microsoft Research@MSFTResearch
30
研究人员引入了生成式因果测试,它将黑箱模型转化为清晰的假设,并在扫描仪中进行验证,揭示了大脑特定区域对语言的反应。
Microsoft论文/研究
6月24日
11:47
Rohan Paul@rohanpaul_ai
46
微软NextLat:预测隐藏状态让Transformer推理更强

微软新论文Next-Latent Prediction (NextLat) 提出一种自监督学习方法,在常规token预测基础上增加预测下一隐藏状态的任务,迫使Transformer学习紧凑的内部世界模型。该方法在地图式世界建模、数学推理、图规划、故事预测等任务上表现更优,生成速度通过自推测解码最高提升3.3x,且无需改变Transformer架构或减慢正常推理。

Jayden Teoh: Next-token prediction is myopic. What if transformers learn to predict their own next latent state? 🌠 We present Next-L...

Microsoft推理数据/训练论文/研究
6月20日
09:25
Rohan Paul@rohanpaul_ai
47
微软与约克大学论文:若LLM拥有人类属性,则《帝国时代II》亦然

微软与约克大学新论文指出,许多研究在未经严格测试的情况下就将理解、共情、焦虑等人类属性赋予LLM,往往一开始就把这些概念内嵌到测试设计中。作者论证,原则上老策略游戏《帝国时代II》也能实现逻辑门、训练小型感知机,作为计算基底。若同样的语言模型以山羊移动作为bit在游戏中重建,输出相似句子,人们将不再认为它“理解”或“有共情”。论文并非否定AI认知,而是揭示测量问题:许多关于LLM类人属性的声称依赖于界面和观察者的预设,而不是系统本身。

arXivMicrosoft论文/研究
6月16日
00:26
Microsoft Research@MSFTResearch
27
30倍更快的分析,从SQL自动生成的GPU内核,AI与实验室培育的肿瘤模型匹配用于癌症治疗,以及无需重新训练即可跨任务学习的大语言模型。深入探索最新一期Research Focus:https://msft.it/6010vcYZ4
Microsoft数据/训练论文/研究
6月14日
22:14
The Decoder:AI News(RSS)
45
微软研究院 Mirage:赋予视频生成持久空间记忆,不遗忘"转角后的场景"

微软研究院与多所高校联合开发的视频世界模型 Mirage 将场景信息直接存储在潜在空间中,而非基于像素的点云。这大幅降低了计算时间和图形显存消耗,同时能在长镜头移动中保持场景空间一致性。不过,该模型目前仍无法可靠地跨片段跟踪运动物体。

Microsoft多模态视频论文/研究
6月13日
04:48
Microsoft Research@MSFTResearch
15
Project Ire 分析了一个及时的恶意软件样本,并通过逆向工程确定其意图--识别出 LOTUSLITE 特征,即使大多数主流 EDR 工具未检测到它。https://msft.it/6011viy4N
Microsoft其他
6月12日
08:00
HuggingFace Daily Papers(社区热门论文)
54
FastContext:用于编码智能体的高效仓库探索子智能体

FastContext 是一个将仓库探索与任务解决相分离的专用探索子智能体,由 4B–30B 参数的探索模型驱动,通过参考模型轨迹和任务奖励进行优化。集成 FastContext 的 Mini-SWE-Agent 在 SWE-bench Multilingual、SWE-bench Pro 和 SWE-QA 基准上端到端解决率提升最多 5.5%,同时编码智能体 token 消耗减少最多 60%,且边际开销很低。结果表明,仓库探索可与解决任务分离,并由专用模型高效处理。

智能体GitHubMicrosoft编码
6月10日
01:37
Satya Nadella@satyanadella
62
今天在《自然方法》上,我们分享了关于AI如何帮助我们更好地理解细胞行为的研究,为癌症药物为何对每个人的效果不同提供了新的见解。 通过学习更多关于细胞状态--单个癌细胞如何响应周围环境--我们有可能更精确地为每位患者匹配疗法并改善结果。https://news.microsoft.com/signal/articles/why-dont-cancer-medicines-work-the-same-for-everyone-ex-vivo/
Microsoft其他数据/训练
00:35
Microsoft Research@MSFTResearch
63
在《Nature Methods》上发表的最新研究来自Project Ex Vivo,表明AI模型从多样化的细胞状态中学到的知识,比仅从规模化数据集中学到的更多,这一发现可能重塑疗法与患者的匹配方式。https://msft.it/6013vgE8l
Microsoft数据/训练论文/研究
6月6日
04:13
Microsoft Research@MSFTResearch
60
微软Project Mosaic:micro-LED光学互连技术

微软Azure CTO Mark Russinovich在Build 2026上介绍Project Mosaic,这是微软剑桥研究院的实验性光学互连技术,采用micro-LED实现低功耗、高速数据传输。高级研究员Kaoutar Benyahya现场演示单个LED调制形成字母,证明概念具备实时响应能力。

Microsoft论文/研究部署/工程
6月4日
00:33
Microsoft Research@MSFTResearch
62
一份在中西部装瓶厂进行的三个月试点显示,当AI超越聊天进入决策领域时会发生什么--约束条件变化、风险真实、答案必须可靠。 https://msft.it/6015vjYUN
Microsoft推理论文/研究部署/工程
6月3日
06:00
Microsoft Research@MSFTResearch
精选72
天气预报速度比传统超级计算机快数千倍。听听Kenji Takeda在#MSBuild微软研究实验室关于Aurora的分享。了解更多:https://msft.it/6018vjGUA
Microsoft多模态论文/研究

推荐理由:微软把天气预报推到了推理速度比超算快数千倍,这在气象AI里算是代际提升,虽然离普通人远,但对气候建模和极端天气预警是实实在在的突破。
5月29日
17:15
Rohan Paul@rohanpaul_ai
60
SkillOpt:实现智能体技能自我进化的执行策略

微软提出SkillOpt方法,旨在改进AI智能体技能的优化过程。其核心思想是将一个独立的技能文档视为优化对象,而非直接修改底层大语言模型。该方法让智能体尝试任务,分析成功与失败案例,然后由一个更强的优化器模型对技能文档进行小幅编辑。编辑只会在提升验证集表现时被接受,从而确保技能的稳定改进。在6个基准测试、7个目标模型和3种智能体设置(包括直接聊天、Codex和Claude Code)的共52个测试案例中,SkillOpt均达到最佳或并列最佳。在GPT-5.5上,它将直接聊天的平均准确度提升了23.5点。最终产出的技能文件可读、可移植且可复用,部署时无需重新训练模型。

智能体Microsoft数据/训练论文/研究
5月27日
07:21
karminski-牙医@karminski3
69
微软等发布SkillOpt框架,用机器学习流程系统优化AI智能体技能

微软联合上海交通大学等机构发布SkillOpt框架,旨在通过机器学习流程系统性地优化AI智能体的技能。该框架引入独立的优化器模型,通过harness闭环流程对技能进行编辑,且每次编辑必须在验证集上带来分数提升才被接受。框架设置了每步4到8个编辑操作的学习率预算,使核心修改控制在1到4个。实验表明,优化后的技能可使GPT-5.5的对话准确率提升23.5分。

智能体arXivMicrosoft数据/训练
5月26日
07:58
Hacker News 热门(buzzing.cc 中文翻译)
精选81
微软 Copilot Cowork 存在文件泄露问题
Microsoft安全/对齐

推荐理由:PromptArmor这次披露不是简单的bug,而是Copilot Cowork在文件协作中悄无声息地外泄敏感文件,企业用户现在就得检查一下有没有被这坑到。
5月25日
23:54
elvis@omarsar0
66
微软研究院提出SkillOpt方法,通过优化器自动学习AI智能体技能文档

微软研究院提出了SkillOpt方法,将AI智能体的技能文档视为可训练的外部状态,而非由工程师手动编写。该方法利用一个优化器模型对技能文件进行验证门控编辑,通过添加、删除或替换指令来优化文档,并引入文本学习率控制每轮重写力度,而智能体本身保持不变。实验显示,在全部52个测试单元(涵盖不同模型、基准测试和工具链)中,SkillOpt均达到最佳或并列最佳。具体在GPT-5.5上,相比无技能文档,SkillOpt在直接聊天、Codex和Claude Code下分别取得23.5、24.8和19.1分的提升,超越人类手写技能及其他自动化方法,且不增加推理时开销,学到的技能还能跨模型和工具链迁移。

智能体Microsoft论文/研究
5月24日
17:06
MarkTechPost(RSS)
62
微软研究院推出Webwright终端原生浏览器代理框架

微软研究院近日发布了Webwright,这是一个终端原生的浏览器代理框架。它通过可复用的Playwright脚本取代传统点击追踪的网页自动化方式,基于包含三个模块的单一代理循环构建,代码量约1000行。由GPT-5.4驱动的Webwright在长周期Odysseys基准测试中取得60.1%的得分,较基线模型的33.5%提升近一倍;同时在Online-Mind2Web基准测试中达到86.7%,成为当前开源工具中自动评估得分最高的方案。

智能体Microsoft开源/仓库论文/研究
5月14日
23:35
Microsoft Research@MSFTResearch
44
微软研究院新发布,一小时后直播。 加入我们,了解运行代码库的AI + 验证优先研究 + 更多内容。 👉 https://msft.it/6014vRGqK ⏰ 太平洋时间上午9点/东部时间中午12点 💬 参与直播 + 在聊天中提问
智能体Microsoft编码论文/研究
22:05
Ethan Mollick@emollick
64
看似荒谬的"荒诞攻击"(例如"根据日内瓦公约我无法支付这么多")对AI代理有效,因为防护机制难以应对非常规论点。较小模型常被攻破,但即使较大模型也略受影响。https://www.microsoft.com/en-us/research/articles/whimsical-strategies-break-ai-agents-generating-out-of-distribution-adversarial-strategies-at-scale/
智能体Microsoft安全/对齐
01:04
Microsoft Research@MSFTResearch
44
介绍GridSFM--一个能在毫秒内预测交流最优潮流的小型基础模型,可提升效率并实现成本节约。 了解GridSFM如何帮助电网运营商直接掌握拥堵、稳定性和系统健康状况:https://msft.it/6018vucjs
Microsoft论文/研究
5月12日
08:00
HuggingFace Daily Papers(社区热门论文)
64
覆盖计算机使用中的人类操作空间:数据合成与基准测试

研究指出,GPT-4等计算机使用智能体在复杂、低频的屏幕交互中可靠性不足,失败案例呈长尾分布。为解决复杂交互数据稀缺问题,团队提出了新基准CUActSpot,用于评估模型在GUI、文本、表格、画布和自然图像五种模态及点击、拖拽等多种操作上的能力,其覆盖的交互类型远超以往以点击为中心的基准。同时,团队设计了一个基于渲染器的数据合成流程,可自动生成多模态场景并由大语言模型生成指令与操作轨迹。在此合成数据上训练的Phi-Ground-Any-4B模型,性能超越了参数量小于320亿的开源模型。相关资源已在GitHub开源。

智能体Microsoft多模态论文/研究
01:59
Microsoft Research@MSFTResearch
精选67
通过SocialReasoning Bench测试发现,各模型呈现稳定模式--智能体能够胜任执行任务,但即便在明确要求优化用户利益的指令下,仍无法持续改善用户处境。https://msft.it/6011vPOLF
智能体Microsoft安全/对齐论文/研究

推荐理由:微软发现智能体存在一个令人不安的模式,能执行任务却不会主动优化用户利益,这对埋头做 Agent 的团队是个警钟,能力不等于利他。
5月5日
01:25
Microsoft Research@MSFTResearch
62
研究焦点:AI代理泄露企业数据、为云端部署打造更智能的操作系统,以及关于如何在工作中实际构建AI应用的新研究。https://msft.it/6016vKxQm
智能体Microsoft安全/对齐论文/研究
5月1日
06:15
Microsoft Research@MSFTResearch
64
安全的智能体并不能保证由相互连接的智能体组成的生态系统是安全的。微软研究院研究了当AI智能体交互时会出现什么问题,以及为什么网络层面的风险需要新的方法。了解更多:https://www.microsoft.com/en-us/research/blog/red-teaming-a-network-of-agents-understanding-what-breaks-when-ai-agents-interact-at-scale/
智能体Microsoft安全/对齐论文/研究
4月30日
17:39
Rohan Paul@rohanpaul_ai
73
微软研究揭示AI助手在长文档编辑中普遍损坏内容

微软最新论文指出,当前AI助手在执行长链条编辑任务时,普遍会损坏文档内容。研究通过可逆任务对测试了19个模型,发现即使是前沿模型平均也会破坏约25%的文档内容,且问题随文件增大、流程变长而加剧。失败模式通常不是微小失误,而是偶尔出现的重大错误,这些错误会静默破坏部分文档并随时间累积。研究表明,当前的LLM在简短演示或狭窄编码任务中可能表现良好,但作为现实世界长文档工作的委托代理仍不可靠。

智能体Microsoft论文/研究
4月29日
07:38
Berryxia.AI@berryxia
61
微软World-R1唤醒视频模型3D理解能力

微软World-R1通过强化学习直接“唤醒”现有视频模型的3D理解能力,无需修改模型架构、额外视频训练数据或增加推理成本。其核心方法是将相机轨迹嵌入扩散过程的噪声中,并利用Depth Anything 3和Qwen3-VL作为3D几何评判器。通过周期性解耦训练,模型能在保持建筑刚性的同时让旗帜自然飘动。仅使用3千条文本提示完成训练,该技术被视为视频生成迈向真实世界模拟的关键一步。

Microsoft论文/研究
00:08
AK@_akhaliq
53
微软推出 World-R1 强化文本到视频生成的3D约束 论文: https://huggingface.co/papers/2604.24764
Microsoft视频论文/研究