Loud and clear. #MSBuild kicks off on June 2.
Loud and clear. #MSBuild kicks off on June 2.
We've redesigned Copilot to be simpler, faster, and more intuitive, to help keep you in the flow of your work. Try it ou...
微软提出SkillOpt方法,旨在改进AI智能体技能的优化过程。其核心思想是将一个独立的技能文档视为优化对象,而非直接修改底层大语言模型。该方法让智能体尝试任务,分析成功与失败案例,然后由一个更强的优化器模型对技能文档进行小幅编辑。编辑只会在提升验证集表现时被接受,从而确保技能的稳定改进。在6个基准测试、7个目标模型和3种智能体设置(包括直接聊天、Codex和Claude Code)的共52个测试案例中,SkillOpt均达到最佳或并列最佳。在GPT-5.5上,它将直接聊天的平均准确度提升了23.5点。最终产出的技能文件可读、可移植且可复用,部署时无需重新训练模型。
微软计划在下周的 Build 大会上发布其自研 AI 模型,旨在成为 OpenAI 和 Anthropic 的更廉价替代方案。据报道,依赖 Anthropic 的 Claude 迫使微软提高了 GitHub Copilot 的价格并限制了开发者的实际使用量。尽管通过协议在 2032 年前可免费使用 OpenAI 模型,但微软正投入巨资以期在协议到期后减少依赖。负责 AI 模型的 Suleyman 团队两年来未在任何基准测试中领先,其解释称是受与 OpenAI 的协议限制,直至今年四月才可训练前沿模型。此次发布时机值得关注。
微软开源了终端原生Web Agent框架Webwright。其核心创新是“代码即动作”:让大语言模型直接编写可执行的Playwright Python脚本,而非传统的“观察-预测-点击”循环,由此生成的程序可复用。在性能上,基于GPT-5.4在Odysseys长程任务基准上达60.1%,较此前SOTA提升15.6个百分点;基于Claude Opus 4.7在难例上达80.5%,超越GPT-5.4。框架架构极简,核心代码约1000行,并已与Claude Code、OpenAI Codex等集成。用户评论表达了对该工具在浏览器自动化方面相比Playwright能带来巨大提升的期待。
Need to try this. Hoping for massive boost over Playwright for browser automation. https://github.com/microsoft/webwrigh...
微软联合上海交通大学等机构发布SkillOpt框架,旨在通过机器学习流程系统性地优化AI智能体的技能。该框架引入独立的优化器模型,通过harness闭环流程对技能进行编辑,且每次编辑必须在验证集上带来分数提升才被接受。框架设置了每步4到8个编辑操作的学习率预算,使核心修改控制在1到4个。实验表明,优化后的技能可使GPT-5.5的对话准确率提升23.5分。
微软研究院提出了SkillOpt方法,将AI智能体的技能文档视为可训练的外部状态,而非由工程师手动编写。该方法利用一个优化器模型对技能文件进行验证门控编辑,通过添加、删除或替换指令来优化文档,并引入文本学习率控制每轮重写力度,而智能体本身保持不变。实验显示,在全部52个测试单元(涵盖不同模型、基准测试和工具链)中,SkillOpt均达到最佳或并列最佳。具体在GPT-5.5上,相比无技能文档,SkillOpt在直接聊天、Codex和Claude Code下分别取得23.5、24.8和19.1分的提升,超越人类手写技能及其他自动化方法,且不增加推理时开销,学到的技能还能跨模型和工具链迁移。
Satya Nadella透露微软正借鉴丰田精益生产原则,将“精益知识工作”理念应用于内部AI运营。通过计算AI投资回报并利用其成本削减效应,微软在白领工作中部署AI以优化流程。例如,微软每年在客户支持业务上支出约40亿美元,通过部署AI代理处理前端问题分流及为支持人员提供实时推理协助,在Xbox和Azure等支持领域大幅降低了成本。
The startups joining us at #MSBuild 2026 are working on the problems that sit between a promising AI demo and something ...
🦔Microsoft canceled its internal Claude Code licenses this week after token-based billing made the cost untenable, even...
VSCode团队提出Agent-First Development框架,核心理念是开发主体从“人+编辑器”转向“人+Agent+编辑器”,人的角色转变为选择模型、提供上下文、定义意图和设定边界。五大支柱为:模型(匹配任务深度,按需选择思考档位)、执行边界(从问答到自主规划的渐进信任模式)、上下文(显式提供关键信息以避免错误)、提示(需清晰包含目标、范围与约束)与工具(能力需可控、可审计)。该框架旨在系统化指导人与AI代理高效协作开发。
The @code team released a new Introduction to Agent-First Development series. It breaks down these 5 pillars behind grea...
微软已开始大规模收回内部员工对Anthropic公司Claude Code工具的访问权限,要求开发者转向自家的GitHub Copilot CLI。尽管Claude Code在微软内部广受欢迎,但其成功反而凸显了自家Copilot CLI的定位尴尬。微软以统一工具链为由推动此次迁移,但核心考量也包括将支付给竞争对手Anthropic的成本收回。此举已引发被要求迁移工程师的普遍抵触。
AI服务定价正从包月制转向按用量计费,微软、Uber等企业因成本压力缩减AI预算。行业面临两难:维持价格将抑制使用量并影响AI公司收入增长,降价则会加剧亏损破坏经济性。核心矛盾在于固定订阅收入与指数增长的算力成本不匹配,形成利润剪刀差,这是AI编程工具及整个行业面临的结构性挑战。
🦔Microsoft canceled its internal Claude Code licenses this week after token-based billing made the cost untenable, even...
据The Information报道,微软正向AI公司Anthropic推销其第二代AI芯片Maia 200,强调该芯片在特定推理任务中比NVIDIA芯片更具成本效益。Maia 200专注于高速推理而非训练,双方已有深度合作基础:Anthropic已在Azure承诺300亿美元支出,且Claude已整合进微软Copilot。此次芯片合作旨在深化协同。分析认为,Maia 200无需全面超越NVIDIA,只要能在高量推理中提供更低成本选项,便可能将部分计算需求从GPU转移。
微软举办Claude使用工作坊,通过构建纸杯蛋糕店AI Agent的案例,演示了从部署云模型、接入MCP服务器连接工具与数据源,到赋予企业级安全与可观测性的完整流程。工作坊以实操为主,开发者可现场跟随编码,强调AI Agent已从概念验证进入快速生产落地的实用阶段,成为开发者能直接构建的业务工具。
微软AI业务负责人Mustafa Suleyman警告,AI可能在12到18个月内实现对大多数基于计算机的专业任务的自动化。他指出,这类工作的核心是将人类意图转化为数字指令(如处理文档、邮件、代码、项目管理等),而这正是AI代理日益能够阅读、规划、执行并修正的流程。其风险并非源于技能门槛低,而在于许多高成本的办公任务本质上是重复性的阅读、书写、比较、归档、总结、搜索和基于已知规则的决策模式。
前微软高管指出,尽管微软每季度投入巨额资金于AI,但其Copilot等产品的实际用户付费率极低,未能有效激发市场热情。硬件厂商在笔记本电脑中内置NPU芯片,却未能催生出具有吸引力的杀手级应用,这反映出即使是擅长分发的巨头,若产品本身缺乏足够的拉动力,也难以取得成功。与此同时,该高管也强调微软在企业市场拥有的强大护城河依然稳固。这种矛盾的现状,使得未来18个月对微软AI战略的走向至关重要。
微软AI CEO Mustafa Suleyman预测,AI将在18个月内实现人类水平的性能,自动化大多数专业任务,包括会计、法律、营销和项目管理。他在Fortune采访中指出,所有涉及“坐在电脑前”的白领工作都将被AI完全取代。Suleyman透露自己的使命是构建“超级智能”,并展望未来创建新AI模型将像制作播客或写博客一样便捷。
作者回顾2026年密集参与的全球顶级科技活动。在NVIDIA GTC期间,与副总裁探讨世界模型和Nemotron等AI前沿话题,并体验了NVIDIA Alpamayo自动驾驶系统。随后首次访问中国小鹏汽车,考察其人形机器人及自动驾驶进展。即将启程参加Google I/O和微软Build大会,计划进行深度采访并报道最新技术发布。作者正整理多场对话、幕后影像,坦言旅程唯一遗憾是与幼子的短暂分别。
企业AI的竞争维度正从模型性能转向智能体控制平面,即管理AI任务规划、工具调用、数据访问与安全权限的基础设施层。VentureBeat调查显示,微软以38.6%份额领先,OpenAI占25.7%,Anthropic首次以5.7%进入榜单,标志其Claude从被调用模型转变为编排基础设施。企业选择编排平台时,安全与权限管理已超越模型性能成为首要考量,反映企业更重视部署AI时的合规、审计与责任归属。
Meta 收购 Manus 时,第一反应是: Microsoft 要收购 GenSpark 了吧,这可能是 Microsoft 唯一的选择 但后来 OpenClaw 很快就横空出世,Manus 的产品形态变得更普遍甚至被超越,Meta 一时间变成了“冤大头”,随即后面商务部叫停了收购,Meta 也算是意外免去了损失 在 Hermes Agent 等一众 OpenClaw 接替产品,和 Codex、Claude Code 等不断变成通用 Agent 的时间点,留给 GenSpark 和 Manus 的方向是什么呢?
I'm very happy to have been invited to the Microsoft CEO Summit, and to see my former boss Satya again. ❤️
BREAKING 🚨: Inception has launched Mercury 2, the first reasoning diffusion LLM with 5x the performance of top-speed-op...
New in @openclaw beta: one path scheme to rule them all. `openclaw path read|write|append` works the same across md, jso...
微软推出新型多模型智能体安全系统,整合了超过100个基于前沿和定制模型的专用智能体,用于发现可利用的安全漏洞。该系统在CyberGym基准测试中取得了顶级性能。在最近的Patch Tuesday之前,该系统已帮助发现并修复了16个漏洞。微软宣布客户现可申请加入该系统的私有预览测试。
sam altman, under oath, clarifies that microsoft will lose access to openai's research IP "after AGI" sam: "we separated...