微软在 Build 2026 上与高通联合发布 Project Solara,主打“智能体优先计算”,系统运行 Agent Shell 动态加载云端 AI 智能体。纳德拉称正从为应用构建操作系统转向为智能体构建操作系统,此前已披露 Windows 11 将演进为智能体操作系统。针对 404 Media 报道的内部文件称微软曾计划让 AI 助手 Scout“上瘾”,纳德拉否认并称“胡说八道”。微软发言人表示 Scout 旨在帮助高效完成任务而非鼓励依赖,目标是减少屏幕时间。
微软在 Build 2026 上与高通联合发布 Project Solara,主打“智能体优先计算”,系统运行 Agent Shell 动态加载云端 AI 智能体。纳德拉称正从为应用构建操作系统转向为智能体构建操作系统,此前已披露 Windows 11 将演进为智能体操作系统。针对 404 Media 报道的内部文件称微软曾计划让 AI 助手 Scout“上瘾”,纳德拉否认并称“胡说八道”。微软发言人表示 Scout 旨在帮助高效完成任务而非鼓励依赖,目标是减少屏幕时间。
GitHub 发布开源工具包 Spec Kit,旨在解决 "vibe coding" 的最大弱点——AI 常在规则未明确时就开始编码。它把流程从 "让 AI 直接构建" 改为 "先写产品规范,再让 AI 根据规范实现"。当前 AI 编码模式常因松散提示直接跳入代码,导致需求薄弱、边界遗漏和反复返工。Spec Kit 推动反向流程:先定义产品功能,再澄清差距、制订技术计划、分解任务,最后让 agent 执行。规范成为可执行的开发合约,支持 Copilot、Claude Code、Codex、Gemini、Cursor、Qwen 等 30+ agent 集成。项目已获 109K+ 星标。
Anthropic 5 月发布白皮书,提出企业部署自主 AI Agent 时须将零信任原则延伸至 Agent 架构。报告指出双重加速:前沿模型将漏洞发现到利用周期压缩至数小时;Agent 能自主解释目标、选工具、执行多步操作,传统访问控制无法阻止“合法权限内作恶”。核心原则:永不信任始终验证、假设已遭入侵、最小权限;另附设计检验——控制是让攻击不可能,还是仅增加麻烦?报告分五部分:Agent 为何是新安全对象、威胁图谱、三层能力成熟度模型、八阶段实施工作流、防御运营适配自主威胁速度。
Meta正在开发一款名为"Hatch"的付费AI智能体产品,月费最高200美元。用户只需用自然语言描述需求,Hatch即可构建工作工具、安排日程或发送邮件。Meta CEO马克·扎克伯格认为,该产品将开辟广告之外的新收入来源,为公司在AI领域的巨额投资提供资金支持。这是Meta推出的首个付费AI产品。
Persona Atlas 是一个运行在 Hugging Face Inference Providers 上的开源项目。它通过工具调用代理执行真实网络搜索,生成公众人物的资料、事实清单和风格假设,然后让该人物回答十个关于身份、伦理等开放式问题。每个回答被转化为嵌入向量,从而在向量空间中对不同人物进行距离比较,并基于十个特质锚点绘制热力图。前端采用 Gradio,提供研究、比较和检查代理完整追溯三个标签页,预设多个人物角色,无需 token 即可直接体验。
OpenRouter 展开了 30 场 AI 大逃杀式对比,涉及 11 个大语言模型,共消耗 482 美元推理费用。实验得出一个发现,该发现应改变用户阅读模型基准测试的方式。
同一事件,精选展示《OpenRouter 翻遍 11 款 LLM 找最快的决策模型:Claude vs. Grok 领衔》We've doubled usage limits in Claude Cowork for the next month. Delegate bigger, more complex tasks to Claude.
Kimi Code CLI 是 Moonshot AI 推出的开源终端 AI 编码智能体,使用 TypeScript 构建,内置子智能体(subagents)与 MCP 配置支持。
Obsidian 加上 Codex,再配合合适的 API、MCP 和 Skills,基本上能替代目前 90% 以上的 AI Agent 产品。 这是我将笔记从 Notion 迁移到 Obsidian 一个月之后的感受。
微软CEO纳德拉表示,公司正借鉴管理员工的思路,为内部AI智能体设定身份和权限边界,明确哪些内容可访问,并建立审计机制。纳德拉本人同时运行100个AI编程智能体,管理认知负荷极高。微软推出Agent 365工具套件,包括数字身份与网络访问产品Entra,以及用于标记智能体生成数据的Purview,以提供安全性、隔离性、可管理性和可观测性。
install codex on your parents' computers so you can fix stuff remotely
阿里巴巴Qwen团队发布Qwen3.7-Plus,一个将视觉感知、GUI操作和编码能力整合到单一智能体循环中的多模态智能体模型。在演示中,基于该模型的智能体自主开发了一款词汇学习应用,生成了超过10,000行代码,共执行了1,000次智能体调用,耗时11小时。该模型在Qwen自主基准测试的屏幕理解任务上领先,但整体性能表现参差不齐。Qwen3.7-Plus为闭源模型,价格远低于西方前沿模型。
微软近日向 Frontier 项目组织开放 Scout 桌面应用,该应用是微软首个 Autopilot 智能体,在 Microsoft 365 生态中持续待命,支持 Windows 10、Windows 11 和 macOS。界面内可选择 OpenAI 与 Anthropic 的多款模型,并可为智能体设定“个性”。自动化方面支持用户搭建多步骤工作流,具备类似 Zapier 的编排能力,还提供无头浏览器模式以在后台更快执行任务。此外,Scout 能结合本地文件、生成演示文稿、辅助编写代码。
在2026台北国际电脑展上,黄仁勋指出未来计算将收敛为一套面向AI智能体的统一模式,从云端延伸至PC、汽车、机器人及各类边缘设备。该模式覆盖AI训练与推理,使所有边缘设备具备自主运行能力。自动驾驶、类人机器人和通信基站本质上是同类智能体系统。英伟达驾驶系统基于语言推理,未来可通过读取“技能文件”和教程视频操作陌生设备。数据中心方面,新推的88核Arm处理器Vera已全面量产,专为AI智能体生成词元设计,侧重单线程速度和内存带宽。
我教你们咋Vibecoding!!! 打开Codex,打开侧边栏,选择终端,输入Claude 现在鱼和熊掌兼得了,Claude code规划,Codex干活!!
宝玉的新书《图解Skill》已出版,配套 GitHub Repo 开源了书中涉及的所有可复制粘贴的 Skills,包括之前未公开的播客文字稿转访谈稿 Skill。读者理论上可以不买书直接使用 Repo 内容。电子书版本同步上线,方便读者复制粘贴。
@xiaohu @dotey 这类书只想看电子版,毕竟适合复制粘贴
Codex 现在支持审查代码修改,可选择“Last turn”查看上一次 AI 更改的内容,并对部分代码进行评论。评论会直接附加在左侧会话中,提交后作为上下文发送给 Agent,使其能针对评论进行处理。
iOS 27 版 Siri 围绕用户画像、屏幕感知和应用整合三大方向升级:可访问邮件、信息等内容,理解当前屏幕并跨应用串联任务。Siri 升级为聊天机器人形态,具备搜索、概括、内容与图像生成能力,支持多轮对话和上下文记忆。苹果为其打造独立应用,驻留灵动岛并采用发光胶囊动画与透明卡片展示。隐私方面推行本地+私有云机制,部分请求转 Google Cloud 调用授权版 Gemini。iOS 27 允许 Siri 接入 ChatGPT、Claude、Gemini 等第三方 AI。新 Siri 预计 2026 年 6 月 8 日在 WWDC 预览。
苹果在 2026 年全球开发者大会(WWDC)开幕前夕汇总 iPadOS 27 新功能,聚焦 AI 体验升级。Safari 新增 Organize Tabs 功能,自动按主题整理标签页。Spotlight 搜索深度整合 Siri,支持提问、找文件、启动应用、查询天气等,并接入新 AI 搜索系统。快捷指令支持自然语言创建。系统级语法检查覆盖全系统,以半透明菜单展示原文和修改建议,可单独或批量接受修改。
Claude Code v2.1.166 新增 fallbackModel 设置,最多配置三个后备模型在主模型过载或不可用时按序尝试;--fallback-model 现也适用于交互会话。deny rule 中工具名位置支持 glob 模式("*"拒绝所有工具),未知工具名启动时警告。跨会话消息中继不再携带用户权限,接收方拒绝被中继的权限请求。MAX_THINKING_TOKENS=0、--thinking disabled 及逐模型 thinking 开关可禁用默认开启思考的模型(仅 Claude API,第三方不变)。API 返回非预期不可重试错误时,在后备模型上重试一次。修复了图像处理失败、远程会话卡死、JetBrains IDE 终端闪烁、Kitty 键盘协议下 Shift+非 ASCII 字符丢失、PowerShell 命令验证挂起、macOS 后台进程孤儿化等问题。
同一事件,精选展示《Claude Code v2.1.163 发布》Lee Robinson 展示 Cursor 编码智能体今天的五个任务:1)10 分钟语音笔记生成 90% 完成的着陆页并合并;2)Cursor 用 computer use 分析 Search Console 和 Semrush 后合并 3 个 SEO 优化 PR;3)通过 Supabase MCP 提取数千封邮件,结合网络搜索筛选参会者并生成 CSV;4)几小时内更新内部全员调查应用;5)多个智能体研究家具并生成含图片、价格、链接的定制购物车 HTML 页面。这些任务在云后台静默运行,可实时查看进度和合并 PR。作者表示仍使用 $200/月 计划。
姚顺雨在腾讯云AI大会上首次公开亮相,指出AI已进入下半场,核心从“怎么训练”转向“找好问题”,认为context是Agent时代关键壁垒,腾讯在场景、数据、工具链上有结构性优势。他披露Hy3 preview模型:295B总参数、21B激活参数,首token延迟降低54%,可驱动最长495步Agent工作流。他还提出Co-Design理念,强调模型与产品深度协同,该模型以实用性为导向,不在榜单过度竞争。
在 #BestBlogs 6月6日早报推荐中,腾讯集团高级执行副总裁汤道生与首席AI科学家姚顺雨同台对谈,聚焦AI下半场核心命题:从「解决问题」转向「定义问题」、模型与产品的Co-Design、Agent技术的演进与性价比、以及腾讯在AI时代的战略节奏与组织变革。
POISE是一种位置感知的攻击方法,通过将触发指令压缩为单个看似良性的身体指令,并利用上下文感知生成器将其与附近步骤融合,实现对LLM智能体的隐蔽技能注入。在codex+gpt-5.2上的Skill-Inject评估中,POISE达到89.3%的攻击成功率(ASR),比随机位置身体基线高28.0个百分点,比仅YAML注入基线高2.6个百分点,同时保留了身体注入的隐蔽优势。由于LLM扫描器对合法技能身体误判率达74.6%,POISE仅使5.6%的受污染变体触发新的高风险警报,令当前静态防御失效。
Bayesian-Agent是一个原生跨框架,将可复用的技能和SOP视为关于冻结LLM在特定提示、上下文和环境下能否成功的后验假设。它记录已验证的轨迹证据,维护基于特征条件的分类后验,并将后验状态映射为补丁、拆分、压缩、退役和探索等可检查操作。使用deepseek-v4-flash,该方法使SOP-Bench从80%提升至95%,Lifelong AgentBench从90%提升至100%,RealFin-Bench从45%提升至65%。评估覆盖原生后端及GenericAgent、mini-swe-agent、Claude Code等可选后端,结果包含正、负、饱和及案例研究。源代码已开源。
作者分享了一个用于测试驱动开发(TDD)的Agent技能,该技能在Hacker News上获得100个HN点数,于6月4日发布。
Lowfat是一款可插拔的命令行界面(CLI)过滤器,可在LLM使用场景中节省约91.8%的模型token消耗。项目已开源并托管在GitHub上。
We've doubled usage limits in Claude Cowork for the next month. Delegate bigger, more complex tasks to Claude.
开发者用Qwen2.5-3B构建了五人森林生物多智能体经济体,每个智能体独立运行,通过vLLM部署在Modal,以Gradio为交互窗口。3B模型在100%调用中输出有效JSON,但经济判断能力弱。通过设计稀缺性(食物品种限制、易腐坏、冬季燃料危机)和优化提示词(禁止买入自产物品、给出示例)提升决策质量。15轮模拟中,蜜价从10跌至3、柴价从4涨至7、财富基尼系数从0.14扩至0.38。项目展示了小模型可靠格式化与不可靠推理之间的工程填补。
Arena 推出基于真实用户任务的智能体排行榜,评估模型在代码编写、应用构建、文档分析等工作中的表现,而非孤立基准。排行榜基于30万+任务、200万+工具调用和4000万行代码,综合任务成功、纠正遵从性、错误恢复、用户表扬与抱怨、工具幻觉等信号。前三名:GPT-5.5 High(+10.7%)、Claude Opus 4.7 Thinking(+9.5%)、GPT-5.4 High(+8.9%)。
Introducing Agent Arena: real-world agentic evals at scale. How do you evaluate agents doing actual work? We measure mil...
MIT Buehler团队提出Self-Revising Discovery Systems框架,让AI能自主扩展科学词汇(变量、工具、验证器、模型结构),而非仅搜索固定空间。论文使用typed copresheaf和Kan obstruction数学框架形式化智能体工作流,证明真正发现是可验证的schema扩展:旧证据通过Left Kan extension迁移,新异性由pointwise残差客观量化,区分发现与搜索。三种模态:检索(添加已知对象)、搜索(固定schema)、发现(验证的范式转换)。案例包括Builder/Breaker发现蛋白质模式条件合规性,CategoryScienceClaw发现各向异性纤维网络刚度规则。论文arXiv:2606.01444(2026)。
We've made a breakthrough in self-evolving AI scientists moving from "search" to "principled discovery": Scientific disc...
Hacker News 上一个讨论帖询问开发者们使用的AI开发技术栈与工作流程,目前获得101个点赞。
Today's Codex quality-of-life updates start in settings. You can now search Codex settings, with results grouped by cate...
研究在重复博弈中提出重复策略遗憾(RP-Regret),度量所有玩家基于历史响应时实际效用与事后最佳效用之差。该度量允许更强的比较器和更少约束的对手,且所有玩家最小化时能发现更优均衡。确定了时间亚线性RP-Regret的必要条件。提出三种算法:基于优化先导、最小化凸线性化替代、以及直接最小化(对手缓慢变化时)。所有玩家最小化RP-Regret可学习子博弈完美均衡。实验表明能在鹿猎博弈中带来更高效用的合作解。
Anthropic 发布 Claude Cowork,一款运行在 Claude 桌面应用中的知识工作智能体。它可读写本地文件、跨 Slack 和 Google Drive 等应用协作,执行多步骤任务并生成带引用的实际交付物。核心能力包括本地文件访问、子智能体、长时间运行和定时任务。Claude Cowork 区别于对话式 AI 工具,支持用户描述目标与期望结果后自动规划执行。指南还介绍了产品矩阵(对话聊天、Claude Code 编程、Claude Cowork 跨应用知识工作)、设置要求、权限模型、七种常见工作流(如研究简报、会议准备、定期报告)以及营销和产品管理等插件。
同一事件,精选展示《Claude Cowork 入门最佳实践》Are you really tokenmaxxing? We shipped your AI wrapped Everyone's bragging about their token usage having 45 agents run...