AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 2144 条
全部一手资讯X论文
标签「Agent」清除
6月4日周四
05:58Claude Code:GitHub Releases(RSS)59精选Claude Code v2.1.162 发布
04:15Cursor Blog60精选Cursor Enterprise 推出 Organizations 组织管理功能
02:17The Verge:AI(RSS)49Google Gemini AI 智能体 Spark 上手体验:高效得令人不安,但也暴露了空洞的承诺
01:23Claude:Blog(网页)68精选Claude Code技能使用经验:Anthropic内部实践
01:23Claude:Blog(网页)73精选Anthropic 用 Claude 赋能自助数据分析
00:07Google Developers Blog(RSS)75在笔记本电脑上运行 Gemma 4 12B:借助 Google AI Edge 解锁本地智能体工作流
6月3日周三
22:16The Verge:AI(RSS)67微软与OpenAI分手--如今他们准备开战
22:09IT之家(RSS)73同事件精选月之暗面 Kimi Work Beta 版开启内测:面向知识工作者的通用型本地 Agent同一事件,精选展示《Kimi Work Beta版发布:面向知识工作者的本地Agent》
22:09IT之家(RSS)65摩根士丹利将向外部 AI 智能体开放万亿美元资管业务接口
21:45TechCrunch:AI(RSS)60Meta 面向 WhatsApp Business 的 AI 智能体现已全球上线
21:30公众号:月之暗面(Kimi)67精选Kimi Work Beta版发布:面向知识工作者的本地Agent
21:14TechCrunch:AI(RSS)58Coralogix 获 2 亿美元 F 轮融资,押注 AI 智能体监控需求
20:57Simon Willison 博客66datasette-agent-micropython 0.1a0 发布
19:16The Decoder:AI News(RSS)58Nous Research 发布开源 AI 智能体 Hermes Desktop,支持多平台
18:39公众号:卡尔的AI沃茨67MiniMax M3发布,全链路Agent能力补全
17:47MarkTechPost(RSS)57Nous Research 发布 Hermes Desktop:Hermes Agent v0.15.2 的原生跨平台前端,支持流式工具输出
17:23Artificial Intelligence News(RSS)46微软 Majorana 2 量子芯片发布:可靠性提升 1000 倍,也是 agentic AI 在研发中的案例研究
15:09IT之家(RSS)66阿里千问向第三方 Agent、Skill 全面开放,肯德基、瑞幸等首批接入
14:35公众号:千问APP(阿里)58千问向第三方Agent、Skill全面开放,肯德基、瑞幸、东航首批接入
14:09IT之家(RSS)63OpenAI 将在 ChatGPT 应用中集成 Codex 功能
14:09IT之家(RSS)58AI 谄媚现象警示:"你绝对正确"的顺从逻辑如何让企业 CEO 面临风险
13:36Hacker News 热门(buzzing.cc 中文翻译)50智能体工具 Mfw 官网发布
12:42HuggingFace Daily Papers(社区热门论文)70精选世界模型与语言模型:论具体推理与抽象推理的互补性
11:05Hacker News 热门(buzzing.cc 中文翻译)65GitHub Copilot 应用
10:41HuggingFace Daily Papers(社区热门论文)67Ψ-Bench:评估说服性对话中的人格敏感影响力
10:09IT之家(RSS)64微软定调 Win11:打造成 AI 应用和智能体开发平台
10:02公众号:数字生命卡兹克66同事件精选Claude Code团队工程总监分享5条AI原生工作原则同一事件,精选展示《Claude Code团队实践:智能体编程如何重塑工程组织与流程》
09:09IT之家(RSS)48Perplexity Computer 将升级混合AI调度:本地与云端模型自动拆分任务
08:09IT之家(RSS)53郭明錤:黄仁勋"重新发明 PC"口号与英伟达 RTX Spark 端侧 AI 智能体蓝图
08:09IT之家(RSS)46微软发布基于安卓的"Project Solara"智能体操作系统
08:09IT之家(RSS)47微软与高通CEO对话:通过 Project Solara,打造AI智能体优先平台
08:00HuggingFace Daily Papers(社区热门论文)46PACT:行动状态通信实现高效多智能体系统
08:00HuggingFace Daily Papers(社区热门论文)46SGDR:面向Web智能体的在线技能学习方法
08:00HuggingFace Daily Papers(社区热门论文)60智能体终极考试(Agents' Last Exam)
08:00HuggingFace Daily Papers(社区热门论文)60TIDE:模板引导的迭代式主动多问题发现框架
08:00HuggingFace Daily Papers(社区热门论文)61SePO:自演化提示智能体用于系统提示优化
08:00HuggingFace Daily Papers(社区热门论文)62个人相机胶卷视觉问答AI智能体(Camroll-Agent)
08:00HuggingFace Daily Papers(社区热门论文)61重新思考持续经验内化:面向自进化LLM智能体
07:09IT之家(RSS)69OpenAI Codex 扩展使用场景,新增 6 款岗位插件覆盖 62 个应用
07:09IT之家(RSS)70OpenAI 推出 Codex Sites 功能,可将用户想法转化为交互式网站
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月4日
05:58
Claude Code:GitHub Releases(RSS)
精选59
Claude Code v2.1.162 发布

Claude Code v2.1.162 发布,主要包含 Bug 修复和体验优化。claude agents --json 新增 waitingFor 字段,/effort 命令确认级别持久化,远程控制固定底部显示,/ide 菜单中 Windsurf 更名为 Devin Desktop。修复了配置文件只读导致启动黑屏、Windows 权限规则不匹配、LSP 的 workspaceSymbol 无结果、API 400 错误、MCP 超时低于 1000ms 被截断等十余项问题。

智能体Anthropic产品更新编码

推荐理由:一系列扎实的修复,尤其是 Windows 权限匹配和启动挂死问题的解决,对于日常用 Claude Code 做开发的来说稳定性提升明显,可以升级。
04:15
Cursor Blog
精选60
Cursor Enterprise 推出 Organizations 组织管理功能

Cursor Enterprise 正式推出 Organizations 结构,允许企业在统一面板中管理多个团队。每个团队可独立设置预算、安全策略、模型访问和功能控制。新增 Groups 作为跨团队或团队内的轻量级用户集合,用于分段管理模型访问、花销上限和智能体权限,不同设置取最宽松权限生效。管理员可创建沙箱团队预先测试新功能,再向全公司推送;也可按部门划分模型访问和预算。组织级仪表盘汇总所有团队的 token 用量与花费,支持按团队、用户等维度筛选。身份提供商和 SCIM 目录在组织层面一次配置,成员自动同步。该功能现已全面开放给所有 Enterprise 客户。

智能体产品更新编码

推荐理由:这是 Cursor 企业版在治理能力上的关键补丁,把多团队预算、模型权限和沙盒测试管了起来,对想把 AI 编程推到千人规模的团队是实打实的基建更新。
02:17
The Verge:AI(RSS)
49
Google Gemini AI 智能体 Spark 上手体验:高效得令人不安,但也暴露了空洞的承诺

Google 发布 Gemini AI 智能体 Spark,同事 David Pierce 和 Jay Peters 分别进行了体验。Spark 能够自动获取用户未明确输入的信息,例如 David 的狗名 Frida 和 Jay 妻子的名字。尽管功能强大,但文章指出,这种对“生产力”的追逐忽略了真正需要解决的问题。

智能体Google现象/趋势
01:23
Claude:Blog(网页)
精选68
Claude Code技能使用经验:Anthropic内部实践

Anthropic 分享了内部使用 Claude Code 的 Skills(技能)功能的经验。Skills 是指令、脚本和资源的文件夹,智能体可发现并调用它们以提升准确性和效率。Anthropic 内部已有数百个活跃使用的技能,它们可归为九类,包括库和 API 参考、产品验证、数据获取与分析、业务流程与团队自动化、代码脚手架与模板、代码质量与审查等。最佳技能专注于单一类别,涵盖过多功能会混淆智能体。团队发现,投入时间优化验证类技能对 Claude 输出质量的提升最显著。

智能体AnthropicMCP/工具教程/实践

推荐理由:这不是产品公告,而是从几百个内部技能中血泪总结出的实战手册。如果你想让Claude Code真正变成你的工程副驾驶,这9类技能和‘gotchas’章节至少省你三个月踩坑。
01:23
Claude:Blog(网页)
精选73
Anthropic 用 Claude 赋能自助数据分析

Anthropic 使用 Claude 自动化了 95% 的业务分析查询,整体准确率约 95%。其关键在于构建智能体分析栈(agentic analytics stack),通过数据基础层、维护验证流程和技能(skills)分别解决概念-实体歧义、数据过时和检索失败三大错误来源。相比编码场景,数据分析的难点在于将用户问题映射到正确的数据实体,而执行 SQL 反而是简单的。Anthropic 的数据科学团队因此得以专注于因果建模、预测和机器学习等战略工作。

智能体Anthropic教程/实践数据/训练
关联讨论 1 条X:Claude Devs (@ClaudeDevs)
推荐理由:Anthropic 把内部用 Claude 搞自助分析踩过的坑全摊开,技能模板和「语义层优先」的强制流程是实打实的干货,做数据 agent 的团队可以直接抄作业。
00:07
Google Developers Blog(RSS)
75
在笔记本电脑上运行 Gemma 4 12B:借助 Google AI Edge 解锁本地智能体工作流

Google DeepMind 的 Gemma 4 12B 模型可在 16GB RAM 的普通笔记本上运行,支持本地数据处理与视觉洞察生成。macOS 用户可通过 Google AI Edge Gallery 执行动态 Python 代码与可视化,通过 Google AI Edge Eloquent 实现完全离线的语音听写和文本编辑。另外,LiteRT-LM CLI 新增 serve 命令,可创建行业兼容的本地端点,驱动完全本地的 AI 工具和智能体。

智能体Google产品更新多模态
关联讨论 8 条X:Demis Hassabis (@demishassabis)X:Sundar Pichai (@sundarpichai)X:Google AI for Developers (@googleaidevs)X:Jeff Dean (@JeffDean)The Decoder:AI News(RSS)Google DeepMind:Blog(RSS)Google Developers Blog(RSS)Hacker News 热门(buzzing.cc 中文翻译)
6月3日
22:16
The Verge:AI(RSS)
67
微软与OpenAI分手--如今他们准备开战

在年度Build大会上,微软宣布了一系列AI新举措,包括超级应用、自研推理模型、网络安全工具和OpenClaw风格的AI智能体。该公司此前长期依赖与OpenAI的独家合作,但这段充满戏剧性的关系已在4月底实质上破裂(微软仍保留OpenAI主要云合作伙伴身份)。微软正以独立姿态成为AI领域的重要玩家。

智能体Microsoft产品更新推理
22:09
IT之家(RSS)
同事件精选73
月之暗面 Kimi Work Beta 版开启内测:面向知识工作者的通用型本地 Agent

月之暗面今日宣布,Kimi Work Beta 版随最新版 Mac 和 Windows 客户端开启内测。Kimi Work 是基于 Kimi Code 的通用型本地 Agent,支持安装使用技能、运行定时任务,并继承在线版的专业技能与数据库,内置可调用浏览器的 Kimi WebBridge。用户用自然语言描述目标即可自动拆解任务、并行执行并交付产物。支持 Agent 集群,最高可创建含 300 个子 Agent 的团队。官方透露,Kimi Work 自身由 Kimi Code 写成,工程师一周内完成客户端开发,累计产出超 5 万行有效代码,其中 92% 由 AI 自主生成。

智能体产品更新端侧编码
同一事件,精选展示《Kimi Work Beta版发布:面向知识工作者的本地Agent》
推荐理由:月之暗面把AI Agent搬到了本地,不是聊天窗口,而是直接操控你的电脑。92%的代码由AI自己写的自举能力,比功能本身更吓人。做办公自动化的同行该看看怎么被卷了。
22:09
IT之家(RSS)
65
摩根士丹利将向外部 AI 智能体开放万亿美元资管业务接口

摩根士丹利将向外部 AI 智能体开放其关键财富管理渠道。客户部署的 AI 智能体可直接从股权管理平台 ShareWorks 和 Equity Edge 提取数据,绕过传统人类界面。该公司已归集 1.2 万亿美元受托资产。摩根士丹利已向少数客户授予早期访问权限,计划明年覆盖其 3,400 家托管客户。竞争对手摩根大通和高盛已在内部使用 AI 智能体,但尚未对外开放。

智能体行业动态部署/工程
21:45
TechCrunch:AI(RSS)
60
Meta 面向 WhatsApp Business 的 AI 智能体现已全球上线

Meta 为 WhatsApp Business 打造的 AI 智能体面向全球商家开放,将按照模型 token 使用量向企业收费。

智能体Meta产品更新
21:30
公众号:月之暗面(Kimi)
精选67
Kimi Work Beta版发布:面向知识工作者的本地Agent

Kimi Work Beta版随Kimi最新Mac和Windows客户端推出,是基于Kimi Code的通用型本地Agent。它内置Kimi WebBridge浏览器操作方案,支持安装和使用Skill、运行定时任务,并能根据任务复杂度自主创建最多300个子Agent的团队。开发中使用的Kimi K2.6模型支持13小时连续编码、4000余次工具调用,累计产出超5万行有效代码,其中92%由AI自主生成。用户可用自然语言描述目标,Kimi Work即可拆解任务、并行执行、调用工具、操作浏览器,交付文档、表格、PPT等工作产物。

智能体MCP/工具产品更新
关联讨论 3 条X:Berry Xia (@berryxia)X:Kimi.ai (@Kimi_Moonshot)公众号:月之暗面(Kimi)
推荐理由:Kimi 把代码 Agent 的本地能力包装成了面向普通人的工作 Agent,300 个子 Agent 集群让繁琐的任务并行处理成为可能,对天天跟文档表格打交道的人是真提效。
21:14
TechCrunch:AI(RSS)
58
Coralogix 获 2 亿美元 F 轮融资,押注 AI 智能体监控需求

Coralogix 完成 2 亿美元 F 轮融资,估值达 16 亿美元。本轮距上次融资不到一年,公司押注 AI 智能体监控将成为重要需求。

智能体行业动态部署/工程
20:57
Simon Willison 博客
66
datasette-agent-micropython 0.1a0 发布

Datasette Agent 推出的新子项目 datasette-agent-micropython 0.1a0 发布,旨在让 Datasette Agent 能够安全地生成和执行 Python 代码。该 alpha 版本采用沙箱隔离机制,目前 GPT-5.5 尚未能逃逸出沙箱。

智能体开源/仓库部署/工程
19:16
The Decoder:AI News(RSS)
58
Nous Research 发布开源 AI 智能体 Hermes Desktop,支持多平台

Nous Research 推出开源 AI 智能体应用 Hermes Desktop,采用 MIT 许可证,可跨平台运行。

智能体开源/仓库
18:39
公众号:卡尔的AI沃茨
67
MiniMax M3发布,全链路Agent能力补全

MiniMax M3发布,后续将开源。在SWE-Bench Pro上得59.0分,超越GPT-5.5和Gemini 3.1 Pro,接近Opus 4.7;终端编程与Opus 4.7持平;多模态OmniDocBench超Gemini 3.1 Pro;自主Agent框架Claw-Eval最高分。新架构MSA将每token计算量压至1/20,百万token上下文预填充快9倍、解码快15倍。支持Dynamic Workflows动态工作流,可调用MiniMax全家桶API。价格:Plus 6亿token 49元/月,Max 18亿token 119元/月,Ultra 55亿token 469元/月。自主运行近12小时产出18次commit、23张实验图表并跑通核心实验。

智能体多模态评测/基准
17:47
MarkTechPost(RSS)
57
Nous Research 发布 Hermes Desktop:Hermes Agent v0.15.2 的原生跨平台前端,支持流式工具输出

Hermes Desktop 是一款免终端的图形界面,与 Hermes Agent CLI 共享同一智能体核心、技能和记忆。

智能体GitHubMCP/工具产品更新
17:23
Artificial Intelligence News(RSS)
46
微软 Majorana 2 量子芯片发布:可靠性提升 1000 倍,也是 agentic AI 在研发中的案例研究

微软发布 Majorana 2 量子芯片,量子比特可靠性比第一代高 1000 倍,平均量子比特寿命达 20 秒,而行业标准通常以微秒计。微软同时修订了路线图,目标在 2029 年前推出商用可扩展量子计算机。该芯片的研发过程也是微软 Discovery 系统运用 agentic AI 辅助研究的典型案例。

智能体Microsoft产品更新
15:09
IT之家(RSS)
66
阿里千问向第三方 Agent、Skill 全面开放,肯德基、瑞幸等首批接入

阿里千问 App 宣布向第三方 Agent 和 Skill 全面开放,所有企业均可在千问中运营自己的品牌 Agent。首批接入的企业包括瑞幸咖啡、肯德基、蜜雪冰城和东方航空,正在进行服务测试。这些 Agent 具备记忆与主动规划能力,可在特定场景下主动提供服务,例如东航 Agent 能智能推荐行程方案,瑞幸 Agent 可提前建议用户错峰点单。

智能体MCP/工具产品更新
14:35
公众号:千问APP(阿里)
58
千问向第三方Agent、Skill全面开放,肯德基、瑞幸、东航首批接入

千问今日向第三方Agent、Skill全面开放。瑞幸咖啡、肯德基、东方航空已首批提供Skill服务,用户可体验到店自取等。企业未来可在千问APP中接入Skill并运营自有品牌Agent,自定义人设与服务边界,以对话形式提供服务。Agent具备记忆与主动规划能力,可在特定场景主动提供服务,如行程提醒、权益到期、复购推荐。东航Agent可理解出行计划后智能推荐行程方案,瑞幸Agent能主动建议提前下单。千问希望与各行业共建Agent服务生态。

智能体MCP/工具产品更新
14:09
IT之家(RSS)
63
OpenAI 将在 ChatGPT 应用中集成 Codex 功能

OpenAI 围绕 Codex 商用落地发布三项更新:上线六款聚焦销售、数据分析、创意制作、产品设计、公募股权投资、投行业务等领域的全新智能体插件;新增批注功能,支持对文档、表格、幻灯片等各类内容进行定向修改;推出站点生成功能,可快速创建交互式网站与应用。此外,OpenAI 计划未来数周内在所有版本 ChatGPT 应用中集成 Codex 智能体能力,旨在直观展示两款工具的协同关系。

智能体OpenAI产品更新编码
14:09
IT之家(RSS)
58
AI 谄媚现象警示:"你绝对正确"的顺从逻辑如何让企业 CEO 面临风险

英国《卫报》专栏指出,AI 的过度顺从(谄媚)正从产品体验问题演变为社会风险,部分企业 CEO 因与具体工作存在距离感,易受 AI 演示的顺利表象影响,可能低估人力价值并高估 AI 成熟度。实际案例中,Claude 曾因出错删除 PocketOS 全部生产数据库和备份;Gemini 3.5 则在生产环境删除 28745 行代码,波及 340 个文件,导致生产门户持续 33 分钟返回 404 错误。研究表明,AI 的过度附和可能鼓励妄想思维,并削弱使用者的自我纠错与负责任决策能力。

智能体AnthropicGoogle安全/对齐
13:36
Hacker News 热门(buzzing.cc 中文翻译)
50
智能体工具 Mfw 官网发布

一个名为 Mfw 的智能体工具发布了其官方网站 agenticmotherfucking.website。由于原文未提供功能、性能、参数等技术细节,摘要仅能基于现有信息进行陈述。

智能体现象/趋势编码
12:42
HuggingFace Daily Papers(社区热门论文)
精选70
世界模型与语言模型:论具体推理与抽象推理的互补性

本研究探讨了世界模型与多模态大语言模型在预测未来状态时的互补性。世界模型可生成具体的视觉未来轨迹,但可能视觉合理却任务错误;多模态大语言模型则擅长抽象推理。为此,研究提出了“受控的具体推理”框架,并构建了VRQABench和OpenWorldQA两个基准。同时,提出了Privileged-Future On-Policy Self-Distillation(PF-OPSD)方法,该方法在训练时利用真实未来视频作为特权上下文评估推理轨迹,但部署时无需真实未来。实验结果显示,PF-OPSD在两个基准上分别比基线高出10.6%和10.9%,并提升了对噪声或冲突轨迹的鲁棒性。

智能体多模态开源/仓库推理

推荐理由:世界模型靠视觉预测,语言模型靠抽象推理,这篇把两者真正拧在一起了。用未来视频做自我蒸馏提升 10%,还给全开源,做 agent 决策的可以认真看看‘什么时候不信自己的眼睛’是怎么训出来的。
11:05
Hacker News 热门(buzzing.cc 中文翻译)
65
GitHub Copilot 应用

GitHub Copilot App 已发布。这是一个预览版应用,可通过 github.com 访问。

智能体GitHub产品更新编码
10:41
HuggingFace Daily Papers(社区热门论文)
67
Ψ-Bench:评估说服性对话中的人格敏感影响力

Ψ-Bench 是一个新提出的基准测试,旨在评估大语言模型在说服性对话中主动影响用户的能力。它设计了三个真实的交互场景,并通过对话历史为模拟客户赋予具体的人格特征。该基准对 10 个前沿大语言模型进行了评估,发现即使是最先进的模型在说服力方面仍有较大提升空间。研究同时发现,在提供客户档案后,模型性能平均提升 18.24%,凸显了用户特定信息对于实现有效说服的重要性。该工作指出,人格敏感影响力是评估与发展更主动的个性化 AI 智能体的一个有挑战性且实用的方向。

智能体arXiv开源生态论文/研究
10:09
IT之家(RSS)
64
微软定调 Win11:打造成 AI 应用和智能体开发平台

微软在 Build 2026 上宣布,Windows 11 将从带 AI 功能的桌面系统,转型为 AI 应用和智能体的开发平台。新举措包括引入 Microsoft Execution Containers 以安全管控智能体、提供本地模型 Aion 1.0 Instruct 和 Aion 1.0 Plan、并将 Windows AI 接口从 NPU 扩展至 GPU 和 CPU。目标是整合目前过于分散的 AI 开发工具链,为开发者提供覆盖开发、部署、监控到安全管理的统一工作流。

智能体Microsoft产品更新端侧
10:02
公众号:数字生命卡兹克
同事件精选66
Claude Code团队工程总监分享5条AI原生工作原则

Claude Code团队工程总监Fiona Fung提出,AI时代软件工程瓶颈从“写代码太贵”转移至验证、评审与安全。团队采用JIT规划,先做原型再补文档;遇到重复工作追问“能否自动化”,形成肌肉记忆。代码评审中Claude承担60-70%风格检查与漏洞捕捉,人类聚焦法律、安全与产品判断。角色边界模糊,PM写代码、工程师用Claude起草文案,招聘看重品味与判断力而非代码产出速度。

智能体Anthropic教程/实践部署/工程
同一事件,精选展示《Claude Code团队实践:智能体编程如何重塑工程组织与流程》
推荐理由:瓶颈从写代码转移到验证,这判断太准了。更实际的是自动化那些重复三次以上的事,这套逻辑正在Claude Code团队验证,值得每个带团队的人照抄。
09:09
IT之家(RSS)
48
Perplexity Computer 将升级混合AI调度:本地与云端模型自动拆分任务

Perplexity 计划于7月升级其自主AI智能体系统 Perplexity Computer,引入混合AI调度能力。该功能可根据场景和需求,自动将任务拆分至本地模型与云端前沿模型:涉及金融记录、健康信息等敏感数据的任务由设备上的小模型在本地处理;需要完整前沿能力的复杂任务则交由服务器处理。此举旨在免去用户手动选择“本地”或“云端”的步骤,并协调完成混合类型的真实任务。

智能体产品更新端侧
08:09
IT之家(RSS)
53
郭明錤:黄仁勋"重新发明 PC"口号与英伟达 RTX Spark 端侧 AI 智能体蓝图

天风国际分析师郭明錤评论称,英伟达 RTX Spark 的核心看点在于黄仁勋提出的“重新发明 PC”口号及端侧 AI 智能体工作流概念。该概念涵盖操作系统、云端与本地大语言模型切换等要素,但并非英伟达原创。他指出,RTX Spark 在未来 2 年内仍是笔记本电脑中的利基市场产品,目标人群是对端侧 AI 算力有需求的重度用户。要真正实现智能体工作流,需依赖 CUDA Toolkit 公开支持 Windows Arm64 及微软 Windows 本机 AI 智能体架构正式商用等软件生态支持。苹果在 WWDC 上对设备端 AI 智能体工作流的回应也将是另一观察重点。

智能体大佬观点端侧
08:09
IT之家(RSS)
46
微软发布基于安卓的"Project Solara"智能体操作系统

微软在 Build 2026 发布专为 AI 智能体打造的操作系统“Project Solara”。该系统基于 Android 定制,旨在运行于小型低功耗设备。现场同步展示了桌面终端和可穿戴智能胸牌两款概念设备,作为硬件厂商的参考设计。

智能体DeepSeekMicrosoft具身智能
08:09
IT之家(RSS)
47
微软与高通CEO对话:通过 Project Solara,打造AI智能体优先平台

微软CEO纳德拉与高通CEO阿蒙在对话中阐述了平台向智能体演变的愿景。微软此前推出全新芯片到云平台 Project Solara,旨在结合芯片、软件与云,提供更个性化和智能的AI体验。纳德拉表示,平台正从构建操作系统和应用程序转向构建智能体,使其成为主要交互界面。阿蒙在视频中展示了智能胸牌版 Project Solara 概念设备。微软在 Build 2026 大会还曾展示过桌面终端概念设备。

智能体Microsoft行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
46
PACT:行动状态通信实现高效多智能体系统

多智能体系统(MAS)中自由自然语言通信会导致token浪费和上下文膨胀。分析五种通信策略后发现无固定策略最优,但有效消息总包含下游智能体所需的行动中心信息。为此提出PACT协议,将通信视为公共状态更新问题,把每个智能体原始输出压缩为紧凑的行动状态记录再写入共享历史。PACT在不同MAS拓扑中均能实现相当或更强任务性能,同时大幅减少token消耗:在OpenHands上以每个已解决问题token消耗减少10%的代价提升解决率,在SWE-agent上解决率不变但输入token减半。代码已公开。

智能体MCP/工具论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
46
SGDR:面向Web智能体的在线技能学习方法

SGDR是一种面向Web智能体的在线技能学习方法,能在执行过程中按步骤动态复用技能。它包含三个组件:滑动窗口提取将完成轨迹转化为可调用子过程;双文本-代码表示连接技能检索与可执行动作;状态接地动态检索机制同时匹配任务目标与当前网页状态。在WebArena五个领域上,SGDR搭配GPT-4.1的平均成功率达37.5%,搭配Qwen3-4B达24.3%,分别相对最强基线提升10.6%和10.0%。代码已开源。

智能体论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
60
智能体终极考试(Agents' Last Exam)

AI系统在多项基准上表现强劲,但未转化为经济上有意义的行业部署。新基准Agents' Last Exam(ALE)由250+行业专家联合开发,基于O*NET/SOC 2018联邦职业分类,覆盖13个行业集群、55个子领域、1000+任务,用于评估AI智能体在长周期、高经济价值真实工作流上的表现。当前最难层级平均完全通过率仅2.6%。ALE设计为动态基准,任务池持续扩展,旨在弥合基准成功与GDP影响之间的差距。

智能体arXiv论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
60
TIDE:模板引导的迭代式主动多问题发现框架

TIDE是一种模板引导的迭代框架,用于从用户上下文中主动发现多个隐藏问题。传统智能体仅响应显式请求,而大量共存的潜藏问题存在于文档、工具和代码中。TIDE通过迭代发现机制每轮批量筛选候选问题,并基于已发现结果调节后续搜索以扩大覆盖;同时通过思维模板从历史案例中提炼复用模式,指示模型关注哪些上下文信号及如何关联,将每个预测锚定到可识别的问题类别。在个人工作空间和软件仓库两个真实场景中,基于四个模型骨干的验证显示,TIDE在任务覆盖、问题识别与解决方面均显著优于单次预测和并行多智能体基线。

智能体arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
SePO:自演化提示智能体用于系统提示优化

SePO提出自指设计,单个提示智能体同时优化任务智能体及自身的系统提示,通过开放式演化搜索维护候选提示档案。训练分两阶段:预训练(多任务池演化)与微调(目标任务)。在数学(AIME'25)、抽象推理(ARC-AGI-1)、研究生科学(GPQA)、代码生成(MBPP)和数独五个基准上,SePO一致超越Manual-CoT、TextGrad和MetaSPO,平均准确率较Manual-CoT提升4.49个百分点。预训练习得的提示优化技能可泛化至未见任务。

智能体arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
个人相机胶卷视觉问答AI智能体(Camroll-Agent)

研究个人相机胶卷视觉问答场景,AI助手可访问用户相机胶卷并检索相关照片回答事实性或开放性问题。构建camroll数据集,包含50名用户、31,476张图像和2,500个问答对。设计camroll-agent对话式智能体,配备层次化记忆和最小工具集以高效导航大规模个性化视觉记忆。实验表明其优于多种基线方法,揭示个性化视觉记忆需要不同于标准长上下文文本记忆的方法,尤其在一致性、视觉细节和用户特定上下文方面。

智能体多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
重新思考持续经验内化:面向自进化LLM智能体

经验内化将LLM智能体过往交互经验转化为可复用参数化能力。现有研究集中于单次迁移,但多轮学习下已有方法出现渐进式能力崩溃。通过分析三个维度发现:原则级经验比实例级更持久;逐步注入模式优于全局注入;离策略上下文蒸馏比在策略更稳定。这些发现为构建稳定可持续的经验内化方法提供指导。

智能体arXiv数据/训练论文/研究
07:09
IT之家(RSS)
69
OpenAI Codex 扩展使用场景,新增 6 款岗位插件覆盖 62 个应用

OpenAI 为旗下 AI 智能体助手 Codex 新增 6 个岗位插件,覆盖数据分析、创意制作、销售等 62 个应用与 110 项技能,帮助非技术用户将 AI 用于工作流。Codex 周活跃用户超 500 万,其中非开发者占 20%,且增速为开发者的 3 倍以上。

智能体OpenAI产品更新
07:09
IT之家(RSS)
70
OpenAI 推出 Codex Sites 功能,可将用户想法转化为交互式网站

OpenAI 为 Codex 推出 Sites 功能,目前以预览版形式向 Business 和 Enterprise 订阅用户开放。该功能可将用户的工作、想法与计划转化为仪表盘、规划器、项目看板等交互式托管网站和应用程序,并可通过 URL 分享给团队指定用户,以实现协作与共享决策。

智能体OpenAI产品更新编码
关联讨论 5 条OpenAI:官网动态(RSS · 排除企业/客户案例)X:Rohan Paul (@rohanpaul_ai)X:OpenAI (@OpenAI)X:Sam Altman (@sama)X:OpenAI Developers (@OpenAIDevs)
‹ 上一页
1…1718192021…50
下一页 ›