AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 2141 条
全部一手资讯X论文
标签「Agent」清除
6月16日周二
22:01IT之家(RSS)42腾讯张军:智能体 WorkBuddy 将入职政务系统,全国首个省级政务智能中枢「湾擎」上线试运行
22:01IT之家(RSS)73小米 MiMo Claw 正式版发布,搭载 MiMo-V2.5-Pro 旗舰模型
21:30公众号:数字生命卡兹克67同事件精选WorkBuddy日活飙升至行业第二的3-4倍,非技术用户涌入同一事件,精选展示《从0到1速通WorkBuddy:国内通用Agent产品教程》
21:01IT之家(RSS)32腾讯网盘官宣"COMING SOON":多应用数据互通、支持 Agent 调用
20:47Hacker News 热门(buzzing.cc 中文翻译)72SpaceX将以600亿美元收购Cursor AI旗下编程代理运营商Anysphere
20:01IT之家(RSS)52微信正测试 AI 支付功能,"AI 专属卡"最快本周内上线
17:47MarkTechPost(RSS)69Hermes Agent 新增异步子代理,委托工作不再阻塞父聊天
17:17MarkTechPost(RSS)54Atoms:MetaGPT团队推出的AI智能体协作vibe coding平台
16:40MarkTechPost(RSS)71精选Google Cloud 推出 OKF v0.1:供应商中立的 Markdown 规范,为 AI 智能体提供结构化上下文
16:28HuggingFace Daily Papers(社区热门论文)49GD2PO:通过分组动态奖励解耦策略优化缓解多奖励冲突
16:00IT之家(RSS)64高通CEO安蒙:正设计40多款新AI设备,智能体将取代应用
15:07TechCrunch:AI(RSS)58马来西亚AI智能体消息应用Respond.io获6250万美元融资,瞄准收购
15:00公众号:卡尔的AI沃茨61Claude终于松口,第三方Agent能共享额度了
15:00IT之家(RSS)60阿里云:QoderWork 上线"意识"功能,让 AI 学会记忆、反思和成长
14:30公众号:火山引擎40双第一!火山引擎领跑中国智能体开发平台市场
13:58OpenRouter:Announcements(RSS)68精选智能体AI治理:你的API密钥就是护栏
11:27HuggingFace Daily Papers(社区热门论文)55VisualClaw:面向物理世界的实时个性化多模态智能体
11:07Hacker News 热门(buzzing.cc 中文翻译)50无人经济?从技术上讲并非不可能
11:01公众号:卡尔的AI沃茨61ClawHunt:AI Agent赏金市场的交付验证与真实测试
11:00IT之家(RSS)64微软推Intelligent Terminal:Win11终端集成AI智能体
11:00IT之家(RSS)70精选AI 版支付宝官宣开启邀测:右滑打开"阿宝",官方放出 100 个邀请码
10:40公众号:蚂蚁百灵(Ling)79同事件精选蚂蚁百灵发布 Ling & Ring 2.6 技术报告同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》
10:27HuggingFace Daily Papers(社区热门论文)47TokenPilot:面向LLM智能体的缓存高效上下文管理框架
09:59Berkeley RDI:Blog(AI 安全与评测)83精选伯克利RDI发布Agents' Last Exam基准
08:00HuggingFace Daily Papers(社区热门论文)53LegalHalluLens:面向可信法律AI的类型化幻觉审计与校准多智能体辩论
08:00HuggingFace Daily Papers(社区热门论文)50MaineCoon:首个实时音频-视频社交世界模型
08:00HuggingFace Daily Papers(社区热门论文)46LLM-as-Environment-Engineer:让策略模型自主设计强化学习训练环境
08:00HuggingFace Daily Papers(社区热门论文)53CEO-Bench:智能体能玩长期游戏吗?
07:59Simon Willison 博客63datasette-agent 0.3a0 发布
06:59IT之家(RSS)53古尔曼:苹果有望推出AI智能体,让Siri自主操作iPhone和Mac软件
06:36MarkTechPost(RSS)59Sakana AI 推出商用产品 Sakana Marlin:企业智能体可生成长达100页研究报告及幻灯片
02:33xAI:News(网页)47xAI 宣布 Grok 集成至 Warp 终端开发环境
00:47Tomer Tunguz 博客(VC 分析)61同事件精选AI 应用黄金时代已至:Fable 被禁、Nadella 的护城河论点与 Salesforce 收购 Fin同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
00:27xAI:News(网页)73精选Grok Build 推出 Agent Dashboard 管理多个编码会话
00:00Berkeley RDI:Blog(AI 安全与评测)68精选SageCTF:最强大CTF挑战AI智能体
6月15日周一
22:54TechCrunch:AI(RSS)73精选Salesforce以36亿美元收购AI客服平台Fin
22:23Hacker News 热门(buzzing.cc 中文翻译)63Openrouter Fusion API
21:30公众号:百度智能云(文心)49百度搭子DuMate Harness引擎升级:复杂任务积分消耗最高降低75%
21:18TechCrunch:AI(RSS)54NewCore获6600万美元种子轮融资,构建AI智能体身份管理平台
19:29Artificial Intelligence News(RSS)60华为发布 HarmonyOS 7,集成智能体框架 2.0,小艺升级系统级智能体
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月16日
22:01
IT之家(RSS)
42
腾讯张军:智能体 WorkBuddy 将入职政务系统,全国首个省级政务智能中枢「湾擎」上线试运行

6月16日,腾讯公关总监张军宣布,全国首个省级政务智能中枢平台「湾擎」上线试运行,同时预发布湾擎·WorkBuddy。该智能体基于腾讯自研AI办公智能体WorkBuddy打造,专为政务场景定制,覆盖公文辅助、材料校核、政策检索、业务咨询、流程协同、任务辅助六大高频场景。WorkBuddy即将在广东省直多个单位试点,后续面向全省铺开。「湾擎」中枢已归集100余个政务场景,适配十数款主流大模型,搭配Token级安全防护。

智能体产品更新
22:01
IT之家(RSS)
73
小米 MiMo Claw 正式版发布,搭载 MiMo-V2.5-Pro 旗舰模型

小米云端轻量化 Claw 产品正式版发布,搭载与 OpenClaw 框架深度适配的 MiMo-V2.5-Pro 模型,原生兼容 MCP 协议,无需额外提示词。支持百万级上下文、单会话千次以上工具调用,MTP 三层解码架构使推理吞吐效率提升约 3 倍。联动金山办公,支持 Word/Excel/PPT/PDF,实现 AI 生成、预览与在线编辑闭环。ClawEval 中 Pass³ 达 63.8%,Token 消耗降低 40%-60%。免费用户每日体验时长升级至 4 小时,上线 TokenPlan 分层订阅,限时特惠 ¥14.9/月。

智能体MCP/工具产品更新
关联讨论 2 条X:小米 MiMo (@XiaomiMiMo)公众号:小米 MiMo
21:30
公众号:数字生命卡兹克
同事件精选67
WorkBuddy日活飙升至行业第二的3-4倍,非技术用户涌入

从3月至今,WorkBuddy日活用户数已达行业第二名的3-4倍,用户不再限于开发者,大量HR、运营、行政等非技术岗位也在使用。其企业版和项目功能进一步扩展了Agent办公场景。同期,Trae Work、QoderWork、Kimi Work等产品纷纷改名或出新,争夺市场。腾讯云认为这可能是十年一遇的机遇。

智能体现象/趋势
同一事件,精选展示《从0到1速通WorkBuddy:国内通用Agent产品教程》
推荐理由:卡兹克从现场带回WorkBuddy的用户数据,非技术人群用Agent干活不再是口号,传统办公软件的危机比想象中来得更快。
21:01
IT之家(RSS)
32
腾讯网盘官宣"COMING SOON":多应用数据互通、支持 Agent 调用

腾讯网盘官网近日上线,页面显示“COMING SOON”。该产品连接多个AI应用,共享存储并聚合上下文,将AI应用数据沉淀为长期记忆资产。核心能力包括:多应用数据互通(打通腾讯文档、WorkBuddy等)、OneID统一身份、跨应用全局搜索、高效共享协作、支持Agent通过CLI/MCP调用网盘数据,以及个人版、SaaS版、VPC版、私有化版等多版本灵活交付。

智能体MCP/工具产品更新
20:47
Hacker News 热门(buzzing.cc 中文翻译)
72
SpaceX将以600亿美元收购Cursor AI旗下编程代理运营商Anysphere

SpaceX以600亿美元收购编程代理Cursor AI的运营商Anysphere。Anysphere是Cursor AI的开发商,Cursor AI提供AI编程辅助工具。交易金额为600亿美元。

智能体编码行业动态
关联讨论 11 条TechCrunch:AI(RSS)X:Testing Catalog (@testingcatalog)X:阿易 AI Notes (@AYi_AInotes)X:Michael Truell (@mntruell)The Decoder:AI News(RSS)X:宝玉 (@dotey)IT之家(RSS)X:歸藏 (@op7418)The Verge:AI(RSS)X:Emad Mostaque (@EMostaque)Ars Technica:AI(RSS)
20:01
IT之家(RSS)
52
微信正测试 AI 支付功能,"AI 专属卡"最快本周内上线

微信支付联合腾讯智能体产品 WorkBuddy 测试 AI 支付功能,计划在微信钱包上线“AI 专属卡”,最快本周内上线。同时,微信支付 AI 接入工具箱升级至 2.0 版本,Skill 覆盖微信支付所有产品知识,新增技术专家与金融级研发专家两大 AI 能力,支持从场景选型到动态排障的全链路问答,以及基于金融级安全标准的代码质量审查。

智能体行业动态
17:47
MarkTechPost(RSS)
69
Hermes Agent 新增异步子代理,委托工作不再阻塞父聊天

Nous Research 为开源个人代理 Hermes Agent 新增异步子代理功能。原先的 delegate_task 工具同步阻塞主聊天,现通过 async_delegation 工具集(issue #5586)实现非阻塞:delegate_task_async 立即返回 task_id,主聊天可继续操作。异步工具涵盖 spawn、check、steer、collect、cancel 和 list 全生命周期。子代理完全隔离,仅向父代理返回最终摘要,继承父代理的 API 密钥和配置。现有用户运行 hermes update 即可启用。该更新由 Nous Research 及联合创始人 Teknium 于 6 月 15 日宣布。

智能体MCP/工具产品更新
17:17
MarkTechPost(RSS)
54
Atoms:MetaGPT团队推出的AI智能体协作vibe coding平台

Atoms由MetaGPT团队(68.7k GitHub星标、11篇顶会论文)打造,将八位AI智能体组织为产品团队:Iris验证需求、Emma制定规格、Bob设计架构、Alex构建全栈应用、Sarah生成SEO页面、Adrian投放Google Ads、David分析数据、Mike协调流程并在关键节点请求审批。平台内置Atoms Cloud,提供身份认证、实时数据库、Stripe支付、可扩展托管及一键部署;Race Mode可同时调用多个前沿模型并让用户选择最佳输出,据称准确率提升至3倍。内置SEO和广告智能体自动优化搜索排名与投放。用户可随时导出代码或同步GitHub,避免锁定。免费版每日15信用,Pro版$20/月起(100信用),Max版$100/月起(500信用,含Race Mode)。相比Lovable、Base44,Atoms将市场研究、SEO与广告管理纳入构建流程。

智能体产品更新
16:40
MarkTechPost(RSS)
精选71
Google Cloud 推出 OKF v0.1:供应商中立的 Markdown 规范,为 AI 智能体提供结构化上下文

Google Cloud 发布 Open Knowledge Format (OKF) v0.1,一种供应商中立的 Markdown 规范,为 AI 智能体提供结构化上下文知识。OKF 将知识表示为带 YAML 前置元数据的 markdown 文件目录,每个概念对应一个文件,通过 type、title、description 等少量保留字段实现互操作。无需专有服务、SDK 或运行时,目录可托管在 GitHub、以 tarball 传输或挂载到任意文件系统。OKF 旨在解决组织内部知识碎片化问题——表结构、指标定义、runbook 等散落在不同 catalog 和 wiki 中,各厂商方案互不兼容。遵循最少意见原则,只强制 type 字段,生产者和消费者可独立实现。使用场景包括数据团队将 BigQuery 表定义导出为代码、为智能体存储 incident runbook、跨组织知识交换等。

智能体GoogleMCP/工具产品更新

推荐理由:这是 Karpathy LLM Wiki 思想的首个工业级标准化尝试,把散落在各处的内部知识统一成 agent 可读的 markdown 规范,对构建 AI 应用的团队是切实的工程改进,值得加入设计检查清单。
16:28
HuggingFace Daily Papers(社区热门论文)
49
GD2PO:通过分组动态奖励解耦策略优化缓解多奖励冲突

大语言模型后训练强化学习需同时优化多个可能冲突的奖励维度。现有GDPO方法将整体分数分解为独立奖励组分别计算损失,但单个rollout在不同维度上可能产生正负相反的advantage,导致信号抵消。受DAPO启发,GD²PO引入冲突感知过滤机制,屏蔽奖励维度间严重不一致的rollout,防止信号抵消,同时保留并增强有效advantage幅度,加速学习。还采用查询级重加权动态调整各查询更新强度。在工具调用、人类偏好对齐等多奖励场景实验中,GD²PO显著优于现有基线。代码已开源。

智能体数据/训练论文/研究
16:00
IT之家(RSS)
64
高通CEO安蒙:正设计40多款新AI设备,智能体将取代应用

6月16日,高通CEO安蒙表示公司正推进40多款新型AI设备的设计工作,为智能体浪潮做准备。这些设备涵盖珠宝饰品、带摄像头耳机、胸针、手表等可穿戴形态,具备情境感知能力,用户可通过语音随时调用智能体。安蒙认为智能体将取代传统应用,例如无需打开银行App即可通过智能体即时调取交易记录。他看好智能眼镜前景,目前年出货量已达数千万副,预计几年后增至数亿副,最终市场规模可与智能手机媲美。

智能体大佬观点端侧
15:07
TechCrunch:AI(RSS)
58
马来西亚AI智能体消息应用Respond.io获6250万美元融资,瞄准收购

总部位于吉隆坡的客户对话管理平台Respond.io完成6250万美元B轮融资,Camber Partners领投,Endeavor Catalyst及现有投资者跟投。公司年经常性收入达3500万美元,同比增长169%,利润率为30%。平台通过AI智能体自动处理客户咨询、筛选线索并完成销售,每季度处理20亿条消息,按对话量而非座位收费。主要服务医疗、汽车、零售等中大型B2C企业。本轮资金将用于招聘、有机增长及收购,目标为欧洲和北美市场的技术补齐型公司及成熟团队。目前北美和西欧仅占其营收20%,但正成为增长最快区域。

智能体行业动态
15:00
公众号:卡尔的AI沃茨
61
Claude终于松口,第三方Agent能共享额度了

Anthropic调整了Claude的订阅政策,允许第三方AI智能体共享Max订阅额度。此前在第三方Agent中使用Claude只能单独计费,每月100美元的订阅额度用完后按API标准价收费。调整后,用户可在第三方工具中直接走订阅额度,无需额外计费。该变化解除了此前用户因高额API费用而不得不绕开单独计费的限制。

智能体AnthropicMCP/工具教程/实践
15:00
IT之家(RSS)
60
阿里云:QoderWork 上线"意识"功能,让 AI 学会记忆、反思和成长

阿里云桌面AI智能体QoderWork今日上线“意识”功能,集成记忆、反思、技能进化三个模块。记忆采用分层结构,短期可晋升长期;反思借鉴人脑选择性遗忘,反思前快照备份,越界自动回滚。触发基于多因子加权评分模型,从意图深度、对话长度等维度判断。进化通过Fork Session分叉轻量子会话,缓存命中率99%以上,成本控制5%以内。系统检测反复任务自动生成技能建议,用户可选采纳、忽略或驳回。所有记忆以Markdown文本存本地,可编辑删除。

智能体产品更新端侧
14:30
公众号:火山引擎
40
双第一!火山引擎领跑中国智能体开发平台市场

IDC《2025中国智能体开发平台市场份额报告》显示,火山引擎以17.8%和19.3%的份额位居中国智能体开发平台私有化、公有云市场双第一。竞争焦点从Agent开发/编排延伸至全生命周期管理。火山引擎提供HiAgent(支持低/高/无代码、评测观测、数据回流、多模型接入、企业级扩展与私有化安全集成)和扣子(Coze)3.0(零代码开发部署、多人多Agent协作、跨多端协同、电脑桌面端和手机App端)两大产品,并推出AgentSphere实现多Agent统一管理。客户覆盖金融(9成头部券商、8成系统重要性银行)、教育(超八成985高校)、零售、能源等行业。

智能体行业动态部署/工程
13:58
OpenRouter:Announcements(RSS)
精选68
智能体AI治理:你的API密钥就是护栏

智能体AI使用量将在未来两年急剧上升,但治理滞后——仅五分之一企业拥有成熟治理模型。典型事故:销售智能体重试失败调用后自行升级到GPT-5.5,一夜消耗200美元。API路由层位于智能体与模型之间,是强制执行预算上限、模型白名单、提供方准入和请求日志的理想点。IBM报告指出97%遭遇AI安全事件的组织缺乏AI访问控制。最小可行治理方案:为每个智能体工作流分配独立API密钥,在API密钥层面实现预算控制、模型准入和审计追踪。

智能体现象/趋势部署/工程

推荐理由:现在代理失控的风险越来越真实,这篇文章把复杂的治理问题简化为五个 API 密钥控制,五分钟就能落地,比那些大而无当的框架实用得多。
11:27
HuggingFace Daily Papers(社区热门论文)
55
VisualClaw:面向物理世界的实时个性化多模态智能体

VisualClaw是一个自进化多模态智能体,通过级联门过滤流式帧与热/冷top-k注入技能库,将单问题API成本降至全帧上传的-98%、均匀8帧基线的-25.9%。技能进化模块从失败中学习并更新技能库,在4个视频QA基准上平均准确率提升+3.85%,EgoSchema上Gemini 3 Flash达+15.80%。研究者构建了VisualClawArena(200场景多模态智能体基准),在该基准上结合计算机使用后端使Codex (GPT-5.5)宏观准确率+2.9%、Claude Code (Sonnet 4.6)+3.2%,成本降低-9.5%。级联机制将1小时流媒体从~3,600次API调用降至5-20次,适合边缘部署。

智能体多模态视频论文/研究
11:07
Hacker News 热门(buzzing.cc 中文翻译)
50
无人经济?从技术上讲并非不可能

一篇来自 gmalandrakis.com 的帖子在 Hacker News 上获得 101 个点赞,提出无人经济在技术上并非不可能。

智能体现象/趋势
11:01
公众号:卡尔的AI沃茨
61
ClawHunt:AI Agent赏金市场的交付验证与真实测试

ClawHunt是一个AI Agent赏金市场,需求方发布任务并挂赏金,Agent或开发者竞标后提交成品。平台引入L1 Delivery Protocol Manifest,明确定义输入文件、输出文件、验收脚本和预期结果。作者测试Problem #196(合同填充工具),按Sample跑通生成了docx,但实际踩坑四次:缺乏OpenAI API Key时fallback到纯正则模式,导致字段提取错误(地址未填、Email/Phone位置错、客户与供应商颠倒)。结论是Agent在demo阶段容易展示漂亮结果,但真实交付中的验收、复现和安全性仍是核心难题。

智能体现象/趋势
11:00
IT之家(RSS)
64
微软推Intelligent Terminal:Win11终端集成AI智能体

微软为Windows 11推出实验性命令行工具Intelligent Terminal,基于Windows Terminal分支,在专用窗格中集成AI智能体。智能体可查看shell上下文、实时捕获错误、解释失败原因、生成命令或处理多步任务。用户需手动从微软商店下载,可用winget install Microsoft.IntelligentTerminal安装。支持ACP协议,默认识别GitHub Copilot。提供智能体聊天(Ctrl+Shift+.)和智能体管理(Ctrl+Shift+/)两种交互,可开启自动错误检测与跨终端会话管理。

智能体Microsoft产品更新编码
11:00
IT之家(RSS)
精选70
AI 版支付宝官宣开启邀测:右滑打开"阿宝",官方放出 100 个邀请码

支付宝今日开启 AI 版邀测,用户可右滑进入新版界面,在对话框或语音中输入指令,由“阿宝”助手代办事项。以查询公积金为例,阿宝自动匹配对应小程序和服务入口,用户点击确认即可完成,将多步跳转折叠为一句指令。所有涉及资金变动和支付的环节均需用户本人确认。首批放出 100 个邀请码。

智能体产品更新

推荐理由:支付宝的AI版右滑唤起阿宝,把查公积金等繁琐流程压成一句话,是超级App从陈列式向对话式转型的实质性信号,做生活服务产品的都该盯一下。
10:40
公众号:蚂蚁百灵(Ling)
同事件精选79
蚂蚁百灵发布 Ling & Ring 2.6 技术报告

蚂蚁百灵发布 Ling & Ring 2.6 技术报告,系统公开 Ling-2.6-flash、Ling-2.6-1T 和 Ring-2.6-1T 的架构、预训练、后训练及 Agent 强化学习细节。三款模型采用 Hybrid Linear Attention 架构,将 Lightning Attention 与 MLA 以 7:1 比例结合。Ling-2.6-flash 在 4×H20 硬件上解码速度达 340 tokens/s,Ling-2.6-1T 在 Artificial Analysis Intelligence Index 上 token efficiency 较前代提升约 4 倍。Ring-2.6-1T high 在 PinchBench 得 87.60,ClawEval 得 63.82。三款模型均已开源。

智能体开源/仓库推理模型发布
同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》
推荐理由:蚂蚁百灵2.6技术报告首次公开Hybrid Linear Attention与KPop Agent RL细节,开源模型在OpenClaw登顶,把万亿模型从聊天拉到真实工作流,做Agent应用的值得细读。
10:27
HuggingFace Daily Papers(社区热门论文)
47
TokenPilot:面向LLM智能体的缓存高效上下文管理框架

TokenPilot是一种双粒度上下文管理框架,旨在解决长对话场景中LLM智能体因上下文累积导致的高推理成本。全局层面,Ingestion-Aware Compaction稳定提示词前缀并消除环境噪声;局部层面,Lifecycle-Aware Eviction监控上下文片段剩余效用,仅在任务相关性过期时卸载。在PinchBench和Claw-Eval上,孤立模式成本降低61%和56%,连续模式降低61%和87%,同时保持竞争力。该框架已集成至LightMem2。

智能体论文/研究部署/工程
09:59
Berkeley RDI:Blog(AI 安全与评测)
精选83
伯克利RDI发布Agents' Last Exam基准

2026年6月,伯克利RDI发布Agents’ Last Exam(ALE)基准,包含1,500余项源于真实工作的任务,覆盖55个非体力职业。对Fable 5、GPT-5.5、Composer 2.5等前沿智能体的测评显示:在最困难层级成功率均为0%;整体任务表现接近,但单任务成本差异巨大(Fable 5约$15.70,GPT-5.5约$3.80,Composer 2.5约$1.33)。CLI子集ALE-CLI最佳通过率仅25.2%。主要失败模式是智能体未验证输出即宣称完成。数据集、代码及CLI子集已开源。

智能体arXivHugging Face开源生态

推荐理由:在Fable 5发布后,Berkeley的ALE基准首次大规模量化了agent在专业任务上的真实水平,最难任务0%成功率的结果值得所有押注agent落地的团队冷静下来。
08:00
HuggingFace Daily Papers(社区热门论文)
53
LegalHalluLens:面向可信法律AI的类型化幻觉审计与校准多智能体辩论

法律AI聚合幻觉率约52%,但掩盖了错误集中方向。LegalHalluLens审计框架包含:类型化幻觉档案(数字、时间、义务权利、事实四类)、风险方向指数(RDI)及校准辩论管线。在510份合同、249,252条款实例中,同一模型内义务/数字类与时间类幻觉率差距达38-40个百分点;两个均报告52%幻觉率的系统RDI可能相反。辩论管线将虚假检测减少45%,以4B参数匹配商业API。类型档案和RDI暴露隐藏失败模式,作为多智能体辩论校准输入。

智能体论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
50
MaineCoon:首个实时音频-视频社交世界模型

MaineCoon 是一个 22B 参数的实时音频‑视频自回归模型,在单 GPU 上实现最高 47.5 FPS 的流式生成与亚秒级交互,是首个专为社交交互场景优化的实时音视频生成模型。训练中引入自重采样、跨模态表示对齐、领域偏好优化和 Reinforced Online‑Policy Distillation(ROPD)。同时设计了首个智能体流推理框架,通过智能缓存管理与提示规划支持千秒级以上的长序列生成并缓解漂移。该模型在高质量、低延迟、长时域音视频自回归建模上确立了新 SOTA 基准。

智能体多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
46
LLM-as-Environment-Engineer:让策略模型自主设计强化学习训练环境

提出 LLM-as-Environment-Engineer 框架,使当前策略模型能基于失败轨迹与上下文自动修改下一阶段训练环境配置。引入可控测试床 MAPF-FrozenLake,支持多维环境配置生成与基准评估。以 Qwen3-4B 为骨干,该框架在基准测试中取得最强综合性能,超越 GPT、Gemini 等更大专有模型及固定环境基线。分析发现,成功环境更新依赖失败证据并保留已有配置;当前 RL 检查点作为环境工程师优于原始基座模型,表明策略学习提升了模型诊断自身弱点的能力。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
CEO-Bench:智能体能玩长期游戏吗?

CEO-Bench通过模拟初创公司500天运营,评估AI智能体在不确定性中规划、获取信息、适应变化和协调多目标的能力。智能体需通过Python接口管理定价、营销、预算等决策,并处理嘈杂数据库。最强模型(Claude Opus 4.8、GPT-5.5)虽能编写复杂代码预测现金流、挖掘客户偏好,但仅勉强使余额维持起始的100万美元以上,无法持续盈利。该基准首次衡量驱动长期自适应进展所需的智能。

智能体论文/研究评测/基准
07:59
Simon Willison 博客
63
datasette-agent 0.3a0 发布

datasette-agent 0.3a0 发布,新增 execute_write_sql 工具,可在用户批准后写入数据库并考虑权限。新版增强了 datasette agent chat 终端模式,支持用户审批流程,新增 --root(以 root 运行)、--yes(自动批准所有询问)和 --unsafe(同时启用两者)选项。工具现在可为 CLI 提供纯文本替代 HTML 显示。使用命令 datasette agent chat content.db -m gpt-5.5 --unsafe 可直接对话并修改数据库。

智能体MCP/工具产品更新
06:59
IT之家(RSS)
53
古尔曼:苹果有望推出AI智能体,让Siri自主操作iPhone和Mac软件

彭博社记者马克·古尔曼预测,苹果或将推出对标OpenClaw的AI智能体系统,全权代表用户操作iPhone、iPad与Mac上的软件。依据是Siri工程主管迈克·罗克韦尔在WWDC后表示,Siri底层引擎已是“完全现代化的架构”,设计时考虑了功能拓展性,未来可支持智能体式的持续接收信息、判断和执行。苹果软件工程高级副总裁克雷格·费德里吉则审慎表示,该领域尚在试验阶段,用户体验是首要目标。新版Siri已基于大语言模型重构,但仍需用户主动发起指令。

智能体大佬观点行业动态
06:36
MarkTechPost(RSS)
59
Sakana AI 推出商用产品 Sakana Marlin:企业智能体可生成长达100页研究报告及幻灯片

东京 AI 公司 Sakana AI 发布首个商业产品 Sakana Marlin,定位为虚拟首席战略官(Virtual CSO)的 B2B 自主研究智能体。输入主题后,Marlin 自主运行最多约8小时,输出数十至100页详细报告(含正文、参考文献和附录)及 AI 生成的幻灯片。核心算法是自适应分支蒙特卡洛树搜索(AB-MCTS),可动态选择“扩宽”或“加深”。产品经2026年4月封闭测试(约300名专业人士)优化,已与三菱 UFJ 金融集团合作,获花旗集团战略投资。定价按次付费(每次100积分,每积分98日元)及 Pro(月费15万日元,含2000积分)、Team(月费40万日元,含6000积分)套餐,AB-MCTS 已以 Apache 2.0 许可证开源。

智能体产品更新开源生态推理
02:33
xAI:News(网页)
47
xAI 宣布 Grok 集成至 Warp 终端开发环境

xAI 宣布与 Warp 集成,Warp 是一个基于终端的智能体开发环境,拥有近百万开发者。用户可使用 Grok 或 X Premium 订阅在 Warp 中访问 Grok 模型,包括驱动 Grok Build CLI 的 grok-build-0.1 模型。设置方式:下载 Warp,在 Agent 设置页连接 SuperGrok 订阅,切换至 grok-build-0.1 模型。更多智能体与集成即将推出。

智能体行业动态部署/工程
00:47
Tomer Tunguz 博客(VC 分析)
同事件精选61
AI 应用黄金时代已至:Fable 被禁、Nadella 的护城河论点与 Salesforce 收购 Fin

美国政府关闭 Anthropic 的 Fable 访问,开源和本地模型成必备;Satya Nadella 主张 AI 生态护城河应是人类专业知识和模型外围系统;Salesforce 以 36 亿美元收购 Fin(前 Intercom),Fin 利用开源模型实现性价比。这三件事标志 AI 应用进入黄金时代。构建 AI 应用的难点:在 Kimi K2.6、Qwen 3.6 27b、GLM 5.1 等不同特性模型中选择;设计智能体系统的 hill-climbing 循环;持续评估模型+循环性能以最大化 token 预算中的智能。掌握这三项技能的公司将主导这一时代。

智能体大佬观点开源生态
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
推荐理由:Tunguz 认为模型不再是护城河,系统设计才是,他提的三个新学科,选模型、设计循环、评估性能,对做 Agent 的团队是实用的框架,值得一读。
00:27
xAI:News(网页)
精选73
Grok Build 推出 Agent Dashboard 管理多个编码会话

xAI 为 Grok Build 推出 Agent Dashboard,提供单一屏幕管理多个编码会话。仪表板按状态分组(等待输入、工作中、空闲),每行显示状态标记、名称、分支、权限模式和当前操作。选中会话可打开 peek 面板查看最新输出并直接回复,等待输入的会话支持用箭头键或数字键选择选项。底部输入框用于分派新会话,支持设置模型、启动计划模式或自动批准编辑。通过 grok dashboard、/dashboard 或 Ctrl+\ 打开,关闭后会话继续运行,重新打开即可恢复。

智能体xAI产品更新编码

推荐理由:xAI给Grok Build加了一个类似终端的仪表盘,可以并行管理多个编码代理,对重度用户来说能省下频繁切换窗口的心智负担。功能本身不颠覆,但标志着AI编程工具在往多会话编排走。
00:00
Berkeley RDI:Blog(AI 安全与评测)
精选68
SageCTF:最强大CTF挑战AI智能体

UC Santa Barbara与UC Berkeley团队基于OpenSage框架构建了CTF专用智能体SageCTF。在DEF CON CTF 2026资格赛中,SageCTF以单人玩家身份尝试15道挑战,成功攻克7道、恢复8个flag,总计1,743分,排名前5%,超越全部自评“不使用AI”或“低AI”的175支团队。在50道近期CTF挑战的对比测试中,SageCTF以Claude-Opus-4.6为主模型,在相同预算(每道$200/10小时)下解出39道,而Claude Code仅解出13道,且Claude Code的解出全部被SageCTF覆盖。技术核心包括AI自生成拓扑、多智能体通信、分层记忆及多模型协同编排。

智能体推理论文/研究评测/基准

推荐理由:SageCTF 在 DEF CON CTF 排进前 5%,是 AI agent 在顶级安全竞赛中的首次重大突破。OpenSage 的自构建多智能体架构和十小时持续探索的能力,给做复杂推理工具的人提供了真参考。
6月15日
22:54
TechCrunch:AI(RSS)
精选73
Salesforce以36亿美元收购AI客服平台Fin

Salesforce宣布以36亿美元收购AI客服平台Fin(前身为Intercom)。Fin提供可跨实时聊天、WhatsApp、短信、电话、Slack等多渠道解决客户问题的AI智能体。Salesforce计划利用Fin的技术和团队增强其企业级Agentforce平台,该平台允许企业构建自定义AI智能体以自动化任务。交易预计在Salesforce 2027财年第四季度(即2027年初)完成。Fin联合创始人兼CEO Eoghan McCabe将继续担任CEO,研发负责人Des继续领导研发。

智能体行业动态

推荐理由:Salesforce 投 36 亿买 Fin,表明企业级 AI agent 市场已从概念验证进入军备竞赛阶段,做客服 SaaS 的人该重新评估 Agentforce 的竞争力了。
22:23
Hacker News 热门(buzzing.cc 中文翻译)
63
Openrouter Fusion API

Openrouter 推出 Fusion API,可通过 openrouter.ai 使用,在 Hacker News 上获得 103 个用户点赞。

智能体产品更新推理
21:30
公众号:百度智能云(文心)
49
百度搭子DuMate Harness引擎升级:复杂任务积分消耗最高降低75%

百度搭子DuMate完成Harness引擎系统性升级,复杂任务积分消耗最高降低75%。以行业深度调研报告为例,积分从约400降至约100;电商运营周报从近300降至约78。降本不降质源于三项优化:自研安全沙箱资源消耗降低、模型推理效率提升(非替换低成本模型)、Harness执行链路工程升级(提升任务规划精度与工具调用效率)。

智能体产品更新部署/工程
21:18
TechCrunch:AI(RSS)
54
NewCore获6600万美元种子轮融资,构建AI智能体身份管理平台

网络安全初创公司NewCore走出隐身模式,宣布获得6600万美元种子轮融资,由Cyberstarts领投,Index Ventures和Evolution Equity Partners参投,投后估值3亿美元。该公司构建统一管理人类和AI智能体身份的平台,将AI智能体视为拥有独立权限、生命周期和撤销机制的一等身份,而非传统服务账号。平台采用split-key架构,将关键身份凭证拆分给客户和平台,消除单点风险。其Agentic Skill集成包支持Anthropic Claude Code、OpenAI Codex和Cursor等编码助手以托管身份访问企业系统,员工可通过移动应用授权、审查和撤销AI智能体权限。NewCore目前拥有50多名员工,客户不到10家,设计伙伴超过10家,预计今夏开始收费。

智能体安全/对齐行业动态
19:29
Artificial Intelligence News(RSS)
60
华为发布 HarmonyOS 7,集成智能体框架 2.0,小艺升级系统级智能体

华为在苹果确认 Siri AI 不在中国推出后发布 HarmonyOS 7,集成 HarmonyOS 智能体框架 2.0,以“意图即服务”模型将多应用操作压缩为单条自然语言指令。小艺升级为系统级智能体,可控制超 2100 项系统能力并协调 2000 多个第三方 AI 智能体。底层搭载 openPangu 2.0 基础模型,Pro 版 505B 参数,Flash 版 92B 参数,均支持 512K 上下文窗口;30B 参数端侧模型计划秋季登陆 Kirin 芯片。系统性能较 HarmonyOS 6.1 提升超 15%,任务执行准确率宣称超 90%(未经独立验证)。2026 年 Q1 HarmonyOS 占中国智能手机 OS 市场 19%,首超 Apple 的 iOS(16%)。目前为开发者 beta 版,稳定版秋季发布。

智能体产品更新
‹ 上一页
1…89101112…50
下一页 ›