AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「Agent」清除
6月16日周二
10:40公众号:蚂蚁百灵(Ling)79同事件精选蚂蚁百灵发布 Ling & Ring 2.6 技术报告同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》
10:27HuggingFace Daily Papers(社区热门论文)47TokenPilot:面向LLM智能体的缓存高效上下文管理框架
10:20Artificial Analysis60Artificial Analysis Intelligence Index v4.1 发布:转向智能体任务评测
09:59Berkeley RDI:Blog(AI 安全与评测)83精选伯克利RDI发布Agents' Last Exam基准
09:38小互60Claude 为 Agent SDK 和 claude -p 新增独立用量额度
09:19meng shao69Cua 和 Snorkel AI 联合发布 Cua-Bench:首个公开 KiCad 任务数据集
09:19meng shao66Vercel Labs 推出 HarnessAgent:为 Coding Agent 提供生成式 UI
09:03🚨 AI News | TestingCatalog37OpenAI Codex 支持 Chrome DevTools 协议
09:02Emad16Emad Mostaque 推文:没问题
08:49meng shao66@mattpocockuk 提出 AI 驱动开发七阶段及 /grill-with-docs 升级
08:48ginobefun41早报精讲三篇方法论:循环工程、Agent工具设计、Token成本控制
08:48ginobefun56BestBlogs 早报 · 06-16
08:00HuggingFace Daily Papers(社区热门论文)53LegalHalluLens:面向可信法律AI的类型化幻觉审计与校准多智能体辩论
08:00HuggingFace Daily Papers(社区热门论文)50MaineCoon:首个实时音频-视频社交世界模型
08:00HuggingFace Daily Papers(社区热门论文)46LLM-as-Environment-Engineer:让策略模型自主设计强化学习训练环境
08:00HuggingFace Daily Papers(社区热门论文)53CEO-Bench:智能体能玩长期游戏吗?
07:59Simon Willison 博客63datasette-agent 0.3a0 发布
06:59IT之家(RSS)53古尔曼:苹果有望推出AI智能体,让Siri自主操作iPhone和Mac软件
06:43elvis35Claude Agent SDK收费传闻引用户不满
06:36MarkTechPost(RSS)59Sakana AI 推出商用产品 Sakana Marlin:企业智能体可生成长达100页研究报告及幻灯片
06:13elvis34验证器:智能体正确工作的关键
04:19Rohan Paul54Factory 2.0 发布:AI 智能体接入完整软件工作流
02:33xAI:News(网页)47xAI 宣布 Grok 集成至 Warp 终端开发环境
00:47Tomer Tunguz 博客(VC 分析)61同事件精选AI 应用黄金时代已至:Fable 被禁、Nadella 的护城河论点与 Salesforce 收购 Fin同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
00:27xAI:News(网页)73精选Grok Build 推出 Agent Dashboard 管理多个编码会话
00:13elvis73DAIR AI 开源 /learn skill,用 Agent 学习任何主题
00:13elvis30AI员工成功运行DAIR Academy
00:00Berkeley RDI:Blog(AI 安全与评测)68精选SageCTF:最强大CTF挑战AI智能体
6月15日周一
23:56jason28Codex电脑工具狂野用法列举
22:54TechCrunch:AI(RSS)73精选Salesforce以36亿美元收购AI客服平台Fin
22:47🚨 AI News | TestingCatalog35xAI 将 Grok Tasks 升级为 Grok Automations
22:23Hacker News 热门(buzzing.cc 中文翻译)63Openrouter Fusion API
21:30公众号:百度智能云(文心)49百度搭子DuMate Harness引擎升级:复杂任务积分消耗最高降低75%
21:18TechCrunch:AI(RSS)54NewCore获6600万美元种子轮融资,构建AI智能体身份管理平台
21:12凡人小北62AI Agent全自动协作:从发现Bug到修复Merge全程零人类编码
19:29Artificial Intelligence News(RSS)60华为发布 HarmonyOS 7,集成智能体框架 2.0,小艺升级系统级智能体
18:24Artificial Intelligence News(RSS)59埃森哲:消费者对AI购物智能体信任度上升
17:54Peter Steinberger 🦞43clawsweeper自动审核Issue并创建PR
17:43IT之家(RSS)66AI 版支付宝内测界面曝光,搭载"阿宝"助手
16:40X.PIN54蚂蚁测试AI支付宝 嵌入"阿宝"助手
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月16日
10:40
公众号:蚂蚁百灵(Ling)
同事件精选79
蚂蚁百灵发布 Ling & Ring 2.6 技术报告

蚂蚁百灵发布 Ling & Ring 2.6 技术报告,系统公开 Ling-2.6-flash、Ling-2.6-1T 和 Ring-2.6-1T 的架构、预训练、后训练及 Agent 强化学习细节。三款模型采用 Hybrid Linear Attention 架构,将 Lightning Attention 与 MLA 以 7:1 比例结合。Ling-2.6-flash 在 4×H20 硬件上解码速度达 340 tokens/s,Ling-2.6-1T 在 Artificial Analysis Intelligence Index 上 token efficiency 较前代提升约 4 倍。Ring-2.6-1T high 在 PinchBench 得 87.60,ClawEval 得 63.82。三款模型均已开源。

智能体开源/仓库推理模型发布
同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》
推荐理由:蚂蚁百灵2.6技术报告首次公开Hybrid Linear Attention与KPop Agent RL细节,开源模型在OpenClaw登顶,把万亿模型从聊天拉到真实工作流,做Agent应用的值得细读。
10:27
HuggingFace Daily Papers(社区热门论文)
47
TokenPilot:面向LLM智能体的缓存高效上下文管理框架

TokenPilot是一种双粒度上下文管理框架,旨在解决长对话场景中LLM智能体因上下文累积导致的高推理成本。全局层面,Ingestion-Aware Compaction稳定提示词前缀并消除环境噪声;局部层面,Lifecycle-Aware Eviction监控上下文片段剩余效用,仅在任务相关性过期时卸载。在PinchBench和Claw-Eval上,孤立模式成本降低61%和56%,连续模式降低61%和87%,同时保持竞争力。该框架已集成至LightMem2。

智能体论文/研究部署/工程
10:20
Artificial Analysis@ArtificialAnlys
60
Artificial Analysis Intelligence Index v4.1 发布:转向智能体任务评测

Artificial Analysis 发布 Intelligence Index v4.1,转向智能体任务。升级 Terminal-Bench 2.1、τ³-Bench Banking、GDPval-AA v2(Elo 重基线、引入前沿模型评审、回合上限增至250),移除饱和的 IFBench。新增每任务成本、时间、输出 token 指标及缓存 token 影响。关键结果:Claude Fable 5(60分)领先但不可用;可用模型中 Claude Opus 4.8(max)56分居首,GPT-5.5(xhigh)55分。开源 DeepSeek V4 Pro 与 MiniMax M3 均44分。成本方面,Opus 4.8 每任务 $1.78,GPT-5.5 $0.99,DeepSeek V4 Pro 仅 $0.04。时间方面,Grok 4.3 最快(1.5分钟),Opus 4.8 需6.4分钟,GPT-5.5 需3.7分钟,Gemini 3.1 Pro Preview 以1.6分钟得46分。

智能体AnthropicDeepSeek推理
09:59
Berkeley RDI:Blog(AI 安全与评测)
精选83
伯克利RDI发布Agents' Last Exam基准

2026年6月,伯克利RDI发布Agents’ Last Exam(ALE)基准,包含1,500余项源于真实工作的任务,覆盖55个非体力职业。对Fable 5、GPT-5.5、Composer 2.5等前沿智能体的测评显示:在最困难层级成功率均为0%;整体任务表现接近,但单任务成本差异巨大(Fable 5约$15.70,GPT-5.5约$3.80,Composer 2.5约$1.33)。CLI子集ALE-CLI最佳通过率仅25.2%。主要失败模式是智能体未验证输出即宣称完成。数据集、代码及CLI子集已开源。

智能体arXivHugging Face开源生态

推荐理由:在Fable 5发布后,Berkeley的ALE基准首次大规模量化了agent在专业任务上的真实水平,最难任务0%成功率的结果值得所有押注agent落地的团队冷静下来。
09:38
小互@xiaohu
60
Claude 为 Agent SDK 和 claude -p 新增独立用量额度

自6月15日起,Claude 将 Agent SDK 和 claude -p 的用量从订阅套餐原有额度中剥离,每月额外提供一笔“专用零花钱”,其中 Pro 用户 $20、Max 5x 用户 $100,以此类推。该额度专门用于运行 claude -p、自写 Agent SDK 脚本或第三方 Agent App,不占用日常对话配额。额度用完后才扣其他费用,未用完不滚存下月;需手动领取一次后自动续期。

智能体Anthropic产品更新
09:19
meng shao@shao__meng
69
Cua 和 Snorkel AI 联合发布 Cua-Bench:首个公开 KiCad 任务数据集

Cua 与 Snorkel AI 联合发布 Cua-Bench,首个公开数据集聚焦电子设计工具 KiCad,含 25 道由执业电气工程师编写并复核的任务。测试中,GPT-5.5 完全通过 6/25(24%),Claude Sonnet 4.5 和 Haiku 4.5 各通过 5/25(20%)。所有成功任务均为局部修改,16 道从零搭建任务全部失败。瓶颈在执行层:导航开销大(~84%)、操作粒度过细(~84%)、视图控制混乱(~76%)、布线未完成(~72%)、自我验证不可靠。步数上限并非主因。根因分布:规划 ~40%、感知 ~22%、导航低效 ~19%、领域知识 ~11%、工具/API ~8%,全程零 API 错误。

Cua: 1/ Today we're launching Cua-Bench with @SnorkelAI: a benchmark for computer-use agents on professional software, open f...

智能体AnthropicOpenAI评测/基准
09:19
meng shao@shao__meng
66
Vercel Labs 推出 HarnessAgent:为 Coding Agent 提供生成式 UI

Vercel Labs 利用 AI SDK 7 实验 API 推出 HarnessAgent,结合 json-render 为 Claude Code / Codex / Pi 等 Coding Agent 提供生成式 UI。Agent 在 Vercel Sandbox 隔离 Linux 环境中执行写文件、跑测试等真实操作,输出受 Zod schema 约束的 JSONL UI 规格(仅限 Steps、FileChange、Terminal 等预定义组件),前端通过 useChat + useJsonRenderMessage 实时渲染。核心设计:Harness 抽象允许像换模型一样互换 Agent;UI 层与执行层完全解耦;Session 绑定 Sandbox,10 分钟空闲或“Start Over” 销毁。Agent 不得虚构结果,失败必须展示 error step、非零 exit code 或失败测试。

Chris Tate: Introducing Generative UI for Claude Code, Codex and Pi Charts, forms, 3D, anything Your agent renders real UI for users...

智能体GitHubMCP/工具产品更新
09:03
🚨 AI News | TestingCatalog@testingcatalog
37
OPENAI 🔥: Codex 现在支持 Chrome DevTools 协议,可用于浏览器操作。这是一个巨大的超能力,将允许 Codex 检查并修改任何网站。 这仍是一个非常早期的实现,但我敢打赌,几年后这将成为浏览器的默认能力。如果网站通过 AI 加载,用户将能够即时自定义他们的用户体验。 这就是方向 👀
智能体MCP/工具OpenAI产品更新
09:02
Emad@EMostaque
16
可以

Andrew Curran: http://x.com/i/article/2066289802295779328

智能体大佬观点
08:49
meng shao@shao__meng
66
@mattpocockuk 提出 AI 驱动开发七阶段及 /grill-with-docs 升级

@mattpocockuk 提出 AI 驱动开发七阶段:Grill(模糊→共享理解)、Research(缓存外部信息)、Prototype(可玩代码验证)、PRD(需求文档)、Issues(垂直切片)、Implement(Agent 执行)、Review(人工 QA)。/grill-with-docs 是 /grill-me 的升级版,专为有代码库场景设计,新增领域语言(CONTEXT.md)、ADR(docs/adr/)及会话四类动作。无代码库时仍用 /grill-me。作者认为 pre-PRD 阶段需更多结构,/grill-with-docs 将再次调整。

Matt Pocock: Here are my 7 phases of AI-powered development. I've been thinking that the pre-PRD phase needs more structure. You need...

智能体GitHub教程/实践编码
08:48
ginobefun@hongming731
41
早报精讲三篇方法论:循环工程、Agent工具设计、Token成本控制

循环工程将人机协作从单次对话转为连续回路,需回答何时启动、工具集、错误检测、记忆、刹车五个问题。Agent工具设计强调单一职责、强约束schema、结构化错误返回、幂等键等有效模式,并列出静默部分成功、功能重叠等反模式。Token成本控制揭示用户提问仅占成本1%以下,真正大头顶在系统提示词、项目文档、Skill定义、历史会话等固定前缀。速览还涉及Anthropic Fable 5模型被美政府出口管制叫停、Scaling Law参数冗余研究。

智能体现象/趋势编码
08:48
ginobefun@hongming731
56
BestBlogs 早报 · 06-16

BestBlogs精选10篇AI行业文章:Token成本控制大头在系统提示词、Skill和会话历史;AI Agent工具设计强调单一职责、强约束schema、幂等键;循环工程(Loop)作为新范式让模型连续跑规则;Scaling Law参数空转扮演骨架角色;GlobalGPT零融资做到千万美金ARR;AI应用层泡沫破裂,Sora等180天关停;Anthropic旗舰模型Fable 5遭美国政府出口管制禁令;夏勇峰暂停智能眼镜业务转向“为AI造硬件”;SpaceX登陆纳斯达克市值超2万亿美元;利用盖亚卫星18亿颗恒星数据模拟银河图像。

ginobefun: http://x.com/i/article/2066671362920599553

智能体其他开源生态编码
08:00
HuggingFace Daily Papers(社区热门论文)
53
LegalHalluLens:面向可信法律AI的类型化幻觉审计与校准多智能体辩论

法律AI聚合幻觉率约52%,但掩盖了错误集中方向。LegalHalluLens审计框架包含:类型化幻觉档案(数字、时间、义务权利、事实四类)、风险方向指数(RDI)及校准辩论管线。在510份合同、249,252条款实例中,同一模型内义务/数字类与时间类幻觉率差距达38-40个百分点;两个均报告52%幻觉率的系统RDI可能相反。辩论管线将虚假检测减少45%,以4B参数匹配商业API。类型档案和RDI暴露隐藏失败模式,作为多智能体辩论校准输入。

智能体论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
50
MaineCoon:首个实时音频-视频社交世界模型

MaineCoon 是一个 22B 参数的实时音频‑视频自回归模型,在单 GPU 上实现最高 47.5 FPS 的流式生成与亚秒级交互,是首个专为社交交互场景优化的实时音视频生成模型。训练中引入自重采样、跨模态表示对齐、领域偏好优化和 Reinforced Online‑Policy Distillation(ROPD)。同时设计了首个智能体流推理框架,通过智能缓存管理与提示规划支持千秒级以上的长序列生成并缓解漂移。该模型在高质量、低延迟、长时域音视频自回归建模上确立了新 SOTA 基准。

智能体多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
46
LLM-as-Environment-Engineer:让策略模型自主设计强化学习训练环境

提出 LLM-as-Environment-Engineer 框架,使当前策略模型能基于失败轨迹与上下文自动修改下一阶段训练环境配置。引入可控测试床 MAPF-FrozenLake,支持多维环境配置生成与基准评估。以 Qwen3-4B 为骨干,该框架在基准测试中取得最强综合性能,超越 GPT、Gemini 等更大专有模型及固定环境基线。分析发现,成功环境更新依赖失败证据并保留已有配置;当前 RL 检查点作为环境工程师优于原始基座模型,表明策略学习提升了模型诊断自身弱点的能力。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
CEO-Bench:智能体能玩长期游戏吗?

CEO-Bench通过模拟初创公司500天运营,评估AI智能体在不确定性中规划、获取信息、适应变化和协调多目标的能力。智能体需通过Python接口管理定价、营销、预算等决策,并处理嘈杂数据库。最强模型(Claude Opus 4.8、GPT-5.5)虽能编写复杂代码预测现金流、挖掘客户偏好,但仅勉强使余额维持起始的100万美元以上,无法持续盈利。该基准首次衡量驱动长期自适应进展所需的智能。

智能体论文/研究评测/基准
07:59
Simon Willison 博客
63
datasette-agent 0.3a0 发布

datasette-agent 0.3a0 发布,新增 execute_write_sql 工具,可在用户批准后写入数据库并考虑权限。新版增强了 datasette agent chat 终端模式,支持用户审批流程,新增 --root(以 root 运行)、--yes(自动批准所有询问)和 --unsafe(同时启用两者)选项。工具现在可为 CLI 提供纯文本替代 HTML 显示。使用命令 datasette agent chat content.db -m gpt-5.5 --unsafe 可直接对话并修改数据库。

智能体MCP/工具产品更新
06:59
IT之家(RSS)
53
古尔曼:苹果有望推出AI智能体,让Siri自主操作iPhone和Mac软件

彭博社记者马克·古尔曼预测,苹果或将推出对标OpenClaw的AI智能体系统,全权代表用户操作iPhone、iPad与Mac上的软件。依据是Siri工程主管迈克·罗克韦尔在WWDC后表示,Siri底层引擎已是“完全现代化的架构”,设计时考虑了功能拓展性,未来可支持智能体式的持续接收信息、判断和执行。苹果软件工程高级副总裁克雷格·费德里吉则审慎表示,该领域尚在试验阶段,用户体验是首要目标。新版Siri已基于大语言模型重构,但仍需用户主动发起指令。

智能体大佬观点行业动态
06:43
elvis@omarsar0
35
这是真的吗? 我没有收到任何沟通。 如果是真的那就太离谱了。我把很多内容从Claude Agent SDK迁移走了,因为他们打算对Claude Code的程序化使用收费。 在这些事情上兜圈子很累,但希望他们重新考虑。
智能体Anthropic行业动态
06:36
MarkTechPost(RSS)
59
Sakana AI 推出商用产品 Sakana Marlin:企业智能体可生成长达100页研究报告及幻灯片

东京 AI 公司 Sakana AI 发布首个商业产品 Sakana Marlin,定位为虚拟首席战略官(Virtual CSO)的 B2B 自主研究智能体。输入主题后,Marlin 自主运行最多约8小时,输出数十至100页详细报告(含正文、参考文献和附录)及 AI 生成的幻灯片。核心算法是自适应分支蒙特卡洛树搜索(AB-MCTS),可动态选择“扩宽”或“加深”。产品经2026年4月封闭测试(约300名专业人士)优化,已与三菱 UFJ 金融集团合作,获花旗集团战略投资。定价按次付费(每次100积分,每积分98日元)及 Pro(月费15万日元,含2000积分)、Team(月费40万日元,含6000积分)套餐,AB-MCTS 已以 Apache 2.0 许可证开源。

智能体产品更新开源生态推理
06:13
elvis@omarsar0
34
验证器很重要。 没有好的验证器,/goal 和 /loop 经常出问题。 对于大语言模型而言,任何超出分布的内容,智能体都难以正确验证工作。 我认为值得调优你自己的验证器,并弄清楚如何将它们与你当前的智能体连接起来。
智能体大佬观点
04:19
Rohan Paul@rohanpaul_ai
54
Factory 2.0 发布:AI 智能体接入完整软件工作流

FactoryAI 今日推出 Factory 2.0,将 AI 智能体与整个软件工作流打通——涵盖工单、客户请求、代码、测试、安全检查、代码审查、部署、文档和生产事故。系统强调反馈循环的重要性:每个事故和审查记录都应成为下一任务的训练信号。所有 bug 报告、客户请求、内部讨论、测试失败、安全警告和事故被视为单一循环内的信号,由智能体协助分类、编写代码、测试、审查、发布、监控生产环境,并将结果反馈回系统。这标志着从编码智能体向软件工厂的升级。

Factory: Today, we're announcing Factory 2.0: from coding agents to software factories.

智能体产品更新编码
02:33
xAI:News(网页)
47
xAI 宣布 Grok 集成至 Warp 终端开发环境

xAI 宣布与 Warp 集成,Warp 是一个基于终端的智能体开发环境,拥有近百万开发者。用户可使用 Grok 或 X Premium 订阅在 Warp 中访问 Grok 模型,包括驱动 Grok Build CLI 的 grok-build-0.1 模型。设置方式:下载 Warp,在 Agent 设置页连接 SuperGrok 订阅,切换至 grok-build-0.1 模型。更多智能体与集成即将推出。

智能体行业动态部署/工程
00:47
Tomer Tunguz 博客(VC 分析)
同事件精选61
AI 应用黄金时代已至:Fable 被禁、Nadella 的护城河论点与 Salesforce 收购 Fin

美国政府关闭 Anthropic 的 Fable 访问,开源和本地模型成必备;Satya Nadella 主张 AI 生态护城河应是人类专业知识和模型外围系统;Salesforce 以 36 亿美元收购 Fin(前 Intercom),Fin 利用开源模型实现性价比。这三件事标志 AI 应用进入黄金时代。构建 AI 应用的难点:在 Kimi K2.6、Qwen 3.6 27b、GLM 5.1 等不同特性模型中选择;设计智能体系统的 hill-climbing 循环;持续评估模型+循环性能以最大化 token 预算中的智能。掌握这三项技能的公司将主导这一时代。

智能体大佬观点开源生态
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
推荐理由:Tunguz 认为模型不再是护城河,系统设计才是,他提的三个新学科,选模型、设计循环、评估性能,对做 Agent 的团队是实用的框架,值得一读。
00:27
xAI:News(网页)
精选73
Grok Build 推出 Agent Dashboard 管理多个编码会话

xAI 为 Grok Build 推出 Agent Dashboard,提供单一屏幕管理多个编码会话。仪表板按状态分组(等待输入、工作中、空闲),每行显示状态标记、名称、分支、权限模式和当前操作。选中会话可打开 peek 面板查看最新输出并直接回复,等待输入的会话支持用箭头键或数字键选择选项。底部输入框用于分派新会话,支持设置模型、启动计划模式或自动批准编辑。通过 grok dashboard、/dashboard 或 Ctrl+\ 打开,关闭后会话继续运行,重新打开即可恢复。

智能体xAI产品更新编码

推荐理由:xAI给Grok Build加了一个类似终端的仪表盘,可以并行管理多个编码代理,对重度用户来说能省下频繁切换窗口的心智负担。功能本身不颠覆,但标志着AI编程工具在往多会话编排走。
00:13
elvis@omarsar0
73
DAIR AI 开源 /learn skill,用 Agent 学习任何主题

DAIR AI 创始人 Elvis Saravia 开源 /learn skill,允许用户通过 AI 智能体和 HTML artifacts 学习任意主题。该 skill 可安装后与任何 Agent 交互,生成视觉化、交互式的 artifact,帮助深入理解或生成知识检测(如测验)。支持 DAIR Academy pro 会员在 AI Builder 中使用。GitHub 链接及试用平台已开放。

智能体GitHub开源/仓库开源生态
00:13
elvis@omarsar0
30
这是我放在自己工作中用过的最强大的AI。 我在Slack里添加了一个AI员工,让它运行本周的DAIR Academy,它就去做了,并准备好发布。 以下是具体经过:
智能体大佬观点
00:00
Berkeley RDI:Blog(AI 安全与评测)
精选68
SageCTF:最强大CTF挑战AI智能体

UC Santa Barbara与UC Berkeley团队基于OpenSage框架构建了CTF专用智能体SageCTF。在DEF CON CTF 2026资格赛中,SageCTF以单人玩家身份尝试15道挑战,成功攻克7道、恢复8个flag,总计1,743分,排名前5%,超越全部自评“不使用AI”或“低AI”的175支团队。在50道近期CTF挑战的对比测试中,SageCTF以Claude-Opus-4.6为主模型,在相同预算(每道$200/10小时)下解出39道,而Claude Code仅解出13道,且Claude Code的解出全部被SageCTF覆盖。技术核心包括AI自生成拓扑、多智能体通信、分层记忆及多模型协同编排。

智能体推理论文/研究评测/基准

推荐理由:SageCTF 在 DEF CON CTF 排进前 5%,是 AI agent 在顶级安全竞赛中的首次重大突破。OpenSage 的自构建多智能体架构和十小时持续探索的能力,给做复杂推理工具的人提供了真参考。
6月15日
23:56
jason@jxnlco
28
如果你使用 Codex 的计算机使用工具 你用它在做什么最疯狂最随心所欲的事? 我先来,Codex 已经: 1. 帮我找到了传真病历的网站 2. 用 DocuSign 替我签了东西 3. 正在谈判卖一块手表 4. 搞定 5/5 派对的嘉宾名单 你呢?
智能体OpenAI其他
22:54
TechCrunch:AI(RSS)
精选73
Salesforce以36亿美元收购AI客服平台Fin

Salesforce宣布以36亿美元收购AI客服平台Fin(前身为Intercom)。Fin提供可跨实时聊天、WhatsApp、短信、电话、Slack等多渠道解决客户问题的AI智能体。Salesforce计划利用Fin的技术和团队增强其企业级Agentforce平台,该平台允许企业构建自定义AI智能体以自动化任务。交易预计在Salesforce 2027财年第四季度(即2027年初)完成。Fin联合创始人兼CEO Eoghan McCabe将继续担任CEO,研发负责人Des继续领导研发。

智能体行业动态

推荐理由:Salesforce 投 36 亿买 Fin,表明企业级 AI agent 市场已从概念验证进入军备竞赛阶段,做客服 SaaS 的人该重新评估 Agentforce 的竞争力了。
22:47
🚨 AI News | TestingCatalog@testingcatalog
35
xAI 计划将 Grok Tasks 转变为 Grok Automations。新版本将能使用技能并配备模型选择器。
智能体产品更新
22:23
Hacker News 热门(buzzing.cc 中文翻译)
63
Openrouter Fusion API

Openrouter 推出 Fusion API,可通过 openrouter.ai 使用,在 Hacker News 上获得 103 个用户点赞。

智能体产品更新推理
21:30
公众号:百度智能云(文心)
49
百度搭子DuMate Harness引擎升级:复杂任务积分消耗最高降低75%

百度搭子DuMate完成Harness引擎系统性升级,复杂任务积分消耗最高降低75%。以行业深度调研报告为例,积分从约400降至约100;电商运营周报从近300降至约78。降本不降质源于三项优化:自研安全沙箱资源消耗降低、模型推理效率提升(非替换低成本模型)、Harness执行链路工程升级(提升任务规划精度与工具调用效率)。

智能体产品更新部署/工程
21:18
TechCrunch:AI(RSS)
54
NewCore获6600万美元种子轮融资,构建AI智能体身份管理平台

网络安全初创公司NewCore走出隐身模式,宣布获得6600万美元种子轮融资,由Cyberstarts领投,Index Ventures和Evolution Equity Partners参投,投后估值3亿美元。该公司构建统一管理人类和AI智能体身份的平台,将AI智能体视为拥有独立权限、生命周期和撤销机制的一等身份,而非传统服务账号。平台采用split-key架构,将关键身份凭证拆分给客户和平台,消除单点风险。其Agentic Skill集成包支持Anthropic Claude Code、OpenAI Codex和Cursor等编码助手以托管身份访问企业系统,员工可通过移动应用授权、审查和撤销AI智能体权限。NewCore目前拥有50多名员工,客户不到10家,设计伙伴超过10家,预计今夏开始收费。

智能体安全/对齐行业动态
21:12
凡人小北@frxiaobei
62
AI Agent全自动协作:从发现Bug到修复Merge全程零人类编码

开发者@JeffreyCalm分享经历:他将GitHub链接交给Codex部署,发现Bug后Codex自动提Issue。官方仓库的Code Review Bot确认Bug并At Hotfix Bot,后者30分钟内提交修复PR,最后At真人开发者。真人仅回复“OK”即完成Merge。全程人类零编码,仅贡献一个决策确认,折射出Agent经济与A2A平台雏形。

Jeffrey.W: Github 本身在成为一个 A2A 平台。 我本周经历了一个特别魔幻的事情: 1. 我把一个 Github 链接丢给 Codex,让它帮我部署一下。 2. 我用了一段时间,发现似乎有个 Bug。我让 Codex 查了一下,它确认是个 Bu...

智能体GitHub开源生态现象/趋势
19:29
Artificial Intelligence News(RSS)
60
华为发布 HarmonyOS 7,集成智能体框架 2.0,小艺升级系统级智能体

华为在苹果确认 Siri AI 不在中国推出后发布 HarmonyOS 7,集成 HarmonyOS 智能体框架 2.0,以“意图即服务”模型将多应用操作压缩为单条自然语言指令。小艺升级为系统级智能体,可控制超 2100 项系统能力并协调 2000 多个第三方 AI 智能体。底层搭载 openPangu 2.0 基础模型,Pro 版 505B 参数,Flash 版 92B 参数,均支持 512K 上下文窗口;30B 参数端侧模型计划秋季登陆 Kirin 芯片。系统性能较 HarmonyOS 6.1 提升超 15%,任务执行准确率宣称超 90%(未经独立验证)。2026 年 Q1 HarmonyOS 占中国智能手机 OS 市场 19%,首超 Apple 的 iOS(16%)。目前为开发者 beta 版,稳定版秋季发布。

智能体产品更新
18:24
Artificial Intelligence News(RSS)
59
埃森哲:消费者对AI购物智能体信任度上升

埃森哲2026年消费者脉搏研究对16国25,590名消费者调查显示,74%的受访者更信任个人AI智能体而非好友代其购物;74%愿委托智能体处理谈判、投诉、订阅续订等常规任务。32%允许在预算和品牌限定内决策但需审批,9%允许自主完成购买。支付阶段仅12%开放自主决策。56%会让智能体指定考虑品牌,61%希望跨杂货零售商购物,71%希望跨航空公司等规划完整旅行。71%预计生成式AI将在12个月内影响至少一半消费决策,87%认为AI将影响实体店角色。

智能体行业动态
17:54
Peter Steinberger 🦞@steipete
43
每当你在我们的一个开源项目上创建issue时,@clawsweeper 会审核它,*如果*它符合VISION.md文件,就会接手并创建+自动审核一个PR。 例如:https://github.com/openclaw/gogcli/pull/816
智能体GitHub教程/实践编码
17:43
IT之家(RSS)
66
AI 版支付宝内测界面曝光,搭载"阿宝"助手

AI 版支付宝正在内测,需邀请码才能体验。界面分为资产和阿宝两个版块,阿宝为 AI 助手,支持对话,底部集成扫一扫、收付款、出行、理财功能。资产界面以卡片夹形式展示流动资产、理财资产、信用资产等信息。蚂蚁集团对此拒绝评论,内部项目代号“宝计划”,预计近日上线,后续将以每月两次的频率迭代。新版本上线后默认打开原版支付宝,用户可自行将 AI 版设为首选界面。

智能体产品更新
16:40
X.PIN@thexpin
54
蚂蚁集团正在测试一款 AI 驱动的支付宝。这是阿里巴巴首次尝试将 AI 植入中国最大的支付平台。新版支付宝将嵌入一个名为"阿宝"的 AI 助手,界面从"功能菜单+搜索栏"转变为对话优先。
智能体产品更新搜索
‹ 上一页
1…2324252627…50
下一页 ›