AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 654 条
全部一手资讯X论文
标签「Agent」清除
6月9日周二
05:14Apple:Newsroom(RSS)70精选Apple 推出新智能能力、Xcode 生产力功能及平台改进以辅助应用开发
04:46OpenAI:官网动态(RSS · 排除企业/客户案例)74精选OpenAI 公布让 AGI 造福所有人的计划
03:14Apple:Newsroom(RSS)66同事件精选Apple 推出 Siri AI:由 Apple Intelligence 驱动的更强大、更个性化的个人助理同一事件,精选展示《受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》
01:46Anthropic:Research(发表成果 · 网页)77精选为生物学AI智能体铺路
6月8日周一
22:02公众号:月之暗面(Kimi)76同事件精选Kimi Code 焕新升级(附视频教程)同一事件,精选展示《Kimi Code 焕新升级(附视频教程)》
21:50Hugging Face:Blog(RSS)62精选开源社区支持 OpenEnv 用于智能体强化学习
21:50Hugging Face:Blog(RSS)57精选五个模型经济体中消失的崩溃:控制与涌现
21:43公众号:月之暗面(Kimi)62精选Kimi Code 焕新升级(附视频教程)
20:00OpenRouter:Announcements(RSS)63同事件精选OpenRouter Agent SDK 推出 HITL 工具:满足 EU AI Act、Colorado ADMT 与 NIST AI RMF 合规要求同一事件,精选展示《OpenRouter Agent SDK 发布 `create-agent-tui` 与 `create-headless-agent` 技能,可快速搭建个性化编码智能体》
19:12公众号:火山引擎28火山方舟Coding Plan与Agent Plan升级,限时2.5折
6月7日周日
18:50Hugging Face:Blog(RSS)70精选Her · हेर - Claude Code 会话分析工具
03:50Hugging Face:Blog(RSS)66精选五个实验室,五个心智:用小模型构建多模型金融剧情游戏
6月6日周六
23:48Hugging Face:Blog(RSS)65精选Job Searcher
19:48Hugging Face:Blog(RSS)58精选Persona Atlas:Hugging Face 上的开源人物思维映射工具
19:34OpenRouter:Announcements(RSS)75同事件精选OpenRouter 30 场 AI 大逃杀:11 个 LLM 对决,Claude 与 Grok 谁更优?同一事件,精选展示《OpenRouter 翻遍 11 款 LLM 找最快的决策模型:Claude vs. Grok 领衔》
09:07Claude Code:GitHub Releases(RSS)64同事件精选Claude Code v2.1.166 发布同一事件,精选展示《Claude Code v2.1.163 发布》
06:47Hugging Face:Blog(RSS)74精选用Qwen2.5-3B构建多智能体经济体:工程报告
03:34Claude:Blog(网页)76同事件精选Claude Cowork 产品指南同一事件,精选展示《Claude Cowork 入门最佳实践》
02:33Claude:Blog(网页)59Anthropic销售人员用Claude Code重建团队工作流
01:17Cursor Blog74精选在 Design Mode 中通过视觉提示直接指挥智能体
00:38Tomer Tunguz 博客(VC 分析)68精选AI的微型钢厂
6月5日周五
23:11Google Blog:AI(RSS)34谷歌2026年5月AI最新动态
18:52公众号:百度智能云(文心)57FluxA与百度智能云战略合作,为Agent经济搭建基础设施
17:54公众号:通义实验室(千问)70精选PawBench:给通用智能体一把可度量的尺
13:42公众号:昆仑万维(天工)42央视财经专访昆仑万维 解锁AI商业化降本增效新范式
06:28OpenRouter:Announcements(RSS)66精选OpenRouter 翻遍 11 款 LLM 找最快的决策模型:Claude vs. Grok 领衔
05:56Ethan Mollick:One Useful Thing(RSS)61精选共存与协同智能的终结
01:57Anthropic:The Institute(旗舰研究长文 · 网页)82精选AI加速自我构建:Anthropic研究院报告揭示趋势
6月4日周四
21:07公众号:百度智能云(文心)53全灵(SEELE AI)联合百度智能云推出MoT大模型,一句话生成可玩世界
21:07公众号:百度智能云(文心)35百度伐谋助力北京工业大学攻克三大科研难题
21:00公众号:昆仑万维(天工)64精选SkyClaw-v1.0 深度实测:Agent专属模型,顶尖性能表现,极致价格优势
20:52LMSYS:Blog(Chatbot Arena 团队)81SGLang 和 Miles 即日支持 NVIDIA Nemotron 3 Ultra
20:00OpenRouter:Announcements(RSS)58同事件精选OpenRouter 横评 11 款 LLM 机器人冲刺对决:Claude 与 Grok 谁更胜一筹?同一事件,精选展示《OpenRouter 翻遍 11 款 LLM 找最快的决策模型:Claude vs. Grok 领衔》
16:47OpenAI:官网动态(RSS · 排除企业/客户案例)42Endava 围绕 AI 智能体重塑软件交付
10:01公众号:阶跃星辰(Step)45阶跃 Step 3.7 Flash 拿下 Artificial Analysis 多个第一
05:58Claude Code:GitHub Releases(RSS)59精选Claude Code v2.1.162 发布
04:15Cursor Blog60精选Cursor Enterprise 推出 Organizations 组织管理功能
01:23Claude:Blog(网页)68精选Claude Code技能使用经验:Anthropic内部实践
01:23Claude:Blog(网页)73精选Anthropic 用 Claude 赋能自助数据分析
00:07Google Developers Blog(RSS)75在笔记本电脑上运行 Gemma 4 12B:借助 Google AI Edge 解锁本地智能体工作流
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月9日
05:14
Apple:Newsroom(RSS)
精选70
Apple 推出新智能能力、Xcode 生产力功能及平台改进以辅助应用开发

Apple 今天推出了新的智能能力、Xcode 中扩展的生产力功能以及平台改进,旨在协助应用开发。

智能体AnthropicGoogleOpenAI
关联讨论 1 条IT之家(RSS)
推荐理由:苹果WWDC放出Xcode 27与多模型Agentic Coding,加上Core AI框架直接跑本地大模型,是今年开发者生态最大新闻,补齐了苹果AI工具箱的最后短板。
04:46
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选74
OpenAI 公布让 AGI 造福所有人的计划

OpenAI 发布计划,阐述让 AGI 造福所有人的愿景。该计划聚焦于 AI 的可及性、安全性和共享繁荣,确保技术进步惠及每个人。

智能体OpenAI大佬观点推理
关联讨论 3 条X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)X:Sam Altman (@sama)
推荐理由:Altman 和 Pachocki 把 OpenAI 的下一步讲清楚了,2028 年让 AI 做大部分研究的内部目标很具体,这比任何产品发布都更能说明他们对 AGI 的判断。
03:14
Apple:Newsroom(RSS)
同事件精选66
Apple 推出 Siri AI:由 Apple Intelligence 驱动的更强大、更个性化的个人助理

Apple 发布了 Siri AI,一款由 Apple Intelligence 驱动的个人助理,具备个人上下文、世界知识和屏幕感知能力,能提供更强大、更个性化的交互体验。

智能体产品更新多模态端侧
同一事件,精选展示《受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》
推荐理由:苹果对 Siri 的这次重构不是简单地换个模型,它把个人上下文、屏幕感知和视觉智能实际嵌进了系统,对普通用户来说日常交互方式可能要变。
01:46
Anthropic:Research(发表成果 · 网页)
精选77
为生物学AI智能体铺路

一项实验让Claude、Biomni、Edison Analysis、GPT等科研智能体从病毒学数据库NCBI Virus中检索序列数据,即使最强模型也无法稳定达到可靠数据集构建所需的准确率。加入确定性检索层gget virus后,准确率接近100%。研究指出,当前生物学数据基础设施存在碎片化、格式特殊、接口不统一等问题,导致AI智能体难以像在软件领域那样高效工作。确定性检索工具是实现可靠智能体工作流的关键,生物学数据库需为智能体作为规模化用户而设计。

智能体Anthropic论文/研究

推荐理由:再强的模型在 NCBI Virus 上检索病毒序列都会翻车,Anthropic 加了个确定性检索层后准确率飙到近 100%。做 AI for science 的人该看看这个基础设施层的解法。
6月8日
22:02
公众号:月之暗面(Kimi)
同事件精选76
Kimi Code 焕新升级(附视频教程)

Kimi Code 开源 Coding Agent 迎来大版本升级:一行命令安装,毫秒级启动;新增视频理解能力,支持提取视频风格生成 LUT 文件、长视频切片、根据录屏生成代码;集成同花顺、天眼查等权威数据源,可查询股票价格、财报、学术论文;支持 ACP 协议,可在 JetBrains、Zed 中使用;丰富 hook 生态方便集成其他工具。底层视觉推理由 Kimi K2.6 模型提供。

智能体产品更新开源生态编码
同一事件,精选展示《Kimi Code 焕新升级(附视频教程)》
推荐理由:Kimi Code 这次更新把安装和视频处理的门槛压到了最低,一行命令加拖拽视频就能用,开源 Agent 的体验终于开始反超商业版本。
21:50
Hugging Face:Blog(RSS)
精选62
开源社区支持 OpenEnv 用于智能体强化学习

今日,Hugging Face 宣布 OpenEnv 项目进一步开放,由 Meta-PyTorch、Reflection、Unsloth 等组成的委员会协调,并获得 PyTorch Foundation、vLLM、SkyRL(UCB)等机构支持。OpenEnv 是创建终端、浏览器等智能体执行环境的工具,定位为训练器与环境间的互操作层,标准化环境的发布、部署和消费,但不定义奖励或训练循环。它基于客户端/服务器架构提供 Gymnasium 风格 API(reset()、step()、state()),支持 HTTP、WebSocket、Docker 打包,并将 MCP 作为一等公民,使环境在模拟和生产模式下行为一致。未来将聚焦任务集对接数据集、外部奖励、Harness 集成及自动验证,以推动开源智能体 RL 基础建设。

智能体Hugging FaceMCP/工具Meta

推荐理由:开源社区在 agent RL 环境上终于开始合流,Meta、Nvidia、Hugging Face 等联合推动 OpenEnv 成为接口标准,不做奖励框架,只做插线板。搞开源 agent 训练的人,这是少有的统一基础设施的机会。
21:50
Hugging Face:Blog(RSS)
精选57
五个模型经济体中消失的崩溃:控制与涌现

用五个不同实验室的AI模型(OpenAI、NVIDIA、OpenBMB及一个自微调的5亿参数模型)各自驱动一个智能体构建经济市场,试图复现此前单一模型下出现的银行挤兑式价格崩溃。结果同一场景下模型不仅不抛售反而囤积,导致价格不跌反涨。通过纯谣言、库存泛滥、加大做空三种方式均无法重现崩溃。最终在结算环节直接覆盖价格,使崩溃成为设计事实。实验表明,AI智能体的涌现行为是偶然的而非稳健的,有效系统需在涌现纹理与确定性控制之间找到精确接缝。

智能体大佬观点

推荐理由:做 agent 的人必读,自己动手构建一个多模型经济体后才发现,涌现行为脆弱,控制要卡在结算层而非输入层,廉价模拟器会给你虚假信心。这篇复盘比成功案例更值钱。
21:43
公众号:月之暗面(Kimi)
精选62
Kimi Code 焕新升级(附视频教程)

Kimi Code 开源 Coding Agent 大版本升级:一行命令安装,毫秒级启动;新增视频理解,可提取参考视频色调生成 LUT、将长视频切分为短视频、根据录屏生成代码;接入同花顺、天眼查等权威数据源,支持实时查询股票价格、财报和学术论文;兼容 ACP 协议,可在 JetBrains、Zed 等 IDE 使用;拓展 hook 生态方便集成。视频理解基于 Kimi K2.6 模型。通过 /plugins 安装 kimi-datasource 插件即可使用权威数据源。

智能体产品更新开源生态编码

推荐理由:Kimi Code 这次把视频理解功能做进了编码工作流,一行安装和 ACP 协议接入让上手成本几乎为零,做视频剪辑和自动化开发的同好值得一试。
20:00
OpenRouter:Announcements(RSS)
同事件精选63
OpenRouter Agent SDK 推出 HITL 工具:满足 EU AI Act、Colorado ADMT 与 NIST AI RMF 合规要求

OpenRouter 的 Agent SDK 新增人类参与循环(HITL)工具,用于 AI 智能体的合规监督。该工具可帮助 AI 智能体满足欧盟 AI 法案、科罗拉多州自动化决策技术法(SB26-189)以及 NIST AI 风险框架(NIST AI RMF)的监管要求。

智能体教程/实践部署/工程
同一事件,精选展示《OpenRouter Agent SDK 发布 `create-agent-tui` 与 `create-headless-agent` 技能,可快速搭建个性化编码智能体》
推荐理由:8 月就是欧盟 AI 法案高风险的生效日,这个教程把三个监管框架的 HITL 要求变成可直接复用的代码,做金融医疗代理的开发者该收藏。
19:12
公众号:火山引擎
28
火山方舟Coding Plan与Agent Plan升级,限时2.5折

火山方舟Coding Plan与Agent Plan升级,集成MiniMax M3、DeepSeek V4系列、GLM-5.1等多款三方模型。即日起至2026年8月7日,新购/升级/续费40元、200元档位可享首两月2.5折(9.9元/月、49.9元/月)。MiniMax M3为新一代旗舰,支持100万token上下文窗口及原生多模态理解。Agent Plan为业界首个Agent套餐包,整合字节自研Seed系列模型与Harness工具,免费提供联网搜索和Embedding记忆能力,可配合Claude Code、OpenClaw、TRAE等工具使用。

智能体DeepSeek产品更新多模态
6月7日
18:50
Hugging Face:Blog(RSS)
精选70
Her · हेर - Claude Code 会话分析工具

Her(हेर)是专为 Claude Code 设计的会话分析工具。用户上传 .jsonl 文件后,Her 用自然语言重建每轮交互,标记部署、配置变更、秘密等高风险操作并定位到具体轮次。它展示 token 消耗、所用工具、子智能体、技能和 MCP 服务器,并结合 Anthropic 与社区最佳实践给出改进建议(仅在有明确可修复模式时)。内置“Ask Her”问答功能,支持单会话与跨会话项目分析。工具不调用第三方 AI API,使用 Nemotron-Mini-4B-Instruct 模型在 Hugging Face ZeroGPU 上运行,评估引擎完全确定,模型仅负责文本生成与建议。Her 内置 Homebrew、npm、PyPI 主流 CLI 工具数据库,自动识别会话中使用的工具,并对部署工具、数据库客户端等执行活动进行标记提醒。

智能体Hugging Face产品更新编码

推荐理由:每次 Claude Code 跑完都留下一堆 JSON,没人看。Her 用一个本地小模型帮你分析会话,钱花在哪、有没有危险操作一目了然,还不把数据传出去,是个务实的小工具。
03:50
Hugging Face:Blog(RSS)
精选66
五个实验室,五个心智:用小模型构建多模型金融剧情游戏

Thousand Token Wood v2使用四个不同实验室的小模型(gpt-oss-20b、MiniCPM3-4B、Nemotron-Mini-4B及微调Qwen 0.5B)驱动金融模拟游戏的智能体。核心发现是异构服务层摩擦在于vLLM 0.22.1需CUDA工具包,而非模型本身。通过容忍性JSON解析层,添加模型只需一条配置。信息隔离确保内幕标志不在提示词中,扫描测试验证无泄露。记忆用情绪摘要截断避免淹没。微调0.5B模型实现0%自成交、100%有效报价,真相防火墙零泄露。小模型是可靠格式生成器但不可靠推理器,可通过结构化、提示词和微调弥补。

智能体Hugging Face教程/实践

推荐理由:不是那种「我用 GPT 写了个游戏」的浅显分享,真在四个小模型上跑出了博弈感,里面 vLLM 踩坑和防火墙测试方法可以直接抄作业。
6月6日
23:48
Hugging Face:Blog(RSS)
精选65
Job Searcher

Hugging Face 发布 Job Searcher,一个基于 AI 的求职搜索工具。用户上传简历并设定偏好后,系统使用教师模型 DeepSeek V4 Pro 生成 LinkedIn 搜索查询,通过 JobSpy 抓取职位,再对学生模型 Qwen3-8B(8B 参数)进行 LoRA 微调,对每个职位从技能匹配、经验相关性、教育背景、行业领域契合度和资历对齐五个维度给出评分和推理。训练在 Modal 平台单张 A100 上完成。推理部署于 Hugging Face ZeroGPU Space,使用 llama.cpp 实现流式输出。项目开源。

智能体Hugging Face教程/实践数据/训练

推荐理由:这个 hackathon 项目把教师蒸馏和 LoRA 微调 8B 模型的流程全部开源在 HF 上,做模型定制和部署的开发者能直接抄作业,尤其是推理部署踩的坑(ZeroGPU 上下文重用)很实用。
19:48
Hugging Face:Blog(RSS)
精选58
Persona Atlas:Hugging Face 上的开源人物思维映射工具

Persona Atlas 是一个运行在 Hugging Face Inference Providers 上的开源项目。它通过工具调用代理执行真实网络搜索,生成公众人物的资料、事实清单和风格假设,然后让该人物回答十个关于身份、伦理等开放式问题。每个回答被转化为嵌入向量,从而在向量空间中对不同人物进行距离比较,并基于十个特质锚点绘制热力图。前端采用 Gradio,提供研究、比较和检查代理完整追溯三个标签页,预设多个人物角色,无需 token 即可直接体验。

智能体Hugging Face开源/仓库

推荐理由:把苏格拉底和乔布斯放在一起比思维方式,这个实验更像智力玩具,但背后用小模型跑 agent 搜索做嵌入比较的流程,做角色扮演的人可以学研究方法。
19:34
OpenRouter:Announcements(RSS)
同事件精选75
OpenRouter 30 场 AI 大逃杀:11 个 LLM 对决,Claude 与 Grok 谁更优?

OpenRouter 展开了 30 场 AI 大逃杀式对比,涉及 11 个大语言模型,共消耗 482 美元推理费用。实验得出一个发现,该发现应改变用户阅读模型基准测试的方式。

智能体AnthropicxAI安全/对齐
同一事件,精选展示《OpenRouter 翻遍 11 款 LLM 找最快的决策模型:Claude vs. Grok 领衔》
推荐理由:这场大逃杀实验把模型对齐税摆上了台面,Grok因少斟酌、多行动而胜出,Claude的犹豫反而是现实场景里更需要的品质,选模型不能只看赢不赢,要看任务需要什么性格。
09:07
Claude Code:GitHub Releases(RSS)
同事件精选64
Claude Code v2.1.166 发布

Claude Code v2.1.166 新增 fallbackModel 设置,最多配置三个后备模型在主模型过载或不可用时按序尝试;--fallback-model 现也适用于交互会话。deny rule 中工具名位置支持 glob 模式("*"拒绝所有工具),未知工具名启动时警告。跨会话消息中继不再携带用户权限,接收方拒绝被中继的权限请求。MAX_THINKING_TOKENS=0、--thinking disabled 及逐模型 thinking 开关可禁用默认开启思考的模型(仅 Claude API,第三方不变)。API 返回非预期不可重试错误时,在后备模型上重试一次。修复了图像处理失败、远程会话卡死、JetBrains IDE 终端闪烁、Kitty 键盘协议下 Shift+非 ASCII 字符丢失、PowerShell 命令验证挂起、macOS 后台进程孤儿化等问题。

智能体Anthropic产品更新部署/工程
同一事件,精选展示《Claude Code v2.1.163 发布》
推荐理由:Claude Code 重度用户该升级了,fallbackModel 让你设三个备用模型防止高峰期罢工,跨会话安全加固也让自动模式更敢放任跑了。
06:47
Hugging Face:Blog(RSS)
精选74
用Qwen2.5-3B构建多智能体经济体:工程报告

开发者用Qwen2.5-3B构建了五人森林生物多智能体经济体,每个智能体独立运行,通过vLLM部署在Modal,以Gradio为交互窗口。3B模型在100%调用中输出有效JSON,但经济判断能力弱。通过设计稀缺性(食物品种限制、易腐坏、冬季燃料危机)和优化提示词(禁止买入自产物品、给出示例)提升决策质量。15轮模拟中,蜜价从10跌至3、柴价从4涨至7、财富基尼系数从0.14扩至0.38。项目展示了小模型可靠格式化与不可靠推理之间的工程填补。

智能体Hugging Face教程/实践部署/工程

推荐理由:我觉得这是近期最诚实的小模型工程复盘,把为什么不换大模型、怎么靠提示修正推理、怎样设计系统稀缺性讲透了,比看十篇论文有实操价值。
03:34
Claude:Blog(网页)
同事件精选76
Claude Cowork 产品指南

Anthropic 发布 Claude Cowork,一款运行在 Claude 桌面应用中的知识工作智能体。它可读写本地文件、跨 Slack 和 Google Drive 等应用协作,执行多步骤任务并生成带引用的实际交付物。核心能力包括本地文件访问、子智能体、长时间运行和定时任务。Claude Cowork 区别于对话式 AI 工具,支持用户描述目标与期望结果后自动规划执行。指南还介绍了产品矩阵(对话聊天、Claude Code 编程、Claude Cowork 跨应用知识工作)、设置要求、权限模型、七种常见工作流(如研究简报、会议准备、定期报告)以及营销和产品管理等插件。

智能体AnthropicMCP/工具教程/实践
同一事件,精选展示《Claude Cowork 入门最佳实践》
推荐理由:把 Claude 从问答工具升级成能读写本地文件、跨应用交付可交付物的知识工作代理,这份官方指南给出了明确上手路径和七个真实工作流,做产品、做调研的都能直接照抄。
02:33
Claude:Blog(网页)
59
Anthropic销售人员用Claude Code重建团队工作流

加入Anthropic前从未写过代码的销售成员Jared Sires,利用Claude Code为销售团队开发自动化工具。他创建了内嵌于Gmail的CLAFTS(Claude Drafts),通过Claude API根据客户邮件草拟回复,每天节省2-3小时。该系统基于约4,300行代码(几乎全由Claude Code编写),从Google Drive和Anthropic公开文档提取上下文,并通过网络搜索获取最新产品信息。他还开发了CLAFTS Tones功能,通过模式匹配模仿不同人际关系下写作风格。这些工具已打包为Claude Cowork插件供整个销售团队使用。

智能体AnthropicMCP/工具教程/实践
关联讨论 1 条Claude:Blog(网页)
01:17
Cursor Blog
精选74
在 Design Mode 中通过视觉提示直接指挥智能体

Cursor 更新 Design Mode,支持点击元素、在页面上绘制区域或语音描述来向 AI 智能体传达修改意图。智能体将元素身份(xpath、组件、属性、计算样式等)与页面截图一并纳入上下文,快速定位源代码并高效编辑。借助 Composer 2.5 模型的快速执行能力,可连续下达多个编辑指令,智能体完成后应用热更新即时显示效果。这一更新将视觉交互融入正常编辑循环,使 UI 迭代更直观高效。

智能体产品更新多模态编码

推荐理由:Cursor这次的Design Mode把「指哪改哪」做成了标准流程,不再靠一句prompt猜你的意图,而是直接给agent看元素、画圈圈,前端开发的反馈循环被压缩到秒级,赶紧试试。
00:38
Tomer Tunguz 博客(VC 分析)
精选68
AI的微型钢厂

作者通过技能蒸馏将78%的AI工作交由Mac本地模型处理,仅复杂任务发往云端。智能体自动分类任务:简单任务本地数秒完成,复杂任务路由至云端。过去一周本地处理峰值达88%。双车道设计使吞吐量提升约25%,平均任务时长从47秒降至19秒,队列等待时间从73秒降至4秒(降幅94%)。该模式类比Nucor小钢厂,每台能运行蒸馏模型的边缘设备都成为小型AI工厂,仅对那1/5困难任务支付云费用。未来几年,数以千万计的此类设备将在企业内部增殖,逐步取代现阶段云厂商账单上的大部分工作负载。

智能体大佬观点端侧

推荐理由:Tunguz 把自己 78% 的 AI 任务都挪到本地跑,吞吐量涨了 25%,延迟降了 60%。mini-mill 的类比把端侧 AI 的颠覆逻辑讲得比任何行业报告都清楚,做工作流自动化的值得细读。
6月5日
23:11
Google Blog:AI(RSS)
34
谷歌2026年5月AI最新动态

谷歌在2026年5月公布了一系列AI最新进展,涵盖模型更新、产品功能及可用性提升。具体细节未在摘要中展开。

智能体Google产品更新多模态
18:52
公众号:百度智能云(文心)
57
FluxA与百度智能云战略合作,为Agent经济搭建基础设施

百度智能云与FluxA建立战略合作,共同为Agent经济搭建基础设施。百度智能云提供可交易商品体系、自雇佣交易机制、能力工具箱及出海分销通道;FluxA作为支付底座,提供低费率高频微交易、Financial Harness安全授权、全球收款与Token Paywall。目前超9万个Agent使用FluxA钱包,超1万个AI Agent资源完成商业化。今年一季度中国两地区OPC新增超6000户,日均Token消耗140万亿。DAA被视为AI时代衡量生态价值的核心指标。

智能体MCP/工具行业动态
17:54
公众号:通义实验室(千问)
精选70
PawBench:给通用智能体一把可度量的尺

通义实验室推出全新评测基准PawBench v1.0,面向个人助理与通用智能体场景,将底座模型与运行框架Harness纳入同一体系进行交叉评测。评测矩阵包含9个模型与3个Harness(Hermes、OpenClaw、QwenPaw),覆盖150道真实任务共4050个测试单元。结果显示,QwenPaw(76.4分)、OpenClaw(75.4分)、Hermes(70.4分)之间存在显著分差,Harness环境对表现的影响甚至大于模型本身。PawBench还通过切片分析揭示了Harness在产物校验、Skill主动发现和Web搜索默认可用性等方面的关键差距。项目已开源。

智能体MCP/工具评测/基准

推荐理由:PawBench 把 Harness 从‘看不见的手’变成可诊断的变量,好 Harness 能让弱模型以下克上,这份评测对 Agent 框架开发者是一份必读的校验清单。
13:42
公众号:昆仑万维(天工)
42
央视财经专访昆仑万维 解锁AI商业化降本增效新范式

近日,央视财经频道报道昆仑万维AI智能体落地成果。天工超级智能体具备自主迭代能力,能理解图像内容,十几分钟完成室内设计方案。昆仑万维CEO方汉称,用SkyReels视频大模型制作短剧成本下降20倍。同期发布高性能Agent模型SkyClaw-v1.0及轻量化版SkyClaw-v1.0-lite,支持百万token上下文,优化复杂工具调用、多轮任务执行、代码生成与交互式应用构建。

智能体行业动态
06:28
OpenRouter:Announcements(RSS)
精选66
OpenRouter 翻遍 11 款 LLM 找最快的决策模型:Claude vs. Grok 领衔

OpenRouter 用总价 482 美元的推理花费,让 11 款大语言模型在 30 轮实时决策的“大逃杀”挑战中正面竞争。实验结果表明,传统的静态 benchmark 排名无法反映模型在需要即时反应的智能体任务(如自主控制机器人)中的真实表现,Claude 和 Grok 系列模型在决策速度与任务成功率上表现突出,而多项高分模型的实时调度能力未达预期。

智能体AnthropicOpenAI安全/对齐

推荐理由:Jacky 把 11 个模型丢进大逃杀,发现 Grok 4.1 Fast 以 27 倍成本优势击败 Sonnet,而获胜关键不在基准分数,在于模型被训练时压制的攻击性。对任何不再只看排行榜选模型的人,这是今年最值得读的实验。
05:56
Ethan Mollick:One Useful Thing(RSS)
精选61
共存与协同智能的终结

Ethan Mollick 在 One Useful Thing 博客中,以“共存与协同智能的终结”为题,并附带介绍了如何向 AI 推销一本书。

智能体Anthropic大佬观点编码

推荐理由:Mollick 这篇比单纯的新书预告有料,用自己给 AI 写推荐语的实验,把「AI 不再是助手而是守门人」这个新现实讲得很具体。对还在纠结怎么跟 AI 合作的人,是一个挺及时的视角更新。
01:57
Anthropic:The Institute(旗舰研究长文 · 网页)
精选82
AI加速自我构建:Anthropic研究院报告揭示趋势

Anthropic研究院报告指出,AI正加速AI开发:2021–2025年间工程师人均季度代码量提升8倍,截至2026年5月超80%合并代码由Claude生成。Claude Opus 3(2024年3月)可完成约4分钟软件任务,Claude Sonnet 3.7(2025年3月)提升至1.5小时,Claude Opus 4.6(2026年3月)可处理12小时任务。SWE-bench两年内从低个位数得分饱和;CORE-Bench约20%正确率在15个月后饱和。METR测试显示Claude Mythos Preview可连续工作至少16小时。但AI自主设定目标的能力仍存显著差距,完全自主递归自我改进尚未实现。

智能体Anthropic安全/对齐现象/趋势
关联讨论 12 条X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)X:卡兹克 (@Khazix0918)X:Rohan Paul (@rohanpaul_ai)X:Anthropic (@AnthropicAI)X:Emad Mostaque (@EMostaque)X:小互 (@xiaohu)公众号:数字生命卡兹克The Decoder:AI News(RSS)X:Ethan Mollick (@emollick)Hacker News 热门(buzzing.cc 中文翻译)Anthropic:Research(发表成果 · 网页)
推荐理由:Anthropic首次披露AI辅助开发的内部数据,8倍代码产出、AI自动审查bug,趋势直指完全自主AI的临界点,每个开发者和政策制定者都需要读。
6月4日
21:07
公众号:百度智能云(文心)
53
全灵(SEELE AI)联合百度智能云推出MoT大模型,一句话生成可玩世界

全灵(SEELE AI)推出自研MoT(Mixture-of-Transformers)多模态大模型,围绕游戏世界训练,模型内部同步学习“看懂世界”与“生成世界”。数据层构建3000万+独家空间语义数据对,标注空间关系、物体属性和交互规则。百度百舸AI计算平台提供训练调度、GPU管理、故障诊断及推理加速等底层支撑。全灵已上线“都市射击”“CS重制版”“城市冒险”等可玩Demo,玩家可在AI生成的城市中移动、跳跃、瞄准、换弹,与NPC互动;内测中的3A Open-World由4D World Model驱动,目标实现真正可玩的开放世界。

智能体多模态行业动态
21:07
公众号:百度智能云(文心)
35
百度伐谋助力北京工业大学攻克三大科研难题

北京工业大学苗扬团队借助百度伐谋(全球首个可商用自我演化决策智能体),在三个高可靠性科研场景实现突破:空间站色谱柱构型优化中,72小时演化出新构型,归一化误差降低8.17%,体积缩小40%,分离效率提升3倍;PEM电解槽故障检测准确率从92.26%提升至95.04%,综合评分升至0.9383,建模周期从数天压缩到小时级;旋转机械故障诊断准确率从98.9055%提升至99.9877%,预测误差降至原来1%,参数量下降34%。科研人员用自然语言描述目标和约束,伐谋自动演化逼近全局最优解。

智能体教程/实践
21:00
公众号:昆仑万维(天工)
精选64
SkyClaw-v1.0 深度实测:Agent专属模型,顶尖性能表现,极致价格优势

5月26日,昆仑万维发布SkyClaw-v1.0,定位面向复杂工具使用和真实世界任务执行的高性能Agent模型,输入仅0.5元/百万token、输出4元/百万。实测显示,其从零生成番茄钟和记账本应用时,能自主用Web Audio API合成音效、用SVG手绘图表,细节处理成熟。在现有代码库修改任务中,越难的任务表现越好:单点bug修复精准,能准确诊断iOS Safari滚动问题并给出克制式修复方案。但官方未报告SWE-bench成绩,表明其优势集中在从零生成与模式匹配场景,而非大型仓库精确修改。极致低价使其在批量Agent任务与快速原型生成上性价比突出。

智能体编码评测/基准

推荐理由:这篇实测把SkyClaw的「从零生成」和「老项目修改」摊开了揉碎了测,不看广告看疗效,让我看清Agent模型的分化到底意味着什么——便宜好用但有边界,想省钱做小工具的你值得细读。
20:52
LMSYS:Blog(Chatbot Arena 团队)
81
SGLang 和 Miles 即日支持 NVIDIA Nemotron 3 Ultra

SGLang 与 Miles 在发布首日即支持 NVIDIA Nemotron 3 Ultra。该模型为开放前沿推理模型,总参数 550B、激活参数 55B,采用混合 Transformer-Mamba 架构的 MoE,支持最长 1M token 上下文。针对长运行自主智能体优化,具备工具调用、编码、深度研究与编排能力,后训练使用多环境强化学习(NeMo RL)。SGLang 提供高性能推理,支持 NVFP4 和 BF16 精度,NVFP4 检查点可在 Blackwell GPU 运行;Miles 支持强化学习工作流。模型权重、数据与配方均开源。在智能体生产力、指令遵循与长上下文任务上准确率领先,成本节省高达 30%。

智能体开源生态推理模型发布
关联讨论 9 条X:Kim (@kimmonismus)HuggingFace Daily Papers(社区热门论文)IT之家(RSS)Hugging Face:Blog(RSS)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)
20:00
OpenRouter:Announcements(RSS)
同事件精选58
OpenRouter 横评 11 款 LLM 机器人冲刺对决:Claude 与 Grok 谁更胜一筹?

OpenRouter 在 30 场机器人冲刺对决中测试了 11 款大语言模型,共耗 482 美元推理成本。结果指向一个发现:应该重新审视模型 benchmark 的解读方式。

智能体AnthropicxAI推理
同一事件,精选展示《OpenRouter 翻遍 11 款 LLM 找最快的决策模型:Claude vs. Grok 领衔》
推荐理由:第一次看到对齐税被游戏化量化,Grok能赢是因为它没被训练成好人,Claude总想组队则拖后腿,怎么选模型得看你想要哪种人。
16:47
OpenAI:官网动态(RSS · 排除企业/客户案例)
42
Endava 围绕 AI 智能体重塑软件交付

全球 IT 服务公司 Endava 利用 OpenAI 的 AI 智能体、ChatGPT Enterprise 和 Codex 加速软件交付与自动化工作流。ChatGPT Enterprise 帮助开发者提升代码质量、缩短上线时间,AI 智能体负责处理重复性任务,从而在企业内部构建 AI 原生文化。

智能体OpenAI编码行业动态
10:01
公众号:阶跃星辰(Step)
45
阶跃 Step 3.7 Flash 拿下 Artificial Analysis 多个第一

阶跃星辰的 Step 3.7 Flash 在 Artificial Analysis 最新榜单中多项关键维度领先。其输出速度达 409 tokens/s,位列主流模型第一;端到端响应时长仅 7.1 秒;智能效率与速度价格比均进入最吸引人的象限。模型在搜索、代码、多模态理解和 Agent 工作流中保持稳定表现,兼顾速度、智能与成本,适合大规模商业化部署。

智能体推理评测/基准
05:58
Claude Code:GitHub Releases(RSS)
精选59
Claude Code v2.1.162 发布

Claude Code v2.1.162 发布,主要包含 Bug 修复和体验优化。claude agents --json 新增 waitingFor 字段,/effort 命令确认级别持久化,远程控制固定底部显示,/ide 菜单中 Windsurf 更名为 Devin Desktop。修复了配置文件只读导致启动黑屏、Windows 权限规则不匹配、LSP 的 workspaceSymbol 无结果、API 400 错误、MCP 超时低于 1000ms 被截断等十余项问题。

智能体Anthropic产品更新编码

推荐理由:一系列扎实的修复,尤其是 Windows 权限匹配和启动挂死问题的解决,对于日常用 Claude Code 做开发的来说稳定性提升明显,可以升级。
04:15
Cursor Blog
精选60
Cursor Enterprise 推出 Organizations 组织管理功能

Cursor Enterprise 正式推出 Organizations 结构,允许企业在统一面板中管理多个团队。每个团队可独立设置预算、安全策略、模型访问和功能控制。新增 Groups 作为跨团队或团队内的轻量级用户集合,用于分段管理模型访问、花销上限和智能体权限,不同设置取最宽松权限生效。管理员可创建沙箱团队预先测试新功能,再向全公司推送;也可按部门划分模型访问和预算。组织级仪表盘汇总所有团队的 token 用量与花费,支持按团队、用户等维度筛选。身份提供商和 SCIM 目录在组织层面一次配置,成员自动同步。该功能现已全面开放给所有 Enterprise 客户。

智能体产品更新编码

推荐理由:这是 Cursor 企业版在治理能力上的关键补丁,把多团队预算、模型权限和沙盒测试管了起来,对想把 AI 编程推到千人规模的团队是实打实的基建更新。
01:23
Claude:Blog(网页)
精选68
Claude Code技能使用经验:Anthropic内部实践

Anthropic 分享了内部使用 Claude Code 的 Skills(技能)功能的经验。Skills 是指令、脚本和资源的文件夹,智能体可发现并调用它们以提升准确性和效率。Anthropic 内部已有数百个活跃使用的技能,它们可归为九类,包括库和 API 参考、产品验证、数据获取与分析、业务流程与团队自动化、代码脚手架与模板、代码质量与审查等。最佳技能专注于单一类别,涵盖过多功能会混淆智能体。团队发现,投入时间优化验证类技能对 Claude 输出质量的提升最显著。

智能体AnthropicMCP/工具教程/实践

推荐理由:这不是产品公告,而是从几百个内部技能中血泪总结出的实战手册。如果你想让Claude Code真正变成你的工程副驾驶,这9类技能和‘gotchas’章节至少省你三个月踩坑。
01:23
Claude:Blog(网页)
精选73
Anthropic 用 Claude 赋能自助数据分析

Anthropic 使用 Claude 自动化了 95% 的业务分析查询,整体准确率约 95%。其关键在于构建智能体分析栈(agentic analytics stack),通过数据基础层、维护验证流程和技能(skills)分别解决概念-实体歧义、数据过时和检索失败三大错误来源。相比编码场景,数据分析的难点在于将用户问题映射到正确的数据实体,而执行 SQL 反而是简单的。Anthropic 的数据科学团队因此得以专注于因果建模、预测和机器学习等战略工作。

智能体Anthropic教程/实践数据/训练
关联讨论 1 条X:Claude Devs (@ClaudeDevs)
推荐理由:Anthropic 把内部用 Claude 搞自助分析踩过的坑全摊开,技能模板和「语义层优先」的强制流程是实打实的干货,做数据 agent 的团队可以直接抄作业。
00:07
Google Developers Blog(RSS)
75
在笔记本电脑上运行 Gemma 4 12B:借助 Google AI Edge 解锁本地智能体工作流

Google DeepMind 的 Gemma 4 12B 模型可在 16GB RAM 的普通笔记本上运行,支持本地数据处理与视觉洞察生成。macOS 用户可通过 Google AI Edge Gallery 执行动态 Python 代码与可视化,通过 Google AI Edge Eloquent 实现完全离线的语音听写和文本编辑。另外,LiteRT-LM CLI 新增 serve 命令,可创建行业兼容的本地端点,驱动完全本地的 AI 工具和智能体。

智能体Google产品更新多模态
关联讨论 8 条X:Demis Hassabis (@demishassabis)X:Sundar Pichai (@sundarpichai)X:Google AI for Developers (@googleaidevs)X:Jeff Dean (@JeffDean)The Decoder:AI News(RSS)Google DeepMind:Blog(RSS)Google Developers Blog(RSS)Hacker News 热门(buzzing.cc 中文翻译)
‹ 上一页
123456…17
下一页 ›