AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「Agent」清除
6月11日周四
08:24Simon Willison 博客66datasette-agent 0.2a0 发布:新增 ask_user 和 save_query 工具
08:11Orange AI57与 AI 一起做产品的六条原则
08:00HuggingFace Daily Papers(社区热门论文)48DailyReport:面向日常搜索任务的开放搜索智能体评估基准
06:14jason27Sandbagging 降临 Agent,ChatGPT Codex 除外
05:23Claude Code:GitHub Releases(RSS)69精选Claude Code v2.1.172 发布
04:30IT之家(RSS)71小米 MiMo Code V0.1.0 发布并开源:AI 编程助手,基于 OpenCode 二次开发
04:24Xiaomi MiMo76小米 MiMo 推出开源 AI 编程助手 MiMo Code V0.1
04:23Cursor Blog74精选Cursor Bugbot 更新:速度提升超 3 倍、成本降低 22%、发现更多 Bug
03:47Hacker News 热门(buzzing.cc 中文翻译)59Claude Desktop 启动了一台虚拟机,且无法停止它
03:24Xiaomi MiMo79小米 MiMo 发布并开源 MiMo Code V0.1,终端 AI 编程助手
03:15OpenRouter58OpenRouter 大逃杀:友善 LLM 反成输家
02:47Hacker News 热门(buzzing.cc 中文翻译)64Apache Burr:构建可靠的人工智能代理和应用程序
02:34AYi67Cursor创始人Michael Truell:AI改写商业物理定律
02:17Perplexity68同事件精选Claude Fable 5编排模型上线Computer同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》
02:13OpenRouter63OpenRouter大逃杀实验:最友善AI模型惨败
02:10Claude:Blog(网页)75同事件精选智能体表面的演进:使用 Claude Managed Agents 构建同一事件,精选展示《Code w/ Claude 伦敦活动:重塑开发体验》
01:47HuggingFace Daily Papers(社区热门论文)47APPO:智能体过程策略优化
01:23Rohan Paul64Apodex-1.0-H 发布多智能体深度研究团队
00:56HuggingFace Daily Papers(社区热门论文)73精选DeLM:去中心化多智能体系统框架
00:48宝玉62宝玉:Claude Design 是一个完整的 Agent Harness
00:35Emad17雇佣女巫拯救AI训练运行
00:32🚨 AI News | TestingCatalog63NoimosAI 发布全球首个全自主 AI 营销团队
00:22Rohan Paul56NoimosAI 发布自主 AI 营销团队
00:14Chubby♨️61腾讯工作助手全球上线,PC日活登顶
00:14Chubby♨️61NoimosAI:全自主AI营销团队上线
6月10日周三
23:47SiliconFlow58Gemma 4 12B 登陆硅基流动
22:34AYi61Claude Fable 5 实时转录客户通话并自主构建软件原型
22:17向阳乔木74书籍解读口播脚本 Skill 开源
21:49Rohan Paul71TCS董事长:AI agent数量或与60万员工持平,冲击印度IT外包模式
21:47TechCrunch:AI(RSS)64Jedify 获 2400 万美元融资,帮助企业为 AI 智能体提供业务上下文
20:34AYi41苹果密码App新增自动改密码功能
19:17The Decoder:AI News(RSS)63Google NotebookLM 重大升级:运行 Gemini 3.5 Flash,自带云计算机执行代码并支持自主搜索
18:46MarkTechPost(RSS)532026 年顶级 AI 编程智能体与开发平台对比:Atoms、Devin、Windsurf、Cursor、Warp 等
17:33AYi69Claude Fable 5 核心杠杆:自我纠正与记忆系统
17:20公众号:卡尔的AI沃茨65实测小米MiMo-V2.5-Pro UltraSpeed:万亿参数MoE推理模型输出速度达1000 token/s
16:56HuggingFace Daily Papers(社区热门论文)70精选快手开源 Kwai Keye-VL-2.0-30B-A3B:面向长视频理解与智能体智能的 MoE 多模态模型
16:28IT之家(RSS)61阿里千问上线国内首个全周期高考志愿填报Agent,免费提供咨询服务
15:42Huawei Cloud52华为云发布AgentArts企业级智能体平台
15:28IT之家(RSS)60哈佛与Perplexity研究:AI智能体人机协作缩短87%任务时间、降低94%总成本
15:28IT之家(RSS)59荣耀 YOYO 与微信首个 A2A 合作上线:一句话发送微信消息、拨打微信语音/视频电话
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月11日
08:24
Simon Willison 博客
66
datasette-agent 0.2a0 发布:新增 ask_user 和 save_query 工具

datasette-agent 0.2a0 新增两个核心功能。工具可通过 ToolContext 对象的 await context.ask_user(...) 向用户提问,支持 yes/no、多选(options=[...])或自由文本(free_text=True)。问题未回答时 agent 挂起,问题以表单形式渲染在聊天界面并持久化到内部数据库,服务器重启后对话可继续。工具应在执行副作用前调用 ask_user(),回答后从头重放。另一内置工具 save_query 允许 agent 将 SQL 保存为 Datasette 存储查询,但必须经人工批准——显示完整 SQL 及提议的名称、数据库和可见性,用户确认后才会存储。ask_user 功能基于作者昨日用 Claude Fable 5 构建的新 LLM alpha 实现。

智能体MCP/工具产品更新
08:11
Orange AI@oran_ge
57
与 AI 一起做产品的六条原则

团队最近几个月与AI做产品,沉淀六条原则:1. AI放大人的意图,人的判断仍是核心;2. AI擅长加法,人需狠做减法;3. AI擅长大路货,人需提供独特品味并沉淀为可复用context;4. AI产出半成品,人要打磨到80分才交付;5. AI做表面功夫,只有人才能共情;6. AI可无限生成,人要守住一致性。故事口述:橘子,原则整理:Cola(模型Fable5),插图设计:Cola(模型Nano Banana Pro)。

智能体现象/趋势
08:00
HuggingFace Daily Papers(社区热门论文)
48
DailyReport:面向日常搜索任务的开放搜索智能体评估基准

DailyReport 是一个用于评估搜索智能体(Search Agents)在日常搜索任务中能力的开放基准。它包含 150 个开放式任务和 3,546 条级联评分规则,将每个任务分解为子任务,并在可分离维度上进行细粒度评分。通过级联性能归因和以用户为中心的聚合,得到每个维度的可解释分数及用户偏好分数。在 17 个智能体系统上的测试结果显示,当前系统仍未达到用户期望。数据集和代码已公开。

智能体论文/研究评测/基准
06:14
jason@jxnlco
27
Sandbagging 正降临到 AI 智能体上,但不会降临到 ChatGPT Codex。
智能体OpenAI大佬观点
05:23
Claude Code:GitHub Releases(RSS)
精选69
Claude Code v2.1.172 发布

子智能体现可创建自己的子智能体,最多嵌套5层。Amazon Bedrock 在未设置 AWS_REGION 时从 ~/.aws/config 读取区域。插件市场新增搜索栏。修复了使用1M上下文且无使用额度的会话永久卡住的问题,现会自动压缩回标准上下文限制。修复了多个图片导致重复报错等问题。改进了长对话性能,减少冗余消息归一化和不必要的UI重绘,降低空闲CPU占用。Claude in Chrome 工具加载改为单次批量调用。/code-review 在未登录时保留 ultra 选项并提示需要 claude.ai 账户。

智能体Anthropic产品更新

推荐理由:子代理现在可以递归生成子代理(最多 5 层),这个特性让复杂的多 agent 编排成为可能,但总体还是以 bug 修复为主,Bedrock 的区域读取也更顺手了,Claude Code 用户直接升级即可。
04:30
IT之家(RSS)
71
小米 MiMo Code V0.1.0 发布并开源:AI 编程助手,基于 OpenCode 二次开发

6 月 11 日,小米 MiMo 发布并开源 MiMo Code V0.1.0,一款终端 AI 编程助手,基于 OpenCode 二次开发,采用 MIT 协议。内置限时免费多模态模型 MiMo-V2.5,支持接入 DeepSeek、Kimi、GLM 等模型。独创持久记忆系统通过项目记忆、会话检查点、任务进度三重机制解决长会话遗忘,由独立 subagent 自动保存状态并在窗口快满时生成简报。Compose 模式可一键完成设计、规划、编码、测试、审查全流程。内置 /dream 命令每 7 天自动合并、去重、验证路径并压缩记忆文件。支持语音输入与控制(MiMo-V2.5-ASR)。

智能体产品更新开源生态编码
04:24
Xiaomi MiMo@XiaomiMiMo
76
小米 MiMo 推出开源 AI 编程助手 MiMo Code V0.1

小米 MiMo 正式开源 AI 编程助手 MiMo Code V0.1,搭载多模态模型 MiMo V2.5(限时免费),拥有百万 token 上下文窗口。核心功能包括:无限上下文与无损压缩、Agent 框架(测试/审查/验证闭环)、Compose 模式(设计先行)、自进化系统、语音输入(基于 MiMo-V2.5-ASR)。兼容 Claude Code,自动加载现有技能、MCP 服务器和命令,零成本迁移。采用 MIT 许可,支持 Anthropic、OpenAI、DeepSeek、Kimi、GLM 等模型提供商。可通过一行命令安装。

智能体产品更新开源生态编码
04:23
Cursor Blog
精选74
Cursor Bugbot 更新:速度提升超 3 倍、成本降低 22%、发现更多 Bug

Cursor 的代码审查工具 Bugbot 迎来重大更新:运行速度提升超 3 倍,成本降低 22%,每轮审查多发现 10% 的 bug,90% 的运行在三分钟内完成。新增 /review 命令,可在推送代码前运行 Bugbot 和安全审查,并与 GitHub/GitLab 同步——若已通过 /review 审查过同一 diff,打开 PR 时 Bugbot 会自动跳过并备注。支持配置仅审查 PR 中新增内容。性能提升源于驱动 Bugbot 的 Composer 2.5 模型训练改进。Bugbot 遵循模型阻止列表,若组织禁用 Composer 2.5 则自动回退。该功能已在 Cursor 3.7+ 和 cursor.com/agents 上线,CLI 支持即将推出。

智能体产品更新编码

推荐理由:Cursor 的 Bugbot 三倍速跑 review 还便宜了 22%,这次更新让「commit 前先审一遍」变得几乎无痛,对日常开发流是个实在提升。
03:47
Hacker News 热门(buzzing.cc 中文翻译)
59
Claude Desktop 启动了一台虚拟机,且无法停止它

Claude Desktop 会在用户无授权的情况下自动启动一台虚拟机,且提供任何停止或关闭该虚拟机的途径。这一行为已在 GitHub 上引发讨论,用户担忧其可能带来的资源占用及隐私安全风险。

智能体Anthropic产品更新部署/工程
03:24
Xiaomi MiMo@XiaomiMiMo
79
小米 MiMo 发布并开源 MiMo Code V0.1,终端 AI 编程助手

小米 MiMo 发布并开源 MiMo Code V0.1,一款终端 AI 编程助手。它附带多模态模型 MiMo V2.5(限时免费),支持百万 token 上下文窗口。核心特性包括:无限上下文(无损压缩,百万行项目质量不降)、深度优化的 Agent 框架(测试/审查/验证闭环)、Compose 模式(规格→计划→构建→报告)、自动学习每轮会话经验的自我进化系统、MiMo-V2.5-ASR 语音输入、与 Claude Code 兼容(可复用现有 skills/MCP/API 配置)、MIT 许可,并支持 Anthropic、OpenAI、DeepSeek、Kimi、GLM 等模型提供商。一键安装(Mac/Linux 用 curl,Windows 用 npm install)。

智能体GitHub产品更新编码
03:15
OpenRouter@OpenRouter
58
OpenRouter 的 dev rel @jjacky 构建了 Royale: Last Agent Stand--一个专门给 AI 智能体玩的大逃杀游戏,让 11 个 LLM 相互竞争并运行了 30 次。结果发现,在零和博弈中过于"友善"的模型输得最惨,而最意想不到的模型赢得了胜利。该实验揭示:模型的"友善"特质在某些任务(如竞争性场景)中可能成为劣势,传统基准测试无法体现这一点。

jacky: no benchmark will tell you this: LLMs can be /too/ nice unsurprisingly, in a competitive zero-sum setting, being nice ca...

智能体现象/趋势
02:47
Hacker News 热门(buzzing.cc 中文翻译)
64
Apache Burr:构建可靠的人工智能代理和应用程序

Apache Burr 是一个用于构建可靠 AI 智能体和应用程序的框架,已在 Apache 基金会下发布。该项目提供工具和抽象,帮助开发者设计、开发和部署可信任的智能体应用,强调可靠性、可观测性和生产级部署能力。

智能体开源/仓库部署/工程
02:34
AYi@AYi_AInotes
67
Cursor创始人Michael Truell:AI改写商业物理定律

Cursor创始人Michael Truell从12岁爱上编程,其创立的AI编码平台Cursor两年间从15人扩张至700人,服务全球60%财富500强。传统软件公司增长受制于“人越多管理越复杂”的引力,但AI打破这一规律——Agent级工具将个人生产力放大到过去一个组甚至一个部门的水平,人均创收极高。产品体验(Composer、Agent等)并非源于商业计划书,而是源自12岁少年“把想法变成现实”的初心。

Claude: Michael Truell (@mntruell) fell in love with coding at 12. The company he co-founded, @cursor_ai, went from 15 people to...

智能体现象/趋势编码
02:17
Perplexity@perplexity_ai
同事件精选68
Claude Fable 5 现已在 Computer 中作为编排模型可用。 这是Anthropic最先进的模型,适用于长而复杂的任务。仅限 Computer 的 Pro 和 Max 订阅用户使用。
智能体Anthropic产品更新
同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》
推荐理由:Claude Fable 5 在 Comet 里当指挥,Pro 用户现在能用上 Anthropic 最擅长长任务的模型,做复杂研究流的可以试试看能不能真的替代手动编排。
02:13
OpenRouter@OpenRouter
63
OpenRouter开发者@jjacky构建了Royale: Last Agent Stand--一个专属AI智能体的大逃杀游戏,让11个LLM在零和竞争环境中自由对抗30轮。结果发现,最"友善"的模型输得最惨,而最意想不到的模型反而获胜。该实验揭示了传统基准测试无法捕捉的现象:在特定任务中,AI过于友善可能成为劣势。

jacky: no benchmark will tell you this: LLMs can be /too/ nice unsurprisingly, in a competitive zero-sum setting, being nice ca...

智能体现象/趋势评测/基准
02:10
Claude:Blog(网页)
同事件精选75
智能体表面的演进:使用 Claude Managed Agents 构建

Anthropic 推出 Claude Managed Agents,一套可组合 API 套件,用于构建和部署生产级智能体。该产品从早期简单 API 演进至 Claude Agent SDK,再到将智能体调度层与代码执行沙箱解耦的 Managed Agents。通过只追加日志的会话机制,Managed Agents 解决了托管伸缩、会话持久化、文件系统管理、执行隔离、凭证安全与可观测性等生产部署挑战。团队借助该方案可在数天内完成从原型到生产环境的转化,无需自建基础设施。

智能体AnthropicMCP/工具产品更新
同一事件,精选展示《Code w/ Claude 伦敦活动:重塑开发体验》
推荐理由:Claude Managed Agents 把代理部署的复杂基础设施打包成了 API,让团队从原型到上线只需几天而不是几个月,尤其凭证隔离和延迟优化对生产环境很关键,想部署可靠代理的团队可以认真看看。
01:47
HuggingFace Daily Papers(社区热门论文)
47
APPO:智能体过程策略优化

现有智能体强化学习多基于工具调用边界等粗粒度单元分配回报。APPO将分支与信用分配迁移至序列中的细粒度决策点:通过分支分数(结合token不确定性与后续延续的策略诱导似然增益)选择分支位置,过滤高熵噪声;引入过程级优势缩放优化分支轨迹间的信用分布。在13个基准测试上,APPO在保持工具调用效率和行为可解释性的前提下,将强基线性能平均提升近4个点。

智能体arXiv数据/训练论文/研究
01:23
Rohan Paul@rohanpaul_ai
64
Apodex-1.0-H 发布多智能体深度研究团队

Apodex-1.0-H 发布一个异步智能体团队,用于深度研究。协调者将子智能体分配到独立上下文和工具,再通过事实核查、冲突审查和草稿审查智能体检验弱主张。该方案将深度研究视为分布式系统问题,展示了推理时缩放路径:通过多个协调搜索智能体、持久追踪和独立验证层提升答案质量,而非依赖单一更大模型,并声称取得 SOTA 结果。

Apodex: Dive in 👇 📝 Blog: https://www.apodex.com/blog/apodex-1.0 📄 Tech report: http://www.apodex.com/pdf/20260608 💻 Github:...

智能体Hugging Face产品更新推理
00:56
HuggingFace Daily Papers(社区热门论文)
精选73
DeLM:去中心化多智能体系统框架

DeLM是一种去中心化多智能体系统框架,通过并行智能体、共享已验证上下文和任务队列避免中央控制器瓶颈。智能体异步认领子任务、读取累计进展、执行局部推理并写回紧凑的已验证更新。在SWE-bench Verified上,DeLM在Avg.@1、Pass@2和Pass@4指标中均取得最佳性能,相比最强基线提升最多10.5个百分点,每任务成本降低约50%。在LongBench-v2多文档问答上,DeLM在四个前沿模型家族中取得最高平均准确率,提升最多5.7个百分点。代码已开源。

智能体开源/仓库推理论文/研究

推荐理由:去中心化MAS把中心调度换成共享黑板,SWE-bench一口气提10.5个点还省一半成本,这个思路值得所有搞agent的团队认真看。
00:48
宝玉@dotey
62
宝玉:Claude Design 是一个完整的 Agent Harness

Claude Design 具备完整 Agent 运行环境,基于浏览器和虚拟机,内置 45 个工具和 24 个 skills,采用 Agentic Loop。有团队质疑其仅为单个 Agent,宝玉回应:它就是一个完整的 Agent Harness。

Bro Van: @dotey 我们团队研究快一个月了,未发现任何harness迹象,看起来就是单个agent在那做。哥你说的harness在那自定义?

智能体AnthropicMCP/工具大佬观点
00:35
Emad@EMostaque
17
有人在雇女巫来拯救训练运行吗?

modest proposal: some are saying this is the best opening line in bloomberg history

智能体其他
00:32
🚨 AI News | TestingCatalog@testingcatalog
63
NoimosAI 推出全自主 AI 营销团队,可端到端运行策略、内容创作与分析。它连接品牌自有应用和网站,融合外部市场数据,自主判断执行时机。所有产出汇集到 Feed 供审批,并支持路由至 Slack、Email 或 Discord。功能覆盖 SEO、社交媒体、外联、GEO 等,7×24 小时运行,无需人工干预。

NoimosAI: Introducing NoimosAI: The world's first all-in-one autonomous AI marketing team. Simply connect your apps or website. It...

智能体产品更新
00:22
Rohan Paul@rohanpaul_ai
56
NoimosAI 发布自主 AI 营销团队

NoimosAI 推出全合一自主 AI 营销团队。连接产品应用、网站及数据源后,系统自动规划执行 SEO、GEO、社交媒体、外展和转化等增长工作,24/7 运行并将输出结果送交审批。产品基于一个关键洞察:AI 虽加速了产品构建,但分发仍依赖流量、线索、内容和反复测试,因此 NoimosAI 试图将营销流程转化为日常自动运营闭环。

NoimosAI: Introducing NoimosAI: The world's first all-in-one autonomous AI marketing team. Simply connect your apps or website. It...

智能体产品更新
00:14
Chubby♨️@kimmonismus
61
人人都在谈论基础聊天应用,但桌面AI智能体正在完全改变2026年的工作方式。 我已经测试了腾讯工作助手,它终于走向全球。它于3月在中国发布,根据腾讯Q1财报,其PC日活跃用户数立即排名第一。@TencentAl_News
智能体产品更新
00:14
Chubby♨️@kimmonismus
61
Kim 介绍 NoimosAI 是不同于普通 Zapier+聊天框的 AI 营销工具:它能自动制定策略、创建内容、跨渠道发布、分析效果并自主调整。用户连接现有工具后当天即可按品牌语调工作,提供 7 天免费试用。引用推文称其为全球首个全自主 AI 营销团队,覆盖 SEO、社交、外展、GEO 等,24/7 无人值守运行。

NoimosAI: Introducing NoimosAI: The world's first all-in-one autonomous AI marketing team. Simply connect your apps or website. It...

智能体产品更新
6月10日
23:47
SiliconFlow@SiliconFlowAI
58
Gemma 4 12B 登陆硅基流动

Google DeepMind 的 Gemma 4 12B 已在硅基流动上线,定价输入 $0.1/1M tokens,输出 $0.3/1M tokens。支持 262K 上下文、内置思考、原生工具调用及 140+ 种语言。采用无编码器架构,视觉和音频输入直接注入 LLM 主干,降低处理延迟。12B 参数但配备 26B “大脑”,性能接近 Google 26B 级别,擅长多步推理与智能体工作流。

智能体产品更新多模态
22:34
AYi@AYi_AInotes
61
Claude Fable 5 实时转录客户通话并自主构建软件原型

SaaS公司CEO Todd Saunders使用新发布的Claude Fable 5,在客户销售电话中实时转录通话,AI自主构建客户描述的功能。通话结束即展示完全可运行的原型——语音报价系统,自动匹配价目表、识别upsell机会、生成三档方案并发送提案,全程零人工干预。这直接跳过了PRD、评审、开发排期,实现“对话即构建”。但将原型落地为可信赖系统仍需工程判断、领域脏数据和治理能力,这些才是真正的稀缺价值。

Todd Saunders: Mythos / Fable is unbelievable. Was on a customer call today and had Claude transcribing in the background. As they were...

智能体Anthropic现象/趋势
22:17
向阳乔木@vista8
74
Vista 开源的 qiaomu-book-script Skill 可通过 `npx skills add joeseesun/qiaomu-book-script` 安装。用户说"解读《被讨厌的勇气》"即可触发,多个 Subagent 分别撰写脚本,最后由主 LLM 整理成终稿。此前 Vista 已用该 Skill 生成口播脚本并完成录制。

向阳乔木: 第一次录口播脚本,推荐本好书《被讨厌的勇气》。 工具:Pocket3 + 免费提词器teleprompter + 手机配件 脚本:用刚做的书籍口播解读 Skill 生成,改天开源。 剪辑:剪映加片头片尾,调色用LUT文件CELLULOID_...

智能体MCP/工具开源/仓库
21:49
Rohan Paul@rohanpaul_ai
71
TCS董事长:AI agent数量或与60万员工持平,冲击印度IT外包模式

印度最大私营雇主TCS董事长Chandrasekaran称,未来AI agent数量可能达到公司员工数(约60万)。TCS已宣布裁员1.2万人,AI业务年化收入达23亿美元,并与OpenAI签署数据中心协议。他指出AI将接管编码、测试、支持、维护等重复性工作,尽管也会创造新AI岗位。这一趋势直接冲击印度3150亿美元的IT服务外包模式——传统上依赖低成本人力团队的优势将被AI agent取代,因“工人”可在美欧云堆栈中运行,无需转移劳动力。分析认为,这可能导致旧外包模式(靠低成本人力差获利)崩塌。

智能体现象/趋势行业动态
21:47
TechCrunch:AI(RSS)
64
Jedify 获 2400 万美元融资,帮助企业为 AI 智能体提供业务上下文

Jedify 完成 2400 万美元融资,由 Norwest 领投,S Capital VC、Cerca Partners、Oceans Ventures 及战略投资者 Snowflake Ventures 参投。该公司致力于帮助企业为其 AI 智能体提供业务上下文信息。

智能体数据/训练行业动态
20:34
AYi@AYi_AInotes
41
苹果密码App新增自动改密码功能

苹果密码App现在能自动扫描所有账号的弱密码、重复密码和已泄露密码,并自动登录对应网站,找到修改密码页面,生成强密码完成替换,最后存入钥匙串。全程只需用户点一次确认,无需手动操作。@MKBHD 演示了银行、税务、医院等账号逐一处理。此前改一个密码至少花5分钟,现在一键完成。

Marques Brownlee: The new Apple Passwords app

智能体产品更新
19:17
The Decoder:AI News(RSS)
63
Google NotebookLM 重大升级:运行 Gemini 3.5 Flash,自带云计算机执行代码并支持自主搜索

Google 为 NotebookLM 推出重大升级。该研究工具现基于 Gemini 3.5 Flash 运行,拥有自己的云计算机用于代码执行,并能通过 Google Search 自主查找来源。内部测试中,新系统在 78.2% 的情况下击败了上一版本。

智能体Google产品更新搜索
18:46
MarkTechPost(RSS)
53
2026 年顶级 AI 编程智能体与开发平台对比:Atoms、Devin、Windsurf、Cursor、Warp 等

软件开发的模式已然改变——工程师不再手动输入大部分代码,而是描述意图,由 AI 智能体规划任务、跨文件编辑、运行测试并提交 Pull Request。许多工具已能在有限监督下直接部署到生产环境。这篇指南对比了 Atoms、Devin、Windsurf、Cursor、Warp 等主流 AI 编码代理与开发平台,帮助开发者选择最适合需求的工具。

智能体编码评测/基准
17:33
AYi@AYi_AInotes
69
Claude Fable 5 核心杠杆:自我纠正与记忆系统

Claude Fable 5 费用约是 Opus 4.8 的三倍,但效率提升显著:Parameter Golf 挑战效率高 6 倍;Slay the Spire 加持久记忆后表现翻 3 倍;可一次性迁移 50 万行代码。Anthropic 内部两大杠杆:① 自我纠正循环——写 rubric(目标+量化评分标准+沙箱),让模型自主改代码、跑测试;② 记忆系统——共享文件系统作为外脑,每次记录错误与改进规则。Fable 5 是唯一能完整走通“出错→调查→验证→蒸馏成规则”流程的模型。独立上下文的验证代理可使准确率翻倍。

Lance Martin: http://x.com/i/article/2064380553919676416

智能体AnthropicMCP/工具教程/实践
17:20
公众号:卡尔的AI沃茨
65
实测小米MiMo-V2.5-Pro UltraSpeed:万亿参数MoE推理模型输出速度达1000 token/s

小米MiMo-V2.5-Pro UltraSpeed模式在单8卡节点上实现万亿参数MoE推理模型输出速度1000 token/s,峰值达2140 token/s,是普通版的3倍,且此前已降价99%。接入Claude Code桌面端开启UltraCode模式后,可调度12个Agent在11分钟内完成项目升级报告并打包成Skill;3分钟内生成含灯光、剪影、星光特效的3D吉他英雄网页。技术层面通过FP4混合量化、提前草稿机制及计算/搬数据/通信流水线调度实现高速推理。

智能体教程/实践部署/工程
16:56
HuggingFace Daily Papers(社区热门论文)
精选70
快手开源 Kwai Keye-VL-2.0-30B-A3B:面向长视频理解与智能体智能的 MoE 多模态模型

快手开源 Kwai Keye-VL-2.0-30B-A3B,一个 MoE 多模态基础模型,激活仅 3B 参数,专为长视频理解和智能体智能设计。模型首次将 DeepSeek Sparse Attention (DSA) 适配到 GQA 多模态架构,实现无损 256K 上下文处理,并通过可扩展视频 I/O、异构 ViT-LM 并行及自定义 DSA 内核优化吞吐与计算开销。引入跨模态多教师在策略蒸馏(MOPD)结合 Context-RL 和 Video-RL,缓解多任务对齐中的灾难性遗忘,原生支持代码、工具、搜索场景下的多智能体协作与多模态自纠正。在 TimeLens、Video-MME-v2、LongVideoBench 等多个基准上达到同类规模 SOTA,模型权重已开源。

智能体多模态视频论文/研究

推荐理由:Keye-VL-2.0 把长视频理解推到 256K 上下文,还用了 DeepSeek 的稀疏注意力,这是目前我能找到的对长短视频最兼顾的多模态模型,做视频 agent 的该看看。
16:28
IT之家(RSS)
61
阿里千问上线国内首个全周期高考志愿填报Agent,免费提供咨询服务

阿里巴巴旗下千问上线国内首个全周期高考志愿填报Agent,基于千问高考志愿大模型和夸克8年高考数据打造,免费提供“志愿日历”“志愿报告”“志愿问答”三项核心能力。志愿日历将填报拆解为步骤,持续理解考生兴趣;志愿报告支持动态调整、主动建议及自我检查,加入就业前景、考公考编、AI趋势等数据;志愿问答可调用位次法等专业方法作答。针对老旧机型与弱网环境进行了优化。

智能体产品更新
15:42
Huawei Cloud@HuaweiCloud1
52
没有合适的平台,你就无法扩展智能体。在华为云INSPIRE 2026上,华为董事、华为云CEO张平安介绍了AgentArts,一个企业级平台,旨在帮助企业更快地扩展智能体。 https://tinyurl.com/5cjcph9d #INSPIRE2026 #HuaweiCloud #AI
智能体产品更新部署/工程
15:28
IT之家(RSS)
60
哈佛与Perplexity研究:AI智能体人机协作缩短87%任务时间、降低94%总成本

哈佛大学与Perplexity基于10000组真实数据对比研究发现,AI智能体(Perplexity Computer)与人工协作比传统搜索(Perplexity Search)加人工效率更高。智能体单次会话平均执行26分钟,搜索仅33秒,本地任务差距达75倍;智能体有效不满率1.3%,低于搜索的2.9%。“Search+人工”每任务需269分钟,“Computer+人工”仅36分钟,时间缩短87%。虽然智能体单任务模型成本约4-10美元(搜索约0.05美元),但人力边际成本从2.05美元降至0.16美元,总成本下降94%。短单步问题适合搜索,多步需工具调用任务适合智能体。

智能体论文/研究
15:28
IT之家(RSS)
59
荣耀 YOYO 与微信首个 A2A 合作上线:一句话发送微信消息、拨打微信语音/视频电话

荣耀 MagicOS 今日宣布荣耀 YOYO 与微信首个 A2A 合作上线,支持用户通过一句话指令发送微信消息、拨打微信语音或视频电话。该功能已在荣耀全量机型推送。使用条件:长按电源键唤醒 YOYO,发送语音“给 xx 发微信 / 打微信语音电话 / 打微信视频电话”,需将 YOYO 智能体版本更新至 90.10.30.063 及以上、微信版本更新至 8.0.72 及以上、系统版本升级至最新。

智能体产品更新端侧
‹ 上一页
1…3031323334…50
下一页 ›