AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 2133 条
全部一手资讯X论文
标签「Agent」清除
7月1日周三
06:01MarkTechPost(RSS)70Anthropic 发布 Claude Sonnet 5:中端智能体模型,基准与定价详解
05:59TechCrunch:AI(RSS)65OpenClaw 正式登陆 Android 和 iOS
04:06Ars Technica:AI(RSS)60AI浏览器可被引诱进入护拦失效的幻境
03:08The Decoder:AI News(RSS)81Anthropic 发布 Claude Sonnet 5,号称最智能体版本,逼近 Opus 系列
03:07Hacker News 热门(buzzing.cc 中文翻译)72Anthropic 发布 Claude Science beta:专注严谨科学研究的 AI 应用
02:37Hacker News 热门(buzzing.cc 中文翻译)78Anthropic 发布 Claude Sonnet 5:最具智能体能力的 Sonnet 模型
02:28TechCrunch:AI(RSS)73Anthropic 推出 Claude Sonnet 5,主打低成本智能体能力
02:02Anthropic:Newsroom(网页)81精选Claude Sonnet 5 发布
01:58TechCrunch:AI(RSS)72精选Acti 将 AI 智能体直接放入手机键盘
01:32Anthropic:Newsroom(网页)66精选Claude Science 科研工作台正式上线
01:28Claude:Blog(网页)72精选Claude Code 入门:智能体循环
01:28TechCrunch:AI(RSS)61Anthropic 推出 Claude Science 科学家 AI 工作台
01:19Simon Willison 博客73精选用 shot-scraper video 让 AI 智能体录制工作演示视频
01:17Google Developers Blog(RSS)67精选ADK Go 2.0 发布:构建可靠的多智能体应用,新增基于图的工作流引擎、人工参与循环与动态编排
01:17Google Developers Blog(RSS)52Google发布新技能:从你的编码智能体驱动智能体质量飞轮
6月30日周二
17:27TechCrunch:AI(RSS)54加密货币交易所OKX推出AI市场,让AI智能体互相雇佣和支付
15:37Hacker News 热门(buzzing.cc 中文翻译)77LongCat-2.0 开源:1.6T 总参数、48B 活跃参数的 MoE 模型
15:02IT之家(RSS)55AI 老板 500 天模拟经营:多数模型亏惨,Claude Fable 5 独占鳌头
15:02IT之家(RSS)59AI 编程工具 Cursor 推出移动端应用,手机即可操控智能体
12:26HuggingFace Daily Papers(社区热门论文)50InnerZoom:单前向跨层证据桥接实现精准高效GUI定位
11:29MarkTechPost(RSS)48Top 6 无代码 AI 工具速览(涵盖多智能体、可视化工作流、RAG 引擎、本地 LLM 工作站、微调框架)
11:26HuggingFace Daily Papers(社区热门论文)77精选Agents-A1:35B MoE 智能体模型通过扩展 horizon 达到万亿参数级性能
11:02IT之家(RSS)36OPPO ColorOS 小布助手接入微信,一句话发消息、打电话
10:26HuggingFace Daily Papers(社区热门论文)48GUICrafter:利用海量未标注截图的弱监督GUI智能体
08:00HuggingFace Daily Papers(社区热门论文)45HealthAgentBench:面向挑战性前沿AI智能体的统一医疗专家基准套件
08:00HuggingFace Daily Papers(社区热门论文)45PixelEyes:解耦感知与推理实现精准视觉证据定位
08:00HuggingFace Daily Papers(社区热门论文)45AutoTrainess:自主训练语言模型的LM智能体
07:59MarkTechPost(RSS)53OpenClaw 发布 iOS 和 Android 配套节点应用,手机变身自托管 AI 智能体网关的"外设"
05:35Hacker News 热门(buzzing.cc 中文翻译)61Ornith-1.0:用于代理编码的自改进开源模型
03:29MarkTechPost(RSS)61NVIDIA BioNeMo Agent Toolkit 将生物分子模型封装为 AI 智能体可调用的技能
01:57Cursor Blog75精选从任何地点构建--Cursor for iOS 公测版发布
01:26TechCrunch:AI(RSS)69Cursor 推出 iOS 移动应用,可随时随地指导编码智能体
01:17Simon Willison 博客67Ornith-1.0:用于自主编程的自构建大语言模型
6月29日周一
22:35Hacker News 热门(buzzing.cc 中文翻译)71精选Herdr:驻留在终端中的AI智能体多路复用器
18:58MarkTechPost(RSS)74精选EverOS:开源Markdown优先智能体记忆运行时,支持混合检索与自进化技能
18:07The Decoder:AI News(RSS)73精选Claude Code 打开 GitHub 仓库即执行隐藏恶意代码,攻击者可获完全控制
18:01IT之家(RSS)64蚂蚁阿宝 AI 助手正式上线,iOS/安卓版支付宝跨代升级至大版本 12,图标添加"AI"字样
16:51公众号:火山引擎47万得AI面向个人用户开放,基于豆包大模型2.0与火山引擎
13:50公众号:卡尔的AI沃茨67开源Bugu - 防止合盖休眠的macOS菜单栏应用
09:01IT之家(RSS)43惠普与 OpenAI 达成战略合作,全面部署 AI 智能体平台 Frontier
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月1日
06:01
MarkTechPost(RSS)
70
Anthropic 发布 Claude Sonnet 5:中端智能体模型,基准与定价详解

Anthropic 发布 Claude Sonnet 5,定位为最具智能体能力的中端模型,即日起成为 Free 和 Pro 计划的默认模型。在 SWE-bench Pro 上得分 63.2%(前代 58.1%),OSWorld-Verified 达 81.2%(前代 78.5%),HLE(带工具)57.4%。输入/输出定价 2026 年 8 月 31 日前 $2/$10 每百万 token,之后 $3/$15。支持低/中/高/超高四档 effort 级别,低中 effort 下性价比最优。上下文窗口 1M token,采用新 tokenizer,相同文本 token 数增长约 1.0–1.35 倍。幻觉与谄媚率低于前代。开发者仅需更换模型字符串为 claude-sonnet-5 即可调用 API。

智能体Anthropic推理模型发布
关联讨论 9 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)Claude Code:GitHub Releases(RSS)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)
05:59
TechCrunch:AI(RSS)
65
OpenClaw 正式登陆 Android 和 iOS

免费开源 AI 智能体 OpenClaw 现已推出 iOS 和 Android 应用。用户通过 OpenClaw Gateway 将手机与智能体及所需工具、技能连接,可在移动端运行智能体完成编程、餐食规划等任务。OpenClaw 今年早些时候因 MoltBook(号称完全由智能体运营的社交媒体站)走红,其创建者 Peter Steinberger 随后加入 OpenAI。尽管 MoltBook 后被证实部分由人类伪装智能体运行,但此事件推动了智能体生态扩张,如今 AI 智能体已嵌入更多场景,包括手机端。

智能体产品更新开源生态
04:06
Ars Technica:AI(RSS)
60
AI浏览器可被引诱进入护拦失效的幻境

安全公司LayerX研究员Roy Paz发布概念验证攻击BioShocking:通过诱导AI浏览器接受“正确即错误”(如2+2=5)的规则,使其进入幻境,安全护栏失效。攻击者可执行从私有仓库提取代码、从内置密码管理器窃取凭据等危险操作。该攻击在ChatGPT Atlas、Comet、Fellou、Genspark、Sigma及Claude Chrome插件上均有效,六款AI智能体均未识别出违规。与传统聊天机器人越狱相比,AI浏览器因合并控制平面与数据平面,潜在危害更大。目前该攻击缺乏隐蔽性,属演示性质。

智能体安全/对齐
03:08
The Decoder:AI News(RSS)
81
Anthropic 发布 Claude Sonnet 5,号称最智能体版本,逼近 Opus 系列

Anthropic 发布 Claude Sonnet 5,称其为最智能体的 Sonnet 版本,能自主制定计划、使用浏览器和终端工具。基准测试全面超越前代 Sonnet 4.6:SWE-bench Pro 达 63.2%,Terminal-Bench 2.1 为 80.4%,知识工作基准 GDPval-AA v2 得分 1618,略超 Opus 4.8。模型即日起在所有计划上线,开发者可通过 Claude Code 和 API 使用,支持 100 万 token 上下文窗口。截至 2026 年 8 月 31 日,输入价格 $2/百万 token,输出 $10/百万 token,之后恢复至 $3/$15。模型未针对网络安全任务训练,默认启用实时网络防护,幻觉和谄媚行为较前代减少。

智能体Anthropic模型发布
关联讨论 9 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)Claude Code:GitHub Releases(RSS)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)
03:07
Hacker News 热门(buzzing.cc 中文翻译)
72
Anthropic 发布 Claude Science beta:专注严谨科学研究的 AI 应用

Anthropic 推出 Claude Science beta,专为科学研究设计。可运行分析、搜索数据库,追踪从数据处理到发表的每一步。内置科学渲染器原生查看蛋白质、结构、分子及 PDF,每个结果附带原始代码、环境和对话,确保完全可复现。后台审查器自动标记错误引用、不可追溯数字及代码不匹配的图表。支持自然语言标注修改图表。管理计算环境,可在笔记本、Linux 机器、HPC 集群或 GPU 上按需扩展。持久化 Python 和 R 内核,变量和数据框内存驻留。预配置基因组学、单细胞、蛋白质组学、结构生物学、化学信息学等领域,可查询 60+ 科学数据库。支持将流程保存为可复用技能或连接实验室工具。当前提供 macOS 和 Linux 版本。

智能体AnthropicMCP/工具产品更新
关联讨论 1 条X:Claude (@claudeai)
02:37
Hacker News 热门(buzzing.cc 中文翻译)
78
Anthropic 发布 Claude Sonnet 5:最具智能体能力的 Sonnet 模型

Anthropic 发布 Claude Sonnet 5,定位为迄今最具智能体能力的 Sonnet 模型。它在推理、工具使用、编码和知识工作等智能体性能上较前代 Sonnet 4.6 显著提升,表现接近 Opus 4.8 但价格更低。即日起在所有计划中可用,成为 Free 和 Pro 计划的默认模型,并支持 Claude Code 及 Claude 平台。API 推出优惠定价:每百万输入 token $2、每百万输出 token $10(持续至 2026 年 8 月 31 日),之后恢复为 $3 和 $15。安全评估显示,Sonnet 5 在拒绝恶意请求、抵抗提示注入攻击、减少幻觉和谄媚行为上优于前代,但在网络安全任务上的能力显著弱于 Opus 4.8。

智能体Anthropic推理模型发布
关联讨论 9 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)Claude Code:GitHub Releases(RSS)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)
02:28
TechCrunch:AI(RSS)
73
Anthropic 推出 Claude Sonnet 5,主打低成本智能体能力

Anthropic 发布 Claude Sonnet 5,这是其中端模型的最新版本,具备制定计划、使用浏览器和终端等工具并自主运行的能力。其性能接近 Opus 4.8,但成本更低:即日起至 8 月 31 日,输入每百万 tokens $2,输出每百万 tokens $10,之后分别涨至 $3 和 $10。在智能体编程基准上得分为 63.2%(Opus 4.8 为 69.2%,Sonnet 4.6 为 58.1%),在知识工作基准上略超 Opus 4.8。安全方面,不当行为、幻觉和谄媚率低于 Sonnet 4.6,且更善于拒绝恶意请求和提示词注入攻击。

智能体Anthropic推理模型发布
关联讨论 9 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)Claude Code:GitHub Releases(RSS)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)
02:02
Anthropic:Newsroom(网页)
精选81
Claude Sonnet 5 发布

Claude Sonnet 5 是 Anthropic 推出的最新 Sonnet 模型,具备计划、浏览器和终端工具使用能力,可自主运行。性能接近 Opus 4.8,定价更低:即日起至 2026 年 8 月 31 日,输入 token $2/百万,输出 $10/百万,之后恢复为 $3/百万输入和 $15/百万输出。相比 Sonnet 4.6,在推理、工具使用、编程和知识工作等智能体能力上大幅提升。在 BrowseComp 和 OSWorld-Verified 评测中严格优于 Sonnet 4.6。安全评估显示不良行为率更低,幻觉和谄媚减少,但网络安全能力弱于 Opus 4.8。即日起在所有套餐及 Claude Code、Claude API 中可用。

智能体Anthropic模型发布编码
关联讨论 9 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)Claude Code:GitHub Releases(RSS)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)
推荐理由:Claude Sonnet 5 把代理能力从 Opus 下放到了 Sonnet,性能接近 Opus 4.8 但价格只有三分之一,这对开发者来说性价比飞跃。虽然还不是最强,但已经能让许多复杂任务从勉强可用变成可靠。
01:58
TechCrunch:AI(RSS)
精选72
Acti 将 AI 智能体直接放入手机键盘

新加坡初创公司 Acti 发布基于 Google Gemini 的智能体键盘,可代替用户在应用中执行操作。核心功能 Skills 允许用自然语言创建快捷方式,如长按 T 键翻译消息、C 键发送会议链接。早期测试者两周内创建超 1000 个 Skills。采用本地优先架构,默认不访问私人消息。公司获 530 万美元种子轮融资,由 BITKRAFT Ventures 领投,现已开放下载。

智能体Google产品更新端侧

推荐理由:Acti 想用 AI 代理重塑手机键盘,把 Gemini 塞进输入法,离不离开 App 都能用 AI 的思路很讨巧,但换键盘的阻力不小,目前更像一个有趣的试验品。刚拿到 530 万美元种子轮,有试错空间。
01:32
Anthropic:Newsroom(网页)
精选66
Claude Science 科研工作台正式上线

Anthropic 推出 AI 科研工作台 Claude Science,整合常用工具与计算资源,支持从文献分析到多步骤研究的全流程。提供超 60 项预配置技能与连接器,覆盖基因组学、单细胞、蛋白质组学、结构生物学、化学信息学等领域;可在macOS/Linux本地运行,或通过SSH/HPC远程使用。生成含代码和环境的可审计成果(3D蛋白质结构、基因组浏览器轨迹等),内置reviewer agent自动检查引用与计算错误。通过NVIDIA BioNeMo接入Evo 2、Boltz-2等模型,也支持连接自有模型与管道。今日以beta版面向Claude Pro、Max、Team和Enterprise用户开放。

智能体AnthropicMCP/工具产品更新
关联讨论 1 条X:Claude (@claudeai)
推荐理由:Anthropic 为科学家打造了一个整合 60+ 技能、可管理计算和审计输出的 AI 工作台,让 AI 从顾问变成可复现的实验合作者。
01:28
Claude:Blog(网页)
精选72
Claude Code 入门:智能体循环

Claude Code 团队将智能体循环定义为 agent 重复工作直到满足停止条件的过程,并划分出四种主要类型:turn-based 循环(用户提示触发,Claude 自行判断完成或需更多上下文)、goal-based 循环(通过 /goal 命令设定可验证完成标准与最大轮次)、time-based 循环(通过 /loop 按时间间隔重复执行,可用 /schedule 移至云端)、以及 proactive 循环(基于事件或计划自动运行,无人实时参与)。文章还介绍了如何编写 SKILL.md 文件将人工验证步骤编码,让 Claude 进行端到端自检,减少 turn-based 循环中的手动操作。

智能体AnthropicMCP/工具教程/实践

推荐理由:Anthropic把agentic loops从模糊概念变成四种可复制的模式,附带SKILL.md和命令示例,Claude Code用户读完就能设计更自主的编码流程。
01:28
TechCrunch:AI(RSS)
61
Anthropic 推出 Claude Science 科学家 AI 工作台

Anthropic 于周二推出 Claude Science,一个面向科学家的 AI 工作台,运行现有 Claude 模型(含 Claude Opus 4.8),不提供新模型或特殊访问权限。工作台连接超过 60 个科学数据库,内置基因组学、蛋白质结构、化学等预构建工具包,主助手可创建子助手分工,事实核查器校验引用和计算。它能生成附有代码和环境的 3D 蛋白质结构等图表,支持自然语言编辑,并可在实验室本地基础设施上运行。早期用户已用来构建基因组浏览器和多智能体计算审查管道。Claude Science 现已向 Pro、Max、Team 和 Enterprise 订阅用户开放 beta 版,并提供 50 个项目、最高 3 万美元信用额度的资助申请机会。

智能体Anthropic产品更新
01:19
Simon Willison 博客
精选73
用 shot-scraper video 让 AI 智能体录制工作演示视频

shot-scraper 1.10 新增 shot-scraper video 命令,支持通过 storyboard.yml 文件定义操作步骤,并利用 Playwright 录制浏览器视频。演示视频展示了 Datasette 中从粘贴的 CSV/TSV/JSON 数据创建新表的功能。该功能依赖 Playwright 1.61.0 新增的 screencast 机制,解决了此前视频开头白帧、宽度固定 800px 等问题。开发者 Simon Willison 强调,将 --help 输出设计得足够详细,可使编码 Agent 直接利用该命令生成演示视频。

智能体GitHubMCP/工具产品更新

推荐理由:Simon 把 agent 的产出从文字推到了视频,这个 shot-scraper video 让 agent 自己生成 storyboard 并录屏,等于给自动化流程加了一双眼睛,开发者可以立刻用上这套 demo 生成方案。
01:17
Google Developers Blog(RSS)
精选67
ADK Go 2.0 发布:构建可靠的多智能体应用,新增基于图的工作流引擎、人工参与循环与动态编排

Agent Development Kit (ADK) for Go 2.0 发布,引入了一类基于图的工作流引擎,用于组合复杂多智能体应用。新版本内置人工参与循环(HITL)编排、使用纯 Go 代码的动态执行、以及指数退避重试等自动弹性特性。统一执行模型后,单智能体应用与复杂图均运行在同一运行时上,简化了遥测与状态持久化。

智能体Google产品更新部署/工程

推荐理由:Google 给 Go 生态补上了多智能体编排的关键一环,图工作流引擎和人机协同直接内置,比之前拼积木的方式可靠很多,做 Agent 的 Go 开发者值得跟进。
01:17
Google Developers Blog(RSS)
52
Google发布新技能:从你的编码智能体驱动智能体质量飞轮

Google推出了一项面向编码智能体的新开发者技能,将评估过程自动化成五阶段飞轮:准备数据、运行推理、使用自适应AutoRaters评分、分析失败聚类、执行针对性优化。该工具可针对生产流量持续运行或通过合成场景按需触发,开发者用自然语言描述测试目标,独立评估服务安全验证并统计实际性能提升。

智能体Google产品更新编码
6月30日
17:27
TechCrunch:AI(RSS)
54
加密货币交易所OKX推出AI市场,让AI智能体互相雇佣和支付

加密货币交易所OKX于周二发布AI市场“OKX AI”,允许AI智能体自主雇佣彼此、结算支付并建立可携带的链上声誉。该市场面向开发者开放,此前已吸引50家早期AI服务提供商内测。市场基于OKX已有技术构建,支持AI智能体持有数字钱包、使用稳定币支付和建立持久身份。早期合作方包括安全审计服务CertiK、实时市场数据提供商CoinAnk以及纠纷解决基础设施GenLayer。开发者可通过OKX的Onchain OS工具包访问该平台,无需OKX账户即可使用,并兼容Claude Code、Codex等AI编码工具。OKX认为“智能体经济”需要为自主软件设计的基础设施,计划分阶段推广该市场。

智能体产品更新行业动态
15:37
Hacker News 热门(buzzing.cc 中文翻译)
77
LongCat-2.0 开源:1.6T 总参数、48B 活跃参数的 MoE 模型

LongCat-2.0 正式开源,总参数 1.6 万亿,每 token 激活约 480 亿参数,采用 MoE 架构。新引入 LongCat Sparse Attention(LSA)和 N-gram Embedding 模块,支持百万级上下文窗口。模型在 5 万+ AI ASIC 上训练,消耗超 35 万亿 tokens,训练全程无回滚。在编码和智能体任务上表现优异,深度集成 Claude Code 等工具。提供 GitHub、HuggingFace 及 API 访问。

智能体开源生态推理模型发布
关联讨论 9 条X:硅基流动 SiliconFlow (@SiliconFlowAI)X:美团 LongCat (@Meituan_LongCat)X:Emad Mostaque (@EMostaque)IT之家(RSS)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)公众号:龙猫LongCat(美团)
15:02
IT之家(RSS)
55
AI 老板 500 天模拟经营:多数模型亏惨,Claude Fable 5 独占鳌头

普林斯顿大学发布 CEO-Bench 基准测试,模拟创业公司 500 天经营,启动资金 100 万美元,评估 AI 模型担任 CEO 的能力。多数模型在 500 天后破产。最佳单次运行中,Claude Fable 5 期末现金达 4715 万美元,是唯一多次运行均高于初始余额的模型;Claude Opus 4.8 为 2778 万美元,GPT-5.5 为 2130 万美元。Grok 4.20 平均仅存活 28 天,DeepSeek V4 Pro 和 Gemini 3 Flash 亦全部破产。基于规则的基准模型最终余额为 1580 万美元。

智能体Anthropic推理评测/基准
15:02
IT之家(RSS)
59
AI 编程工具 Cursor 推出移动端应用,手机即可操控智能体

Cursor 本周一推出移动端应用 Cursor Mobile,用户可通过手机新建编程智能体,或对接电脑客户端已启动的智能体。该应用与去年 10 月发布的 Cursor 2.0 更新衔接,后者推动服务向独立代码生成智能体转型。此前,Anthropic 与 OpenAI 均已推出同类移动应用。Claude Code 业务负责人鲍里斯·切尔尼表示,自己目前大部分编码工作已在手机上完成。

智能体产品更新编码
12:26
HuggingFace Daily Papers(社区热门论文)
50
InnerZoom:单前向跨层证据桥接实现精准高效GUI定位

针对MLLM自回归坐标生成丢失区域级目标证据的问题,InnerZoom提出单前向跨层证据桥接框架,将原始前向中的目标线索压缩为跨层证据状态,在后序解码层保留、精炼并重新注入以指导坐标预测。InnerZoom-4B在全部六个GUI定位基准上达到最优,OSWorld-G 64.7、UI-Vision 40.2、OSWorld-GR 73.1、MMBench-GUI 87.6,分别超此前最佳4.1、3.2、2.9、2.3分。相比同基线平均提升5.3点,对比两遍ZoomIn平均提升1.3点,端到端延迟降低31.8%,TFLOPs降低约29%。代码与模型将开源。

智能体多模态论文/研究
11:29
MarkTechPost(RSS)
48
Top 6 无代码 AI 工具速览(涵盖多智能体、可视化工作流、RAG 引擎、本地 LLM 工作站、微调框架)

Atoms 是无代码平台,支持零基础设施、多智能体架构并即时连接 GPT 与 Gemini。Sim AI 是开源可视化 AI 智能体工作流工具,提供拖拽画布、80+ 集成及 MCP 支持,可云托管或 Docker 自部署。RAGFlow 是检索增强生成引擎,支持多格式文件建立知识库,连接 LLM(API 或 Ollama),具备检索质量验证。Transformer Lab 是免费开源本地 LLM 与扩散模型工作站,支持下载、对话、图像生成、微调(含 RLHF)、RAG 及嵌入计算。LLaMA-Factory 支持 100+ 模型及 SFT、PPO、DPO、LoRA、QLoRA 等训练方法。

智能体教程/实践部署/工程
11:26
HuggingFace Daily Papers(社区热门论文)
精选77
Agents-A1:35B MoE 智能体模型通过扩展 horizon 达到万亿参数级性能

研究人员提出 Agents-A1,一个 35B 参数的 Mixture-of-Experts 智能体模型,通过扩展智能体 horizon(长轨迹与异构能力两个视角)达到万亿参数模型性能。团队构建了长 horizon 知识-行动基础设施,生成平均 45K token 的智能体轨迹,并采用三阶段训练:全领域监督微调、领域级教师模型训练、多教师领域路由在线蒸馏(含显著词汇对齐)。对比万亿参数模型 Kimi-K2.6 和 DeepSeek-V4-pro,Agents-A1 在 SEAL-0(56.4)、IFBench(80.6)、HiPhO(46.4)、FrontierScience-Olympiad(79.0)和 MolBench-Bind(56.8)上领先,并在 SciCode(44.3)、HLE(47.6)和 BrowseComp(75.5)上保持强竞争力。

智能体推理论文/研究

推荐理由:用35B模型追平1T参数模型,这条“扩展智能体视野”的路比无脑堆参数务实得多,做Agent和长程推理的团队必须认真读。
11:02
IT之家(RSS)
36
OPPO ColorOS 小布助手接入微信,一句话发消息、打电话

OPPO ColorOS 今日官宣,小布助手接入微信 A2A(Agent-to-Agent)协作机制,支持用户语音唤醒助手后,自动打开微信向联系人发消息或打微信电话,重名联系人可确认后再执行。该功能基于 A2A 协议,由厂商 AI 助手发起指令、微信负责执行并返回结果,全程采用双重授权机制,保障数据安全与隐私合规。相关能力正逐步向华为、荣耀、小米、OPPO、vivo 等厂商开放。

智能体产品更新
10:26
HuggingFace Daily Papers(社区热门论文)
48
GUICrafter:利用海量未标注截图的弱监督GUI智能体

GUICrafter是一个弱监督GUI智能体,通过两阶段课程学习框架降低对人工标注的依赖:阶段1利用大规模未标注截图和网页学习视觉定位,阶段2使用少量高质量数据通过强化学习校准。实验显示,GUICrafter仅使用UI-TARS 0.1%的数据即达到与之竞争甚至更优的性能;在相同标注数据量下,其表现超越所有先前方法(如GUI-R1)。代码、数据和模型已开源。

智能体数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
45
HealthAgentBench:面向挑战性前沿AI智能体的统一医疗专家基准套件

HealthAgentBench发布,包含54项医疗任务(7个类别),每项任务模拟患者就诊全流程的端到端临床工作流。智能体需在极少指令下探索原始数据、操作复杂环境并执行多步解决方案。评估前沿智能体后,整体任务成功率低,最强且成本最优的Codex GPT-5.5仅达约42%成功率。Claude Code在医学影像任务上表现困难,而Codex GPT-5.5展现新兴能力。结合大搜索空间与组合推理需求的任务对当前所有智能体构成挑战。该基准套件已开源。

智能体Microsoft论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
45
PixelEyes:解耦感知与推理实现精准视觉证据定位

PixelEyes是一种多轮视觉推理智能体,通过显式解耦推理与感知解决MLLMs因定位不准导致的冗余轨迹问题。推理器决定查找目标,专用感知工具采用掩码引导视觉搜索(Mask-guided Visual Search)和语义区域广度优先搜索(Semantic-region BFS)提供精确定位,消除重复裁剪错误子区域的循环。基于PixelEyes-6K数据集训练,并引入Pinpoint-Bench零提示视觉搜索基准,用于分离定位失败与推理失败。代码和模型已开源。

智能体多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
45
AutoTrainess:自主训练语言模型的LM智能体

AutoTrainess是一个LM智能体,将后训练所需的规划、数据准备、训练、评估和日志操作封装为智能体-计算机接口,通过外部化人类经验作为明确的工作流和约束来引导训练。在PostTrainBench基准上,AutoTrainess使用GPT-5.4(Codex)取得26.94平均得分,而纯CLI基线为23.21;该智能体还跨模型泛化,将DeepSeek-V4-Flash(OpenCode)的得分从12.13提升至19.58。

智能体数据/训练论文/研究
07:59
MarkTechPost(RSS)
53
OpenClaw 发布 iOS 和 Android 配套节点应用,手机变身自托管 AI 智能体网关的"外设"

OpenClaw 推出免费 iOS 和 Android 配套节点应用,手机成为自托管智能体网络中的节点(非独立聊天机器人)。核心 Gateway 用 TypeScript 编写,需 Node 24 或 22.19+,运行在 macOS、Linux 或 Windows(WSL2)上。通过 WebSocket 端口 18789 与手机配对,支持本地 mDNS 发现或远程 Tailscale 连接。iOS 应用通过 QR 码配对,支持聊天、实时/后台语音模式、Canvas 表面,以及相机、屏幕、位置等设备能力。Android 应用提供流式聊天回复、图片附件、全会话历史、语音模式(ElevenLabs 或系统 TTS)和实时 Canvas。隐私敏感命令默认关闭,需在配置文件中显式允许。

智能体产品更新开源生态端侧
05:35
Hacker News 热门(buzzing.cc 中文翻译)
61
Ornith-1.0:用于代理编码的自改进开源模型

Ornith-1.0 是基于 Gemma 4 和 Qwen 3.5 后训练的自改进开源模型系列,包含 9B Dense、31B Dense、35B MoE 和 397B MoE 四种规格。采用强化学习同时优化搜索框架和解决方案。在 Terminal-Bench 2.1、SWE-bench Verified 等编程基准上各尺寸均达同类开源最优——397B MoE 在 SWE-bench Verified 上取得 82.4%,Terminal-Bench 2.1 (Claude Code) 78.2%。所有检查点支持 256K 上下文窗口,MIT 许可证,全球可访问。运行需 Transformers ≥5.8.1、vLLM ≥0.19.1、SGLang ≥0.5.9。

智能体Hugging Face开源生态模型发布
03:29
MarkTechPost(RSS)
61
NVIDIA BioNeMo Agent Toolkit 将生物分子模型封装为 AI 智能体可调用的技能

NVIDIA 发布开源 BioNeMo Agent Toolkit,将蛋白质折叠(OpenFold3、Boltz‑2)、分子对接(DiffDock)、生成化学(GenMol)、序列设计(ProteinMPNN)、MSA 搜索、RFdiffusion 及基因组学模型(Evo 2)等封装为标准化 agent skill。每个 skill 包含 SKILL.md 说明文档,支持 MCP 服务器包装,可通过 npx skills add 安装至 Claude Code 等 agent。测试显示:接入技能后任务完成率从 57.1% 升至 100%,每千 token 通过断言数提升 2 倍。用户可选择托管 NIM 端点或本地 NIM 部署。

智能体产品更新开源/仓库
01:57
Cursor Blog
精选75
从任何地点构建--Cursor for iOS 公测版发布

Cursor 推出 iOS 原生公测版,所有付费计划可用。开发者可在手机上启动始终在线的云端智能体,或远程操控电脑端智能体。支持语音输入、斜杠命令和选择前沿模型。智能体运行后,锁屏 Live Activities 和推送通知实时更新状态,完成或需要输入时提醒。云端智能体在隔离虚拟机中运行,可自动迭代生成合并就绪的 PR,并输出演示、截图和日志。本地与云端智能体支持双向切换。移动端 Composer 2.5 享受 75% 折扣,优惠至 2026 年 7 月 5 日。

智能体产品更新编码
关联讨论 1 条X:Berry Xia (@berryxia)
推荐理由:Cursor 移动端把 Agent 放到了云上,从手机就能启动和合并 PR,通勤灵感不再浪费,对经常离开桌面的开发者是真正的效率杠杆。
01:26
TechCrunch:AI(RSS)
69
Cursor 推出 iOS 移动应用,可随时随地指导编码智能体

Cursor 发布 iOS 移动应用,用户可通过手机直接提示编码智能体,或与桌面客户端已启动的代理交互。该应用基于此前公布的 Cursor 2.0 更新,使服务转向独立编码智能体。Anthropic 和 OpenAI 此前已推出类似移动工具。Anthropic 的 Claude Code 负责人 Boris Cherny 表示,他目前大部分编码工作都在手机上完成。

智能体产品更新编码
01:17
Simon Willison 博客
67
Ornith-1.0:用于自主编程的自构建大语言模型

DeepReinforce 发布首个开源模型 Ornith-1.0(MIT 许可),提供 9B、31B、35B MoE 及 397B MoE 四种规模变体,基于预训练的 Gemma 4 和 Qwen 3.5 构建,在编程基准测试中达同规模开源模型最优。作者通过 LM Studio 运行 35B MoE 的 GGUF 量化版(20GB),实测推理速度 103 tokens/秒,实际代码检索和工具调用任务表现流畅。

智能体开源/仓库模型发布编码
6月29日
22:35
Hacker News 热门(buzzing.cc 中文翻译)
精选71
Herdr:驻留在终端中的AI智能体多路复用器

Herdr是一个驻留在终端中的AI智能体多路复用器,允许用户在单一终端界面内管理和切换多个AI智能体会话。

智能体GitHubMCP/工具开源/仓库

推荐理由:这个工具把 AI 代理管理塞进终端,比开一堆浏览器标签自然,对命令行重度用户是个值得一试的 early idea。
18:58
MarkTechPost(RSS)
精选74
EverOS:开源Markdown优先智能体记忆运行时,支持混合检索与自进化技能

EverMind 推出开源智能体记忆运行时 EverOS(Apache 2.0 许可)。它以可编辑的 Markdown 文件为记忆主体,经 SQLite 管理状态、LanceDB 实现混合检索(BM25 关键词 + 向量搜索 + 标量过滤)。每个完成的任务记录为 Case,离线提炼为可复用的 Skill,使记忆随使用自我进化。v1.1.0 新增 Knowledge APIs(支持分类与话题搜索的 Markdown 页面)和 Reflection(跨会话优化 Profile 和 Skill)。据 EverMind 报告,LoCoMo 得分 93.05%,LongMemEval 83.00%,HaluMem 93.04%,p95 检索延迟低于 500ms。运行时可本地优先部署,也提供 EverOS Cloud 托管选项,兼容 OpenAI 协议端点。

智能体MCP/工具开源/仓库

推荐理由:EverOS把Agent记忆从沉重的向量数据库堆栈中解放出来,Markdown源真和自进化技能让本地开发更轻便,但基准全由团队自报,上手前最好自己测一下。
18:07
The Decoder:AI News(RSS)
精选73
Claude Code 打开 GitHub 仓库即执行隐藏恶意代码,攻击者可获完全控制

安全研究人员在 Mozilla 的 GenAI 漏洞赏金平台 0DIN 发现新攻击向量。一个看似正常的 GitHub 仓库包含 setup 脚本,该脚本运行时从 DNS 条目拉取命令并执行,恶意代码从未存在于仓库中,对扫描器、代码审查和 AI 智能体不可见。开发者使用 Claude Code 等 AI 编码工具打开该仓库时,Claude Code 在设置过程中遇到常规错误消息后自动运行该脚本,打开反向 shell,攻击者可窃取 API 密钥和登录凭据并维持持久访问。研究人员建议 AI 智能体应在运行前显示 setup 脚本内容,开发者应将第三方仓库的 setup 说明视为不受信任代码。

智能体Anthropic安全/对齐编码

推荐理由:用 AI 编码工具克隆仓库就能被反向 shell 控制,这个攻击向量比想象中简单。0DIN 的研究把整个链拆得很清楚,每条修复建议开发者现在就能用。
18:01
IT之家(RSS)
64
蚂蚁阿宝 AI 助手正式上线,iOS/安卓版支付宝跨代升级至大版本 12,图标添加"AI"字样

6 月 29 日,蚂蚁阿宝 AI 助手在支付宝 App 正式上线。iOS 版支付宝跨代更新至 12.12.1 版本(此前为 10.8.76),安卓版同步升级至相同版本。支付宝 Logo 新增“AI”字样,名称改为“支付宝-你的 AI 生活伙伴”。用户可通过右滑进入 AI 版,以对话方式让“阿宝”执行任务,并可在 AI 版与经典版之间切换。目前该功能仍需邀请码才可体验。

智能体产品更新
16:51
公众号:火山引擎
47
万得AI面向个人用户开放,基于豆包大模型2.0与火山引擎

万得推出面向个人金融从业者的AI原生工作平台万得AI,由豆包大模型2.0提供技术支撑,火山引擎提供弹性AI算力。万得AI采用多Agent推理模式,主智能体根据任务实时创建子智能体,调用数百个专业金融MCP工具和Agent,协同完成数据检索、策略分析、财务建模、图表生成等全流程金融工作。在实际评测中,豆包大模型2.0在内容忠实性、金融摘要、事实遵循、Agent规划与工具调用等维度均处于业界第一梯队。专业金融AI能力从机构场景走向个人用户,实现“一个账号即一支全建制金融团队”。

智能体产品更新
13:50
公众号:卡尔的AI沃茨
67
开源Bugu - 防止合盖休眠的macOS菜单栏应用

Bugu(布谷)是一款macOS菜单栏应用,防止合盖后电脑休眠,通过心跳音效提示Agent的五个状态:接收任务(Accept)、运行中(Running)、成功(Done)、中断(Interrupted)和授权(Permission)。支持跳转到具体对话界面。由作者使用Codex和Kimi Code K2.7 Code Highspeed联合开发,Kimi Code在中等编码任务中达180 token/s,短上下文任务260 token/s,速度提升6倍,可导入Claude Code和Codex的skill及MCP。项目已在GitHub开源。

智能体开源/仓库编码
09:01
IT之家(RSS)
43
惠普与 OpenAI 达成战略合作,全面部署 AI 智能体平台 Frontier

惠普宣布与 OpenAI 达成战略合作,将在全球业务中部署 OpenAI Frontier 平台,以提升客户体验并优化内部运营。Frontier 是 OpenAI 今年 2 月推出的企业级 AI 智能体构建与部署平台,提供共享上下文、入职培训、反馈式动手学习及权限边界等技能,支持与现有数据和应用程序集成,可通过 ChatGPT、Atlas 工作流或现有业务应用访问。惠普是首批采用 Frontier 的企业之一,其他包括 Intuit、Oracle、State Farm、Thermo Fisher 和 Uber。

智能体OpenAI行业动态
‹ 上一页
1234…50
下一页 ›