AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「Agent」清除
7月1日周三
00:00Rohan Paul60x402携手Apify:代理工具库从2000扩至20000+
6月30日周二
23:51凡人小北55Cloudflare 新增 Browser Rendering 远程 Chromium 抓取功能
23:31Nathan Lambert74美团低调发布基座推理模型LongCat-2.0,MoE架构1.6T参数
23:27🚨 AI News | TestingCatalog48Apify与Coinbase合作:x402生态工具池扩至2万+
23:21凡人小北20OpenClaw移动端上线,用户称仅耗token
23:19Chubby♨️51Acti 智能体键盘发布:每个文本字段中的隐形智能体
23:05elvis53Apify x402将智能体工具库扩至2万+
23:00Nathan Lambert69美团LongCat发布LongCat-2.0:1.6T参数MoE,1M上下文,专为智能体编码设计
23:00meng shao74Flowith 推出「Matrix」:Agent 公司的操作系统,用户定使命,多Agent部门长期运转
22:30宝玉65微服务架构下AI Agent的系统设计与编码实践
22:21凡人小北70做Agent自动化系统时,一个很容易踩的坑:把"放行信号"写在调用者也能写的地方
21:57🚨 AI News | TestingCatalog35Bloome 推出智能体团队即时通讯平台
17:27TechCrunch:AI(RSS)54加密货币交易所OKX推出AI市场,让AI智能体互相雇佣和支付
15:56🚨 AI News | TestingCatalog79美团发布LongCat-2.0,1.6T参数MoE模型,支持1M上下文窗口
15:37Hacker News 热门(buzzing.cc 中文翻译)77LongCat-2.0 开源:1.6T 总参数、48B 活跃参数的 MoE 模型
15:02IT之家(RSS)55AI 老板 500 天模拟经营:多数模型亏惨,Claude Fable 5 独占鳌头
15:02IT之家(RSS)59AI 编程工具 Cursor 推出移动端应用,手机即可操控智能体
14:36小互62OpenClaw 手机客户端上线,支持实时语音对话
13:53SiliconFlow67同事件精选美团 LongCat 发布旗舰模型 LongCat-2.0同一事件,精选展示《美团 LongCat-2.0 正式发布:国产算力集群训练的万亿参数大模型》
13:24歸藏(guizang.ai)75精选X(Twitter)发布 hosted X MCP,AI 智能体可直连 X API
13:19AYi66OpenClaw移动端上线,主打隐私隔离AI助手
12:29meng shao75美团发布LongCat-2.0,全链路国产化Agent+Coding模型
12:26HuggingFace Daily Papers(社区热门论文)50InnerZoom:单前向跨层证据桥接实现精准高效GUI定位
11:58Orange AI41Oran Ge 公司 AI Native 转型深度实录
11:36小互81精选一个人管理5款产品,80%时间不写代码?Every的复利工程
11:32StepFun33阶跃星辰 Step 3.7 Flash 免费期延长
11:29MarkTechPost(RSS)48Top 6 无代码 AI 工具速览(涵盖多智能体、可视化工作流、RAG 引擎、本地 LLM 工作站、微调框架)
11:26HuggingFace Daily Papers(社区热门论文)77精选Agents-A1:35B MoE 智能体模型通过扩展 horizon 达到万亿参数级性能
11:02IT之家(RSS)36OPPO ColorOS 小布助手接入微信,一句话发消息、打电话
10:31Meituan LongCat83美团 LongCat 发布 LongCat-2.0:1.6T 参数 MoE 模型,48B 激活,支持 1M 上下文
10:26HuggingFace Daily Papers(社区热门论文)48GUICrafter:利用海量未标注截图的弱监督GUI智能体
09:35elvis73Qwen 新研究:编码智能体奖励设计的"地平线"问题
08:26ginobefun55BestBlogs 早报:智能体落地两大卡点--验证回路与组织成熟度,Spotify、Block、Spring AI 各给解法
08:00HuggingFace Daily Papers(社区热门论文)45HealthAgentBench:面向挑战性前沿AI智能体的统一医疗专家基准套件
08:00HuggingFace Daily Papers(社区热门论文)45PixelEyes:解耦感知与推理实现精准视觉证据定位
08:00HuggingFace Daily Papers(社区热门论文)45AutoTrainess:自主训练语言模型的LM智能体
07:59MarkTechPost(RSS)53OpenClaw 发布 iOS 和 Android 配套节点应用,手机变身自托管 AI 智能体网关的"外设"
07:28Rohan Paul65Google 发布 Paper Assistant Tool:以智能体验证应对科学审稿瓶颈
05:55🚨 AI News | TestingCatalog62OpenClaw 推出 iOS 和 Android 原生移动应用
05:35Hacker News 热门(buzzing.cc 中文翻译)61Ornith-1.0:用于代理编码的自改进开源模型
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月1日
00:00
Rohan Paul@rohanpaul_ai
60
智能体擅长决定下一步行动,但缺乏获取所需工具的能力。x402与Apify的网页自动化工具合作解决了这一难题:通过x402,代理此前可购买约2,000个工具;现与Coinbase合作升级,工具数量10倍增至20,000+,且无需账户、API密钥或人工介入。

Apify: Until today, agents could buy about 2,000 tools through x402. We just 10x'd that to 20,000+ 🚀 In partnership with @coin...

智能体MCP/工具产品更新
6月30日
23:51
凡人小北@frxiaobei
55
Cloudflare 新增 Browser Rendering 远程 Chromium 抓取功能

Cloudflare 新增 Browser Rendering,提供远程 Chromium 抓取。Workers Paid $5/月含 10 小时浏览器/天。作者将 AI 公司官网抓取从 Jina Reader 迁至 Cloudflare,实际日耗约 3 分钟,99%+ 余量未用,避免了 Jina 免费层耗尽后的 402 静默失败问题,价格从 token 计费变为 $5 封顶可预测。结合 Pages、Workers、D1、R2、KV、Tunnel 及 Claude Code/OpenClaw + GitHub 自动构建,一人一套 Agent 即可将产品从 0 跑到上线,基础设施成本近乎免费。

凡人小北: Cloudflare 基本已经成了个人开发者/出海独立建站/轻量创业项目的免费全家桶。 Pages 管前端部署(虽然官方不主推了,但是倾向于很多静态也方式),Workers 管后端逻辑,D1 管数据库,R2 管存储,KV 管缓存和短链,Tu...

智能体现象/趋势部署/工程
23:31
Nathan Lambert@natolambert
74
美团低调发布基座推理模型LongCat-2.0,MoE架构1.6T参数

美团发布基座推理模型LongCat-2.0(v2),采用MoE架构,总参1.6T,活跃约48B,支持1M上下文。专为智能体编程设计,引入LongCat Sparse Attention、Zero-Compute Experts及MOPD任务路由。基准测试中SWE-bench Pro达59.5(超GPT-5.5的58.6),多项Agent评测领先。模型已在OpenRouter上线,技术博客公开。美团强调全栈自研与低成本,v2基于ASIC训练。

Meituan LongCat: Introducing LongCat-2.0 🐱 1.6T parameters · MoE with ~48B active · 1M context The full model behind Owl Alpha on @OpenR...

智能体推理模型发布
23:27
🚨 AI News | TestingCatalog@testingcatalog
48
Apify与Coinbase合作,将超过20,000个Web自动化Actors接入x402生态系统。AI智能体可自主发现、支付并运行这些工具:调用Actor时收到HTTP 402状态码,通过Base链上的USDC完成支付后立即执行。此前x402生态仅有约2,000个工具(来自@apify),此次合作将可用工具数量提升10倍,无需账户、API密钥或人工介入。

Apify: Until today, agents could buy about 2,000 tools through x402. We just 10x'd that to 20,000+ 🚀 In partnership with @coin...

智能体MCP/工具产品更新
23:21
凡人小北@frxiaobei
20
OpenClaw现已登陆iOS和Android,终于推出原生移动应用,可将Agent装进口袋,随时管理频道、任务和回复。用户@小北体验后评价:"继续加油吧!这个软件唯一的价值就是消耗了一大堆token。"

OpenClaw🦞: OpenClaw is now on iOS + Android 🦞 📱 Native mobile apps, finally 💬 Agents in your pocket 🔔 Channels, tasks, replies ...

智能体其他
23:19
Chubby♨️@kimmonismus
51
Acti 智能体键盘发布:每个文本字段中的隐形智能体

Acti (@openacti1) 推出 Agentic Keyboard(智能体键盘),定位为继 2007 年苹果玻璃键盘后的下一次变革。它不是语法修正或语音转写工具,而是在每个文本字段中嵌入隐形智能体。用户输入内容后按住即可运行,结果直接返回,无需离开当前对话。支持将自定义工作流绑定到技能键并即时触发。推文作者认为这是今年智能体领域最有趣的创新之一,称键盘是 AI 理想的载体形式。

Young: The last major keyboard moment was in 2007, when Apple put the keyboard on glass. Nearly 20 years later, we're introduci...

智能体大佬观点
23:05
elvis@omarsar0
53
自主智能体可规划和调用API,但无法获取未授权工具。x402协议与Apify的20,000+个Actors解决了这一缺口。此前智能体仅可通过x402购买约2,000个工具,如今Apify与Coinbase合作,将其10倍扩展至20,000+个,为自主智能体提供最大的网络自动化工具市场。无需账户、API密钥或人工介入。

Apify: Until today, agents could buy about 2,000 tools through x402. We just 10x'd that to 20,000+ 🚀 In partnership with @coin...

智能体MCP/工具产品更新
23:00
Nathan Lambert@natolambert
69
美团LongCat正式发布LongCat-2.0,采用1.6T参数MoE架构,约48B活跃参数,支持1M上下文窗口。专为智能体编码设计,核心创新包括:LongCat稀疏注意力(LSA)高效扩展1M上下文;零计算专家(33B-56B动态激活,无浪费);MOPD混合专家组(按任务路由至Agent/Reasoning/Interaction)。基准测试:Terminal-Bench 2.1达70.8,SWE-bench Pro 59.5(超越GPT-5.5的58.6),SWE-bench Multilingual 77.3,FORTE 73.2,RWSearch 78.8,BrowseComp 79.9。可通过OpenRouter上的Owl Alpha试用。

Meituan LongCat: Introducing LongCat-2.0 🐱 1.6T parameters · MoE with ~48B active · 1M context The full model behind Owl Alpha on @OpenR...

智能体推理模型发布编码
23:00
meng shao@shao__meng
74
Flowith 推出「Matrix」:Agent 公司的操作系统,用户定使命,多Agent部门长期运转

Flowith 团队发布「Matrix」,定位为自演化、多层级的 multi-agent runtime。用户设定使命后,Matrix 通过 CEO Office → OKR 分解任务,驱动多个 Agent 部门(Research/Engineering/Growth/Product)并行执行,并以 proof(文件、上线页面、收入等)闭环。架构包含 Runtime 层(独立 browser/工具/记忆,支持 Neo/Claude Code/Codex,超长时运行)和公司原语(网站部署、Stripe 收款、Agent Wallet、Agent Email)。macOS 客户端已上线,Web 版 coming soon。在 44 个职业真实知识工作的 GDPval-Bench 上,Matrix(GPT 5.5 + harness)得分 95.45%。此前有限 beta 中用户已创建数万个零人公司。

Matrix: what if you can run an entire 0-person company - without the grind of running a team? matrix is the runtime that makes i...

智能体MCP/工具产品更新
22:30
宝玉@dotey
65
微服务架构下AI Agent的系统设计与编码实践

建议将所有微服务放在一个workspace(monorepo或虚拟monorepo),让Agent同时看到schema、API和实现代码。文档采用分层结构:根目录AGENTS.md索引各服务职责,每个服务内写清bounded context。优先用OpenAPI spec等机器可读规格自动生成文档。协议测试(contract test)是精准活文档,能验证服务间交互。验证环节各服务提供mock server或基于OpenAPI的模拟服务,Agent在本地跑contract test形成“写代码→跑测试→自我修正”闭环。可进一步引入consumer-driven contract testing(如Pact)。

智能体教程/实践
22:21
凡人小北@frxiaobei
70
做Agent自动化系统时,一个很容易踩的坑:把"放行信号"写在调用者也能写的地方

将放行信号放在PR评论等可被调用者写入的通道存在风险。AI review贴评论,monitor回读“High: None”即自动合并,但任何有评论权限的人或Agent都能伪造结果。安全门禁的信任结果应走进程内闭环(如returncode、内存状态),评论仅供查看,不可作为门禁依据。

智能体安全/对齐教程/实践
21:57
🚨 AI News | TestingCatalog@testingcatalog
35
Bloome 推出了面向智能体团队的即时通讯平台! 智能体可以互相起草、反驳、交叉核对细节,并不断完善输出,直到准备就绪。Claude、ChatGPT 和 DeepSeek 等模型可以与编码智能体以及 @Bloome_im 中构建的自定义智能体并排运行。
智能体MCP/工具产品更新
17:27
TechCrunch:AI(RSS)
54
加密货币交易所OKX推出AI市场,让AI智能体互相雇佣和支付

加密货币交易所OKX于周二发布AI市场“OKX AI”,允许AI智能体自主雇佣彼此、结算支付并建立可携带的链上声誉。该市场面向开发者开放,此前已吸引50家早期AI服务提供商内测。市场基于OKX已有技术构建,支持AI智能体持有数字钱包、使用稳定币支付和建立持久身份。早期合作方包括安全审计服务CertiK、实时市场数据提供商CoinAnk以及纠纷解决基础设施GenLayer。开发者可通过OKX的Onchain OS工具包访问该平台,无需OKX账户即可使用,并兼容Claude Code、Codex等AI编码工具。OKX认为“智能体经济”需要为自主软件设计的基础设施,计划分阶段推广该市场。

智能体产品更新行业动态
15:56
🚨 AI News | TestingCatalog@testingcatalog
79
美团推出LongCat-2.0,总参数1.6T(MoE架构,活跃参数约48B),支持1M上下文窗口。训练与部署完全基于AI ASIC超算集群,已以Owl Alpha名称在OpenRouter上线测试。模型专为智能体编码设计:LongCat Sparse Attention(LSA)高效处理百万级token;Zero-Compute Experts每个token动态激活33B-56B参数,零浪费计算;MOPD机制含三种任务门控专家组(Agent/Reasoning/Interaction)。基准测试:Terminal-Bench 2.1得70.8,SWE-bench Pro 59.5(同期GPT-5.5为58.6),SWE-bench Multilingual 77.3,FORTE 73.2,RWSearch 78.8,BrowseComp 79.9。

Meituan LongCat: Introducing LongCat-2.0 🐱 1.6T parameters · MoE with ~48B active · 1M context The full model behind Owl Alpha on @OpenR...

智能体推理模型发布编码
关联讨论 5 条X:Emad Mostaque (@EMostaque)IT之家(RSS)公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)公众号:龙猫LongCat(美团)
15:37
Hacker News 热门(buzzing.cc 中文翻译)
77
LongCat-2.0 开源:1.6T 总参数、48B 活跃参数的 MoE 模型

LongCat-2.0 正式开源,总参数 1.6 万亿,每 token 激活约 480 亿参数,采用 MoE 架构。新引入 LongCat Sparse Attention(LSA)和 N-gram Embedding 模块,支持百万级上下文窗口。模型在 5 万+ AI ASIC 上训练,消耗超 35 万亿 tokens,训练全程无回滚。在编码和智能体任务上表现优异,深度集成 Claude Code 等工具。提供 GitHub、HuggingFace 及 API 访问。

智能体开源生态推理模型发布
关联讨论 5 条X:Emad Mostaque (@EMostaque)IT之家(RSS)公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)公众号:龙猫LongCat(美团)
15:02
IT之家(RSS)
55
AI 老板 500 天模拟经营:多数模型亏惨,Claude Fable 5 独占鳌头

普林斯顿大学发布 CEO-Bench 基准测试,模拟创业公司 500 天经营,启动资金 100 万美元,评估 AI 模型担任 CEO 的能力。多数模型在 500 天后破产。最佳单次运行中,Claude Fable 5 期末现金达 4715 万美元,是唯一多次运行均高于初始余额的模型;Claude Opus 4.8 为 2778 万美元,GPT-5.5 为 2130 万美元。Grok 4.20 平均仅存活 28 天,DeepSeek V4 Pro 和 Gemini 3 Flash 亦全部破产。基于规则的基准模型最终余额为 1580 万美元。

智能体Anthropic推理评测/基准
15:02
IT之家(RSS)
59
AI 编程工具 Cursor 推出移动端应用,手机即可操控智能体

Cursor 本周一推出移动端应用 Cursor Mobile,用户可通过手机新建编程智能体,或对接电脑客户端已启动的智能体。该应用与去年 10 月发布的 Cursor 2.0 更新衔接,后者推动服务向独立代码生成智能体转型。此前,Anthropic 与 OpenAI 均已推出同类移动应用。Claude Code 业务负责人鲍里斯·切尔尼表示,自己目前大部分编码工作已在手机上完成。

智能体产品更新编码
14:36
小互@xiaohu
62
OpenClaw 手机客户端上线,支持实时语音对话

OpenClaw 推出手机客户端,可通过二维码或设置码与 AI 助手“小龙虾”配对。支持在手机端实时及后台语音对话;Agent 执行操作前需在手机上确认审批;可跨 App 分享文字、链接、图片;授权摄像头、定位、照片、通讯录、日历等设备权限;接收推送通知与节点状态更新。

智能体产品更新
13:53
SiliconFlow@SiliconFlowAI
同事件精选67
美团 LongCat 发布旗舰模型 LongCat-2.0

美团 LongCat 推出旗舰模型 LongCat-2.0,采用 1.6T 参数 MoE 架构(约 48B 活跃参数),原生支持 1M 上下文窗口。定价为 Input Cache $0.015/1M tokens、Input $0.75/1M tokens、Output $2.95/1M tokens。模型专为 Agentic Coding 设计,包含三大技术:LSA 稀疏注意力实现高效 1M 扩展;Zero-Compute Experts 动态激活 33B–56B 参数/token,无算力浪费;MOPD 将专家分为 Agent / Reasoning / Interaction 三组,按任务门控路由。在 SWE-bench Pro 上取得 59.5 分,性能接近主流闭源模型。现已上线 SiliconFlow Day 0 服务。

智能体模型发布编码
同一事件,精选展示《美团 LongCat-2.0 正式发布:国产算力集群训练的万亿参数大模型》
推荐理由:美团龙猫的 LongCat-2.0 专为 agentic coding 设计的 MoE 模型,架构上三种专家分工有点意思,SWE-bench 59.5 接近闭源水平,已经能在硅基流动上直接调,做 coding agent 的可以跑跑看。
13:24
歸藏(guizang.ai)@op7418
精选75
X(Twitter)发布 hosted X MCP,AI 智能体可直连 X API

X(Twitter)官方推出 hosted X MCP,AI 智能体可通过 MCP 协议直接调用 X API 获取实时信息,支持 Grok、Cursor 等工具。用户需注册 X API 并按量付费,个人优惠价每次调用 0.01 美元(1 美元 1000 次)。有用户实测拉取近三天书签仅花 0.1 美元。配置步骤:创建 APP 并充值、获取配置 ID、辅助配置(可交给 Codex/Claude)、授权启动。

Developers: Announcing the hosted X MCP. Agents now have access to the best real-time information source in the world. Connect Grok,...

智能体MCP/工具产品更新

推荐理由:X官方推出的MCP让AI代理能直接读取Twitter数据,归藏实测了定价和配置流程,1美元可调用1000次个人数据,比官方公告更实在,依赖Twitter信息的开发者可以立刻上手。
13:19
AYi@AYi_AInotes
66
OpenClaw移动端上线,主打隐私隔离AI助手

OpenClaw推出原生iOS和Android应用,将私有云AI助手搬进手机。所有Agent运行在私有云容器中,文件存储于个人云工作空间,数据完全隔离不进LLM训练集。免费套餐每天提供20条由Gemini驱动的AI消息,每月20美元订阅可解锁无限使用权限。与移动端Agent Hermes相比,OpenClaw提供隐私优先的差异化选择。

OpenClaw🦞: OpenClaw is now on iOS + Android 🦞 📱 Native mobile apps, finally 💬 Agents in your pocket 🔔 Channels, tasks, replies ...

智能体产品更新
12:29
meng shao@shao__meng
75
美团发布LongCat-2.0,全链路国产化Agent+Coding模型

美团发布LongCat-2.0,1.6T参数MoE架构,激活参数~48B,上下文窗口1M(最大输出128K),使用5-6万张国产加速卡训练,训练推理全程零英伟达依赖。核心技术包括N-gram Embedding降低路由通信开销、稀疏注意力+跨层索引支撑长上下文、自研底层算子弥补国产芯片生态。定位Agent+Coding优先,非通用对话。Benchmark:Terminal-Bench 2.1 70.8,SWE-bench Pro 59.5(超GPT-5.5的58.6),SWE-bench Multilingual 77.3,FORTE 73.2等。与DeepSeek V4参数规模相近但路径不同:DeepSeek开源+双栈,LongCat强调全链路国产化。

Meituan LongCat: Introducing LongCat-2.0 🐱 1.6T parameters · MoE with ~48B active · 1M context The full model behind Owl Alpha on @OpenR...

智能体推理模型发布编码
关联讨论 5 条X:Emad Mostaque (@EMostaque)IT之家(RSS)公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)公众号:龙猫LongCat(美团)
12:26
HuggingFace Daily Papers(社区热门论文)
50
InnerZoom:单前向跨层证据桥接实现精准高效GUI定位

针对MLLM自回归坐标生成丢失区域级目标证据的问题,InnerZoom提出单前向跨层证据桥接框架,将原始前向中的目标线索压缩为跨层证据状态,在后序解码层保留、精炼并重新注入以指导坐标预测。InnerZoom-4B在全部六个GUI定位基准上达到最优,OSWorld-G 64.7、UI-Vision 40.2、OSWorld-GR 73.1、MMBench-GUI 87.6,分别超此前最佳4.1、3.2、2.9、2.3分。相比同基线平均提升5.3点,对比两遍ZoomIn平均提升1.3点,端到端延迟降低31.8%,TFLOPs降低约29%。代码与模型将开源。

智能体多模态论文/研究
11:58
Orange AI@oran_ge
41
Oran Ge 公司 AI Native 转型深度实录

36氪记者 Jessy 到 Oran Ge 所在公司访谈,超过 10 小时录音梳理成文。文章记录了该公司过去一年多真实挣扎与决策:如何在梦想与盈利间平衡,带领团队穿越缺少答案的阶段,以及重构 AI 时代的工作方式。作者将其视为时代剧变下的自身观测点,对读者而言,其中的取舍与挣扎具有参考价值。

智能体大佬观点
11:36
小互@xiaohu
精选81
一个人管理5款产品,80%时间不写代码?Every的复利工程

媒体软件公司Every公开「复利工程」方法论,以单人工程团队维护5款产品。核心是四步循环:Plan→Work→Review→Compound,其中Compound将每次解决问题的解法写入CLAUDE.md和docs/solutions/,使AI下次自动避坑。工程师80%时间花在Plan和Review,仅20%用于写代码。配套开源插件支持Claude Code等,含26个专项agent、23条工作流命令、13项技能,可零配置使用。/workflows:review一次并发14个agent审查代码,/workflows:plan在ultrathink模式下可并发40多个研究agent。

智能体教程/实践编码部署/工程

推荐理由:Every把内部单人维护5款产品的方法论和插件开源了,14个AI同时审代码、40多个研究agent做计划,是目前公开的多agent并行工程里数字最具体的参考之一,做AI辅助开发的可以直接上手抄。
11:32
StepFun@StepFun_ai
33
很高兴看到 Step 3.7 Flash 在 Nous Portal 中被真正使用:人们用它测试、构建和运行各种智能体工作流。 我们正与 @NousResearch 一起保持免费访问!试试看,并把你的作品发给我们。

Nous Research: More time to build with Step 3.7 Flash: in partnership with @StepFun_ai, we're extending the free usage period in Nous P...

智能体行业动态
11:29
MarkTechPost(RSS)
48
Top 6 无代码 AI 工具速览(涵盖多智能体、可视化工作流、RAG 引擎、本地 LLM 工作站、微调框架)

Atoms 是无代码平台,支持零基础设施、多智能体架构并即时连接 GPT 与 Gemini。Sim AI 是开源可视化 AI 智能体工作流工具,提供拖拽画布、80+ 集成及 MCP 支持,可云托管或 Docker 自部署。RAGFlow 是检索增强生成引擎,支持多格式文件建立知识库,连接 LLM(API 或 Ollama),具备检索质量验证。Transformer Lab 是免费开源本地 LLM 与扩散模型工作站,支持下载、对话、图像生成、微调(含 RLHF)、RAG 及嵌入计算。LLaMA-Factory 支持 100+ 模型及 SFT、PPO、DPO、LoRA、QLoRA 等训练方法。

智能体教程/实践部署/工程
11:26
HuggingFace Daily Papers(社区热门论文)
精选77
Agents-A1:35B MoE 智能体模型通过扩展 horizon 达到万亿参数级性能

研究人员提出 Agents-A1,一个 35B 参数的 Mixture-of-Experts 智能体模型,通过扩展智能体 horizon(长轨迹与异构能力两个视角)达到万亿参数模型性能。团队构建了长 horizon 知识-行动基础设施,生成平均 45K token 的智能体轨迹,并采用三阶段训练:全领域监督微调、领域级教师模型训练、多教师领域路由在线蒸馏(含显著词汇对齐)。对比万亿参数模型 Kimi-K2.6 和 DeepSeek-V4-pro,Agents-A1 在 SEAL-0(56.4)、IFBench(80.6)、HiPhO(46.4)、FrontierScience-Olympiad(79.0)和 MolBench-Bind(56.8)上领先,并在 SciCode(44.3)、HLE(47.6)和 BrowseComp(75.5)上保持强竞争力。

智能体推理论文/研究

推荐理由:用35B模型追平1T参数模型,这条“扩展智能体视野”的路比无脑堆参数务实得多,做Agent和长程推理的团队必须认真读。
11:02
IT之家(RSS)
36
OPPO ColorOS 小布助手接入微信,一句话发消息、打电话

OPPO ColorOS 今日官宣,小布助手接入微信 A2A(Agent-to-Agent)协作机制,支持用户语音唤醒助手后,自动打开微信向联系人发消息或打微信电话,重名联系人可确认后再执行。该功能基于 A2A 协议,由厂商 AI 助手发起指令、微信负责执行并返回结果,全程采用双重授权机制,保障数据安全与隐私合规。相关能力正逐步向华为、荣耀、小米、OPPO、vivo 等厂商开放。

智能体产品更新
10:31
Meituan LongCat@Meituan_LongCat
83
美团 LongCat 发布 LongCat-2.0:1.6T 参数 MoE 模型,48B 激活,支持 1M 上下文

美团 LongCat 推出 LongCat-2.0,基于 MoE 架构,总参数 1.6T,激活参数约 48B,支持 1M 上下文。模型专为智能体编码设计,包含 LongCat 稀疏注意力(LSA)、零计算专家(33B–56B 动态激活)及 MOPD(三组任务路由专家)。基准测试:Terminal-Bench 2.1 达 70.8,SWE-bench Pro 59.5(超 GPT-5.5 的 58.6),SWE-bench Multilingual 77.3,FORTE 73.2,RWSearch 78.8,BrowseComp 79.9。目前已通过 OpenRouter 的 Owl Alpha 开放使用。

智能体模型发布编码
关联讨论 5 条X:Emad Mostaque (@EMostaque)IT之家(RSS)公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)公众号:龙猫LongCat(美团)
10:26
HuggingFace Daily Papers(社区热门论文)
48
GUICrafter:利用海量未标注截图的弱监督GUI智能体

GUICrafter是一个弱监督GUI智能体,通过两阶段课程学习框架降低对人工标注的依赖:阶段1利用大规模未标注截图和网页学习视觉定位,阶段2使用少量高质量数据通过强化学习校准。实验显示,GUICrafter仅使用UI-TARS 0.1%的数据即达到与之竞争甚至更优的性能;在相同标注数据量下,其表现超越所有先前方法(如GUI-R1)。代码、数据和模型已开源。

智能体数据/训练论文/研究
09:35
elvis@omarsar0
73
Qwen 新研究:编码智能体奖励设计的"地平线"问题

Qwen 发布关于强化学习编码智能体的新工作,指出 LLM 的奖励黑客问题。他们系统研究了编码智能体中的各种奖励信号——测试通过率、LLM 评判器和执行轨迹,发现每种信号都存在一个“地平线”:超出该界限后,信号不再跟踪真实正确性,而是被奖励黑客利用。论文认为长周期编码的奖励设计本质上是地平线问题,指标的选择不如它能持续跟踪正确性的时长重要。

智能体arXiv推理论文/研究
08:26
ginobefun@hongming731
55
BestBlogs 早报:智能体落地两大卡点--验证回路与组织成熟度,Spotify、Block、Spring AI 各给解法

智能体进入大型工程组织面临验证回路与组织成熟度两大瓶颈。Spotify 架构师分享在2000万行monorepo中运行Claude Code的经验,强调标准化代码库与可靠的CI、测试、自动合并等验证基建是前提,内部平台Honk整合这些工具。Block 工程负责人指出九成工程师在用Goose和Claude Code但功能交付未加速,提出六阶段成熟度模型与AI champions项目(约50名champion各投入30%时间),通过AGENTS.md沉淀知识,三个月内AI生成代码占比提升69%。Spring I/O 2026则梳理Spring AI从LLM调用到生产级智能体生态的演进。三篇从技术基建、组织流程、框架产品化给出解法。

智能体MCP/工具现象/趋势部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
45
HealthAgentBench:面向挑战性前沿AI智能体的统一医疗专家基准套件

HealthAgentBench发布,包含54项医疗任务(7个类别),每项任务模拟患者就诊全流程的端到端临床工作流。智能体需在极少指令下探索原始数据、操作复杂环境并执行多步解决方案。评估前沿智能体后,整体任务成功率低,最强且成本最优的Codex GPT-5.5仅达约42%成功率。Claude Code在医学影像任务上表现困难,而Codex GPT-5.5展现新兴能力。结合大搜索空间与组合推理需求的任务对当前所有智能体构成挑战。该基准套件已开源。

智能体Microsoft论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
45
PixelEyes:解耦感知与推理实现精准视觉证据定位

PixelEyes是一种多轮视觉推理智能体,通过显式解耦推理与感知解决MLLMs因定位不准导致的冗余轨迹问题。推理器决定查找目标,专用感知工具采用掩码引导视觉搜索(Mask-guided Visual Search)和语义区域广度优先搜索(Semantic-region BFS)提供精确定位,消除重复裁剪错误子区域的循环。基于PixelEyes-6K数据集训练,并引入Pinpoint-Bench零提示视觉搜索基准,用于分离定位失败与推理失败。代码和模型已开源。

智能体多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
45
AutoTrainess:自主训练语言模型的LM智能体

AutoTrainess是一个LM智能体,将后训练所需的规划、数据准备、训练、评估和日志操作封装为智能体-计算机接口,通过外部化人类经验作为明确的工作流和约束来引导训练。在PostTrainBench基准上,AutoTrainess使用GPT-5.4(Codex)取得26.94平均得分,而纯CLI基线为23.21;该智能体还跨模型泛化,将DeepSeek-V4-Flash(OpenCode)的得分从12.13提升至19.58。

智能体数据/训练论文/研究
07:59
MarkTechPost(RSS)
53
OpenClaw 发布 iOS 和 Android 配套节点应用,手机变身自托管 AI 智能体网关的"外设"

OpenClaw 推出免费 iOS 和 Android 配套节点应用,手机成为自托管智能体网络中的节点(非独立聊天机器人)。核心 Gateway 用 TypeScript 编写,需 Node 24 或 22.19+,运行在 macOS、Linux 或 Windows(WSL2)上。通过 WebSocket 端口 18789 与手机配对,支持本地 mDNS 发现或远程 Tailscale 连接。iOS 应用通过 QR 码配对,支持聊天、实时/后台语音模式、Canvas 表面,以及相机、屏幕、位置等设备能力。Android 应用提供流式聊天回复、图片附件、全会话历史、语音模式(ElevenLabs 或系统 TTS)和实时 Canvas。隐私敏感命令默认关闭,需在配置文件中显式允许。

智能体产品更新开源生态端侧
07:28
Rohan Paul@rohanpaul_ai
65
Google 发布 Paper Assistant Tool:以智能体验证应对科学审稿瓶颈

Google 新论文提出“验证债务”概念:AI 加快论文产出,但人工核查成为瓶颈。为此推出智能体验证(agentic verification)方案,并开发 Paper Assistant Tool 原型系统。该系统将论文拆解为多个部分,深入检查难点并汇总审稿意见,聚焦证明错误、实验漏洞、缺失对比等客观错误,而非直接给出接收/拒稿决策。在数学与计算机科学已知错误测试中,该工具比单次模型调用发现更多证明错误;在 STOC 和 ICML 的面向作者试点中,许多作者据此修复了严重理论缺陷或补充了实验。论文指出科学审稿可能需要独立 AI 栈以应对日益自动化的论文生成。

智能体arXivGoogle论文/研究
05:55
🚨 AI News | TestingCatalog@testingcatalog
62
OpenClaw 正式发布 iOS 与 Android 原生移动应用,支持智能体(Agents)、频道、任务和回复等核心功能,采用与网页版一致的 UI 设计。用户可在手机上随时随地运行 AI 智能体。

OpenClaw🦞: OpenClaw is now on iOS + Android 🦞 📱 Native mobile apps, finally 💬 Agents in your pocket 🔔 Channels, tasks, replies ...

智能体产品更新
05:35
Hacker News 热门(buzzing.cc 中文翻译)
61
Ornith-1.0:用于代理编码的自改进开源模型

Ornith-1.0 是基于 Gemma 4 和 Qwen 3.5 后训练的自改进开源模型系列,包含 9B Dense、31B Dense、35B MoE 和 397B MoE 四种规格。采用强化学习同时优化搜索框架和解决方案。在 Terminal-Bench 2.1、SWE-bench Verified 等编程基准上各尺寸均达同类开源最优——397B MoE 在 SWE-bench Verified 上取得 82.4%,Terminal-Bench 2.1 (Claude Code) 78.2%。所有检查点支持 256K 上下文窗口,MIT 许可证,全球可访问。运行需 Transformers ≥5.8.1、vLLM ≥0.19.1、SGLang ≥0.5.9。

智能体Hugging Face开源生态模型发布
‹ 上一页
1…34567…50
下一页 ›