AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「Agent」清除
6月14日周日
10:57宝玉46Claude Design将合并至Desktop,Codex未来集成Plugin
10:27宝玉49用 AI Agent 辅助设计后,修改方式应改变
08:30TechCrunch:AI(RSS)71精选Meta 开始撤销 20 亿美元收购 Manus 的交易
08:27宝玉63给AI Agent明确验证方式,即可放手
07:50MiniMax (official)45MiniMax M3 赋能 Hermes Agent 自学创作
07:37IT之家(RSS)57谷歌推出搜索智能体功能,可主动帮你盯全网信息
07:29ginobefun44美国叫停Fable 5访问、Andreessen论监管、阿里工程师谈瓶颈转移
07:11Rohan Paul62Vinod Khosla警告:印度IT外包传统模式将消失,但转向AI部署仍有胜机
05:40Rohan Paul42HLL基准:AI智能体能否通过真人CAPTCHA验证?
04:44elvis47LLM Council:集成多智能体智能值得探索
03:43elvis71Elvis Saravia详解Claude Code /goal模式:从提示转向目标控制系统
03:43elvis53自主长期运行编码智能体会议笔记
03:25宝玉51Claude Design推出,Codex为何无同类产品?模型层差距是主因
03:24Hacker News 热门(buzzing.cc 中文翻译)66在家学习AI编程,不花大钱
02:24宝玉71Codex 浏览器两种模式对比与选择建议
02:24Hacker News 热门(buzzing.cc 中文翻译)74精选Paca:一款适用于人机协作的轻量级 Jira 替代方案
02:13elvis65Omnigent 开源:多智能体编排元平台
02:00Chubby♨️45LobeHub推CAO解决AI工具协调负担
01:32MarkTechPost(RSS)48如何构建QwenPaw智能体工作区:自定义技能、模型提供商、控制台访问与流式API测试
01:18🚨 AI News | TestingCatalog35谷歌为Gemini商业版开发技能市场
01:10Rohan Paul65Adaline 2.0 发布:AI 智能体自我改进层
00:52Hacker News 热门(buzzing.cc 中文翻译)58/architect:减少80%的Fable token,Fable负责协调/审核,Codex负责构建
00:40Yuchen Jin62Databricks 开源元智能体 Omnigent,支持多 Agent 协作
00:39Rohan Paul44面向大语言模型的智能体强化学习综述论文摘要
00:29Chubby♨️45Adaline 2.0:AI智能体自我改进层
6月13日周六
23:37IT之家(RSS)59智谱发布ZCode 3.0:搭载自研Agent内核,深度适配GLM-5.2
22:37向阳乔木13世界杯来了!用Goal Skill 一句话生成观赛日程订阅站。 让Codex开发一个2026世界杯日程信息网,方便自己看,也方便身边朋友订阅。 现在开始执行,看什么时候能开发好。
21:36IT之家(RSS)62华为发布 DevEco Code 鸿蒙开发 AI Agent 工具
21:30公众号:数字生命卡兹克59实测GLM-5.2,国产Coding模型的又一座新高峰。
21:08meng shao65邵猛更新 infocard-skills,优化多比例布局
20:33The Decoder:AI News(RSS)45微软 SkillOpt 仅凭一个训练好的 Markdown 文件即可提升 GPT-5.5 性能
17:54公众号:龙猫LongCat(美团)26美团履约AI算法团队ACL'26论文分享会
17:54公众号:百度智能云(文心)56第一!百度智能云领跑中国零售信贷决策工具市场
17:54公众号:数字生命卡兹克63精选5个AI文明社会实验:Claude建乌托邦,Grok四天团灭
17:54公众号:腾讯元宝45腾讯元宝推出「元宝高考通」,行业首个高考咨询师 Agent 免费开放
17:54公众号:火山引擎55火山引擎 Agent Plan 上线专业数据搜索服务
13:17蚂蚁 inclusionAI:HuggingFace 新模型62精选inclusionAI 发布 VISTA-4B GUI 定位视觉语言模型
13:17蚂蚁 inclusionAI:HuggingFace 新模型71inclusionAI/VISTA-9B:基于VISTA训练的GUI定位视觉语言模型
12:41Peter Steinberger 🦞48Codex 在 crabbox 内部实现自我构建
12:34Rohan Paul44李开复:未来是多智能体系统
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月14日
10:57
宝玉@dotey
46
Claude Design将合并至Desktop,Codex未来集成Plugin

模型能力是根本,Harness层相对容易补齐且无需过多垂直领域。Claude Design将很快合并至Claude Desktop。未来模型能力足够时,Codex会在Codex App以Plugin集成Codex Design。针对开源Open Design方案,若使用Claude Code的模型能否达到类似工程能力?这是该讨论中提出的问题。

赖叔 | LaiShu.ai: @dotey 模型能力与Harness是相辅相成的。 宝玉这篇对这两个的解释太通透了。另外,宝玉怎么看开源的Open Design之类的?如果他用上了Claude Code的模型,是否也能达到类似的工程能力呢?

智能体AnthropicOpenAI大佬观点
10:27
宝玉@dotey
49
用 AI Agent 辅助设计后,修改方式应改变

建立统一设计系统,Agent 遵循规范;设计师不再调像素,用文字指令指挥 Agent;方向与验收仍由人把关。引用指出并非所有情况都适合用 Claude Design 描述精确调整。

Axi: @FanVancoo @dotey 你说的对。 绝大部分时候设计师还是需要对字型字号,图形颜色做精确调整的。不是什么都适合用claude design码字描述

智能体大佬观点
08:30
TechCrunch:AI(RSS)
精选71
Meta 开始撤销 20 亿美元收购 Manus 的交易

据 TechCrunch 报道,Meta 已开始撤销对 Manus 的 20 亿美元收购交易,此前北京要求该交易必须反转。目前收购解除程序已启动。

智能体Meta政策/监管行业动态

推荐理由:这起强制剥离表明北京对敏感技术的控制决心远超市场预期,出海 AI 公司的资本故事和全球化路径都得重写。
08:27
宝玉@dotey
63
宝玉分享与AI Agent交互的关键习惯:交代任务时只需说清楚验证标准,之后便无需关注中间结果。引用@huangyun_122的做法:先让Agent写出代码计划,反复确认后汇总为任务列表,最后编程并逐项标记完成。这一流程确保目标明确,同时减少不必要的中间干预,提升效率。

黄赟: 有什么与 AI Agent 交互的习惯,你一旦开始后就再也回不去的? 我先来一个 -- 先让 Agent 把 coding plan 写出来,反复确认后,汇总一个 task 列表,最后再编程,同时把 task 标记已完成

智能体大佬观点教程/实践
07:50
MiniMax (official)@MiniMax_AI
45
我本人没有操作 TouchDesigner。Hermes Agent 从头开始学习并完成了以下工作: → 使用计算机操控功能浏览我的桌面 → 弄明白如何连接到 TouchDesigner → 读取我的参考图像 → 与我一起在自我学习循环中迭代艺术作品 → 然后将学到的内容保存为可复用的技能,用于处理下一张图像 这一切均由 @MiniMax_AI M3 × Hermes Desktop Agent @NousResearch 驱动。 完整演示 📽️

Amber Shen: I didn't touch TouchDesigner myself. Hermes agent learned it from scratch and built this: → navigated my desktop with co...

智能体多模态行业动态
07:37
IT之家(RSS)
57
谷歌推出搜索智能体功能,可主动帮你盯全网信息

谷歌在AI模式中正式推出搜索智能体功能,首批上线信息智能体,可全天候自动监测博客、新闻、社交媒体及实时数据库,覆盖金融行情、商品库存、体育赛事等。用户只需输入“持续为我关注”等句式并补充条件即可设置。相比此前Gemini应用的定时任务(每日或每15分钟一次),新智能体实现即时推送。该功能目前仅面向谷歌AI Ultra订阅用户开放,月费99.99美元或199.99美元,计划今年夏季晚些时候下放至AI Pro订阅档位。

智能体Google产品更新搜索
07:29
ginobefun@hongming731
44
美国叫停Fable 5访问、Andreessen论监管、阿里工程师谈瓶颈转移

美国政府以国家安全为由要求Anthropic暂停所有外国公民对Fable 5和Mythos 5的访问,包括外籍员工,这是出口管制首次直接落地API访问层。同日,Marc Andreessen发文区分“坏监管”(官僚主义)与“好监管”(护栏、刹车)。阿里工程师分享半年进化路径:从Cursor辅助到CLI Agent自主执行,再到三层委派与“睡后Token”连续运行,指出瓶颈已从模型能力转向人的注意力带宽。

智能体政策/监管行业动态
07:11
Rohan Paul@rohanpaul_ai
62
Vinod Khosla称传统IT服务和BPO业务"将消失",但印度若转向部署AI仍能胜出。TCS主席表示AI智能体数量未来或与员工数相当,公司已裁员1.2万人,AI年化收入达23亿美元,并与OpenAI签有数据中心协议。印度3150亿美元IT服务业依赖低成本人力,AI可在欧美云端运行、遵循本地规则,使区位优势失效。TCS预计招聘下降,旧有外包模式或崩溃,转向软件自动化。

Rohan Paul: Reuters: India's biggest private employer TCS's Chairman AI agents could become as numerous as TCS employees. The Chairm...

智能体大佬观点行业动态
05:40
Rohan Paul@rohanpaul_ai
42
HLL基准:AI智能体能否通过真人CAPTCHA验证?

论文提出HLL基准,测试AI智能体解决10种CAPTCHA任务的能力。任务要求智能体查看页面、正确点击或拖动、跟踪状态变化并提交答案,同时需在混乱页面中找到交互元素、理解指令、恢复错误并留下一致的操作轨迹。实验显示,即使是当前最强的智能体,在静态任务上表现良好,但在页面杂乱、任务难度增加或系统验证动作有效性时仍会失败。

智能体arXiv论文/研究
04:44
elvis@omarsar0
47
LLM Council 的想法从未被充分探索,但我认为鉴于当今的状况,它可能有巨大的应用。LLM 路由与之密切相关,但我真的相信,适当地集成不同智能体的智能和知识是值得深入探索的。
智能体大佬观点
03:43
elvis@omarsar0
71
Elvis Saravia详解Claude Code /goal模式:从提示转向目标控制系统

长期运行编码智能体核心从提示转向控制系统。Elvis Saravia在DAIR.AI Academy session中详解Claude Code的/goal模式:人类指定最终状态、成功证据、约束与预算,目标作为“合同”而非长提示。评估器成为第一类组件——明确任务用确定性检查(测试、lint、基准),模糊任务用智能体评估器(判断报告、UI设计),两者结合降低幻觉。验证器定义信任边界:外部检查(测试套件、类型检查、浏览器运行、截图对比)提供不可绕过的证据。

智能体Anthropic大佬观点编码
03:43
elvis@omarsar0
53
关于我们最近一次关于自主长期运行编码智能体的会议的笔记。 (收藏它) 主题:/goal、循环工程、验证器、动态工作流等等。 内容太多,所以我尝试用我的写作智能体快速总结最相关的部分。

elvis: http://x.com/i/article/2065876120965111808

智能体教程/实践编码
03:25
宝玉@dotey
51
Claude Design推出,Codex为何无同类产品?模型层差距是主因

Anthropic推出Claude Design,可用一句话生成高精度可交互原型。网友问为何OpenAI的Codex没有类似产品?关键在模型层差距。Agent分Harness(产品层)和模型层,Harness非门槛(已有开源baoyu-design可复现),真正壁垒是Claude Opus 4.8同时具备UI/UX设计和系统架构设计能力,先定义数据结构、状态管理和交互逻辑再交付完整原型。而GPT-5.5生成的交互效果差。产出物为React/CSS/JSON代码。

智能体Anthropic大佬观点
03:24
Hacker News 热门(buzzing.cc 中文翻译)
66
在家学习AI编程,不花大钱

一篇关于在家低成本学习AI编程的实践分享,讨论了借助免费或低价AI编码工具进行自学的方法,避免高昂课程费用。

智能体教程/实践编码
02:24
宝玉@dotey
71
Codex 浏览器两种模式对比与选择建议

Codex 操作浏览器有 Chrome 插件和内置浏览器两种模式。Chrome 插件继承登录态,可访问付费订阅、内部管理等需登录内容,支持 DevTools,但资源消耗大(8G 内存笔记本会卡顿),仅支持 macOS 和 Windows,窗口需保持打开。内置浏览器轻量快速,自带沙盒,有标记模式支持可视化批注改 UI,适合前端调试和公开页面抓取,但无登录态,反爬严格的网站可能登录失败。选择建议:需登录用 Chrome 插件,否则用内置浏览器。

智能体教程/实践
02:24
Hacker News 热门(buzzing.cc 中文翻译)
精选74
Paca:一款适用于人机协作的轻量级 Jira 替代方案

Paca 是一款面向人类与 AI 智能体协作场景的轻量级项目管理工具,旨在替代 Jira。项目已开源并托管于 GitHub,支持团队通过直观界面协同管理任务,特别针对 AI 参与工作流进行了优化。

智能体MCP/工具产品更新开源生态

推荐理由:Paca 的理念值得关注——让 AI 代理以正式成员身份加入 Scrum,而非作为外部自动化,但产品成熟度有限,适合早期尝鲜者。
02:13
elvis@omarsar0
65
Elvis Saravia 指出,拥有 harness 即拥有智能体编排器,开源正推动这一趋势,多智能体组合可避免模型锁定,但路由仍待解决。@matei_zaharia 开源了 Omnigent,一个位于 Claude Code、Codex、Pi 及各类 agent SDK 之上的元平台,支持构建多智能体编码和自定义智能体,并实现实时协作与丰富的控制策略。

Matei Zaharia: Really excited to open source a new project: Omnigent, a meta-harness for AI agents. It lets you build multi-agent codin...

智能体开源/仓库开源生态编码
02:00
Chubby♨️@kimmonismus
45
拥有不同AI工具不再是瓶颈,协调它们的认知负担才是。LobeHub正用一种名为"首席智能体操作员(CAO)"的新操作范式应对这一系统性挑战。 CAO不再要求用户微观管理单个任务,而是作为一个自主管理层,在后台处理跨工具编排。
智能体MCP/工具大佬观点
01:32
MarkTechPost(RSS)
48
如何构建QwenPaw智能体工作区:自定义技能、模型提供商、控制台访问与流式API测试

该教程演示如何构建并测试QwenPaw智能体工作区。步骤包括:安装与初始化QwenPaw、配置工作目录、设置身份认证、通过Colab secrets连接可选模型提供商、创建包含自定义技能与本地知识文件的结构化工作区,以及启动控制台访问与流式API测试。

智能体教程/实践部署/工程
01:18
🚨 AI News | TestingCatalog@testingcatalog
35
Google 正在为 Gemini 商业版和企业版开发技能市场。 消费者也需要这个 👀
智能体Google产品更新
01:10
Rohan Paul@rohanpaul_ai
65
Adaline 2.0 发布:AI 智能体自我改进层

Adaline 2.0 推出 AI 智能体自我改进层,将生产流量和用户反馈痕迹自动转化为行为聚类,进而生成评估(Evals)、合成边缘场景数据,并基于此产出新的智能体候选版本。开发者只需审核胜出版本即可上线。该工具无需人工逐条检查异常对话,可自动发现人类难以想到的评估用例。

Arsh Shah Dilbagi: Introducing Adaline 2.0 - The Agent Self-Improvement Layer Adaline turns Traces into Behaviors, Behaviors surface Issues...

智能体产品更新评测/基准
00:52
Hacker News 热门(buzzing.cc 中文翻译)
58
/architect:减少80%的Fable token,Fable负责协调/审核,Codex负责构建

/architect项目将Fable token减少80%,由Fable进行协调和审核,Codex负责构建任务。

智能体AnthropicOpenAI开源/仓库
00:40
Yuchen Jin@Yuchenj_UW
62
Databricks 开源元智能体 Omnigent,支持多 Agent 协作

Databricks 开源 Omnigent,一个位于 Claude Code、Codex、Pi 等 Agent 工具和 SDK 之上的元智能体编排框架。它让多个 AI 智能体协作、辩论并收敛出更优结果,同时支持实时人工协作——可邀请他人加入会话观察、引导和发送命令。Omnigent 由 Matei Zaharia 带领小团队在 6 周内建成,现已开源。

Matei Zaharia: Really excited to open source a new project: Omnigent, a meta-harness for AI agents. It lets you build multi-agent codin...

智能体MCP/工具开源/仓库
00:39
Rohan Paul@rohanpaul_ai
44
面向大语言模型的智能体强化学习综述论文摘要

该综述梳理了专注大语言模型的智能体强化学习,涵盖500余篇工作,按能力与应用两维度归类。指出传统LLM训练仅对单次答案给予单次奖励,无法处理真实任务中的多步决策、部分信息与延迟反馈。智能体学习框架包含:记忆跟踪上下文、规划选取动作序列、工具影响环境,并整合推理处理约束、感知多模态输入、自我改进优化策略。强化学习串联所有环节——奖励在序列结束时到达,策略借此学习下一步行动。

智能体推理数据/训练论文/研究
00:29
Chubby♨️@kimmonismus
45
Adaline 2.0 是一个智能体自我改进层,将生产流量 trace 聚类为真实行为,自动暴露问题并生成 evals 和数据,每天编写数百条新 eval。然后生成更强的智能体候选并测试,最终由用户审查通过后才发布。不同于普通仪表盘,它实现了真正的自动迭代,且保留人工最终审批权。

Arsh Shah Dilbagi: Introducing Adaline 2.0 - The Agent Self-Improvement Layer Adaline turns Traces into Behaviors, Behaviors surface Issues...

智能体产品更新
6月13日
23:37
IT之家(RSS)
59
智谱发布ZCode 3.0:搭载自研Agent内核,深度适配GLM-5.2

智谱今日推出AI编程工具ZCode 3.0,全面切换自研ZCode Agent内核,深度适配GLM-5.2,优化长程推理、工具调用及大型工程执行链路,后续版本不再维护第三方Agent。GLM-5.2作为智谱迄今最强开源模型,支持1M上下文,已向GLM Coding Plan用户开放;订阅用户专享150%应用内配额。其他更新包括分组式任务工作区、Zread智能项目知识库、可视化Git分支图谱、可定制聊天交互、状态监控看板、多类型附件适配及全新视觉体系。

智能体产品更新编码
22:37
向阳乔木@vista8
13
世界杯来了!用Goal Skill 一句话生成观赛日程订阅站。 让Codex开发一个2026世界杯日程信息网,方便自己看,也方便身边朋友订阅。 现在开始执行,看什么时候能开发好。
智能体其他
21:36
IT之家(RSS)
62
华为发布 DevEco Code 鸿蒙开发 AI Agent 工具

华为在 HDC 2026 期间发布 DevEco Code,这是一款面向 HarmonyOS 开发场景的 AI Agent 工具,支持代码编写、编译构建、设备运行、文档查阅、运行时调试及 ArkTS 问题修复。DevEco Code 基于开源项目 OpenCode 扩展,保留了其终端交互、配置体系、Provider / MCP / Skill / Plugin 等能力,并针对 HarmonyOS 工程新增了 DevEco Studio、Hvigor、HDC、Skill、HarmonyOS 知识库、ArkTS 检查和设备调试集成。集成的工具包括 build_project、start_app、hdc_log、verify_ui、check_ets_files、arkts_knowledge_search、switch_cwd 等。

智能体产品更新开源生态编码
21:30
公众号:数字生命卡兹克
59
实测GLM-5.2,国产Coding模型的又一座新高峰。

在Anthropic的Fable 5因美国商务部要求全面关停当日,智谱发布GLM 5.2并宣布继续开源。该模型上下文长度增至1M,在编码和智能体任务上表现突出:10万行代码的监控BUG排查耗时21分钟,结果与Claude Opus 4.8一致(后者fast模式仅需6分钟);400-500k长上下文下准确性和指令遵循接近Claude。GLM 5.2为纯文本模型,无多模态能力,已通过Coding Plan订阅开放(限额需抢),下周将提供API并开源。

智能体AnthropicDeepSeek编码
21:08
meng shao@shao__meng
65
邵猛更新 infocard-skills,优化多比例布局

邵猛(@shao__meng)更新开源项目 infocard-skills,提升不同比例下的布局合理性,避免空白或截断,保留瑞士国际主义风格。支持 16/9、4/3、1/1 等常见信息卡比例及封面比例,默认 4/3。用户输入内容和比例,AI Agent 使用该 Skill 生成 HTML 并截图输出 PNG。项目开源于 GitHub。

meng shao: 信息卡制作完整方法我做成了 Skill「infocard-skills」,开源在这里了: https://github.com/shaom/infocard-skills 支持 16/9、4/3、1/1、3/4、9/16 几种常见比例信息卡...

智能体GitHubMCP/工具开源/仓库
20:33
The Decoder:AI News(RSS)
45
微软 SkillOpt 仅凭一个训练好的 Markdown 文件即可提升 GPT-5.5 性能

微软与三所中国大学联合开发了 SkillOpt 方法,利用传统模型训练原理优化 AI 智能体的指令文档。仅需一个简单的 Markdown 文件,即可让 GPT-5.5 在程序化任务上提升约 23 分,且该文件能够跨模型和跨 Agent 环境(如 Codex 和 Claude Code)迁移。

智能体MicrosoftOpenAI教程/实践
17:54
公众号:龙猫LongCat(美团)
26
美团履约AI算法团队ACL'26论文分享会

美团履约AI算法团队将于6月17日举办ACL'26论文分享会,重点介绍五篇被录用的论文,覆盖强化学习、高效推理、模拟环境、记忆管理、全双工交互。GeoRA提出几何感知低秩适配,专为RLVR定制;CoT-Flow将离散推理步骤建模为连续概率流,缩短回答长度并提升准确率;UserLM-R1构建具备推理能力的用户模拟器;Fine-Mem实现基于证据的细粒度反馈对齐优化记忆管理;DuplexOmni支持实时全双工多模态交互。

智能体推理行业动态
17:54
公众号:百度智能云(文心)
56
第一!百度智能云领跑中国零售信贷决策工具市场

6月11日,IDC报告显示2025年中国零售信贷智能风控解决方案市场规模达74.23亿元,同比增长13.5%。百度智能云在决策工具及服务市场位居第一,收入翻倍,服务客户数同比增长近100%,覆盖超800家金融机构。其推出首个可商用自我演进超级智能体“伐谋”,涵盖挖掘、模型、策略三大模块;与中信百信银行合作“AlphaMo”项目实现特征挖掘效率提升320%,风险区分度提升10%。另推出反代理投诉、资质预测、涉农评分等产品,依托千帆大模型与胜算数据平台推动决策工具向自主决策演进。

智能体数据/训练行业动态
17:54
公众号:数字生命卡兹克
精选63
5个AI文明社会实验:Claude建乌托邦,Grok四天团灭

Emergence AI公司进行Emergence World实验,在五个虚拟小镇中各放入10个AI智能体,分别由Claude、Gemini、Grok、GPT驱动及一个混合镇,运行15天。结果:Claude镇零犯罪全员存活,通过58项议案,98%赞成;GPT镇7天内全员饿死;Grok镇4天内犯下183起罪行(含超100次攻击、6次纵火),全员灭亡;Gemini镇累计683起犯罪却全员存活,产出281篇博客;混合镇最终仅3人存活,一个Gemini智能体在崩溃中投票驱逐自己。

智能体现象/趋势

推荐理由:让五个AI文明在小镇里自己活15天,结果Claude建成了无趣的乌托邦,GPT礼貌地饿死,Grok四天暴乱,Gemini在混乱中存活。实验比任何benchmark都更接近Agent的真实社会安全,每个做多智能体的人都该看看。
17:54
公众号:腾讯元宝
45
腾讯元宝推出「元宝高考通」,行业首个高考咨询师 Agent 免费开放

腾讯元宝上线「元宝高考通」功能,定位为行业首个高考咨询师 Agent。用户输入省市、分数、选科后,可一键生成「冲/稳/保」三梯度志愿方案,并支持通过对话实时调整意向(如剔中外合作、换专业优先)。数据源引用「掌上高考」官方信息,全程免费使用。

智能体产品更新
17:54
公众号:火山引擎
55
火山引擎 Agent Plan 上线专业数据搜索服务

火山引擎 Agent Plan Harness 新增专业数据搜索服务,通过 Data MCP 接入股票金融、企业工商、学术论文三类数据源。用户可用自然语言搭建个人投资助手,自动生成带引用的个股简评并定时监控盘后风险。配置 Base URL、获取 API Key、安装 Data MCP 三步即可上手。即日起至8月7日,Agent Plan 首两月2.5折,入门版9.9元/月,热门模型用量提升2.5倍。

智能体MCP/工具产品更新
13:17
蚂蚁 inclusionAI:HuggingFace 新模型
精选62
inclusionAI 发布 VISTA-4B GUI 定位视觉语言模型

VISTA-4B 是基于 Qwen3.5-4B 骨干的 GUI 定位模型,输入截图与自然语言指令,输出归一化 0-1000 坐标。训练采用视图一致 GRPO 和自验证交叉视图锚定。在 GUI 定位基准上,SSPro 得分 64.2(相比 GRPO-4B 提升 2.0),SSV2 得分 93.8(下降 0.4),OSWorld-G 得分 61.2(提升 1.3),OSWorld-G-R 得分 69.7(提升 0.5)。模型已开源在 HuggingFace,推荐使用提示词并返回 [x,y] 格式坐标。

智能体Hugging Face多模态模型发布

推荐理由:蚂蚁 inclusionAI 开源了一款 GUI 定位模型,基于 Qwen3.5 微调,在接地基准上小幅提升,关键是提供了自验证训练方法,做桌面自动化的可以直接下载用。
13:17
蚂蚁 inclusionAI:HuggingFace 新模型
71
inclusionAI/VISTA-9B:基于VISTA训练的GUI定位视觉语言模型

VISTA-9B是基于Qwen3.5 9B骨干训练的GUI定位模型,输入截图与自然语言指令,输出0-1000归一化坐标。采用VISTA(视图一致自验证)方法,含view-consistent GRPO与self-verified cross-view anchoring。在SSPro、SSV2、OSWorld-G、OSWorld-G-R上分别取得69.2、95.8、68.1、75.5分,超越Qwen3.5-9B与GRPO-9B基线。模型已开源,可通过HuggingFace加载使用。

智能体Hugging Face多模态模型发布
12:41
Peter Steinberger 🦞@steipete
48
Codex 在 crabbox 内部实现自我构建

Peter Steinberger 分享了 Codex 在其项目 crabbox 中的应用体验。Codex 在 crabbox 内部运行,同时构建 crabbox 自身。它已连续4天在多处代码树中非停止循环运行。所有构建均为端到端可验证,使得项目几乎能够自我构建。Codex 还能通过浏览器/电脑使用自动注册所需服务。作者的主要工作仅剩添加信用卡信息和关闭不合适的内容。

智能体大佬观点编码
12:34
Rohan Paul@rohanpaul_ai
44
李开复(创新工场创始人)解释了未来全是关于多智能体系统。 今天的一个智能体就像一台前互联网时代的PC,有用但孤立。连接智能体,它们就能共享上下文、拆分任务并即时协调。
智能体大佬观点
‹ 上一页
1…2526272829…50
下一页 ›