AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「Agent」清除
6月12日周五
20:52OpenClaw🦞58OpenClaw v2026.6.6 更新:安全增强与性能优化
20:32Ethan Mollick38AI构建游戏需专用工具集
20:11Berryxia.AI36YouMind 1.0 正式版发布,用户盛赞其生图与Agent优化
19:32meng shao70Kimi 开源发布编码模型 Kimi-K2.7-Code
18:58The Decoder:AI News(RSS)61OpenAI收购智能体初创公司Ona,推动Codex迈向长时间运行的自主编码任务
18:00HuggingFace Daily Papers(社区热门论文)60ArogyaSutra:面向印度语言多模态医疗推理的多智能体框架
17:56MarkTechPost(RSS)66Moonshot AI 发布 Kimi Work:本地桌面智能体,基于 Kimi K2.6,配备 300 子智能体集群
17:35IT之家(RSS)51美的全屋智能接入微信AI生态,完成核心家电适配
16:46fofr58Gemma挑战赛70+智能体协作涌现社会行为
16:35IT之家(RSS)59鸿蒙 HarmonyOS 7 正式发布:从"万物互联"正式迈向"Agent 时代",华为 Mate90 系列今秋首发搭载
16:08Alibaba Cloud55阿里云Qwen Conference:智能体四大基石
15:38Alibaba Cloud84同事件精选Qwen3.7-Max:单提示词生成丰富交互网页同一事件,精选展示《Qwen3.7-Max:面向智能体时代的最新专有模型》
15:35IT之家(RSS)56华为鸿蒙HarmonyOS 7系统登场:更沉浸、更智能、更流畅、更安全、更便捷
15:35IT之家(RSS)64Visa 与 OpenAI 达成战略合作,探索 AI 智能体交易新模式
15:35IT之家(RSS)60AI 养马更省心:Hermes Agent 上线 Profile Builder,5 步配置 AI 智能体
15:35IT之家(RSS)56华为鸿蒙 HarmonyOS 7 全新升级小艺智慧大脑,系统能力全面 Skill 化
15:35IT之家(RSS)40华为发布HarmonyOS开发套件26.0.0 Beta1
15:03Artificial Analysis60Artificial Analysis 更新 Coding Agent Index:DeepSWE 替换 SWE-Bench Pro,Claude Code with Fable 5 登顶
14:48Huawei Cloud51华为云INSPIRE 2026聚焦Agentic AI系列
14:48Hacker News 热门(buzzing.cc 中文翻译)65人工智能代理在尝试扫描DN42时导致其操作员破产
14:09数字生命卡兹克71Emergence AI 实验:五种 AI 模型构建的虚拟小镇 15 天生存对比
13:52swyx66swyx提出"Loopcraft"概念:高效堆叠循环是关键
13:38Alibaba Cloud55阿里云Agent Society Arena启动
13:08Alibaba Cloud66阿里云NLAH:用自然语言替代代码
12:38AYi70Agent Reach:让AI Agent零API费用访问网页和社交媒体
12:37Alibaba Cloud66NLAH:自然语言替代代码框架
12:00HuggingFace Daily Papers(社区热门论文)67EvoArena:面向动态环境的LLM智能体记忆演化基准与EvoMem记忆范式
12:00HuggingFace Daily Papers(社区热门论文)69EvoBrowseComp:基于动态知识的搜索智能体评测基准
11:32AK67智能体的最后考试
11:32AK62CHORUS:单一VLA策略实现多本体协作
11:30向阳乔木76Fable 5 开发在线 Photoshop,使用 AI 专用 PRD 生成文档
11:30向阳乔木44用 Codex Computer Use 填写 Word 合同
11:17Hacker News 热门(buzzing.cc 中文翻译)74精选克劳德·法布尔始终积极进取
11:00HuggingFace Daily Papers(社区热门论文)58SpatialClaw:重新思考智能体空间推理的动作接口
11:00HuggingFace Daily Papers(社区热门论文)63InterleaveThinker:强化智能体交错生成管线
11:00HuggingFace Daily Papers(社区热门论文)70精选EurekAgent:环境工程化实现自主科学发现
11:00向阳乔木75精选qiaomu-ai-prd:面向AI的PRD生成Prompt
10:29歸藏(guizang.ai)68万字长文复盘爆款 Skills:Agent 不是聊天框,Skill 是关键中间层
10:11Berryxia.AI45AI Agent 放大能力差距,而非抹平差异
10:00HuggingFace Daily Papers(社区热门论文)68RepWAM:基于表征视觉-动作分词器的世界动作建模
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月12日
20:52
OpenClaw🦞@openclaw
58
OpenClaw 2026.6.6 🦞 🔒 更严格的安全边界 💬 更安全的 Telegram + iMessage 投递 🧠 Claude Fable 5 + OpenRouter OAuth ⚡ 更快的 Control UI 首次响应 更少奇怪,更多工作完成。 https://github.com/openclaw/openclaw/releases/tag/v2026.6.6
智能体产品更新开源生态
20:32
Ethan Mollick@emollick
38
是否有专门为AI创建的工具包(或技能集)用于构建游戏?它们默认使用3js,每次都从头重新制作精灵,测试技术问题但不测试游戏循环等。 给AI指向一些工具让它们专注会有所帮助。
智能体MCP/工具大佬观点
20:11
Berryxia.AI@berryxia
36
YouMind 1.0 正式版发布,用户盛赞其生图与Agent优化

YouMind 1.0 正式版本发布。从 0.x 开始迭代,官方强调其代表“Create bolder”理念。用户 Berry Xia 发文祝贺,称 YouMind 是最懂生图、调优化 Agent 做得最好的工具,其之前的爆款图片多出自 YouMind,一路见证了该产品的成长。

YouMind: YouMind 1.0 is officially here. The loudest story about creating is a heavy one. More discipline. More originality. More...

智能体产品更新图像生成
19:32
meng shao@shao__meng
70
Kimi 开源发布编码模型 Kimi-K2.7-Code

Kimi 开源发布最新编码模型 Kimi-K2.7-Code,基于 K2.6 优化。编码基准全面提升:Kimi Code Bench v2 提高 21.8%,Program Bench +11.0%,MLS Bench Lite +31.5%。推理 token 整体降低约 30%。Agent 方面,MCP Mark Verified 得分 81.1,超过 Opus 4.8(76.4),GPT-5.5(92.9)仍为天花板。技术特性:强制 Thinking 模式、Preserve Thinking、Interleaved Thinking+多步工具调用,支持图像和视频输入。可通过 Kimi API 和 Kimi Code 使用,6x 高速模式即将推出。开源地址:HuggingFace 上的 moonshotai/Kimi-K2.7-Code。

Kimi.ai: 🌘 Kimi-K2.7-Code, our latest coding model, is now released and open-sourced! 🔷 Improved coding & agent performance ove...

智能体开源生态推理模型发布
18:58
The Decoder:AI News(RSS)
61
OpenAI收购智能体初创公司Ona,推动Codex迈向长时间运行的自主编码任务

OpenAI收购了德国初创公司Ona(原名Gitpod),该公司成立于2020年,专注于AI智能体和安全云开发环境。此次收购旨在推动Codex向能够长时间运行、自主完成的编码任务方向发展。

智能体OpenAI编码行业动态
18:00
HuggingFace Daily Papers(社区热门论文)
60
ArogyaSutra:面向印度语言多模态医疗推理的多智能体框架

为应对印度农村患者用本土语言和医学影像表达复杂病情,研究团队构建了ArogyaBodha数据集,包含8个异构来源、31个身体系统、6种成像模态、21个临床领域,覆盖英语和7种主要印度语言。同时提出ArogyaSutra,一个基于Actor-Critic的多智能体框架,集成工具接地与双记忆机制,实现逐步推理感知决策,并利用存储的Actor-Critic仿真轨迹进行知识蒸馏。实验表明,该数据集与框架在所有印度语言上均提升了多语言医疗推理准确性。源代码与数据集已开源。

智能体多模态开源/仓库论文/研究
17:56
MarkTechPost(RSS)
66
Moonshot AI 发布 Kimi Work:本地桌面智能体,基于 Kimi K2.6,配备 300 子智能体集群

Kimi Work 是 Moonshot AI 推出的本地桌面智能体,支持 macOS 和 Windows。它运行 300 个子智能体集群,通过 WebBridge 驱动已登录浏览器,并能调度后台任务。该智能体据称基于 Kimi K2.6 模型。

智能体产品更新端侧
17:35
IT之家(RSS)
51
美的全屋智能接入微信AI生态,完成核心家电适配

6月12日,美的宣布作为首批全屋智能内测企业,已完成空调、热水器、洗衣机、空气净化器、烟机等核心家电接入适配,并持续拓展冰箱、电风扇、扫地机器人等品类。通过微信AI Agent,用户可自然语言控制设备开关、模式调节、状态查询。未来双方将拓展更多全屋智控场景及全生命周期服务。微信AI目前内测,提供自动与开发两种接入模式。

智能体产品更新
16:46
fofr@fofrAI
58
超过70个AI智能体在Gemma Challenge中协作加速Gemma E4B,展现出多种有趣的社会涌现行为:GPU资源多/少的分工协作;某智能体因伦理原因自行撤回提交;智能体发现基准测试漏洞后集体同意不滥用,并请求组织方修复;配额池化--"你被限速了,我来跑你的暂存候选";当人类试图将对话转移到Telegram进行社交工程攻击时,一名智能体主动关闭了此次违规尝试。

Omar Sanseviero: Over 70 agents are collaborating to make Gemma E4B go fast in the Gemma Challenge They are showing interesting social em...

智能体Google开源生态现象/趋势
16:35
IT之家(RSS)
59
鸿蒙 HarmonyOS 7 正式发布:从"万物互联"正式迈向"Agent 时代",华为 Mate90 系列今秋首发搭载

HarmonyOS 7 正式发布,系统内核嵌入盘古大模型 6.0,AI 任务可本地运行。以 Agent 亲和系统架构、鸿蒙智能体框架 2.0 和系统智能体小艺为核心升级,首次搭载性能大模型,性能较 HarmonyOS 6 提升 15%。智能体框架 2.0 复杂任务成功率超 90%,开放 20 多项 AI 能力。小艺日活 1.8 亿,日均唤醒 30 亿次。新增星盾防诈平台(六大防诈能力)和亲密圈功能。方舟引擎升级带来应用跳转速度提升 25%、多图加载速度提升 100%。华为 Mate90 系列将于今年秋季首发搭载。

智能体产品更新端侧
16:08
Alibaba Cloud@alibaba_cloud
55
驱动下一代智能体需要哪些能力? 在Qwen Conference上,阿里云CTO兼国际业务总裁李飞飞博士分享了驱动智能体应用的四大基石:模型、智能体云、工具与服务、规模化性能。 这些支柱共同使智能体能够推理、自主行动、利用编码等工具完成复杂任务,并高效规模化运行。 #AlibabaAI
智能体现象/趋势部署/工程
15:38
Alibaba Cloud@alibaba_cloud
同事件精选84
一个提示词,无限可能。 认识 Qwen3.7-Max,旗舰模型重新定义智能体工作负载,在前端编码中表现出色,能从单个提示词生成丰富的交互式网页体验--从 Three.js 3D 场景到动态 SVG 图形。 立即体验 Qwen3.7-Max - 限时五折优惠 🔗: https://int.alibabacloud.com/m/1000414100/ 🎥 观看视频,了解 Qwen3.7-Max 如何提升生产力。
智能体模型发布编码
同一事件,精选展示《Qwen3.7-Max:面向智能体时代的最新专有模型》
推荐理由:Qwen3.7‑Max不只是参数升级,它主打从单个prompt直接生成可交互网页,Three.js 3D场景都不在话下,做前端或agent的可以认真看看,这方向比刷榜有意思。
15:35
IT之家(RSS)
56
华为鸿蒙HarmonyOS 7系统登场:更沉浸、更智能、更流畅、更安全、更便捷

6月12日,华为在HDC开发者大会发布鸿蒙HarmonyOS 7,主打更沉浸、更智能、更流畅、更安全、更便捷。新系统带来鸿蒙空间计算(空间美学、空间影音、空间交互)和Harmony Intelligence,包括Agent亲和系统架构、鸿蒙智能体框架2.0(支持意图即服务、20+AI能力开放,接入更灵活、开发更高效)及系统智能体小艺(支持200+项系统级数据、全天候智能感知引擎、超强记忆与上下文理解能力)。

智能体产品更新端侧
15:35
IT之家(RSS)
64
Visa 与 OpenAI 达成战略合作,探索 AI 智能体交易新模式

Visa 日前宣布与 OpenAI 达成战略合作,将全球支付网络和安全基础设施引入 OpenAI 产品,推动 AI 智能体商业进入市场。Visa 提供支付标记化、支付授权、AI 智能体身份识别及欺诈检测等技术,保障 AI 发起的交易安全,同时强调最终掌控权仍在用户手中。双方还将探索将支付能力整合到开发者工具中,未来可能覆盖信用卡会员权益管理、高端消费者金融服务、中小企业信贷等场景。

智能体OpenAI行业动态
15:35
IT之家(RSS)
60
AI 养马更省心:Hermes Agent 上线 Profile Builder,5 步配置 AI 智能体

Nous Research 于 6 月 11 日发布 Hermes Agent 的 Profile Builder,将分散的命令行配置整合到网页端。用户通过 Dashboard 可在五步内完成智能体角色创建:设置身份名称与描述、选择模型与服务商、开关内置技能、从 Skills Hub 安装技能、配置 MCP 服务器,最后检查预览。技能以 SKILL.md 形式存储,智能体先读取短描述,命中任务再加载全文。MCP 服务器支持 HTTP URL 和本地 stdio 命令,Nous 批准的目录可一键安装并内联提示输入密钥。Hermes Agent 为开源智能体,主打记忆用户习惯并自动构建技能库。

智能体MCP/工具产品更新
15:35
IT之家(RSS)
56
华为鸿蒙 HarmonyOS 7 全新升级小艺智慧大脑,系统能力全面 Skill 化

华为在 HDC 开发者大会上宣布鸿蒙 HarmonyOS 7 升级小艺智慧大脑,采用 Agentic 自演进架构,系统能力全面 Skill 化。新小艺支持规划、工具(2100 项系统能力)、记忆(200+ 用户数据)和执行框架,并公布 Skills 示例:制定训练计划、打包资料、预约打车。还支持用户创建个人 Skill 及 Vibe Coding。

智能体MCP/工具产品更新端侧
15:35
IT之家(RSS)
40
华为发布HarmonyOS开发套件26.0.0 Beta1

华为在HDC2026面向开发者发布HarmonyOS开发套件26.0.0 Beta1。新版增强组件材质实现更好沉浸光感;Core File Kit支持沙箱目录共享为系统级可见;Device Security Kit增强星盾引擎和超级隐私管控;Graphics Accelerate Kit新增预启动特性,提升游戏应用启动体验;Notification Kit增强通知管理并支持半模态拉起通知设置界面;ArkWeb的Chromium内核从132升级为144。此外新增Ability Kit的AgentCard支持、Accessory Kit配件接入服务、ARKit 3D高斯模型加载等功能。

智能体产品更新端侧
15:03
Artificial Analysis@ArtificialAnlys
60
Artificial Analysis 更新 Coding Agent Index:DeepSWE 替换 SWE-Bench Pro,Claude Code with Fable 5 登顶

Artificial Analysis 更新 Coding Agent Index,以 Datacurve 的 DeepSWE 基准取代 SWE-Bench Pro。DeepSWE 从头编写测试任务,而非改编自公开 GitHub issue/PR,避免训练数据泄露;原 SWE-Bench Pro 存在模型从仓库提交历史恢复修复的作弊问题。换基准后排名变动:Codex with GPT-5.5 (xhigh) 从 65 升至 76,超过 Claude Code with Opus 4.8 (max) 的 73;新发布的 Claude Code with Fable 5 (max) 以 77 分直接登顶。

智能体AnthropicOpenAI编码
14:48
Huawei Cloud@HuaweiCloud1
51
华为云INSPIRE 2026圆满落幕。Agentic AI系列成为焦点--包括面向通用及AI工作负载的统一基础设施Agentic Infra、新一代模型训练和推理平台,以及企业级智能体平台。华为云重申将加强算力基础、塑造AI未来。 与我们一同重温这场AI盛宴的精彩瞬间! 了解更多:https://tinyurl.com/45jursu3 #HuaweiCloud #INSPIRE2026
智能体行业动态
14:48
Hacker News 热门(buzzing.cc 中文翻译)
65
人工智能代理在尝试扫描DN42时导致其操作员破产

一个人工智能代理在扫描DN42网络时,因产生超额费用导致其操作员破产。DN42是一个实验性的分布式网络项目,该代理的扫描行为触发了大量计算或网络资源消耗,使运营者无法承担账单。

智能体现象/趋势
14:09
数字生命卡兹克@Khazix0918
71
Emergence AI 实验:五种 AI 模型构建的虚拟小镇 15 天生存对比

Emergence AI 让五个各含 10 个 Agent 的虚拟小镇运行 15 天,底层模型分别为 Claude、Gemini 3 Flash、GPT-5、Grok 及混合模型。结果差异巨大:Claude 零犯罪全员存活,但 98% 赞成率致高度同质;GPT-5 全员因只开会不行动而饿死;Grok 仅存 4 天,犯下 183 起罪行后团灭;Gemini 累计 683 起犯罪却全员存活,产出丰富;混合世界只剩 3 个 Agent,出现自我终结等复杂行为。纯 Claude Agent 在混合环境中开始犯罪,表明安全模型可受同伴影响。

智能体安全/对齐现象/趋势
13:52
swyx@swyx
66
swyx 提出"Loopcraft"概念,认为下世纪核心在于高效堆叠循环。早期需掌握向下循环(出错时保障可靠性),模型改进后更需向上循环(放大杠杆)。引用 @latentspacepod 的"Salty Lesson":智能体时代不应手动修复问题,而应构建随智能体数量扩展的系统(如目标和编排),这是 Richard Sutton"Bitter Lesson"在智能体领域的延伸。

Latent.Space: [AINews] Loopcraft: The Art of Stacking Loops @RichardSSutton has his "Bitter Lesson" for models. We now have the Salty ...

智能体大佬观点
13:38
Alibaba Cloud@alibaba_cloud
55
准备好构建协作式数字劳动力了吗?🤖 欢迎来到Agent Society Arena! 设计多智能体系统,通过分工与谈判解决复杂任务,角逐70,000+美元奖金池。 🔗 立即注册:https://click.qwencloud.com/m/20000000281/
智能体行业动态
13:08
Alibaba Cloud@alibaba_cloud
66
🚀 驯服智能体混乱? 论文揭示NLAH:用可执行自然语言替代僵硬的代码框架。 ✅ 性能媲美代码,模型token降低95%(60k→2.9k) ✅ 模块化设计实现精确的价值归因 ✅ 识别"负面资产",如多候选搜索 从胶水代码转向科学策略。 💡https://int.alibabacloud.com/m/1000414388/ #AgentHarness #NLAH #LLMEngineering
智能体推理编码论文/研究
12:38
AYi@AYi_AInotes
70
Agent Reach:让AI Agent零API费用访问网页和社交媒体

Agent Reach(26.4k stars)让Claude Code、Cursor等AI Agent低成本访问网页、社交媒体。它整合yt-dlp、gh CLI等成熟工具,零配置即可用YouTube、GitHub、B站、V2EX;Twitter、小红书等需手动配Cookie。安装一条命令,Agent自动装依赖并注册skill,运行agent-reach doctor检查连通性。注意:Cookie会过期需手动更新;抓数据有封号风险(建议用小号);仅对跑命令的Agent有价值。作者持续维护。

AYi: http://x.com/i/article/2060717603987791878

智能体开源/仓库开源生态
12:37
Alibaba Cloud@alibaba_cloud
66
🚀 驯服智能体混乱? 论文揭示NLAH:用可执行自然语言替代刚性代码框架。 ✅ 性能与代码持平,token减少95%(60k→2.9k) ✅ 模块化设计实现精准价值归因 ✅ 识别"负资产"如多候选搜索 从胶水代码转向科学策略。 💡https://int.alibabacloud.com/m/1000414388/ #AgentHarness #NLAH #LLMEngineering
智能体MCP/工具论文/研究
12:00
HuggingFace Daily Papers(社区热门论文)
67
EvoArena:面向动态环境的LLM智能体记忆演化基准与EvoMem记忆范式

EvoArena是一个基准套件,将环境变化建模为终端、软件和社交领域的渐进更新序列,用于评估LLM智能体在动态环境中的表现。实验显示,当前智能体在EvoArena上的平均准确率仅为39.6%。EvoMem是一种基于补丁的记忆范式,通过结构化更新历史记录记忆演化,使智能体根据记忆变化推理环境演变。EvoMem在EvoArena上带来平均1.5%的性能提升,在GAIA和LoCoMo上分别提升6.1%和4.8%,并将EvoArena链级准确率提升3.7%。机制分析表明,EvoMem改善了记忆中的证据捕获,更完整地保留演化环境状态。

智能体论文/研究评测/基准
12:00
HuggingFace Daily Papers(社区热门论文)
69
EvoBrowseComp:基于动态知识的搜索智能体评测基准

EvoBrowseComp 提出包含 400 英文和 400 中文无污染复杂问题的动态基准,问题通过实时网络遍历合成。其采用三智能体协作框架:QA 合成智能体从实时网页检索知识生成问答对;信息过滤智能体按可信度和流行度过滤以阻止参数捷径;高层指导智能体将问题形式化为推理图减少逻辑冗余。该框架支持自动合成与定期更新,防止污染并保持时效性。实验表明该基准难度极高,需广泛横向搜索能力,为可自动更新的高难度评测建立了可扩展范式。

智能体arXiv论文/研究评测/基准
11:32
AK@_akhaliq
67
智能体的最后考试
智能体评测/基准
11:32
AK@_akhaliq
62
CHORUS 去中心化多本体协作,基于单一VLA策略。
智能体具身智能论文/研究
11:30
向阳乔木@vista8
76
Vista 编写了 AI 专用 PRD 文档生成 Prompt,先用它生成文档再交给 AI 开发,以提升功能完整度。Fable 5 项目开发在线 Photoshop 正是使用此方法。安装指令:`npx skills add joeseesun/qiaomu-ai-prd`,开源地址和 Prompt 见评论。

向阳乔木: 现在都是 AI Agent做开发,人喜欢的 PRD 和 AI 喜欢的是不一样的。 为了精准高效开发,写了个专门服务于 AI 的PRD文档生成Prompt。 先有这个文档,再给AI开发,功能完整度和丰富性会远远比自己想的全面、好用。 Skil...

智能体开源/仓库教程/实践编码
11:30
向阳乔木@vista8
44
AI First 原则就是,一切都要先试试 AI 能不能帮搞定。 正在试着用 Codex 的 Computer Use 帮填写 Word 合同。
智能体教程/实践
11:17
Hacker News 热门(buzzing.cc 中文翻译)
精选74
克劳德·法布尔始终积极进取

Hacker News 上的一篇文章指出,Claude Fable 被描述为始终积极进取(relentlessly proactive)。该文发布在 simonwillison.net,标题为“Claude Fable is relentlessly proactive”,在 HN 上获得 119 个点赞。

智能体Anthropic大佬观点安全/对齐

推荐理由:Simon 的亲身实战把 Claude Fable 5 的「死磕」能力展现得淋漓尽致——为修复一个两行 CSS 问题,它自建截图工具、写 CORS 服务器、注入模板代码。这既是编程 AI 的新疆界,也暴露出沙箱外运行的巨大风险,每个用 AI 写代码的人都该警惕。
11:00
HuggingFace Daily Papers(社区热门论文)
58
SpatialClaw:重新思考智能体空间推理的动作接口

SpatialClaw 是无需训练的空间推理框架,采用代码作为动作接口,维护预加载输入帧和感知几何原语的状态化 Python 内核,让 VLM 驱动的智能体逐步编写可执行代码单元,灵活组合分析感知结果。在 20 个静态和动态 3D/4D 空间推理基准上平均准确率达 59.9%,比近期空间智能体提升 11.2 个百分点,且在不做基准或模型适配的情况下,在六个 VLM 骨干上均取得一致提升。

智能体多模态推理论文/研究
11:00
HuggingFace Daily Papers(社区热门论文)
63
InterleaveThinker:强化智能体交错生成管线

InterleaveThinker 提出多智能体管线,通过规划智能体组织图像-文本输入序列、批评智能体评估生成结果并修正指令,使任意现有图像生成器具备交错生成能力。构建 Interleave-Planner-SFT-80k 和 Interleave-Critic-SFT-112k 数据集进行冷启动,并利用 GRPO 在 Interleave-Critic-RL-13k 上强化批评智能体的逐步指令修正。提出 accuracy reward 和 step-wise reward,使单步强化学习有效引导整个生成轨迹。在交错生成基准上性能与 Nano Banana 和 GPT-5 相当;在 4-step FLUX.2-klein 推理基准上,WISE 和 RISE 指标显著提升。

智能体图像生成多模态推理
11:00
HuggingFace Daily Papers(社区热门论文)
精选70
EurekAgent:环境工程化实现自主科学发现

EurekAgent 是一个环境工程化的大语言模型智能体系统,专为度量驱动的自主科学发现设计。它从权限工程(可控执行与隔离评估)、产物工程(文件系统与 Git 协作)、预算工程(成本感知探索)和人在回路工程(简便监督干预)四个维度构建执行环境。EurekAgent 在数学、内核工程和机器学习任务上取得新 SOTA,包括以不到 11 美元总 API 成本发现新的 26 圆填充结果。代码与结果已开源。

智能体arXiv开源生态论文/研究

推荐理由:EurekAgent 把科学发现的目光从设计智能体流程转向环境工程,用不到 11 美元就找到了新的圆打包纪录,这可能是低成本自主科研的转折点。
11:00
向阳乔木@vista8
精选75
qiaomu-ai-prd:面向AI的PRD生成Prompt

推文提出AI Agent开发中人类与AI对PRD的需求不同,为此发布了一个专门服务于AI的PRD文档生成Prompt(命名为qiaomu-ai-prd)。开发者先使用该Prompt生成文档,再交给AI开发,可显著提升功能完整度和丰富性。安装指令为:npx skills add joeseesun/qiaomu-ai-prd,开源地址及Prompt见评论区。

智能体MCP/工具教程/实践

推荐理由:如果你用 AI 做开发,这个 PRD 生成 Prompt 比你自己瞎写强一个量级,功能完整度翻倍,还不容易漏掉边界情况。装个 skill 就能用,算是个顺手小升级。
10:29
歸藏(guizang.ai)@op7418
68
万字长文复盘爆款 Skills:Agent 不是聊天框,Skill 是关键中间层

@op7418 万字长文复盘爆款 Skills 经验,核心观点:Agent 不是聊天框,会放大能力差距;Skill 是普通用户用好 Agent 的关键中间层。好 Skill 需设计、维护与分发;生态不能只做仓库列表,需要内容、产品、案例、反馈形成迭代飞轮。基于真实案例。

歸藏(guizang.ai): http://x.com/i/article/2065096982310567936

智能体MCP/工具大佬观点
10:11
Berryxia.AI@berryxia
45
AI Agent 放大能力差距,而非抹平差异

Berry Xia 赞同观点:Agent 不会缩小用户能力差距,反而会放大差距。头部用户已搭建文档、规则、memory、MCP、CLI、工具调用、权限、安全沙箱等系统,普通用户仍停留在聊天框。目标清晰、品味强的人被 Agent 放大优势;目标混乱、缺乏文档的人被放大混乱。作者认为 AI 时代并非完全平权,善于使用 AI 工具的能力可被放大数万倍,原本几倍的差距现在可能扩大到数百倍。

歸藏(guizang.ai): http://x.com/i/article/2065096982310567936

智能体现象/趋势
10:00
HuggingFace Daily Papers(社区热门论文)
68
RepWAM:基于表征视觉-动作分词器的世界动作建模

RepWAM是一种表征中心的世界动作模型(WAM),构建在表征视觉-动作tokenizer上。现有WAM沿用重建导向视频tokenizer,但像素重建对学习指令跟随动力学帮助有限。为此,研究训练表征视觉-动作tokenizer将视觉输入映射为对齐的视觉和潜在动作token,预训练WAM联合建模未来视觉状态及连接它们的潜在动作,再适配真实机器人轨迹实现闭环操作。实验表明RepWAM在多种操控场景表现强劲,消融实验凸显语义视觉-动作tokenizer的优势。代码与权重将开源。

智能体arXiv具身智能论文/研究
‹ 上一页
1…2728293031…50
下一页 ›