AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 2142 条
全部一手资讯X论文
标签「Agent」清除
6月13日周六
07:36IT之家(RSS)46IT早报0613:SpaceX上市、华为鸿蒙7发布、苹果Siri AI限制等
06:29GitHub Blog61精选GitHub Copilot CLI 在委托任务上变得更具选择性
06:26Claude Code:GitHub Releases(RSS)42Claude Code v2.1.176 发布
03:01HuggingFace Daily Papers(社区热门论文)66TRACE:将用户修正编译为运行时约束以改善编码智能体
03:01HuggingFace Daily Papers(社区热门论文)36异构智能体稠密潜在通信:See What I See, Know What I Think
02:48Hacker News 热门(buzzing.cc 中文翻译)70精选减少AI生成前端界面粗糙度的文章
01:01OpenAI:官网动态(RSS · 排除企业/客户案例)57精选OpenAI 推出面向新时代工作的新 Academy 课程
6月12日周五
23:36IT之家(RSS)74精选字节豆包上线"任务模式":支持定时执行与文件生成,"思考模式"升级为"专家模式"
23:35Artificial Intelligence News(RSS)46Coinbase for Agents:用AI自动化投资组合交易
21:18Hacker News 热门(buzzing.cc 中文翻译)77同事件精选Kimi K2.7-Code:具有更高模型 token 效率的开源编码模型同一事件,精选展示《6倍速!Kimi K2.7 Code 高速版已上线》
18:58The Decoder:AI News(RSS)61OpenAI收购智能体初创公司Ona,推动Codex迈向长时间运行的自主编码任务
18:00HuggingFace Daily Papers(社区热门论文)60ArogyaSutra:面向印度语言多模态医疗推理的多智能体框架
17:56MarkTechPost(RSS)66Moonshot AI 发布 Kimi Work:本地桌面智能体,基于 Kimi K2.6,配备 300 子智能体集群
17:35IT之家(RSS)51美的全屋智能接入微信AI生态,完成核心家电适配
16:35IT之家(RSS)59鸿蒙 HarmonyOS 7 正式发布:从"万物互联"正式迈向"Agent 时代",华为 Mate90 系列今秋首发搭载
15:35IT之家(RSS)56华为鸿蒙HarmonyOS 7系统登场:更沉浸、更智能、更流畅、更安全、更便捷
15:35IT之家(RSS)64Visa 与 OpenAI 达成战略合作,探索 AI 智能体交易新模式
15:35IT之家(RSS)60AI 养马更省心:Hermes Agent 上线 Profile Builder,5 步配置 AI 智能体
15:35IT之家(RSS)56华为鸿蒙 HarmonyOS 7 全新升级小艺智慧大脑,系统能力全面 Skill 化
15:35IT之家(RSS)40华为发布HarmonyOS开发套件26.0.0 Beta1
14:48Hacker News 热门(buzzing.cc 中文翻译)65人工智能代理在尝试扫描DN42时导致其操作员破产
12:00HuggingFace Daily Papers(社区热门论文)67EvoArena:面向动态环境的LLM智能体记忆演化基准与EvoMem记忆范式
12:00HuggingFace Daily Papers(社区热门论文)69EvoBrowseComp:基于动态知识的搜索智能体评测基准
11:17Hacker News 热门(buzzing.cc 中文翻译)74精选克劳德·法布尔始终积极进取
11:00HuggingFace Daily Papers(社区热门论文)58SpatialClaw:重新思考智能体空间推理的动作接口
11:00HuggingFace Daily Papers(社区热门论文)63InterleaveThinker:强化智能体交错生成管线
11:00HuggingFace Daily Papers(社区热门论文)70精选EurekAgent:环境工程化实现自主科学发现
10:00HuggingFace Daily Papers(社区热门论文)68RepWAM:基于表征视觉-动作分词器的世界动作建模
10:00HuggingFace Daily Papers(社区热门论文)62HarnessBridge:面向LLM智能体调控的可学习双向控制器
08:26Simon Willison 博客79Claude Fable 5 异常主动
08:00HuggingFace Daily Papers(社区热门论文)48Dr-DCI:检索器引导的动态工作空间扩展框架
08:00HuggingFace Daily Papers(社区热门论文)49PhoneHarness:混合GUI、CLI与工具动作的手机智能体基准与执行框架
08:00HuggingFace Daily Papers(社区热门论文)64Nemotron 3 Ultra:开放高效混合专家Mamba-Transformer智能体推理模型
08:00HuggingFace Daily Papers(社区热门论文)54FastContext:用于编码智能体的高效仓库探索子智能体
08:00HuggingFace Daily Papers(社区热门论文)35从聊天机器人到数字同事:持久自主AI的范式转变
08:00HuggingFace Daily Papers(社区热门论文)42HarnessX:一种可组合、自适应、可演化的智能体运行框架铸造厂
08:00HuggingFace Daily Papers(社区热门论文)54LLM 智能体能够查看代码仓库
07:34IT之家(RSS)44苹果 iPhone 17 标准版无缘高阶 Siri AI:8GB 内存限制端侧模型运行
07:34IT之家(RSS)61OpenAI 收购初创公司 Ona,强化编程助手 Codex
07:17Hacker News 热门(buzzing.cc 中文翻译)61FablePool:围绕提示语募集资金,Fable 在公开平台上构建产品
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月13日
07:36
IT之家(RSS)
46
IT早报0613:SpaceX上市、华为鸿蒙7发布、苹果Siri AI限制等

SpaceX以每股135美元IPO募资750亿美元,开盘涨11.11%,马斯克成全球首位万亿美元富豪。华为发布HarmonyOS 7,进入Agent时代,小艺升级为Agentic自演进架构;开源openPangu 2.0;鸿蒙6升级率98%;计划将开源鸿蒙优化到64KB内存可运行。苹果WWDC26发布的Siri AI仅限iPhone 15 Pro及以上、M1以上Mac/iPad。SK海力士计划赴纳斯达克上市。钉钉创始人无招卸任CEO。iPhone 18 Pro Max机模曝光深樱桃色、浅蓝、深灰版本。

智能体行业动态
06:29
GitHub Blog
精选61
GitHub Copilot CLI 在委托任务上变得更具选择性

GitHub Copilot CLI 通过更好的编排实现了更少的任务交接和更快的进度,且没有新增任何配置选项。

智能体GitHub产品更新

推荐理由:官方博客把子代理从默认操作变成了需要权衡的决策,23% 的工具失败减少和明显的等待时间下降,说明 AI 工具的体验升级不一定要加新按钮,改好调度逻辑一样有用。
06:26
Claude Code:GitHub Releases(RSS)
42
Claude Code v2.1.176 发布

Claude Code v2.1.176 更新:会话标题现按对话语言生成;新增 footerLinksRegexes 设置支持正则匹配页脚行链接徽章;优化 Bedrock 凭证缓存。修复多项问题:环境变量不可再绕过 availableModels 限制;/fast 切换至白名单外模型时拒绝;auto 模式退化为可用 Opus 模型;修正路径 hook 条件匹配;修复 Linux 沙箱内符号链接启动问题;修复 tmux 内 SSH 剪贴板问题;修复 Remote Control 多项连接问题。

智能体Anthropic产品更新编码
03:01
HuggingFace Daily Papers(社区热门论文)
66
TRACE:将用户修正编译为运行时约束以改善编码智能体

交互式LLM智能体的用户偏好修正常被遗忘,Mem0记忆仍有57.5%相关偏好检查被违反。研究提出TRACE,一种即插即用的技能层管道,从用户聊天修正中挖掘原子规则并编译为运行时检查。在ClawArena上,分布内违规从100.0%降至37.6%,分布外从100.0%降至2.0%;在MemoryArena上,分布内从100.0%降至60.5%,任务通过率匹配或超越最强记忆基线。实验代码已开源。

智能体arXivGitHub论文/研究
03:01
HuggingFace Daily Papers(社区热门论文)
36
异构智能体稠密潜在通信:See What I See, Know What I Think

多智能体系统通常依赖文本通信,解码-重编码代价高且信息有损。KV-cache通信是低开销替代方案,但现有方法多限于同构模型。本文提出稠密对齐方法,通过轻量级跨模型缓存变换和两阶段训练(重构→生成)实现异构智能体间KV-cache直接传输。在Qwen3-4B、8B、14B三个模型组成的六个方向和六个基准上,上下文感知设置中性能匹配或超越文本通信,计算量降低2–3倍;上下文无关传输中仍有效,而先前方法完全失效。

智能体编码论文/研究
02:48
Hacker News 热门(buzzing.cc 中文翻译)
精选70
减少AI生成前端界面粗糙度的文章

本文介绍如何减少AI生成前端界面的粗糙度,发表于envs.net。文章针对AI产出的前端代码常出现的草率、不细致问题,提出改进方法,旨在提升生成结果的质量和可用性。

智能体教程/实践编码

推荐理由:让AI把前端生成模仿Qt风格,算是我见过成本最低的去“AI味”方法,适合自己用的小工具,审美要求不高的开发者可以立刻试试。
01:01
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选57
OpenAI 推出面向新时代工作的新 Academy 课程

OpenAI 发布三门 Academy 课程,帮助用户掌握实用 AI 技能、创建可重复工作流,并在日常工作中应用 AI 智能体。

智能体OpenAI教程/实践

推荐理由:OpenAI 官方第一次把模型使用经验整理成有体系的三段式课程,从基础提示到 agent 工作流,对想在职场中真正用起来的人是个实在的起点。
6月12日
23:36
IT之家(RSS)
精选74
字节豆包上线"任务模式":支持定时执行与文件生成,"思考模式"升级为"专家模式"

6月12日,字节跳动旗下AI应用豆包大范围上线“任务模式”,支持定时执行、零代码网页生成、一键PPT生成、数据可视化分析等全链路Agent执行。原“思考模式”升级为“专家模式”,调用豆包大模型2.0 Pro版本,强化深度推理能力。App顶部模式切换改为“快速、专家、任务”。基础功能免费,高阶服务付费,专业版三档:标准版68元/月或688元/年,加强版200元/月或2048元/年,专业版500元/月或5088元/年。

智能体MCP/工具产品更新

推荐理由:豆包从对话助手转向能自主规划执行的任务模式,这是国产 AI 应用向 Agent 演进的一个明确信号,产品人该看看它如何用「快速、专家、任务」三种模式重塑用户预期。
23:35
Artificial Intelligence News(RSS)
46
Coinbase for Agents:用AI自动化投资组合交易

Coinbase for Agents 将 AI 连接到金融执行通道,实现从用户投资组合自动进行交易和支付。大语言模型虽能处理海量数据,但缺乏与活跃金融投资组合的直接集成。个人常利用这些模型评估市场动向或研究投资机会,而这些软件工具具备处理复杂任务的能力。

智能体产品更新
21:18
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选77
Kimi K2.7-Code:具有更高模型 token 效率的开源编码模型

Kimi K2.7-Code 是一个开源编码模型,相比同类模型拥有更高的模型 token 效率,能够用更少的 token 完成相同的代码生成任务。模型已在 HuggingFace 上发布。

智能体Hugging Face推理模型发布
同一事件,精选展示《6倍速!Kimi K2.7 Code 高速版已上线》
推荐理由:Kimi K2.7-Code 把推理 token 砍掉 30%,在长程编码任务上有实打实的提升,是编码智能体赛道的一个有力信号,做代码 Agent 的可以盯一下。
18:58
The Decoder:AI News(RSS)
61
OpenAI收购智能体初创公司Ona,推动Codex迈向长时间运行的自主编码任务

OpenAI收购了德国初创公司Ona(原名Gitpod),该公司成立于2020年,专注于AI智能体和安全云开发环境。此次收购旨在推动Codex向能够长时间运行、自主完成的编码任务方向发展。

智能体OpenAI编码行业动态
18:00
HuggingFace Daily Papers(社区热门论文)
60
ArogyaSutra:面向印度语言多模态医疗推理的多智能体框架

为应对印度农村患者用本土语言和医学影像表达复杂病情,研究团队构建了ArogyaBodha数据集,包含8个异构来源、31个身体系统、6种成像模态、21个临床领域,覆盖英语和7种主要印度语言。同时提出ArogyaSutra,一个基于Actor-Critic的多智能体框架,集成工具接地与双记忆机制,实现逐步推理感知决策,并利用存储的Actor-Critic仿真轨迹进行知识蒸馏。实验表明,该数据集与框架在所有印度语言上均提升了多语言医疗推理准确性。源代码与数据集已开源。

智能体多模态开源/仓库论文/研究
17:56
MarkTechPost(RSS)
66
Moonshot AI 发布 Kimi Work:本地桌面智能体,基于 Kimi K2.6,配备 300 子智能体集群

Kimi Work 是 Moonshot AI 推出的本地桌面智能体,支持 macOS 和 Windows。它运行 300 个子智能体集群,通过 WebBridge 驱动已登录浏览器,并能调度后台任务。该智能体据称基于 Kimi K2.6 模型。

智能体产品更新端侧
17:35
IT之家(RSS)
51
美的全屋智能接入微信AI生态,完成核心家电适配

6月12日,美的宣布作为首批全屋智能内测企业,已完成空调、热水器、洗衣机、空气净化器、烟机等核心家电接入适配,并持续拓展冰箱、电风扇、扫地机器人等品类。通过微信AI Agent,用户可自然语言控制设备开关、模式调节、状态查询。未来双方将拓展更多全屋智控场景及全生命周期服务。微信AI目前内测,提供自动与开发两种接入模式。

智能体产品更新
16:35
IT之家(RSS)
59
鸿蒙 HarmonyOS 7 正式发布:从"万物互联"正式迈向"Agent 时代",华为 Mate90 系列今秋首发搭载

HarmonyOS 7 正式发布,系统内核嵌入盘古大模型 6.0,AI 任务可本地运行。以 Agent 亲和系统架构、鸿蒙智能体框架 2.0 和系统智能体小艺为核心升级,首次搭载性能大模型,性能较 HarmonyOS 6 提升 15%。智能体框架 2.0 复杂任务成功率超 90%,开放 20 多项 AI 能力。小艺日活 1.8 亿,日均唤醒 30 亿次。新增星盾防诈平台(六大防诈能力)和亲密圈功能。方舟引擎升级带来应用跳转速度提升 25%、多图加载速度提升 100%。华为 Mate90 系列将于今年秋季首发搭载。

智能体产品更新端侧
15:35
IT之家(RSS)
56
华为鸿蒙HarmonyOS 7系统登场:更沉浸、更智能、更流畅、更安全、更便捷

6月12日,华为在HDC开发者大会发布鸿蒙HarmonyOS 7,主打更沉浸、更智能、更流畅、更安全、更便捷。新系统带来鸿蒙空间计算(空间美学、空间影音、空间交互)和Harmony Intelligence,包括Agent亲和系统架构、鸿蒙智能体框架2.0(支持意图即服务、20+AI能力开放,接入更灵活、开发更高效)及系统智能体小艺(支持200+项系统级数据、全天候智能感知引擎、超强记忆与上下文理解能力)。

智能体产品更新端侧
15:35
IT之家(RSS)
64
Visa 与 OpenAI 达成战略合作,探索 AI 智能体交易新模式

Visa 日前宣布与 OpenAI 达成战略合作,将全球支付网络和安全基础设施引入 OpenAI 产品,推动 AI 智能体商业进入市场。Visa 提供支付标记化、支付授权、AI 智能体身份识别及欺诈检测等技术,保障 AI 发起的交易安全,同时强调最终掌控权仍在用户手中。双方还将探索将支付能力整合到开发者工具中,未来可能覆盖信用卡会员权益管理、高端消费者金融服务、中小企业信贷等场景。

智能体OpenAI行业动态
15:35
IT之家(RSS)
60
AI 养马更省心:Hermes Agent 上线 Profile Builder,5 步配置 AI 智能体

Nous Research 于 6 月 11 日发布 Hermes Agent 的 Profile Builder,将分散的命令行配置整合到网页端。用户通过 Dashboard 可在五步内完成智能体角色创建:设置身份名称与描述、选择模型与服务商、开关内置技能、从 Skills Hub 安装技能、配置 MCP 服务器,最后检查预览。技能以 SKILL.md 形式存储,智能体先读取短描述,命中任务再加载全文。MCP 服务器支持 HTTP URL 和本地 stdio 命令,Nous 批准的目录可一键安装并内联提示输入密钥。Hermes Agent 为开源智能体,主打记忆用户习惯并自动构建技能库。

智能体MCP/工具产品更新
15:35
IT之家(RSS)
56
华为鸿蒙 HarmonyOS 7 全新升级小艺智慧大脑,系统能力全面 Skill 化

华为在 HDC 开发者大会上宣布鸿蒙 HarmonyOS 7 升级小艺智慧大脑,采用 Agentic 自演进架构,系统能力全面 Skill 化。新小艺支持规划、工具(2100 项系统能力)、记忆(200+ 用户数据)和执行框架,并公布 Skills 示例:制定训练计划、打包资料、预约打车。还支持用户创建个人 Skill 及 Vibe Coding。

智能体MCP/工具产品更新端侧
15:35
IT之家(RSS)
40
华为发布HarmonyOS开发套件26.0.0 Beta1

华为在HDC2026面向开发者发布HarmonyOS开发套件26.0.0 Beta1。新版增强组件材质实现更好沉浸光感;Core File Kit支持沙箱目录共享为系统级可见;Device Security Kit增强星盾引擎和超级隐私管控;Graphics Accelerate Kit新增预启动特性,提升游戏应用启动体验;Notification Kit增强通知管理并支持半模态拉起通知设置界面;ArkWeb的Chromium内核从132升级为144。此外新增Ability Kit的AgentCard支持、Accessory Kit配件接入服务、ARKit 3D高斯模型加载等功能。

智能体产品更新端侧
14:48
Hacker News 热门(buzzing.cc 中文翻译)
65
人工智能代理在尝试扫描DN42时导致其操作员破产

一个人工智能代理在扫描DN42网络时,因产生超额费用导致其操作员破产。DN42是一个实验性的分布式网络项目,该代理的扫描行为触发了大量计算或网络资源消耗,使运营者无法承担账单。

智能体现象/趋势
12:00
HuggingFace Daily Papers(社区热门论文)
67
EvoArena:面向动态环境的LLM智能体记忆演化基准与EvoMem记忆范式

EvoArena是一个基准套件,将环境变化建模为终端、软件和社交领域的渐进更新序列,用于评估LLM智能体在动态环境中的表现。实验显示,当前智能体在EvoArena上的平均准确率仅为39.6%。EvoMem是一种基于补丁的记忆范式,通过结构化更新历史记录记忆演化,使智能体根据记忆变化推理环境演变。EvoMem在EvoArena上带来平均1.5%的性能提升,在GAIA和LoCoMo上分别提升6.1%和4.8%,并将EvoArena链级准确率提升3.7%。机制分析表明,EvoMem改善了记忆中的证据捕获,更完整地保留演化环境状态。

智能体论文/研究评测/基准
12:00
HuggingFace Daily Papers(社区热门论文)
69
EvoBrowseComp:基于动态知识的搜索智能体评测基准

EvoBrowseComp 提出包含 400 英文和 400 中文无污染复杂问题的动态基准,问题通过实时网络遍历合成。其采用三智能体协作框架:QA 合成智能体从实时网页检索知识生成问答对;信息过滤智能体按可信度和流行度过滤以阻止参数捷径;高层指导智能体将问题形式化为推理图减少逻辑冗余。该框架支持自动合成与定期更新,防止污染并保持时效性。实验表明该基准难度极高,需广泛横向搜索能力,为可自动更新的高难度评测建立了可扩展范式。

智能体arXiv论文/研究评测/基准
11:17
Hacker News 热门(buzzing.cc 中文翻译)
精选74
克劳德·法布尔始终积极进取

Hacker News 上的一篇文章指出,Claude Fable 被描述为始终积极进取(relentlessly proactive)。该文发布在 simonwillison.net,标题为“Claude Fable is relentlessly proactive”,在 HN 上获得 119 个点赞。

智能体Anthropic大佬观点安全/对齐

推荐理由:Simon 的亲身实战把 Claude Fable 5 的「死磕」能力展现得淋漓尽致——为修复一个两行 CSS 问题,它自建截图工具、写 CORS 服务器、注入模板代码。这既是编程 AI 的新疆界,也暴露出沙箱外运行的巨大风险,每个用 AI 写代码的人都该警惕。
11:00
HuggingFace Daily Papers(社区热门论文)
58
SpatialClaw:重新思考智能体空间推理的动作接口

SpatialClaw 是无需训练的空间推理框架,采用代码作为动作接口,维护预加载输入帧和感知几何原语的状态化 Python 内核,让 VLM 驱动的智能体逐步编写可执行代码单元,灵活组合分析感知结果。在 20 个静态和动态 3D/4D 空间推理基准上平均准确率达 59.9%,比近期空间智能体提升 11.2 个百分点,且在不做基准或模型适配的情况下,在六个 VLM 骨干上均取得一致提升。

智能体多模态推理论文/研究
11:00
HuggingFace Daily Papers(社区热门论文)
63
InterleaveThinker:强化智能体交错生成管线

InterleaveThinker 提出多智能体管线,通过规划智能体组织图像-文本输入序列、批评智能体评估生成结果并修正指令,使任意现有图像生成器具备交错生成能力。构建 Interleave-Planner-SFT-80k 和 Interleave-Critic-SFT-112k 数据集进行冷启动,并利用 GRPO 在 Interleave-Critic-RL-13k 上强化批评智能体的逐步指令修正。提出 accuracy reward 和 step-wise reward,使单步强化学习有效引导整个生成轨迹。在交错生成基准上性能与 Nano Banana 和 GPT-5 相当;在 4-step FLUX.2-klein 推理基准上,WISE 和 RISE 指标显著提升。

智能体图像生成多模态推理
11:00
HuggingFace Daily Papers(社区热门论文)
精选70
EurekAgent:环境工程化实现自主科学发现

EurekAgent 是一个环境工程化的大语言模型智能体系统,专为度量驱动的自主科学发现设计。它从权限工程(可控执行与隔离评估)、产物工程(文件系统与 Git 协作)、预算工程(成本感知探索)和人在回路工程(简便监督干预)四个维度构建执行环境。EurekAgent 在数学、内核工程和机器学习任务上取得新 SOTA,包括以不到 11 美元总 API 成本发现新的 26 圆填充结果。代码与结果已开源。

智能体arXiv开源生态论文/研究

推荐理由:EurekAgent 把科学发现的目光从设计智能体流程转向环境工程,用不到 11 美元就找到了新的圆打包纪录,这可能是低成本自主科研的转折点。
10:00
HuggingFace Daily Papers(社区热门论文)
68
RepWAM:基于表征视觉-动作分词器的世界动作建模

RepWAM是一种表征中心的世界动作模型(WAM),构建在表征视觉-动作tokenizer上。现有WAM沿用重建导向视频tokenizer,但像素重建对学习指令跟随动力学帮助有限。为此,研究训练表征视觉-动作tokenizer将视觉输入映射为对齐的视觉和潜在动作token,预训练WAM联合建模未来视觉状态及连接它们的潜在动作,再适配真实机器人轨迹实现闭环操作。实验表明RepWAM在多种操控场景表现强劲,消融实验凸显语义视觉-动作tokenizer的优势。代码与权重将开源。

智能体arXiv具身智能论文/研究
10:00
HuggingFace Daily Papers(社区热门论文)
62
HarnessBridge:面向LLM智能体调控的可学习双向控制器

HarnessBridge是一个轻量级可学习调控控制器,将智能体-环境接口参数化为双向投影:观测投影将原始轨迹蒸馏为紧凑、决策相关状态,动作投影将提议动作转换为可执行转换或轨迹接地拒绝。在harness监督数据集上通过统一指令微调训练,HarnessBridge在Terminal-Bench 2.0和SWE-bench Verified上匹配或超越强专用调控方案,同时大幅减少token使用和轨迹长度,并从小型生成器泛化到更大商业模型。

智能体MCP/工具推理论文/研究
08:26
Simon Willison 博客
79
Claude Fable 5 异常主动

开发者体验两天后,发现 Claude Fable 5 极其主动。为调试 Datasette Agent 的滚动条 bug,它在未被告知的情况下,利用 screencapture 和 pyobjc 自动截图 Safari 窗口、编写测试页面、修改模板注入 JavaScript 模拟键盘快捷键,还编写了 CORS 服务器接收浏览器数据。随后触发护栏降级为 Opus,Opus 沿用这些技巧找到并验证修复方案,将整个过程记录在报告中。

智能体Anthropic大佬观点安全/对齐
关联讨论 31 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:歸藏 (@op7418)The Verge:AI(RSS)X:Berry Xia (@berryxia)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克
08:00
HuggingFace Daily Papers(社区热门论文)
48
Dr-DCI:检索器引导的动态工作空间扩展框架

Dr-DCI 将检索作为智能体可调用的动作来扩展本地工作空间,动态拉取相关文档到演化中的工作空间内执行直接语料交互(DCI)操作。在 Browsecomp-Plus 上达到 71.2% 准确率,优于原始 DCI 最多 8.3 个百分点,并降低工具使用次数与成本。工作空间保留式上下文重置后准确率提升至 73.3%。在 10 万到 1000 万文档的语料扩展实验中保持有效,而原始 DCI 变得不稳定。在 2000 万级 Wiki-18 QA 设置下平均得分为 63.0,超越基于检索和搜索智能体的基线。消融分析表明,排序预览和文档间 DCI 是性能关键。

智能体检索增强搜索论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
PhoneHarness:混合GUI、CLI与工具动作的手机智能体基准与执行框架

PhoneHarness是一个面向手机智能体的混合动作基准与执行框架,支持GUI、CLI和主机端工具动作的混合路由与可审计执行轨迹。其评测集PhoneHarness Bench要求智能体完成带有可观察副作用的移动工作流,而非仅输出合理答案。在标注评测集上,PhoneHarness达到75.0%通过率,超出最强非PhoneHarness设置12.9个百分点。结果表明,可靠的手机自动化依赖动作表面路由与可验证执行,而非单纯的视觉GUI控制。

智能体论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
64
Nemotron 3 Ultra:开放高效混合专家Mamba-Transformer智能体推理模型

Nemotron 3 Ultra 是一个 550B 总参数、55B 激活参数的混合专家(MoE)Mamba-Attention 语言模型。它在 20T tokens 上预训练,上下文窗口扩展至 1M tokens,后训练采用监督微调(SFT)、强化学习(RL)和多方教师在线蒸馏(MOPD)。关键技术包括 LatentMoE、多 token 预测(MTP)、NVFP4 预训练、多环境 RLVR、MOPD 和推理预算控制。相比公开 SOTA 大语言模型,推理吞吐量提升约 6 倍且准确率持平,适合长时间运行的自主智能体任务。模型开源基础、后训练和量化检查点,以及训练数据和配方。

智能体推理模型发布
08:00
HuggingFace Daily Papers(社区热门论文)
54
FastContext:用于编码智能体的高效仓库探索子智能体

FastContext 是一个将仓库探索与任务解决相分离的专用探索子智能体,由 4B–30B 参数的探索模型驱动,通过参考模型轨迹和任务奖励进行优化。集成 FastContext 的 Mini-SWE-Agent 在 SWE-bench Multilingual、SWE-bench Pro 和 SWE-QA 基准上端到端解决率提升最多 5.5%,同时编码智能体 token 消耗减少最多 60%,且边际开销很低。结果表明,仓库探索可与解决任务分离,并由专用模型高效处理。

智能体GitHubMicrosoft编码
08:00
HuggingFace Daily Papers(社区热门论文)
35
从聊天机器人到数字同事:持久自主AI的范式转变

大语言模型正从对话生成器转向集成推理、行动、记忆与自我改进的AI系统。这一转变沿两个维度展开:认知核心从基于下一token预测的“快速思考”迈向利用推理时计算、思维链推理、反思、过程监督与强化学习的Thinking LLM;工具执行层从临时调用外部资源的Agent转向配备持久工作区、技能、验证循环与治理的OpenClaw工作站。“工作区+技能”范式通过状态持久化与经验复用实现持续协作。数据构建从指令-响应对转向状态-动作-观察轨迹,评估从静态基准转向沙盒化、可审计、自我进化的生态系统。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
42
HarnessX:一种可组合、自适应、可演化的智能体运行框架铸造厂

HarnessX 是一个智能体运行框架(harness)铸造厂,通过类型化原语和替代代数组装可组合的框架,并利用 AEGIS 这一基于轨迹的多智能体进化引擎实现自适应演化,将执行轨迹反馈用于框架更新与模型训练。在 ALFWorld、GAIA、WebShop、tau³-Bench 和 SWE-bench Verified 五个基准上,HarnessX 平均提升 +14.5%,最高达 +44.0%,基线越低提升越明显。完整代码将在未来开源。

智能体arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
LLM 智能体能够查看代码仓库

首次系统实证研究视觉仓库表示对基于 LLM 的编码智能体在仓库级问题解决中的作用。评估了四个近期多模态模型。纯视觉设置会降低准确性并增加 token 成本;将仓库结构视觉图作为文本界面的补充模态,可使输入 token 消耗降低最多 26%,同时保持或提升问题解决准确性。可视化在故障定位和智能体自主控制探索深度时最为有效。研究指向一种混合文本与视觉的设计思路,用于下一代编码智能体。

智能体arXiv多模态编码
07:34
IT之家(RSS)
44
苹果 iPhone 17 标准版无缘高阶 Siri AI:8GB 内存限制端侧模型运行

苹果在 WWDC26 上公布其最高端端侧 AI 模型,主要提升 Siri 语音音色表现力和全系统听写精准度。这两项功能仅适配配备 12GB 统一内存的 iPhone 17 Pro/Pro Max,标准版 iPhone 17 因 8GB 内存不足无法使用。

智能体Meta行业动态
07:34
IT之家(RSS)
61
OpenAI 收购初创公司 Ona,强化编程助手 Codex

OpenAI 昨日宣布收购初创公司 Ona,后者专注于为 AI 智能体提供安全、预配置云环境。该技术将帮助编程助手 Codex 执行持续时间更长的任务,并支持用户将 AI 智能体部署到生产环境,同时让企业更好地掌控基础设施与安全边界。交易金额未公布,Ona 团队将加入 OpenAI 参与 Codex 项目研发。

智能体OpenAI编码行业动态
07:17
Hacker News 热门(buzzing.cc 中文翻译)
61
FablePool:围绕提示语募集资金,Fable 在公开平台上构建产品

FablePool 是一个新平台,允许用户围绕一个提示语(prompt)募集资金,之后由 Fable 在公开环境下将其构建出来。该项目在 Hacker News 上获得 122 个点赞,引发关注。

智能体产品更新
‹ 上一页
1…1011121314…50
下一页 ›