AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「Agent」清除
6月25日周四
22:35Chubby♨️25Hyperagent:为Agent配备独立云机器与浏览器
22:35Chubby♨️43Airwallex 推出 Airi 与 T:0,攻克 AI 智能体金融"无聊"环节
22:08向阳乔木62腾讯出了专门给Agent用的邮箱,快去抢注你的邮箱名… 注册以后,会有一段提示词,发给Codex或你的其他Agent来完成cli设置。 地址见评论区
19:30公众号:百度智能云(文心)40浦发银行携手百度智能云:超2500个金融智能体上岗,覆盖营销风控等核心场景
19:14AYi61Agent生产崩溃80%与模型无关,Harness与Loop才是2026分水岭
18:53Rohan Paul66高盛研究:AI智能体token使用量预计到2030年增长24倍
18:13HuggingFace Daily Papers(社区热门论文)67开放权重LLM中的约束代价:结构化输出约束下工具调用抑制的实证研究
18:07The Decoder:AI News(RSS)64高通凭借自研处理器进入数据中心市场
17:51meng shao58火山引擎发布 ArkClaw 安全白皮书
17:38fofr20Gemini 3.1 Flash Lite 驱动 Chrome 扩展自动转 Skills
17:09OpenAI:官网动态(RSS · 排除企业/客户案例)65精选OpenAI内部报告:智能体Codex如何改变工作
17:07The Decoder:AI News(RSS)65Google将电脑控制功能直接集成到Gemini 3.5 Flash中
15:54Alibaba Cloud37阿里云推出AI智能体安全约束基础设施
15:38数字生命卡兹克5216个国民级App推出Skill/MCP/CLI服务,支持Agent调用真实世界能力
15:37向阳乔木82同事件精选豆包Seed-2.1实测:编程可用,识鱼封神!同一事件,精选展示《Seed2.1 正式发布,深入 AI 生产力》
11:37向阳乔木49谷歌推出Open Knowledge Format规范
11:12HuggingFace Daily Papers(社区热门论文)43Autodata:让AI智能体成为数据科学家,自动构建高质量合成数据
10:10公众号:数字生命卡兹克56盘点16个推出Skill/MCP的国民级App
09:07向阳乔木39Agent 是新型生产要素,人的核心素质转变
08:58IT之家(RSS)54英伟达黄仁勋:AI 工厂时代来临,智能体重塑计算格局
08:51meng shao47开源 Skills 系列新增「loop-me」技能:通过拷问挖掘重复模式生成工作流规格
08:51meng shao65《The Coming Loop》:AI循环工程的两层困境
08:00HuggingFace Daily Papers(社区热门论文)55延迟验证破坏多智能体LLM信念:不稳定性阈值与最优校正器放置
08:00HuggingFace Daily Papers(社区热门论文)58代码智能体需要多少静态结构?确定性锚定效应研究
08:00HuggingFace Daily Papers(社区热门论文)66LLM程序修复代理中代码执行成本效益的实证研究
08:00HuggingFace Daily Papers(社区热门论文)51Ko-WideSearch:韩语广度搜索基准
08:00HuggingFace Daily Papers(社区热门论文)65Qwen-Image-Agent:弥合真实图像生成中的上下文差距
08:00HuggingFace Daily Papers(社区热门论文)41OPID: 智能体强化学习的在线策略技能蒸馏
08:00HuggingFace Daily Papers(社区热门论文)51面向鲁棒视频理解的置信感知工具编排
08:00HuggingFace Daily Papers(社区热门论文)65何时结合语言模型有帮助?跨越67个前沿模型的路由、投票和混合智能体的共同失败上限
08:00HuggingFace Daily Papers(社区热门论文)50GauntletBench:在陌生环境中重新评估AI智能体能力
07:37TechCrunch:AI(RSS)58前Infosys CEO Vishal Sikka创立Hang Ten Systems,挑战IT服务行业
07:19宝玉64AI处理播客访谈:多稿合并法避免细节遗漏
06:58IT之家(RSS)50消息称谷歌 Gemini 3.5 Pro 发布时间推迟至 7 月,旨在优化模型性能
06:54karminski-牙医55聊聊智谱市值破万亿为什么不是高估
06:47Artificial Analysis61Artificial Analysis 发布 AA-Briefcase 智能体知识工作基准测试
06:23elvis46Eric Xing论文定义智能体"五维度"框架
05:50Rohan Paul42前高盛高管Raoul Pal:智能体AI将吞噬传统软件/SaaS
05:46ClaudeDevs41Claude 频道工作采用智能体身份凭证
05:29Hacker News 热门(buzzing.cc 中文翻译)71Gemini 3.5 Flash 中的计算机使用
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月25日
22:35
Chubby♨️@kimmonismus
25
Hyperagent(由Airtable团队构建)回应了当前智能体依赖单台笔记本、单WiFi及人工守夜重启的脆弱性,为每个Agent分配独立云机器,提供真实浏览器与代码执行环境,确保Agent在离线和无监督状态下持续运行。引用推文对比OpenClaw的频繁崩溃、秘密泄露和持续监控问题,推广Hyperagent:限时注册获$100推理积分,迁移首个Agent再得$500。

Andrew Busse: If OpenClaw feels more like babysitting, you're not alone. Skip the daily crashes, leaked secrets, and constant monitori...

智能体产品更新
22:35
Chubby♨️@kimmonismus
43
Airwallex 推出 Airi 与 T:0,攻克 AI 智能体金融"无聊"环节

Airwallex 正在解决 AI 智能体金融中资金转移、跨境支付、记账与合规等“无聊部分”。他们推出 Airi(当前提供更快的智能体结账,正在开发真实钱包)和 T:0(AI 原生财务后台平台,仍处于测试版)。Airwallex 已拥有支付轨道,现在此基础上构建智能层。此前,Airwallex 宣布完成 3.2 亿美元融资,估值 110 亿美元,由 Addition 领投。公司指出团队更小、全球化、更多使用智能体是趋势,并用 10 年建设了适配这一世界的金融基础设施。

Jack Zhang: We've raised $320M at an $11B valuation, led by Addition. AI is changing how companies are built. Teams are smaller, glo...

智能体行业动态
22:08
向阳乔木@vista8
62
腾讯出了专门给Agent用的邮箱,快去抢注你的邮箱名… 注册以后,会有一段提示词,发给Codex或你的其他Agent来完成cli设置。 地址见评论区
智能体MCP/工具产品更新
19:30
公众号:百度智能云(文心)
40
浦发银行携手百度智能云:超2500个金融智能体上岗,覆盖营销风控等核心场景

浦发银行全行已上线超2500个金融智能体,近200个深度嵌入真实业务流程,覆盖营销、风控、运营等核心场景。智能体采用低代码与高代码结合、商用与开源模型互补的研发模式,并首创“三态管理”(创设、发布、运行)适配金融强监管。财报智能识别分析智能体将企业财报录入、校验与分析流程从数小时压缩至分钟级。百度智能云提供四层金融AI基础设施,包括昆仑芯国产芯片、异构算力平台、金融专精大模型及全流程AI治理平台。浦发银行计划推出面向C端的数字客户经理与数字分身,以对话交互实现“对话即服务”。

智能体行业动态部署/工程
19:14
AYi@AYi_AInotes
61
Agent生产崩溃80%与模型无关,Harness与Loop才是2026分水岭

推文指出80%的Agent生产崩溃与模型智商无关,根源在上下文溢出、工具调错、子代理失控。2026年分水岭是Harness(办公室制度、安保系统、质检流程,含独立验证节点、分层记忆、延迟绑定工具)和Loop(自我发现、任务分派、验证结果、状态记录)。好模型配差循环产生昂贵垃圾,普通模型配好循环加验证反而稳定出货。模型是可替换引擎,Harness是底盘安全系统,Loop是自动驾驶。引用@wizardly_ai的工程笔记拆解了该论点。

Wizard: http://x.com/i/article/2069720576693022720

智能体MCP/工具大佬观点
18:53
Rohan Paul@rohanpaul_ai
66
高盛研究:AI智能体token使用量预计到2030年增长24倍

高盛研究预测,到2030年AI智能体token使用量将增长24倍。单个智能体任务可能消耗正常回答10倍、50倍甚至更多token。乐观情景下月token使用量可达120 quadrillion,推理成本每年下降60%-70%。Uber和Microsoft已开始重新考虑昂贵的智能体使用。Microsoft本月撤销开发者对Claude Code的访问权限,计划6月30日前迁移至自研Copilot CLI工具,此举被解读为降低成本。

智能体推理现象/趋势
18:13
HuggingFace Daily Papers(社区热门论文)
67
开放权重LLM中的约束代价:结构化输出约束下工具调用抑制的实证研究

当同时启用Tool Calling与JSON Schema约束时,多个开放权重LLM出现工具调用抑制(Tool Suppression)。控制实验在多模型与部署设置下复现了该现象。分析表明,JSON Schema约束被编译成基于语法的token掩码,导致工具调用token在解码中不可达。研究提出约束优先级反转(CPI)假设,并设计透明两遍执行(Transparent Two-Pass Execution)推理策略,将工具执行与模式约束响应生成解耦,无需重训练即可恢复工具调用并维持结构化输出。结果表明,单独评估工具使用与结构化输出可能掩盖生产Agent系统的可靠性问题。

智能体论文/研究部署/工程
18:07
The Decoder:AI News(RSS)
64
高通凭借自研处理器进入数据中心市场

高通推出数据中心处理器 Dragonfly C1000,针对 AI 智能体优化,主打低功耗高能效。Meta 计划 2028 年起部署该芯片。同时,高通以约 40 亿美元收购 AI 初创公司 Modular,其软件支持跨芯片架构运行 AI 应用。去年高通已发布两款数据中心 AI 加速芯片。受消息提振,高通盘后股价上涨 15%,公司预计到 2029 年非智能手机业务营收将翻倍至 400 亿美元,其中数据中心目标 150 亿美元。

智能体Meta产品更新推理
17:51
meng shao@shao__meng
58
火山引擎发布 ArkClaw 安全白皮书

火山引擎发布53页白皮书,将AI Agent安全归纳为OpenClaw原生风险、云SaaS通用风险、企业治理三大类,列出六大原生风险(如Gateway绑定0.0.0.0无认证等),并涵盖责任共担模型、七项架构设计原则、四层安全保障及企业最佳实践。

智能体安全/对齐
17:38
fofr@fofrAI
20
这个 Chrome 扩展让你在浏览器中录制操作,再由 Gemini 3.1 Flash Lite 自动将这些任务转换为 Skills。DOM 中的动作会补充视频,从而获得非常精细的指令。我喜爱这个。

👩💻 Paige Bailey: 🎣 Made this @GoogleChrome extension with @antigravity that lets you record actions in the browser, then has Gemini 3.1 ...

智能体Google其他
17:09
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选65
OpenAI内部报告:智能体Codex如何改变工作

OpenAI 在2025年8月至2026年6月间观察到,智能体产品 Codex 取代 ChatGPT 成为主要工作工具,各部门输出 token 中 Codex 占比从不足10%升至99.8%。80.6%个体用户曾发起预计等效人类工作时间超30分钟的请求,70.2%超1小时,25.6%超8小时;99百分位用户每日生成超60小时 agent turns。非开发者用户增长迅猛:个体用户增长137倍,组织用户增长189倍。Legal、Finance、Recruiting 部门在2026年4月前后跨过 Codex 使用过半拐点,平均每位律师或招聘人员超85%输出 token 来自 Codex。

智能体OpenAI现象/趋势论文/研究
关联讨论 2 条X:Rohan Paul (@rohanpaul_ai)X:Jason Liu (@jxnlco)
推荐理由:OpenAI 第一次用内部数据量化智能体如何改变工作,非开发者增速 137 倍比工程师还猛,Codex 已经吃掉内部 99.8% 的输出 token——这不是产品更新,但比大多数发布会都更值得做策略的人看一眼。
17:07
The Decoder:AI News(RSS)
65
Google将电脑控制功能直接集成到Gemini 3.5 Flash中

Google将“Computer Use”功能直接集成到Gemini 3.5 Flash,模型可自主看、理解并操作电脑、浏览器和移动设备,此前该功能仅作为独立Gemini 2.5模型提供。结合函数调用、Search和Maps等工具,开发者可构建跨平台智能体,用于软件测试或办公自动化。在OSWorld基准测试中,Gemini 3.5 Flash得分78.4,高于Gemini 3 Flash(65.1)和GPT-5.4 mini(72.1),略低于GPT-5.5(78.7),Anthropic的Opus 4.8以83.4领先。安全方面采用对抗训练和两项可选企业防护:敏感操作需用户确认、自动阻止间接提示注入。该功能通过Gemini API和Gemini Enterprise Agent Platform提供,附带Browserbase演示和GitHub参考实现。

智能体Google产品更新推理
15:54
Alibaba Cloud@alibaba_cloud
37
阿里云推出AI智能体安全约束基础设施

阿里云发布面向AI智能体的约束基础设施(Constraint Infra),提供治理层解决Agent混乱问题。核心能力包括:通过Nacos热更新提示词与规则实现动态控制;支持token限制及多智能体安全的细粒度治理;已在生产环境验证,StarOps SRE智能体在该边界内安全运行高风险任务;通过AgentLoop数据飞轮驱动规则自我进化。

智能体产品更新部署/工程
15:38
数字生命卡兹克@Khazix0918
52
16个国民级App推出Skill/MCP/CLI服务,支持Agent调用真实世界能力

卡兹克盘点瑞幸、麦当劳、飞猪、滴滴、高德、腾讯地图、美团跑腿、飞书、钉钉、企业微信、腾讯文档、支付宝、微信支付、微信读书、网易云音乐、美图等16款App,均已推出Skill、MCP或CLI服务。覆盖餐饮点单、出行规划、办公协作、支付收款、娱乐编辑等场景。支付环节普遍需跳转App完成。此外,千问、豆包等AI产品也集成第三方服务,Agent化趋势明显。

智能体MCP/工具现象/趋势
15:37
向阳乔木@vista8
同事件精选82
豆包Seed-2.1实测:编程可用,识鱼封神!

火山引擎发布豆包Seed-2.1系列(Pro、Turbo)。实测Seed-2.1 Pro显示:Agent和Coding能力达到生产级可用线,能完成SVG动画、网页开发、CMS系统等任务;配合开源Skill可生成标题、调研报告、信息卡片及电子书。多模态识别惊喜,拍照识鱼准确识别鱼种和数量,优于Gemini 3.1 Flash。价格实惠,API已通过火山方舟全量开放。

智能体多模态编码评测/基准
同一事件,精选展示《Seed2.1 正式发布,深入 AI 生产力》
推荐理由:乔木的实测很有说服力,Seed 2.1 Pro 在编程和 Agent 任务上已能用,多模态识鱼甚至反超 Gemini,对正在选模型的开发者是及时且扎实的参考。
11:37
向阳乔木@vista8
49
谷歌推出Open Knowledge Format规范

谷歌于六月推出Open Knowledge Format(OKF)规范,参考AK的LLM wiki思路。核心是用Markdown加YAML frontmatter将知识组织为可读、可版本控制、可直接被AI智能体(Agent)消费的文件包。示例中,Codex读取该文章后,将自身做过的项目整理为OKF格式并添加到系统记忆索引中。文章见评论区。

智能体Google产品更新
11:12
HuggingFace Daily Papers(社区热门论文)
43
Autodata:让AI智能体成为数据科学家,自动构建高质量合成数据

Autodata是一种通用方法,使AI智能体扮演数据科学家角色,自主构建高质量训练与评估数据。该方法支持对数据科学家智能体进行元优化,使其学会生成更优数据,具体实现为Agentic Self-Instruct。在计算机科学、法律推理及数学对象推理等任务上的实验表明,Autodata生成的合成数据集质量优于经典方法,且对智能体进行元优化能带来更显著的性能提升。该方向通过将推理计算转化为更高质量的训练数据,有望改变AI数据的构建方式。

智能体数据/训练论文/研究
10:10
公众号:数字生命卡兹克
56
盘点16个推出Skill/MCP的国民级App

近日,瑞幸、麦当劳、飞猪、滴滴、高德、腾讯地图、美团跑腿、飞书、钉钉、企业微信、腾讯文档、支付宝、微信支付、微信读书、网易云音乐、美图等16款国民级App陆续将核心能力封装为Skill、MCP或CLI,供AI智能体调用,实现点咖啡、叫车、查航班、管理文档、支付等操作。支付环节目前仍需用户跳转App完成,但Agent化趋势已不可逆。

智能体MCP/工具现象/趋势
09:07
向阳乔木@vista8
39
Agent 是新型生产要素,人的核心素质转变

推文提出,Agent 是一种数字化、随时调用、最终趋近免费的劳动力,但不应把人与 Agent 的价差当作商业模式本身。上下文、注意力、信任和品牌的价值不会因模型变便宜而贬值。AI 时代,人的具体技能不再重要,积极好奇、灵活性和自驱力才是核心素质。

智能体大佬观点
08:58
IT之家(RSS)
54
英伟达黄仁勋:AI 工厂时代来临,智能体重塑计算格局

昨日(6月24日)股东大会上,英伟达CEO黄仁勋称AI产业进入新阶段,智能体AI已到来,物理AI将驱动下轮增长。他将数据中心比作“AI工厂”,强调AI基础设施成企业计算核心。财务方面,过去1年营收增长65%,利润增长60%,2026财年自由现金流超960亿美元,计划将50%通过回购和分红返还投资者。黄仁勋举例称,运行英伟达系统生成token具盈利性,GitHub今年pull request数量增长近3倍。

智能体具身智能大佬观点
08:51
meng shao@shao__meng
47
开源 Skills 系列新增「loop-me」技能:通过拷问挖掘重复模式生成工作流规格

开源 Skills 系列(165K stars)新增 in-progress 技能「loop-me」。该技能通过“拷问”采访用户,发现其工作、生活中的重复模式(Loop),并将这些模式打磨成 workflows/*.md 规格文件。核心原则包括:一次一问、附带推荐答案、走完整棵决策树、优先查代码库、状态持久化至文件从而支持跨会话和版本化。loop-me 与已有 grill-me 的区别在于:grill-me 对齐任意计划,loop-me 只产出 workflow 规格。设计哲学强调从重复模式出发,而非直接构建 Agent;规格是唯一交付物,实现留作后续步骤;人类时间最珍贵,将其角色压缩为“晚到的单次决策”。完成标准是 Agent 读取 spec 后无需再提问。

Matt Pocock: New in-progress skill: /loop-me Interviews you about your work and finds opportunities for delegating your day-to-day wo...

智能体开源/仓库编码
08:51
meng shao@shao__meng
65
《The Coming Loop》:AI循环工程的两层困境

文章将AI循环分为内层agent loop(模型说“完成”即止)和外层harness loop(外部判定是否真完成,可续接session)。循环放大LLM代码的过度防御、回避不变量等缺陷,每轮叠加局部防御使系统更难理解。有效领域(移植、性能探索)共性是不产生新代码或产出无需长寿。核心隐喻从“机器”转向“有机体”,人不再完全理解代码。深层隐忧是认知依赖:代码由循环产出、review,一旦失去同类系统访问权将无法维持。问题不再是“是否会loop”,而是如何在循环未来中保留判断力与工程规则。

智能体大佬观点编码
08:00
HuggingFace Daily Papers(社区热门论文)
55
延迟验证破坏多智能体LLM信念:不稳定性阈值与最优校正器放置

多智能体大语言模型系统中,验证器与批评者智能体存在延迟,导致虚假声明在延迟期间通过网络传播。该过程被建模为带接地校正器节点图上的延迟共识,通过接地拉普拉斯矩阵谱分解得到校正剂量的闭合形式稳定性阈值:过强或过延迟的校正会使共识转变为振荡。通信与验证延迟重合时系统最不稳定;延迟为2时阈值是黄金分割率倒数。同一框架给出超模放置目标及贪婪(1-1/e)近似规则,用于将有限校正器预算分配给影响力节点。五个开放模型上的实验确认了剂量‑延迟振荡,而接地事实性回答使真相成为吸收边界从而消除该效应。

智能体论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
58
代码智能体需要多少静态结构?确定性锚定效应研究

基于LLM的代码智能体依赖关键词搜索导航仓库,但缺失调用图、继承关系等结构信息,导致导航随机且难以复现。研究以OpenAI Codex为基线,向提示词注入不同粒度的轻量级静态结构注释,发现确定性锚定效应:函数级定位Func@5提升2.2个百分点,交互轮次减少1.6轮;链接跟随率从0.15–0.18升至0.21–0.24,单次运行Pass@1提升3.4个百分点,但输入token增加约10%。建议中等规模仓库默认使用轻量级拓扑,大型仓库剪枝前向边,密度高的语义注释仅用于隐式依赖场景。

智能体OpenAI编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
66
LLM程序修复代理中代码执行成本效益的实证研究

本研究分析了SWE-bench排行榜上7,745个代理轨迹,并在200个实例上评估Claude Code、Codex与开源OpenCode采用四种执行范式的3,000次修复尝试。结果显示:代码执行平均每任务8.8次测试运行,频率2-19,后期成功率更高;对商用SOTA代理,禁止执行与无限制执行间修复成功率差距仅1.25个百分点(无统计显著性),但禁止执行显著节省token与墙钟时间;执行收益集中而非均匀分布。研究表明当前代理不加区分地使用代码执行,应将其视为有明确成本收益权衡的资源。

智能体编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
Ko-WideSearch:韩语广度搜索基准

现有网页智能体基准主要测深度搜索,缺乏广度枚举能力评估。Ko-WideSearch 是韩语广度搜索基准,通过自动化合成-验证流程构建。任务要求从集合父实体(如电视剧季、王朝)中完整列举成员并填充属性表,采用 Item-F1、Column-F1、Row-F1 评分。基准含 228 张表格,覆盖 190 个实体、16 个类别,设三个难度层级,通过表宽和二维复合键控制成员覆盖率。对 20 个智能体的测试显示,智能体能恢复集合但无法填充行(Item-F1 92.8,Row-F1 53.7),难度提升准确率下降,增加搜索或花费无法缩小差距;难点在找到正确值而非格式化,自由文本单元格失败率最高。

智能体arXiv搜索论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
65
Qwen-Image-Agent:弥合真实图像生成中的上下文差距

针对文本到图像模型处理隐含、未明确或依赖最新知识的真实请求时出现的“上下文差距”,Qwen-Image-Agent 提出统一智能体框架,以上下文为中心整合规划、推理、搜索、记忆与反馈。其 Context-Aware Planning 识别缺失上下文并规划获取路径,Context Grounding 通过推理、搜索、记忆和反馈收集上下文。新基准 IA-Bench 涵盖规划、推理、搜索、记忆四项能力。在 IA-Bench、Mindbench 和 WISE-Verified 上,Qwen-Image-Agent 超越强基线,取得最优性能。

智能体图像生成论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
41
OPID: 智能体强化学习的在线策略技能蒸馏

OPID从在线策略轨迹中提取技能监督,构建分层技能:回合级技能捕获全局流程,步骤级技能捕获关键局部决策。关键优先路由机制在决策关键时使用步骤级技能,默认回退至回合级。技能注入交互历史后,旧策略在原始与技能增强上下文下重新评分同一响应,产生token级自蒸馏优势,与结果优势结合优化策略。在ALFWorld、WebShop和Search-based QA上,OPID相比纯结果RL和现有技能蒸馏基线提升了智能体性能、样本效率和鲁棒性。

智能体数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
面向鲁棒视频理解的置信感知工具编排

视频推理模型假设每帧可靠,在运动模糊、眩光等扰动下准确率下降15–30%p。Robust-TO框架将每帧信任度融入推理各阶段:通过统一接口组织异构视觉工具,每个工具接收子查询和经可靠性-相关性评分筛选的可信帧,返回预测、时间定位和校准可靠性分数。推理时分数指导三层次综合(高/中/低)与置信-成本GRPO奖励,联合优化正确性、可靠性和效率。在八个任务上,Robust-TO清洗输入准确率56.4%,超过最强开源基线10.6%p和Gemini-2.5-Pro(46.2%);五种腐蚀下保持54.3%,高出最强开源基线5.8%p,且准确率下降最小。

智能体具身智能多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
65
何时结合语言模型有帮助?跨越67个前沿模型的路由、投票和混合智能体的共同失败上限

多模型LLM系统(路由、投票、级联、融合、混合智能体)的准确率提升受限于共同失败上限1−β(β为所有模型在同一查询上均出错的比率)。在21家供应商的67个模型上,开放数学题实际β=0.052,是高斯copula预测值0.023的2.5倍;代码任务β=0.079;GPQA-Diamond自由回答形式β=0.127。低相关异质集成优于高相关Self-MoA,但组合模型很少击败单一最佳模型,除非有强查询级路由信号。收益来自模型在不同问题上犯错,而非增加模型数量。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
GauntletBench:在陌生环境中重新评估AI智能体能力

GauntletBench是一个基于网络的基准测试,用于评估AI智能体在陌生场景中的泛化能力,聚焦时间感知、图形理解与3D推理三项未被充分探索的能力,覆盖视频编辑器、工作流构建器、3D建模器、飞行分析器和电路设计器五个专业应用,每项包含20个视觉密集型任务(共100个)。测试结果显示,最先进智能体的成功率仅19.1%,而人类非专家可达80%以上,凸显当前智能体与复杂现实场景之间的显著差距。

智能体论文/研究评测/基准
07:37
TechCrunch:AI(RSS)
58
前Infosys CEO Vishal Sikka创立Hang Ten Systems,挑战IT服务行业

Hang Ten Systems是一家企业AI服务公司,由前Infosys CEO Vishal Sikka创立,旨在通过AI驱动的开发和自动化帮助企业持续构建、修改和运营软件。公司完成3200万美元种子轮融资,由Mayfield领投,Aramco Ventures战略投资,雅虎联合创始人Jerry Yang担任董事会成员。Hang Ten已与Siemens Gamesa Renewable Energy和Fresenius合作进行AI原生项目交付,围绕智能体代码生成、可复用AI技能和领域专业知识构建服务。公司总部位于湾区,正在全球多地招聘。

智能体编码行业动态
07:19
宝玉@dotey
64
AI处理播客访谈:多稿合并法避免细节遗漏

针对长达3小时播客访谈用AI生成文章时容易遗漏细节的问题,常见做法是连续追问“还有什么细节需要补充?”三次左右(甚至可做成Agent Skill)。但作者采用不同策略:同时让AI生成2-3份稿子,挑选最佳一份作为底稿,再将其它稿子的内容手动合并进来。这样既能避免细节遗漏,也能防止单次生成质量差导致后续追问难以提升质量。

向阳乔木: 长达3个小时的播客访谈,如果原文提供给AI生成文章。 经常会漏掉一些细节,所以我会连续追问几次: "还有什么细节需要补充吗?" 一般三次左右就差不多,感觉应该做成一个Agent Skill。 哪怕同一个模型,连续追问也能改善质量。 当然,目...

智能体教程/实践
06:58
IT之家(RSS)
50
消息称谷歌 Gemini 3.5 Pro 发布时间推迟至 7 月,旨在优化模型性能

据 Business Insider 获悉,谷歌下一代大语言模型 Gemini 3.5 Pro 原定 6 月上线,现推迟至 7 月,以收集更多早期测试用户反馈并进行优化。该模型在 5 月 I/O 开发者大会预告,CEO 皮查伊称将于“次月”发布。部分用户已通过谷歌“Antigravity”平台及 LMArena 进行体验。新模型预计在长文本任务和驱动 AI 智能体方面提升性能,并融入了 Flash 3.5 用户反馈,包括 token 消耗过快问题。

智能体Google推理行业动态
06:54
karminski-牙医@karminski3
55
聊聊智谱市值破万亿为什么不是高估

作者在自研的硅基骑手参考评测(silicon-rider-bench)中累计测试30个模型,发现智谱GLM系列Agent能力持续进化:GLM-5首次实现反思自身行为并主动少接单提准时率;GLM-5.1首创送顺路单,路径效率低于单次配送理论值;GLM-5.2只需看一次地图便记住全部地点与换电站位置,无需调用search_nearby_battery_stations(),大部分tool_call用于推进任务,分数断崖式领先。直至kimi-k2.7-code出现前,无模型超越GLM-5(2月发布),智谱Agent训练领先其他国产模型2-4个月、最大2个代差。故市值破万亿从技术层面并非高估。

智能体大佬观点
06:47
Artificial Analysis@ArtificialAnlys
61
Artificial Analysis 发布 AA-Briefcase 智能体知识工作基准测试

Artificial Analysis 发布 AA-Briefcase 基准测试,测试模型在多周项目语境下生成财务模型、董事会演示等交付物。关键结果:Claude Opus 4.8 平均每任务 23 分钟,得分最高但最慢;GPT-5.5 (xhigh) 仅 11 分钟,效率最高且 Elo 前五;GLM-5.2 得 1261 分耗时 16.3 分钟,为开源模型最佳;MiniMax-M3 得 1113 分。已下架的 Claude Fable 5 约需 28.5 分钟。工具调用仅占耗时 12%,其余由输出冗余、回合数和推理速度决定。

智能体AnthropicOpenAI推理
06:23
elvis@omarsar0
46
Eric Xing论文定义智能体"五维度"框架

Elvis Saravia 推荐一篇试图明确“智能体”定义的论文。Eric Xing 及其同事从哲学与科幻视角出发,分析智能体架构的五维度:目标、身份、决策、自我调节和学习。论文指出,真正“智体性”需这些维度以特定方式组合,从而区分自动化与智能体。论文地址:arxiv.org/abs/2606.23991。

智能体论文/研究
05:50
Rohan Paul@rohanpaul_ai
42
前高盛高管Raoul Pal:智能体AI将吞噬传统软件/SaaS

前高盛高管Raoul Pal在访谈中指出,若产品仅是软件,智能体AI可随时复刻、优化并重新部署。他将智能体AI比作专家网站Fiverr,能自动完成建站、编码、域名注册、品牌策划、营销及邮件列表等全流程。他设想用户只需对AI说“把Steven的网站做得更好”,AI便能在3分钟内完成。这引发了关于AI将吞噬软件、软件创业者未来出路的讨论。

智能体大佬观点现象/趋势
05:46
ClaudeDevs@ClaudeDevs
41
当 Claude 与四人一同在频道中工作时,它使用谁的凭证? 答案:它自己的。标注 Claude 时,Claude 会像其他队友一样被配置,拥有自己的凭证。 我们将这种访问模型称为"智能体身份"。其工作原理如下: 🧵
智能体Anthropic教程/实践
05:29
Hacker News 热门(buzzing.cc 中文翻译)
71
Gemini 3.5 Flash 中的计算机使用

Google 将计算机使用(Computer use)作为内置工具集成至 Gemini 3.5 Flash,使开发者能构建跨浏览器、移动端和桌面环境的智能体。此前该功能仅作为独立模型在 Gemini 2.5 中提供,现已原生整合至主 Flash 模型。开发者可通过 Gemini API 及 Gemini Enterprise Agent Platform 调用。安全方面,模型采用针对性对抗训练降低提示注入风险,并新增两项可选企业级保护:要求用户确认敏感操作、检测到间接提示注入时自动停止。该能力在持续软件测试、跨应用知识工作等长周期企业自动化场景中表现更优。(198字)

智能体GoogleMCP/工具模型发布
关联讨论 2 条X:Google AI for Developers (@googleaidevs)Google DeepMind:Blog(RSS)
‹ 上一页
1…910111213…50
下一页 ›