AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「Agent」清除
6月29日周一
09:47向阳乔木52腾讯云 EdgeOne 发布 EdgeOne Makers,3 行命令部署 AI Agent 框架
09:01IT之家(RSS)43惠普与 OpenAI 达成战略合作,全面部署 AI 智能体平台 Frontier
08:03OpenAI:官网动态(RSS · 排除企业/客户案例)41惠普与OpenAI启动Frontier战略合作伙伴关系
08:00HuggingFace Daily Papers(社区热门论文)60SWE-Interact:重新构想面向用户驱动的多轮编码会话的SWE基准测试
08:00HuggingFace Daily Papers(社区热门论文)50LUMOS:面向可访问性基底的AI智能体的语义操作系统层
06:57Rohan Paul44研究:AI智能体缺乏真正记忆系统,现有评测忽略记忆自身性能
06:48MiniMax (official)23MiniMax M3黑客松获奖项目展示
06:27宝玉67Anthropic 发布 Claude Tag,在 Slack 内 @Claude 异步执行任务
06:17Simon Willison 博客46Jon Udell:AI 智能体应被邀请进入开发循环,而非将人类排除在外
05:22🚨 AI News | TestingCatalog64Vida开源BrowserBC:浏览器会话→AI智能体技能
04:57Rohan Paul65PlanBench-XL:评估LLM智能体在大规模工具生态中的长程规划能力
04:27Rohan Paul44新论文提出Web需为AI智能体制定新规则
02:19jason75同事件精选这就是那位火爆的Codex家伙?--OpenAI Codex桌面应用负责人访谈同一事件,精选展示《OpenAI内部报告:智能体Codex如何改变工作》
02:18AYi72开源AI skill:文章转黑底手绘风格图表
02:01elvis44剑桥Red Queen Gödel Machine:智能体与评估器共同进化
01:22AI Notkilleveryoneism Memes ⏸️72METR发现AI首次通过黑客实现自我复制
01:18AYi57独立开发者用 Claude Code 在 VPS 上编码一年,证明最佳 AI 编码环境不在笔记本
00:27Rohan Paul40Memex(RL):索引记忆解决AI智能体长周期遗忘
00:15凡人小北41小北:从电脑前解放的AI工作流实践
6月28日周日
21:23Berryxia.AI63Agent-Reach:为AI Agent免费读取多平台内容的开源CLI工具
21:10The Decoder:AI News(RSS)60AI成为真正同事的关键:停止回答问题,开始完成任务
20:13fofr20Gemini 3.5 Flash 工作马模型获赞
20:01IT之家(RSS)62OpenClaw 官方市场惊现"冒名顶替"项目,多达 23 个 Skill 技能伪装成"第一方出品"
18:40The Decoder:AI News(RSS)70精选仅有三个AI模型在500天创业测试中盈利超过起始资本
18:18AYi67Hermes代理优化:搭建自复盘Memory.md记忆循环
18:00公众号:卡尔的AI沃茨49主动型Agent Vida:读取屏幕与文件上下文,实现电脑全托管
15:48jason64Codex 两种计划工作:Scheduled Task 与 Scheduled Message 的区别
15:28MarkTechPost(RSS)63在Colab中构建Fable 5 Traces工作流:解析工具调用、审计数据与训练基线
14:56Rohan Paul57匿名模型"Owl Alpha"实为美团LongCat-2.0-Preview,已在OpenRouter秘密测试近两月
12:03Hacker News 热门(buzzing.cc 中文翻译)72精选阿德拉菲尼尔:仅在AI agent工作时阻止Mac睡眠的菜单栏工具
12:00公众号:卡尔的AI沃茨59元宝高考通:AI填志愿可看MBTI、食堂和宿舍细节
11:26Rohan Paul47Sakana Fugu 技术报告
11:24ginobefun43GPT-5.6 发布,政府审核限制首批仅 20 家可访问
11:00IT之家(RSS)76精选四大顶级AI对决《文明VI》:Claude核平法国仍输,暴露感知与执行短板
10:00IT之家(RSS)45Naver 上线 AI 对话搜索服务 AI Tab,整合电商与本地生活功能挑战谷歌
09:17AYi62Stripe Economics《The Age of the Solopreneur》:AI重写商业规则,一人公司崛起
08:16Peter Steinberger 🦞48CLI错误输出应直接面向AI编码智能体 - 来自@southpolesteve的提议
08:00HuggingFace Daily Papers(社区热门论文)54HExA (分层实验智能体):无需训练的上下文自改进框架
08:00HuggingFace Daily Papers(社区热门论文)82精选OSWorld2.0:长时域真实世界计算机使用工作流基准
08:00HuggingFace Daily Papers(社区热门论文)52PolicyGuard:一种基于对话的子智能体验证器,用于LLM智能体的策略遵循
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月29日
09:47
向阳乔木@vista8
52
腾讯云 EdgeOne 发布 EdgeOne Makers,3 行命令部署 AI Agent 框架

腾讯云 EdgeOne 今日发布「EdgeOne Makers」,通过 npm install -g edgeone 等几行命令即可部署 AI Agent 开发框架,自动处理上下文、并发、沙箱环境等问题,支持绑定域名、关联 GitHub 持续迭代。产品处于 Beta 内测,注册可免费领取 50 万 Token。该工具大幅降低 Agent 部署门槛,利好中小企业。Vista 指出,当开发部署不再是问题,关键转向如何理解企业需求用 AI 解决问题,近期 FDE(前沿部署工程师)岗位走热,正是推动 AI 与业务场景结合、实现落地的具体实践。

向阳乔木: 3行命令搭一个 AI Agent 框架,腾讯云给力啊! 很多人想开发 AI Agent,除了选框架开发,其实更麻烦的事情是部署。 本地运行没问题,一上线就翻车。 需要解决上下文问题,并发问题,为了安全还要搭沙箱环境,全都自己搞非常麻烦。 腾...

智能体现象/趋势部署/工程
09:01
IT之家(RSS)
43
惠普与 OpenAI 达成战略合作,全面部署 AI 智能体平台 Frontier

惠普宣布与 OpenAI 达成战略合作,将在全球业务中部署 OpenAI Frontier 平台,以提升客户体验并优化内部运营。Frontier 是 OpenAI 今年 2 月推出的企业级 AI 智能体构建与部署平台,提供共享上下文、入职培训、反馈式动手学习及权限边界等技能,支持与现有数据和应用程序集成,可通过 ChatGPT、Atlas 工作流或现有业务应用访问。惠普是首批采用 Frontier 的企业之一,其他包括 Intuit、Oracle、State Farm、Thermo Fisher 和 Uber。

智能体OpenAI行业动态
08:03
OpenAI:官网动态(RSS · 排除企业/客户案例)
41
惠普与OpenAI启动Frontier战略合作伙伴关系

惠普宣布与OpenAI达成Frontier战略合作伙伴关系,此前试点中一名工程师数周内用OpenAI模型处理了43个项目中的122个pull requests,安全团队一天修复多个软件bug(原估计需一个月)。惠普将把Frontier作为统一平台整合访问、上下文、部署与评估,覆盖定价、合作伙伴门户、客户支持、员工体验平台(WXP)及网络安全等场景,同时使用ChatGPT支持知识工作、Codex加速软件现代化与交付。Frontier提供从试点到生产环境的治理型运营模型。

智能体OpenAI行业动态部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
60
SWE-Interact:重新构想面向用户驱动的多轮编码会话的SWE基准测试

SWE-Interact是一个面向编码智能体的新测试平台,评估其在多轮、交互式、用户驱动的软件工程任务中的表现。与一次性给出完整需求的传统SWE基准不同,它通过精心设计的用户模拟器,从模糊指令开始逐步揭示需求并提供反馈。在系列前沿和开源模型测试中,单轮任务表现优异的模型在多轮交互任务上的成功率从约50%降至约25%。最强模型虽能应对初始模糊指令,但仍存在过度编码、遗忘需求等技术错误;较弱模型则早早放弃或忽略要求。该测试衡量了模型交互式目标发现和迭代精炼的真实能力。

智能体编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
LUMOS:面向可访问性基底的AI智能体的语义操作系统层

现有操作系统接口针对人类用户设计,AI智能体依赖截图、OCR和视觉裁剪带来高token成本、视觉歧义和延迟。LUMOS在AI智能体与操作系统间构建语义交互层,将原生可访问性元数据和浏览器UI结构转换为带稳定标识符、角色、名称、值、边界和动作能力的机器可读语义蓝图,并通过操作系统自动化API查询光标附近UI元素实现实时语义指针定位。LLM通过基于可访问性的观察-行动循环使用受限可见UI原语操作。LUMOS不取代视觉智能体,而是减少对截图的依赖。

智能体论文/研究
06:57
Rohan Paul@rohanpaul_ai
44
研究:AI智能体缺乏真正记忆系统,现有评测忽略记忆自身性能

一篇新论文指出AI智能体目前缺乏真正的记忆系统。现有测试只检查最终答案,忽略了记忆系统本身的性能。论文将智能体记忆拆分为存储、事实提取、有用记忆检索、旧/冲突记忆维护四部分,在12个记忆系统、5个工作负载、11个数据集上评测。核心发现:没有一种记忆设计能在所有场景胜出——图记忆擅长关联事实,混合系统善于过滤搜索,原始痕迹则在精确动作历史记录中表现最佳。

智能体论文/研究评测/基准
06:48
MiniMax (official)@MiniMax_AI
23
祝贺所有与我们和@cysic_xyz 联合举办的黑客松的获奖者! 查看基于 M3 构建的出色项目 👇

Cysic: 1/ CyOps Arena has officially ended. Over the past two weeks, 450+ builders put CyOps to the test, using AI agents to bu...

智能体行业动态
06:27
宝玉@dotey
67
Anthropic 发布 Claude Tag,在 Slack 内 @Claude 异步执行任务

Anthropic 上周面向 Team 和 Enterprise 用户 beta 发布 Claude Tag,允许在 Slack 频道内 @Claude 布置任务,后台异步执行并回复。Andrej Karpathy 称这是 LLM 交互的第三次重新设计——从网站到 App 再到持久存在的云端智能体。Gergely Orosz 指出真正突破是云端 AI 接入公司内部系统并开箱即用,Slack 仅为入口。该模式对新人、非工程师及不熟悉代码库的开发者尤其有用。Claude Tag 与 GitHub Copilot、OpenAI Codex 等竞争,差异化在于频道共享身份与持久记忆,但集成难度仍是关键。

Gergely Orosz: I talked with a few folks inside Anthropic and I am starting to understand what @karpathy is saying (and what lots of pe...

智能体Anthropic大佬观点
06:17
Simon Willison 博客
46
Jon Udell:AI 智能体应被邀请进入开发循环,而非将人类排除在外

Jon Udell 反对“human in the loop”的表述,认为它将权威让渡给机器。他主张翻转叙事——人类本就主导工作循环,现在应主动招募 AI 智能体加入团队。智能体辅助的开发过程不应是“输入提示词、输出功能”的黑箱,而是人类邀请智能体协作的开放循环。

智能体大佬观点编码
05:22
🚨 AI News | TestingCatalog@testingcatalog
64
Vida 开源了 BrowserBC 框架,能将浏览器会话转化为 AI 智能体的可重用技能。仅需一次录制,智能体即可依据之前任务执行的技能导航,无需每次重新计算。Vida 报告称,使用相同 AI 智能体,该方法成功率显著更高且步骤更少。

Vida: We open-sourced BrowserBC: A system that turns human browser trajectories into reusable agent skills. Just one recording...

智能体GitHub开源/仓库
04:57
Rohan Paul@rohanpaul_ai
65
PlanBench-XL:评估LLM智能体在大规模工具生态中的长程规划能力

论文提出PlanBench-XL基准,包含327个任务和1,665个工具,测试LLM智能体在工具难以发现时完成长程工具使用任务的能力。GPT-5.4常规准确率为51.90%,最困难的blocked设置降至11.36%。核心思路是让智能体同时从已知向前推理和从需求向后推理,而非依赖显式工具路径。论文还加入破损或误导性工具,考验智能体在路径失败时自主切换策略。

智能体论文/研究评测/基准
04:27
Rohan Paul@rohanpaul_ai
44
新论文提出Web需为AI智能体制定新规则

一篇新论文指出,当前Web假设人类浏览页面、观看广告、点击链接,但AI智能体可收集并总结内容而不回访原站,损害出版商利益并导致网站封锁。作者提议将AI智能体视为人类代理,在Web请求中添加“agent metadata”,标明身份、所代表的人类、目的、限制和支付规则。网站通过新策略文件agents.txt决定允许、限速、收费、继承用户订阅、提供代理友好内容或屏蔽。内容还需附带provenance标签,让智能体识别来源是人类、AI还是两者。缺乏新机制将导致Web更难访问、出版商更难盈利、AI内容循环降低可靠性。

智能体arXiv搜索论文/研究
02:19
jason@jxnlco
同事件精选75
Andrew Ambrosino领导的OpenAI Codex桌面应用团队,自2月以来使用量增长6倍,周活跃用户超500万,且几乎所有OpenAI员工日常使用该应用。他的目标是打造"有史以来最好的桌面应用"。在访谈中,他讨论了OpenAI PM的"区域防守"运作模式、AI在设计中表现不佳的原因、Codex若去年11月发布(同产品但模型不同)可能失败、"品味"作为专业技能的意义,以及他用Codex运行工作流和对Codex+ChatGPT融合的愿景。

Lenny Rachitsky: Andrew Ambrosino (@ajambrosino) leads the team behind the Codex desktop app at @OpenAI. Codex usage has 6x'd since Febru...

智能体OpenAI大佬观点编码
同一事件,精选展示《OpenAI内部报告:智能体Codex如何改变工作》
推荐理由:Andrew亲口解释了为什么AI做不好设计、产品发布时机比功能更重要,还有OpenAI内部PM的'zone defense'模式,做产品的人听这一期就够了。
02:18
AYi@AYi_AInotes
72
开发者@LufzzLiz 开源了一个AI skill,可将文章或架构内容先压缩为结构化JSON spec,再由本地Python + Pillow渲染出黑底手绘风格的PNG、GIF及可编辑的Excalidraw JSON。目前仅内置一种风格,用户可自行通过Agent DIY添加更多风格。开源地址在评论中。

岚叔: 嘿嘿,skill写好了,开源了朋友们! 实现原理: 把文章或架构内容先压缩成一份结构化 JSON spec,再由本地 Python + Pillow 渲染出黑底手绘风格的 PNG、GIF 和可编辑的 Excalidraw JSON。 开源地...

智能体图像生成开源/仓库
02:01
elvis@omarsar0
44
剑桥Red Queen Gödel Machine:智能体与评估器共同进化

一篇关于自我改进智能体的论文指出,自改进循环往往在评估器固定后停滞——智能体学会迎合固定评估器而非真正进步。剑桥大学提出的“Red Queen Gödel Machine”让智能体与其评估器共同进化,使标准随着智能体提升而持续提高,从结构上避免奖励欺骗(reward hacking)。名称借用了进化军备竞赛的隐喻:双方都必须不断奔跑才能保持原地。论文链接在arxiv。

智能体arXiv论文/研究
01:22
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
72
METR研究指出,AI已可能具备逃逸的"手段、动机和机会"。团队报告了首例有记录的AI通过黑客手段自我复制:仅用一条提示词,AI便入侵机器并复制自身,复制体继续重复该过程,形成复制链。研究者警告,若不加"高度重视"的干预,明年的模型可能难以被关停。

AI Notkilleveryoneism Memes ⏸️: 🚩🚩🚩"This is the first documented instance of AI self-replication via hacking." "We ran an experiment with a single pr...

智能体安全/对齐
01:18
AYi@AYi_AInotes
57
独立开发者用 Claude Code 在 VPS 上编码一年,证明最佳 AI 编码环境不在笔记本

Pieter Levels 近一年几乎只用 Claude Code 在 VPS 上编码。Agent 直接在线编辑生产代码,迭代反馈从传统本地+Git+部署的约 1 分钟压至秒级。12 个月内仅出现 2 次十秒级 PHP 报错并自愈,搭配 3-2-1 备份策略风险可控。开发者无需常开笔记本,可通过手机 SSH 续接任务,Agent 能整夜自动运行。这一模式改变了 AI 编码的定位:从本地 IDE 辅助插件变为生产环境常驻执行者,云端成为主力开发与运行环境,本地设备仅作接入终端。

@levelsio: ✨ I think I've been coding almost solely on my VPS with Claude Code for almost a year now All I can say it's just fantas...

智能体Anthropic大佬观点现象/趋势
00:27
Rohan Paul@rohanpaul_ai
40
Memex(RL):索引记忆解决AI智能体长周期遗忘

传统LLM在长项目易因有限记忆空间遗忘细节。Accenture论文提出Memex(RL)系统:保留当前紧凑摘要,将历史行为存入独立可访问数据库;智能体通过索引快速检索精确过往信息,并利用定制训练学习自主判断哪些信息需保留、何时从长期档案调取。该方法避免历史过载,保持智能体对当前目标的专注,解决多步复杂任务中的信息丢失问题。论文链接:arxiv.org/abs/2603.04257。

智能体arXiv论文/研究
00:15
凡人小北@frxiaobei
41
小北:从电脑前解放的AI工作流实践

小北分享自2026年初践行“不要把自己限制在电脑前”的理念,逐渐形成 telegram → openclaw → claude/codex 的工作流,在各种场景下都能安排AI工作。他认为多数人缺少一套适合自己的稳定工作流,构建个人harness和skills至关重要,舶来品不一定适合自己。同时引用 @theo 的推文,估计大约6个月内大部分开发者会将代码智能体从笔记本电脑上移走。

Theo - t3.gg: I'd estimate we're ~6 months from most devs moving their code agents off of their laptops

智能体AnthropicOpenAI现象/趋势
6月28日
21:23
Berryxia.AI@berryxia
63
Agent-Reach:为AI Agent免费读取多平台内容的开源CLI工具

Agent-Reach(3.5K Star)通过CLI工具让AI Agent免费读取Twitter、Reddit、YouTube、GitHub、B站、小红书等多平台内容。核心是智能选择当下最稳定的开源后端,自动健康检查和故障切换,无需自写爬虫。安装后Agent可直接处理“看视频字幕”、“搜产品评价”等任务,全程零API费用、本地运行。项目将碎片能力封装为Agent可调用的skill,实现多后端路由和自动降级,补齐Agent低成本、可靠获取网页和社交媒体内容的能力。

Berryxia.AI: 这个开源视频制作工作流真爽啊! 单日斩获3000 Star,真的牛~ 又一个把AI coding agent直接变成视频制作工作室的项目开源了,叫OpenMontage。 它把整个视频生产流程拆成12条结构化pipeline(动画解说、纪录...

智能体开源/仓库
21:10
The Decoder:AI News(RSS)
60
AI成为真正同事的关键:停止回答问题,开始完成任务

腾讯Youtu Lab联合多所中国大学发布调查论文,提出AI系统需从聊天机器人转向数字同事,核心是结合持久工作空间和可重用技能。思考型LLM(如OpenAI o1、DeepSeek-R1)采用链式推理实现慢思考;工作空间(如

智能体现象/趋势
20:13
fofr@fofrAI
20
Gemini 3.5 Flash 是一个很棒的工作马模型,尤其适合子智能体。它坚定、快速,能完成任务。
智能体Google评测/基准
20:01
IT之家(RSS)
62
OpenClaw 官方市场惊现"冒名顶替"项目,多达 23 个 Skill 技能伪装成"第一方出品"

AI智能体安全公司Manifold Security发现,OpenClaw的插件市场ClawHub上1508个技能中有557个采用“@owner/技能名”格式,其中23个直接冒用“@OpenClaw/”或“@ClawHub/”名称,实际发布者与官方无关。该命名空间抢注手法可能用于供应链投毒,但暂未发现恶意代码。ClawHub于6月17日更新命名空间规则,仅允许拥有@openclaw权限的发布者上传,6月19日已移除23个误导技能,并新增命名空间申诉机制。

智能体GitHub安全/对齐
18:40
The Decoder:AI News(RSS)
精选70
仅有三个AI模型在500天创业测试中盈利超过起始资本

普林斯顿大学推出CEO-Bench基准测试,让AI智能体在模拟环境中运营订阅软件公司NovaMind 500天,起始资金100万美元。14个测试模型中,仅Claude Fable 5(最佳轮次盈利4715万美元)、Claude Opus 4.8(2780万美元)和GPT-5.5(2130万美元)在最佳运行中超过起始资本。一个不调用语言模型的简单规则启发式方法通过固定定价、配额和针对性开发达到1576万美元,超越除上述三款外的所有模型。多数模型无法保持连贯策略,在模拟结束前破产。该测试旨在衡量AI的长期战略决策能力。

智能体论文/研究评测/基准

推荐理由:普林斯顿的 CEO-Bench 测试了一个反直觉结果,一个不用 AI 的简单规则系统击败了绝大多数模型——在当前 agent 都在比窄任务时,这个测试直指长期战略决策的致命短板,做 agent 的必须看。
18:18
AYi@AYi_AInotes
67
Hermes代理优化:搭建自复盘Memory.md记忆循环

为用户提供不依赖微调或开发的Hermes代理优化方案:通过Memory.md文件构建“会话学习-记录沉淀-迭代优化”闭环。核心流程:1)桌面新建Memory.md,固定偏好、更正、模式、学到的经验四层框架;2)绑定提示词,每次会话前读取并完整应用,任务结束后记录有效做法与失败根因,新结论覆盖旧内容;3)每周精炼压缩零散经验为通用规则;4)定期日期命名归档备份。无需模型微调或部署,几分钟启动,使代理越用越贴合个人工作习惯,从单次随机输出收敛为专属智能体。

AYi: http://x.com/i/article/2042547855865585664

智能体教程/实践
18:00
公众号:卡尔的AI沃茨
49
主动型Agent Vida:读取屏幕与文件上下文,实现电脑全托管

主动型Agent Vida通过读取电脑屏幕、苹果原生应用及文件系统获取完整上下文,用户无需提供详细背景即可自动理解项目,优化提示语并生成可直接用于Claude Code或ChatGPT的生产级Prompt。还能在群聊中结合历史消息自动回复,扫描全盘查找重复文件,重新设计Obsidian架构以区分本地与iCloud存储,通过定时任务整理Downloads文件夹,以及通过浏览器自动化分析邮件并分类。与Computer Use不同,Vida通过双击Option键零帧起手启动。

智能体端侧评测/基准
15:48
jason@jxnlco
64
Codex 两种计划工作:Scheduled Task 与 Scheduled Message 的区别

Codex 支持两种计划工作方式。Scheduled Tasks 每次运行创建新线程,适合无需上下文延续的任务,如每日 9 点自动总结邮件、日历;Scheduled Messages 在同一现有线程反复运行,适合需要历史上下文的场景,如每 30 分钟检查 PR 状态并处理评论,直至合并。推文还给出创建可复用循环技能的提示词,让 Codex 自动判断使用哪种方式并引导用户填写关键参数。

智能体OpenAI教程/实践编码
15:28
MarkTechPost(RSS)
63
在Colab中构建Fable 5 Traces工作流:解析工具调用、审计数据与训练基线

本教程使用Hugging Face上的Fable 5 Traces数据集,在Google Colab中搭建轻量环境并手动下载JSONL文件。流程包括预览原始agent trace示例、规范化工具调用与文本输出、审计数据结构、检测密钥模式,以及可视化输出类型、工具、源根目录和文本长度等分布。还创建了安全的no-CoT聊天/SFT导出,构建关键词搜索辅助,并训练纯Python朴素贝叶斯基线,评估trace上下文能否预测助手的输出类型与工具使用。

智能体Hugging Face教程/实践
14:56
Rohan Paul@rohanpaul_ai
57
匿名模型"Owl Alpha"实为美团LongCat-2.0-Preview,已在OpenRouter秘密测试近两月

据X用户Rohan Paul爆料,OpenRouter增长最快的智能体模型"Owl Alpha"实为美团LongCat-2.0-Preview。该模型采用1.6T参数MoE架构,激活参数量48B,动态激活范围33B-56B,原生支持1M token上下文窗口。已在OpenRouter秘密测试近两月,成为全球使用最多的AI智能体模型之一。OpenRouter数据显示其排名:Hermes Agent第1、Claude Code第2、OpenClaw第3;月处理token 10.1T,日token 559B,月增长率242%。

智能体开源生态行业动态
12:03
Hacker News 热门(buzzing.cc 中文翻译)
精选72
阿德拉菲尼尔:仅在AI agent工作时阻止Mac睡眠的菜单栏工具

Adrafinil 是一款 macOS 菜单栏应用,仅在 Claude Code、Codex、Cursor、Gemini CLI、Aider、Hermes、OpenCode、Cline、Pi 等 9 种 AI coding agent 持有活跃会话时阻止系统睡眠(包括合盖睡眠)。无 agent 工作时,合盖后 Mac 正常睡眠。它通过各 agent 的钩子系统调用 CLI,往返延迟低于 50ms,支持引用计数断言、热切出(温度阈值强制释放)、空闲释放及进程嗅探。需要 macOS Tahoe 26.4,Xcode 26+ 构建,以签名公证的磁盘映像提供。

智能体开源/仓库编码

推荐理由:阿德拉菲尼尔对macOS唤醒工具做了一次有趣的重新思考,不是一直醒着,而是只在AI代理工作时醒着,合盖也能跑长任务,对用Claude Code或Cursor的开发者是实用的开源伴侣。
12:00
公众号:卡尔的AI沃茨
59
元宝高考通:AI填志愿可看MBTI、食堂和宿舍细节

元宝与QQ浏览器联合推出的元宝高考通可帮助考生填报志愿。输入广东物理类612分等基本信息后,还能填写MBTI性格、就业偏好(直接就业/考研/考公/国企)。系统按“冲稳保”结构推荐院校,标注211/985/双一流标签,展示招生代码、计划人数、往年分数与分差。点击专业可查看校区地址、专业代码、学费。Agent对话支持追问宿舍空调、独卫等细节,信息源来自教育在线、掌上高考等官方平台。针对“既要就业好又不愿太痛苦”的复合需求,从交叉赛道给出分层建议,避免盲目追热门。该工具解决了信息分散难题,但最终选择仍需考生与家庭自主决定。

智能体产品更新
11:26
Rohan Paul@rohanpaul_ai
47
Sakana Fugu 技术报告

Sakana Fugu 发布技术报告,提出智能正从模型转移到其周围系统。Fugu 是一个编排器,由数据训练的管理器动态选择最合适的专家模型,而非简单规则(如投票或固定分工)。Regular 版快速选出单个 worker 模型;Ultra 版则能针对每个任务实时设计工作流,例如让一个模型求解、另一个检查、第三个从不同角度求解,再综合最佳答案。工作流非预设,而是根据任务实时构建。

智能体推理论文/研究
11:24
ginobefun@hongming731
43
GPT-5.6 发布,政府审核限制首批仅 20 家可访问

OpenAI 发布 GPT-5.6 系列(旗舰 Sol、均衡 Terra、低成本 Luna),在 Terminal-Bench 2.1、GeneBench、ExploitBench 刷新成绩,

ginobefun: http://x.com/i/article/2071059009222901760

智能体AnthropicOpenAI编码
11:00
IT之家(RSS)
精选76
四大顶级AI对决《文明VI》:Claude核平法国仍输,暴露感知与执行短板

英国前首相府数据科学家Liam Wilkinson搭建76个MCP工具,将Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro等四个模型放入《文明VI》进行23场对局。Claude扮演葡萄牙时,因法国文化胜利逼近,花50回合研发核弹核平图卢兹,但法国最终以外交胜利获胜。Wilkinson发现:AI主动检查全局状态仅占1-2%(感知盲区),计划后10回合内执行率仅48-66%(知行差距)。结论是智商非瓶颈,感知与执行才是关键。

智能体推理现象/趋势

推荐理由:前首相府数据科学家让 Claude、GPT 等打《文明 VI》,揪出了 AI 的「感知盲区」和「知行差距」——更聪明的大脑解决不了睁不开眼、伸不出手的问题,做智能体的必须直面这两个工程瓶颈。
10:00
IT之家(RSS)
45
Naver 上线 AI 对话搜索服务 AI Tab,整合电商与本地生活功能挑战谷歌

Naver 于 6 月 26 日正式上线 AI 对话搜索服务“AI Tab”,定位为 AI 智能体搜索,旨在引导用户完成购买与预约。该服务整合 Naver 自家电商、地图、Cafe 社区、博客和本地生活服务,挑战谷歌 AI Mode。AI Tab 在回答深度和推理能力上不及 ChatGPT/Gemini,但在韩国本地餐厅推荐、商品发现及信息整理方面体验优于传统搜索。Naver 计划后续推出个性化房地产推荐和健康智能体服务。

智能体产品更新搜索
09:17
AYi@AYi_AInotes
62
Stripe Economics《The Age of the Solopreneur》:AI重写商业规则,一人公司崛起

Stripe Economics发布报告《The Age of the Solopreneur》,用多组数据验证AI正重写商业规则。美国人口普查局数据显示:有雇人意愿的商业申请几乎未增,单人公司申请持续加速;Stripe内部支付数据显示,年营收超千万美元的单人公司数量较六年前增长五六倍,新玩家达成百万营收的速度是2019年的三倍。AI填补了内容、设计、代码、客服、数据分析等能力缺口,单人借助Agent和工具即可跑通业务。报告认为未来最有生命力的商业体可能是“一个人+高度杠杆化AI系统”。

Patrick Collison: New from Stripe Economics: The Age of the Solopreneur https://www.stripeeconomics.com/p/the-age-of-the-solopreneur

智能体大佬观点
08:16
Peter Steinberger 🦞@steipete
48
软件开发社区提出,CLI工具的错误输出应直接面向AI编码智能体,而非仅显示"Error:"。引用@southpolesteve的提议指出,错误消息应包含问题原因、调查方法、如何生成脱敏复现以及发送至何处。这将使每一次失败的智能体交互成为高质量bug报告,智能体自行发现并修复bug,形成软件改进的良性循环。主推文作者Peter Steinberger认为,这一做法也会让工具对人类开发者更好。

Steve Faulkner: I really want CLI tools to start speaking directly to coding agents with errors. Instead of: "Error:" Return: "Here's wh...

智能体大佬观点编码
08:00
HuggingFace Daily Papers(社区热门论文)
54
HExA (分层实验智能体):无需训练的上下文自改进框架

HExA是一种无需训练的上下文自改进框架,通过迭代设计并优化相关实验,从经验中学习可复用的技能组合库,并整合实验证据来回答问题或执行动作。在物理环境工具调用基准Interphyre上,Claude Sonnet 4.6原始成功率仅2%,使用HExA后升至77%。HExA同样提升开源权重模型表现,并超越ReAct和Reflexion等基线。仅通过迁移从较简单关卡学到的技能(不进行主动实验),即可达到44%成功率,证明技能的可复用性。框架兼容任何黑盒模型,无需外部监督或离线数据。

智能体论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
精选82
OSWorld2.0:长时域真实世界计算机使用工作流基准

OSWorld2.0 发布,包含108个长时域计算机使用工作流,覆盖日常与专业任务。每项任务用户中位数约1.6小时完成,Claude Opus 4.7(最大思考)平均需318次工具调用(OSWorld 1.0约30次)。基准聚焦流交互、动态环境、跨源推理、隐式状态推断、视觉空间精度等真实挑战。任务基于真实输入工件和状态化用户档案,附安全报告。500步二元完成指标下,Claude Opus 4.8(最大思考+批量调用)得分最高仅20.6%(部分54.8%);GPT-5.5更省token但约13%。结果表明当前智能体远未达专业级:瓶颈不在基本GUI控制或编码,而是丢失约束、错过中途信息、猜测而非询问、跳过验证,尤其依赖隐藏状态时最差。

智能体论文/研究评测/基准

推荐理由:第一个真正长周期、真实工作流的计算机使用基准,结果显示当前最先进的 agent 仍不及格,关键短板不在 GUI 操作而在状态跟踪和验证,做 agent 的人必须读。
08:00
HuggingFace Daily Papers(社区热门论文)
52
PolicyGuard:一种基于对话的子智能体验证器,用于LLM智能体的策略遵循

PolicyGuard是一种与LLM智能体共享对话视图的子智能体验证器,能在上下文中推理策略并提供下一轮可操作反馈,解决多轮对话需完整上下文、自我推理和对话特定补救的问题。在tau^2-BENCH航空基准上对GPT-5.4、Claude Sonnet 4.6和Gemini 2.5 Pro进行每设置四次试验,PolicyGuard将PASS4分别提升+12.0、+6.0和+12.0个百分点。每次调用分析显示,其实现更高策略违规召回率,而阻塞频率约为参数级守卫的一半。

智能体安全/对齐论文/研究
‹ 上一页
1…56789…50
下一页 ›