AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 2130 条
全部一手资讯X论文
标签「Agent」清除
今天7月3日 周五
06:21Simon Willison 博客66llm-coding-agent 0.1a0
05:08MarkTechPost(RSS)70精选阿里巴巴发布 Page Agent:开源 JavaScript 库实现网页 DOM 自然语言操控
03:21Simon Willison 博客65使用 DSPy 评估和优化 Datasette Agent 的 SQL 系统提示词
01:21Simon Willison 博客54Geoffrey Litt 在 AIE 提出「理解以参与」理念:与编码智能体协作需避免认知债务
01:08Apple Machine Learning Research(RSS)72精选多智能体团队阻碍专家发挥
7月2日周四
23:33HuggingFace Daily Papers(社区热门论文)49性能优化基准是否可靠衡量编码智能体?
20:45The Decoder:AI News(RSS)71精选Fable 5 在 RLI 基准中达成 16.1% 自动化率,较八个月前提升六倍
20:34TechCrunch:AI(RSS)58用户利用开源AI智能体OpenClaw结合Claude自动生成约会视频,引发隐私争议
18:31公众号:千问APP(阿里)62精选千问团队朱达:C端Agent Harness的"多快好省"工程哲学与主动服务探索
18:20公众号:卡尔的AI沃茨61实测腾讯Marvis:手机远程操控Mac清出100GB,还能续写小说
16:28HuggingFace Daily Papers(社区热门论文)51逆向规划实现个性化:通过结构去噪学习潜在设计意图的智能体幻灯片生成
15:04IT之家(RSS)67阿里拟整合 QoderWork、悟空、MuleRun 三大 Agent 产品,现有用户权益不受影响
13:28HuggingFace Daily Papers(社区热门论文)55MemSyco-Bench:评估智能体记忆中的谄媚行为
13:04IT之家(RSS)48谷歌详解安卓Halo:状态栏专属席位充当AI智能体交互中枢
11:03IT之家(RSS)80精选AI 版支付宝开放公测,蚂蚁阿宝无需邀请码即可体验
11:00公众号:昆仑万维(天工)67精选昆仑万维天工3.2发布Skywork Tags,AI智能体加入工作群聊
04:49Claude Code:GitHub Releases(RSS)64精选Claude Code v2.1.198 发布
03:28HuggingFace Daily Papers(社区热门论文)35TRIAGE:智能体强化学习的角色类型化信用分配框架
01:38Hacker News 热门(buzzing.cc 中文翻译)64Cloudflare 推出 Monetization Gateway 变现网关
01:17Google Developers Blog(RSS)41我们为何构建ADK 2.0
00:20xAI:News(网页)77精选xAI 发布 Voice Agent Builder 测试版
00:17Google Developers Blog(RSS)52用 Genkit 构建智能体全栈应用
7月1日周三
23:03IT之家(RSS)50谷歌 AI 智能体 Gemini Spark 登陆苹果 Mac,可实时追踪资讯动态
22:32TechCrunch:AI(RSS)57Gemini Spark,Google 智能体助手,现已登陆 Mac
22:20Cloudflare Blog58精选Cloudflare 推出全新AI流量管理选项:区分搜索、智能体与训练爬虫,保护广告页面
22:20Cloudflare Blog31Cloudflare 推出两项新举措,让 AI 搜索更智能
22:20Cloudflare Blog49内容独立日一周年:构建智能体互联网的商业模型
20:28HuggingFace Daily Papers(社区热门论文)44QVal:低成本评估长周期LLM智能体密集监督信号的测试平台
18:20Artificial Intelligence News(RSS)61英格兰银行审查金融业AI智能体监管规则
17:10公众号:卡尔的AI沃茨71实测美团LongCat-2.0,国产芯片长出来的万亿大模型
16:50Artificial Intelligence News(RSS)69Anthropic 推出 Claude Sonnet 5,恢复 Fable 5 和 Mythos 5 访问权限
12:03IT之家(RSS)65微信公众号推出AI分身能力,率先向医院开放
11:28HuggingFace Daily Papers(社区热门论文)44小米发布 Xiaomi-GUI-0 多模态 GUI 智能体
09:03IT之家(RSS)64小米超级小爱已支持控制微信,一句话发消息、打电话
08:03IT之家(RSS)71Claude Sonnet 5 发布,系 Sonnet 系列最强智能体模型
07:08Ethan Mollick:One Useful Thing(RSS)73聊天机器人的黄昏
06:31MarkTechPost(RSS)51Linq 推出 iMessage Apps,对话内嵌入交互式迷你应用
06:01MarkTechPost(RSS)70Anthropic 发布 Claude Sonnet 5:中端智能体模型,基准与定价详解
05:59TechCrunch:AI(RSS)65OpenClaw 正式登陆 Android 和 iOS
04:06Ars Technica:AI(RSS)60AI浏览器可被引诱进入护拦失效的幻境
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月3日
06:21
Simon Willison 博客
66
llm-coding-agent 0.1a0

Simon Willison 发布实验性库 llm-coding-agent 0.1a0,基于其 LLM 库演化为智能体框架,实现类似 Claude Code 的编码智能体。可通过 uvx --prerelease=allow --with llm-coding-agent llm code 运行,并提供基于 CodingAgent 类的 Python API。内置六种工具:edit_file(精确替换字符串并返回 diff)、execute_command(执行命令,超时 600 秒)、list_files(按 glob 列出文件,排除隐藏目录和 .gitignore 覆盖项)、read_file(分页读取,offset/limit 控制)、search_files(正则搜索,最多 100 条结果)、write_file(创建或覆盖文件,自动创建父目录)。已作为 slop-alpha 发布到 PyPI,支持 --yolo 等 recipe 参数。

智能体GitHub产品更新开源生态
05:08
MarkTechPost(RSS)
精选70
阿里巴巴发布 Page Agent:开源 JavaScript 库实现网页 DOM 自然语言操控

阿里巴巴发布 Page Agent,一个开源的 JavaScript 客户端库,嵌入网页后可通过自然语言指令直接操作 DOM 元素。与 Playwright、Puppeteer 等外部浏览器自动化工具不同,Page Agent 不依赖截图或多模态模型,而是将实时 DOM 脱水压缩为 FlatDomTree 文本映射,让纯文本模型精准执行点击、表单填写等操作。它继承用户 cookies 和会话,无需独立后端,并支持任意 OpenAI 兼容端点的模型(示例使用 qwen3.5-plus)。项目采用 MIT 许可证,适合在自有应用内构建 AI 副驾、智能表单填充或无障碍控制等场景,但限于单页面范围,风险操作仍需服务端验证。

智能体开源/仓库部署/工程

推荐理由:Page Agent 把浏览器自动化从外部驱动变成页面内 JS,读 DOM 而非截图,让 SaaS 内的 AI 助手成本更低、更精准,适合自己产品内嵌 copilot 的团队。
03:21
Simon Willison 博客
65
使用 DSPy 评估和优化 Datasette Agent 的 SQL 系统提示词

Simon Willison 通过 Claude Code 中的异步研究任务(基于 Claude Fable 5)尝试用 DSPy 对 Datasette Agent 执行只读 SQL 查询时的系统提示词做评估与优化。Fable 选择测试 GPT 4.1 mini 和 nano,发现改进方向:模式列表仅给出表名,而“如果已有信息不要调用 describe_table”的建议导致列名猜测和错误重试循环。建议在提示词的模式列表中包含列名或软化该建议。

智能体教程/实践数据/训练
01:21
Simon Willison 博客
54
Geoffrey Litt 在 AIE 提出「理解以参与」理念:与编码智能体协作需避免认知债务

Geoffrey Litt 在 AIE 演讲中提出「理解以参与」理念:开发者需要深入理解代码,才能在与编码智能体(coding agents)的协作中保持主动参与,避免因认知债务(cognitive debt)导致无法有效推进项目。他认为,缺乏对代码的概念流畅性会显著限制参与能力。该演讲录像将于三周内陆续放出。

智能体大佬观点编码
01:08
Apple Machine Learning Research(RSS)
精选72
多智能体团队阻碍专家发挥

在自我组织的多智能体LLM系统中,团队无法有效利用专家成员的专业知识。在多个基准测试中,即使明确告知专家身份,团队表现仍落后于最佳成员(专家智能体)的独立能力,性能损失最高达41.1%。失败主因是未能有效利用专家意见,而非识别专家。对话分析显示,团队倾向于“整合性妥协”——平均化专家与非专家观点,随团队规模增大而加剧,且与表现负相关。这种寻求共识的行为同时提升了对抗恶意智能体的鲁棒性,揭示了协同对齐与专业利用之间的根本性权衡。

智能体安全/对齐论文/研究

推荐理由:这篇研究给多智能体热浇了盆冷水,自组织团队反而拖累专家,瓶颈不在认不认识专家而在会不会用专家,做 Agent 系统的都知道这有多反直觉。如果你是做多智能体的值得看看。
7月2日
23:33
HuggingFace Daily Papers(社区热门论文)
49
性能优化基准是否可靠衡量编码智能体?

一项审计研究对GSO、SWE-Perf和SWE-fficiency三个仓库级性能优化基准进行系统性核查。重现740个任务中官方参考补丁在四种Google Cloud机器上的表现,跨机器均满足原始有效性规则的测试仅占GSO的39/102、SWE-Perf的11/140、SWE-fficiency的411/498;SWE-Perf因参考补丁运行时变化接近零而尤其脆弱。排行榜评分规则导致8个公开提交的28组成对比较中有9组排名不一致,SWE-fficiency最差十项任务权重高达58.5%-82.8%。此外,在450个可重现任务中,至少一个提交已匹配或超越参考补丁的比例达85.3%,超越未优化基线达99.8%,揭示了聚合排名掩盖的真实性能差距。

智能体编码论文/研究评测/基准
20:45
The Decoder:AI News(RSS)
精选71
Fable 5 在 RLI 基准中达成 16.1% 自动化率,较八个月前提升六倍

Remote Labor Index(RLI)衡量 AI 智能体完成 240 个付费自由职业项目(总值 14.4 万美元)的专业质量比例。最新结果显示,Fable 5 自动化率达 16.1%,是八个月前最佳系统 2.5% 的六倍多,也超过 Opus 4.8(8.3%)和 GPT-5.5(6.3%)。因美国政府限制访问,Fable 5 仅完成 218/240 个项目评估,最坏情况仍达 14.6%。Gemini 3 Pro 仅 1.25%,落后于更老模型。AI 裁判会高估模型表现(GPT-5.5 评分偏高近三倍),仍需人类评估员打开专业软件(如 Blender)检验几何模型等细节。测试环境为虚拟 Linux 机,配备 30 余款专业应用,每项目最多 24 小时计算时间。尽管自动化率快速攀升,多数项目仍无法达到专业质量。

智能体AnthropicOpenAI现象/趋势

推荐理由:自由职业自动化率八个月翻了六倍,这个数据比任何模型基准都更说明AI对真实工作的渗透速度。虽然顶级模型仍会'作弊',但趋势已经形成,做自由职业平台和外包的人该认真看看。
20:34
TechCrunch:AI(RSS)
58
用户利用开源AI智能体OpenClaw结合Claude自动生成约会视频,引发隐私争议

内容创作者Ben Guez用开源AI智能体OpenClaw追踪世界杯赛果,触发Claude自动生成Instagram试播视频,配文“我无法相信{国家}输了……需要情感支持的{国家}女孩请私信我”,几天内获得超过100万次观看和200条私信。另一位用户Jeff Weisbein利用OpenClaw规划南佛罗里达约会地点。还有人用Claude自动编写分手消息。安全公司NanoClaw联合创始人Lazer Cohen警告,让AI智能体单方面控制账户存在隐私风险,强调需要人类参与审批。

智能体Anthropic开源/仓库教程/实践
18:31
公众号:千问APP(阿里)
精选62
千问团队朱达:C端Agent Harness的"多快好省"工程哲学与主动服务探索

千问团队2026年1月上线通用复杂任务Agent(千问App胶囊入口),总结“多快好省”方法论:支持信息搜集、研究分析等任务;执行时间降至初始1/3;通过搜索范式与上下文管理优化交付质量;Token消耗仅为海外产品1/10。团队探索从被动响应转向主动服务,构建User Memory、Environment、Task System、Assistant四大组件,指出“情商”是主动服务最难环节。朱达提出Agent工程从Prompt Engineering演进至Harness Engineering,下一站是A IWare Engineering,强调“低功耗,够用就行”。

智能体大佬观点部署/工程

推荐理由:千问C端团队分享的Agent工程实践很务实,从“多快好省”到AIWare Engineering的演进思路,对正在做复杂任务Agent的团队是一个有价值的参考系。
18:20
公众号:卡尔的AI沃茨
61
实测腾讯Marvis:手机远程操控Mac清出100GB,还能续写小说

腾讯推出桌面AI管家Marvis,可通过手机远程操控Mac。实测功能包括:电脑自检(扫描磁盘、性能、电池、使用习惯,生成网页报告)、垃圾清理(清出100GB至占用80%以下,删除需逐项确认)、远程操控多台电脑(支持鼠标键盘实时操作)、跨浏览器搜索“AAindex前十模型API接入方式”自动整理成表格、一句话生成PPT(质量约80分)、读取本地小说项目《灰质交易》并根据设定续写第一章。Marvis内部接入混元和DeepSeek,定位为电脑AI管家,与偏交付的WorkBuddy差异化。

智能体评测/基准
16:28
HuggingFace Daily Papers(社区热门论文)
51
逆向规划实现个性化:通过结构去噪学习潜在设计意图的智能体幻灯片生成

幻灯片个性化需要同时定制主题与布局,现有AI智能体方法依赖预设模板或用户详细指令,难以捕捉细粒度潜在设计意图。SPIRE将页面级幻灯片个性化(PSP)重新定义为逆向规划问题,在不假设具体执行工具(如PowerPoint、Beamer)的前提下学习设计意图。通过故意破坏干净幻灯片的视觉结构,SPIRE创建可验证的去噪任务,两个智能体通过强化学习协作优化可执行设计。理论证明结构去噪是PSP的一致代理,且多智能体公式严格降低策略梯度方差。实验表明SPIRE在幻灯片个性化生成上表现优越。

智能体论文/研究
15:04
IT之家(RSS)
67
阿里拟整合 QoderWork、悟空、MuleRun 三大 Agent 产品,现有用户权益不受影响

阿里巴巴计划以桌面 AI 工具 QoderWork 为基础,整合“悟空”与“MuleRun”,打造面向企业生产力的新 AI 产品,由钉钉 CEO 陈宇森负责。QoderWork 可自然语言操作本地应用与文件,已接入钉钉、微信、飞书;悟空是企业级 AI 工作平台,内置钉钉;MuleRun 面向 43 国,支持多 Agent 协作。现有产品将无缝升级,用户权益不受影响。

智能体行业动态
13:28
HuggingFace Daily Papers(社区热门论文)
55
MemSyco-Bench:评估智能体记忆中的谄媚行为

大语言模型智能体依赖记忆,但检索到的记忆常引发“谄媚”问题——智能体过度迎合用户而牺牲事实准确性。现有记忆基准仅评估存储、检索或更新是否正确,忽略了对下游推理的影响。为此,MemSyco-Bench被提出,专门衡量记忆何时该影响决策及如何使用有效记忆。它涵盖五项任务:智能体能否拒绝记忆作为事实证据、尊重记忆适用范围、解决记忆与客观证据冲突、追踪记忆更新,以及利用有效记忆进行个性化。所有资源已公开。

智能体安全/对齐
13:04
IT之家(RSS)
48
谷歌详解安卓Halo:状态栏专属席位充当AI智能体交互中枢

谷歌昨日发布视频,详细介绍安卓Halo功能。该功能于今年5月I/O大会亮相,旨在提升后台AI助手透明度。启用后,屏幕顶部状态栏拥有专属席位,实时显示AI智能体(如Gemini)状态。安卓总裁萨米尔·萨马特称,Halo为智能体提供专用沟通平台,用于报告更新、接受用户指示,在需要人工介入的后续提问、进度更新、结果展示时,用户无需重新打开AI应用即可交互。

智能体Google产品更新端侧
11:03
IT之家(RSS)
精选80
AI 版支付宝开放公测,蚂蚁阿宝无需邀请码即可体验

支付宝阿宝 AI 助手今日正式开放公测,iOS 和安卓用户可在应用商店或支付宝 App 搜索“阿宝”或“蚂蚁阿宝”直接体验。开通后右滑进入新版,以对话方式安排办事,例如说出“查公积金”,阿宝会自动匹配对应小程序和服务入口,用户点击确认即可完成。支付宝承诺所有资金变动与支付环节均需用户本人确认,扫码、转账等功能已预留入口。

智能体产品更新

推荐理由:支付宝把 AI 助手从内测推进公测,对话式办事对普通用户来说很直观,省去了多层菜单跳转,虽然支付等敏感环节还是手动确认,但体验上的进步是实在的。
11:00
公众号:昆仑万维(天工)
精选67
昆仑万维天工3.2发布Skywork Tags,AI智能体加入工作群聊

昆仑万维天工3.2发布Skywork Tags,将AI智能体以团队成员身份接入Slack、飞书、钉钉、Discord、Telegram等即时通讯工具。团队可在原有工作群中@Skywork参与讨论,无需切换窗口或迁移数据。共享版Agent持续吸收多样上下文后表现反超精心调教的个人版,团队最终完全改用共享版。Skywork Tags不要求改变工作方式,让AI积累团队上下文并越用越强。

智能体MCP/工具产品更新

推荐理由:Skywork Tags 的思路走对了——不逼团队搬家,而是让 AI 进群,内部测试也证明共享 Agent 能远超个人调教,做协作工具的产品人可以借鉴。
04:49
Claude Code:GitHub Releases(RSS)
精选64
Claude Code v2.1.198 发布

Claude Code v2.1.198 更新。Claude in Chrome 现已全面可用。为 claude agents 新增后台智能体通知(agent_needs_input / agent_completed)。新增 /dataviz 技能,提供图表与仪表盘设计指导及配色验证器。Gateway 增加 AWS 上的 Claude Platform 作为上游提供商。后台智能体在 worktree 中完成代码后自动提交、推送并创建草稿 PR。内置 Explore 智能体现继承主会话模型(上限 opus)。修复网络短暂断开导致响应中断、后台任务卡在“Running”状态、智能体团队队友因 API 错误失败等问题。

智能体Anthropic产品更新编码

推荐理由:如果你是Claude Code用户,这次更新很实在,Chrome版终于正式可用,背景agent的自动提PR和通知功能能省不少事,/dataviz也能辅助可视化。
03:28
HuggingFace Daily Papers(社区热门论文)
35
TRIAGE:智能体强化学习的角色类型化信用分配框架

TRIAGE 提出角色类型化信用分配框架,替代标准 GRPO 的均匀优势信号。结构化判断器将每个智能体片段分类为决定性进展、有用探索、无进展基础设施或回归,并映射为固定角色条件规则下的过程奖励,修正纯结果信用对失败轨迹中有用探索的惩罚和对成功轨迹中冗余/倒退动作的强化。在 ALFWorld、Search-QA 和 WebShop 上,TRIAGE 提升成功率,优于标量判断器过程奖励和结果监督共享主干价值基线。消融实验表明收益来自角色类型化,成功轨迹内的回归检测是主要贡献,探索信用提供二次增益;在完整轨迹上,TRIAGE 分别减少 10.4% 和 14.8% 的环境交互轮数。

智能体数据/训练论文/研究
01:38
Hacker News 热门(buzzing.cc 中文翻译)
64
Cloudflare 推出 Monetization Gateway 变现网关

Cloudflare 宣布推出 Monetization Gateway,允许客户对受 Cloudflare 保护的网页、数据集、API 或 MCP 工具等任意资产收费。该网关提供统一控制面板管理支付策略和访问控制,在边缘处理支付验证和结算,保护源站免受高并发支付请求影响。结算采用基于 x402 协议的稳定币(如 Open USD 和 USDC),支持低于一美分的微支付,数秒内到账。此举旨在适应 AI 代理成为主流互联网用户后的按使用量付费模式,替代传统的广告和订阅制,客户无需自建计费系统即可对任意调用方收费。

智能体MCP/工具产品更新
01:17
Google Developers Blog(RSS)
41
我们为何构建ADK 2.0

Google官方博客阐述了构建ADK 2.0的动机——包括核心特性与升级理由,并解释了开发者应考虑迁移的原因。该文章发布于ADK 2.0正式上线次日。

智能体Google产品更新
00:20
xAI:News(网页)
精选77
xAI 发布 Voice Agent Builder 测试版

xAI 推出 Voice Agent Builder 测试版,这是一个基于 Grok Voice 的无代码平台,可在两分钟内创建生产级语音智能体。它集成电话、知识检索、工具、MCP、Guardrails 及可观测性,支持连接现有 SIP 号码、API 和 WebSocket,采用语音到语音路径。在 τ-voice Bench 上,Grok Voice Think Fast 1.0 得分 67.3%,领先 Gemini 3.1 Flash Live(43.8%)和 GPT Realtime 1.5(35.3%)。定价为每分钟音频 0.05 美元、电话费 0.01 美元,提供 80+ 种语音及声音克隆,每个账户附赠一个免费电话号码。

智能体MCP/工具xAI产品更新
关联讨论 1 条X:xAI (@xai)
推荐理由:xAI 用 Grok Voice 原生的语音到语音路径,把生产级语音代理的搭建门槛降到了无代码、两分钟,计费也简单,做语音业务的人值得试试。
00:17
Google Developers Blog(RSS)
52
用 Genkit 构建智能体全栈应用

开源框架 Genkit 推出 Agents API,将消息历史、工具循环和流式传输封装为单一接口,简化对话 AI 开发。该 API 支持服务器或客户端管理的状态持久化,可实现历史分支、长时间运行的分离任务及多智能体协调等高级工作流,并通过统一线协议连接前后端。目前以 TypeScript 和 Go 预览版发布,集成 Genkit Developer UI,开发者无需编写客户端代码即可测试、调试和检查智能体快照。

智能体Google产品更新部署/工程
7月1日
23:03
IT之家(RSS)
50
谷歌 AI 智能体 Gemini Spark 登陆苹果 Mac,可实时追踪资讯动态

谷歌 AI 智能体 Gemini Spark 已登陆 macOS,整合进现有 Gemini 桌面客户端。Mac 版支持实时追踪赛事比分、股价、突发新闻等资讯,并可对接 Google Tasks、Google Keep、Canva、Dropbox、Instacart、OpenTable、Zillow 等应用,执行餐厅订位、生鲜采购、设计海报、预约看房等任务,还能读取本地文件分类整理或生成谷歌办公套件文档。macOS 测试版目前仅面向美国地区谷歌 AI Ultra 订阅会员开放,初期不支持跨设备联动,后续将支持手机端下达复合指令调用桌面端。谷歌同期推出对自定义 MCP 协议的支持。

智能体GoogleMCP/工具产品更新
22:32
TechCrunch:AI(RSS)
57
Gemini Spark,Google 智能体助手,现已登陆 Mac

Google 的 AI 智能体助手 Gemini Spark 本周三正式登陆 Mac 版 Gemini 桌面应用。新增实时追踪话题功能,可追踪体育比分、股票、突发新闻等动态。已集成 Google Tasks、Google Keep 以及 Canva、Dropbox、Instacart、OpenTable、Zillow Rentals 等第三方应用。用户可用 Spark 整理文件,将电脑文件作为 Google Workspace 文档的数据源。未来将在手机上支持指派多步骤任务。目前 Mac 版 Spark(beta)仅限美国地区 Google AI Ultra 订阅者使用,同时支持自定义 Model Context Protocol(MCP)连接更多应用。

智能体GoogleMCP/工具产品更新
22:20
Cloudflare Blog
精选58
Cloudflare 推出全新AI流量管理选项:区分搜索、智能体与训练爬虫,保护广告页面

Cloudflare 为所有网站所有者提供更精细的AI流量管控选项,取代一刀切的屏蔽方式。用户可轻松区分并管理搜索爬虫、AI智能体爬虫和训练爬虫,同时新增保护广告变现页面的能力。

智能体产品更新搜索
关联讨论 1 条TechCrunch:AI(RSS)
推荐理由:Cloudflare 把 AI 流量管理拆成了搜索、Agent 和训练三类,对依赖广告收入的站长是个实用功能,早期控制 bot 访问可能影响 SEO,值得测试。
22:20
Cloudflare Blog
31
Cloudflare 推出两项新举措,让 AI 搜索更智能

Cloudflare 宣布推出两项新举措,以应对 AI 搜索重构网络生态带来的创作困境。在智能体时代,创作者既需要保持可发现性,又要确保作品获得合理报酬,这两项举措旨在帮助平衡二者的关系。具体细节尚未公布。

智能体产品更新搜索
22:20
Cloudflare Blog
49
内容独立日一周年:构建智能体互联网的商业模型

内容独立日宣布一年后,一个付费内容的动态市场已正式形成。自主AI智能体的兴起正在颠覆传统搜索推荐模式,构建可持续的网络经济需要一套全新基础设施来支撑。

智能体搜索现象/趋势
20:28
HuggingFace Daily Papers(社区热门论文)
44
QVal:低成本评估长周期LLM智能体密集监督信号的测试平台

QVal提出一种无需训练的测试平台,通过Q对齐度量直接评估密集监督信号质量,判断动作排序是否匹配强参考策略的Q值。QVal-v1.0在4个环境、7类方法族、6个开放权重模型骨干上对21种密集监督方法进行了超过1200次评估实验,发现简单提示基线一致优于近年文献中的密集监督方法,且性能按方法族显著聚类。该平台易于扩展至新环境和新方法。

智能体推理论文/研究评测/基准
18:20
Artificial Intelligence News(RSS)
61
英格兰银行审查金融业AI智能体监管规则

英格兰银行正审查现有框架能否覆盖agentic AI在支付、交易、网络安全及运营中的使用。副行长Sarah Breeden指出,现行规则并非为可脱离人工指令自主行动的AI智能体设计,人工监督每个动作不切实际。2026年剑桥大学报告显示,81%的受访金融机构已采用AI,其中52%正积极部署agentic AI,目前多用于流程自动化、数据可视化等内部职能。Breeden将网络弹性列为最紧迫的金融稳定风险,强调AI可强化防御,也可能被恶意利用导致系统性攻击。当局还考虑引入市场级熔断机制与kill switch,并关注开放模型落后闭源仅4-8个月的安全窗口。IMF已警告应将AI驱动的网络风险视为金融稳定问题,FSB于6月发布12项审慎实践。

智能体安全/对齐政策/监管
17:10
公众号:卡尔的AI沃茨
71
实测美团LongCat-2.0,国产芯片长出来的万亿大模型

美团发布LongCat-2.0,总参数1.6万亿、每个token仅激活约480亿参数的MoE模型,从预训练到大规模部署全程运行在5万张国产算力芯片上,训练消耗超35万亿tokens,无回滚、无不可恢复loss突刺。Agent场景表现突出:在Terminal-Bench 2.1和SWE-bench Pro编程任务上追平Gemini 3.1 Pro,FORTE通用Agent任务与Claude Opus 4.6持平。最大输出128K,最高提供1M上下文,采用LSA稀疏注意力机制和N-gram Embedding优化长上下文与工具调用。已开放API接入,支持OpenAI Compatible和Anthropic API生态,可直接接入Claude Code和Codex等工作流。

智能体开源生态编码评测/基准
关联讨论 9 条X:硅基流动 SiliconFlow (@SiliconFlowAI)X:美团 LongCat (@Meituan_LongCat)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)IT之家(RSS)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)X:Rohan Paul (@rohanpaul_ai)公众号:龙猫LongCat(美团)
16:50
Artificial Intelligence News(RSS)
69
Anthropic 推出 Claude Sonnet 5,恢复 Fable 5 和 Mythos 5 访问权限

Anthropic 发布 Claude Sonnet 5,同时恢复 Fable 5 与 Mythos 5 的访问。此前因美国联邦出口管制指令,三款模型暂停 18 天。Amazon 研究人员发现绕过 Fable 5 安全控制的方法,Anthropic 已部署更新的自动分类器,在超 99% 测试中阻止该利用。Sonnet 5 在 SWE-bench Pro 得分 63.2%,Terminal-Bench 2.1 得分 80.4%,输入价格 $3.00/百万 tokens,输出 $15.00(推广期至 8 月 31 日为 $2.00/$10.00)。Rakuten、Zapier、Zed、Factory 等已部署。安全审计显示非合规行为率低于前代,且系统不具备高级进攻性网络安全能力。

智能体Anthropic安全/对齐模型发布
12:03
IT之家(RSS)
65
微信公众号推出AI分身能力,率先向医院开放

微信公众号今日向医院开放AI分身能力,医院无需写代码即可一键开通。AI分身可7×24小时在线回复患者问题,支持上传Excel/Word/PDF知识库及自动学习历史文章,后台可配置提示词人设和关键词跳转。已有先行医院测试:中山大学附属第三医院上线一个月累计服务超6000名用户,日均咨询量从月均100例增至200余例,回复有效率70%;香港大学深圳医院日均回复130次以上,累计解答超2万人次,并支持英文和繁体字咨询。AI分身还提供开发者模式协同,可对接原有客服平台和业务系统。

智能体产品更新
11:28
HuggingFace Daily Papers(社区热门论文)
44
小米发布 Xiaomi-GUI-0 多模态 GUI 智能体

小米提出 Xiaomi-GUI-0,一个面向真实移动环境的原生多模态 GUI 智能体。模型在真实设备闭环中训练和评估,采用物理设备为主、沙箱辅助的混合基础设施。训练数据涵盖高频头部任务、长尾意图泛化及反思与记忆增强样本,并通过错误驱动数据飞轮将失败轨迹转化为修正动作、反思解释和恢复示范。训练采用监督微调、step-level 强化学习和 agentic 强化学习三阶段渐进流程。在内部基准 RealMobile 上成功率达 72.0%,在 AndroidWorld 上达 78.9%,同时显著提升了真实任务中的执行稳定性和异常状态识别能力。

智能体论文/研究
09:03
IT之家(RSS)
64
小米超级小爱已支持控制微信,一句话发消息、打电话

小米超级小爱接入微信 A2A 能力,用户可直接说“给 xxx 发微信消息”或“给 xxx 打微信电话”完成操作。该功能基于 A2A(Agent-to-Agent)协作机制,由超级小爱向微信发起指令,微信执行并返回结果,全程采用双重授权机制保障数据安全与隐私合规。隐私设置中新增“微信语音控制开关”选项。需将微信和超级小爱更新至最新版本。

智能体产品更新端侧
08:03
IT之家(RSS)
71
Claude Sonnet 5 发布,系 Sonnet 系列最强智能体模型

Anthropic 推出 Claude Sonnet 5,称其为 Sonnet 系列中智能体能力最强的模型,能制定计划、调用浏览器和终端等工具并自主运行。已上线 Claude Code 和 Claude Platform,API 指定“claude-sonnet-5”。优惠期(至 2026 年 8 月 31 日)每百万 tokens 输入 2 美元、输出 10 美元;之后分别涨至 3 美元和 15 美元。性能在 BrowseComp、OSWorld-Verified 等评测中较 Sonnet 4.6 显著提升,部分接近 Opus 4.8。安全方面,整体不良行为发生率低于 Sonnet 4.6,在拒绝恶意请求、抵抗提示注入、幻觉率和迎合性上均有改善。

智能体Anthropic模型发布
关联讨论 11 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)TechCrunch:AI(RSS)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)Claude Code:GitHub Releases(RSS)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)Anthropic:Newsroom(网页)
07:08
Ethan Mollick:One Useful Thing(RSS)
73
聊天机器人的黄昏

前沿AI模型能力加速提升,美国实验室发布速度加快,但政府干预已限制访问Claude Fable和GPT-5.6。Epoch测试发现Opus 4.7自主运行14小时即可完成需2-17周人工的软件工程,token成本$251。中国开源模型落后前沿6-12个月,但性能也快速提升,在AA-Briefcase测试中呈独立指数曲线。使用方式正从聊天机器人转向智能体,OpenAI内部四分之一员工每周同时运行至少四个智能体。Claude Code用户数据显示,领域经验比职业属性更决定使用效果,专家正用智能体替代此前非专家的聊天机器人使用模式。

智能体AnthropicOpenAI大佬观点
关联讨论 25 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)The Verge:AI(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Anthropic (@AnthropicAI)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)
06:31
MarkTechPost(RSS)
51
Linq 推出 iMessage Apps,对话内嵌入交互式迷你应用

Linq 推出 iMessage Apps,允许开发者在 iMessage 对话中构建交互式迷你应用。用户无需离开聊天即可购物、玩游戏、订机票或支付,不再依赖外部链接跳转。技术实现基于新的 type: "imessage_app" 消息组件,通过 app 对象的 team_id 和 bundle_id 标识渲染扩展,layout 控制静态文本,interactive 标志决定是否显示实时交互卡片。已发送的卡片可通过 /messages/{id}/update 原地更新(仅支持 url、fallback_text、interactive、layout 等参数)。该功能仅限 iMessage 通道,无 SMS/RCS 回退,富交互渲染需接收方安装对应扩展。

智能体产品更新部署/工程
06:01
MarkTechPost(RSS)
70
Anthropic 发布 Claude Sonnet 5:中端智能体模型,基准与定价详解

Anthropic 发布 Claude Sonnet 5,定位为最具智能体能力的中端模型,即日起成为 Free 和 Pro 计划的默认模型。在 SWE-bench Pro 上得分 63.2%(前代 58.1%),OSWorld-Verified 达 81.2%(前代 78.5%),HLE(带工具)57.4%。输入/输出定价 2026 年 8 月 31 日前 $2/$10 每百万 token,之后 $3/$15。支持低/中/高/超高四档 effort 级别,低中 effort 下性价比最优。上下文窗口 1M token,采用新 tokenizer,相同文本 token 数增长约 1.0–1.35 倍。幻觉与谄媚率低于前代。开发者仅需更换模型字符串为 claude-sonnet-5 即可调用 API。

智能体Anthropic推理模型发布
关联讨论 11 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)TechCrunch:AI(RSS)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)Claude Code:GitHub Releases(RSS)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)Anthropic:Newsroom(网页)
05:59
TechCrunch:AI(RSS)
65
OpenClaw 正式登陆 Android 和 iOS

免费开源 AI 智能体 OpenClaw 现已推出 iOS 和 Android 应用。用户通过 OpenClaw Gateway 将手机与智能体及所需工具、技能连接,可在移动端运行智能体完成编程、餐食规划等任务。OpenClaw 今年早些时候因 MoltBook(号称完全由智能体运营的社交媒体站)走红,其创建者 Peter Steinberger 随后加入 OpenAI。尽管 MoltBook 后被证实部分由人类伪装智能体运行,但此事件推动了智能体生态扩张,如今 AI 智能体已嵌入更多场景,包括手机端。

智能体产品更新开源生态
04:06
Ars Technica:AI(RSS)
60
AI浏览器可被引诱进入护拦失效的幻境

安全公司LayerX研究员Roy Paz发布概念验证攻击BioShocking:通过诱导AI浏览器接受“正确即错误”(如2+2=5)的规则,使其进入幻境,安全护栏失效。攻击者可执行从私有仓库提取代码、从内置密码管理器窃取凭据等危险操作。该攻击在ChatGPT Atlas、Comet、Fellou、Genspark、Sigma及Claude Chrome插件上均有效,六款AI智能体均未识别出违规。与传统聊天机器人越狱相比,AI浏览器因合并控制平面与数据平面,潜在危害更大。目前该攻击缺乏隐蔽性,属演示性质。

智能体安全/对齐
‹ 上一页
123…50
下一页 ›