全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「Agent」清除

今天7月3日周五

06:21Simon Willison 博客66llm-coding-agent 0.1a0

05:08MarkTechPost（RSS）70精选阿里巴巴发布 Page Agent：开源 JavaScript 库实现网页 DOM 自然语言操控

04:15Yuchen Jin60Yuchen Jin 数月前预言：GPU kernel 工程师高薪岗位遭 AI 颠覆，Databricks 使用 KDA 登顶 NVIDIA 榜单

04:10OpenClaw🦞29OpenClaw 感谢志愿者 Colin 推动 iOS/Android UI 改进

04:04jason54Codex 自动化工作流：开发者实现邮件起草、合同修订、Bug 修复等

04:02Runway60Runway 推出 Agent Skills 功能

03:21Simon Willison 博客65使用 DSPy 评估和优化 Datasette Agent 的 SQL 系统提示词

03:05🚨 AI News | TestingCatalog63Vellum 在 Slack 推出智能体间对话功能

02:35Ethan Mollick48Fable 根据提示生成 FPS 游戏

02:10elvis48Elvis Saravia 推出 PaperWiki：LLM 智能体自动维护的论文知识库

01:40elvis53DAIR.AI 的 Elvis Saravia 分享 PaperWiki：基于 LLM 和智能体的研究知识库

01:21Simon Willison 博客54Geoffrey Litt 在 AIE 提出「理解以参与」理念：与编码智能体协作需避免认知债务

01:08Apple Machine Learning Research（RSS）72精选多智能体团队阻碍专家发挥

01:04Ethan Mollick49Claude Code的Fable功能强大但不适合长自主任务

01:04jason15Codex用屏幕镜像控制iPhone查附近人发短信

00:39elvis67斯坦福 AutoMem：记忆管理成为可训练技能，32B 模型性能媲美顶尖闭源模型

00:29Chubby♨️43Kim 介绍用 Bloome 实现多 AI 智能体群聊协作

00:03Replit ⠕56Fable 5回归Replit，高努力模式上线

7月2日周四

23:33HuggingFace Daily Papers（社区热门论文）49性能优化基准是否可靠衡量编码智能体？

23:30数字生命卡兹克63Claude fable 5 自主提交工单交流

22:34Meituan LongCat51LongCat-2.0 自动将业务问题转为报告

22:30fofr42与Agent对话压缩意图学会Claudish

22:21AYi54Claude Code+Sonnet 5 十八分钟做出获奖级网站

22:09meng shao52三次LLM交互范式：从网页聊天到组织内嵌式AI

20:45The Decoder：AI News（RSS）71精选Fable 5 在 RLI 基准中达成 16.1% 自动化率，较八个月前提升六倍

20:34TechCrunch：AI（RSS）58用户利用开源AI智能体OpenClaw结合Claude自动生成约会视频，引发隐私争议

19:39meng shao79精选browser-use 发布开源 AI 视频剪辑 Skill「video-use」

19:29eric zakariasson66Fable 在 Cursor 中的两种高效用法

18:59向阳乔木56Computer Use 自动订阅 YouTube 播客体验

18:31公众号：千问APP（阿里）62精选千问团队朱达：C端Agent Harness的"多快好省"工程哲学与主动服务探索

18:21AYi61AI是放大器而非核心发动机，个人判断力与执行力才是护城河；营销Agent Lev8 数据亮眼

18:20公众号：卡尔的AI沃茨61实测腾讯Marvis：手机远程操控Mac清出100GB，还能续写小说

18:09Alibaba Cloud35Flink Forward Asia 2026：阿里云等提出Agent时代统一愿景

16:31Berryxia.AI37AI 智能体一句话生成发布卡片

16:28HuggingFace Daily Papers（社区热门论文）51逆向规划实现个性化：通过结构去噪学习潜在设计意图的智能体幻灯片生成

15:04IT之家（RSS）67阿里拟整合 QoderWork、悟空、MuleRun 三大 Agent 产品，现有用户权益不受影响

13:28HuggingFace Daily Papers（社区热门论文）55MemSyco-Bench：评估智能体记忆中的谄媚行为

13:04IT之家（RSS）48谷歌详解安卓Halo：状态栏专属席位充当AI智能体交互中枢

13:00Ethan Mollick43Fable与长期智能体组织未知

13:00Ethan Mollick72Fable 长时间运行会形成自己的奇怪方言

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

7月3日

06:21

Simon Willison 博客

66

llm-coding-agent 0.1a0

Simon Willison 发布实验性库 llm-coding-agent 0.1a0，基于其 LLM 库演化为智能体框架，实现类似 Claude Code 的编码智能体。可通过 uvx --prerelease=allow --with llm-coding-agent llm code 运行，并提供基于 CodingAgent 类的 Python API。内置六种工具：edit_file（精确替换字符串并返回 diff）、execute_command（执行命令，超时 600 秒）、list_files（按 glob 列出文件，排除隐藏目录和 .gitignore 覆盖项）、read_file（分页读取，offset/limit 控制）、search_files（正则搜索，最多 100 条结果）、write_file（创建或覆盖文件，自动创建父目录）。已作为 slop-alpha 发布到 PyPI，支持 --yolo 等 recipe 参数。

智能体 GitHub 产品更新开源生态

05:08

MarkTechPost（RSS）

精选70

阿里巴巴发布 Page Agent：开源 JavaScript 库实现网页 DOM 自然语言操控

阿里巴巴发布 Page Agent，一个开源的 JavaScript 客户端库，嵌入网页后可通过自然语言指令直接操作 DOM 元素。与 Playwright、Puppeteer 等外部浏览器自动化工具不同，Page Agent 不依赖截图或多模态模型，而是将实时 DOM 脱水压缩为 FlatDomTree 文本映射，让纯文本模型精准执行点击、表单填写等操作。它继承用户 cookies 和会话，无需独立后端，并支持任意 OpenAI 兼容端点的模型（示例使用 qwen3.5-plus）。项目采用 MIT 许可证，适合在自有应用内构建 AI 副驾、智能表单填充或无障碍控制等场景，但限于单页面范围，风险操作仍需服务端验证。

智能体开源/仓库部署/工程

推荐理由：Page Agent 把浏览器自动化从外部驱动变成页面内 JS，读 DOM 而非截图，让 SaaS 内的 AI 助手成本更低、更精准，适合自己产品内嵌 copilot 的团队。

04:15

Yuchen Jin@Yuchenj_UW

60

Yuchen Jin 数月前预言高薪岗位最先遭 AI 颠覆：GPU kernel 工程师曾获百万美元 offer，如今 AI agent 可自我爬山优化、写出更优内核并登顶榜单。Databricks 使用 KDA（Kernel Design Agents）框架，在 NVIDIA SOL-ExecBench kernel leaderboard L1 单操作赛道排名第一。核心框架包括 KDA、Humanize、Omnigent：Claude 写代码，Codex 审查，agent 自主长时间运行。该工作由 Databricks 与 NVIDIA、MIT HAN Lab 合作完成。

Yuchen Jin: Databricks ranks #1 on NVIDIA's SOL-ExecBench kernel leaderboard, in the L1 single operation track, powered by KDA (Kern...

智能体现象/趋势编码

04:10

OpenClaw🦞@openclaw

29

OpenClaw 项目官方发推感谢 @colinsolvely（Colin）推动 iOS 和 Android UI 改进，并鼓励用户继续在 X 或 Discord 反馈问题。Colin 在引用推文中自我介绍，称自己是负责 OpenClaw iOS UI 的志愿者维护者，时间有限但热衷移动端 AI 智能体，坦承 UI 有问题并接受批评，邀请大家在 Discord 对话，共同改进。双方强调社区共建。

Colin: I want to introduce myself. Hi I'm Colin, I did a lot of the @openclaw iOS UI, so as one of the volunteers responsible, ...

智能体端侧行业动态

04:04

jason@jxnlco

54

开发者 @vig_xyz 分享了其使用 Codex 自动化多种工作流程：读取邮件并根据内容在 Google Drive 起草提案；自动生成合同修订建议，经律师确认后通过 computer use 填入 DocuSign；监听 Slack 反馈频道来自动修复 Bug；通宵编写单元测试以实现 100% 代码覆盖率；在 worktrees 上并行启动 6 个线程，使 PR 可独立合并。他表示难以想象回到 IDE 甚至 vim。

Vignesh Mohankumar: i've got codex... - reading all my emails to figure out proposals to write, directly in google drive - auto-drafting con...

智能体 OpenAI 大佬观点编码

04:02

Runway@runwayml

60

推出 Agent Skills。通过简单命令即可构建广告活动、创建商业广告、本地化广告等。输入 /，选择一项 Skill，Agent 便开始工作。规模化你的营销。一键执行。请通过下方链接开始使用。

智能体产品更新视频

03:21

Simon Willison 博客

65

使用 DSPy 评估和优化 Datasette Agent 的 SQL 系统提示词

Simon Willison 通过 Claude Code 中的异步研究任务（基于 Claude Fable 5）尝试用 DSPy 对 Datasette Agent 执行只读 SQL 查询时的系统提示词做评估与优化。Fable 选择测试 GPT 4.1 mini 和 nano，发现改进方向：模式列表仅给出表名，而“如果已有信息不要调用 describe_table”的建议导致列名猜测和错误重试循环。建议在提示词的模式列表中包含列名或软化该建议。

智能体教程/实践数据/训练

03:05

🚨 AI News | TestingCatalog@testingcatalog

63

Vellum 在 Slack 中上线智能体间通信功能，每个智能体独立携带用户的历史记录、偏好和上下文。多个智能体可以拆分任务、协商日期、从团队收集输入，权限默认隔离，仅在任务需要时共享。测试中，两个智能体在一天内为 19 人的团队完成了 offsite 活动规划。该功能旨在实现自主协作的 AI 同事。

Marina · vellum.ai 👾: Today, we launched agent-to-agent conversations in Slack to give you real AI coworkers. Vellum assistants now talk to ea...

智能体 MCP/工具产品更新

02:35

Ethan Mollick@emollick

48

Fable："你有 Unity 和 MCP 的访问权限。我要你构建一个游戏，它是 FPS 的独特变体。你要让玩家说'哇'和'太聪明了'，并享受核心玩法循环" WebGL： https://swapshot-void.netlify.app/ * 它没有资产，所以图形是程序生成的

Ethan Mollick: *Cracks knuckles*

智能体 MCP/工具教程/实践

02:10

elvis@omarsar0

48

Elvis Saravia（DAIR.AI）分享了其构建的 PaperWiki--一个由 LLM 和代码智能体自动维护的知识库，用于研究工作流、社区论文策展及通讯。PaperWiki 从多源摄取论文，存储于 Obsidian 并用 qmd 索引，支持全文和语义搜索。设有每日更新自动化，结合 Opus-4.8 和 DeepSeek-V4-Flash 等模型维护。作者认为 LLM Wikis 是 AI 最有价值的应用之一，可帮助去噪、发现高质量论文，并计划开源相关组件（含 HTML artifact）。

elvis: LLM Wikis are being slept on. I argue that creating knowledge bases with LLMs or coding agents is one of the most valuab...

智能体检索增强教程/实践

01:40

elvis@omarsar0

53

DAIR.AI 的 Elvis Saravia 分享 PaperWiki：基于 LLM 和智能体的研究知识库

DAIR.AI 的 Elvis Saravia 分享了自己过去几个月构建的 PaperWiki，这是一个基于 LLM 和编程智能体的知识库，用于研究工作流。它通过自动化每日更新，从多个来源摄入论文并存入 Obsidian，使用 qmd 索引，以 HTML artifact 呈现，支持全文和语义搜索。Saravia 使用前沿模型（opus-4.8）和开放权重模型（deepseek-v4-flash）混合维护，并计划开源。他认为 LLM Wiki 是当前最有价值的 AI 应用方向之一。

智能体大佬观点部署/工程

01:21

Simon Willison 博客

54

Geoffrey Litt 在 AIE 提出「理解以参与」理念：与编码智能体协作需避免认知债务

Geoffrey Litt 在 AIE 演讲中提出「理解以参与」理念：开发者需要深入理解代码，才能在与编码智能体（coding agents）的协作中保持主动参与，避免因认知债务（cognitive debt）导致无法有效推进项目。他认为，缺乏对代码的概念流畅性会显著限制参与能力。该演讲录像将于三周内陆续放出。

智能体大佬观点编码

01:08

Apple Machine Learning Research（RSS）

精选72

多智能体团队阻碍专家发挥

在自我组织的多智能体LLM系统中，团队无法有效利用专家成员的专业知识。在多个基准测试中，即使明确告知专家身份，团队表现仍落后于最佳成员（专家智能体）的独立能力，性能损失最高达41.1%。失败主因是未能有效利用专家意见，而非识别专家。对话分析显示，团队倾向于“整合性妥协”——平均化专家与非专家观点，随团队规模增大而加剧，且与表现负相关。这种寻求共识的行为同时提升了对抗恶意智能体的鲁棒性，揭示了协同对齐与专业利用之间的根本性权衡。

智能体安全/对齐论文/研究

推荐理由：这篇研究给多智能体热浇了盆冷水，自组织团队反而拖累专家，瓶颈不在认不认识专家而在会不会用专家，做 Agent 系统的都知道这有多反直觉。如果你是做多智能体的值得看看。

01:04

Ethan Mollick@emollick

49

Fable in Claude Code 确实能做到非常惊人的事情，包括非程序员也可以用，但界面并不是为管理5小时以上的自主任务而设计的。很难实时观察发生了什么并干预，你经常必须等到输出。

智能体 Anthropic 大佬观点编码

01:04

jason@jxnlco

15

即将使用 codex computer use 通过屏幕镜像控制我的 iPhone，查看 Find My 了解周围有谁并给他们发短信。

智能体 OpenAI 其他编码

00:39

elvis@omarsar0

67

斯坦福 AutoMem：记忆管理成为可训练技能，32B 模型性能媲美顶尖闭源模型

斯坦福大学提出 AutoMem，将智能体的记忆管理从固定模块变为可训练技能。模型自主决定编码内容、检索时机以及笔记组织方式，文件系统操作升级为一级动作。AutoMem 采用双循环机制：强 LLM 审查完整轨迹并重写记忆结构（提示词、模式、动作词表）；同时利用智能体自身良好的记忆决策作为训练信号。仅优化记忆（不改任务动作），便在 Crafter、MiniHack、NetHack 上取得 2–4 倍提升，使 32B 开放模型性能媲美 Claude Opus 4.5 和 Gemini 3.1 Pro Thinking。论文：arxiv.org/abs/2607.01224。

智能体 arXiv 论文/研究

00:29

Chubby♨️@kimmonismus

43

Kim 介绍用 Bloome 实现多 AI 智能体群聊协作

Kim (@kimmonismus) 介绍利用 Bloome 替代传统一对一 AI 聊天窗口，将其作为共享工作空间，让人类与多个 AI 智能体在同一群聊中协同完成内容工作流。通过一键模板创建创意团队，关键特点是智能体主动互相审核而非仅附和用户：Writer 起草视频论文结构，Audience 即时批评节奏并重写枯燥部分以维持观众留存，Art Director 在聊天窗口内整合视觉 Markdown 报告和缩略图设计。适合希望从编写固定提示词转向管理“人+智能体团队”的创作者、营销人员和运营人员。

智能体教程/实践

00:03

Replit ⠕@Replit

56

Fable 5 已回归 Replit！尤其适合更长、更困难的项目。在 Replit Agent 中开启 High effort 模式，立即在你最艰巨的项目上尝试吧！

智能体产品更新编码

7月2日

23:33

HuggingFace Daily Papers（社区热门论文）

49

性能优化基准是否可靠衡量编码智能体？

一项审计研究对GSO、SWE-Perf和SWE-fficiency三个仓库级性能优化基准进行系统性核查。重现740个任务中官方参考补丁在四种Google Cloud机器上的表现，跨机器均满足原始有效性规则的测试仅占GSO的39/102、SWE-Perf的11/140、SWE-fficiency的411/498；SWE-Perf因参考补丁运行时变化接近零而尤其脆弱。排行榜评分规则导致8个公开提交的28组成对比较中有9组排名不一致，SWE-fficiency最差十项任务权重高达58.5%-82.8%。此外，在450个可重现任务中，至少一个提交已匹配或超越参考补丁的比例达85.3%，超越未优化基线达99.8%，揭示了聚合排名掩盖的真实性能差距。

智能体编码论文/研究评测/基准

23:30

数字生命卡兹克@Khazix0918

63

看着Claude fable 5为了解决问题，自己去火山引擎上提交工单，然后跟火山的工程师交流，给我看懵了。。。。

智能体 Anthropic 大佬观点

22:34

Meituan LongCat@Meituan_LongCat

51

🙌 LongCat in Action 将任何业务问题自动转化为完整的数据报告-- 社区用户 silenceallat 基于 LongCat-2.0 构建了一个 AI SQL 智能体--输入一个问题，输出完整的业务报告。零 SQL。零人工干预。 🚀 LongCat-2.0 刚刚发布--限时优惠：https://longcat.chat/platform/product?region=oversea 📺 在 YouTube 观看视频：https://youtu.be/d2RUvQw-xfk 🤖 加入我们的 Discord 获取支持、反馈和社区讨论：https://discord.gg/jmuv5TQzKU

智能体产品更新

22:30

fofr@fofrAI

42

我越与AI智能体交谈，就越擅长将意图压缩成最少的模型token。我无意中学会了Claudish。

智能体大佬观点

22:21

AYi@AYi_AInotes

54

Claude Code+Sonnet 5 十八分钟做出获奖级网站

推文指出，使用 Claude Code 加 Sonnet 5 仅 18 分钟就能做出获奖级的完整网站，设计与代码完成度均达到专业水准。Agent 能力提升后，复杂多步设计任务可稳定落地，质感跨越专业门槛。未来不会用 AI 的设计师将被会用的同行甩开，执行层价值加速坍缩，审美与判断力成为真正的硬通货。

智能体 Anthropic 现象/趋势编码

22:09

meng shao@shao__meng

52

三次LLM交互范式：从网页聊天到组织内嵌式AI

邵猛总结LLM交互三阶段：网页聊天机器人、独立AI应用、组织内嵌式AI。Claude Tag实现从“每人一个AI”到“每个频道一个AI”，团队共享代理实例，上下文连续可接力；从被动响应转向持续参与，跟踪线程并长期在场。Glean Agents提出生产级独立Agent四支柱：Identity（独立身份与权限）、Memory（学习企业SOP并迭代纠错）、Proactivity（主动监控与执行）、Accountability（工具调用可追溯，含紧急停止）。实践示例OnCall Assistant在告警触发后并行读取PagerDuty、Jira、Confluence、GitHub、Slack，自动排查根因并标记负责人。

Sumanth: http://x.com/i/article/2072078677047926784

智能体大佬观点

20:45

The Decoder：AI News（RSS）

精选71

Fable 5 在 RLI 基准中达成 16.1% 自动化率，较八个月前提升六倍

Remote Labor Index（RLI）衡量 AI 智能体完成 240 个付费自由职业项目（总值 14.4 万美元）的专业质量比例。最新结果显示，Fable 5 自动化率达 16.1%，是八个月前最佳系统 2.5% 的六倍多，也超过 Opus 4.8（8.3%）和 GPT-5.5（6.3%）。因美国政府限制访问，Fable 5 仅完成 218/240 个项目评估，最坏情况仍达 14.6%。Gemini 3 Pro 仅 1.25%，落后于更老模型。AI 裁判会高估模型表现（GPT-5.5 评分偏高近三倍），仍需人类评估员打开专业软件（如 Blender）检验几何模型等细节。测试环境为虚拟 Linux 机，配备 30 余款专业应用，每项目最多 24 小时计算时间。尽管自动化率快速攀升，多数项目仍无法达到专业质量。

智能体 Anthropic OpenAI 现象/趋势

推荐理由：自由职业自动化率八个月翻了六倍，这个数据比任何模型基准都更说明AI对真实工作的渗透速度。虽然顶级模型仍会'作弊'，但趋势已经形成，做自由职业平台和外包的人该认真看看。

20:34

TechCrunch：AI（RSS）

58

用户利用开源AI智能体OpenClaw结合Claude自动生成约会视频，引发隐私争议

内容创作者Ben Guez用开源AI智能体OpenClaw追踪世界杯赛果，触发Claude自动生成Instagram试播视频，配文“我无法相信{国家}输了……需要情感支持的{国家}女孩请私信我”，几天内获得超过100万次观看和200条私信。另一位用户Jeff Weisbein利用OpenClaw规划南佛罗里达约会地点。还有人用Claude自动编写分手消息。安全公司NanoClaw联合创始人Lazer Cohen警告，让AI智能体单方面控制账户存在隐私风险，强调需要人类参与审批。

智能体 Anthropic 开源/仓库教程/实践

19:39

meng shao@shao__meng

精选79

browser-use 发布开源 AI 视频剪辑 Skill「video-use」

browser-use 团队推出面向 Codex、Claude Code 等 AI 编码智能体的开源 Skill「video-use」，让 LLM 通过 ElevenLabs Scribe 将音频转写为约 12KB 文本（含逐词时间戳、说话人分离、事件标记），仅在决策点调用 timeline_view.py 生成 PNG 帧图。技术流水线包括转写、打包、生成 JSON 格式 EDL、ffmpeg 渲染及最多 3 轮自评估。渲染关键细节：分段提取 + -c copy 拼接、30ms 音频淡入淡出、PTS 时移、字幕最后叠加、HDR 自动映射、竖屏缩放、两-pass loudnorm。动画支持 HyperFrames、Remotion、Manim 等引擎。项目附带 12 条硬规则确保生产正确性。

智能体 GitHub 开源/仓库视频

推荐理由：browser-use 团队把 AI 视频剪辑从「看视频帧」变成「读转写文本」，12KB 文本代替 4500 万 token 噪声的思路很聪明，一套可落地的 ffmpeg 脚本集，做 AI agent 视频处理的可以直接抄。

19:29

eric zakariasson@ericzakariasson

66

Fable 在 Cursor 中的两种高效用法

Eric Zakariasson 分享了 Fable 在 Cursor 中的两种用法。一是作为编排器（orchestrator），将子任务分派给 Composer 2.5 并行执行，仅在设计决策、复杂 Bug 等需要整体判断时才单独使用 Fable。有效简报需包含单一关注点、足够上下文、完成定义和简短报告。二是长时云智能体（Cloud Agents）模式，用于长期重构、多端功能或跨代码库调查，通过 iOS 应用监控并适时干预。作者还建议轮换不同模型，以保持对前沿能力的认知。

智能体教程/实践编码

18:59

向阳乔木@vista8

56

Computer Use 自动订阅 YouTube 播客体验

用户分享利用 Computer Use（中文名“电脑”）功能自动订阅 YouTube 播客的流程：先与 Raycast AI 对话获取值得关注的 AI 播客推荐，然后在 Codex 中通过 @Computer Use 指令输入推荐列表，等待数分钟即可完成全部订阅，实现“偷懒式”自动化操作。

智能体教程/实践

18:31

公众号：千问APP（阿里）

精选62

千问团队朱达：C端Agent Harness的"多快好省"工程哲学与主动服务探索

千问团队2026年1月上线通用复杂任务Agent（千问App胶囊入口），总结“多快好省”方法论：支持信息搜集、研究分析等任务；执行时间降至初始1/3；通过搜索范式与上下文管理优化交付质量；Token消耗仅为海外产品1/10。团队探索从被动响应转向主动服务，构建User Memory、Environment、Task System、Assistant四大组件，指出“情商”是主动服务最难环节。朱达提出Agent工程从Prompt Engineering演进至Harness Engineering，下一站是A IWare Engineering，强调“低功耗，够用就行”。

智能体大佬观点部署/工程

推荐理由：千问C端团队分享的Agent工程实践很务实，从“多快好省”到AIWare Engineering的演进思路，对正在做复杂任务Agent的团队是一个有价值的参考系。

18:21

AYi@AYi_AInotes

61

AI是放大器而非核心发动机，个人判断力与执行力才是护城河；营销Agent Lev8 数据亮眼

作者用AI副业赚20万，感悟AI是普通人的公平杠杆，但核心是个人判断力与执行力。引用的推文介绍营销垂直Agent「Lev8」，在找海外客户场景中，有效结果量90个（Exa 58.2，Codex 20），匹配精度83.3%（Exa 76.5%，Codex 71.8%），单条成本$0.052（Exa $0.061）。Lev8聚合50+实时数据源和10亿+职场人脉，自动监测融资/招聘等商机，生成定制破冰文案，支持五渠道一键发出。

AYi: 真的有点兴奋,终于等来营销圈的 Codex 了,不管你是独立开发还是OPC一人公司,找客户扒联系方式写破冰信这些破事,直接给你干得明明白白! 甚至你用来做副业搞钱都是一个超级神器! 我们都知道,AI现在已经把写代码的门槛拉平了,Codex能...

智能体教程/实践

18:20

公众号：卡尔的AI沃茨

61

实测腾讯Marvis：手机远程操控Mac清出100GB，还能续写小说

腾讯推出桌面AI管家Marvis，可通过手机远程操控Mac。实测功能包括：电脑自检（扫描磁盘、性能、电池、使用习惯，生成网页报告）、垃圾清理（清出100GB至占用80%以下，删除需逐项确认）、远程操控多台电脑（支持鼠标键盘实时操作）、跨浏览器搜索“AAindex前十模型API接入方式”自动整理成表格、一句话生成PPT（质量约80分）、读取本地小说项目《灰质交易》并根据设定续写第一章。Marvis内部接入混元和DeepSeek，定位为电脑AI管家，与偏交付的WorkBuddy差异化。

智能体评测/基准

18:09

Alibaba Cloud@alibaba_cloud

35

Flink Forward Asia 2026：阿里云等提出Agent时代统一愿景

在Flink Forward Asia 2026深圳大会上，阿里云Vicki Liu、Junhua Wang，Anker Innovations的Xiwen Zhu及AI研究员Bojie Li共同提出Agent时代的统一愿景：Agent正重新连接数据与AI，需要集成计算、数据平台与实时处理的统一基础设施，使AI能自主执行独立任务，并形成自维持的数据飞轮——业务决策持续生成新数据以优化Agent策略。

智能体现象/趋势

16:31

Berryxia.AI@berryxia

37

一般小任务，Agent 足够聪明，一句话就够了。

Bloome: Most tools give you a draft. This chat gave back a launch asset. From "we launch this week" to a post-ready card, withou...

智能体大佬观点

16:28

HuggingFace Daily Papers（社区热门论文）

51

逆向规划实现个性化：通过结构去噪学习潜在设计意图的智能体幻灯片生成

幻灯片个性化需要同时定制主题与布局，现有AI智能体方法依赖预设模板或用户详细指令，难以捕捉细粒度潜在设计意图。SPIRE将页面级幻灯片个性化（PSP）重新定义为逆向规划问题，在不假设具体执行工具（如PowerPoint、Beamer）的前提下学习设计意图。通过故意破坏干净幻灯片的视觉结构，SPIRE创建可验证的去噪任务，两个智能体通过强化学习协作优化可执行设计。理论证明结构去噪是PSP的一致代理，且多智能体公式严格降低策略梯度方差。实验表明SPIRE在幻灯片个性化生成上表现优越。

智能体论文/研究

15:04

IT之家（RSS）

67

阿里拟整合 QoderWork、悟空、MuleRun 三大 Agent 产品，现有用户权益不受影响

阿里巴巴计划以桌面 AI 工具 QoderWork 为基础，整合“悟空”与“MuleRun”，打造面向企业生产力的新 AI 产品，由钉钉 CEO 陈宇森负责。QoderWork 可自然语言操作本地应用与文件，已接入钉钉、微信、飞书；悟空是企业级 AI 工作平台，内置钉钉；MuleRun 面向 43 国，支持多 Agent 协作。现有产品将无缝升级，用户权益不受影响。

智能体行业动态

13:28

HuggingFace Daily Papers（社区热门论文）

55

MemSyco-Bench：评估智能体记忆中的谄媚行为

大语言模型智能体依赖记忆，但检索到的记忆常引发“谄媚”问题——智能体过度迎合用户而牺牲事实准确性。现有记忆基准仅评估存储、检索或更新是否正确，忽略了对下游推理的影响。为此，MemSyco-Bench被提出，专门衡量记忆何时该影响决策及如何使用有效记忆。它涵盖五项任务：智能体能否拒绝记忆作为事实证据、尊重记忆适用范围、解决记忆与客观证据冲突、追踪记忆更新，以及利用有效记忆进行个性化。所有资源已公开。

智能体安全/对齐

13:04

IT之家（RSS）

48

谷歌详解安卓Halo：状态栏专属席位充当AI智能体交互中枢

谷歌昨日发布视频，详细介绍安卓Halo功能。该功能于今年5月I/O大会亮相，旨在提升后台AI助手透明度。启用后，屏幕顶部状态栏拥有专属席位，实时显示AI智能体（如Gemini）状态。安卓总裁萨米尔·萨马特称，Halo为智能体提供专用沟通平台，用于报告更新、接受用户指示，在需要人工介入的后续提问、进度更新、结果展示时，用户无需重新打开AI应用即可交互。

智能体 Google 产品更新端侧

13:00

Ethan Mollick@emollick

43

我一直在阅读各种关于为Fable开发工作流最佳方式的帖子，这提醒我，我们对长期运行智能体的最佳工作组织方式知之甚少。没有人有足够的经验或做过足够的测试来得出任何真正的结论。

智能体大佬观点

13:00

Ethan Mollick@emollick

72

Ethan Mollick 提醒，Fable 在长时间任务中会发展出独有的内部节奏和对话模式，其多个 agent 与任务相互强化，使得 "Claudish" 语言越来越 "Claudish"。若不主动要求它用 plain language 报告，这种怪异风格会渗透到包括菜单在内的所有输出中。

Ethan Mollick: One thing I mentioned only in passing in my Fable post is that, for long running tasks, Fable starts to develop its own ...

智能体教程/实践

‹ 上一页

12 3…50