7月3日

05:08

MarkTechPost（RSS）

精选70

阿里巴巴发布 Page Agent：开源 JavaScript 库实现网页 DOM 自然语言操控

阿里巴巴发布 Page Agent，一个开源的 JavaScript 客户端库，嵌入网页后可通过自然语言指令直接操作 DOM 元素。与 Playwright、Puppeteer 等外部浏览器自动化工具不同，Page Agent 不依赖截图或多模态模型，而是将实时 DOM 脱水压缩为 FlatDomTree 文本映射，让纯文本模型精准执行点击、表单填写等操作。它继承用户 cookies 和会话，无需独立后端，并支持任意 OpenAI 兼容端点的模型（示例使用 qwen3.5-plus）。项目采用 MIT 许可证，适合在自有应用内构建 AI 副驾、智能表单填充或无障碍控制等场景，但限于单页面范围，风险操作仍需服务端验证。

智能体开源/仓库部署/工程

推荐理由：Page Agent 把浏览器自动化从外部驱动变成页面内 JS，读 DOM 而非截图，让 SaaS 内的 AI 助手成本更低、更精准，适合自己产品内嵌 copilot 的团队。

7月2日

20:34

TechCrunch：AI（RSS）

用户利用开源AI智能体OpenClaw结合Claude自动生成约会视频，引发隐私争议

内容创作者Ben Guez用开源AI智能体OpenClaw追踪世界杯赛果，触发Claude自动生成Instagram试播视频，配文“我无法相信{国家}输了……需要情感支持的{国家}女孩请私信我”，几天内获得超过100万次观看和200条私信。另一位用户Jeff Weisbein利用OpenClaw规划南佛罗里达约会地点。还有人用Claude自动编写分手消息。安全公司NanoClaw联合创始人Lazer Cohen警告，让AI智能体单方面控制账户存在隐私风险，强调需要人类参与审批。

智能体 Anthropic 开源/仓库教程/实践

19:39

meng shao@shao__meng

精选79

browser-use 发布开源 AI 视频剪辑 Skill「video-use」

browser-use 团队推出面向 Codex、Claude Code 等 AI 编码智能体的开源 Skill「video-use」，让 LLM 通过 ElevenLabs Scribe 将音频转写为约 12KB 文本（含逐词时间戳、说话人分离、事件标记），仅在决策点调用 timeline_view.py 生成 PNG 帧图。技术流水线包括转写、打包、生成 JSON 格式 EDL、ffmpeg 渲染及最多 3 轮自评估。渲染关键细节：分段提取 + -c copy 拼接、30ms 音频淡入淡出、PTS 时移、字幕最后叠加、HDR 自动映射、竖屏缩放、两-pass loudnorm。动画支持 HyperFrames、Remotion、Manim 等引擎。项目附带 12 条硬规则确保生产正确性。

智能体 GitHub 开源/仓库视频

推荐理由：browser-use 团队把 AI 视频剪辑从「看视频帧」变成「读转写文本」，12KB 文本代替 4500 万 token 噪声的思路很聪明，一套可落地的 ffmpeg 脚本集，做 AI agent 视频处理的可以直接抄。

19:14

Hacker News 热门（buzzing.cc 中文翻译）

精选71

Senior SWE-Bench：评估AI智能体作为高级工程师的基准测试

Senior SWE-Bench是一个开源基准测试，用于评估AI智能体完成高级软件工程师级别任务的能力。任务分功能开发与Bug修复两类：功能任务指令类似自然语言消息，采用验证智能体基于专家配方自动生成行为测试；Bug任务要求根据日志、profiling等运行时信息深入调查。排行榜显示，Claude Opus 4.8搭配Mini-SWE-Agent（max effort）通过率24.0%，Claude Sonnet 5为19.4%，GPT-5.5为16.0%，最强前沿模型在超75%任务中未能达到高级工程师级别的正确性与品味。每个功能任务平均涉及11个文件，最强智能体也需数百步完成；中位指令长度仅为SWE-Bench Pro的31%。任务来源于从库到多服务应用的仓库PR，由拥有数百次提交的工程师编写。

开源/仓库编码评测/基准

推荐理由：这个新基准把 AI 编程代理的评估拉到了更真实的复杂度，顶尖模型也只有不到四分之一的成功率，做 coding agent 的都该拿它测一测，它会比 SWE-bench 更挑出工程师的“手感”。

17:06

MarkTechPost（RSS）

精选72

Google Health API 推出 CLI：ghealth 是一款针对 Fitbit 数据的开源工具

ghealth 是一款封装 Google Health API v4 的开源命令行工具，以单个 Go 二进制文件发布（Apache 2.0 协议）。它提供 40 种已验证的数据类型（包括步数、心率、睡眠、体重、血氧饱和度、心率变异性等）的结构化 JSON 输出。工具采用 Agent 优先设计，具备确定性退出码、--dry-run 和 --raw 标志，并附带两个 SKILL.md 文件供 AI 智能体使用。用户需自行创建 OAuth 凭据，通过 PKCE S256 认证。数据来源覆盖 Fitbit、Pixel Watch 及连接的第三方设备。

Google MCP/工具开源/仓库数据/训练

推荐理由：把 Google Health API 封装成终端和 AI 代理友好的 CLI，一次性解决了认证、JSON 输出和分页这些烦人细节，想用 Fitbit 数据做健康分析或喂给代理的人可以直接上手，但它的影响仅限于个人健康数据爱好者这个小圈层。

12:04

IT之家（RSS）

知名GPU架构师Raja Koduri创立的OXMIQ Labs完成3500万美元A轮融资

由知名GPU架构师Raja Koduri创立的芯片IP企业OXMIQ Labs宣布完成3500万美元A轮融资，由Fundomo和Samsung Catalyst Fund领投，联发科、英特尔资本、和鼎创投、雷蛇等跟投，累计融资6000万美元。其核心IP OxCore集成标量、矢量、张量单元，专为近内存计算设计，已完成FPGA原型并开放授权。配套软件OxCapsule和OxPython支持现有CUDA/PyTorch代码直接运行，优化大规模推理。

开源/仓库行业动态

11:28

HuggingFace Daily Papers（社区热门论文）

域算术：环境变化下的一次性VLA适配

Vision-Language-Action (VLA) 模型在相机位姿改变或机器人更换（如从Panda换为UR5e）时通常无法完成已学任务。传统适配需为每个任务收集多次演示，成本高昂。DART（Domain ARiThmetic）提出基于类比推理的方法，通过权重向量算术添加特定领域信息，仅需单次演示即可适配目标环境。DART对权重向量中的奇异成分进行子空间对齐以滤除噪声。在模拟和真实实验中，DART在一次性场景下优于现有VLA适配方法。代码已开源。

arXiv GitHub 具身智能开源/仓库

11:25

歸藏(guizang.ai)@op7418

藏师傅社交卡片Skill更新：支持Live Photo生成与编辑

歸藏的guizang-social-card-skill新增Live Photo能力，支持单视频动态卡片、拼图式（二/三/四宫格）、三连Live Photo及长视频筛选。核心细节：第一帧可作为静态图发布；小红书5秒/公众号3秒时长区分；发布需将JPG+MOV打包为.pvt并通过AirDrop传到iPhone。建议先粗剪视频每段10秒左右，让AI判断适合做Live Photo的片段。安装或更新后即可使用。

智能体 GitHub 产品更新图像生成

09:05

OpenClaw🦞@openclaw

主推文只是说"把这段留给喷子"。引用推文中，Colin自我介绍：他是OpenClaw iOS UI的主要贡献者之一，作为志愿者维护者，他接受公开批评。他时间有限但对移动端智能体充满热情。他邀请大家与他对话、指出不足，并加入Discord共同改进。

Colin: I want to introduce myself. Hi I'm Colin, I did a lot of the @openclaw iOS UI, so as one of the volunteers responsible, ...

智能体开源/仓库

7月1日