7月3日

06:21

Simon Willison 博客

Simon Willison 发布实验性库 llm-coding-agent 0.1a0，基于其 LLM 库演化为智能体框架，实现类似 Claude Code 的编码智能体。可通过 uvx --prerelease=allow --with llm-coding-agent llm code 运行，并提供基于 CodingAgent 类的 Python API。内置六种工具：edit_file（精确替换字符串并返回 diff）、execute_command（执行命令，超时 600 秒）、list_files（按 glob 列出文件，排除隐藏目录和 .gitignore 覆盖项）、read_file（分页读取，offset/limit 控制）、search_files（正则搜索，最多 100 条结果）、write_file（创建或覆盖文件，自动创建父目录）。已作为 slop-alpha 发布到 PyPI，支持 --yolo 等 recipe 参数。

智能体 GitHub 产品更新开源生态

7月2日

19:39

meng shao@shao__meng

精选79

browser-use 发布开源 AI 视频剪辑 Skill「video-use」

browser-use 团队推出面向 Codex、Claude Code 等 AI 编码智能体的开源 Skill「video-use」，让 LLM 通过 ElevenLabs Scribe 将音频转写为约 12KB 文本（含逐词时间戳、说话人分离、事件标记），仅在决策点调用 timeline_view.py 生成 PNG 帧图。技术流水线包括转写、打包、生成 JSON 格式 EDL、ffmpeg 渲染及最多 3 轮自评估。渲染关键细节：分段提取 + -c copy 拼接、30ms 音频淡入淡出、PTS 时移、字幕最后叠加、HDR 自动映射、竖屏缩放、两-pass loudnorm。动画支持 HyperFrames、Remotion、Manim 等引擎。项目附带 12 条硬规则确保生产正确性。

智能体 GitHub 开源/仓库视频

推荐理由：browser-use 团队把 AI 视频剪辑从「看视频帧」变成「读转写文本」，12KB 文本代替 4500 万 token 噪声的思路很聪明，一套可落地的 ffmpeg 脚本集，做 AI agent 视频处理的可以直接抄。

16:40

Hacker News 热门（buzzing.cc 中文翻译）

精选71

Kimi K2.7 Code 已在 GitHub Copilot 上正式发布

Kimi K2.7 Code 开源权重模型已在 GitHub Copilot 中正式可用，成为 Copilot 模型选择器首个可选的开源权重模型，为编程工作流提供更低成本选择。该模型由 GitHub 托管于 Microsoft Azure，按供应商列表价格以用量计费。逐步向 Copilot Pro、Pro+ 和 Max 计划用户推送，用户可在 Visual Studio Code 1.127.0 或更新版本、Visual Studio 17.14.6 或更新版本、JetBrains 1.9.1-251 或更新版本、Xcode、Eclipse 等 IDE 及 Copilot CLI、GitHub.com、GitHub Mobile 等平台中选用。后续几周将扩展至 Copilot Business 和 Enterprise，当前默认关闭，需管理员在 Copilot 设置中启用策略。

GitHub 产品更新开源生态编码

推荐理由：GitHub Copilot 首次把开源权重模型放进模型选择器，Kimi K2.7 Code 作为低价选项可能会改变很多开发者的使用习惯，对个人开发者尤其友好。

11:28

HuggingFace Daily Papers（社区热门论文）

域算术：环境变化下的一次性VLA适配

Vision-Language-Action (VLA) 模型在相机位姿改变或机器人更换（如从Panda换为UR5e）时通常无法完成已学任务。传统适配需为每个任务收集多次演示，成本高昂。DART（Domain ARiThmetic）提出基于类比推理的方法，通过权重向量算术添加特定领域信息，仅需单次演示即可适配目标环境。DART对权重向量中的奇异成分进行子空间对齐以滤除噪声。在模拟和真实实验中，DART在一次性场景下优于现有VLA适配方法。代码已开源。

arXiv GitHub 具身智能开源/仓库

11:25

歸藏(guizang.ai)@op7418

藏师傅社交卡片Skill更新：支持Live Photo生成与编辑

歸藏的guizang-social-card-skill新增Live Photo能力，支持单视频动态卡片、拼图式（二/三/四宫格）、三连Live Photo及长视频筛选。核心细节：第一帧可作为静态图发布；小红书5秒/公众号3秒时长区分；发布需将JPG+MOV打包为.pvt并通过AirDrop传到iPhone。建议先粗剪视频每段10秒左右，让AI判断适合做Live Photo的片段。安装或更新后即可使用。

智能体 GitHub 产品更新图像生成

09:07

meng shao@shao__meng

精选77

Emil Kowalski 发布设计工程师 Skills，让 AI 编码工具具备 UI 动画审美

Emil Kowalski 将多年 UI/动画原则沉淀为三个 Skill，使 Codex、Claude Code、Cursor 等 Coding Agents 具备资深设计工程师的审美判断。核心规则：动画必须有理由；每天 100+ 次的高频操作禁用动画；UI 动画控制在 300ms 内；只动画 transform 和 opacity；入口从 scale(0.95)+opacity:0 开始；尊重 prefers-reduced-motion（仅移除位移动画）。review-animations 以严格标准审查动画代码，输出 Before/After/Why 表格。animation-vocabulary 将模糊描述（如“弹一下的效果”）转为专业动效术语。

智能体 GitHub 教程/实践编码

推荐理由：Emil 把设计工程直觉变成了 AI 编码代理能理解的规则，clone 下来就能让 Claude Code 和 Cursor 产出有品味的动效，做前端的值得立刻试试。

7月1日

13:28

HuggingFace Daily Papers（社区热门论文）

TerraDiT-Ω：基于任意地理空间基元的卫星图像合成统一空间控制框架

TerraDiT-Ω是一个统一空间控制框架，可直接利用任意地理空间基元（多边形、折线、边界框、点）进行卫星图像生成。它联合使用精确和粗略标注，适应不同标注预算，适用于城市规划等设计任务。提出Geometry-Aware Local Attention机制，将几何线索注入注意力空间。在所有格式上优于密集和稀疏控制基线。该框架支持可控数据增强，提升土地覆盖分割、目标检测、道路图提取、场景分类等下游性能。代码、数据、权重已开源。

arXiv GitHub 图像生成数据/训练

09:33

meng shao@shao__meng

精选75

mattpocockuk 的 /writing-great-skills：编写可预测 AI Skill 的指南

mattpocockuk 的 /writing-great-skills 成为其最常调用的 Skill，指导如何编写稳定可预测的 AI Skill。核心：以过程可预测为目标；区分 model-invoked（自动触发）与 user-invoked（用户调用），description 应作触发器；采用三层信息结构（主步骤、参考、外部文件）实现渐进式披露；每步骤需明确完成标准；拆分 Skill 是为了控制模型注意力；利用 leading word 压缩行为要求。同时诊断五种失败模式：Premature completion、Duplication、Sediment、Sprawl、No-op，并提供 No-op 测试作为判断句子是否有效的标准。

Matt Pocock: /writing-great-skills is quickly becoming my most often-invoked skill It's just really good at writing skills, guys. npx...

智能体 GitHub 教程/实践

推荐理由：Matt Pocock 把写 Skill 从玄学变成了可拆解的工程，其中领先词和完成标准这两个概念，能立刻让你的自定义工具行为更稳定，搞 Agent 的都应该试一下。

01:19

Simon Willison 博客

精选73

用 shot-scraper video 让 AI 智能体录制工作演示视频

shot-scraper 1.10 新增 shot-scraper video 命令，支持通过 storyboard.yml 文件定义操作步骤，并利用 Playwright 录制浏览器视频。演示视频展示了 Datasette 中从粘贴的 CSV/TSV/JSON 数据创建新表的功能。该功能依赖 Playwright 1.61.0 新增的 screencast 机制，解决了此前视频开头白帧、宽度固定 800px 等问题。开发者 Simon Willison 强调，将 --help 输出设计得足够详细，可使编码 Agent 直接利用该命令生成演示视频。

智能体 GitHub MCP/工具产品更新

推荐理由：Simon 把 agent 的产出从文字推到了视频，这个 shot-scraper video 让 agent 自己生成 storyboard 并录屏，等于给自动化流程加了一双眼睛，开发者可以立刻用上这套 demo 生成方案。

6月30日

10:59

meng shao@shao__meng

Codex 团队 @Dimillian 也是一位知名 iOS/Swift 开发者，把他的 Codex Skill Manager 开源了！这是一个用 SwiftUI + SwiftPM 原生构建的 macOS 应用，作为 Codex Skills 的图形化管理器和商店，把 Codex、Claude Code、OpenCode 和 Copilot 的四套 Skills 目录抽象成 SkillPlatform 枚举，让一个 GUI 统一管理跨平台的 Skills。 https://github.com/Dimillian/CodexSkillManager

GitHub 开源/仓库编码

09:50

公众号：卡尔的AI沃茨

精选70

AI News Radar 大更新：新增自媒体板块，支持订阅多平台账号

AI News Radar 迎来大更新，新增自媒体板块，支持订阅某书、某音、某站、某X等平台账号，每日按热度推荐 Top10 信息（无热门则不硬凑），同时保留时间轴视图，可在热度优先和时间优先间切换。官方来源包括 OpenAI、Anthropic、Google 等一手消息及 GitHub AI&ML 更新日志。信息流按来源、类型、信号等级分类，标注高优先级与多源认证。项目完全开源，可零 API 部署独立 AI 日报页面，支持手机移动端及暗色界面。

GitHub 产品更新开源生态

推荐理由：我觉得这是目前最实用的AI信息过滤工具，新版直接整合了社媒热榜和官方源，内容创作者可以拿来当选题雷达，普通人也能一键部署自己的AI日报，省去每天刷各个平台的时间。

08:00

HuggingFace Daily Papers（社区热门论文）

AtomiMed：层次化原子事实检查实现通用临床感知的医学报告评估

现有医学报告生成评估指标依赖表层n-gram重叠，无法捕捉临床事实准确性且易忽略灾难性诊断错误。AtomiMed是一种通用、跨模态框架，将医学叙述分解为标准化多层次原子临床事实（疾病级实体与位置、形态、严重程度等属性级描述），并通过在地面真实与预测报告间执行智能体交叉验证循环模拟多放射科医生同行评审，实现诊断检测与描述准确性的解耦评估。配套开源工具包MRGEvalKit与多模态基准OmniMRG-Bench（覆盖X光、CT、MRI、超声）。实验表明，AtomiMed与人类判断相关性显著高于传统及基于模型的指标。代码已开源。

arXiv GitHub 论文/研究

6月29日

23:57

SenseTime@SenseTime_AI

商汤 SenseNova-U1-8B-MoT 可生成高质量信息图

商汤推出 SenseNova-U1-8B-MoT-Infographic 模型，能够生成工作室级别的高密度信息图，此前这类工作流程缓慢且昂贵。YouTuber CAPITAL R 制作了演示视频，模型已在 HuggingFace 上线，GitHub 页面展示示例图片，并开放 Discord 社区。

GitHub Hugging Face 图像生成模型发布

22:35

Hacker News 热门（buzzing.cc 中文翻译）

精选71

Herdr：驻留在终端中的AI智能体多路复用器

Herdr是一个驻留在终端中的AI智能体多路复用器，允许用户在单一终端界面内管理和切换多个AI智能体会话。

智能体 GitHub MCP/工具开源/仓库

推荐理由：这个工具把 AI 代理管理塞进终端，比开一堆浏览器标签自然，对命令行重度用户是个值得一试的 early idea。

19:10

公众号：小红书技术（dots.llm）

精选72

小红书 RedKnot 推理引擎：将 KV Cache 按注意力头拆解实现长文本加速

RedKnot 将 KV Cache 沿注意力头维度拆解，通过头分类稀疏（局部头占 83.4%–96.8%）、稀疏 FFN 和 SegPagedAttention 三个机制统一算法与存储粒度。在 8 卡 H800 上，TTFT 最高加速 1.6–3.54×，单卡并发提升 4.7–7.8×，预填充 FLOPs 削减 67%–79.5%。DeepSeek-V4-Flash 上 128K 上下文 TTFT 加速达 5.16×，KV 传输最多省 6.3×。精度通常不低于稠密 F1 的 95%。

arXiv GitHub 产品更新推理

推荐理由：小红书把 KV Cache 从 token 级拆成按头分家，这个思路让长文本推理的 TTFT 和并发都有数量级提升，开源出来对做推理引擎的同学是个福音。

18:24

Berryxia.AI@berryxia

开源项目OpenMontage单日获3000 Star，将视频生产拆为12条pipeline，内置52工具和500+ agent skills。用户用自然语言描述需求，agent完成从调研到剪辑全流程，支持AI与真实素材混合工作流，具备预合成验证、后渲染自检等质量把控，渲染引擎Remotion+HyperFrames，普通人对话可产出专业级视频。

Berryxia.AI: 这个开源视频制作工作流真爽啊! 单日斩获3000 Star,真的牛~ 又一个把AI coding agent直接变成视频制作工作室的项目开源了,叫OpenMontage。它把整个视频生产流程拆成12条结构化pipeline(动画解说、纪录...

智能体 GitHub 开源/仓库视频