6月26日

01:55

AK@_akhaliq

在 hf-claude 中使用 glm 5.2 为 Ornith-1.0-9B 构建 Gradio 服务器应用。

Hugging Face 教程/实践部署/工程

01:39

fofr@fofrAI

Omni，带有图像参考。

图像生成教程/实践

01:24

gabriel@gabriel1

教程/实践语音

6月25日

22:24

gabriel@gabriel1

"嘿 Codex，给我这个页面做 20 个变体，每页一个按钮用来切换" "好，选变体 4" AI 模型很擅长头脑风暴，但不擅长做决定，所以这样用它们就好。

OpenAI 教程/实践编码

21:20

ginobefun@hongming731

开发者 @hongming731 分享使用 FreeLLMAPI 项目"光明正大白嫖"，已累计消耗约 1.3B token，支持自定义策略。此外，他还提出基于 Dify 异常分支的省钱方法：增加一个 openrouter/free 节点，当异常时使用 flash 模型兜底，每天可免费调用 1000 次。

ginobefun: 基于 Dify 异常分支的省钱小妙招增加一个 openrouter/free 节点处理,异常时使用 flash 模型兜底,每天可以调用 1000 次

MCP/工具教程/实践部署/工程

15:35

Chubby♨️@kimmonismus

Fable 5 已对部分用户在 Claude Code 上再次可用。开搞！

sanchay: 🚨 You can already use fable 5 by selecting the model after resuming it with /remote control on ios

Anthropic MCP/工具教程/实践

14:54

Alibaba Cloud@alibaba_cloud

阿里云宣布HappyHorse 1.1已上线Runware平台，推出两项关键功能：多角色转换（Multi-character casting）--可将真实参考图像锁定到每个镜头；电影故事板（Cinematic storyboarding）--从单个提示词生成多镜头短片。相关指南已在Runware文档中发布。阿里云表示该平台围绕创作自由与想象力构建，旨在降低边界、赋能创作者实现大胆创意。

Runware: HappyHorse 1.1 guides are live on our docs: - Multi-character casting: lock real reference images into every cut https:/...

图像生成教程/实践

12:07

向阳乔木@vista8

飞书Cli+Codex实现对话记账

通过飞书Cli工具与Codex结合，实现自然语言记账：终端执行npx @larksuite/cli@latest install安装飞书Cli，再在Codex中创建“日常开销记录”项目，用对话指令生成多维表格，之后可直接在手机端查看和修改，无需额外记账软件。

MCP/工具教程/实践编码

10:19

ginobefun@hongming731

基于 Dify 异常分支的省钱小妙招增加一个 openrouter/free 节点处理，异常时使用 flash 模型兜底，每天可以调用 1000 次

教程/实践部署/工程

10:07

向阳乔木@vista8

个人读书工作流：zlib机器人+NotebookLM快速学习

推主分享基于Readwise推荐书籍的个人工作流，包含两个Skill：1）通过Telegram绑定zlib机器人（z-lib），使用telethon库自动与机器人对话下载电子书；2）将epub文件上传至Google NotebookLM，利用其递归提问功能快速解读内容，实现高效学习。

MCP/工具教程/实践

07:59

Hacker News 热门（buzzing.cc 中文翻译）

PostHog工程师用多个并行Claude Code会话重写SQL解析器，速度提升70倍

PostHog工程师使用多个并行的长时Claude Code会话重写了公司的SQL解析器，将解析速度提升约70倍。新解析器包含16K行解析器代码和5K行工具代码。原始解析器基于ANTLR生成，采用图遍历解释器，性能受限；新解析器采用手动编写的递归下降解析器配合Pratt表达式循环，仅在必要时引入前瞻与回溯。开发过程中通过属性测试（Hypothesis）确保与原始C++解析器在真实查询上的等价性。

教程/实践编码部署/工程

07:19

宝玉@dotey

AI处理播客访谈：多稿合并法避免细节遗漏

针对长达3小时播客访谈用AI生成文章时容易遗漏细节的问题，常见做法是连续追问“还有什么细节需要补充？”三次左右（甚至可做成Agent Skill）。但作者采用不同策略：同时让AI生成2-3份稿子，挑选最佳一份作为底稿，再将其它稿子的内容手动合并进来。这样既能避免细节遗漏，也能防止单次生成质量差导致后续追问难以提升质量。

向阳乔木: 长达3个小时的播客访谈,如果原文提供给AI生成文章。经常会漏掉一些细节,所以我会连续追问几次: "还有什么细节需要补充吗?" 一般三次左右就差不多,感觉应该做成一个Agent Skill。哪怕同一个模型,连续追问也能改善质量。当然,目...

智能体教程/实践

06:59

Hacker News 热门（buzzing.cc 中文翻译）

NVIDIA 45C冷却设计将数据中心用水量降至接近零

NVIDIA 推出的 45C 冷却设计将数据中心用水量降至接近零，大幅降低水资源消耗。该方案源自 NVIDIA 官方博客。

教程/实践部署/工程

05:46

ClaudeDevs@ClaudeDevs

当 Claude 与四人一同在频道中工作时，它使用谁的凭证？答案：它自己的。标注 Claude 时，Claude 会像其他队友一样被配置，拥有自己的凭证。我们将这种访问模型称为"智能体身份"。其工作原理如下： 🧵

智能体 Anthropic 教程/实践

04:54

karminski-牙医@karminski3

GLM-5.2 魔改版让 vLLM 支持推测性解码，速度飙升至 43 token/s

GLM-5.2 自带 MTP（推测性解码）头因采用 DSA（动态稀疏注意力），导致 vLLM、llama.cpp、mlx 等推理引擎难以支持。原始 bf16 精度需 1.5TB，4bit 量化仅 430GB。社区作者 dnhkng 制作了 GLM-5.2-AWQ-INT4-FP8-MTP-delta 魔改版：底座用 INT4（Marlin 算子）+ MTP 用 FP8，使 vLLM 支持 MTP，速度从 2 token/s 提升至 43.39 token/s（绑定 NUMA+MTP-3）。SGLang 因支持混合精度可直接使用 GLM-5.2-W4AFP8；llama.cpp 和 mlx 用户仍需等待社区适配。

推理教程/实践部署/工程

04:07

OpenRouter：Announcements（RSS）

精选68

OpenRouter 零数据留存（ZDR）实践：97 款新模型，流量占比近半

OpenRouter 的零数据留存（ZDR）保证用户提示词和模型响应不被存储，元数据一般安全。自 1 月以来新增 97 款支持 ZDR 的模型，月度 token 量增长 4.3 倍，约占全部路由流量一半。ZDR 在三个层面执行：账户级（整个供应商开启）、护栏级（按 API Key 或组织成员限定）、单次请求级（传参数仅路由至 ZDR 端点）。企业用户可灵活选择控制粒度，避免锁定单一供应商。

教程/实践数据/训练

推荐理由：ZDR 远不止“不存数据”这么简单，提示、响应、缓存的区分很多人没搞清楚。OpenRouter 的三层执行算是把自由度给足了，做合规服务的人可以仔细看看。

03:34

MarkTechPost（RSS）

如何设计OpenHarness风格Agent运行时：工具、记忆、权限、技能与多智能体协调

本教程从零构建OpenHarness，一个可运行的Agent运行时，展示完整控制流：接收用户任务、模型决策、验证并执行工具调用、返回观察结果、循环直至任务完成。覆盖核心模块：工具使用与类型化工具架构、权限控制、生命周期钩子、记忆管理、技能、上下文压缩、重试逻辑、Token成本跟踪及多智能体协调。实现采用纯Python，无需API密钥或复杂基础设施即可实验，包含Token成本估算。

智能体 MCP/工具教程/实践

02:35

Claude：Blog（网页）

同事件精选60

Anthropic 推出 Claude Tag，构建人机协作团队

Anthropic 推出 Claude Tag，支持多用户与同一 AI 智能体在同一工作空间协作。智能体具备持久记忆、独立于人类的凭证及广泛信息访问权限。经验：工作公开化并给予智能体广泛上下文，通过工作区级安全边界让信息对人和 AI 均可用；为每位成员（含 AI）分配明确角色与相应工具。用户可通过 @Claude 私信进行敏感交互，对话保持私密。该方法已在 Slack 等团队协作工具中实践，旨在使人类与智能体高效协作完成共享目标。

智能体 Anthropic 教程/实践

同一事件，精选展示《Anthropic 推出 Claude Tag：在 Slack 中通过 @Claude 协作》

推荐理由：Anthropic 内部总结的四个教训——公开透明、明确角色、设北极星、逐步信任，对正在探索人机协作团队的管理者来说，比产品手册更实用。

01:42

jason@jxnlco

计算机！启动防火墙！使用 gpt-realtime-2，你可以在上下文中提示唤醒词、进行推理，并构建一些傻乎乎的游戏。看我玩一个游戏 Simon Says… 剧透：它赢了我。

OpenAI 教程/实践语音

01:18

Berryxia.AI@berryxia

Matt Pocock 发布 /loop-me 技能：用"严苛面试法"梳理工作循环，输出可执行规范

Matt Pocock 推出 /loop-me 技能，旨在帮你梳理日常工作中的重复“循环”。它采用“严苛面试法”逐一追问直到模糊点消除，最终输出清晰的 workflows/.md 规范文件，任何实施者（人类或AI）看完即可执行。核心包括定义 Trigger、Checkpoint、输出等要素，确保达到“完成的定义”。技能目前仍处于进行中状态，但已可直接使用。它强调先打磨工作流程，使之能被 AI 精确理解，从而降低认知负荷，将重复劳动真正委托出去。

Matt Pocock: New in-progress skill: /loop-me Interviews you about your work and finds opportunities for delegating your day-to-day wo...

智能体 GitHub 教程/实践编码

00:15

Hugging Face：Blog（RSS）

精选66

NVIDIA NeMo AutoModel：一行代码加速Transformer MoE模型微调

NVIDIA NeMo AutoModel 是基于 Transformers v5 的开源库，添加 Expert Parallelism、DeepEP 融合 all-to-all 调度和 TransformerEngine 内核。在 MoE 模型微调中，相比原生 v5，训练吞吐量提升 3.4–3.7 倍，GPU 内存减少 29–32%，仅需改动一行 import。在 16 节点 128 张 H100 上全微调 Nemotron 3 Ultra 550B A55B 时，v5 因内存不足无法运行，而 AutoModel 凭借 EP=64 专家并行使训练可行。单节点 30B MoE 模型（如 Qwen3-30B-A3B）同样获得可量化的性能优势。

开源/仓库教程/实践数据/训练

推荐理由：英伟达的 NeMo AutoModel 把 MoE 模型微调速度提高了三倍多，内存省了近三分之一，代码只需改一行 import，做训练的可以立刻升级。

6月24日

23:34

向阳乔木@vista8

Vista：连续追问AI三次可改善文章质量

Vista分享经验：将3小时播客访谈交由AI生成文章时，通过连续追问“还有什么细节需要补充？”（约三次）能有效补全遗漏细节，显著改善输出质量，使文章更具故事性。她建议将这一追问流程封装为Agent Skill，以便复用。

智能体教程/实践

22:48

Nathan Lambert@natolambert

Nathan Lambert 用 GLM 5.2 开讲 AI 基础

Nathan Lambert 发布了一期 AI 基础讲座视频，使用 GLM 5.2 模型生成。内容涵盖语言模型概述、LM Head、Softmax 与对数概率、训练样本结构、概率计算、后训练中的三种掩码、解码、交叉熵损失、优化与微调、预训练到 SFT 流程、KL 散度与熵、Sigmoid 与成对似然、强化学习 MDP 框架等。视频包含时间戳目录，并持续收集观众问题用于后续 Q&A。

安全/对齐教程/实践