AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 520 条
全部一手资讯X论文
标签「教程/实践」清除
今天7月3日 周五
06:08MarkTechPost(RSS)63RAG-Anything 教程:在 Colab 中构建文本、表格、公式和图像的多模态检索管道
05:50Runway:News(网页)51借用夜晚:将闲置推理GPU回收用于研究
03:21Simon Willison 博客65使用 DSPy 评估和优化 Datasette Agent 的 SQL 系统提示词
02:37LMSYS:Blog(Chatbot Arena 团队)59精选Agent辅助的SGLang开发:初步探索
7月2日周四
23:06IT之家(RSS)38华为:乾崑智驾 ADS 4 升级至 ADS 5 不存在硬件限制
20:34TechCrunch:AI(RSS)58用户利用开源AI智能体OpenClaw结合Claude自动生成约会视频,引发隐私争议
05:34MarkTechPost(RSS)69使用 Lift 将研究 PDF 转换为结构化 JSON:受控的、模式引导的字段级评估
7月1日周三
05:37Hacker News 热门(buzzing.cc 中文翻译)49我研制了一台毫米波物料分类雷达
01:28Claude:Blog(网页)72精选Claude Code 入门:智能体循环
01:03OpenAI:官网动态(RSS · 排除企业/客户案例)41OpenAI 发布 Genebench-Pro 基准测试:10个案例研究详解
6月30日周二
16:37Hacker News 热门(buzzing.cc 中文翻译)43Moondream Photon 通过流水线解码消除 GPU 气泡,提升 35% 吞吐量
11:29MarkTechPost(RSS)48Top 6 无代码 AI 工具速览(涵盖多智能体、可视化工作流、RAG 引擎、本地 LLM 工作站、微调框架)
11:06Hacker News 热门(buzzing.cc 中文翻译)48形式化验证:你能对软件做出哪些保证?
01:05Hacker News 热门(buzzing.cc 中文翻译)48运行 CUDA 内核时会发生什么?
6月29日周一
23:55Google Blog:AI(RSS)39问AI专家:全栈AI到底是什么?
18:10公众号:蚂蚁百灵(Ling)51如何优雅地给 MLA 加上 QK-Norm?
10:10公众号:数字生命卡兹克70精选分享两个Vibe Coding必备的实用Prompt:第一性原理与对抗式审查
6月28日周日
15:28MarkTechPost(RSS)63在Colab中构建Fable 5 Traces工作流:解析工具调用、审计数据与训练基线
15:03Hacker News 热门(buzzing.cc 中文翻译)66两节点 AMD Strix Halo RDMA 集群设置指南
03:25Hugging Face:Blog(RSS)62精选一条命令在HF Jobs上启动vLLM服务器
6月27日周六
08:05MarkTechPost(RSS)67NVIDIA Open-SWE-Traces:构建监督微调数据--轨迹解析、补丁分析与 token 预算
6月26日周五
16:04MarkTechPost(RSS)66在 Google Colab 中构建 Nanobot 风格的 AI 智能体:工具调用、会话记忆、技能与 MCP 服务器
10:10公众号:数字生命卡兹克71精选Claude Code 6个实用Hook玩法
09:30公众号:卡尔的AI沃茨62Hyper3D Rodin Gen-2.5 发布:4秒生成百万面模型,新增拆件功能
07:35Meta Engineering Blog(RSS)54Meta 隐私感知基础设施的资产分类:混合模式将 LLM 蒸馏为确定性规则
6月25日周四
07:59Hacker News 热门(buzzing.cc 中文翻译)51PostHog工程师用多个并行Claude Code会话重写SQL解析器,速度提升70倍
06:59Hacker News 热门(buzzing.cc 中文翻译)36NVIDIA 45C冷却设计将数据中心用水量降至接近零
04:07OpenRouter:Announcements(RSS)68精选OpenRouter 零数据留存(ZDR)实践:97 款新模型,流量占比近半
03:34MarkTechPost(RSS)69如何设计OpenHarness风格Agent运行时:工具、记忆、权限、技能与多智能体协调
02:35Claude:Blog(网页)60同事件精选Anthropic 推出 Claude Tag,构建人机协作团队同一事件,精选展示《Anthropic 推出 Claude Tag:在 Slack 中通过 @Claude 协作》
00:15Hugging Face:Blog(RSS)66精选NVIDIA NeMo AutoModel:一行代码加速Transformer MoE模型微调
6月24日周三
19:10公众号:卡尔的AI沃茨65快手KroWork:将AI Skill工作流打包成本地桌面App
18:00公众号:小红书技术(dots.llm)51AICon 上海 2026|小红书质效:Agent 基建的规模化落地路径
15:20公众号:蚂蚁百灵(Ling)49Ling-2.6-1T TPU 推理优化:用 Pallas Kernel 隐藏 MoE 数据搬运
11:20公众号:卡尔的AI沃茨65实测Codex Record & Replay:把RPA自动化工作流重做了一遍
10:10公众号:数字生命卡兹克63同事件精选微信上线AI智能体"小微"内测同一事件,精选展示《微信Agent小微灰度内测:主入口发消息红包,子入口可读聊天记录》
08:27IT之家(RSS)40苹果 macOS 27 Beta 2 已封堵"跳过 Siri AI 候补名单"终端命令
03:18Simon Willison 博客59OPFS + Pyodide 测试 UI
02:37MarkTechPost(RSS)51如何使用NVIDIA Canary-1B-v2进行ASR、翻译和自动SRT字幕导出
02:26Hugging Face:Blog(RSS)64精选在 Transformers.js 中实验提议的跨源存储 API
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月3日
06:08
MarkTechPost(RSS)
63
RAG-Anything 教程:在 Colab 中构建文本、表格、公式和图像的多模态检索管道

本教程使用 RAG-Anything 搭建多模态检索工作流,可检索文本、表格、公式和图像。首先在 Colab 中安装依赖并修复 Pillow 版本,通过 OpenAI API key 配置对话、视觉和嵌入函数。接着生成包含图表和 PDF 的合成多模态报告,将其转为 content_list 格式并插入检索系统。最后配置并测试 naive、local、global 和 hybrid 四种检索模式。环境变量包括 CHUNK_SIZE=900、CHUNK_OVERLAP_SIZE=120,便于在笔记本中复现。

检索增强多模态教程/实践
05:50
Runway:News(网页)
51
借用夜晚:将闲置推理GPU回收用于研究

Runway 开发了名为 deckard 的容量控制器,在生产推理集群与研究集群间动态重分配 GPU。生产流量在北美工作日上午 9 点 ET 达峰,晚 8 点 ET 跌至不足一半。控制器基于预计算的时间窗口(如工作日 8:30–12:30 ET 高峰子窗口)提前扩容和回收,每次集群间转移耗时 20–60 分钟。利用排队论(Erlang‑C、Little's Law)确定目标利用率,避免接近 85% 后的队列发散(90% 利用率下等待时间约为服务时间的 10 倍)。此方案使夜间闲置 GPU 回归研究、白天排队等待缩短。

推理教程/实践部署/工程
03:21
Simon Willison 博客
65
使用 DSPy 评估和优化 Datasette Agent 的 SQL 系统提示词

Simon Willison 通过 Claude Code 中的异步研究任务(基于 Claude Fable 5)尝试用 DSPy 对 Datasette Agent 执行只读 SQL 查询时的系统提示词做评估与优化。Fable 选择测试 GPT 4.1 mini 和 nano,发现改进方向:模式列表仅给出表名,而“如果已有信息不要调用 describe_table”的建议导致列名猜测和错误重试循环。建议在提示词的模式列表中包含列名或软化该建议。

智能体教程/实践数据/训练
02:37
LMSYS:Blog(Chatbot Arena 团队)
精选59
Agent辅助的SGLang开发:初步探索

SGLang团队将LLM服务、分布式运行时、GPU内核、扩散管道等工作流编码为可执行的SKILL.md文件、脚本、基准合约和审查循环。现有技能包括:SGLang .claude/skills(CUDA调试、内核集成、性能分析等)、SGLang diffusion .claude/skills(扩散模型添加与调优)、BBuf/AI-Infra-Auto-Driven-SKILLS(跨框架SOTA循环)、KDA(MLSys 2026 FlashInfer内核竞赛获胜方案)以及BBuf/KDA-Pilot(已合并三个SGLang集成PR)。Profile证据是性能工作的核心,长期优化转向Loop Engineering——SGLang SOTA Performance Loop将追求SOTA分解为公平基准测试、差距决策、性能分析、补丁和再验证,Humanize/RLCR添加外部审查,Codex Goal以更低协调开销运行相同循环。评审重要性提升,开发者需定义问题、选择证据、设计工作流并判断结果是否可用于生产。

推理教程/实践部署/工程

推荐理由:这不是一篇普通的开发经验总结,而是 SGLang 团队把调试、基准测试和性能调优等重复劳动变成可执行 agent 技能的实操手册,对于做推理框架和复杂工程的人非常值得一看。
7月2日
23:06
IT之家(RSS)
38
华为:乾崑智驾 ADS 4 升级至 ADS 5 不存在硬件限制

华为乾崑智能汽车解决方案今日发布《乾崑答网友问》,明确 HUAWEI ADS 5 辅助驾驶系统共有 ADS Max / Pro / SE 三个版本,用户可在车机端 ADS App 通过「设置-辅助驾驶-关于」查看当前版本。针对 ADS 4 Max / Pro / SE 升级至 ADS 5 对应版本,官方确认不存在硬件限制。

教程/实践端侧
20:34
TechCrunch:AI(RSS)
58
用户利用开源AI智能体OpenClaw结合Claude自动生成约会视频,引发隐私争议

内容创作者Ben Guez用开源AI智能体OpenClaw追踪世界杯赛果,触发Claude自动生成Instagram试播视频,配文“我无法相信{国家}输了……需要情感支持的{国家}女孩请私信我”,几天内获得超过100万次观看和200条私信。另一位用户Jeff Weisbein利用OpenClaw规划南佛罗里达约会地点。还有人用Claude自动编写分手消息。安全公司NanoClaw联合创始人Lazer Cohen警告,让AI智能体单方面控制账户存在隐私风险,强调需要人类参与审批。

智能体Anthropic开源/仓库教程/实践
05:34
MarkTechPost(RSS)
69
使用 Lift 将研究 PDF 转换为结构化 JSON:受控的、模式引导的字段级评估

Lift 是一个 PDF 到结构化数据的提取工具,本教程构建了完整的受控评估工作流。通过 4-bit NF4 量化,约 10B 参数模型可在 16 GB GPU(如 T4/L4)上运行。教程生成含干扰项的合成多页研究论文,测试模型在真实文档布局中恢复标题、作者、数据集、指标、超参数、局限性和仓库链接的能力,并输出结构化 JSON,实现模式引导的字段级评估。

开源生态教程/实践数据/训练
7月1日
05:37
Hacker News 热门(buzzing.cc 中文翻译)
49
我研制了一台毫米波物料分类雷达

针对欧洲石棉污染严重、传统取样送检成本高昂的问题,作者用 TI IWRL6432 BOOST 开发板和 ESP32 搭建了 FMCW 毫米波雷达原型。DSP 链通过混频、距离 FFT 和 MIMO 阵列角度估计,配合 Capon 波束成形获得材料密度谱,再输入 CNN 进行物料表面分类。天线部分用开源电磁仿真工具 openEMS 建模并模拟全链路,仿真结果与实测接近。项目因资金不足未完成,但展示了低成本非接触式石棉检测的可行路径。

教程/实践数据/训练部署/工程
01:28
Claude:Blog(网页)
精选72
Claude Code 入门:智能体循环

Claude Code 团队将智能体循环定义为 agent 重复工作直到满足停止条件的过程,并划分出四种主要类型:turn-based 循环(用户提示触发,Claude 自行判断完成或需更多上下文)、goal-based 循环(通过 /goal 命令设定可验证完成标准与最大轮次)、time-based 循环(通过 /loop 按时间间隔重复执行,可用 /schedule 移至云端)、以及 proactive 循环(基于事件或计划自动运行,无人实时参与)。文章还介绍了如何编写 SKILL.md 文件将人工验证步骤编码,让 Claude 进行端到端自检,减少 turn-based 循环中的手动操作。

智能体AnthropicMCP/工具教程/实践

推荐理由:Anthropic把agentic loops从模糊概念变成四种可复制的模式,附带SKILL.md和命令示例,Claude Code用户读完就能设计更自主的编码流程。
01:03
OpenAI:官网动态(RSS · 排除企业/客户案例)
41
OpenAI 发布 Genebench-Pro 基准测试:10个案例研究详解

OpenAI 推出 GeneBench-Pro 生物医学基准测试,包含 10 个案例研究。每个案例提供原始提示词、数据集和支持材料,覆盖体细胞肿瘤学(结构变异指导的肿瘤治疗获益-风险决策)、功能基因组学(CRISPR 靶点验证:lncRNA 转录本或基因组位点)和统计遗传学(连锁遗传位点中蛋白质药物靶点优先排序)等方向,要求模型输出 JSON 格式分析结果。

OpenAI教程/实践评测/基准
6月30日
16:37
Hacker News 热门(buzzing.cc 中文翻译)
43
Moondream Photon 通过流水线解码消除 GPU 气泡,提升 35% 吞吐量

Moondream 推理引擎 Photon 在 NVIDIA B200 上实现约 33ms 近实时 VLM 推理。其利用流水线解码技术,将 GPU 计算与 CPU 任务重叠,消除传统循环中 GPU 空闲等待的“GPU 气泡”,使解码吞吐量提升高达 35%。文章详述三种关键机制:乒乓缓存槽位避免缓冲冲突、前向计算与采样解耦实现受约束解码、以及已结束请求的清理流程(zombies)。

推理教程/实践部署/工程
11:29
MarkTechPost(RSS)
48
Top 6 无代码 AI 工具速览(涵盖多智能体、可视化工作流、RAG 引擎、本地 LLM 工作站、微调框架)

Atoms 是无代码平台,支持零基础设施、多智能体架构并即时连接 GPT 与 Gemini。Sim AI 是开源可视化 AI 智能体工作流工具,提供拖拽画布、80+ 集成及 MCP 支持,可云托管或 Docker 自部署。RAGFlow 是检索增强生成引擎,支持多格式文件建立知识库,连接 LLM(API 或 Ollama),具备检索质量验证。Transformer Lab 是免费开源本地 LLM 与扩散模型工作站,支持下载、对话、图像生成、微调(含 RLHF)、RAG 及嵌入计算。LLaMA-Factory 支持 100+ 模型及 SFT、PPO、DPO、LoRA、QLoRA 等训练方法。

智能体教程/实践部署/工程
11:06
Hacker News 热门(buzzing.cc 中文翻译)
48
形式化验证:你能对软件做出哪些保证?

形式化验证的成本和工具已进入可广泛使用阶段,AI消除了编写证明的最大障碍。与仅覆盖有限输入的测试不同,形式化验证通过验证语言(如Dafny、Lean、Rocq)编写属性和代码,由SMT求解器自动检查所有可达状态是否满足规范——例如权限系统的子集不变性,确保派生权限始终是父权限的子集。验证保证是绝对的:只要规范正确,代码在所有状态下都不会违反属性。过去编写证明需要博士级技能且工具缓慢,如今这一门槛正在降低。

教程/实践部署/工程
01:05
Hacker News 热门(buzzing.cc 中文翻译)
48
运行 CUDA 内核时会发生什么?

一个简单的CUDA向量加法程序在RTX 4090上运行,背后需执行上千万条CPU指令、操作数个设备文件、发出约900次ioctl并访问一个内存映射doorbell寄存器。程序经nvcc编译,设备代码先由cicc转为PTX虚拟ISA,再由ptxas转为SASS机器码,最终正确完成1+1=2的一百万次计算。

教程/实践编码
6月29日
23:55
Google Blog:AI(RSS)
39
问AI专家:全栈AI到底是什么?

一位Google专家解释了全栈AI方法的含义,并指出这一方法长期以来一直是Google AI工作的基础。

Google教程/实践部署/工程
18:10
公众号:蚂蚁百灵(Ling)
51
如何优雅地给 MLA 加上 QK-Norm?

DeepSeek 的 MLA 通过只缓存低维潜向量压缩 KV Cache,但 QK-Norm 需归一化高维 Key,若缓存归一化结果则打破低维优势。文章提出数学等效变换:将 QK-Norm 中动态逆 RMS 标量和静态仿射权重合并到 Query 侧,推理时每个 token 只需额外缓存一个逆 RMS 标量,即可严格等价实现 QK-Norm,不牺牲显存效率。在 400M/1B 模型训练 100B tokens 实验中,QK-Normed MLA 相比 QK-clipping loss 更低(1B 模型 gap ~0.02),训练更稳定且收敛更快。

DeepSeek推理教程/实践数据/训练
10:10
公众号:数字生命卡兹克
精选70
分享两个Vibe Coding必备的实用Prompt:第一性原理与对抗式审查

作者分享Vibe Coding中两个关键Prompt:一是“从第一性原理出发”,强制AI跳出类比推理,从基本事实重新推导本质,曾帮作者发现AIHOT抓取海外信源的底层流量路由隐患并彻底重构;二是“对抗式审查”,让AI站在恶意用户角度攻防式审查代码,检出OOM死循环、未来时间污染等手工难发现的BUG。两个Prompt形成生成与验证闭环,使纯Vibe Coding项目AIHOT最近一周请求量超千万次。

教程/实践编码

推荐理由:这两个 Prompt 把 Vibe Coding 从碰运气变成了有方法,第一性原理堵设计漏洞,对抗式审查堵代码漏洞,卡兹克用自己项目的真实翻车案例讲透,是我读过最实用的编程 Prompt 技巧。
6月28日
15:28
MarkTechPost(RSS)
63
在Colab中构建Fable 5 Traces工作流:解析工具调用、审计数据与训练基线

本教程使用Hugging Face上的Fable 5 Traces数据集,在Google Colab中搭建轻量环境并手动下载JSONL文件。流程包括预览原始agent trace示例、规范化工具调用与文本输出、审计数据结构、检测密钥模式,以及可视化输出类型、工具、源根目录和文本长度等分布。还创建了安全的no-CoT聊天/SFT导出,构建关键词搜索辅助,并训练纯Python朴素贝叶斯基线,评估trace上下文能否预测助手的输出类型与工具使用。

智能体Hugging Face教程/实践
15:03
Hacker News 热门(buzzing.cc 中文翻译)
66
两节点 AMD Strix Halo RDMA 集群设置指南

本文介绍如何配置两节点 AMD Strix Halo 集群,通过 Intel E810 (RoCE v2) 网卡实现 RDMA 互联,用于分布式 vLLM 推理(Tensor Parallelism)。硬件采用两块 Framework Desktop 主板(AMD Ryzen AI MAX+ "Strix Halo",128GB 统一内存)及 E810-CQDA1 100GbE 网卡,直连无需交换机。软件栈基于 Fedora 43,使用 Ray 编排集群、RCCL 通信。RDMA 延迟约 5µs(TCP/IP 为 70‑100µs)。涵盖 BIOS 设置、网络配置、工具箱安装及启动集群的详细步骤。

推理教程/实践部署/工程
03:25
Hugging Face:Blog(RSS)
精选62
一条命令在HF Jobs上启动vLLM服务器

HuggingFace Jobs 支持一条命令启动 vLLM 服务器,用于测试、评估或批量生成。使用 hf jobs run 命令,指定官方 vllm/vllm-openai 镜像、GPU flavor(如 a10g-large)、暴露端口 8000 并设置超时。服务器启动后可通过 OpenAI 兼容 API 访问,每次请求需携带 HF token 作为 bearer token(仅限有读权限的用户)。示例部署了 Qwen/Qwen3-4B(多 GPU 需 --tensor-parallel-size)。a10g-large 价格为 $1.50/小时,按分钟计费,可通过 hf jobs cancel 停止。

Hugging Face教程/实践部署/工程

推荐理由:这是一条命令在HF上启动vLLM的完整教程,适合快速测试模型的开发者,但方案完全绑定Hugging Face平台,通用性有限。
6月27日
08:05
MarkTechPost(RSS)
67
NVIDIA Open-SWE-Traces:构建监督微调数据--轨迹解析、补丁分析与 token 预算

本文介绍如何从 Hugging Face 流式加载 nvidia/Open-SWE-Traces 数据集,解析 openhands、sweagent 等智能体与 minimax_m25、qwen35_122b 模型的轨迹,标准化多轮对话,解析最终代码补丁并统计新增/删除行数、文件扩展名分布。构建分析 DataFrame 考察轨迹长度、工具调用、补丁规模、语言分布及解决结果。基于成功标签、MAX_SFT_TOKENS=32000 的 token 限制、语言过滤和补丁可用性,筛选高质量轨迹形成监督微调子集。

Hugging Face教程/实践数据/训练编码
6月26日
16:04
MarkTechPost(RSS)
66
在 Google Colab 中构建 Nanobot 风格的 AI 智能体:工具调用、会话记忆、技能与 MCP 服务器

本教程在 Google Colab 中从头搭建一个轻量级个人 AI 智能体,灵感来自 Nanobot 核心架构。从 provider 抽象出发,逐步实现工具注册、会话记忆、生命周期钩子、技能以及 MCP 风格的工具服务器,全部模块均可直接运行,无需 API 密钥。教程不依赖外部 agent 框架,而是自行构建核心模块,清晰展示消息、工具、记忆与模型响应如何在实用智能体循环中协同工作。

智能体MCP/工具教程/实践
10:10
公众号:数字生命卡兹克
精选71
Claude Code 6个实用Hook玩法

Claude Code 内置近30个Hook事件(年初仅13个),本质是写死的规则脚本,运行时不消耗token。6个实用玩法:权限弹窗提醒、开机日程播报(问候+天气+飞书日程)、上下文预压缩时自动生成摘要卡片、结合Skill自动整理下载文件夹、启动后每小时久坐提醒、通过Bark实现手机/手表任务完成/失败推送。让AI从被动聊天框变为事件驱动的自动化系统。

智能体AnthropicMCP/工具教程/实践

推荐理由:卡兹克把Claude Code的Hook拆成6个具体玩法,从权限弹窗到自动整理文件,每个都能直接抄作业,是让Agent从对话工具变成工作系统的最实用入门。
09:30
公众号:卡尔的AI沃茨
62
Hyper3D Rodin Gen-2.5 发布:4秒生成百万面模型,新增拆件功能

Hyper3D 推出 Rodin Gen-2.5,最快4秒生成百万面级模型,几何加贴图最快5秒,最高档可达千万面。新增 Bang to Parts 拆件功能,能理解物体结构自动分离零件,支持框选二次细分。原生3D贴图配合PBR材质,确保360度纹理连续。提供多档位,Micro微观模式可生成12k原生贴图还原皮肤纹理。配套3D ControlNet、3D Editing及DCC插件,支持已有模型加载再编辑。

产品更新教程/实践评测/基准
07:35
Meta Engineering Blog(RSS)
54
Meta 隐私感知基础设施的资产分类:混合模式将 LLM 蒸馏为确定性规则

Meta 在 Privacy-Aware Infrastructure (PAI) 的资产分类中采用混合模式:先构建含代码、血缘、语义标注的上下文证据,再调用 LLM 处理歧义、冷启动和新颖资产;人工审核标签与模型推荐严格隔离。LLM 不直接做生产决策,其稳定行为被蒸馏为版本化确定性规则用于生产执行,LLM 角色随规则积累逐步缩小。核心原则:上下文比提示词更重要、解耦评估与优化、将稳定行为规则化。

Meta教程/实践部署/工程
6月25日
07:59
Hacker News 热门(buzzing.cc 中文翻译)
51
PostHog工程师用多个并行Claude Code会话重写SQL解析器,速度提升70倍

PostHog工程师使用多个并行的长时Claude Code会话重写了公司的SQL解析器,将解析速度提升约70倍。新解析器包含16K行解析器代码和5K行工具代码。原始解析器基于ANTLR生成,采用图遍历解释器,性能受限;新解析器采用手动编写的递归下降解析器配合Pratt表达式循环,仅在必要时引入前瞻与回溯。开发过程中通过属性测试(Hypothesis)确保与原始C++解析器在真实查询上的等价性。

教程/实践编码部署/工程
06:59
Hacker News 热门(buzzing.cc 中文翻译)
36
NVIDIA 45C冷却设计将数据中心用水量降至接近零

NVIDIA 推出的 45C 冷却设计将数据中心用水量降至接近零,大幅降低水资源消耗。该方案源自 NVIDIA 官方博客。

教程/实践部署/工程
04:07
OpenRouter:Announcements(RSS)
精选68
OpenRouter 零数据留存(ZDR)实践:97 款新模型,流量占比近半

OpenRouter 的零数据留存(ZDR)保证用户提示词和模型响应不被存储,元数据一般安全。自 1 月以来新增 97 款支持 ZDR 的模型,月度 token 量增长 4.3 倍,约占全部路由流量一半。ZDR 在三个层面执行:账户级(整个供应商开启)、护栏级(按 API Key 或组织成员限定)、单次请求级(传参数仅路由至 ZDR 端点)。企业用户可灵活选择控制粒度,避免锁定单一供应商。

教程/实践数据/训练

推荐理由:ZDR 远不止“不存数据”这么简单,提示、响应、缓存的区分很多人没搞清楚。OpenRouter 的三层执行算是把自由度给足了,做合规服务的人可以仔细看看。
03:34
MarkTechPost(RSS)
69
如何设计OpenHarness风格Agent运行时:工具、记忆、权限、技能与多智能体协调

本教程从零构建OpenHarness,一个可运行的Agent运行时,展示完整控制流:接收用户任务、模型决策、验证并执行工具调用、返回观察结果、循环直至任务完成。覆盖核心模块:工具使用与类型化工具架构、权限控制、生命周期钩子、记忆管理、技能、上下文压缩、重试逻辑、Token成本跟踪及多智能体协调。实现采用纯Python,无需API密钥或复杂基础设施即可实验,包含Token成本估算。

智能体MCP/工具教程/实践
02:35
Claude:Blog(网页)
同事件精选60
Anthropic 推出 Claude Tag,构建人机协作团队

Anthropic 推出 Claude Tag,支持多用户与同一 AI 智能体在同一工作空间协作。智能体具备持久记忆、独立于人类的凭证及广泛信息访问权限。经验:工作公开化并给予智能体广泛上下文,通过工作区级安全边界让信息对人和 AI 均可用;为每位成员(含 AI)分配明确角色与相应工具。用户可通过 @Claude 私信进行敏感交互,对话保持私密。该方法已在 Slack 等团队协作工具中实践,旨在使人类与智能体高效协作完成共享目标。

智能体Anthropic教程/实践
同一事件,精选展示《Anthropic 推出 Claude Tag:在 Slack 中通过 @Claude 协作》
推荐理由:Anthropic 内部总结的四个教训——公开透明、明确角色、设北极星、逐步信任,对正在探索人机协作团队的管理者来说,比产品手册更实用。
00:15
Hugging Face:Blog(RSS)
精选66
NVIDIA NeMo AutoModel:一行代码加速Transformer MoE模型微调

NVIDIA NeMo AutoModel 是基于 Transformers v5 的开源库,添加 Expert Parallelism、DeepEP 融合 all-to-all 调度和 TransformerEngine 内核。在 MoE 模型微调中,相比原生 v5,训练吞吐量提升 3.4–3.7 倍,GPU 内存减少 29–32%,仅需改动一行 import。在 16 节点 128 张 H100 上全微调 Nemotron 3 Ultra 550B A55B 时,v5 因内存不足无法运行,而 AutoModel 凭借 EP=64 专家并行使训练可行。单节点 30B MoE 模型(如 Qwen3-30B-A3B)同样获得可量化的性能优势。

开源/仓库教程/实践数据/训练

推荐理由:英伟达的 NeMo AutoModel 把 MoE 模型微调速度提高了三倍多,内存省了近三分之一,代码只需改一行 import,做训练的可以立刻升级。
6月24日
19:10
公众号:卡尔的AI沃茨
65
快手KroWork:将AI Skill工作流打包成本地桌面App

快手新发布KroWork,能将多个AI Skill串成的工作流直接打包为本地桌面应用。用户安装后可在Launchpad中一键下载到本机,双击即可按预设流程运行,无需反复打开对话框或重新配置参数。KroWork支持定时任务(如每天9点自动执行),并允许从Kro Workshop复制他人工作流二次开发。作者用其复刻了Prompt Organizer提示词生成器和Daily Trend Brief(每日AI趋势简报)等日常工具。KroWork定位与Claude Cowork、Codex Site、Claude Code Artifacts相似,旨在将重复工作流沉淀为可分享的本地应用。

智能体MCP/工具教程/实践
18:00
公众号:小红书技术(dots.llm)
51
AICon 上海 2026|小红书质效:Agent 基建的规模化落地路径

小红书质效研发团队在 AICon 上海 2026 公布两项 Agent 基础设施实践。Self-GC 系统通过 ContextObject 对象化建模与三阶段提交机制(Async Plan、Rehearsal、Delayed Commit),将上下文转为可索引的生命周期管理,生产环境实现 10%-20% 输入 Token 下降且保持 90%+ 无影响率。Seal 企业级 AI 个人助理依托 NEX 沙箱实现运行时隔离,结合 Self-GC 与 SealRouter(Auto 模型路由)达成成本减半,并采用 L0-L2 分层记忆体系构建可溯源知识闭环,从 3 天内测到两周完成全员覆盖。

智能体MCP/工具教程/实践
15:20
公众号:蚂蚁百灵(Ling)
49
Ling-2.6-1T TPU 推理优化:用 Pallas Kernel 隐藏 MoE 数据搬运

蚂蚁 ASystem Core 与 SGLang-JAX 团队在 TPU v7x 上优化了 1T 参数稀疏 MoE 模型 Ling-2.6-1T 的推理性能。核心是 Fused MoE V2 Pallas kernel,将 scatter、expert FFN 和 gather 合并,通过计算与数据搬运重叠降低延迟。相比 V1,MoE prefill latency 从 5.16 ms 降至 2.42 ms(降 53%),decode kernel latency 从 0.249 ms 降至 0.211 ms。仅替换 MoE kernel 即可使 prefill throughput 提升 24.8%,decode throughput 提升 18.5%–35.3%。在 SGLang decode benchmark 下,16 颗 TPU v7x 的 output throughput 达到 16 张 H200 的 1.29x–1.77x。该工作还完整支持 hybrid backbone,包括 hybrid KV/recurrent memory pools、GLA linear attention 及 single-controller data parallelism。

推理教程/实践部署/工程
11:20
公众号:卡尔的AI沃茨
65
实测Codex Record & Replay:把RPA自动化工作流重做了一遍

Codex新功能Record & Replay可将浏览器操作录制成可复用的Skill。实测解决两个痛点:定向信息搜索时自动打开X搜热点、统计高赞帖子、提取关键词重新查询,输出带互动指标的表格和短关键词库,满足60%-70%图文素材需求;视频剪辑上传能完成静音检测、加速、导出GIF等固定流程,但上传可能被网站安全策略拦截,建议先让Codex出Plan判断可行性。Codex能理解意图,例如自动在输入Grok前增加中文关键词组合。目前依赖Computer Use和图片理解,操作慢且偶有误判,但已能将人的操作转化为Agent下次可执行的上下文,替代传统RPA和Replay。

智能体OpenAI搜索教程/实践
10:10
公众号:数字生命卡兹克
同事件精选63
微信上线AI智能体"小微"内测

微信近日内测AI智能体“小微”,常驻左上角,支持语音或文本输入,调用WeLM-V4-80B(MoE激活3B)与DeepSeek模型。可向个人/群聊发消息、发起视频通话、发红包或转账,需用户逐项确认;可查询朋友圈(限最近2天)、公众号、视频号,支持创建提醒、笔记、小工具,并能操作奶茶咖啡、打车、电影票等小程序至最后一步后交给用户。小微具备记忆功能,可记录地址等。聊天记录上下文仅在特定入口可用且限最近2天。整体策略“只读不动”,禁止批量发送、定时、删除联系人等操作。微信以谨慎节奏接入AI,是国民级应用全面拥抱AI的重要信号。

智能体搜索教程/实践
同一事件,精选展示《微信Agent小微灰度内测:主入口发消息红包,子入口可读聊天记录》
推荐理由:微信Agent内测体验一手展示,功能上打通通讯录、朋友圈和小程序,却处处需确认且只读不动,是微信在AI时代极其谨慎的第一步。不过一句话生成小工具的能力,已经为小程序生态打开了AI分发的新可能。
08:27
IT之家(RSS)
40
苹果 macOS 27 Beta 2 已封堵"跳过 Siri AI 候补名单"终端命令

苹果在 macOS 27 Beta 2 中封堵了一条终端命令,该命令此前可绕过候补名单直接启用新版 Siri AI。Beta 1 中用户输入 sudo defaults write ... 即可跳过等待,但 Beta 2 已禁止。网友发现另一种方式:升级最新 Beta 后,用“图乐园”生成图片,多次点击“更多”菜单中的“图像有问题”发送反馈,可能解锁 Siri AI,该方法也适用于 iOS 27。

教程/实践端侧
03:18
Simon Willison 博客
59
OPFS + Pyodide 测试 UI

Simon Willison 使用 Claude Code for web 构建了一个 OPFS + Pyodide 测试 UI,用于验证 Datasette Lite(基于 Pyodide 和 WebAssembly 在浏览器中运行的 Python Datasette 应用)能否通过 Origin Private File System(OPFS)编辑用户计算机上的持久 SQLite 文件,并在不同浏览器中测试其可行性。

教程/实践端侧
02:37
MarkTechPost(RSS)
51
如何使用NVIDIA Canary-1B-v2进行ASR、翻译和自动SRT字幕导出

该教程通过Python使用NVIDIA Canary-1B-v2构建语音识别与翻译管线:先安装NeMo ASR工具包和音频依赖,在GPU上加载模型;将音频处理为16 kHz单声道格式后,执行英语ASR,将语音翻译为25种语言,生成词级和时间段时间戳,导出SRT字幕文件,并支持长文本转录、批处理与推理速度基准测试。

教程/实践语音
02:26
Hugging Face:Blog(RSS)
精选64
在 Transformers.js 中实验提议的跨源存储 API

Transformers.js 在浏览器中运行 AI 模型时,不同来源的 Web 应用会重复下载并缓存相同的模型资源(如 Xenova/whisper-tiny.en)和 Wasm 运行时文件(如 4,733 kB 的 ort-wasm-simd-threaded.asyncify.wasm),即使资源 URL 相同,浏览器因 Network Isolation Key 隔离缓存,单次 demo 就产生 177 MB 冗余下载和存储。Cross-Origin Storage API 是一项早期提案,旨在让跨来源应用共享缓存的模型和运行时资源。目前该 API 尚未在浏览器原生实现,但可通过 Chrome 扩展注入 polyfill 进行实验。

Hugging Face开源生态教程/实践部署/工程

推荐理由:这个Chrome提案让不同网站的AI模型共享缓存,对用Transformers.js的Web开发者是切实的性能改进,但还只是早期实验。
‹ 上一页
123…13
下一页 ›