6月10日

08:00

HuggingFace Daily Papers（社区热门论文）

推测解码（SD）通过轻量草稿模型并行生成候选项、由大型验证器校验来降低LLM推理成本。现有方法采用二元决策：接受或完全重算。VIA-SD提出多层级框架，利用模型内路由从完整验证器中提取轻量子模型（slim-verifier），对中等置信度的草稿token进行再生，仅在不确定时调用完整模型。在四个代表性任务和多种模型族上，VIA-SD将拒绝率降低0.10–0.22，相比强SD基线实现10–20%加速，相比非推测解码实现2.5–3倍加速。该方法兼容现有SD框架，无需修改训练过程。

推理论文/研究部署/工程

07:27

IT之家（RSS）

消息称三星电子计划在韩国光州新建先进半导体封装工厂，强化 AI 芯片产业链布局

据韩国经济日报报道，三星电子计划在韩国光州建设一座先进半导体封装工厂，以应对AI芯片需求。该投资计划有望于6月29日总统会谈期间公布，三星会长李在镕、SK集团会长崔泰源等将参会。三星拒绝对此置评。先进封装已成为决定芯片性能的关键环节，三星正加码HBM市场，挑战SK海力士领先地位。当前客户涵盖英伟达、AMD及谷歌。今年5月，三星已向客户提供最新12层HBM4E内存样品。

行业动态部署/工程

06:19

Simon Willison 博客

精选71

在 AgentsView 中为 Claude Fable 5 设置自定义价格

Wes McKinney 开发的 AgentsView 是一个用于追踪本地编码智能体 token 使用情况的工具。由于近日发布的 Claude Fable 5 尚未被收录进 AgentsView 的定价数据库，作者利用 Fable 逆向工程，找到了为该模型设置自定义价格的方法，并展示了 Fable 5 当天在不同本地项目中的使用量树状图。

智能体教程/实践部署/工程

推荐理由：如果你也用 coding agent 且在乎成本，Simon 这个自定义价格技巧能让你第一时间把新模型纳入追踪，简单但实用。

06:10

Hacker News 热门（buzzing.cc 中文翻译）

我正在构建一个并行互联网，它被称为"Thinnernet"

Thinnernet 是一个正在构建中的并行互联网项目。该帖子在 Hacker News 上获得 100 个点赞。

现象/趋势部署/工程

06:10

Hacker News 热门（buzzing.cc 中文翻译）

基于Kolmogorov-Arnold Networks的FPGA超高速机器学习

将Kolmogorov-Arnold Networks（KAN）部署于FPGA，实现超高速机器学习推理。

论文/研究部署/工程

05:55

Hugging Face：Blog（RSS）

精选74

将 GitHub CI 迁移到 Hugging Face Jobs

本文介绍了如何将 GitHub Actions 的 CI 作业迁移到 Hugging Face Jobs 上运行，以解决 GitHub Actions 速度慢、缺乏 GPU 支持等问题。通过使用 huggingface/jobs-actions 桥接，将 GitHub Actions 的 job 转为临时自托管运行器：GitHub App 监听 workflow_job.queued webhook，dispatcher Space 验证后启动对应硬件（CPU 或 t4-small、h200 等 GPU）的 HF Job，由 ephemeral runner 执行 CI 并上报结果。作者基于 Trackio 项目实际落地，CPU 作业时间减少约 30%，并新增了 GPU 测试套件。文章分步说明了复制 dispatcher Space、创建并安装 GitHub App、配置 webhook 和 HF_TOKEN 的具体步骤。

Hugging Face 教程/实践部署/工程

推荐理由：HF 直接把 CI 桥接器开源了出来，教你把 GitHub Actions 迁到 HF Jobs 上跑 GPU 测试，ML 项目终于可以低成本配上显卡 CI，步骤清晰到能直接抄作业。