推测解码(SD)通过轻量草稿模型并行生成候选项、由大型验证器校验来降低LLM推理成本。现有方法采用二元决策:接受或完全重算。VIA-SD提出多层级框架,利用模型内路由从完整验证器中提取轻量子模型(slim-verifier),对中等置信度的草稿token进行再生,仅在不确定时调用完整模型。在四个代表性任务和多种模型族上,VIA-SD将拒绝率降低0.10–0.22,相比强SD基线实现10–20%加速,相比非推测解码实现2.5–3倍加速。该方法兼容现有SD框架,无需修改训练过程。
推测解码(SD)通过轻量草稿模型并行生成候选项、由大型验证器校验来降低LLM推理成本。现有方法采用二元决策:接受或完全重算。VIA-SD提出多层级框架,利用模型内路由从完整验证器中提取轻量子模型(slim-verifier),对中等置信度的草稿token进行再生,仅在不确定时调用完整模型。在四个代表性任务和多种模型族上,VIA-SD将拒绝率降低0.10–0.22,相比强SD基线实现10–20%加速,相比非推测解码实现2.5–3倍加速。该方法兼容现有SD框架,无需修改训练过程。
据韩国经济日报报道,三星电子计划在韩国光州建设一座先进半导体封装工厂,以应对AI芯片需求。该投资计划有望于6月29日总统会谈期间公布,三星会长李在镕、SK集团会长崔泰源等将参会。三星拒绝对此置评。先进封装已成为决定芯片性能的关键环节,三星正加码HBM市场,挑战SK海力士领先地位。当前客户涵盖英伟达、AMD及谷歌。今年5月,三星已向客户提供最新12层HBM4E内存样品。
Wes McKinney 开发的 AgentsView 是一个用于追踪本地编码智能体 token 使用情况的工具。由于近日发布的 Claude Fable 5 尚未被收录进 AgentsView 的定价数据库,作者利用 Fable 逆向工程,找到了为该模型设置自定义价格的方法,并展示了 Fable 5 当天在不同本地项目中的使用量树状图。
Thinnernet 是一个正在构建中的并行互联网项目。该帖子在 Hacker News 上获得 100 个点赞。
将Kolmogorov-Arnold Networks(KAN)部署于FPGA,实现超高速机器学习推理。
本文介绍了如何将 GitHub Actions 的 CI 作业迁移到 Hugging Face Jobs 上运行,以解决 GitHub Actions 速度慢、缺乏 GPU 支持等问题。通过使用 huggingface/jobs-actions 桥接,将 GitHub Actions 的 job 转为临时自托管运行器:GitHub App 监听 workflow_job.queued webhook,dispatcher Space 验证后启动对应硬件(CPU 或 t4-small、h200 等 GPU)的 HF Job,由 ephemeral runner 执行 CI 并上报结果。作者基于 Trackio 项目实际落地,CPU 作业时间减少约 30%,并新增了 GPU 测试套件。文章分步说明了复制 dispatcher Space、创建并安装 GitHub App、配置 webhook 和 HF_TOKEN 的具体步骤。
Our kernel team has been deep in MiniMax M3 all week. The 1M-token context and native multimodality make it a hard model...
SpaceX 计划将数据中心发射到太空,埃隆·马斯克在公司 IPO 前将其描述为一个近乎简单的工程问题。首颗 AI 卫星的性能将相当于单个 Nvidia GB300 机架。然而,谷歌的研究指出,真正的 AI 训练需要大约 10000 颗紧密联动的卫星。
Gemini 2.5 Flash API 的定价与快速入门指南,指导用户配置 thinking budgets、比较不同提供商,并在 5 分钟内完成首次 API 调用。
同一事件,精选展示《Gemini 2.5 Flash API - 定价、快速入门与提供商比较》中国计划在未来五年投资约2950亿美元建设全国性AI数据中心网络。根据彭博社报道,至少80%的技术将来自华为等国内供应商。与此同时,台湾正考虑首次将向中国走私AI芯片定为刑事犯罪。
Sandstone 完成 3000 万美元 A 轮融资,由 Lightspeed Partners 领投,Sequoia 参投。资金将用于将 AI 技术引入企业内部法务团队,提升法律工作效率。
Cloudflare 在 Project Glasswing 一文中提出,漏洞周围的架构比补丁速度更重要。本文详细阐述了这一架构的设计、它防御的威胁类型,以及 Cloudflare 如何以自家产品作为“客户零”(customer zero)来实际运行这套防御体系。
腾讯混元推出UniRL,一个支持统一多模态模型的强化学习基础设施,并发布两个新算法DRPO和Flow-DPPO。UniRL通过单个后训练循环(生成→评分→优势→更新→同步)覆盖扩散/流匹配模型、LLM/VLM及统一多模态模型(如Hunyuan-Image 3和Bagel)。模型与算法作为独立轴,可实现模型×算法的组合覆盖。框架支持可插拔rollout引擎(训练侧/SGLang/vLLM-Omni)、FSDP2分片和三种部署模式。FlowDPPO针对流/扩散模型引入基于精确散度的信任域策略优化;DRPO为LLM RL提供平滑的优势加权二次正则化方法。代码已开源。
关联讨论 1 条X:腾讯混元 (@TencentHunyuan)一篇论文系统研究了Transformer注意力中QKV投影的必要性,发现Key和Value可共享同一投影(Q-K=V变体),仅增加3.1%的困惑度,便将KV cache削减50%,大幅降低推理内存。最佳变体保留Query独立,使注意力保持方向性。与GQA和MQA结合时,可分别实现87.5%和96.9%的cache缩减。弱变体Q=K-V因导致因果注意力过于对称且无cache节省而无效。
在无设计稿和后端代码的条件下,Qwen3.7-Max 仅凭一份约 15 万字的产品调研文档,于隔离环境中全自动完成移动端与 Web 端两套真实应用从 0 到 1 交付,单端耗时约 4 小时,中途无人工接管。模型不具备图像理解能力,通过像素坐标反推布局约束实现界面还原。实验采用“分阶段注入约束→逐层验收→带错纠正”的闭环控制系统:任务拆分为规划、架构、编码等阶段,验收覆盖静态检查、编译自检(0 error)、路由完整性(Web 端 34 条路由全部可达)、功能扫描及真机冷启动冒烟。失败时错误文本自动注入下一轮重试,使模型数小时内收敛。移动端产出可安装 APK,Web 端 typecheck 与构建均通过。
同一事件,精选展示《Qwen3.7-Max:面向智能体时代的最新专有模型》自主AI智能体在加速软件交付的同时,也大幅缩短了从失误演变为灾难的时间,给安全策略造成盲区。威胁不再仅来自外部勒索软件或恶意内部人员,而是来自被授权的内部工具本身。文章探讨了在DevOps中针对这一风险构建有效防御的做法。
小米与TileRT联合推出MiMo-V2.5-Pro的UltraSpeed模式,在1万亿参数模型上首次达到超1000 tokens/s输出速度。UltraSpeed API同步上线,定价为原版的3倍,输出速度提升约10倍。由于资源有限,采取申请制限时开放,通过用户可在2026年6月9日至6月23日23:59接入API体验,并获限时免费Chat。试用规则:每账号每日最多成功进入队列10次,单次会话上限30分钟,空闲超5分钟自动释放资源。
关联讨论 2 条X:小米 MiMo (@XiaomiMiMo)Hacker News 热门(buzzing.cc 中文翻译)国家数据局《数字中国发展报告》显示,截至2025年底,我国智能算力规模达159万PFLOPS,全球第二;在用算力机架超1373万架,建成万卡集群42个。同期网民规模11.25亿,普及率80.1%;使用AI解答问题、生成图片视频、生活助手的用户分别为4.57亿、2.88亿、1.84亿,中青年用户占74.6%。工信部《算力互联互通行动计划》提出到2026年建立标准,到2028年实现公共算力标准化互联。中国电信研究院预测,到2035年AI将为我国GDP贡献超11万亿元。
设计真正的AI系统涉及大量工程细节,提示词工程、上下文工程、记忆模块、skills等环节缺一不可,彼此环环相扣形成了一个完整系统。Berry Xia引用了一篇关于Loop Engineering的清晰阐述,强调这些组件的系统性整合才是关键。
http://x.com/i/article/2064143847765020672
AI评估结果规模庞大但报告不一致,导致读者难以跨来源比较、识别遗漏或追溯结论。Evaluation Cards通过整合基准元数据、评估运行数据和模型元数据,形成统一记录。方法包括:(1)从52篇论文和10次利益相关者访谈中推导报告模式;(2)实现四个可解释信号(可复现性、文档完整性、来源与风险、分数可比性),并针对研究与非研究受众提供不同读者模式;(3)部署监控工具,覆盖5816个模型、635个基准和101843个结果,揭示当前报告实践中的系统性缺口。
SpaceX 称轨道 AI 数据中心并非工程难题,现有星链卫星已具备大部分技术。AI 卫星将沿用第三代星链的太阳能电池阵列与热管理系统,结构更简单,无需大型相控阵天线。马斯克展示的 AI1 卫星渲染图显示配备翼展 70 米光伏面板,支持平均 120 千瓦、峰值 150 千瓦计算载荷,相当于单台英伟达 GB300 AI 服务器机架。SpaceX 计划组建约 100 万颗 AI 卫星网络,位于得克萨斯州巴斯特罗普的工厂预计明年年底前实现规模化量产,星舰可重复使用设计将支撑大批量运输。
关联讨论 5 条X:Elon Musk (@elonmusk, xAI)Simon Willison 博客IT之家(RSS)X:Kim (@kimmonismus)The Verge:AI(RSS)小米 MiMo 与 TileRT 联合发布 MiMo-V2.5-Pro-UltraSpeed 模式,使 1T 参数旗舰模型输出速度首次突破 1000 tokens/s。模型侧采用 FP4 混合量化(仅量化 MoE Expert)与 DFlash 块级 masked 并行推测解码(coding 场景平均接受长度 6.30 tokens);系统侧 TileRT 引入常驻内核引擎与异构流水线协作。API 限时开放(2026 年 6 月 9 日至 23 日),定价为 MiMo-V2.5-Pro 的 3 倍,速度提升约 10 倍。FP4 权重与 DFlash 模型 checkpoint 已开源至 HuggingFace。
关联讨论 2 条X:小米 MiMo (@XiaomiMiMo)Hacker News 热门(buzzing.cc 中文翻译)马斯克近日宣布SpaceX/xAI太空计算蓝图:首颗AI卫星采用Starlink太阳能技术,峰值功率150千瓦、持续算力120千瓦,翼展70米,配110平方米液体散热器,通过星舰发射,使用激光链路通信。计划建设Terafab太空算力工厂,占地约1亿平方英尺(特斯拉Giga Texas的10倍),算力供应达1TW/年,相当于当前美国年消耗量(0.5TW)的两倍。目标将数据中心送入太空捕获太阳能,实现卡尔达肖夫等级跃迁。该项目依赖星舰完全可复用技术,预计三年内将年入轨量从约2500吨提升至百万吨级。
Today, we are launching GMI Agent Box. A complete infrastructure stack for production-ready AI agents: native Docker, fl...
Elon Musk 首次详细解释 SpaceX 的 AI1 轨道 AI 数据中心卫星:峰值功率 150 kW,持续计算功率约 120 kW,相当于一个 NVIDIA GB300 机架;太阳能板效率 250 W/m²;双面散热器排热 1,400 W/m²。通过激光链路实现约 1 Tbps 互联,低轨 600–800 km 高度往返延迟 6–8 ms。由 Starship 发射,计划部署多达百万颗卫星,2027 年底前实现量产。近地目标为吉瓦级轨道 AI 算力,长期向太瓦级推进。
Watch @ElonMusk provide a technical update on SpaceX's capability to manufacture, launch, and operate AI satellites at s...
同一事件,精选展示《SpaceX与Anthropic合作提供大规模AI算力服务》2026年全国高考统考科目于6月8日结束,部分省份选考科目仍在进行。海南、山东、山西、重庆、广东、湖北、江西等地已公布查分时间,多数集中在6月25日。教育部将举办“2026年全国普通高等学校招生云咨询周”,并对“阳光高考”平台及“阳光志愿”信息服务系统进行优化升级。此外,多地考场已投入使用AI智能巡查系统,通过视觉分析算法捕捉异常行为并自动标记作弊迹象,供审核员进一步确认。
GitHub 122K⭐的Skills仓库推出新技能Teach,可将当前工作目录变为有状态学习空间。设计理念从Knowledge(概念事实)→Skills(动手操作)→Wisdom(真实判断)。工作区以文件即学习状态:MISSION.md定目标、lessons/提供课程、learning-records/记录已会内容、reference/生成速查手册。五个关键机制:Mission定方向、ZPD根据记录调整难度、Lesson一课一事+即时反馈、Learning Record记“会了什么”而非“讲了什么”、Reference形成长期可回看手册。可通过npx skills add mattpocock/skills --skill teach安装,适用于从魔方到软件基础等学习场景。
/teach is live Learn anything, from rubik's cube to vocal harmonies to software fundamentals. npx skills add mattpocock/...
Musk 公布了 SpaceXAI 首颗 AI 卫星,峰值功率 150 kW、持续计算功率 120 kW,配备自产 150 kW 太阳能板,翼展 70 米。散热系统采用 110 m² 可展开液体散热器,带冗余冷却回路与微流星防护。卫星由 Starship 发射,用激光链路通信,避开 Starlink 复杂系统。SpaceX 认为未来版本可大幅扩展。Musk 指出太空 AI 规模化需三大条件:Starship 大运力、巨大太阳能发电、大型散热器,并暗示大规模轨道 AI 最终可能需数百 GW 到太瓦级功率及数百万吨基础设施。
推文介绍了如何使用 llmistanbul 在网页上10秒内训练一个小模型(电子鹦鹉)。只需将纯文本文档(如哈利波特1-7)拖入即可,建议使用 Apple Silicon Mac(M1-M5),避免 markdown/json 等格式。N 卡(3080Ti)适配不佳。提醒尊重版权,勿公开发布他人作品。
Apple 为首次 App Store 下载量不足 200 万的开发者免除云 API 费用,以降低 AI 实验门槛。