提出基于累积FLOPs的计算感知评估框架,以计算压力替代固定查询预算,引入风险-计算曲线和两项总结指标。在三个系列、四个训练/对齐阶段的十个模型上,使用梯度、迭代优化和模板三种攻击策略在两个越狱鲁棒性基准上测试发现:对齐训练对计算空间鲁棒性呈非单调影响;模型规模扩大降低梯度攻击效果但对低成本模板攻击影响有限;梯度攻击可跨模型迁移;单个模型内不同危害类别间计算成本差异约5倍;安全对齐的RL增加整体攻击成本,但部分类别仍较易攻破。框架已开源。
提出基于累积FLOPs的计算感知评估框架,以计算压力替代固定查询预算,引入风险-计算曲线和两项总结指标。在三个系列、四个训练/对齐阶段的十个模型上,使用梯度、迭代优化和模板三种攻击策略在两个越狱鲁棒性基准上测试发现:对齐训练对计算空间鲁棒性呈非单调影响;模型规模扩大降低梯度攻击效果但对低成本模板攻击影响有限;梯度攻击可跨模型迁移;单个模型内不同危害类别间计算成本差异约5倍;安全对齐的RL增加整体攻击成本,但部分类别仍较易攻破。框架已开源。
i1 是一个 3B 参数的文本到图像扩散模型,仅使用公开数据集训练。在 GenEval、DPG、PRISM、CVTG-2K 和 LongText 五个基准上,i1 性能与领先模型相当,平均比最佳现有完全开源模型高 29.5 个百分点。研究基于 300 余项控制实验(超 700K TPU v6e 小时),发现等权重混合 curated 数据集是强默认配置、更大文本编码器适配器以极少参数提升性能。i1 的检查点、训练与推理代码及数据处理流程已全部开源。
Embodied-R1.5是一个统一具身基础模型,将具身认知、任务规划、纠错与指向能力整合在单一架构中。基于三条自动化数据构建流水线,团队搭建超过150亿模型token的数据系统,并设计多任务平衡强化学习方案以缓解异构任务冲突。其Planner-Grounder-Corrector闭环框架使模型能在长周期任务中自主执行并自我纠正。仅8B参数的Embodied-R1.5在24个具身VLM基准中的16个上达到SOTA,超越Gemini-Robotics-ER-1.5与GPT-5.4,并可微调为VLA,在4个操作任务基准上领先π_{0.5}等模型。零样本真实机器人实验验证了其指令遵循、可操作物体判别、铰接物体操控与长周期复杂任务中的泛化能力。模型权重、数据集、训练代码及评估框架EmbodiedEvalKit已开源。
Hacker News 用户发起讨论,询问大家自 AI 兴起以来为自己开发了哪些个人工具。该提问来自 HN(news.ycombinator.com),获得 100 个点赞,标签为 #Ask HN。
73个软件包被植入自复制窃密程序,一旦被AI智能体打开就会立即运行。这是数周内第二次发现微软相关软件包被伪装成凭据窃取器。
微软研究院推出Lens,一个仅3.8B参数的文本到图像模型。依靠由GPT-4.1生成的8亿条详细图像标题,而非模糊的网页替代文本,Lens在基准测试上匹配了规模更大的竞品,训练成本仅一小部分。代码和权重以开源许可证公开可用。
小米在 6 月 8 日发布 MiMo-v2.5-Pro-UltraSpeed 模型,拥有 1T 参数规模,推理速度达到每秒 1000 个 token。该模型来自小米旗下的 mimo.xiaomi.com 项目。
同一事件,精选展示《小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式,1T 模型输出突破 1000 tokens/s》三大力量重塑 AI 成本:前沿闭源模型持续涨价,开源模型在多数场景已足够好,买家开始替代。Coinbase 将提示词路由至更便宜模型,成本持平但 token 用量指数增长。Lindy 全切至 DeepSeek v4,节省数百万美元且多项核心性能提升。Harvey 在 Legal Agent Benchmark 上通过 SFT 使 Kimi 2.6 all-pass 率达 15%,超越 Opus 的 14%,同一 100 任务成本 $84 vs $954(约 11 倍价差)。Cursor 后训练 Kimi K2.5 得到 Composer 2.5,称其“性能优异且效率高达同类模型 10 倍”。闭源越来越贵,开源平价且性能接近,选择决定企业单位经济学的斜率。
Kimi Code 开源 Coding Agent 迎来大版本升级:一行命令安装,毫秒级启动;新增视频理解能力,支持提取视频风格生成 LUT 文件、长视频切片、根据录屏生成代码;集成同花顺、天眼查等权威数据源,可查询股票价格、财报、学术论文;支持 ACP 协议,可在 JetBrains、Zed 中使用;丰富 hook 生态方便集成其他工具。底层视觉推理由 Kimi K2.6 模型提供。
同一事件,精选展示《Kimi Code 焕新升级(附视频教程)》今日,Hugging Face 宣布 OpenEnv 项目进一步开放,由 Meta-PyTorch、Reflection、Unsloth 等组成的委员会协调,并获得 PyTorch Foundation、vLLM、SkyRL(UCB)等机构支持。OpenEnv 是创建终端、浏览器等智能体执行环境的工具,定位为训练器与环境间的互操作层,标准化环境的发布、部署和消费,但不定义奖励或训练循环。它基于客户端/服务器架构提供 Gymnasium 风格 API(reset()、step()、state()),支持 HTTP、WebSocket、Docker 打包,并将 MCP 作为一等公民,使环境在模拟和生产模式下行为一致。未来将聚焦任务集对接数据集、外部奖励、Harness 集成及自动验证,以推动开源智能体 RL 基础建设。
Kimi Code 开源 Coding Agent 大版本升级:一行命令安装,毫秒级启动;新增视频理解,可提取参考视频色调生成 LUT、将长视频切分为短视频、根据录屏生成代码;接入同花顺、天眼查等权威数据源,支持实时查询股票价格、财报和学术论文;兼容 ACP 协议,可在 JetBrains、Zed 等 IDE 使用;拓展 hook 生态方便集成。视频理解基于 Kimi K2.6 模型。通过 /plugins 安装 kimi-datasource 插件即可使用权威数据源。
LMSYS 宣布 2026 年博士奖学金首位得主 Will Lin。他是加州大学圣地亚哥 Hao AI 实验室六年级博士生,领导开源框架 FastVideo(GitHub 3.7k+ 星标),已被 NVIDIA Dynamo 集成,其模块化流水线影响 SGLang 等多模态生成设计。奖学金最高 5 万美元。他的研究覆盖生成式视频与世界模型全栈,包括稀疏注意力、量化、蒸馏、后训练、实时推理,共同主导首个交互延迟 1080p 文图到音视频生成流水线,近期包括自回归世界模型训练。他曾于 Anyscale 实习,现于 NVIDIA 实习推动产业合作。
Lathe(车床)是一个基于大型语言模型(LLMs)的工具,核心理念是使用LLMs帮助用户逐步学习一个陌生领域,而非直接替代学习过程。项目托管在 GitHub 上。
一篇题为“The OnlyFans Economy of American AI”的文章于6月7日在Hacker News上获得104点赞,探讨美国人工智能行业中的类似OnlyFans的订阅制经济现象。
Hacker News 用户发帖呼吁 Anthropic 为 Linux 推出官方 Claude Desktop 应用,相关讨论已在 GitHub 上展开,帖子获得 100 点热度。目前官方尚未回应。
一篇标题为“开源界的怪胎们”的讨论在 Hacker News 上获得 100 点热度,原文来自 drewdevault.com,正文未提供具体内容。
NVIDIA garak 教程演示了端到端的防御性 LLM 红队工作流,包括框架设置、插件发现、模拟运行、在 Hugging Face 生成器上对真实模型进行扫描以及多探针评估。流程随后分析安全评分与攻击成功率,审查被标记的输出,并通过自定义探针和检测器扩展 garak 功能,最后以 AVID 格式导出结构化漏洞报告。
美国企业 AI 累计投入突破 1 万亿美元,模型推理成本飙升,降本增效未达预期。Ramp 报告显示 DeepSeek 首次登上其软件趋势榜榜首。案例包括某企业一个月为 Claude 支付 5 亿美元,Uber 四个月内耗尽全年 Token 预算。DeepSeek 宣布 API 价格永久下调 75%,MiniMax 压至新低。Ramp 首席经济学家称这是美国企业寻找 OpenAI、Anthropic 低成本替代方案的最明确信号。部分企业已直接向 DeepSeek 付费。2025 年初 DeepSeek R1 模型曾登顶 App Store,但企业采用率一度达 0.3%,后回落至 0.1% 并维持到 2026 年 4 月。成本压力是再度受关注的主因。
Ladybird 浏览器项目正冲刺首个 Alpha 版本,宣布不再接受公开拉取请求,仅允许维护者提交代码。创始人 Andreas Kling 表示,生成式 AI 让任何人可快速生成看似完整的代码变更,但提交者未必真正理解项目。浏览器处理全网不受信任输入,一个伪装良好的漏洞就可能被利用。所有未处理的公开 PR 已立即关闭。
Code2LoRA 是一种超网络框架,可生成仓库专属的 LoRA 适配器,在推理时零 token 开销注入仓库知识。它支持两种模式:Code2LoRA-Static 将单一仓库快照转为适配器,适合稳定代码库;Code2LoRA-Evo 通过 GRU 隐藏状态随代码 diff 更新适配器,适合演化中的活跃开发。团队构建了含 604 个 Python 仓库的 RepoPeftBench 基准。静态任务中,Code2LoRA-Static 跨仓库 exact match 达 63.8%,仓库内达 66.2%,持平逐仓库 LoRA 上界;演化任务中,Code2LoRA-Evo 跨仓库 exact match 达 60.3%,比单一共享 LoRA 高 5.2 个百分点。代码和数据集已开源。
6月5日,开源鸿蒙具身智能PMC(筹)发布EmbodiedAI 1.0.1版本。该版本聚焦机器人控制与智能体应用,升级导航规划、运动控制、仿真开发、硬件适配等核心能力,兼容ROS生态、机器人模拟器及多种本体形态。集成开源鸿蒙原生模拟器、MuJoCo、Gazebo三大仿真环境,打通从代码开发到真机验证的全流程链路。人形机器人、四足机器狗、商用服务机器人等已完成适配验证。目前具身智能方向已组建18个专项SIG工作组,版本源码已正式开放。
Ladybird 浏览器项目宣布不再接受公开 pull request。维护者 Andreas Kling 指出,过去提交大量补丁意味着付出实质性努力,可作为善意的合理代理,但这一假设已不再成立。代码是手工输入还是由 AI 生成已无关紧要,关键是谁对进入浏览器的代码负责。Ladybird 正成为面向真实用户的浏览器,引入变更的人必须是决定该变更属于项目并承担后果的人。
Stem算法通过Token位置衰减(TPD)和输出感知度量(OAM)两项创新,仅用25%算力即逼近稠密注意力精度。配套HPC算子针对Hopper架构优化,支持FP8量化与vLLM的Paged KV Cache,在混元Hy3 preview上实现首字延迟降低3.6倍。HPC-BSA相比MIT-BSA稳定保持约3倍加速,在8K至256K序列长度上表现一致。
Open Code Review 是一个基于人工智能的代码审查命令行(CLI)工具,旨在帮助开发者通过自动化的方式提升代码审查效率。
一项系统研究探讨 Transformer 注意力机制中是否必须使用三个独立的投影(Query、Key、Value)。通过分析多种 QKV 变体结构,论文对「三投影」这一设计选择进行了系统性评估。
dots.tts 是一个 2B 参数的连续自回归 TTS 基座模型,在连续潜在空间中建模语音。其创新包括:多目标训练的 AudioVAE 构建语义结构化连续语音空间;全历史条件的 flow-matching 头保持长程一致性;无奖励自纠正后训练提升鲁棒性和音质。在 Seed-TTS-Eval 上取得最佳平均性能,中文/英文/中文-hard 的 WER 分别为 0.94%/1.30%/6.60%,SIM 分别为 81.0/77.1/79.5。其他基准也达开源 SOTA。基于 CFG 的 MeanFlow 蒸馏实现低延迟推理,输出流首包 85ms,双流 54ms。训练推理代码及检查点已开源。
NVIDIA 发布 Nemotron 3 Ultra,总参数量 550B(活跃参数 55B)的开源混合专家(MoE)模型,采用 Mamba-Transformer 混合架构,专为长时间运行的 AI 智能体设计。该模型支持 1M token 上下文窗口,推理吞吐量比同等准确率的开源大语言模型最高提升约 6 倍。权重、训练数据和配方以 OpenMDW-1.1 许可开放。
GitHub Universe 2026 将于 10 月 28–29 日重返旧金山 Fort Mason Center,主题聚焦智能体(agentic)时代。
Miles框架提出Token-In-Token-Out(TITO)原则,解决智能体强化学习中训练-推理不匹配:确保rollout过程token序列与训练器评估序列逐位一致。TITO将多轮轨迹视为一个连续序列(每任务一个样本),节省一个数量级计算开销并维持on-policy性。三种破坏场景:反分词-再分词不匹配、聊天模板修剪推理内容、有损模板重新渲染。Miles通过推理会话服务器、三级只追加保证、可插拔TITO分词器和序列比较器实现。典型任务(如SWE-Bench)轨迹含30-50轮。
Cloudflare 官方博客发布消息,宣布 VoidZero 将加入公司。该博客文章标题为“VoidZero
SGLang 与 Miles 在发布首日即支持 NVIDIA Nemotron 3 Ultra。该模型为开放前沿推理模型,总参数 550B、激活参数 55B,采用混合 Transformer-Mamba 架构的 MoE,支持最长 1M token 上下文。针对长运行自主智能体优化,具备工具调用、编码、深度研究与编排能力,后训练使用多环境强化学习(NeMo RL)。SGLang 提供高性能推理,支持 NVFP4 和 BF16 精度,NVFP4 检查点可在 Blackwell GPU 运行;Miles 支持强化学习工作流。模型权重、数据与配方均开源。在智能体生产力、指令遵循与长上下文任务上准确率领先,成本节省高达 30%。
关联讨论 9 条X:Kim (@kimmonismus)HuggingFace Daily Papers(社区热门论文)IT之家(RSS)Hugging Face:Blog(RSS)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)Miso Labs 推出 MisoTTS,一款开放权重的 8B 参数文本转语音模型。该模型采用残差向量量化(RVQ)在不增加参数量的情况下扩展声音范围,并同时基于文本和音频上下文来响应用户语调。架构由 7.7B 主骨干与 300M 深度解码器组成。
Meta 公司 AI 模型 Muse Spark 多次推迟向开发者发布 API 调用计划。该模型是 Meta 超级智能实验室(Meta Superintelligence Labs)的首款产品,由汪滔(Alexandr Wang)掌管。内部评测称 Muse Spark 可与 OpenAI、Anthropic 竞争,并在多数测试中领先 xAI 的 Grok。原计划 4 月发布 API,后推迟至 5 月,又推迟至 6 月,原因包括测试漏洞和基础设施扩建。目前仅少数第三方评测机构能验证其能力。
Stanford 研究人员发布 OpenJarvis,一个完全在设备端运行推理、智能体、记忆与学习的开源框架。它将个人 AI 系统分解为五个可组合原语:Intelligence、Engine、Agents、Tools & Memory 和 Learning。该框架与最佳云端模型的性能差距在 3.2 points 以内,边际 API 成本降低约 800 倍。
Ideogram 6月3日发布开源文生图模型 Ideogram 4.0,核心规模 9.3B 参数,采用单流架构,文本 tokens 与图像 tokens 共享自注意力序列。模型使用 Qwen3-VL-8B-Instruct 文本编码器、34 层单流 DiT、Euler 流匹配采样器及冻结 KL 自动编码器。擅长文字绘制,能准确呈现较长文本;通过对象和文本边界框训练,配合结构化 JSON 字幕数据,支持用提示词指定版式和布局。在 DesignArena 人类评价排名中位列全球第 4。
关联讨论 1 条X:Krea AI (@krea_ai)研究团队提出 BloomBench(Almieyar 基准系列的一部分),首个基于人类认知的英-阿双语多模态基准。以布鲁姆分类学为框架,系统评估视觉语言模型在记忆、理解、应用、分析、评价、创造六个认知层级的表现。采用半自动化流程构建和分层混合质量保证协议,确保可扩展性与文化包容性。对现有 SOTA 模型的测试揭示:语义理解能力强,但事实回忆和创造性合成严重不足;阿拉伯语与英语之间存在显著性能差距。基准框架与数据集已开源。
Gemma 4 12B 是 Google DeepMind 推出的开源模型,原生支持处理文本、图像和音频,仅需 16GB RAM 即可在笔记本上运行。在基准测试中几乎追平两倍参数规模的 26B 模型,采用 Apache 2.0 许可证,可用于商业用途。
关联讨论 7 条X:Demis Hassabis (@demishassabis)X:Sundar Pichai (@sundarpichai)X:Google AI for Developers (@googleaidevs)Google Developers Blog(RSS)X:Jeff Dean (@JeffDean)Google DeepMind:Blog(RSS)Hacker News 热门(buzzing.cc 中文翻译)Google Research 在 GitHub 开源了其水文建模框架,这是一个基于 PyTorch 的 Python 包,采用与 Flood Hub 河段洪水预报相同的模型架构和训练数据。该框架允许研究者和预报员训练 AI 洪水预报模型、添加新模型与数据,并已与捷克水文气象研究所(CHMI)等合作测试。开放模型架构和训练管线旨在让各国气象水文部门在保留数据完全控制权的同时,整合基于 AI 的洪水预报。
Ideogram 发布 4.0 版本文本到图像模型,采用开放权重,支持原生2K分辨率、边界框控制和改进的文本渲染。在 DesignArena 排行榜上,该模型位列所有开放模型之首;仅 OpenAI 和 Google 的闭源系统得分更高。商业使用需购买付费许可证。
Ultralytics YOLO26 采用双头设计实现原生无 NMS 的端到端推理,彻底移除 DFL,获得更轻检测头与无约束回归范围。训练结合混合 Muon-SGD 优化器 MuSGD、转向推理头的 Progressive Loss 及保证小物体正样本的 STAL 标签分配。支持检测、实例分割、姿态估计、定向检测和分类,提供 5 种尺度(n/s/m/l/x)及开放词汇扩展 YOLOE-26。全部尺度在 COCO 上达 40.9–57.5 mAP,T4 TensorRT 延迟 1.7–11.8 ms;YOLOE-26x 在 LVIS minival 文本提示下达 40.6 AP。代码已开源。