Gemma 4 12B 是 Google DeepMind 最新推出的中等规模多模态模型,采用无编码器统一架构,原生支持音频输入。其基准测试性能接近 26B MoE 模型,但内存占用不到一半,仅需 16GB 显存或统一内存即可在消费级笔记本上本地运行。模型内置多 token 预测(MTP)drafter 以降低延迟,基于 Apache 2.0 开源许可发布,已累计超过 1.5 亿次下载。
同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》Gemma 4 12B 是 Google DeepMind 最新推出的中等规模多模态模型,采用无编码器统一架构,原生支持音频输入。其基准测试性能接近 26B MoE 模型,但内存占用不到一半,仅需 16GB 显存或统一内存即可在消费级笔记本上本地运行。模型内置多 token 预测(MTP)drafter 以降低延迟,基于 Apache 2.0 开源许可发布,已累计超过 1.5 亿次下载。
同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》蚂蚁 inclusionAI 在 GitHub 上开源了 AReno,一个易用且快速的工具包,可在单节点上扩展强化学习后训练(RL post-training)。
WebChallenger 围绕核心模块 PageMem(从 DOM 确定性构建的带摘要语义层次页面结构)设计三种机制:分而治之的观测管线(让智能体扫读摘要、仅提取任务相关区域细节)、轻量级网站探索与记忆系统(遍历一次网站即可复用页面与元素行为地图)、以及将多步交互压缩为单步智能体动作的工作流。使用未经微调的开源模型,在 WebArena 上达 56.3%、VisualWebArena 48.7%、Online-Mind2Web 51.0%、WorkArena 70.9%,接近前沿闭源系统但成本极低。代码已开源。
今日,Hugging Face 宣布 OpenEnv 项目进一步开放,由 Meta-PyTorch、Reflection、Unsloth 等组成的委员会协调,并获得 PyTorch Foundation、vLLM、SkyRL(UCB)等机构支持。OpenEnv 是创建终端、浏览器等智能体执行环境的工具,定位为训练器与环境间的互操作层,标准化环境的发布、部署和消费,但不定义奖励或训练循环。它基于客户端/服务器架构提供 Gymnasium 风格 API(reset()、step()、state()),支持 HTTP、WebSocket、Docker 打包,并将 MCP 作为一等公民,使环境在模拟和生产模式下行为一致。未来将聚焦任务集对接数据集、外部奖励、Harness 集成及自动验证,以推动开源智能体 RL 基础建设。
datasette-agent-edit 0.1a0 插件发布,为 Datasette Agent 提供智能体编辑文本的核心工具。其设计借鉴 Claude text editor,实现三个工具:view(按行号查看文件片段)、str_replace(精确替换唯一字符串)、insert(在指定行号后插入文本)。该插件作为基础组件,可供其他协作 Markdown 编辑、SQL 查询更新、SVG 编辑等插件复用。
研究团队提出SearchSwarm,通过设计引导框架将长周期任务分解与委托决策编码为高质量轨迹,并用作监督微调数据,将委托智能内化到模型权重中。由此训练的SearchSwarm-30B-A3B模型在BrowseComp上达到68.1分,在BrowseComp-ZH上达到73.3分,均为同规模最佳。团队将开源引导框架、模型权重和训练数据。
Symbolica 2.0 发布,这是一款可编程符号系统,支持 Python 和 Rust 语言。该版本在 Hacker News 上获得 100 点热度。
PaperMentor是一个开源的写作辅导系统,在Overleaf中以内联评论形式提供可操作的建议,而不替代作者写作。系统集成了专家技能库和12个专门智能体,覆盖格式规范、措辞准确性、术语一致性等论文写作方面。用户研究(n=14)中,90.6%的评论被评为可操作,67.5%的评论有效,显著优于不使用技能库的GPT-5.2基线。代码以AGPL-3.0许可证公开。
OpenCV 5 正式发布,采用基于图的 DNN 引擎,ONNX 算子覆盖率从 4.x 的不到 23% 提升至超 80%,原生支持 Transformer、视觉语言模型(VLM)和大语言模型(LLM)。其他更新包括:更好的 Python 集成与命名参数、更紧凑核心代码、清晰硬件加速层、原生 FP16/BF16、规范化 0D/1D 张量、扩展 3D 视觉及现代化文档。该库 GitHub 拥有超 86,000 stars,每日安装量超一百万次。
Persona Atlas 是一个运行在 Hugging Face Inference Providers 上的开源项目。它通过工具调用代理执行真实网络搜索,生成公众人物的资料、事实清单和风格假设,然后让该人物回答十个关于身份、伦理等开放式问题。每个回答被转化为嵌入向量,从而在向量空间中对不同人物进行距离比较,并基于十个特质锚点绘制热力图。前端采用 Gradio,提供研究、比较和检查代理完整追溯三个标签页,预设多个人物角色,无需 token 即可直接体验。
Audio Interaction是一个开源语音模型,持续监听环境,每0.4秒判断是否应该说话或保持沉默。与GPT-4o或Qwen3.5-Omni不同,它无需等待录音结束,可在单个流中同时进行翻译、转录、对话并识别咳嗽等日常噪音。代码和模型权重已在GitHub上以Apache 2.0开源许可发布,训练数据稍后公布。
Simon Willison 发布 alpha 包 micropython-wasm,用于在 Python 应用中安全执行代码。该包将 MicroPython 编译为 WebAssembly,通过 wasmtime 库运行,实现内存和 CPU 限制、严格的文件与网络访问控制,并支持主机函数交互。它可作为 Datasette Agent 的沙箱插件 datasette-agent-micropython。
MuJoCo-Drones-Gym是一个开源多无人机仿真环境,兼容Gymnasium接口,基于MuJoCo物理引擎,支持任意数量Bitcraze Crazyflie 2.x四旋翼。模块化API可选刚体/Python动力学/地面效应、桨叶阻力与下洗流等物理模型,动作接口包括电机转速、归一化推力、速度设定点和PID航点。观测空间含运动学状态、RGB/深度/分割相机图像和邻域信息。内置PettingZoo ParallelEnv支持多智能体强化学习,并提供悬停、速度跟踪、多无人机悬停、航点导航、编队飞行、绕杆竞速、通用多智能体模板七个任务环境。利用MuJoCo改进的接触处理、渲染与并行能力,适用于无人机控制算法开发与强化学习训练。
论文提出一个轻量级基于集合的深度学习框架(Set-Based Transformer),以多个不同远距离辐射测量值为输入,联合估计透射率、大气路径辐射和下行谱。使用稀疏自编码器分析学习到的表示,发现若干潜在特征在测试数据的地理一致子集上激活,尽管训练时未使用位置监督。在 MODTRAN 生成的远距离 LWIR 数据集上,所有估计产品均实现低光谱失真。代码和数据集已公开。
Hacker News 上一条“Ask HN”帖子向用户征集使用生成式人工智能(GenAI)时令人惊呼“天啊”的震撼时刻,该帖于 6 月 5 日发布,获得 105 个点赞。
Lowfat是一款可插拔的命令行界面(CLI)过滤器,可在LLM使用场景中节省约91.8%的模型token消耗。项目已开源并托管在GitHub上。
腾讯混元提出 Stem 稀疏注意力算法,已被机器学习顶会 ICML-26 收录。该算法从因果信息流重新审视块级稀疏,引入 Token 位置衰减(TPD)和输出感知度量(OAM),仅用 25% 算力即逼近稠密注意力精度。配套的 HPC 开源 Stem+BSA 算子将稀疏收益转化为实际加速,在 128K 上下文下首字延迟降低 3.6 倍。
Ladybird 浏览器项目宣布不再接受公开 pull request。维护者 Andreas Kling 指出,过去提交大量补丁意味着付出实质性努力,可作为善意的合理代理,但这一假设已不再成立。代码是手工输入还是由 AI 生成已无关紧要,关键是谁对进入浏览器的代码负责。Ladybird 正成为面向真实用户的浏览器,引入变更的人必须是决定该变更属于项目并承担后果的人。
NVIDIA Dynamo Snapshot 使用 CRIU 和 cuda-checkpoint 工具,在 Kubernetes 上对 vLLM 推理工作节点进行检查点和恢复,实现快速启动。
标准连续时间生成模型需处理从各向同性噪声到复杂数据分布的不同信号状态,统一架构效率低下。本文提出复杂度平衡分裂(CBS)框架,基于函数逼近理论和de Boor均衡分布原理,将扩散时间线划分为等近似负担的片段,为生成动力学难建模区域分配更多表示容量。通过两种互补监测函数——基于流Dirichlet能量的空间测度和基于采样轨迹加速度的几何测度——估算局部复杂度,无需启发式分割或搜索。在SiT、JiT、UNet等架构及数据集上,CBS不增加每步推理成本,持续提升合成质量:在SiT-XL上使用CFG时,相比朴素时间划分,FID改善约35%。
美团技术团队在ACL'26上分享6篇论文,涵盖代码评测、复杂流程推理、数学竞赛、过度思考分析、推理后训练优化及生成式推荐。CoreCodeBench从12个开源库生成1524个结构化任务,有效性达78.55%;SOP-Maze基于真实业务构建397个流程实例,测试显示前沿模型存在流程遵循、对话脆弱性和计算错误三类短板;AMO-Bench含50道高难度数学题,最强模型准确率仅52.4%;The Evolution of Thought提出推理完成点(RCP)检测器减少冗余生成;MASPO通过软高斯门控等优化推理后训练,提升Avg@32和Pass@32;FLR将隐式推理分解为多维偏好因子,平均提升3.2%。
华为发布 KVarN,一个原生 vLLM 后端,专门用于键值缓存(KV-cache)量化。项目已在 GitHub 上公开,在 Hacker News 上获得 100 点热度。
Anthropic 将其用于 AI 驱动漏洞发现的开源框架代码托管在 GitHub 上。该框架借助 AI 技术进行漏洞发现,旨在帮助识别软件中的安全缺陷。
Nemotron 3.5 Content Safety基于Gemma 3 4B IT,提供128K上下文窗口,支持用户提示、可选图像与助手响应的统一多模态安全评估。新增自定义策略执行,允许企业用自然语言定义专属安全规则;THINK模式可输出可审计的逐步推理痕迹。显式训练覆盖12种语言,并借助基座模型零样本泛化至约140种语言。输出提供低延迟二分类、带分类标签、THINK推理痕迹三种模式。安全分类遵循Aegis 2.0框架(13核心类别+10细分类别)。同步发布多模态、多语言安全数据集,可在8GB+ VRAM GPU上实时部署。
Boson AI 与 LMSYS 联合推出基于 SGLang-Omni 推理框架的 Higgs Audio v3 TTS 端到端服务。该模型约 4B 参数,基于 Qwen3-4B 骨干,支持 100 种语言(内部评测覆盖 111 种),在 Seed-TTS、CV3、MiniMax-Multilingual 及 Higgs-Multilingual 零样本语音克隆任务中达到单字级 WER/CER。开发者可通过文本内控制标签实时调整情感(20+种)、风格、韵律(语速/音高/停顿)及音效。模型支持流式合成,文本未完整时即可开始生成语音并保持一致性。SGLang-Omni 专为多阶段生成模型设计,统一调度 AR 解码与轻量计算,实现低延迟推理。
针对德语预训练数据资源匮乏且缺乏系统验证的问题,研究团队构建了KletterMix——一个高质量德语语料库,用于大语言模型预训练与退火阶段。KletterMix通过翻译一份最优英语预训练语料生成,保留了原文档边界、元数据、来源结构和主题多样性。COMETKiwi评估表明翻译文档在多个领域保持语义与风格丰富性。在受控预训练和退火实验中,基于KletterMix训练的模型在德语下游评测中取得可衡量性能提升,证实精心策划的翻译数据能有效增强德语预训练数据生态。
EVA-Bench Data 2.0 将评估范围从单一企业领域扩展至航空公司客户服务管理(CSM)、企业 IT 服务管理(ITSM)和医疗 HR 服务交付(HRSD)三个领域,共涵盖 121 个工具、213 个场景,场景数较原始版本增长约 4 倍。每个场景均经 OpenAI GPT-5.4、Google Gemini 3.1 Pro 和 Anthropic Claude Opus 4.6 验证可解性。数据集遵循语音优先、真实性、多样性、认证流程和可复现性五项设计原则,包含单意图、多意图(最多 4 个意图)和对抗性呼叫类型。所有三个数据集已开源,可通过 load_dataset 从 Hugging Face 直接下载。后续将推出多语言扩展。
Google Research 在 GitHub 开源了其水文建模框架,这是一个基于 PyTorch 的 Python 包,采用与 Flood Hub 河段洪水预报相同的模型架构和训练数据。该框架允许研究者和预报员训练 AI 洪水预报模型、添加新模型与数据,并已与捷克水文气象研究所(CHMI)等合作测试。开放模型架构和训练管线旨在让各国气象水文部门在保留数据完全控制权的同时,整合基于 AI 的洪水预报。
Gemma 4 12B 是 Google DeepMind 发布的无需编码器的多模态模型,直接将视觉和音频输入大语言模型骨干,支持原生音频,可在 16 GB 笔记本电脑上本地运行,采用 Apache 2.0 开源许可。
京东发布并开源 JoyAI-Echo 长音视频生成框架。其内置记忆库可在长达 5 分钟的视频中保持角色身份、视觉形象和声音音色高度一致。框架采用记忆驱动后训练流程,结合 SFT、跨模态 RLHF 与 Distribution Matching Distillation(DMD)技术,DMD 带来约 7.5 倍推理速度提升。JoyAI-Echo 还引入 Director Agent,支持自然语言需求自动拆分为剧本、角色、场景和镜头,实现对话式编辑。配套实时超分模块支持 736×1280 → 1152×1920 及 736×1280 → 1472×2560 两档分辨率提升。京东称该项目标志着其在长视频生成领域进入全球第一梯队。
上海海思 HiSpark Studio 正式在 GitCode 平台开源。该 IDE 基于 VS Code 扩展架构,集成工程管理、代码编辑、编译构建、烧录调试、图形化配置等全链路开发能力,支持智能设备、星闪(NearLink)、嵌入式 AI 开发。核心亮点包括 SDK 一键下载、一键编译与烧录、GDB 调试、图形化工具集(图片解压缩、视频首帧提取、3D 建模、蒙版工具)、系统配置工具、AI 模型处理(量化压缩、格式转换、一键部署验证)及远程开发模式。
Datasette Agent 推出的新子项目 datasette-agent-micropython 0.1a0 发布,旨在让 Datasette Agent 能够安全地生成和执行 Python 代码。该 alpha 版本采用沙箱隔离机制,目前 GPT-5.5 尚未能逃逸出沙箱。
Nous Research 推出开源 AI 智能体应用 Hermes Desktop,采用 MIT 许可证,可跨平台运行。
智元正式开源 AGIBOT WORLD 2026 数据集第二期“多样交互(Rich Interaction)”。这是行业首个聚焦物理交互的开源具身数据集,系统记录机器人与真实物理世界之间复杂、高密度的交互过程,面向世界模型、神经仿真器等具身智能研究。该数据集将数据范式从“学习成功动作”推进到“理解完整的物理分布”,目前已在 Hugging Face 平台开放下载。
Vim Classic 发布首个稳定版 8.3.0 编辑器,明确承诺代码库完全不含 LLM 生成内容。该版本基于 Vim 8.2.0148 构建,旨在避免 Vim9 Script 带来的长期维护负担,使代码更简洁,但也导致部分现代 Vim 插件无法正常使用。团队已针对上游安全补丁进行评估以覆盖已知漏洞,但提醒早期用户系统可能存在隐藏 Bug,更适合愿意接受兼容性与稳定性风险的用户尝鲜。
本研究探讨了世界模型与多模态大语言模型在预测未来状态时的互补性。世界模型可生成具体的视觉未来轨迹,但可能视觉合理却任务错误;多模态大语言模型则擅长抽象推理。为此,研究提出了“受控的具体推理”框架,并构建了VRQABench和OpenWorldQA两个基准。同时,提出了Privileged-Future On-Policy Self-Distillation(PF-OPSD)方法,该方法在训练时利用真实未来视频作为特权上下文评估推理轨迹,但部署时无需真实未来。实验结果显示,PF-OPSD在两个基准上分别比基线高出10.6%和10.9%,并提升了对噪声或冲突轨迹的鲁棒性。
Holo3.1 是基于 Qwen 模型家族的计算机使用智能体系列,旨在提升在桌面、网页和移动环境中的鲁棒性。新模型提供 0.8B、4B、9B 和 35B-A3B 四种尺寸,并首次发布量化检查点,包括 FP8、Q4 GGUF 和 NVFP4,以优化本地推理。在 AndroidWorld 基准测试中,35B-A3B 模型得分从 67% 提升至 79.3%。在 DGX Spark 上,NVFP4 量化相比 BF16 实现 1.74 倍 token 吞吐量提升,并将平均步骤时间从 6.8 秒缩短至 3.3 秒。模型支持函数调用协议,可在第三方智能体框架中部署。
当前单智能体计算机使用智能体在复杂长时程任务中存在不足。为此,本研究提出了多智能体计算机使用系统。该系统由一个管理器模型将任务分解为有向无环图,并行派遣子智能体执行,并根据新信息动态调整该图。实验表明,该系统在桌面和网页导航基准测试上的性能持续优于强单智能体基线3.4-25.5%,并在长时程网页导航任务上将平均任务完成时间缩短约1.5倍。研究结论是,多智能体协调是扩展计算机使用智能体能力的一个有前景方向。
“Chipotlai Max”项目在 Hacker News 上获得了 102 点热度,并提供了其 GitHub 仓库地址。