GGUF 文件格式在存储机器学习模型权重的基础上,还包含了模型架构、超参数配置、分词器信息等关键元数据,提升了模型部署的便利性。然而,该格式目前仍缺乏标准化验证工具、完善的版本控制机制以及跨平台兼容性支持,限制了其广泛应用。文章在 Hacker News 上获得 101 点关注,反映了开发者对模型格式标准化与改进的持续讨论。
GGUF 文件格式在存储机器学习模型权重的基础上,还包含了模型架构、超参数配置、分词器信息等关键元数据,提升了模型部署的便利性。然而,该格式目前仍缺乏标准化验证工具、完善的版本控制机制以及跨平台兼容性支持,限制了其广泛应用。文章在 Hacker News 上获得 101 点关注,反映了开发者对模型格式标准化与改进的持续讨论。
本文提出LIFE统一框架,系统综述基于大语言模型的多智能体系统。该框架涵盖能力奠基、协作整合、故障归因与自主演化四个因果关联阶段。研究指出,当前系统在需持续协调的任务中存在局限,且紧密协作会放大错误传播风险。现有工作多孤立探讨各阶段,本文通过形式化表征阶段间依赖关系,揭示了它们如何相互制约与支撑。在此基础上,文章针对阶段衔接处的开放挑战提出了跨阶段研究议程,旨在推动系统向能持续诊断故障、重组结构、优化行为的自组织集体智能演进。
Ring-2.6-1T 正式开源,这是为真实复杂任务打造的万亿级思考模型,Agent 执行能力全面增强,采用双档推理配置,兼顾效率、成本与能力上限。
Mitchell Hashimoto 针对 Bun 从 Zig 移植到 Rust 一事发表评论,指出编程语言正变得越来越可替代。他认为,过去编程语言常形成技术锁定,但现在情况已大不相同。Bun 团队展示出他们可以在大约一两周内用任何他们想要的语言重写项目,Rust 也不例外。语言变得可消耗,有用时则用,不再适用时便可弃用,这一现象值得关注。
IBM 发布两个 Apache 2.0 开源多语言嵌入模型:97M 参数的紧凑型(granite-embedding-97m-multilingual-r2)在 MTEB Multilingual Retrieval 上得 60.3 分,超越所有开放子 1 亿参数模型;311M 全尺寸模型(granite-embedding-311m-multilingual-r2)得 65.2 分,在 500M 以下开放模型中排第二,并支持 Matryoshka 维度。两者均基于 ModernBERT 架构,支持 200+ 种语言,针对 52 种语言和 9 种编程代码检索训练,上下文窗口达 32,768 tokens。可直接替换 sentence-transformers、LangChain、LlamaIndex 等框架中的默认模型,预置 ONNX 和 OpenVINO 权重以优化 CPU 推理。
本研究系统性地探索了长上下文视觉语言模型的持续预训练方法,成功将7B参数模型的上下文长度从32K扩展至128K。关键发现包括:长文档视觉问答数据优于OCR转录;均衡的序列长度分布数据比仅聚焦目标长度的数据更有效;检索能力是主要瓶颈,需搭配检索密集型数据。基于此,团队以仅50亿token的预算,从Qwen2.5-VL-7B训练出MMProLong模型。该模型将长文档视觉问答得分提升7.1%,并在未经额外训练的情况下,在256K和512K的上下文长度上保持强劲性能,同时能泛化应用于网页检索、长文本压缩及长视频理解等任务。
小米技术正式发布并开源一步式潜空间语言视觉推理框架Xiaomi OneVL。该框架在业内率先通过潜空间推理,将视觉语言动作模型与世界模型统一到同一套框架中。在推理、规划等多个主流基准上,该模型全面刷新了潜在推理方法的性能上限,在精度上超越显式思维链方案,在速度上对齐“仅答案”预测的潜空间思维链方案。小米已全面开源其模型权重及训练、推理代码。
Video2GUI框架能从5亿互联网视频元数据中自动提取GUI交互轨迹,构建了包含1200万条轨迹的WildGUI数据集,覆盖1500多个应用和网站。在Qwen2.5-VL和Mimo-VL上预训练后,GUI定位和行动基准测试性能提升5-20%,达到或超越现有最优水平。该数据集与框架将开源以支持GUI智能体研究。
Statewright发布了一个开源的可视化状态机工具,旨在通过图形化界面提升人工智能代理的可靠性。该工具允许开发者直观地设计和监控AI代理的状态转换,简化开发流程,减少错误并增强系统稳定性。在Hacker News上,该项目获得101个点赞,显示出技术社区对其创新性的关注。开发者可通过GitHub访问代码,将其集成到AI项目中以提高可维护性和性能。
Meta 为其开源沉浸式 Web 开发框架 Immersive Web SDK 推出重大更新,新增支持接入 Claude Code、Cursor、OpenAI Codex 等 AI 工具。该框架旨在简化 VR 开发的底层工程工作,此次更新允许开发者利用 AI 智能体进行代码测试、验证和迭代优化。为展示能力,Meta 使用该框架与 AI 工作流,仅用 15 小时便重建了其 VR 演示项目 Project Flowerbed,在保留原有美术资源的前提下完成了数万行代码的重构与应用重建。
腾讯混元在重组后推出Hy3 preview模型,该模型全球token消耗量位居前列。结束限免期后,Hy3 preview的日Token用量和周Token调用量仍保持榜首。
原阿里巴巴通义千问核心研究负责人、最年轻P10技术专家林俊旸已创立新AI实验室,正寻求数亿美元融资。若本轮融资完成,该实验室估值预计将达到约20亿美元(约136亿元人民币)。目前高榕创投和红杉中国正与其接触讨论投资。林俊旸于今年3月突然宣布卸任阿里职务,他曾是“基模四杰”之一,其离职在业界引起广泛关注。
LychSim是一个基于Unreal Engine 5构建的可控交互式仿真框架,旨在降低现代仿真平台的高技术门槛。其核心设计包括:一个简化底层引擎复杂性的Python API;一个能生成具有多样化分布外视觉挑战的高保真环境,并提供丰富2D与3D真实标注的程序化数据管线;以及原生集成的模型上下文协议,可将仿真器转变为支持推理型大语言模型的动态闭环测试平台。该框架支持语义对齐的3D标注与自动场景修改,已成功应用于合成数据生成、基于强化学习的对抗性评估及语言驱动的交互式场景布局生成等多个下游任务。LychSim将公开提供完整源代码与多种数据标注。
研究提出HodgeCover方法,用于无需重新训练的稀疏专家混合模型压缩。该方法解决了现有压缩器的结构障碍:三个专家可能两两兼容,但合并后形成不可约循环。通过将专家间的KL合并障碍和三元组障碍建模为2-复形,并利用单纯形拉普拉斯算子的调和核进行霍奇分解,HodgeCover能精确隔离关键障碍。它采用贪心策略覆盖调和关键边和三元组关键三角形,混合变体还结合权重剪枝。在三个开源稀疏MoE骨干模型上的激进专家削减测试表明,HodgeCover在专家削减轴上匹配当前最优无学习基线,在混合轴的激进压缩前沿领先,并平衡所有霍奇分量的保留质量。
本文从函数空间视角研究几何网格上物理场方程的解算子。我们发现Hodge正交性通过分离不可学习的拓扑自由度和可学习的几何动力学,从根本上解决了谱干扰问题,实现了结构保持子空间的加性逼近。基于Hodge理论和算子分裂,我们推导了原则性的算子级分解,构建了称为Hodge Spectral Duality (HSD)的混合欧拉-拉格朗日架构。该框架使用离散微分形式捕获拓扑主导分量,并利用正交辅助环境空间表示复杂局部动力学。我们的方法在几何图上实现了更高的精度和效率,同时增强了对物理不变量的保真度。代码已开源。
研究团队发布了名为Needle的轻量级模型,它将谷歌Gemini的工具调用能力浓缩至仅2600万参数。该模型在保持核心功能的同时,体积显著缩小,旨在实现更高效的部署与应用。项目代码已在GitHub开源,并在Hacker News社区获得了超过100点的关注度。
中国AI生态呈现高参与度与开放优先特征,开源模型社区形成自我强化循环。开发者基于主流架构二次创新,国产开源模型下载量季度环比激增超200%。开放协作降低了技术门槛,推动应用层涌现大量行业解决方案,模型微调工具使用量同比大幅增长。生态参与者通过贡献代码、数据及优化方案,持续反哺核心模型迭代,构建了技术红利共享的复合增长网络。
Hugging Face平台出现伪装成OpenAI官方“Privacy Filter”隐私脱敏模型的山寨恶意项目“Open-OSS / privacy-filter”。该仓库文件目录与正版高度一致,但实际暗藏信息窃取木马,在下架前下载量已超过20万次。安全公司HiddenLayer披露,用户若运行该文件会导致系统被入侵,建议受影响者彻底重建开发环境,并在清理前避免登录和输入敏感信息。
一个伪装成OpenAI发布的Hugging Face仓库被发现传播信息窃取恶意软件,该仓库针对Windows系统,在被移除前记录了约24.4万次下载。AI安全公司HiddenLayer的研究指出,实际下载量可能被攻击者人为夸大以制造流行假象,目前无法确定真实受害范围。该事件暴露了主流AI模型分发平台面临的安全风险。
全球权威评测机构Artificial Analysis发布全新Coding Agent Index,包含SWE-Bench-Pro-Hard-AA、Terminal-Bench v2和SWE-Atlas-QnA三项基准,用于衡量模型与Agent harness组合的真实编程能力。闭源模型Opus 4.7(在Cursor CLI中运行)全球第一,智谱GLM-5.1(在Claude Code中运行)获开源第一,代表国产大模型在实际编程Agent场景达到SOTA水平。
同一事件,精选展示《GLM-5.1开源:一个独立工作8小时的模型》小米技术官方公布了MiMo Orbit 100T Token计划的最新进展。该计划旨在30天内面向全球AI用户免费发放100万亿Token,截至5月12日上午已累计送出近80万亿。同时,在OpenRouter平台的最新数据中,MiMo模型最近一个月的Token调用量达1.45万亿,排名第一;其Hermes Agent的日调用量高达2910亿,最近一周调用量超1.75万亿。
网络安全机构Socket发现针对npm生态的大规模供应链攻击“Mini Shai-Hulud”。攻击者组合利用GitHub Actions的三种漏洞,绕过了双重身份验证等保护机制,向TanStack、Mistral AI、UiPath等知名项目的软件包中植入恶意版本。被篡改的包在安装时会自动执行恶意代码,窃取AWS、GCP、Kubernetes、GitHub令牌及SSH私钥等敏感凭证。此次攻击波及超过160个包名、近373个恶意版本,目前所有恶意版本已被清理。
当前地理空间基础模型研究缺乏统一评估标准、训练测试协议与预训练控制,导致模型难以公平比较。对152篇论文的审计发现,同一模型在相同基准上存在显著结果分歧;不同研究预训练配置几乎没有重复;且近四成论文未公开模型权重。为此,文章提出六项具体建议,包括发布带许可证权重、共享核心评估框架、明确基线来源、报告结果方差等,以推动社区建立协作标准,促进该领域健康发展。
本文面向使用开源框架的机器学习工程师,阐述了AWS如何为大规模基础模型的全生命周期提供核心基础设施。其核心是三大紧密集成的组件:配备多代NVIDIA GPU(如H100、H200及新一代Blackwell B200/B300)的大显存加速计算实例;用于集体通信的高带宽、低延迟网络(节点内NVLink与节点间EFA);以及可扩展的分布式存储。这些基础设施与Slurm/Kubernetes等资源编排系统、PyTorch/JAX等ML框架协同,共同支撑预训练、后训练和推理工作负载,并可通过Prometheus/Grafana实现全栈可观测性。
Linus Torvalds 发布 Linux 7.1-rc3,指出 AI 工具大幅提升开发效率,导致补丁规模异常偏大并成为新常态。本次更新中网络相关补丁占比最高(达33%),修复了蓝牙和显卡驱动的安全漏洞,新增对苹果 Mac USB-C 网络及 AlphaTheta 专业音频设备的支持。同时,版本加强了对国产龙芯架构的 KVM 虚拟化优化,并显著增加了内存安全补丁和 Rust 语言应用比例,以提升内核安全性。Torvalds 预计大规模代码变更将持续成为后续开发模式。
PS3开源模拟器RPCS3颁布代码提交新规,明确禁止自主AI智能体提交代码,要求所有贡献者必须完全理解并真正拥有自己提交的代码内容。新规强调,所有代码、注释及GitHub评论均需由人类完成。若使用AI工具生成代码,必须在提交时明确披露AI参与范围及人工审查情况,否则相关请求可能被直接关闭。团队指出,近期项目中出现了大量未经测试的AI生成垃圾代码,甚至导致功能失效,屡犯者将被禁止访问代码库。
畅网微控在英特尔AI NAS与雷电解决方案峰会上发布三款NAS硬件及跨平台开源系统CWOS。口袋AI NAS基于第三代酷睿Wildcat Lake平台,提供4个M.2 PCIe Gen4盘位及高速接口。九盘位全闪AI NAS可选酷睿Ultra X9 378H处理器,配备9个M.2盘位。算力AI NAS则搭载酷睿Ultra X7 356H处理器,支持锐炫Arc Pro独立显卡,提供多盘位配置。CWOS系统内置多模态AI智能搜索,支持语音搜索,未来将拓展物体与人脸识别功能。
PS3模拟器RPCS3的开发团队近日公开请求社区停止大量提交由AI生成的代码拉取请求。这些AI生成的PR数量激增,但质量普遍低下,包含大量错误、不相关代码甚至虚构的API,严重增加了开发者的审核与维护负担。团队强调,他们欢迎人工贡献,但AI自动提交的低质代码对项目无益,反而阻碍了开发进程。此举旨在维护开源项目的代码质量与协作效率。
低光图像增强面临噪声、伪影和颜色失真等挑战。现有基于Retinex的深度学习方法主要依赖单模态RGB信息,性能有限。本文提出M2Retinexformer,一个新型多模态框架,在Retinexformer基础上扩展,融合深度线索、亮度先验和语义特征,采用渐进式细化流程。深度提供光照不变的几何上下文,亮度特征显式指导亮度分布,语义特征增强场景理解。多模态信息在多尺度提取,通过交叉注意力机制融合,自适应门控根据辅助线索可靠性动态平衡光照引导的自注意力和交叉注意力。在LOL、SID、SMID和SDSD基准测试上的评估表明,其性能整体优于Retinexformer及近期其他先进方法。代码与预训练权重已开源。
文章主张本地人工智能应成为常态,而非依赖云端服务。当前AI工具大多基于云端,存在延迟、隐私、成本和网络依赖等问题。本地AI模型在个人设备上运行,能提供即时响应、更好保护隐私、降低长期成本并确保离线可用。随着硬件性能提升和模型优化,本地运行7B至13B参数级别的模型已具备可行性。这一转变将使用户真正掌控自己的AI助手,推动技术向更开放、可定制和以用户为中心的方向发展。
TacoMAS是一个用于动态多智能体系统的测试时协同进化框架。针对现有方法在推理时固定拓扑或只适应单一维度的不足,该框架提出在测试时联合进化智能体能力和通信拓扑,但以不同时间尺度:能力通过快速循环利用轨迹反馈实时更新以处理子任务,拓扑通过慢速元LLM驱动循环执行代理增删和边编辑以维持协调稳定性。框架将系统推理建模为在线图适应任务,节点代表具角色能力的智能体,边定义通信拓扑。这种快慢协同设计驱动系统向任务条件稳定均衡演化。在四个基准测试上的实验表明,TacoMAS优于近20种多智能体基线,平均性能提升13.3%。代码已开源。
研究团队推出TD3B,一种基于序列的生成框架,专门设计具有指定激动剂或拮抗剂行为的蛋白质配体。该方法通过过渡导向控制目标,结合目标感知的方向预测器、软结合亲和力门控机制,并对预训练的离散扩散模型进行摊销微调。TD3B能够生成与结合亲和力解耦、且基于平衡或纯推理基线无法实现的定向配体,尤其针对临床相关的GPCRs,解决了现有基于静态结构的设计方法无法表征非可逆方向性效应的局限。代码与模型已开源。
研究团队发布了开源肿瘤临床决策支持系统OncoAgent。该系统采用双层多智能体框架,结合LangGraph拓扑与四阶段Corrective RAG流程,检索超过70份权威临床指南。系统根据查询复杂度,将任务路由至9B参数的速度优化模型或27B参数的深度推理模型,两者均通过QLoRA在AMD MI300X硬件上使用包含26万余病例的数据集进行微调。系统强制执行严格的零受保护健康信息政策,并通过三层反射安全验证器确保安全,支持完全本地部署以保护患者数据主权。
Linux基金会2026年预算中,超过97%的资金并未直接用于Linux内核开发,而是流向了基金会旗下的其他项目和倡议。这一数据凸显了基金会工作重心的显著转移,其资源主要投入在云原生、区块链、人工智能等更广泛的开放协作项目上,而核心的Linux开发仅获得极小部分的预算支持。
英伟达实验室发布了实验性开源项目CUDA-Oxide 0.1编译器,允许开发者使用Rust语言直接为NVIDIA GPU编写CUDA内核。该编译器将标准Rust代码输出为CUDA生态的底层中间表示PTX,支持单源码编译并提供设备端抽象,旨在通过Rust的类型系统和内存安全优势,减少传统CUDA开发中的常见错误。项目采用自定义的rusc编译器后端,首个版本已开源发布。
研究团队基于Qwen2.5-3B-Instruct模型,在单张24GB消费级GPU上通过持续预训练与监督微调,开发出支持撒丁语的30亿参数模型LLiMba。训练语料包含1150万撒丁语词元及240万相关罗曼语文本。实验发现,持续预训练后模型在撒丁语困惑度降至6.76,并在所有FLORES-200翻译方向上超越基础模型。在五种微调配置中,rsLoRA r256在英译撒丁语任务中以28.5 BLEU值表现最佳。研究表明,适配器容量对低资源罗曼语适配的影响大于具体变体选择,且翻译指标虽能排序配置,但无法完全反映其定性行为的本质差异。
本研究系统探索了在大规模预训练中对混合专家模型进行压缩的方法。关键发现包括:对预训练MoE模型进行结构化剪枝,在相同训练预算下始终优于从头训练目标架构;不同的一次性专家压缩方法经过大规模持续预训练后性能趋同,为此提出一种简单的部分保留专家合并策略以提升下游任务表现。结合知识蒸馏与语言建模损失优于单独使用蒸馏,特别是在知识密集型任务上,进一步提出的多令牌预测蒸馏方法能带来稳定增益。在训练令牌数相同的情况下,渐进式剪枝方案优于一次性压缩。综合这些方法,成功将Qwen3-Next-80A3B模型压缩至23A2B,同时保持了有竞争力的性能。
CyberSecQwen-4B 是基于 Qwen3-4B-Instruct-2507 微调的 4B 参数防御性网络安全模型,在 CTI-Bench 上以半参数(4B vs 8B)对标 Cisco Foundation-Sec-Instruct-8B:CTI-MCQ 得分 0.5868,领先 8.7 个百分点;CTI-RCM 得分 0.6664,保留后者 97.3% 的准确率。可运行于单张 12 GB 消费级 GPU,训练使用 AMD Instinct MI300X,LoRA 微调(r=64, lr=5e-5),数据来自 MITRE/NVD 的 2021 CVE→CWE 映射及合成分析师问答,以 Apache-2.0 许可发布。专为需本地部署的敏感安全场景设计。
EMO是一种新型专家混合模型,通过端到端预训练使模块化结构直接从数据中涌现,无需依赖人类定义的先验。该模型允许在特定任务中仅使用12.5%的专家子集(即8个活跃专家中的部分),同时保持接近全模型的性能;当所有128个专家共同使用时,它仍作为强大的通用模型。EMO具有1B活跃参数和14B总参数,训练数据达1万亿令牌。与标准MoE相比,EMO通过文档级路由约束,鼓励专家形成领域专业化组,从而支持选择性使用而不导致严重性能下降,实现了可组合架构,优化了大型稀疏MoE的内存-准确性权衡。
据知情人士消息,DeepSeek正寻求首轮融资,目标高达500亿元人民币,若成功将成中国AI公司迄今最大规模融资。创始人兼CEO梁文锋计划提供最大一笔资金。融资推动公司加快商业化节奏,计划提高模型发布频率以接近行业标准。同时,DeepSeek将于6月发布V4模型的更新版本V4.1。