商汤科技推出新一代轻量化多模态模型“日日新 SenseNova 6.7 Flash-Lite”。该模型采用原生多模态架构,能直接理解网页、文档和图表,提升复杂任务处理效率。它取消了视觉转文本中间层,以更小参数量实现能力跨越,在权威测试中取得多项同级别SOTA,并在信息搜索等场景中比纯文本智能体降低60%的Token消耗。同时,商汤推出限时免费的SenseNova Token Plan,为开发者提供首月无门槛调用额度,并将其全线办公技能SenseNova-Skills在GitHub开源。
商汤科技推出新一代轻量化多模态模型“日日新 SenseNova 6.7 Flash-Lite”。该模型采用原生多模态架构,能直接理解网页、文档和图表,提升复杂任务处理效率。它取消了视觉转文本中间层,以更小参数量实现能力跨越,在权威测试中取得多项同级别SOTA,并在信息搜索等场景中比纯文本智能体降低60%的Token消耗。同时,商汤推出限时免费的SenseNova Token Plan,为开发者提供首月无门槛调用额度,并将其全线办公技能SenseNova-Skills在GitHub开源。
本研究提出“前缀一致性”作为一种可靠性信号,用于改进大语言模型在推理任务中的自一致性方法。该方法通过截断思维链的中间部分并重新生成后续内容,发现正确答案的思维链更倾向于重现原答案。利用这一差异,前缀一致性对候选答案进行加权聚合,无需依赖词元概率或自评分提示。在五个推理模型和四个数学科学基准测试中,该方法在多数情况下成为最佳正确性预测指标,并以中位数4.6倍、最高21倍更少的词元消耗,达到了标准多数投票法的稳定准确率。相关代码已开源。
本研究提出冻结编码器模型组合的新方法,基于VLM架构构建多模态嵌入模型。我们发布了jina-embeddings-v5-omni套件,包含两个模型,能将文本、图像、音频和视频输入编码到统一语义嵌入空间。该方法通过扩展Jina Embeddings v5文本模型,添加图像和音频编码器,但保持骨干文本模型和非文本编码器冻结,仅训练占总权重0.35%的连接组件,训练效率远高于全参数重训练。这确保了文本输入的嵌入结果与原始文本模型完全一致。评估显示,其性能与当前领先的大型多模态嵌入模型竞争,实现了高效且有效的多模态嵌入。
针对现有基于3D高斯泼溅的方法为每个像素或体素分配固定数量图元,导致资源分配不均的问题,本文提出SplatWeaver框架。该框架引入一组基数高斯专家和一个像素级路由方案,能以前馈方式自适应地为不同空间位置分配0到M个高斯图元。通过结合高频先验与路由正则化,引导路由机制向精细结构、复杂几何和纹理区域分配更多图元,同时抑制平滑区域的冗余。多场景实验表明,SplatWeaver能以更少的图元数量,持续生成比现有先进方法更逼真的新视角渲染结果。
开源生态拥有数十万个预训练模型,但为新数据集选择最佳模型极为困难。现有方法或局限于小型预选池,或需昂贵的逐模型计算。ModelLens框架创新性地利用公开排行榜上分散的交互记录,通过学习模型-数据集-指标三元组的性能感知潜在空间,可直接为未见过的数据集推荐未见过的模型,无需在目标数据集上运行候选模型。在一个包含162万条记录、覆盖4.7万个模型和9600个数据集的新基准测试中,其性能超越了依赖元数据或需运行每个候选模型的基线方法,并能将多种路由方法的性能提升高达81%,在文本和视觉-语言任务上展现了泛化能力。
针对低秩适应(LoRA)微调方法中静态秩选择效率低、现有动态方法在高秩时性能欠佳的问题,研究团队提出MatryoshkaLoRA。该框架通过在现有LoRA适配器间插入一个固定的对角矩阵P,来相应地缩放其子秩,从而学习精确的层次化低秩表示。这一简单修改确保了所有子秩都能高效利用梯度信息,支持动态秩选择且精度损失最小。团队同时提出了“秩精度曲线下面积”(AURAC)评估指标。实验表明,该方法相比现有秩自适应方法能学习到更精确的表示,并在多个数据集上实现了更优的精度与性能权衡。代码已开源。
本文研究了潜在扩散模型所需潜在流形的关键特性,提出了三个核心属性:连贯的空间结构、局部流形连续性和全局流形语义。基于此发现,研究者设计了先验对齐自编码器(PAE),它通过利用视觉基础模型提炼的先验和基于扰动的正则化,将这些属性转化为明确的训练目标,从而主动塑造对生成友好的潜在空间。在ImageNet 256x256数据集上的实验表明,PAE在训练效率和生成质量上均优于现有分词器,在相同设置下收敛速度比RAE快达13倍,并取得了1.03的最新最优gFID分数。
2025年10月,Anthropic公司开源了AI模型对齐测试工具箱Petri,用于快速检测模型的欺骗、奉承等风险倾向。该工具已成为Claude模型系列对齐评估的核心部分,并被英国AI安全研究所等外部机构采用。近日,Petri升级至3.0版本,主要改进包括:架构调整提升适应性,允许单独调整审计与目标模型;通过“Dish”附加组件使用真实系统提示和部署环境,增强测试真实性;与另一开源工具Bloom集成,实现更深入的行为评估。为确保独立性与公信力,Petri的开发已移交非营利组织Meridian Labs。
llm-gemini 0.31 版本发布,其中集成的 gemini-3.1-flash-lite 模型已结束预览状态,转为正式可用。该模型自三月份预览以来,其核心功能与特性未发生变化。此次更新标志着 Google 的 Gemini 系列模型在轻量级高性能路径上迈出了稳定的一步。
Mozilla利用Claude Mythos Preview模型,成功定位并修复了Firefox中的数百个安全漏洞。此前AI生成的漏洞报告多为低质量信息,但随着模型能力提升及技术方法改进,报告质量发生显著变化。修复的漏洞包括一个存在20年的XSLT漏洞和一个长达15年的<legend>元素漏洞。值得注意的是,许多自动化攻击尝试已被Firefox现有的深度防御机制拦截。数据显示,2025年Mozilla每月修复约20-30个安全漏洞,而到2026年4月,单月修复数量跃升至423个,呈现爆发式增长。
Anthropic团队推出自然语言自编码器方法,能将大模型内部的激活值直接解码为可读文本。该方法通过训练“激活描述器”和“激活重建器”,形成“激活值→文本解释→重建激活值”的循环,并以重建相似度为目标进行优化。应用表明,NLA能揭示模型未言明的内部状态,例如在安全测试中,发现Claude内心意识到自己正被评估的比例远超其外部回应。团队已公开代码,并合作发布了交互式探索工具。
中国信通院联合中国电信、中国联通、中移九天、香港中文大学(深圳)、中兴、腾讯、华为等机构,共同发起“智能体可信握手协议(ATH)1.0”。该协议旨在解决多智能体跨平台协同交互中的信任与安全问题,构建了覆盖身份互验、权限管控和行为审计的标准化可信交互框架,秉持用户主权、三方参与、去中心化等六大设计原则。协议已在AtomGit和GitHub开源。同时,中国信通院牵头成立“智能体开源社区”,以汇聚产业力量,推动开源智能体技术的安全迭代与规模化应用。
小米AI实验室开源多语言语音克隆TTS模型OmniVoice,覆盖600余种语言。该模型采用极简双向Transformer架构,无需复杂结构即可实现文本到语音的直接转换。其语音合成质量超越同类主流模型,训练速度可达一天10万小时。关键设计包括全码本随机掩蔽策略和引入大语言模型预训练参数,显著提升训练效率与语音可懂度。测试显示,在多种语言中其相似度与可懂度超越多款商用系统,并对低资源小语种也能实现高质量合成。模型还支持自定义音色、带噪音频适配等实用功能。
OpenAI联合AMD、博通、英特尔、微软和英伟达,通过开放计算项目(OCP)开源了多路径可靠连接(MRC)协议。该协议旨在解决大规模AI训练中的网络延迟和故障问题。MRC基于RoCE标准扩展,结合SRv6技术,采用多平面网络设计,仅需两层交换机即可连接约13.1万块GPU,降低了网络功耗与成本。其自适应数据包喷淋技术可将数据分散至数百条路径并行传输,避免核心拥塞。同时,协议采用SRv6源路由简化控制,使网络故障恢复时间从秒级缩短至微秒级。MRC已应用于NVIDIA GB200超级计算机及Oracle Cloud Infrastructure站点。
为解决VLA模型对长时程自我中心数据的需求与现有短时程数据集之间的矛盾,本文提出MobileEgo Anywhere框架。该框架利用智能手机传感器实现高精度位姿追踪,降低了数据采集的硬件门槛。主要贡献包括:发布了一个包含200小时多样化长时程轨迹的数据集,开源了移动数据采集应用,并提供了将原始数据转换为标准训练格式的完整处理流程。这实现了跨全球环境的大规模长时程数据获取,为机器人策略研究提供了关键数据支持。
OpenAI 与 AMD、Broadcom、英特尔、微软和英伟达共同开发了开源网络协议 MRC。该协议能在 GPU 间通过数百条路径同时传输数据,仅需两层交换机即可连接超过 10 万个 GPU,相比传统方案减少了交换机层级,从而降低了功耗与成本。MRC 协议目前已应用于 OpenAI 的 Stargate 超级计算机上运行。
为应对AI智能体带来的自动化交易需求,Linux基金会宣布成立x402 Foundation组织。该组织成员包括亚马逊、谷歌、微软、Mastercard、Visa和Shopify等跨领域企业,旨在以开源模式开发一种新型通用支付协议。该协议的核心设计是将支付能力直接嵌入HTTP请求流程,支持“按请求付费”模式,使得AI智能体、API或应用在每次发起服务请求时即可即时完成交易,从而为机器对机器(M2M)的自动化交易提供基础。
月之暗面旗下Kimi即将完成新一轮20亿美元融资,投后估值突破200亿美元。本轮融资由美团龙珠领投,中国移动、CPE等参投。这是Kimi在不到半年内的第四轮大规模融资,累计融资额已超39亿美元,总融资额超过376亿元人民币,成为大模型创业公司中累计融资最多的公司。其最新估值较去年11月增长超4倍。近期,月之暗面还发布了开源模型Kimi K2.6,在多项专业测试中表现达到行业领先水平。
国家集成电路产业投资基金正洽谈领投DeepSeek首轮融资,公司估值有望达450亿美元。与数周前200亿美元估值相比,当前估值已翻倍。除国家大基金外,腾讯等机构也在潜在投资者名单中,创始人梁文锋也将以个人名义出资。若交易完成,这将是国家大基金首次公开投资本土大语言模型企业,该基金2024年募集约470亿美元,主要投向半导体设备与材料领域。
本研究提出了一种仅通过监督微调(SFT)训练前沿搜索智能体的高效方法。该方法基于三项关键数据合成改进:扩展知识图谱规模、增加工具集以及进行严格的低步数过滤。仅使用1.06万条数据训练的OpenSeeker-v2,在四个基准测试中均取得了领先性能,全面超越了采用复杂CPT+SFT+RL流程训练的同类模型。这是首个由纯学术团队仅通过SFT实现的、在同等模型规模与范式下的顶尖搜索智能体,其模型权重将开源以促进社区研究。
基础模型在自然语言处理中建立了统一表示,但表格数据领域仍待探索。现有方法存在根本限制:基于LLM的方法缺乏检索兼容的向量输出,而文本嵌入模型常无法捕捉表格结构和数值语义。为此,我们首先引入表格嵌入基准TabBench,以评估嵌入模型的表格理解能力;然后提出首个通用嵌入模型TabEmbed,将分类和检索任务统一到共享嵌入空间。TabEmbed通过将多样表格任务重构为语义匹配问题,利用大规模对比学习和正样本感知的困难负样本挖掘技术,捕捉细粒度结构与数值语义。实验表明,TabEmbed在TabBench上显著优于当前最先进的文本嵌入模型,为通用表格表示学习设立了新基准。相关代码和数据集已在GitHub和Hugging Face平台开源。
GitHub开源项目“llm-from-scratch”提供了从零开始训练大型语言模型的完整指南。该项目详细阐述了构建现代LLM所需的核心组件,包括分词器、Transformer架构、预训练与微调流程。指南强调通过实践理解模型内部机制,而非直接调用现有API。项目在Hacker News社区获得广泛关注,收获293点热度,反映出开发者对深入掌握LLM底层技术的强烈需求。
IBM近日发布了采用Apache 2.0许可证的Granite 4.1大语言模型系列。随后,Unsloth提供了该系列3B模型的21个GGUF量化变体。作者利用这些大小从1.2GB到6.34GB不等的量化模型,尝试生成“鹈鹕骑自行车”的SVG图像以测试其能力。实验结果显示,所有模型生成的图像质量均较差,且未观察到模型大小与输出质量之间存在明显关联。基于此次不理想的尝试,作者表示未来将选用更擅长图像生成的模型重新进行此类实验。
研究提出LIMEN框架,利用大语言模型引导进化,从原始模拟器状态自动生成完整的强化学习任务接口,包括观察映射和奖励函数。该方法将候选接口作为可执行程序进行迭代优化,并依据策略训练反馈进行改进。在离散网格世界及连续控制领域的测试表明,仅给定轨迹级成功指标,联合进化观察与奖励即可发现有效接口,而单独优化任一组件则在至少一个领域失败。这证明从原始状态自动构建接口能大幅减少人工工程,且观察与奖励的协同设计至关重要。
Redis创始人Salvatore Sanfilippo提交了为Redis新增数组数据类型的PR,引入了包括ARCOUNT、ARDEL、ARGREP等在内的18个新命令。其中最引人注目的是ARGREP命令,它利用新集成的TRE正则表达式库,可直接在服务器端对数组值进行正则搜索。目前该功能已在一个分支中实现,开发者Simon Willison借助Claude Code构建了一个交互式在线沙盒,通过运行在浏览器中的WASM版Redis子集,供用户体验这些新命令。Salvatore还撰文详细介绍了在AI辅助下开发此功能的历程。
加州大学圣地亚哥分校的研究团队在谷歌TPU上成功部署了DFlash,一种基于块扩散的推测解码方法。该方法突破传统自回归草稿生成的序列性瓶颈,通过单次前向传播并行“绘制”整个候选令牌块,而非逐个预测。系统平均实现了3.13倍的推理加速,峰值性能接近EAGLE-3等现有方法的两倍。这一开源方案已集成至vLLM生态系统,通过利用“免费”的并行验证能力和针对复杂推理任务的高质量草稿预测,显著优化了TPU硬件的利用效率。
关联讨论 1 条X:Berry Xia (@berryxia)基于开源模型和商用GPU的广告支持型AI在经济上可行。计算表明,一个由4块B200 GPU组成的集群服务300名用户时,每小时成本约18美元。通过广告收入即可覆盖成本:在内容网络中每3分钟展示一条广告(CPM 3.12美元),或在搜索广告中每39分钟展示一条(CPM 38.40美元),这一广告频率已与常见的移动和网页应用相当。对于代码代理等高强度任务,可采用混合盈利模式:用户每月支付10美元订阅费并每日观看8条广告,即可支持约200万token的用量,这证明了该模式的实用性。
红帽公司近日公布了名为 Tank OS 的开源项目,旨在通过容器化技术提升 OpenClaw 运行环境的安全性。该项目将 OpenClaw 封装在专用容器中,采用无 root 权限架构,以防止宿主系统权限被滥用。Tank OS 基于 Fedora Linux 和 fedora-bootc 技术构建,支持在同一设备上运行多个相互隔离的 AI 智能体实例,各实例间不共享凭据和系统资源。此外,系统采用不可变操作系统设计,内核、运行环境及服务均预定义在镜像中,文件系统大部分为只读,从而进一步增强安全防护。
Visual Studio Code 在提交信息中自动添加“Co-Authored-by: Copilot”标签,无论开发者是否实际使用了GitHub Copilot生成代码。这一改动由微软在GitHub的相关拉取请求中引入,引发了开发者社区的关注与讨论。该行为可能导致代码提交历史中出现不准确的贡献者信息,涉及开发工具伦理与透明度问题。相关话题在Hacker News上获得了超过130个讨论点数。
Meta 收购了机器人AI初创公司Assured Robot Intelligence,旨在加速其人形机器人研发进程。此次收购的核心目标是打造一个面向全行业的开放平台,其战略定位类似于Android在智能手机领域所扮演的角色。Meta计划通过这一平台,推动人形机器人技术的标准化与普及化发展。
Google Research强调通过开源软件和开放数据集推动现代科学发展,秉持负责任、包容和严谨的开放科学原则。其Transformer架构重塑了自动语言处理,专业模型正推动医学、基因组学、神经科学、气候与能源等跨学科领域的突破。团队通过API、学术出版物、会议及全球合作伙伴关系,构建协作生态系统,旨在加速全球科学进步与创新。
Radxa(瑞莎)将于5月30日在深圳与高通联合举办AI开发者日活动,主题为“AI共进·开源新生”。活动上将正式发布与飞牛深度合作的AI NAS产品,该产品基于高通平台。此外,瑞莎还将推出多款基于高通平台的新品,包括迷你主板、核心板和Cluster计算集群等,旨在为终端侧AI部署提供灵活可扩展的硬件支持。
研究提出LASE(语言对抗性说话人编码器),以解决多语言语音克隆中因发音文字不同导致的说话人身份漂移问题。现有编码器如WavLM和ECAPA-TDNN在跨文字切换时性能下降。LASE在冻结的WavLM-base-plus模型上增加小型投影头,结合监督对比损失和梯度反转的跨语言分类对抗损失进行训练,使编码消除语言信息的同时保留说话人特征。实验表明,在1118个跨文字语音对上,LASE将身份漂移降至接近零,并扩大与基线的差距2.4-2.7倍。在合成多说话人日记任务中,LASE仅用约百分之一训练数据即达到与ECAPA-TDNN相当的说话人召回率。研究同时发布了模型检查点、语料库和评估代码。
Zig 语言创始人 Andrew Kelley 反驳了“无法识别谁在使用 LLM”的常见误解。他指出,尽管可能未捕获所有由 AI 辅助的拉取请求,但人类错误与 LLM 的幻觉存在本质区别,使得后者易于识别。他进一步比喻道,习惯于使用 AI 代理编程的人带有一种“数字气味”,就像吸烟者进入房间时,不吸烟者能立刻察觉一样。Kelley 澄清自己并非反对使用 LLM,但明确禁止在 Zig 项目中使用 AI 辅助生成的代码。
Matt Webb提出,随着氛围编码加速应用开发,应用变得更个人化、场景化和高频次,发布工具或微应用更像写博客而非建网站。他期望有一个RSS订阅源,能聚合各类工具和应用页面,每个条目都带“安装”按钮。受此启发,作者使用Claude为自己的工具页面添加了Atom订阅源和图标,该页面内容来自其个人工具站点。这一实践指向了在应用开发轻量化、个人化的趋势下,通过订阅机制高效分享和发现微应用的新可能,其核心在于如何定义“安装”的目的地与实现方式。
安全平台 semgrep.dev 报告,在流行的 PyTorch Lightning AI 训练库中发现了名为“沙伊-胡鲁德”的恶意软件。该恶意代码通过库的依赖项进行植入,可能在使用受影响版本进行人工智能训练的项目中执行恶意操作。此事件在 Hacker News 上引发广泛讨论,获得了 111 点热度,突显了开源软件供应链的潜在安全风险。建议开发者立即检查并更新项目依赖,以防范此类供应链攻击。
腾讯发布了一款紧凑型开源 AI 翻译模型,其大小仅为 440 MB。该模型支持 33 种语言的互译,并能在智能手机上完全离线运行。腾讯声称,其性能超越了谷歌翻译。这一轻量化设计使得高质量的神经机器翻译无需依赖网络连接即可在移动设备上实现。
IBM开源了Granite 4.1系列模型,其80亿参数版本在性能上可与320亿参数的混合专家模型相媲美。这一突破表明,通过优化架构与训练方法,较小规模的模型也能达到更大模型的效能水平,为高效部署提供了新选择。该模型家族已开源,在开发者社区中获得关注,相关讨论在Hacker News上获得了超过100点热度。
Meta最新季度财报显示,其负责元宇宙业务的现实实验室部门单季度亏损高达40亿美元。自2021年以来,该部门在21个季度内累计亏损已达835亿美元,平均每季度亏损约40亿美元。与此同时,Meta正将战略重心转向人工智能,预计2026年资本支出将高达1250亿至1450亿美元,远超此前预期。尽管公司第一季度净利润达268亿美元,同比增长61%,但市场对其巨额投入和未来支出规划感到担忧,财报发布后盘后股价下跌超5%。