美团技术团队开源了数字人视频生成模型 LongCat-Video-Avatar 1.5。该版本在唇形同步、物理合理性、长视频稳定性和多人互动方面全面升级,支持复杂语音输入与多种主体。通过 DMD 蒸馏技术,推理效率提升约 15 倍,生成 10 秒视频仅需约 1 分钟。在性能评测中,模型在四个关键维度表现领先,用户偏好对比中胜率均超 54%,旨在推动数字人视频从技术演示走向商业应用。
关联讨论 1 条美团 LongCat:HuggingFace 新模型美团技术团队开源了数字人视频生成模型 LongCat-Video-Avatar 1.5。该版本在唇形同步、物理合理性、长视频稳定性和多人互动方面全面升级,支持复杂语音输入与多种主体。通过 DMD 蒸馏技术,推理效率提升约 15 倍,生成 10 秒视频仅需约 1 分钟。在性能评测中,模型在四个关键维度表现领先,用户偏好对比中胜率均超 54%,旨在推动数字人视频从技术演示走向商业应用。
关联讨论 1 条美团 LongCat:HuggingFace 新模型字节跳动开源了轻量级多模态模型Lance,其激活参数量为3B。该模型采用原生统一架构,在训练阶段即整合图像与视频的理解、生成及跨模态编辑功能。Lance通过双流专家设计和模态感知旋转位置编码等技术,平衡了理解任务所需的高层语义与生成任务所需的低层连续表示。模型训练共分四阶段,数据规模约1.9T标记,计算预算控制在128张GPU内。基准测试表明,Lance在图像生成、视频生成、图像编辑及视频理解等多项任务中表现突出。该模型权重已依据Apache 2.0协议开源。
DeepSeek正推进700亿元人民币的巨额融资,估值约450亿美元。创始人梁文锋承诺将继续开源开发AI模型,不追求短期商业化,目标是技术升级与通用人工智能。腾讯、IDG资本等接近参投,梁文锋个人可能注资200亿元。若成功将创下中国科技初创公司首轮融资纪录。
关联讨论 4 条X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)X:X.PIN (@thexpin)The Decoder:AI News(RSS)现有用于GPU内核生成的AI智能体测试基准与生产推理框架严重脱节。它们仅在单一GPU上使用合成输入评估内核,忽略了实际的编译技术栈,并奖励复现已知优化而非发现新方法。为此,我们提出FastKernels。它既是一个涵盖8个类别、46个代表性架构的内核基准(其内核覆盖了96.2%的HuggingFace Transformers架构),也是一个极简的生产级推理框架,性能与vLLM和SGLang等成熟系统相当。实验表明,最强的内核生成智能体在FastKernels上仅能实现0.94倍的整体加速,证实了基准与生产环境的错位是关键瓶颈。
加拿大AI公司Cohere以Apache 2.0许可证开源了其迄今最强语言模型Command A+。该公司宣称这是其最高性能的模型,此次开源标志着Cohere在开放AI生态中的重要布局。Command A+面向开发者与研究社区免费开放,旨在推动大模型技术的透明化与协同创新,为行业提供更高性能的基础模型选择。
腾讯混元正式开源新一代多语言翻译模型Hy-MT2,提供1.8B、7B、30B-A3B三种尺寸,支持33种语言及5种民族语言/方言互译。相比上一代,模型在指令遵循与专业领域翻译能力上显著提升。其中1.8B轻量模型仅需440MB存储,可部署于手机芯片进行本地推理,速度提升1.5倍。同步推出的腾讯Hy翻译小程序支持自定义风格、离线翻译,并开源了翻译指令遵循测试集IFMTBench,模型已上架GitHub、HuggingFace等平台。
关联讨论 1 条X:腾讯混元 (@TencentHunyuan)字节跳动智能创作实验室发布了Lance,这是一款开源的原生统一多模态模型。它能够在单一框架内,同时处理图像与视频的理解、生成和编辑三大任务。该模型仅需激活30亿参数,实现了用一个轻量级模型统一处理多种视觉内容创作与理解的需求。
研究发现,强化学习与可验证奖励训练大语言模型时,权重变化轨迹具有极低的秩且高度可预测,性能增益主要由秩-1逼近捕获,且随训练步骤线性演化。基于此,提出RELEX方法,仅需从短观察窗口估计秩-1子空间,通过线性外推预测后续检查点,无需学习模型。在多个模型上,RELEX仅需15%的完整训练步骤,即可在域内和域外基准上匹配或超越RLVR性能,并能以零额外成本外推至观察窗口的10-20倍,性能持续提升。成功源于秩-1投影实现的“去噪”效应,有效剔除随机优化噪声。
OpenHarmony 7.0 Beta1 已在 GitCode 平台现身,显示 API 版本更新至 26。同期,华为 HarmonyOS 也面向开发者开启了 API 26 版本的体验官招募,该版本与 OpenHarmony 7.0 Beta1 对应,被视为鸿蒙 7.0 的前期准备。根据规划,华为开发者大会 HDC 2026 将于 6 月 12 日至 14 日举行,预计届时发布 HarmonyOS 新版本。参照前两届大会发布 5.0 和 6.0 的惯例,本届大会有望推出鸿蒙 7.0 大版本。
研究比较了按时间顺序排列数据与传统打乱数据两种预训练方式,针对一个在6B参数模型上训练的实验。研究引入了包含超过7000个时间锚定问题的新基准。结果发现,时间有序预训练的模型在通用语言能力上与打乱预训练基线持平,但其知识更及时、时间定位更准确;打乱预训练则在旧数据上表现达到峰值。代码、模型检查点和数据集已开源。
在强化学习中,多时间尺度PPO虽旨在平衡短期与长期规划,但在复杂延迟奖励任务中盲目融合多时间信号会导致严重的算法问题。研究发现,将时间注意力路由机制暴露于策略梯度会导致替代目标劫持,而无梯度不确定性加权则会引发不可逆的短视退化。为此,研究提出Target Decoupling架构:Critic侧保留多时间尺度预测以辅助表征学习,Actor侧则严格隔离短期信号并仅基于长期优势更新策略。在LunarLander-v2环境中的实验证明,该架构无需超参数调整即可稳定超越解决阈值,消除策略崩溃并跳出局部最优。实验代码已开源:https://github.com/ben-dlwlrma/Representation-Over-Routing。
该教程演示了如何利用 kg-gen 工具,结合 LLM 与 LiteLLM 配置,从纯文本、对话及多源文档中提取实体、谓词和关系,并生成知识图谱。内容涵盖了从简单文本处理到使用分块与聚类技术应对长文本的进阶步骤,随后通过 NetworkX 进行图谱分析,并最终实现交互式可视化,为构建端到端的知识图谱生成流程提供了实践指南。
Stability AI正式推出Stability Audio 3.0 small模型,该模型可在用户设备本地运行,生成时长最高达两分钟的音乐音轨。与此前云端生成较长音频的方案不同,此次更新强调了模型的轻量化与端侧部署能力,降低了对云计算资源的依赖。
GoLongRL是一个全开源的长期上下文强化学习方案,聚焦于使用可验证奖励的强化学习。该工作提出了面向能力的数据构建方法,公开发布了包含23K样本的数据集、完整构建管线及训练代码。数据集依据长期上下文能力分类,涵盖9种任务类型,由真实文档生成的问答对构成;实验证明该数据集性能优于闭源的QwenLong-L1.5数据集。训练得到的Qwen3-30B-A3B模型在长期上下文任务上达到了与DeepSeek-R1-0528等先进模型可比的性能。此外,提出了TMN-Reweight多任务优化方法,通过任务级归一化和难度自适应加权,在提升平均性能的同时保持或增强了通用能力。
Datasette 生态下的 LLM 账户管理工具 datasette-llm-accountant 发布了 0.1a4 预览版。本次更新修复了一个关键问题,即追踪对话链(chains of responses)时存在的缺陷,相关修复可追溯至 datasette-llm#7 问题。该版本主要用于提升使用 Datasette 管理与分析大语言模型调用时的稳定性和准确性。
SciAtlas 是一个大规模、多学科、异构的学术资源知识图谱,旨在为自动化科学研究提供“认知地图”。它整合了26个学科的超过4300万篇论文,包含1.57亿实体和30亿三元组,构建了可打破学科壁垒的结构化拓扑认知底座。为克服现有检索工具缺乏拓扑推理能力的问题,其开发了具备三路协同召回和图重排序功能的神经符号检索算法,实现从语义匹配到确定性关联发现的过渡。应用方向包括文献综述、研究趋势综合、想法定位与学术轨迹探索,旨在以结构化方式赋能科研全流程并显著降低推理成本。相关接口已在GitHub开源。
5月22日,xAI宣布,其用户现可在开源个人助理OpenClaw中直接使用Grok模型。所有持有SuperGrok或X Premium订阅的用户均可使用该功能。OpenClaw是一个开源的、本地优先的智能助手,可在多种硬件上运行并保持跨会话记忆,同时能接入WhatsApp、Telegram等多款主流通讯平台。用户通过简单安装和登录,即可在自有设备上运行OpenClaw,并通过其界面或关联的聊天工具与Grok交互。此举进一步扩展了Grok的应用场景,未来还将推出更多开源代理与集成支持。
在2026年I/O开发者大会上,谷歌宣布推出AI电商通用购物车“Universal Cart”及相关协议。核心协议包括开源的通用购物车协议UCP(获亚马逊、Meta、微软等支持),旨在为智能体提供通用语言;以及智能体支付协议AP2,用于管理AI支付流程。该功能将于今年夏天在谷歌搜索、Gemini、YouTube、Gmail中上线,支持多场景添加商品、追踪优惠与历史价格,并具备智能推理能力,可检测兼容性并推荐替代品。
地平线机器人实验室发布了其开源的人形机器人全身控制模型 HoloMotion-1。这是一个拥有 4 亿参数的“小脑”大模型,通过 MoE 稀疏激活与 KV-cache 推理机制,在端侧实现了约 300FPS 的实时推理能力。该模型利用互联网视频、光学动捕、VR 遥操作等多种来源的动作数据进行训练,并在真实机器人上成功展示了舞蹈、爬行、健身、搬箱子等复杂动作的零样本迁移能力。相关代码与技术报告已公开。
月之暗面旗下AI助手Kimi正在进行20亿美元新融资,国智投、中国移动等国资机构及央企已加入股东名单,该轮融资已进入收尾阶段。今年1月和2月,Kimi已密集完成3轮融资,累计融资超39亿美元(约376亿元人民币),最新估值相比去年11月已翻4倍有余,成为大模型创业公司中融资最多的企业。产品层面,基于Kimi K2.5模型的Composer 2.5已集成至编程应用Cursor,公司近期也发布了开源模型Kimi K2.6。
过去六个月,大语言模型领域发生了显著变化,尤其以2025年11月为关键转折点。在该月,被称为“最佳”的模型主导权在Anthropic、OpenAI和Google之间五次易手,先后经历了Claude Sonnet 4.5、GPT-5.1、Gemini 3等模型的快速迭代。同时,编码智能体技术取得突破,从“时常可用”跃升至“基本可用”,能够稳定执行实际开发任务,这标志着整个领域的应用成熟度得到显著提升。
阿里云峰会将于5月20日举行。千问大模型官方发布预热海报,透露将有一位“重量级新朋友”亮相,其特点是“更全能、更强大、有深度、有广度”。结合海报中的吉祥物元素,预计本次将公布Qwen系列大模型的最新重要成果。此前,Qwen 3.7-Max-Preview和Qwen 3.7-Plus-Preview版本已率先在相关平台上线,有望在峰会上正式发布。
针对医学图像分割中的类别不平衡问题,本研究将少样本学习中的情景采样引入全监督训练,以构建类别均衡的批次。研究在公开的SAROS数据集上,对比了情景采样、随机采样和加权采样在分割9种肌肉与脂肪组织时的表现。在低数据场景下,情景采样的平均Dice系数达到0.787,优于随机采样(0.758)和加权采样(0.762),主要原因是其训练迭代次数多出12倍。研究关键发现是,训练迭代预算本身是影响采样策略评估的重要混淆因素;情景采样能多训练约三倍的迭代次数才趋于稳定,表明类别均衡批次具有隐式正则化效应,为不平衡任务提供了一种低成本的通用策略。
时间序列基础模型Toto 2.0正式发布,这是一组五个开源权重的预测模型。研究表明,在400万至25亿参数范围内,采用统一训练方案的模型预测质量能持续可靠提升。该模型家族在三大预测基准测试中创下新纪录,包括其可观测性基准BOOM、通用基准GIFT-Eval以及抗污染的TIME基准。所有五个基础模型检查点均基于Apache 2.0协议开放发布。
针对长上下文与多模态大语言模型中KV缓存内存占用高的瓶颈,本文提出了OScaR压缩框架。研究发现,传统逐通道量化在极端压缩下受限于“令牌范数不平衡”问题。OScaR通过“渠道化旋转”与“全令牌缩放”两项轻量技术,有效缓解了该不平衡带来的量化误差,无需复杂流程。在多种大模型上的实验表明,OScaR在INT2量化下可实现近乎无损的性能,相比基准解码速度提升最高达3.0倍,内存占用减少5.3倍,吞吐量增加4.1倍,为极致KV缓存压缩提供了高效通用方案。
一个团队利用 Git 的 --author 参数,成功阻止了 GitHub 仓库中的 AI 机器人垃圾信息,并在博客中分享了这一方法的具体实现,展示了其在实践中有效遏制自动化垃圾提交的效果。
AI漏洞挖掘工具的广泛应用导致Linux安全邮件列表收到的自动提交漏洞报告数量激增,使其“几乎难以管理”。具体数据显示,该邮件列表每周收到约100封邮件,其中大部分为自动化生成的报告,真正需要核心维护者关注的漏洞仅占少数。这种变化反映了安全研究自动化对开源社区协作模式带来的新挑战。
Linus Torvalds 发布 Linux 7.1 第四个候选版本,并批评 AI 工具导致大量重复 bug 报告,使安全列表难以管理。他强调开发者应直接提交修复方案,而非仅报告问题,以减少不必要工作。Linus 表示自己过去20年更多担任技术维护者,AI 只是工具,不会替代程序员。
SAGA是一种基于解码器专用Transformer的序列自适应生成模型,专为处理不规则表格面板数据的时序预测而设计。它结合分割保形校准方法,为个体提供具有有限样本覆盖率保证的预测区间。模型使用瑞典1990年至2022年的纵向登记数据训练,涵盖超214万个体与6100万人次年记录,可预测未来1至30年的年度劳动收入,并通过蒙特卡洛方法聚合为折现终身收入分布。相比传统参数化过程及基线模型,SAGA在十年期预测的连续排序概率评分降低31.9%,二十年期平均绝对误差降低37.7%。其保形区间覆盖率误差不超过0.4个百分点,重构的终身收入基尼系数为0.327,接近实际值0.341,优于GKOS估计的0.378。相关模型与数据已公开以供复现。
针对英国国家医疗服务体系(NHS)为应对“玻璃翼项目”漏洞而关闭开源代码库的决定,英国政府数字服务署(GDS)于5月14日发布指南,明确提出“默认保持开放”的核心建议。指南虽未直接点名NHS,但被普遍视为对此事的公开回应。GDS指出,将代码全面私有化会增加成本,并削弱代码复用与审查。这一官方表态被解读为罕见的内部争议公开化信号,标志着围绕公共部门开源策略的讨论已升级。
奥地利开发者彼得・施泰因贝格尔披露,其领导的OpenClaw项目在30天内消耗OpenAI API费用高达130万美元,涉及760万次请求和6030亿词元。这笔费用由约100个Codex实例产生,用于自动化代码审核、漏洞修复等任务。施泰因贝格尔解释,这是“极速模式”下的结果,关闭后成本可降至约30万美元。该实验旨在无预算约束下探索AI辅助软件开发的极限,所有成果保持开源。
作者为准备PyCon US闪电演讲,使用first_line_history.py工具追溯了OpenClaw项目自2025年11月首次提交以来的名称演变。根据Git历史记录,该项目在短短两个多月内经历了六次更名:从最初的Warelay,依次变为CLAWDIS、CLAWDBOT、Clawdbot、Moltbot,最终定名为OpenClaw。其定位也从基于Twilio的WhatsApp中继命令行工具,逐步演变为支持WhatsApp和Telegram的AI代理网关,最终定型为“个人AI助手”。
本月开源AI模型领域迎来密集发布,包括Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5和GLM-5.1等一系列重要新版本。这些模型均在CAISI的V4评估框架下进行了性能评测。多个团队几乎同期推出旗舰级更新,反映出开源社区当前高速迭代的竞争态势。
NVIDIA研究团队发布了SANA-WM,这是一个参数规模达26亿的开源世界模型,专门用于生成长达1分钟、分辨率为720p的视频。该模型已在GitHub页面开源,旨在推动高质量长视频生成的研发。其在Hacker News社区获得了107点热度,显示出业界对该技术进展的关注。
蚂蚁集团百灵大模型开源了面向复杂任务的万亿级思考模型 Ring-2.6-1T。该模型创新性地引入了可调节推理强度机制,提供 high 和 xhigh 两种模式。high 模式适用于高频 Agent 工作流,具有低 Token 开销和快速多步执行能力,适合多轮交互与工具协作;xhigh 模式则为数学、科研及复杂逻辑分析等高难任务提供更充分的思考深度。开发者可根据任务需求灵活选择,以平衡效果、速度与成本。模型已在 Hugging Face 和 ModelScope 平台开放。
AgentKernelArena是一个开源基准平台,专门用于系统评估AI编程代理在GPU内核优化任务上的能力。平台包含196个任务,涵盖HIP到HIP、Triton到Triton优化以及PyTorch到HIP翻译三大类。它采用隔离工作空间和分级评估(编译、正确性、性能)来测试代理的完整工作流,并创新性地引入了“未见配置”泛化测试。基准测试发现,主流AI代理在大多数任务上能近乎完美地编译和正确完成,并在PyTorch到HIP任务上实现高达6.89倍的平均加速。然而,泛化测试显示,从零生成内核的代理(PyTorch到HIP)在新配置下正确率显著下降,表明其常固化特定形状假设。该平台为严谨评估不同代理、任务和硬件目标提供了模块化框架。
xAI宣布,用户现可将Grok订阅账户接入Nous Research的开源自改进智能体Hermes Agent。该集成对所有订阅层级开放,允许用户在Hermes环境中直接使用Grok 4.3进行文本对话与高级推理、调用其文本转语音功能生成语音回复,并利用Grok Imagine创建图像与视频。Hermes Agent可持久运行于电脑、沙盒或VPS,具备跨会话长期记忆能力,并能连接WhatsApp、Discord等通讯平台。用户通过安装Hermes Agent并选择Grok提供商即可完成配置。
GGUF 文件格式在存储机器学习模型权重的基础上,还包含了模型架构、超参数配置、分词器信息等关键元数据,提升了模型部署的便利性。然而,该格式目前仍缺乏标准化验证工具、完善的版本控制机制以及跨平台兼容性支持,限制了其广泛应用。文章在 Hacker News 上获得 101 点关注,反映了开发者对模型格式标准化与改进的持续讨论。