5月21日

13:10

HuggingFace Daily Papers（社区热门论文）

针对多模态大语言模型在工业异常检测中因领域错配与幻觉推断导致的性能瓶颈，本文提出了IndusAgent框架。该框架构建了整合多尺度视觉信息与专家知识的结构化数据集，并通过动态调用外部工具（如动态裁剪、特征增强）主动解析视觉模糊。引入门控强化学习联合优化分类、定位与工具使用效率，在五个工业基准测试中实现了零样本性能的最先进水平，展现出优异的泛化能力。

智能体多模态数据/训练论文/研究

12:10

HuggingFace Daily Papers（社区热门论文）

iTryOn：基于空语义引导的交互式视频虚拟试穿技术

本文提出交互式视频虚拟试穿新任务，针对现有方法仅限于非交互展示的局限。新任务要求主体在视频中主动与服装互动，面临从标准姿势解析语义模糊性，以及从稀疏互动视频中学习复杂形变两大挑战。为此，我们推出iTryOn框架，基于大规模视频扩散Transformer，设计多级交互注入机制：空间层面引入服装无关的3D手部先验，精确引导手-服装接触；语义层面通过全局描述与时间戳动作描述协同，并借助动作感知旋转位置嵌入进行时序同步。实验表明，该方法在传统基准达到最优性能，并在交互场景中取得显著优势。

多模态视频论文/研究

11:09

HuggingFace Daily Papers（社区热门论文）

Uni-Edit：智能编辑作为统一模型微调的通用任务

当前，统一多模态模型通过混合多任务训练来提升图像理解、生成和编辑能力，但任务冲突导致需要复杂多阶段流程和大量数据平衡，仅实现性能折衷而非协同增强。为此，研究提出Uni-Edit，一种智能图像编辑任务，作为统一模型微调的首个通用任务。Uni-Edit只需单一任务、单一训练阶段和单一数据集，就能同步提升模型的三种核心能力。研究团队开发了首个自动化、可扩展的智能编辑数据合成流程，将多样化的VQA数据转化为嵌入问题与嵌套逻辑的复杂编辑指令，生成包含14.8万条数据的Uni-Edit-148k数据集。在BAGEL和Janus-Pro模型上的实验证实，仅基于Uni-Edit进行微调，即可全面增强模型的图像理解、生成和编辑能力，无需任何辅助操作。

arXiv 图像生成多模态数据/训练

11:09

HuggingFace Daily Papers（社区热门论文）

DrawMotion：通过手绘生成3D人体动作

该研究提出了DrawMotion，一个基于扩散的多条件动作生成框架，旨在解决传统文本到动作生成中用户意图表达不精确的问题。该框架支持文本与手绘两种控制条件，分别提供语义和空间引导。技术上，它通过算法自动生成手绘火柴人草图、设计多条件融合模块以降低计算复杂度，并利用无训练引导方法将生成动作与用户意图对齐。实验表明，手绘方式能将用户生成符合想象的动作所需时间缩短约46.7%。相关代码与演示已开源。

GitHub 多模态论文/研究

10:58

IT之家（RSS）

绿联推出 NAS 新品 DXP4800 GT：双万兆网口，起价 2681.1 元

绿联今日正式发布NAS新品DXP4800 GT。该设备搭载AMD锐龙嵌入式R2514四核处理器，提供4个3.5英寸盘位（其中2个支持U.2）与2个M.2 NVMe插槽。其突出特点是配备双10GbE万兆网口，支持聚合或桥接。内存最高可选16GB DDR4（支持ECC），并集成64GB闪存。软件方面支持Docker与虚拟机，搭载相册2.0应用，并首次内嵌MiniMax大模型。产品售价2681.1元起。

产品更新多模态端侧

10:09

HuggingFace Daily Papers（社区热门论文）

UniT：基于群自回归Transformer的统一几何学习

UniT是一个统一几何感知模型，旨在将在线感知、离线重建、多模态整合等分散能力整合到单一框架。其核心是群自回归Transformer，将传感器观测组作为基本单元，通过改变组大小，在同一过程中自然统一在线（多步单帧组）与离线（单步多帧组）模式。为处理长序列，模型采用队列式KV缓存机制，并利用无锚点关系建模来丢弃过时记忆。此外，模型引入尺度自适应几何损失以增强跨场景的尺度泛化能力。在多个任务的基准测试中，UniT实现了统一几何感知的最先进性能。

具身智能多模态论文/研究

08:58

IT之家（RSS）

苹果 Apple Music 称 AI 音乐播放占比不到 1%，不封杀但要求清晰标注

苹果 Apple Music 发布公开信，明确表示不会封杀 AI 生成音乐，但要求相关内容必须清晰标注，且不得误导用户或冒充真人创作者。苹果指出，AI 音乐在平台总播放量中的占比“明显低于 1%”，但已进入治理范围。为此，Apple Music 于今年 3 月上线了 AI 内容标签功能，并计划未来将其作为所有内容提供方的硬性要求。同时，苹果已开发内部工具识别 AI 内容，重点防范欺诈、垃圾信息及冒充行为，若发现播放量存在流量操纵等滥用行为，将自动下架相关歌曲。

多模态行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

EMMA：从多模态数据中提取多个物理参数

EMMA是一个物理信息多模态框架，能从原始视频、音频和图像时间序列中直接恢复系统所有可识别的动力学参数。它利用Liquid Time-Constant网络从异质模态学习潜在动力学，并通过物理约束损失确保与微分方程一致。在超过100个场景（包括五个标准动力学基准、75段Delfys视频、真实世界轮式机器人和四旋翼系统）中，EMMA实现了稳健的多参数恢复，显著优于现有单模态和方程发现基线。代码与数据已开源。

arXiv 具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

感知的代价：在整体框架内实现可信的多模态推理

当前视觉语言模型常出现“功能性失明”，即利用强大的语言先验绕过视觉表征瓶颈，而非真正融合多模态信息。本研究挑战了依赖数据消融的传统评估方法，提出了信息论框架下的“模态翻译协议”来量化“感知的代价”。该方法定义了三个新指标（Toll, Curse, Fallacy）与语义充分性准则。研究还假设存在多模态缩放的“分歧定律”：随着语言模型推理能力增强，视觉知识瓶颈带来的性能惩罚可能不降反升。这为构建更可信的多模态推理系统提供了新的评估工具与设计思路。

arXiv 多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

VGenST-Bench：一个基于主动视频合成的时空推理基准

VGenST-Bench 是一个用于评估多模态大语言模型时空推理能力的新基准，采用生成模型主动合成高度可控的多样化评估场景，克服了现有基准依赖静态图像或被动视频数据的局限。该基准通过包含人类质检阶段的多智能体流水线构建，建立了涵盖空间尺度、视角和场景动态性的 3x2x2 视频分类体系。其设计的层级任务套件，解耦了低级视觉感知与高级时空推理，实现了对模型能力的细粒度诊断。

多模态视频论文/研究评测/基准

07:56

IT之家（RSS）

微信鸿蒙版 App 8.0.17.39 正式版更新发布

微信鸿蒙版App发布了8.0.17.39正式版更新，当前安装量已超5565万次。本次更新主要增强了视频号功能，包括资料修改、新注册支持、播放旋转及直播选项增加等。同时优化了“听一听”模块，新增AI写歌与灰度测试的会员卡、跨平台文件传输等功能，并改进了聊天界面交互与朋友圈评论体验。

智能体产品更新多模态语音

07:56

IT之家（RSS）

精选78

腾讯张军官宣操作系统层级 AI 助手"马维斯"正式上工，Windows、Mac、安卓端同步上线

腾讯于5月21日发布了操作系统层级AI助手“马维斯”，支持Windows、Mac和安卓平台同步上线。该助手具备文档归类解析、图片智能识别处理、系统维护等功能，并强调与操作系统深度集成，可调度不同模型处理任务，部分功能可在离线状态下使用。腾讯表示“马维斯”能完成市面主流Agent的大部分工作，并具备桌面操控手机应用等能力。这是继3月WorkBuddy和“龙虾”产品矩阵后，腾讯推出的又一AI助手产品。

智能体产品更新多模态端侧

推荐理由：腾讯把 AI 助手压到系统层，预装本地模型、拔网线也能跑，不是又一个套壳工具，而是真正冲着‘电脑变成可对话对象’去的，值得装上看看实操体验。

03:50

Google Blog：AI（RSS）

同事件精选68

我们在 I/O 2026 发布的 100 件事

在 Google I/O 2026 开发者大会上，公司共发布了 100 项内容，重点介绍了 Gemini Omni、Google Antigravity 和 Universal Cart 等新产品的核心亮点。

Google 产品更新多模态

同一事件，精选展示《Gemini 3.5：具备行动能力的前沿智能》

推荐理由：I/O 今年还是全场景轰炸，Gemini Omni 加一堆新产品，花十分钟扫一眼，未来半年 AI 要替你做哪块活就清楚了。

00:41

The Verge：AI（RSS）

你现在可以用AI混剪别人的YouTube Shorts了

Google为YouTube Shorts推出了一项基于Gemini Omni的AI混剪功能。用户可在短视频界面点击“Remix”并选择“reimagine”选项，通过输入文字提示，将原视频转换为像素艺术、动漫或恐怖片风格，还能通过AI调整内容，例如替换服装、插入背景人物甚至将自己合成进视频。该功能允许创作者自主选择开启或关闭其视频的混剪权限。

Google 产品更新多模态视频

00:08

HuggingFace Daily Papers（社区热门论文）

基于时空注意力链的快速4D网格生成

该研究提出一种无需训练的4D网格生成新方法，通过“时空注意力链”框架实现动态三维结构的快速重建。方法从锚定网格顶点出发，在潜在空间中追踪时间对应关系，避免了显式匹配的高计算成本。实验显示，新方法仅需9秒即可生成4D网格，速度比现有最优方法提升13倍且质量更优，还能处理长达16倍的视频序列而不降低质量。改进的对应关系使其在2D物体跟踪和4D跟踪任务中达到有竞争力的零样本性能，并首次在4D网格生成中实现了可靠的相机参数估计。

多模态视频论文/研究

5月20日

23:56

IT之家（RSS）

精选71

Stability AI 推出音频模型 Stability Audio 3.0，可生成最长 6 分钟专业级歌曲

Stability AI 推出 Stability Audio 3.0 音频生成模型家族，包含四款不同规格模型，参数从45900万到27亿。小型模型专注设备端运行，可本地生成两分钟以内的音频；中型和大型模型支持创作超过6分20秒的完整音乐，

多模态开源/仓库模型发布

推荐理由：Stability Audio 3.0 把AI音乐从几十秒的demo拉到了六分钟的完整歌曲，而且中小模型直接开源，任何一个能跑模型的设备都能玩，音乐创作的门槛继续被踩低。

23:03

The Decoder：AI News（RSS）

Stability AI 发布 Stable Audio 3.0，支持长达六分钟音轨并开放权重

Stability AI正式推出Stable Audio 3.0音频生成模型套件。该系列包含三个已开放模型权重的版本，能够生成最长六分钟的连贯音乐音轨。公司强调，所有模型均完全基于授权音乐数据集进行训练，确保了生成内容的合规性。此次发布标志着在AI音乐生成领域的技术进步，为音乐创作者和开发者提供了更长时长、更开放可用的工具。

多模态模型发布

23:00

TechCrunch：AI（RSS）

Stability AI发布可生成6分钟音频的新模型

Stability AI正式推出Stability Audio 3.0 small模型，该模型可在用户设备本地运行，生成时长最高达两分钟的音乐音轨。与此前云端生成较长音频的方案不同，此次更新强调了模型的轻量化与端侧部署能力，降低了对云计算资源的依赖。

多模态开源生态模型发布

22:08

HuggingFace Daily Papers（社区热门论文）

用于高效全能模态大语言模型的阶段自适应Token选择

全能模态大语言模型在处理交织的视频与音频token时，固定比例的剪枝方法无法适应跨模态重要性随网络深度的动态变化。为此，本文提出无需训练的阶段自适应token选择方法SEATS。该方法在模型输入前通过注意力加权进行去冗余，在模型内部逐层动态分配模态保留配额，并在跨模态融合完成后移除所有剩余非文本token。实验在Qwen2.5-Omni和Qwen3-Omni模型上验证，仅保留10%的视觉和音频token，即可实现9.3倍FLOPs削减与4.8倍预填充加速，同时保持96.3%的原始性能。

arXiv Hugging Face 多模态推理

21:00

TechCrunch：AI（RSS）

Figma为其协作画布添加AI助手

Figma推出一款新的AI助手，用户可通过自然语言文本提示与之交互。该助手能够根据指令生成全新设计、编辑现有设计，并实现诸如为现有设计生成迭代版本等任务的自动化处理。

智能体产品更新多模态

19:56

IT之家（RSS）

谷歌高管从Google Glass失败中总结：时尚比技术更重要

在2026年谷歌开发者大会上，谷歌发布了新一代Android XR智能眼镜。谷歌安卓生态系统总裁萨米尔·萨马特总结认为，早期Google Glass项目未能普及的最大教训是外观时尚远比技术吸引力更重要。他指出，Meta与时尚品牌合作的智能眼镜自2023年面世以来销量已突破700万台，印证了这一观点。为此，谷歌此次携手Warby Parker和Gentle Monster等知名眼镜品牌，推出注重实用与颜值的纯语音版智能眼镜，预计今年秋季上市。搭载显示屏的版本则计划于明年推出，并将借助Gemini大模型承担核心功能。

Google 多模态大佬观点端侧

19:33

The Decoder：AI News（RSS）

Google 将 Genie 世界模型与街景结合，基于真实地点创建可探索的 AI 世界

Google DeepMind 将其 Genie 3 世界模型与多年积累的街景图像数据相结合，推出了一项新功能。用户现在可以在地图上指定一个真实地点，系统便能生成一个基于该地点的、可供行走和探索的 AI 生成世界。这一整合不仅为创意演示提供了强大工具，更重要的是，海量的街景数据成为了训练 AI 代理和机器人的重要战略资源，为人工智能在模拟现实环境中的交互与导航能力开辟了新路径。

DeepMind Google 产品更新具身智能

18:41

MarkTechPost（RSS）

英伟达AI发布Nemotron-Labs-Diffusion：单次前向传播生成Token数较Qwen3-8B提升6倍的三模式语言模型

英伟达发布了Nemotron-Labs-Diffusion语言模型家族，其核心创新在于将自回归、基于扩散的并行解码以及自推测解码三种解码模式统一于单一架构。该模型提供3B、8B和14B三种参数规模，并包含基础版、指令微调版和视觉语言版本。相较于Qwen3-8B，其8B参数版本在单次前向传播中能够生成多达6倍的Token数量，显著提升了吞吐效率。

多模态推理模型发布

16:09

MarkTechPost（RSS）

阿里巴巴 Qwen 团队推出 Qwen3.5-LiveTranslate-Flash：实时多模态翻译模型支持60种语言

阿里巴巴 Qwen 团队发布了实时多模态翻译模型 Qwen3.5-LiveTranslate-Flash。该模型能同时处理音视频输入，支持60种语言的输入和29种语言的语音输出，端到端延迟低至2.8秒。相比前代，新增了实时说话人声音克隆、通过唇语和屏幕文字增强视觉理解，以及动态配置领域专业术语等能力。在 FLEURS 和 CoVoST2 基准测试中，性能超越主流商业模型。目前仅以 API 形式通过阿里云百炼平台提供服务，采用 WebSocket 协议通信。

多模态模型发布语音

15:56

IT之家（RSS）

AI 同传 2.8 秒延迟，阿里通义千问发布实时语音翻译模型 Qwen3.5-LiveTranslate

阿里通义千问团队发布了Qwen3.5-LiveTranslate-Flash实时语音翻译模型。该模型将支持的音频输入与文字输出语种从18种大幅提升至60种，输出音频语种从10种增加至29种。通过采用新的流式翻译技术，端到端字均延迟降低至2.8秒，同时支持实时音色克隆以保留说话人原声特征，并内置动态热词引擎以提升专业术语翻译准确性。模型在多个公开基准测试中表现优于前代及主流模型。

多模态模型发布语音

13:53

公众号：通义实验室（千问）

Qwen3.5-LiveTranslate 发布：开口即同传

通义实验室（千问）发布 Qwen3.5-LiveTranslate，实现“开口即同传”——用户说话的同时即可获得翻译结果，支持实时语音同声传译。目前尚未公布模型参数规模、benchmark 分数、上下文长度等具体技术细节。

多模态模型发布语音

12:55

IT之家（RSS）

XREAL 确认 Project Aura 智能眼镜年内出货，搭载安卓 XR 与 Gemini AI

在2026年谷歌I/O开发者大会上，XREAL展示了基于安卓XR系统的Project Aura智能眼镜，并确认产品将于2026年底前出货。眼镜采用分离式设计，配备外接计算模块兼触控板，整机重量低于90克。硬件搭载自研X1S芯片和高通骁龙XR平台，通过三个摄像头实现手势控制。系统原生运行谷歌空间应用，支持Google Maps 3D导航和YouTube沉浸式视频播放，并集成Gemini AI以将2D应用自动转换为3D窗口。当前版本续航约4小时，但软件功能尚未完全就绪，最终规格可能调整。

产品更新多模态端侧

11:55

IT之家（RSS）

国外红绿灯也能预测：高德红绿灯倒计时宣布出海，将逐步覆盖全球

产品更新多模态推理

11:05

HuggingFace Daily Papers（社区热门论文）

SceneCode：面向可编辑带关节物体室内场景的可执行世界程序

现有室内场景合成方法常生成静态网格，难以按需创建新的可交互物体。SceneCode框架提出将自然语言提示词“编译”为可执行的程序化世界。其核心流程包括：通过规划-设计-批评循环生成对象资产请求，经五种代码生成策略转化为分部件的Blender Python程序，并通过修复-优化循环进行验证。生成的程序可编译为仿真就绪资产，并导出SDF格式。该框架通过场景状态注册表实现可追溯的本地化编辑。实验表明，SceneCode提升了场景生成与提示词的一致性，产生了网格结构更清晰、包含可加载关节元数据的资产。

具身智能多模态论文/研究

11:05

HuggingFace Daily Papers（社区热门论文）

MSAVBench：迈向全面可靠的多镜头音视频生成评估

本文提出MSAVBench，首个面向多镜头音视频生成的综合评估基准及自适应混合评估框架。该基准覆盖视频、音频、镜头和参考四个维度，支持最多15个镜头的多样化任务设置。评估框架通过镜头分割自适应校正、主观指标实例化评分等机制提升鲁棒性，并与人类判断达到91.5%的高相关性。对19个先进模型的系统评估表明，当前模型在导演级控制和精细音视频同步上仍存在瓶颈，而模块化或智能体生成流程为缩小开源与闭源模型差距提供了可行路径。

多模态视频论文/研究评测/基准

09:55

IT之家（RSS）

微信AI团队模式识别中心论文首获ICASSP最佳工业论文奖

2026年5月，微信AI团队模式识别中心的论文《Less Redundancy: Boosting Practicality of Vision Language Model in Walking Assistants》在西班牙巴塞罗那举办的ICASSP 2026上荣获最佳工业论文奖。这是该奖项自2016年设立以来首次颁给中国企业团队。论文提出的WalkVLM-LR模型专为视障人士行走辅助设计，其核心创新在于减少输出与时间冗余，优化了视觉语言模型的提醒时机。目前模型延迟控制在百毫秒量级，实时性较为可用，但距离实际落地应用仍需进一步优化。

多模态端侧论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Flat-Pack Bench：通过家具组装任务评估大型视觉语言模型的时空理解

现有大型视觉语言模型基准测试主要关注粗粒度任务，且依赖易于语言描述的实体。为此，研究者提出了Flat-Pack Bench，这是一个专注于家具组装任务的新基准，旨在评估模型的细粒度时空理解能力。该基准采用选择题与视觉提示的形式，考察模型在组装动作排序、状态定位、部件匹配理解与追踪等方面的表现。实验表明，最先进的模型在此类细粒度推理任务上表现欠佳，暴露出其在利用视频时序信息、进行目标追踪以及理解物理空间交互方面的不足。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AutoRubric-T2I：用于文本-图像对齐的基于规则的鲁棒奖励模型

本研究针对现有文本-图像生成模型奖励模型训练成本高、评估标准不透明的问题，提出了首个自动评规学习框架AutoRubric-T2I。该框架能够自动合成并筛选明确的评分规则，以指导视觉语言模型评判者。其核心方法在于从偏好对中合成为候选规则，并通过带L1正则化的精炼器筛选出最具区分性的规则。实验表明，该框架仅需不到0.01%的标注数据即可生成高质量且可解释的奖励信号，在多个基准测试中性能优于强基线，并能有效提升下游生成任务的质量。

图像生成多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PhysX-Omni：面向刚体、可变形体与关节化体的统一模拟就绪物理3D生成框架

针对现有3D生成方法在物理属性与对象类别上的局限，本文提出PhysX-Omni，一个统一的模拟就绪物理3D生成框架，可支持刚体、可变形体和关节化体等多种资产类型。框架核心是设计了一种专为视觉语言模型优化的高效几何表示方法，能够无压缩地直接编码高分辨率3D结构，从而显著提升生成质量。同时，研究构建了首个大规模通用模拟就绪3D数据集PhysXVerse，并提出了一个涵盖几何、尺度、材质、可供性、运动学与功能描述六大属性的综合评估基准PhysX-Bench。大量实验表明，PhysX-Omni在3D生成与理解任务上均取得了优异性能，并验证了其在模拟场景生成和机器人策略学习等下游任务中的应用潜力。

具身智能多模态论文/研究

07:55

IT之家（RSS）

谷歌酝酿 Gboard 输入法升级，能根据上下文提供高情商回复

谷歌正在测试 Gboard 输入法的三项新 AI 功能，包括自定义提示词输入框、根据描述起草完整内容以及支持读取屏幕上下文或对话内容以提供更贴合语境的回复建议。此次升级标志着 Gboard 的 AI 能力从固定的润色、改写预设，转向更灵活的个性化写作辅助。新功能将允许用户以自然语言指令（如“让语气更幽默”）直接定制文本风格，并可能结合图库截图等屏幕信息自动组织回复。

Google 产品更新多模态

06:29

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选72

OpenAI 采用谷歌的 SynthID 水印技术，并为 AI 生成的图像配备了验证工具

OpenAI宣布在其AI生成的图像中集成谷歌的SynthID水印技术，并推出配套的验证工具。这一举措旨在增强AI生成内容的可追溯性，使用户能够识别图像是否由AI生成。该更新已于2026年5月19日生效。SynthID水印技术此前由谷歌开发，可嵌入难以察觉的数字标识，而新验证工具则允许用户检测这些标识。OpenAI表示这将帮助打击虚假信息传播。

Google OpenAI 产品更新多模态

同一事件，精选展示《SynthID水印技术扩展合作，覆盖超千亿内容》

推荐理由：OpenAI与谷歌联手把内容溯源从单薄的水印升级为多层信号，还放了公开验证工具，记者和平台审核员现在有了更实在的抓手。

04:29

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选80

Gemini Omni

Google DeepMind 于 2026 年 5 月 19 日发布了新一代多模态大模型 Gemini Omni。该模型整合了文本、图像、音频与视频的理解与生成能力，旨在实现更自然的人机交互。在同期 Hacker News 讨论中获得 112 点赞，显示出技术社区对多模态融合趋势的持续关注。这标志着大模型从单模态向全模态感知与响应能力的进一步演进。

多模态模型发布视频

同一事件，精选展示《Gemini 3.5：具备行动能力的前沿智能》

推荐理由：Gemini Omni 把视频编辑变成自然语言对话，多轮编辑和物理理解让它从玩具变成创作工具，做视频的值得一试。

04:25

Google Developers Blog（RSS）

使用LiteRT-LM在设备上实现闪电般的快速生成式AI

Google AI Edge推出LiteRT-LM引擎，为跨平台移动和边缘设备提供高度优化的基础设施，支持Gemma 4模型在设备端运行。通过内存高效动态加载和多令牌预测技术，实现高达2.2倍的速度提升，并集成思维模式、约束解码等高级工具。同时，该引擎正扩展至Apple生态，新增原生Swift API和WebGPU加速的JavaScript API，支持高性能浏览器端推理。

Google 产品更新多模态端侧

04:04

HuggingFace Daily Papers（社区热门论文）

WavFlow：波形空间中的音频生成

WavFlow挑战了音频生成依赖潜空间压缩的范式，提出了一种直接在原始波形空间生成高保真音频的框架。为解决高维信号建模难题，方法将音频重塑为二维令牌网格并引入幅度提升，结合流匹配的直接预测实现稳定优化。通过自动化管线构建500万高质量三元组数据集，模型从零学习细粒度声学特征。实验显示，WavFlow在视频到音频（VGGSound）和文本到音频（AudioCaps）基准上达到与主流潜空间方法相当甚至更优的性能，证明了中间压缩并非必要，为多模态音频生成提供了更简洁可扩展的路径。

arXiv 多模态论文/研究语音

02:59

Hacker News 热门（buzzing.cc 中文翻译）

Gemini 3.5 Flash：前沿智能，即刻行动

谷歌于2026年5月19日发布了Gemini 3.5 Flash模型，这是Gemini系列的最新版本，主打“前沿智能，即刻行动”。该模型强调高效的实时响应与处理能力，适用于需要快速决策的场景。该发布在技术社区Hacker News上获得了116分的关注度，显示出开发者对其性能与应用潜力的浓厚兴趣。不过，目前关于该模型在速度、准确率等具体性能指标上的提升幅度，官方尚未提供详细数据。

Google 多模态推理模型发布