Google DeepMind 推出 Nano Banana 2 Lite(gemini-3.1-flash-lite-image),为 Nano Banana 系列速度最快、成本最低的图像模型,文本到图像输出仅需 4 秒,每 1K 分辨率图像成本 $0.034,已上线 Google AI Studio、Gemini API 及消费者产品(AI Mode in Search、Gemini app 等)。同时推出 Gemini Omni Flash(gemini-omni-flash-preview),支持高画质视频生成与对话式编辑,视频输出定价 $0.10/秒,面向开发者开放 API。
关联讨论 2 条X:Google DeepMind (@GoogleDeepMind)X:Google AI (@GoogleAI)2026年6月29日,华为与陕文投联合开发的全球首个商用多模态文旅大模型“博观文旅大模型”在西安实现规模化应用。截至今年3月,其AI伴游智能体已覆盖超400万用户,非遗数字IP衍生产品销售额超200万元。该模型依托昇腾算力底座及超1.2PB数据集(含3100万张文旅图片等),支持高精度多模态历史内容生成,实现文物活化与非遗IP开发。同期,中国电信陕西公司与华为在大唐不夜城部署5G-A网络,上下行峰值速率分别达600Mbps和3.5Gbps,五一假期支持约2.3万用户同时接入。
ByteDance 通过 BytePlus 推出 Seed Audio 1.0,一个非流式 TTS 模型,可在一次生成中同时输出语音、音乐和音效。支持参考音频引导、图像引导音频,以及语速、音量、音调等精细控制。与传统仅生成语音的 TTS 不同,它更像多模态音频生成模型,一次性完成复杂场景音频。目前仅对企业开放申请,早期反馈音频自然,但缺少对时长的精细控制。
Meet Seed Audio 1.0 - Now open for enterprise access application. A pioneering non-streaming TTS model that generates vo...
视频与播客录制工具 Riverside 新增新闻通讯发布功能,用户可通过 AI 助手将已有视频和播客内容自动转换为新闻通讯,也可在应用内从头创建并直接发送。Riverside 同时更新录制套件,支持多机位录制和远程嘉宾添加。新版 AI 功能还包括自动生成录制初稿、为社交媒体创建钩子与内容,以及基于对话视频播客训练的 AI 视频增强功能,可改善光线、深度和锐度。Riverside 已累计融资超 6000 万美元。
Lumo 2.0 新增图像识别和图像生成能力,用户可上传图片进行分析或编辑。Projects 功能新增用户控制的持久记忆,可跨对话保留偏好。响应速度比上一代提升 76%,并引入思考模式处理复杂问题。采用零访问加密架构,数据端到端加密,服务器不记录会话日志,不使用用户数据训练或与第三方共享。即日起可用,提供免费版及 Plus、Professional 付费方案。
ILLUME-X是一个统一多模态模型,能够自主生成高质量、自由形式的交错文本-图像序列。它通过三项核心组件实现:面向交错图文生成的扩展训练数据管道、基于自适应目标的渐进训练策略(适用于自由长度的多模态token序列),以及用于评估交错图文序列的客观综合方法ILScore。ILLUME-X在风格迁移、图像分解和故事讲述等多个交错图文生成任务上优于此前统一模型。
摩纳哥AI电影节黑客松落下帷幕,阿里云公布全球创作者大赛大奖得主。李静莹执导的《If I Forget》凭借情感共鸣夺得冠军,影片使用阿里云Model Studio与Happy Horse 1.0全流程制作。故事设定于2038年,一位患阿尔茨海默症的传奇建筑师由亡妻全息AI照顾——AI每天重新介绍自己以避免其悲伤,最终超越代码并爱上了他。前十名获奖作品将在未来几天陆续公布。
ViDiHand 利用预训练视频扩散模型的表征重建 4D 双手姿态,通过手部叠加渲染目标适配扩散模型特征,保留世界先验的同时专门化手部特征,再由解码器恢复度量级姿态。整个管道直接处理全帧,无需检测器、填充器或测试时优化。在 ARCTIC、HOT3D 和 HOI4D 基准上,ViDiHand 显著优于现有方法,表明视频扩散模型可作为手部运动重建的新基础,并为具身智能的可扩展野外数据收集提供途径。
维苏威挑战赛于6月25日宣布,借助AI辅助,研究人员在不展开卷轴的情况下数字化读取了两份被维苏威火山灰掩埋的古卷PHerc. 1667和PHerc. 172。其中PHerc. 1667成功读出约1.5米连续希腊文,内容横跨20栏;PHerc. 172则恢复出70多栏文本。这两份古卷距今约2000年,埋藏于公元79年维苏威火山喷发后的灰烬中。
针对MLLM自回归坐标生成丢失区域级目标证据的问题,InnerZoom提出单前向跨层证据桥接框架,将原始前向中的目标线索压缩为跨层证据状态,在后序解码层保留、精炼并重新注入以指导坐标预测。InnerZoom-4B在全部六个GUI定位基准上达到最优,OSWorld-G 64.7、UI-Vision 40.2、OSWorld-GR 73.1、MMBench-GUI 87.6,分别超此前最佳4.1、3.2、2.9、2.3分。相比同基线平均提升5.3点,对比两遍ZoomIn平均提升1.3点,端到端延迟降低31.8%,TFLOPs降低约29%。代码与模型将开源。
Imagine a lightweight AI that can read images AND chat with you. That's MiniCPM-V-4.6. It's a multimodal model that unde...
TACO是一种基于GRPO的变体,专为代码工具agent设计。它通过两个耦合优势通道解决工具调用信用分配:Differential Answer-Probe Reward(DAPR)在推理中插入探针token,自监督比较有无工具时的预测差异,为每次调用赋予正/负/零价值,无需外部评判器;Outcome-Gated Advantage Routing(OGAR)根据调用结果将最终答案优势仅分配给导致正确输出的段,抑制无用调用。经两阶段SFT+RL训练后,TACO在感知、推理和通用多模态基准上取得一致准确率提升,且学会仅在必要时调用工具。
Orca通过下一状态预测(Next-State-Prediction)统一建模多模态世界信号,学习统一的世界潜空间。预训练使用125K小时视频和1.6亿事件标注,包含无意识学习(连续视频中的密集自然状态转换)和有意识学习(语言描述事件和VQA监督下的稀疏状态转换)。冻结主干后,仅训练轻量级模态特定解码器,即可在文本生成、图像预测和具身动作生成三项下游任务上超越类似规模的专用基线模型。
Meta 发布 Brain2Qwerty v2,无需手术植入,仅佩戴 MEG(脑磁图)头盔即可将大脑磁信号实时解码为连贯句子。字词准确率达 61%,约为其他无创脑机接口方法(8%)的 7.6 倍;最佳参与者达 78%,超半数句子只差一个词。Meta 称这是目前性能最高的非侵入式脑机接口系统。
PixelEyes是一种多轮视觉推理智能体,通过显式解耦推理与感知解决MLLMs因定位不准导致的冗余轨迹问题。推理器决定查找目标,专用感知工具采用掩码引导视觉搜索(Mask-guided Visual Search)和语义区域广度优先搜索(Semantic-region BFS)提供精确定位,消除重复裁剪错误子区域的循环。基于PixelEyes-6K数据集训练,并引入Pinpoint-Bench零提示视觉搜索基准,用于分离定位失败与推理失败。代码和模型已开源。
Seed2.0 模型系列从识别的用户真实需求出发,构建了基于复杂真实场景的评测体系,重点攻克长尾知识和复杂指令跟随两个持久挑战,显著提升了模型在长程复杂任务上的可靠性。同时,Seed2.0 在推理智能、视觉理解和搜索能力上达到世界领先水平,并通过大量真实用例展示了其初步处理复杂实际任务的能力,为数亿用户提供更大价值。
Meta发布Brain2Qwerty v2,一种非侵入式脑机接口系统,能从实时脑信号解码完整自然句子,单词准确率达61%。系统基于约22000个句子训练,9名志愿者每人使用MEG记录10小时。相比此前非侵入方法8%的准确率大幅提升,最佳参与者达78%,超半数解码句子仅错一个词或更少。该端到端管线能实时将原始脑信号解码为单词和语义。但研究仍在受控实验室阶段:参与者样本小、依赖MEG硬件、数据来自主动打字、结果由公司报告,尚未成为临床通信设备。Meta已开源训练代码,BCBL发布v1数据集。
We're sharing the next major milestone in our non-invasive brain-to-text decoder research: Brain2Qwerty v2. Building on ...
Google 宣布,Gemini 应用的 Nano Banana 驱动个性化图片生成功能向所有符合条件的美国用户免费开放,此前仅限 Plus、Pro 和 Ultra 订阅用户。该功能基于 Gemini 对用户喜好的理解生成图片,无需在提示词中指定具体内容,并可从 Google Photos 提取用户照片。数据来自 Gmail、Google Photos、YouTube 和 Search 等 Google 账户连接。Personal Intelligence 为可选功能,默认用于每个提示,用户可在 Tools 菜单中关闭。上个月 Google 预告了 Gemini 应用的后续更新,包括 Daily Brief、改版界面、AI 视频模型 Gemini Omni 和个人 AI 智能体 Gemini Spark。Gemini 月活跃用户已超 7.5 亿。
流媒体平台 Tidal 今日公布 AI 音乐新政策:即日起,被识别为 100% AI 生成的曲目不再获得版税收入;7 月 15 日起,这些曲目将被加上专用图标标注。Tidal 表示未来计划对“实质性 AI 生成”的上传也加注标签,并要求内容分发商自行标注 AI 音乐。同时,7 月中旬起,Tidal 将移除或阻止与欺诈活动关联的 AI 音乐,包括欺骗听众、干扰真实艺术家、高批量上传或异常流媒体行为的作品。竞争对手 Spotify 和 Deezer 此前已推出类似方案。
Meta 在 Nature Neuroscience 发表 Brain2Qwerty v1 论文,同日发布 v2。v1 从脑电信号逐字母解码,字符错误率 32%。v2 实现句子级实时解码,平均单词准确率 61%,最优 78%,过半句子误差一个词内。此前非侵入式准确率仅 8%。v2 用 MEG 设备采集 9 名志愿者各约 10 小时打字数据(约 2.2 万句子),结合端到端深度学习与微调大语言模型。准确率随数据量对数线性提升。Meta 开源 v1、v2 全部训练代码。MEG 设备仍体积大、成本高,但该成果为脑损伤患者提供了无需开颅的可行路径。
We're sharing the next major milestone in our non-invasive brain-to-text decoder research: Brain2Qwerty v2. Building on ...
同一事件,精选展示《Meta发布Brain2Qwerty v2:非侵入式实时句子解码》Tidal 发布 AI 生成音乐政策,将完全或主要由生成式 AI 创作的音乐定义为 AI 生成音乐。Tidal 接受这类内容但要求标识,7 月中旬起听众将在 100% AI 生成内容旁看到图标;欺诈行为(欺骗听众、干扰真实艺术家、大量上传或异常流媒体)将被阻止或移除。自即日起,AI 生成音乐不可货币化,版税仅归人工创作的原作;Tidal Upload 独立艺术家上传内容同样适用。
We're sharing the next major milestone in our non-invasive brain-to-text decoder research: Brain2Qwerty v2. Building on ...
Meta公布Brain2Qwerty v2,这是非侵入式脑电信号解码研究的最新里程碑。基于当天发表在《Nature》的v1,v2是性能最高的端到端管道,能从原始脑信号实时解码句子。其从字符级性能提升至解码单词和语义,提高整体沟通准确性。该研究有望帮助数百万因脑损伤或疾病无法沟通的人群。
据《正在新闻》报道,舒先生制作的 AI 动画被搬运至优酷平台,剧集《小企鹅咕嘎冒险记》更新至29集,最新一集来自舒先生5月1日发布的作品。前4集免费,后续需VIP。舒先生称动画由AI生成并剪辑,未在任何平台备案,也不清楚备案号来源。优酷客服表示该剧是站内官方少儿节目,非私人上传,但无法查询备案号,侵权问题需通过知识产权投诉平台处理。目前该剧集已无法在优酷搜索到,从搜索引擎进入会提示“版权受限暂无可播源”。
抖音反诈工具“验证助手”今日升级,新增语音输入和图片文本提取功能。验证框由多分类统一为单一输入框,系统通过意图识别模型自动判断信息类型并完成验证。老年人可上传可疑截图圈选文字区域,或语音描述短信、电话等内容,系统自动识别填入。截至目前,验证助手已累计服务超2800万人次,日均帮助约4万名用户鉴别风险。
新加坡公司Sapiens AI旗下Agnes AI推出免费视频创作平台Pavo。用户提供一句话初始需求,平台自动生成需求、大纲、角色场景道具设计、分镜、关键帧及分镜视频,用户逐环节微调确认即可成片。Pavo免费使用Agnes自研模型,包括文本模型Agnes-2.0-Flash、图片模型Agnes-Image-2.1-Flash、视频模型Agnes-Video-2.0。即将上线的Agnes-Video-2.5-Preview在动作、角色、相机移动和场景连贯性上接近Veo 3。
MatMMExtract 是一个端到端开源管道,将复合图表分解为独立子面板,并利用大语言模型基于材料科学分类法生成结构化标注。应用于 14,810 篇开放获取文章,从 180,571 张图中生成 MatSciFig 数据集,包含 391,606 个面板级图像-文本对,每对配有子标题、两级可视化类别(19 个大类、100+ 子类)和科学摘要。引入 MaterialScope 检测数据集(2,811 张人工标注图),微调 YOLO12-m 检测器达到 mAP_50 0.9227。六种基准语言模型中,Gemini 3.1 Flash Lite 在标注生成上取得最佳成本-质量平衡,82% 输出良好,模型幻觉率 4.8%。基于 MatSciFig 的检索基线在 R@1 上比零样本 CLIP 提升 4.4 倍,所有资源已向社区开放。
BrainJanus是首个统一脑模型,在单一框架内融合脑、视觉与语言。它通过Unified Brain Tokenizer将连续神经动态量化为离散token,与视觉和语言表征在共享Omni空间中对齐。基于All-in-One自回归架构,利用下一token预测实现任意方向生成,包括图像/文本到脑的编码以及脑到图像/文本的解码。实验在多个基准上表现优越,具备零样本泛化能力,并保持可解释的脑拓扑结构。代码已公开。
AVTok 是一种新颖的统一分词器,专为整体音频-视频生成设计。它采用双流 Transformer 架构,包含共享编码器-解码器和模态特定的可学习查询,将音频-视频对高效编码为紧凑的一维潜在表示并共享同一码本。为应对异质信息不平衡,研究者设计了分层训练策略,逐步重建各模态。实验表明,AVTok 在音频-视频重建及下游任务(音频到视频、视频到音频、类别条件联合生成)中均表现优异,为构建统一音视频大语言模型提供了潜在方向。
Suno近日推出Spark孵化器项目,面向未签约的独立歌手、词曲作者和制作人,提供资助、导师指导和营销支持。参与艺术家需同意将作品在Suno上开放remix,授予Suno广泛许可(含创作衍生作品),同时放弃陪审团审判和集体诉讼权利,并给予Suno有限独家权。项目还包含“Good Vibes Only”保密及不贬损条款,要求参与者推广Suno,不得发表任何负面言论,否则将被移除资格。目前Suno正面临独立艺术家提起的集体诉讼。
A big problem with research studies on AI models is that given how long the peer review process is, the results are alwa...
RAHA(Rank-Aware Hyperbolic Alignment)提出将多模态表示提升到双曲空间,通过非对称目标优化蒸馏对,强制在共享低秩范围内进行测地线对齐,同时正则化残差子空间以保留模态私有多样性并提升迁移鲁棒性。该方法解决了现有视觉-语言数据集蒸馏中欧几里得全维度对齐过于严格的问题,在固定预算下实现有竞争力的跨模态检索和更优的迁移指标。
单目深度估计通常将每个像素简化为一个标量深度,忽略同一射线中可能存在的多个几何有效表面。本文引入MultiDepth-3k(MD-3k),一个稀疏双层序数基准,用于测量深度层偏好和多层空间关系准确性(ML-SRA)。在MD-3k上,领先的深度基础模型在标准RGB输入下表现出多样化的层偏好。Laplacian Visual Prompting(LVP)作为一种无需训练的谱输入变换,能显著改变某些冻结模型的层报告。最强的RGB/LVP组合DAv2-L达到75.5% ML-SRA。结果提示深度基础模型可能表达了互补的几何假设,需要以歧义感知的视角重新审视深度监督和评估。
论文提出VG-GUIBench基准,用于评估多模态大语言模型(MLLM)的GUI智能体能否跟随视频教程完成交互任务。现有VideoQA基准侧重浅层视觉线索,而VG-GUIBench考察模型从视频中学习深层知识并泛化到长时智能体任务。同时提出TASKER关键帧提取算法,联合考虑任务相关性与场景动态筛选信息帧。实验显示,TASKER在EgoSchema全集上超出最优基线2.0%,在NExT-QA数据集上超出1.8%,展示了通用关键帧提取方法在视频理解任务中的潜力。代码与数据已公开。