加南科技今日发布 Kannan K2 智能眼镜,售价 2350 元。眼镜重 25.8 克,采用超轻尼龙材料,耳挂最薄 5.5 毫米。搭载 32MP 摄像头,支持 4K 30FPS 视频录制,具备 EIS+AI 双重防抖和 Live Photo。运行 Kiro OS,支持 0.3s 唤醒、0.8s 指令执行、0.3s 抓拍。续航:录像 60 分钟,待机 7 天,典型日用 1.5 天。
据《连线》今日报道,Meta 通过多次应用更新将人脸识别代码推送到智能眼镜配套 App 中,代号“NameTag”。该功能利用已部署的三个 AI 模型将人脸转换为“人脸特征模板”,与手机本地数据库匹配,识别成功后向佩戴者发送通知。App 下载量超 5000 万次。Meta 回应称代码仅为探索,尚未决定推出,且不会建立中央人脸数据库。此前 Meta 曾因人脸识别问题在伊利诺伊州和得克萨斯州分别达成 6.5 亿美元和 14 亿美元和解。
同一事件,精选展示《Meta 在智能眼镜上搭载人脸识别功能》本研究提出反事实语境修正框架,用于审计LLM在模拟社交媒体用户立场时的语境敏感性。给定原始对话后,先推断目标用户立场,再对语境施加受控修正策略(纯文本与结合模因的多模态策略)并重新模拟。评估平均方向性立场转变与立场转换率,发现两种策略在不同极化偏好机制下均实现有效且稳健的立场转换。该框架揭示了LLM立场模拟的语境敏感性,同时突出了其模拟在线舆论动态的前景与风险。
社区开发者使用面壁智能MiniCPM-V 4.6构建了AccountingLLM(quaesto.com),用于自动化财务文档分析。该工具可上传IPO招股书、年报或审计文件,自动从复杂PDF中提取财务表格、重建跨页表格、对照会计等式检查关键数据,并标记可疑条目供人工审核。开发者已将其商业化,成为实际可用的产品。
6月5日,快手旗下可灵AI宣布全球用户突破1亿,企业客户近5万。过去一年,可灵完成26次迭代,深入影视、广告、音乐MV、游戏、电商、智能硬件等场景,并发布由可灵AI全片生成的两周年短片。据IT之家此前报道,快手正评估拟议重组可灵AI相关资产及业务,或引入外部融资;目前可灵AI正在进行Pre-IPO轮融资,投前估值180亿美元,内部按2027年初递交港股上市申报材料推进。
在2026高通汽车技术与合作峰会上,高通联合诚迈科技等生态企业发布车端人工智能Claw生态计划。该计划结合骁龙数字底盘与高通智能体AI运行环境,将AI智能体和多模态大模型直接部署到车端,旨在消除下一代汽车智能开发碎片化。核心能力涵盖:全天候多模态感知(融合车内外摄像头、音频等)、百亿参数混合专家模型(MoE)在终端侧实时运行、六层车规级安全架构(覆盖车辆控制分级、用户授权、隐私保护等),以及持续演进的AI生态系统。推动汽车从移动工具进化为智能伙伴。
一对多时间定位(OMTG)旨在定位文本查询对应的多个不连续视频片段。现有SOTA多模态大模型(MLLMs)在此任务上几乎得零分,缺乏事件基数感知。为此,研究者建立了首个综合OMTG基准,引入计数准确率(C-Acc)和有效时间F1(EtF1)作为评测指标;构建包含56k样本的高质量OMTG数据集;开发了针对OMTG的时间奖励和描述奖励函数,其中描述奖励利用密集视频描述的链式推理指导策略优化。该方法在OMTG Bench上达到43.65%的EtF1,分别超过Gemini 2.5 Pro和Seed-1.8达15.85%和15.61%。
DGrid 🤝 @MiniMax_AI MiniMax M3 is now live on http://dgrid.ai. Enjoy 50% off through June 7th. ⚡️ With frontier coding ...
MiniMax 就 M3 模型上线后切换 Token Plan 计费未提前充分沟通致歉。M3 为更大尺寸、多模态、1M 上下文模型,改用行业统一的 Token-Based 计量。老用户权益:3.22 前购买的无周限额用户 M2.7 和 M3 仍保持无周限额;3.22 至本周五前购买的用户 M3 周限额永久加赠 50%;M3 上线前 7 天内所有订阅用户 5 小时/周额度翻倍。档位迁移:Plus/Max 价格不变,M2.7 次数增加 10%,新增 M3 与多模态权益;Starter 29 元与 Plus-极速 98 元仅对老用户保留;停售的 Max-极速 199 元与 Ultra-极速 899 元可迁至更低月费新档,每月补发差价积分;新增 Ultra 469 元档。补偿积分有效期从一个月改为一年。
抖音集团副总裁李亮就“豆包误判蘑菇导致用户中毒”一事回应称,豆包联系上当事用户。该用户用豆包拍照识别小区采摘的蘑菇,豆包识别为“鸡腿菇”,同时明确提示其“极容易和剧毒的大青褶伞混淆”,并“强烈建议不要食用”。李亮表示,AI还在发展阶段,豆包在提升识别准确性,但涉及人身安全的问题,AI回答仅供参考,用户务必多方咨询求证。
谷歌 Magenta 团队昨日发布 Magenta RealTime 2(MRT2)模型,免费放出乐器应用 Jam 及 DAW 插件 MRT2。MRT2 提供两种规模:高质量模型 mrt2_base(24 亿参数)和高速模型 mrt2_small(2.3 亿参数),均针对苹果 Apple Silicon 优化,mrt2_small 可在 M1 及以上芯片 Mac 实时运行。相较前代延迟约 3 秒,MRT2 改为逐帧生成(每帧 40 毫秒),控制延迟约 200 毫秒,降低至 15 分之一。支持文本和音频风格提示、MIDI 音符与鼓开关控制及 Auto-Strum 模式。技术基于 Codec Language Model,采用 SpectroStream 编解码器处理 48kHz 立体声音频。
Airbnb 创始人 @bchesky 正在筹备创建一个新的 AI lab,构建专门用于 UI 和 设计的模型。 如果 Airbnb 做 UI 和设计模型,我举双手赞成,真的太喜欢 Airbnb 的设计品味。
BREAKING: @bchesky is launching a new AI lab to build models, focused on UI and design
6月3日,京东开源JoyAI-Echo框架,解决长视频生成中角色身份崩坏、音色突变和生成缓慢三大难题。该框架通过跨模态音视频记忆库保持5分钟内角色外观与音色一致,记忆驱动后训练结合DMD技术带来约7.5倍推理加速。新增Director Agent支持自然语言对话式局部修订,无需重跑整条视频。配套轻量化实时超分模块,支持736×1280→1152×1920及1472×2560两档分辨率。评测集显示,语音内容准确率0.8646,用户偏好多项领先。代码与权重已开源至GitHub。
Mira Murati 再次公开露面,她表示在当前环境下,保持低调的回报正在递减,必须适时制造声量以提醒市场自己的存在。
代码切换ASR(CS-ASR)因多语言代码切换语音资源稀缺而极具挑战。现有方法依赖合成数据生成或特定语言对微调,但扩展性受限于语言对数量随支持语言数组合增长。本文通过模型合并与领域泛化方法,探究从有限已见语言对学到的CS能力能否泛化至未见语言对。实验表明,合并的双语CS-ASR模型仅能适度泛化到未见语言对,提示双语CS能力在跨语言对间的迁移有限。
Future-L1 是一种交错潜在视觉推理框架,让 MLLM 在自回归解码中交替生成语言 token 与连续潜在视觉 span。为此构建了 Future-L1-50K 数据集,并用潜在感知 RL 目标 LA-DAPO 优化采样轨迹。在 FutureBench 上,Future-L1 将 Qwen3-VL-8B 得分从 61.0 提升至 85.4,超过此前最优 Video-CoE 10.4 分;在 TwiFF-Bench 上平均分从 2.44 升至 3.04。结果表明,将中间视觉语义保留在潜在空间而非转化为文本,有益于未来视频推理。
WLA模型以文本指令、图像和机器人状态为输入,联合预测文本子任务、子目标图像和动作。其核心为自回归Transformer(非双向扩散Transformer),通过World Expert监督物理动态,并利用元查询使世界预测隐式影响动作生成(推理时可禁用,也可激活以支持测试时缩放)。原型WLA-0拥有2B活跃参数,在RTX 5090上单次推理40ms。在模拟与真实环境评估中,WLA-0在RoboTwin2.0 Clean上达92.94%成功率,在RMBench上达56.5%,并可直接从跨具身机器人视频学习新任务(无需动作标注)。
LoomVideo是一个5B参数的高效统一架构,支持视频生成与编辑。它用多模态大语言模型(MLLM)替换标准文本编码器,通过Deepstack注入机制对齐MLLM特征与扩散Transformer。核心创新为零开销的Scale-and-Add条件方法,直接缩放和加性处理源视频潜变量,避免token拼接导致的序列长度翻倍与自注意力计算复杂度增加。集成Negative Temporal RoPE策略处理多张参考图像。该模型在综合基准上达到或接近SOTA,尤其在电商和时尚生成场景表现突出,推理速度相比同类模型提升至少5.41倍。
计算机使用智能体(CUA)依赖GUI截图,每张截图编码大量视觉token,长轨迹下token成本激增。ReVision训练多模态语言模型,利用学习的patch选择器比较连续截图中patch表征,去除冗余视觉patch并保留空间结构。基于Qwen2.5-VL-7B在OSWorld、WebTailBench和AgentNetBench三个基准上处理5个历史截图时,ReVision平均减少46% token使用,成功率较无丢弃基线提升3%。该效率使智能体能用更少token处理更长轨迹,且随着移除冗余后纳入更多历史观测,性能持续改善。
MemDreamer 是一个即插即用框架,将长视频理解转化为智能体探索过程。它增量式处理视频,构建三层层次化图记忆(Hierarchical Graph Memory),用于语义抽象并捕获时空与因果关联。推理时,智能体通过观察-推理-行动循环进行工具增强的层次导航和节点搜索。在四个主流基准上,MemDreamer 达到 SOTA 效果,将人类专家差距缩小至 3.7 分,推理上下文窗口仅占全量输入的 2%,同时带来 12.5 个百分点的绝对准确率提升。统计分析发现,VLM 的逻辑推理能力与长视频理解性能呈强正线性相关,智能体能力扩展成为多模态理解新范式。
现有深度研究智能体多基于证据累积模型线性聚合信息,缺乏处理跨模态矛盾信息的机制。为此提出的Struct-Searcher是一种基于信念修正理论的结构化智能体工作流,在推理过程中显式维护一个不断演化的多模态结构图,实现冲突感知的多模态深度信息检索。实验表明,Struct-Searcher即插即用、模型无关,在BrowseComp-VL上对五种骨干模型的平均相对准确率提升17.2%;同时在MM-BrowseComp、HLE-VL、BrowseComp-VL上分别比次优方法高3.7%、1.5%和0.7%。
TBD-VLA是一种基于离散token的视觉-语言-动作(VLA)框架,通过引入块扩散(block diffusion)实现时序动作生成。该方法将动作序列划分为时间块,在块内进行掩码离散扩散,块间保持自回归生成,统一了时序自回归与并行动作解码,兼顾时序连贯性与推理速度。此外,显式时序建模支持通过时间修复实现动作块的异步执行(如实时分块)。TBD-VLA在模拟和真实操控任务中显著优于此前VLA方法。
MMAE是首个专为通用指令音频编辑设计的综合评估基准,涵盖声音、语音、音乐及其混合共7种音频模态,并建立包含6级任务复杂度、2级细粒度与8种操作类型的分类体系。通过人机协作精心筛选2000个高保真样本,配套基于评分标准的评估框架,将自由形式任务分解为17,741个可验证指标,实现指令遵循与上下文一致性的精确多维度评估。对主流模型的评测显示,精确匹配率(EMR)整体低于5%,在复杂混合模态任务中降至绝对0%。
AnchorWorld 提出一种具身自我中心世界模拟框架,通过增强交互完整性与灵活的世界定制机制提升实际场景可控性。该框架以 3D 人体运动为主要交互模态,引入与第一人称传感器解耦的外部视角辅助监督,使模型能观察全身相对环境的定位,从而稳健建模人-世界交互。此外,在世界坐标系内定义锚定视图并配合描述局部场景演变的文本,实现简单有效的世界自我演进定制。实验结果显示,AnchorWorld 显著优于现有基线,消融研究验证了关键设计的有效性,定制方案展现出良好的时空几何一致性并严格遵循预设演化规则。
StreamForce 是一个因果统一的流式视频生成框架,通过连续力输入实现物理可控的视频生成。其采用统一力表示作为控制信号,并配合蒸馏流程训练,能即时且连贯地响应局部和全局时变力。StreamForce 在单个 GPU 上可达 16.6 FPS,兼具自回归效率和力响应能力,在力遵循度和运动真实性方面达到当前最优水平。
Stream3D-VLM 是一种在线3D视觉语言模型,能从流式视频中实时进行空间理解。它基于LLM的下一token预测目标采用自回归流控制建模决定何时响应,通过轻量级Visual-Spatial Feature Integration(VSFI)模块逐步注入时序对齐的几何先验,并提出Geometry-Adaptive Voxel Compression(GAVC)模块用于视觉token的高效压缩。为缓解流式3D语言数据稀缺,构建了超过1M在线时空3D问答对的数据生成流程,并建立涵盖29个任务的benchmark。实验显示,该模型在在线和离线3D空间理解、推理与定位任务上均显著优于闭源及开源模型。
该综述从人类视角审视基于多模态大语言模型的视频理解,将其组织为观看、记忆、推理三项核心能力。论文提出统一框架,通过感知表征、记忆状态、推理轨迹和最终预测刻画系统,识别了时空感知、高效长视频处理、记忆建模、流式理解及忠实推理等关键挑战。工作梳理了细粒度/全面/音视频/高效感知(观看)、离线与流式记忆(记忆)、纯文本与视频思维推理(推理)的方法,覆盖自我中心、体育、教学、医学、叙事等应用,并整理了训练数据集与评估基准,最后指明可扩展、记忆感知和证据驱动的视频智能等开放问题。
UniSHARP扩展了SHARP真实感视图合成方法,实现从传统透视相机到鱼眼、全景等系统的通用单目渲染。核心思路是在统一全向潜空间中对齐图像,在射线基表示中沿射线和径向距离排列高斯原语,并联合解码UniK3D编码器提取的2D语义和3D空间特征。构建了覆盖多种成像系统并按视场角分层的benchmark,实验表明UniSHARP大幅优于替代方法。
dots.tts 是一个 2B 参数的连续自回归 TTS 基座模型,在连续潜在空间中建模语音。其创新包括:多目标训练的 AudioVAE 构建语义结构化连续语音空间;全历史条件的 flow-matching 头保持长程一致性;无奖励自纠正后训练提升鲁棒性和音质。在 Seed-TTS-Eval 上取得最佳平均性能,中文/英文/中文-hard 的 WER 分别为 0.94%/1.30%/6.60%,SIM 分别为 81.0/77.1/79.5。其他基准也达开源 SOTA。基于 CFG 的 MeanFlow 蒸馏实现低延迟推理,输出流首包 85ms,双流 54ms。训练推理代码及检查点已开源。
Get tailored help for what's on your screen using the Gemini app for macOS. 💻 Simply press both Command ⌘ keys at the s...
I made @OpenAI GPT-5.5 and @GoogleDeepMind Gemini 3.1 Pro play REAL UNO - 10 games, full rules. Gemini overthought every...
Bring your images to life ⚡️ Upload your picture as a first frame and add a prompt to generate your own unique video wit...
Rohan Paul 实测新推出的图像转 3D 模型 Rodin Gen-2.5,最大改进是控制力。提供五种生成模式,最快 4 秒生成百万多边形模型,支持最高 1000 万多边形输出。原生 3D PBR 材质,模型开箱即用。Hyper 3D 还支持并行批量生成、Break to Parts 部件分离和局部编辑,无需重新生成整个模型,覆盖 3D 创作全流程。
Nemotron 3.5 Content Safety基于Gemma 3 4B IT,提供128K上下文窗口,支持用户提示、可选图像与助手响应的统一多模态安全评估。新增自定义策略执行,允许企业用自然语言定义专属安全规则;THINK模式可输出可审计的逐步推理痕迹。显式训练覆盖12种语言,并借助基座模型零样本泛化至约140种语言。输出提供低延迟二分类、带分类标签、THINK推理痕迹三种模式。安全分类遵循Aegis 2.0框架(13核心类别+10细分类别)。同步发布多模态、多语言安全数据集,可在8GB+ VRAM GPU上实时部署。
Introducing Magenta RealTime 2 (MRT2): the live music model you can play as an instrument. MRT2 offers MIDI and prompt c...