通义实验室教程演示了如何用 Agent(Qoder)辅助完成 Qwen3-VL-2B 模型在 Android 端侧的全流程部署。操作包括:检查 JDK 21、NDK 27、CMake 3.18.1 等环境;创建 arm64-v8a 的 Native C++ 工程(minSdk 29、compileSdk 35);通过 ModelScope CLI 下载约 1.4GB 的 MNN/Qwen3-VL-2B-Instruct-MNN 模型;编译开启 LLM 视觉支持(MNN_BUILD_LLM、LLM_SUPPORT_VISION)的 libMNN.so;构建 APK 并推送模型至手机私有目录。最终 App 提供图文推理页面,输出 MNN 版本(v3.5.0)、ABI 及推理指标。所有繁琐步骤均可由 Agent 自动执行。
同一事件,精选展示《Agent辅助开发:通义实验室教程打通Qwen3-VL Android端侧推理》通义实验室第二期教程展示如何利用Agent(如Qoder)自动完成Android端侧AI App开发全流程。Agent依次执行:检查并配置Android环境(JDK 21、NDK 27等)、创建Native C++工程PhotoTaggerMNN、下载约1.4GB的Qwen3-VL-2B-Instruct-MNN模型、编译支持视觉能力的libMNN.so、将MNN接入工程、构建APK、推送模型至手机私有目录,最终确认MNN版本3.5.0及模型文件全部ok。核心思路是开发者定义业务目标,Agent负责环境检查、代码编写、编译构建与排错。
阿里巴巴旗下高德发布全球首个3D原生城市世界模型ABot-Earth0.5,已建成覆盖190多个国家和地区的3D地图。用户输入卫星图或文字描述,10分钟即可在消费级GPU上生成公里级3D城市,输出可编辑3DGS格式,可直接导入Unity等引擎。制图成本为传统百分之一,效率提升约千倍,可为具身智能、低空经济、应急救援等提供支撑。目前已开放内测,可前往abot-earth.amap.com提交申请。
腾讯混元联合上海交大、南洋理工等机构推出MMAE(Massive Multitask Audio Editing Benchmark),这是首个全面评估AI语音/音频编辑能力的基准。MMAE要求模型理解现有音频并按自然语言指令精确修改,而非简单生成。当前模型在该基准上的精确匹配率(EMR)低于5%,暴露了可靠音频编辑的短板。MMAE包含2000个真实场景高保真样本、17741条细粒度评估项,覆盖声音/音乐/语音及混合共7种模态、6种任务复杂度(基础修改到多跳推理及多轮编辑)、8种操作类型(局部到全局)。论文、代码、数据集和演示已公开。
多模态基础模型因无法将自我中心观察转化为全局异中心空间表征,导致物理世界空间推理脆弱。AlloSpatial引入World2Mind认知映射沙盒,将观察转换为异中心空间树(ASTs)和路线图,支持查询对象拓扑、几何关系等。通过Spatial Reasoning Harness进行工具使用判断和几何-语义仲裁,并利用冷启动强化学习内化至Qwen3-VL。在VSI-Bench和MindCube上,无需训练提升专有模型5%-18%;仅ASTs即使无视觉输入也支撑强推理;训练后智能体超越更大通用模型与竞争基线。
现有视频世界模型基准主要关注视觉质量、运动连贯性和文本-视频对齐,忽略了作为世界模型核心能力的长期记忆。MBench将记忆能力系统分解为实体一致性、环境一致性和因果一致性三个层级维度,并细化为12个可量化子维度。基于精心挑选的真实长视频,结合规则量化矩阵和视觉语言模型进行客观评估。对多个主流视频世界模型的评测揭示了现有方法在长期状态保持方面的系统性局限,为领域提供了标准化基准和明确研究方向。
本文提出基于Transformer的检测架构与原型行重建模块,仅需行级转录监督即可学习字符原型及其变形、位置信息,显著超越Learnable Typewriter基线,实现准确字符边界框预测。在14世纪手稿codex Paris, BnF, fr. 2813的160页上验证,仅用单列文本即可自动测量字符、双字母组及图形单元间距,能区分不同抄写者的图形轮廓,并发现分析细微变化。数据与代码已开源。
Visual Para-Thinker++ 是一种单策略多智能体框架,将共享 MLLM 策略实例化为角色条件化的 Main、Worker 和 Summary Agent。Main Agent 按固定模式分解任务,Worker Agent 在上下文隔离下并行推理,Summary Agent 整合全部 Worker 推理轨迹而非对最终标签进行多数投票。共享策略通过多智能体能力注入和角色解耦多智能体优化训练,为对应 token 片段分配角色特定奖励和优势以减少梯度冲突。推理引擎通过共享视觉前缀和 KV cache 重用实现高效多智能体 rollout。在 V*、CountBench、RefCOCO 系列和 HallusionBench 上,该框架一致优于单轨迹和推理时并行基线,在幻觉敏感任务上增益尤为显著。
通过逐层分析LLaVA-1.5发现,视觉token在中间层饱和:文本-图像注意力从层0的0.68降至层4的0.07,层18后稳定在0.04附近,而文本token持续受益于深层处理。为此提出双路径视觉Token路由框架DPVR-LF,在饱和点将视觉token路由至单层侧分支,文本token独立经过13层深层,仅在最后层融合。仅增加约3%可训练参数,即可在标准基准上保持竞争力并大幅减少视觉计算。结果表明,视觉token无需遍历所有深层语言模型层,单个晚期融合层足以维持感知能力。
商汤资本市场主管 Phil Wong 在汇丰私人银行圆桌会议上指出,中国 AI 优势日益体现于成本、产品质量及提升终端客户生产力与效率。真正差异化在于大规模创造可衡量业务成果。商汤实践包括:多模态模型 SenseNova U1 以较小规模实现强性能;AI 工具 Office Raccoon(数据分析与 PPT 生成)和 Seko(视频制作);AI 基础设施 SenseCore 通过算力协同优化降低能耗、提升效率。此外需关注空间智能、世界模型等前沿领域。
Tomorrow could be Apple's most important AI moment yet. WWDC 2026 is expected to be all about one thing: making Siri rel...
AI虚拟影响者最初较为容易识别——Lil Miquela、Imma、Shudu Gram等早期虚拟形象明显是数字制作。如今,AI生成的内容创作者与真人之间的界限日益模糊,用户越来越难以分辨。
素人作者刘梓渝的AI视频《丧尸清道夫》爆火,使其进入顶级资源圈。AI视频发展历经三阶段:图生视频(Runway 2023年2月、Sora 2024年2月);首尾帧生视频(Kling 2024年7月、即梦AI 2024年9月);多模态全能参考生视频(可灵率先发布,字节即梦Seedance 2.0于2026年2月12日上线,人物/产品一致性高且自带运镜)。刘梓渝公开创作思路:核心是将导演思维、镜头语言和后期剪辑嵌入AI工作流,而非依赖抽卡运气。
全网爆火的《丧尸清道夫》作者刘梓渝公开了自己的视频创作思路,内容非常干,值得所有AI短视频创作者逐帧学习! 先说结论,跟抽卡运气没太大关系, 核心是把自己的导演思维、镜头语言和后期剪辑, 完整嵌进了AI工作流。 具体视频内容和我做的总结:⬇...
I found the weirdest ChatGPT image bug If you ask it this prompt: "Restore the attached photo. I apologise for the conte...
Smart 精灵 5 号 OTA 升级至 2.3.1 CN 版本,整合豆包 AI 大模型,新增电子后视镜、AR HUD 高度自动调节、高德导航升级、Carlink、苹果钱包钥匙、华为 HiCar 与记忆泊车闸机通行。NSP 领航辅助新增左转待转区与环岛通行能力。新增文生图、闲聊视频 AI 新闻、全民 K 歌 App,用 QQ 音乐替代爱趣听,并优化趣味喇叭及解锁车辆音效自定义。
OmniCap-IF 是首个针对全能模态大语言模型(OLLMs)视频描述指令遵循能力的基准,涵盖纯视觉、纯音频和视听三种模态下的 50 种约束类型,并引入时间定位评估时空精确性。在 1920 个高质量样本上的评测显示模型间存在显著性能差距,并发现“格式-内容权衡”——格式复杂度增加会损害模型的全能模态推理能力。研究团队还构建了 54K 指令微调数据集 OmniCap-IF-54K,并发布 OmniCaptioner-IF 模型,在复杂指令遵循与通用全能模态描述性能上均取得明显提升。
CoVEBench 是一个组合视频编辑基准,包含 416 个源视频、626 条多点编辑指令和 9,990 个细粒度检查项,覆盖多维度编辑任务。它通过 MLLM 评判指令遵守度与视频保真度,并结合自动指标评估视频质量。实验表明,当前模型在同时处理多操作时仍频繁遗漏编辑、违反保留约束或引入伪影,组合编辑是重大挑战。
用户实测推荐,目前多模态大模型性价比最高的是Qwen3-VL / Qwen3.5 VL系列,其输出价格比Gemini 3.5 Flash便宜22倍,读图能力相当。作者使用的具体模型是qwen/qwen3.5-flash,价格为$0.1/$0.4,支持多模态图片+视频,上下文窗口达1M。
http://x.com/i/article/2060717603987791878
OpenCV 5 正式发布,采用基于图的 DNN 引擎,ONNX 算子覆盖率从 4.x 的不到 23% 提升至超 80%,原生支持 Transformer、视觉语言模型(VLM)和大语言模型(LLM)。其他更新包括:更好的 Python 集成与命名参数、更紧凑核心代码、清晰硬件加速层、原生 FP16/BF16、规范化 0D/1D 张量、扩展 3D 视觉及现代化文档。该库 GitHub 拥有超 86,000 stars,每日安装量超一百万次。
MiniMax旗下海螺AI作为第28届上影节独家AI影像战略合作伙伴,6.14-6.15举办开放日。活动包括:AI片场·海螺专属Booth(展示1+1组合作品及过程)、6.14多模态行业交流会、6.15专题圆桌(超级创作者呈现四种图景、《流浪地球》制片人与青年导演对谈)。具体时间地点详见图片。
Google 的 NotebookLM 即将支持从用户资料生成多种格式的文件,包括 pdf、txt、md、docx、csv、pptx、epub 以及大量音视频与图片格式(如 mp3、mp4、wav、jpg、png、heic 等)。此次更新很可能与 Gemini 3.5 Flash 模型升级一同发布。
阿里巴巴Qwen团队发布Qwen3.7-Plus,一个将视觉感知、GUI操作和编码能力整合到单一智能体循环中的多模态智能体模型。在演示中,基于该模型的智能体自主开发了一款词汇学习应用,生成了超过10,000行代码,共执行了1,000次智能体调用,耗时11小时。该模型在Qwen自主基准测试的屏幕理解任务上领先,但整体性能表现参差不齐。Qwen3.7-Plus为闭源模型,价格远低于西方前沿模型。
iOS 27 版 Siri 围绕用户画像、屏幕感知和应用整合三大方向升级:可访问邮件、信息等内容,理解当前屏幕并跨应用串联任务。Siri 升级为聊天机器人形态,具备搜索、概括、内容与图像生成能力,支持多轮对话和上下文记忆。苹果为其打造独立应用,驻留灵动岛并采用发光胶囊动画与透明卡片展示。隐私方面推行本地+私有云机制,部分请求转 Google Cloud 调用授权版 Gemini。iOS 27 允许 Siri 接入 ChatGPT、Claude、Gemini 等第三方 AI。新 Siri 预计 2026 年 6 月 8 日在 WWDC 预览。
彭博社马克·古尔曼爆料,iOS 27 中 Apple Intelligence 多项升级。Visual Intelligence 新增读取营养成分标签、提取名片等信息。修图推出 Extend(AI 补全照片边界)、Reframe(调整空间照片角度)和 Enhance(优化画质色彩)。Safari 新增 Organize Tabs,按购物、旅行等主题自动分类标签页。Genmoji 根据用户照片库和常用短语主动生成个性化表情,该能力还将进入壁纸设置。健康项目 Mulberry 含血糖追踪和相机锻炼监测,预计不随 iOS 27 首发。
Robust-U1提出显式视觉自恢复框架,使多模态大语言模型能够修复真实世界噪声破坏的输入图像。方法包含三阶段:监督微调进行初始重建、基于像素级SSIM与语义级CLIP相似度双奖励的强化学习对齐高视觉质量、融合损坏图像与恢复图像的多模态推理。在真实损坏基准上取得最先进鲁棒性,在通用VQA基准上维持对抗性损坏下的优越性能。实验表明高质量视觉恢复直接提升推理能力,自恢复成为鲁棒理解的关键机制。
强化学习与可验证奖励(RLVR)是增强多模态大语言模型视觉推理的主流范式,但现有方法只优化结果,忽略生成中的细粒度跨模态协调。token级分析显示,模型在链式推理中无法动态交替提取视觉证据与合成文本上下文,导致推理失败。为此提出DyCo-RL,将动态跨模态协调融入RLVR优化:利用Fisher-Rao测地距离测量模态内注意力转移,为token分配视觉或文本功能角色,基于实际注意力与角色对齐度进行优势重加权。DyCo-RL在Qwen2.5-VL-3B/7B上应用,一致改进四种代表性RLVR算法,在七个视觉中心与数学推理基准上取得提升。
Anthropic 称其 80% 的新生产代码由 Claude 编写。Google 新论文显示,通用 LLM 通过规划证明与逐步验证,将形式数学求解性能从低于 10% 提升至 70%。Google 开源 Gemma 4 12B,可在消费级 16GB GPU 上本地运行,支持音频和视频分析。通义千问发布 Qwen3.7-Plus,支持文本、视频、图像输入,价格 $0.4/$1.6 每百万 token,闭源。Anthropic 新化学报告有惊人结果。
Anthropic与顶尖化学家合作,提升Claude在化学领域的实用性。首个白皮书测试Claude在NMR谱图分析上的表现:在20个化合物上,对比Claude Opus 4.7、Opus 4.6、Sonnet 4.6与ChemDraw、MestReNova的正向预测(从结构预测谱图)和反向结构解析(从实验谱图推断结构)能力。所有化合物选自模型训练截止日期后发布的ChemRxiv预印本,以避免选择偏差。
关联讨论 2 条X:Rohan Paul (@rohanpaul_ai)X:Anthropic (@AnthropicAI)Google DeepMind 推出 Gemma 4 量化感知训练(QAT)检查点,包含 Q4_0 格式和一种新的移动端格式,旨在降低设备端内存占用。对比 BF16、Q4_0 QAT 和移动版 QAT 三种边缘端格式,官方公布了各格式的内存数据与设计权衡。
With Design Mode, you can now point, draw, or talk to update your UI.
With Design Mode, you can now point, draw, or talk to update your UI.
Google AI 本周发布多项更新:Nano Banana 2 及 Pro 正式 GA,可通过 Gemini Enterprise Agent Platform、Gemini API 和 Google AI Studio 获取;Co-Scientist 多智能体系统面向科研自动生成优化新假设;Google Labs 推出 dreambeans,根据用户 Google 应用数据每日生成个性化话题集;Gemma 4 12B 统一无编码器多模态模型可完全离线运行于笔记本;Gemma 4 系列及草稿模型引入 QAT 降低内存需求;Google Magenta RealTime 2 开源实时音乐模型,支持 MIDI 键盘、文本提示和手势演奏。
Cursor 更新 Design Mode,支持点击元素、在页面上绘制区域或语音描述来向 AI 智能体传达修改意图。智能体将元素身份(xpath、组件、属性、计算样式等)与页面截图一并纳入上下文,快速定位源代码并高效编辑。借助 Composer 2.5 模型的快速执行能力,可连续下达多个编辑指令,智能体完成后应用热更新即时显示效果。这一更新将视觉交互融入正常编辑循环,使 UI 迭代更直观高效。
多模态大语言模型(MLLM)擅长2D语义理解,但缺乏3D空间一致性。GeoVR框架利用纯2D视频序列,通过从预训练3D基础模型蒸馏几何知识,重构MLLM的语义隐空间。其多目标学习策略包含四个互补几何约束:帧间相机位姿估计、密集深度图回归、度量尺度因子预测以及多尺度3D特征对齐。在空间推理基准上,GeoVR达到当前最佳性能(SOTA),为赋予基础模型空间智能提供了新范式。
Skill-3D框架通过场景记忆与技能库协同演化,解决MLLM智能体在3D空间推理中工具使用偏好固化的问题。框架记录智能体的工具使用轨迹,将同类场景的成功轨迹聚合蒸馏成可复用技能,失败轨迹作为教训附于技能。当类似场景再现时,注入对应技能指导智能体,新轨迹反向优化技能,形成记忆与技能库自演进循环。实验表明,该方法在VSI-Bench上将工具利用率从39%提升至78%;在MMSI-Bench上使Gemini-3-Flash提升67%;对Qwen3-VL-8B进行技能轨迹后训练后,在VSI-Bench上提升43%。
AffordanceVLA 是一种视觉-语言-动作模型,通过引入结构化具身感知预测作为任务导向中间表示,建立更精准的感知-动作映射。模型包含三个互补组件:Which2Act(通过视觉潜变量预测实现目标中心定位以抑制干扰)、Where2Act(通过具身感知图估计定位二维交互区域)、How2Act(进行三维几何推理以引导操控策略)。采用混合 Transformer 架构,结合三阶段训练策略和渐进式数据课程,并配有自动数据增强管道。在仿真和真实世界实验中,模型在多种操控场景中取得强性能。
加南科技今日发布 Kannan K2 智能眼镜,售价 2350 元。眼镜重 25.8 克,采用超轻尼龙材料,耳挂最薄 5.5 毫米。搭载 32MP 摄像头,支持 4K 30FPS 视频录制,具备 EIS+AI 双重防抖和 Live Photo。运行 Kiro OS,支持 0.3s 唤醒、0.8s 指令执行、0.3s 抓拍。续航:录像 60 分钟,待机 7 天,典型日用 1.5 天。