GPT-5.6 Pro 预计下周四发布,泄露信息显示其三项关键能力:视觉复刻已近乎能完全复刻设计;SVG 3D 生成表现超越 Fable 5,支持浏览器内旋转缩放;Playwright 浏览器自动化可真实操作网页(点击、输入、跳转、抓取)。这三项能力表明 OpenAI 正将 GPT 从语言模型进化为能执行物理操作的 Agent——不仅能“思考”,还能打开浏览器、移动鼠标、复制设计并保存到桌面。
GPT-5.6 Pro 预计下周四发布,泄露信息显示其三项关键能力:视觉复刻已近乎能完全复刻设计;SVG 3D 生成表现超越 Fable 5,支持浏览器内旋转缩放;Playwright 浏览器自动化可真实操作网页(点击、输入、跳转、抓取)。这三项能力表明 OpenAI 正将 GPT 从语言模型进化为能执行物理操作的 Agent——不仅能“思考”,还能打开浏览器、移动鼠标、复制设计并保存到桌面。
全球海洋热浪致超80%珊瑚白化背景下,伍兹霍尔海洋研究所团队在马绍尔群岛马朱罗环礁发现一片生机勃勃的珊瑚礁,命名为“超级珊瑚礁”。模型预测该处水温比其他区域高近2°C,实地实验证实其耐热性最强。团队使用无人船“黄鳍”搭载GoPro相机,单日扫描40英里礁石并拍摄2万张图像,远超百名潜水员数周工作量。随后用这些图像训练AI模型自动识别白化与恢复状况,并构建三维模型分析珊瑚位置、角度对热暴露的影响。科恩设想建立“超级珊瑚礁蓝色走廊”,连接马绍尔群岛、基里巴斯和图瓦卢的保护区网络,利用洋流让耐热珊瑚幼虫跨区域繁殖。
BioMatrix采用单一解码器架构,通过统一token化方案将分子序列(SMILES/SELFIES)、分子结构、蛋白质序列、蛋白质结构和自然语言映射到共享离散token空间,所有模态均以下一个token预测目标生成。模型基于Qwen3(1.7B和4B),在3044亿tokens上预训练。在80项下游任务中,BioMatrix在77项上达到最优或竞争力水平。
visionOS 27 将于今秋推送。M5 Vision Pro 独占 Siri 语音定制(Voice Customization),用户可自由调整语气表现力和语速;同时独占搭载 AFM 3 Core Advanced 本地 AI 模型,该模型支持原生多模态能力并采用稀疏架构,需 M5 芯片算力支撑。M2 款 Vision Pro 可共享 visionOS 27 大部分升级,包括 Siri AI、全景照片转空间场景、重新设计的控制中心、更智能的自然语言理解及语音操作交互等。苹果承诺未来通过云端计算为 M2 设备提供部分 AI 功能的折中方案,具体细节尚未公布。
商汤 SenseNova U1 具备行业首创的文本-图像交错生成能力。用户上传客厅照片后,U1 可瞬间将其风格转变为温馨阅读角。该演示由 @eigi_and_ai 完成。U1 现已通过 SenseNova Studio、HuggingFace 模型库、GitHub 源码及 Discord 社区开放体验。
条件扩散和流模型常生成与输入约束不一致的样本。FlowBender 是一个闭环框架,将对齐误差作为第一类输入,训练网络学习基于推理时反馈的修正策略。通过无引导的前向预估步骤估计干净信号,经前向算子计算偏差,再由精炼步骤生成修正速度。包含基于梯度的实现和针对不可微场景的零阶变体,并利用前一步捷径降低额外计算成本。在图像到图像翻译、图像复原和3D网格纹理任务中,同时提升了保真度与合理性。
谷歌携手艺术家Refik Anadol,在洛杉矶打造全球首个AI艺术博物馆Dataland,将于6月20日开馆。博物馆面积约2500平方米,开幕展“Machine Dreams: Rainforest”由Large Nature Model驱动。利用Google Cloud的Gemini Enterprise Agent Platform和Compute Engine,协调GANs、扩散模型和Gemini等AI模型,将环境数据转化为12亿像素的超生成现实。博物馆通过Google基础设施生成动态声景、实时情绪感应和算法增强气味,与访客动态交互。系统使用87%无碳可再生能源运行。
Holo-World 是一种视频世界模型,从单张图像出发,根据显式相机控制、物体控制和可选天气指令,生成保留原场景或转换到目标天气的视频。其 Unified Scene Adapter 将世界保留与天气迁移分解为独立参数子空间,利用渲染背景、几何缓冲和物体控制维持场景结构,并建模天气依赖的外观与粒子效果。Scene-Weather Decomposed CFG 分别引导场景与天气残差,增强目标天气效果而不过度放大全条件。该模型在保持精确相机与物体控制及场景结构一致性的前提下,天气状态生成优于视频到视频的天气编辑基线。
UnityShots基于LTX-2.3构建,通过记忆驱动实现多镜头音视频生成。视频流维护两个固定大小的记忆插槽:长期记忆(LTM)锚定开场镜头,短期记忆(STM)保存前一段尾部,由边界条件门控(融合视觉剪辑概率与节拍跟踪器信号)在每次剪辑时更新。音频流在每镜头注入参考说话者token以保持音色。离散剪辑类型先验通过AdaLN学习,推理时可调节过渡强度。团队发布包含200个多文化多镜头序列的基准,覆盖6个种族区域和10+语言,附有每镜头参考身份、参考音频和边界标签。在I2V、T2V和R2V条件下,UnityShots在所有跨镜头一致性指标上领先开源基线,并在多镜头维度匹配最强闭源系统。
研究人员在 120M 参数的 FluxAudio-S 骨干上构建管道,引入来自 TuneJury(基于开放音乐偏好数据集的成对排序器)的人类偏好奖励,同时作为训练时条件信号和样本选择标准。五个工程决策包括:训练时奖励条件(兼作推理 CFG 轴)、五种分数条件架构扫描、对 top decile 专家迭代、短偏好微调 CRPO、以及推理后处理(联合 CFG、源分离、响度归一化)。在 100 个 Song Describer 提示上的逐阶段分解表明,专家迭代贡献最大,训练时奖励条件有效,而偏好微调仅带来噪声级增益。
DataClaw_0-9B提出主动智能体化数据定制范式,将数据处理提升为可学习能力。通过两阶段pipeline将生成语义合成锚定于确定性事实锚点,构建覆盖五个物理与数字域的大规模数据集,并采用SFT与GRPO实现与复杂定制意图对齐。同时构建首个数据精炼基准DataClaw_0-val,在视频生成、真实世界VQA与GUI导航下游任务中验证了其提供高信息密度数据的能力。
@FastCompany just published a great piece on @theworldlabs , @drfeifei , Marble, and the idea that spatial intelligence ...
针对在线自蒸馏(OPSD)直接扩展到多模态大语言模型(MLLM)时产生的捷径(特权目标依赖文本参考而非图像),ViGOS提出视觉引导的OPSD框架:学生先写出视觉描述再推理。有效rollout中,纯图像感知教师监督描述,特权推理教师监督推理和答案;无效rollout由参考教师恢复输出格式。ViGOS在通用视觉语言、专家推理等基准上保持OPSD优势,并改善了图像依赖行为。
主推文认为预防医学是AI最适合切入的医疗领域,因为超声波能精准锁定身体组织,使影像检查与治疗之间的界限模糊。AI驱动的超声波可先对全身进行扫描,发现异常后直接用声波进行刺激、消融、调节或修复,实现诊断与治疗的一体化。引用推文介绍了Midjourney Scanner技术,进一步呼应了这一趋势。
A technical dive inside our new "Midjourney Scanner"
6月18日,Adobe为Firefly推出更新,引入Creative Skills,用户通过自然语言对话即可生成Logo、配色方案、营销视频等,Firefly会主动反问以完善需求,并提供控制面板微调字体、镜头运动等细节。同时,Photoshop、Premiere Pro等软件加入智能体,侧边栏输入指令可整理素材、重命名文件、更新设计稿。
MolmoMotion将运动预测形式化为目标条件的3D点运动预测:给定短视觉历史、物体上的3D查询点集和语言描述的目标,预测每个点的未来3D轨迹。研究包含三个组件:MolmoMotion-1M数据集(从116万段无约束视频中标注动作描述和3D点轨迹)、PointMotionBench人工验证基准(覆盖111类物体和61种运动类型)以及MolmoMotion模型(支持自回归坐标预测和流匹配轨迹生成)。该模型能根据语言指令预测多样化运动,在基准上显著超越现有方法,且学到的3D运动先验可迁移至机器人操作和视频生成。
Adobe 将其“创意智能体”扩展至 Photoshop、Premiere 等应用,以公开测试形式提供 AI Assistant。该智能体可自动完成多步骤常规任务,如 Premiere 分拣素材和粗剪、Photoshop 换背景、Illustrator 批量生成文件、InDesign 更新版式等。Firefly 新增面向个人创作者的品牌套件、产品图转短视频及 Quick Cut 自动剪辑功能。Adobe 工具已集成至 ChatGPT、Claude 及 Microsoft 365 Copilot,Google Gemini 和 Slack 集成即将推出。
Pixi 在 App Store 上线 iMessage 应用,用户可发送 AI 驱动的 AR 角色。角色通过收信人 iPhone 相机实时与真实环境互动,能感知面部表情和周围物体,所有视觉和音频处理在设备端进行以保护隐私。首批角色包括机器人、猫和动画信封,支持井字棋等游戏。未来计划开放市场供品牌和创作者提供专属角色,并允许用户自创。应用免费,品牌可选择性收费。仅支持 iPhone 11 及以上机型,未来将扩展至 Android 和 WhatsApp 等平台。
ListenHub全面升级为AI创作者平台,已接入Seedance 2.0、HappyHorse、GPT Image 2、Nano Banana Pro等顶级的视频和图像模型,价格优惠。即日起进行为期一周的“618+端午节”限时福利:订阅月费或年费会员额外赠送50%积分;新用户注册即赠100积分;老用户每日签到免费获得2张生图额度。活动限时7天,逾期需等到黑五。
DeepSeek 识图模式于 6 月 18 日在 App 和网页端上线。IT之家测试发现,该模式无法正确识别创始人梁文锋的照片,多次将其识别为董宇辉、张雪峰或雷军;而雷军照片可正常上传并准确识别。原因可能是梁文锋网络公开照片和信息较少,模型难以形成稳定识别特征,说明 DeepSeek 未针对自家老板做特殊识别优化。
百度智能云宣布与荣耀、vivo、OPPO、灵优智学、利尔达等十家伙伴合作,在手机、AI PC、芯片模组、AI玩具、AI眼镜等场景接入文心大模型、千帆及DuMate等能力。荣耀YOYO智能体接入文心大模型实现端云协同;vivo基于千帆7天搭建高考智能体,高峰日支撑10万次交互;OPPO用千帆搭建售后客服智能体,高频问题处理效率提升一倍;利尔达将AI集成至模组,端到端响应低于2秒;灵优智学实现1.3秒首响延迟。百度智能云已支持超1000款AI硬件爆品。
商务部等八部门6月18日发布关于加快“人工智能+消费”发展的实施意见。其中提到加大财政资金支持,落实数码和智能产品购新政策,鼓励地方在消费品以旧换新框架内自主制定补贴,重点支持新一代智能终端消费。增加AI手机、智能电脑、智能电视、智能家居、AI眼镜、智能网联汽车、人形机器人等产品供给,培育智能穿戴消费市场。同时加快AI在居家服务、养老服务、文化旅游、住宿餐饮、教育教学等领域的应用,建设AI商品首发平台,举办“人工智能进万家”活动。
加州大学伯克利分校团队研发出一款集成16个微型气体传感器阵列的电子嗅觉芯片,每个传感器涂有不同感应膜,接触气体后产生独特电信号,被称为“数字鼻子”。经机器学习训练,芯片能识别7种食品(草莓、蓝莓、香蕉、核桃、榛子、腰果、花生)以及新鲜与腐败的鸡肉、牛奶、鸡蛋。测试中可在沙拉或蛋糕等复杂气味背景中检出仅0.05克核桃。但在多种腐烂食物共存的开放环境中,准确性仍需验证。
DeepSeek 识图模式于6月18日在网页和 App 端正式上线,与快速模式、专家模式并列。开启后用户可直接上传图片让 DeepSeek 识别图像,能力超越简单文字提取。目前 App 端仍显示“图片理解功能内测中”,网页端无此提示。该模式背后的多模态模型技术细节于今年4月公开,核心框架为“Thinking with Visual Primitives(以视觉原语思考)”。
面壁智能 MiniCPM-V 4.6 演示工业仪表读取,模型需同时理解指针角度、刻度范围、单位、数字显示、液位比例等视觉信号,输出结构化 JSON(pressure_bar, temp_c, flow_lpm, level_pct)。测试使用合成控制面板,评分标准为 pass(满量程5%内)、drift(10%内)、miss。数字显示和液位较易,模拟指针更困难。该方案通过摄像头+视觉模型低成本改造传统仪表,无需更换硬件,在工厂、数据中心等场景有巨大应用潜力。
been testing MiniCPM-V 4.6 locally on my DGX Spark this demo is an industrial gauge reader i generated a synthetic contr...
Midjourney 宣布成立 Midjourney Medical,进军医疗硬件领域,计划制造基于超声波和水耦合介质的全身扫描舱。该设备无需辐射或强磁场,配备 50 万个微型传感器阵列,60 秒内完成全身层析成像,理论速度比传统 MRI 快近 100 倍。公司还将在旧金山开设 Midjourney Spa,融合扫描、泡澡、桑拿、冷水浴,鼓励像按摩一样轻松完成定期扫描。目标全球部署 5 万台,每月 10 亿次扫描。Elon Musk 回复“Cool”。首家研究型 Spa 预计 2027 年底开业。
Announcing a new division of Midjourney called "Midjourney Medical"
🥇MaineCoon: From Passive Video to Real-Time AI Presence The first unlimited-duration interactive audio-visual model. Mo...
swyx 记录 Midjourney 医疗产品发布,与会者将其比作初代 iPhone 和特斯拉发布。该产品旨在将医学成像质量提升 40-100 倍,实现“扫描器官像称体重”。Midjourney 仅以每年 1000 万美元研发预算支撑这一创新,质疑其他机构的研发效率。今年 MJ 另有 7 个副项目计划发布。Nature 论文及 biohub 播客佐证更好数据驱动更好科学。swyx 认为技术+使命足够强,监管等障碍会自行解决。
[AINews Jun 17] Midjourney Medical: scan your organs like you step on a scale https://www.latent.space/p/ainews-midjourn...
OmniAgent 提出首个原生全模态智能体框架,将长视频理解建模为基于 POMDP 的迭代观察-思考-行动循环。它通过按需动作选择性提取音视频线索并转化为持久文本记忆,使推理复杂度与视频时长解耦。训练采用 Agentic SFT(最佳轨迹合成与双阶段质量控制)和基于 TAURA 的 Agentic RL(利用 turn 级熵分配探索奖励)。模型在测试时呈现正向缩放:推理轮次越多性能越强。在 VideoMME、LVBench 等 10 项基准上,OmniAgent 达到开源模型最佳水平。7B 参数版本在 LVBench 上以 50.5% 超越 10 倍大的 Qwen2.5-VL-72B(47.3%)。
Midjourney CEO David Holz 展示了首款硬件 The Midjourney Scanner,一款基于超声波的全身扫描仪。设备采用环形传感器阵列,通过水下传感器从多角度发送超声波,约 60 秒完成扫描,捕捉肌肉、脂肪、骨骼等垂直切片。与 Butterfly Network 合作,每台搭载 40 个成像模块及 2 petaflops 处理能力,Holz 称图像质量“在许多方面可比肩 MRI”。Midjourney Medical 计划 2027 年底前在旧金山 Union Square 开设 Midjourney Spa,内设 10 台扫描仪及健身房、桑拿、冷浴。目前仅提供“身体成分图”,不涉及 FDA 诊断许可,用户可创建扫描库并与医生或 AI 健康工具共享。
谷歌在 Canary 频道最新 Chrome 浏览器中引入实验性 Flag,启用后工具栏可嵌入 AI Mode 快捷方式。AI Mode 是谷歌搜索结果页的 AI 对话交互,支持自然语言提问、多轮对话及文件上传分析。用户启用“Contextual Tasks Pin Button In Toolbar”Flag 后,点击按钮将在当前页面右侧弹出侧边栏,可针对浏览内容提问并上传文件。谷歌正测试“Browse with AI”和“Google Search AI Mode”两个暂用名。
RNG-Bench是一个评估多模态大语言模型在闭环交互中重建过去观测并据此行动能力的基准套件,包含Matching Pairs和3D Maze两个互补游戏。基准通过网格大小、视觉模式和观测模态三个难度轴控制复杂度,并引入对决赛制消除实例方差及Memory Gap指标分离遗忘与决策错误。最难配置需约128K tokens上下文和每轮350张图像,前沿模型尚未饱和。Memory Gap分析显示主要错误源于遗忘。微调Qwen3.5-9B可提升该基准性能并迁移至现有基准,不损失通用多模态能力。
@nutlope 让 Kimi K2.7 Code 和 Claude Fable 5 各生成 12 个落地页并排对比。初始两者均有“AI 生成感”;为 Kimi 设置自定义 Design Inspiration MCP Server(利用多模态能力)后质量显著提升。成本上,B2B SaaS 单页 Kimi 仅 4 美分,Claude Fable 1.09 美元(约 27 倍差);平均 Kimi 比 Fable 便宜约 16 倍、比 Opus 便宜约 8 倍,总成本降低 94%。质量由 GPT-5.5 评分(0-100),Claude Fable 略高但差距小,Kimi 性价比突出。实验表明,结合高质量视觉参考后,开源模型已足以支持实际落地页工作流,批量迭代优势显著。
http://x.com/i/article/2067278912984436736
谷歌即将发布 Gemini 3.5 Pro,已在 Gemini 3.1 Pro 产品卡片上标注“3.5 Pro 即将推出”。相比 3.1 Pro,预计视觉能力更强、多模态推理更出色,SVG/前端生成功能升级。将搭载更严格的安全过滤器和内容审核机制,定价预计更高。最大期待是谷歌能在正式发布前修复早期版本在长复杂任务中的“偷懒”问题。
CogniRoute 是一个基于模式引导的混合专家(MoE)框架,专用于全模态社交推理。它在训练时通过认知模式分解跨模态关系、推理需求和时序范围,并在监督微调中对齐全局路由签名;还引入路由感知强化学习,联合优化 token 生成与专家分配。在 OmniSocialBench(含118K结构化训练示例的诊断性社交视频问答数据集)上,CogniRoute 平均准确率达59.38%,比最强专有基线高15.33个百分点,比最强开源全模态基线高26.77个百分点,在视听协调、冲突解决和时序社交推理上提升最大。
研究对比视觉语言模型(VLM)与来自利马和纽约的人类驾驶员在两地行车记录仪视频上的表现。使用VQA范式提出事实、评级、反事实和推理四类问题,测试泛化能力。结果发现人类与VLM的回答存在差异,但地理来源对双方回答均无显著影响。数据集已公开。
6月13日,Anthropic在旧金山举办12小时黑客马拉松,310名参与者使用Opus 4.8和$500 credits完成原型。第一名Tekton:输入历史建筑照片后,Claude自动搜集图纸等资料,跨339个施工步骤重建3D模型,每个构件附带证据链;自纠循环反复检查直至20项测试全部通过。第二名Sim Francisco:基于美国人口普查数据生成10,000名合成市民,各具独立世界观,实时对新闻投票,精准预测选举结果。第三名Custom Universe:用手机拍摄物件照片,Opus 4.8将其转为可拖放、实时渲染的3D物体,支持文本指令重设风格。