Introducing Ideogram 4.0: the best open image model in the world. Think it. Make it. Own it. Download the weights, fine-...
Google 开源 Gemma 4 12B(密集参数,Apache 2.0 许可),采用全新无编码器架构:移除独立的视觉(550M 参数、27 层 Transformer)和音频(300M 参数、12 层 Conformer)编码器。视觉改为 35M 嵌入层(约缩小 15 倍),音频以 40ms 帧直接投影到大语言模型。模型在 16GB VRAM 笔记本上即可运行智能体推理、视觉和音频任务,性能接近 26B 参数模型。共享权重支持一次 LoRA 调优覆盖视觉、音频和文本。
Today we're introducing Gemma 4 12B - our latest open model that brings advanced agentic reasoning, vision and audio dir...
Google 推出 Gemma 4 12B(Apache 2.0),采用无独立视觉编码器的统一多模态架构。仅用 35M 参数的轻量嵌入器,将图像切为 48×48 块、音频(16kHz 原始波形)切为 40ms 帧,直接作为 token 输入 Transformer。M4 Max 上 4-bit 量化识图延迟 1.2-1.5 秒,官方称 16GB 内存可用,但社区指出高分辨率多图会压线。该设计暗示:当基座模型足够大,专用子模块不再是必需,未来一个微调好的统一模型可能取代传统拼装 Whisper、LLaVa 等多模态 pipeline。
Meet Gemma 4 12B! A unified, encoder-free multimodal model designed to bring high-performance intelligence directly to y...
苹果分析师郭明錤更新预测:此前规划的XR头戴装置路线图已作废,目前仅两款智能眼镜设备有能见度。路线图大改由下一任CEO John Ternus拍板,Vision Pro系列被移除,资源转向智能眼镜。最新供应链调查显示,具有显示功能的AR/XR智能眼镜(光波导)推迟至2029年,无显示功能的AI眼镜(类似Ray-Ban Meta)仍预计2027年推出。郭明錤认为智能眼镜将带动下一波消费电子趋势。
Apple Vision系列與智慧眼鏡產品規劃預測 (2025-2028):智慧眼鏡可望帶動下一個消費電子趨勢 全文連結:https://mingchikuo.craft.me/FgF89wv0af9Bpw
Meet Gemma 4 12B! A unified, encoder-free multimodal model designed to bring high-performance intelligence directly to y...
Google发布Gemma 4 12B,一款无编码器的统一多模态模型,可直接将视觉和音频输入送入LLM主干,无需传统多模态编码器。该模型填补了移动端E4B模型与26B MoE模型之间的空白,封装前沿推理与原生音频能力,采用Apache 2.0许可。在16GB VRAM下即可本地运行复杂多步骤智能体工作流,性能接近26B模型。
关联讨论 8 条X:Demis Hassabis (@demishassabis)X:Sundar Pichai (@sundarpichai)X:Google AI for Developers (@googleaidevs)Google Developers Blog(RSS)X:Jeff Dean (@JeffDean)The Decoder:AI News(RSS)Google DeepMind:Blog(RSS)Hacker News 热门(buzzing.cc 中文翻译)DAIR.AI的Elvis Saravia将微软SkillOpt论文集成到智能体编排器中后,所有智能体技能获得测试框架与自我演化机制。应用于多模态论文图表提取技能时,质量评分从0.73提升至0.93(+20点),提取结果显著改善。Saravia认为这是自我改进AI的早期范例,该思路可扩展至智能体模式优化、工具使用、上下文工程、智能体搜索及工作流评估等环节。他已基于SkillOpt启动多项后续实验。
商汤(SenseTime)开源SenseNova U1模型,宣称实现“看、思考、创作”一体——从一张普通运动鞋图片直接生成营销视觉效果。该模型代表了架构上的范式转变。用户可通过SenseNova Studio、HuggingFace和GitHub尝试使用。
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》xAI前视频多模态负责人Ethan He在离职转向语言模型研究时表示,视频模型最大的瓶颈是语言模型。他曾在NVIDIA参与Cosmos模型开发,并在加入xAI后三个月内从零搭建出Grok Imagine 0.9。他指出训练视频模型成本高昂,例如存储10亿个视频需5PB,仅AWS月费就达数百万人民币。视频模型需先预训练图像模型,再通过VLM生成合成字幕以解决数据对齐问题。当前模型在生成长视频时上下文容易爆炸,而他认为扩散模型对文本的理解过于字面化,对语言意图的深层理解才是突破关键。
本文转述了Laten Space对Ethan He的访谈。他分享了AI开发的核心经验:模型进步取决于团队迭代速度;质量提升常源于修复数据与训练流程的BUG而非新算法;视频模型需要极详尽的文本标注。他还指出,图像生成耗时主要在“思考”重写提示词,且语言模型描述音乐细节非常困难。在脑机接口普及前,最自然的人机交互将是用户说话,AI用生成式画面回应。
http://x.com/i/article/2062080260586283008
Can MLLMs actually track what's happening in a video? Introducing VSTAT 🎯, our new benchmark for visual state tracking....
Coding like Opus4.7 / 1M context window / Native multimodal @MiniMax_AI M3 is now on SiliconFlow with day-0 support 🔥 �...
商汤联合创始人兼首席科学家在2026 AI创新论坛指出,模型架构优化能显著降低单位智能所需的算力。其新发布的多模态模型SenseNova U1基于自研Neo-Unify架构,实践了这一理念,在生成信息图时实现了显著更低的计算成本,并已适配多款中国芯片。商汤强调持续通过应用与模型创新推动芯片发展,以创造商业价值与长期竞争力。
MiniMax M3模型通过Live Session分享了核心信息。其MSA技术采用块级Top-K选择,保持真实、未压缩的KV缓存,使1M token上下文窗口高效运行。该技术将长上下文生成的注意力内核解码时间从约30%降至约5%,效率提升显著。M3是原生多模态模型,支持图像视频输入,可处理长程智能体任务及桌面操作,并具备视觉自评估迭代能力。模型在金融任务中展现出初级分析师水平。未来版本将聚焦更复杂的长程任务,并扩展金融、法律与生物领域。Together AI为其提供推理服务。
MiniMax M3 is live and Together AI is powering its inference 🚀 Tomorrow at 6pm PT we're going live on X Spaces with the...
MiniMax just released MiniMax-M3, their first multimodal model. It is the new open-weight SOTA on the Vals Index and the...
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》Hugging Face 上一篇热门论文介绍了名为 Harness 的 AI 论文图表生成框架。该框架围绕一个共享的结构化规格文档 S 运作,包含四个协作角色:设计者生成视觉方案,执行者渲染图像或代码,验证者输出带定位的诊断报告,修订者据此修改规格文档 S。作者参考该框架进行了简化实践,写成一个技能包,其中使用了 GPT-image-2 进行生图,并整合了 URL 抓取功能,可直接生成配图。
微软在官网更新了 MAI 模型系列,重点发布了 MAI Code 1 Flash 和 MAI Thinking 1。MAI Thinking 1 拥有 35B 活跃参数和约 1T 总参数,采用 MoE 架构,其推理成本低于更大型模型,但在 SWE-Bench Pro 上的表现可与 Claude Opus 4.6 竞争。MAI Code 1 Flash 则专注于通过规划和推理来完成端到端的复杂编码任务。此外,MAI Image 2.5、MAI Voice 2 及 MAI Transcribe 1.5 也同步上线。
OpenAI 为 Codex 带来重大升级,将其从编码助手转变为可构建交互式工作空间的“空间构建器”。核心新功能“Sites”能生成托管的交互式工作区,而不仅是文档或代码文件。同时新增插件以适配不同职业,并推出“标注”功能允许用户对结果的特定部分进行修复。Codex 目前拥有500万周活跃用户,其中20%为非开发者,该群体增长速度是开发者的3倍以上。“Sites”功能正面向 Business 和 Enterprise 计划推出。
Building apps has never been easier. With Sites, Codex can turn your work, ideas, and plans into an interactive website ...
关联讨论 5 条OpenAI:官网动态(RSS · 排除企业/客户案例)X:OpenAI (@OpenAI)X:Sam Altman (@sama)IT之家(RSS)X:OpenAI Developers (@OpenAIDevs)世界模型(World Model)在医疗领域实现突破,从传统的静态病灶识别转向动态预测模拟。医学世界模型(MeWM)能基于患者当前CT影像,模拟数月疾病进展,并合成治疗后的肿瘤轨迹视觉表征。在肝癌TACE等临床应用中,其通过反事实推理量化不同方案对生存率的影响,将临床决策成功率(F1-score)提升13%。这一“先模拟再行动”的范式正从医疗拓展至农业气候、城市规划等更多高风险领域。
While showbiz bickers over AI video continuity glitches and educators remain stuck debating AI-generated PPTs, World Mod...
美团LongCat发布视频世界模型评测基准WBench。该基准将测试重点从画面美观转向控制、多轮记忆、指令遵循和物理合理性等核心能力。它包含289个案例、1058个交互轮次,评估了20个模型在导航、主体动作、事件编辑等5个维度的表现,共使用22项自动指标。研究发现,没有任何模型能在所有维度上占据主导,这表明现有系统尚未将高质量渲染、可靠控制、长期记忆与物理规则遵循整合为稳定能力。WBench的设计能区分失败是源于渲染、场景设置、控制还是物理问题,并指出导航能力与视觉质量基本无关。
Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities - Coding & Agentic Frontier:...
AI-generated infographics with garbled text have been a running joke. SenseNova U1's new infographic-enhanced model fina...
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)推文分享作者日常使用的两个AI翻译工具及工作流。1. Memo软件(免费开源):用于处理本地视频。流程为下载视频后,使用Whisper本地模型进行转录以节省成本,再接入DeepSeek-V4-Flash API进行翻译。该软件支持字幕烧录、编辑和导出,但在X平台上传速度慢。2. 沉浸式翻译:主要用于网页、YouTube视频及图书翻译,优点是格式保持较好。两者均支持接入用户自定义的API模型。
特么终于搞完了,太费劲了! 整整花了1晚上才把它翻译中文、剪辑、上传完毕。 富人也有富人的烦恼,只是我们的烦恼不一样罢了! 这两天刷屏的Ivanka Trump (特朗普的长女千金)的长播客采访。 整个播客中有些观点不能说多么锐利,但是也从...
阿里云推出Qwen3.7-Plus,这是一个统一视觉与语言的多模态智能体模型。其定位为多功能编码智能体与生产力助手,支持全模态输入,能够跨GUI与CLI执行任务。该模型具备视觉智能体能力,涵盖感知、推理、定位及搜索增强问答,并能跨多种智能体框架泛化。目前已在阿里云百炼平台通过API上线。
关联讨论 6 条IT之家(RSS)X:Kim (@kimmonismus)Qwen:Blog Retrieval(API)公众号:通义实验室(千问)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:通义千问 / Qwen (@Alibaba_Qwen)ComfyUI在5月集成了11个涵盖图像、3D、音频、视频和多模态的新模型,将前沿AI能力转化为可本地运行的节点。亮点包括:Krea 2以Partner Node形式上线,专注于风格优先的图像生成;来自Netflix的VOID可干净移除对象及其引发的阴影、反射等物理交互;Tripo 3.1与TripoSplat结合,实现单图端到端生成3D Gaussian资产。此外,Gemma 4、Stable Audio 3等模型也已同步上线。用户无需单独调用API或处理兼容性,通过节点拖拽即可构建复杂工作流。
In May, we integrated 11 new models spanning image, 3D, audio, video, and multimodal. The highlights: → Krea 2 - style-f...
MiniMax M3 is available on AI Gateway. MiniMax's first long-context model, with support for multimodal inputs. 50% off f...
MiniMax开源发布了国内首个集成前沿Coding能力、1M超长上下文和原生多模态的模型M3。该模型能在24小时内自主完成145次CUDA算子迭代。与此同时,xAI前负责人指出,视频模型的上限将由LLM决定,下一个类似Sora的产品应是视频Agent,而非单纯的视频生成模型。
阿里云发布了 Qwen3.7-Plus,这是一款统一了视觉与语言能力的多模态代理模型。该模型旨在成为通用的代理基础,支持图形界面与命令行操作,能够处理视觉和文本任务,充当编程代理和效率助手。其能力涵盖视觉感知、推理、目标定位以及搜索增强问答,并可跨多种代理框架进行泛化。该模型现已在阿里云百炼平台提供 API 服务。
关联讨论 6 条IT之家(RSS)X:Kim (@kimmonismus)Qwen:Blog Retrieval(API)公众号:通义实验室(千问)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:通义千问 / Qwen (@Alibaba_Qwen)