AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 907 条
全部一手资讯X论文
标签「多模态」清除
Google Gemini@GeminiApp · 5月21日66

Gemini 3.5 Flash understands complex topics and diagrams for your specific needs to visualize the results in a way that’s perfect for you. Watch Gemini take an advanced math paper, explore it visually, and generate the elements that matter most.

译Gemini 3.5 Flash 能理解复杂主题和图表,满足您的特定需求,以最适合您的方式可视化结果。 观看 Gemini 处理一篇高等数学论文,进行可视化探索,并生成最重要的元素。

Google AI Developers@googleaidevs · 5月21日74

🪡 @stitchbygoogle is your agentic AI design partner. Move from an idea to a live mobile and web app UI in a single flow. Here’s what’s new for builders… 𓏵 Design with Stitch more naturally and intuitively. Stitch now streams the design build live so you can make edits, give interactive feedback, and watch the layout update in real-time without losing your flow. 𓏵 Skip the blank canvas and start from existing files. Import your codebase or Design.md directly, and let Stitch build from your actual production components so everything stays on brand. 𓏵 Start designing in motion. Stitch can now generate dynamic, moving interfaces so you get a kinetic UI that actually looks, feels, and functions like a finished product. 𓏵 Take designs directly to production. Skip complex deployment pipelines and export your projects to a live, shareable URL. These updates to Stitch are a step up for prototyping and deployment. Available globally today: http://stitch.withgoogle.com

译Google推出了其AI设计伙伴Stitch的多项重要更新。新功能支持实时流式构建设计,允许用户在不中断流程的情况下直接进行编辑和互动反馈。Stitch现已能够导入现有代码库或Design.md文件,基于实际生产组件进行设计以保持品牌一致性。同时,工具新增了动态界面生成功能,并可将设计项目直接导出为可分享的线上URL,简化了从原型到生产的部署流程。该工具现已面向全球用户开放。

Google DeepMind@GoogleDeepMind · 5月21日84

Gemini 3.5 Flash has landed.

译Gemini 3.5 Flash 已正式发布。

小互@xiaohu · 5月21日39

由Gemma 4 驱动的 Open Duck 机器人 有视觉能力,还能对话

译由Gemma 4驱动的Open Duck机器人 具备视觉能力,还能对话

Google Gemini@GeminiApp · 5月21日72

Creating, remixing, and editing a video is easier than ever with Gemini Omni. It offers a fluid, conversational way to create and edit. Just upload a video from your camera roll and ask Gemini to make changes.

译使用Gemini Omni创建、混剪和编辑视频比以往任何时候都更容易。 它提供了一种流畅的对话式创作和编辑方式。只需从相册上传视频,并让Gemini进行修改即可。

Rohan Paul@rohanpaul_ai · 5月21日63

Chinese AI lab SenseTime just open-sourced SenseNova U1, a unified multimodal model that can understand, reason, and generate images + text inside 1 model. The interesting part is the architecture: it removes the usual visual encoder and variational auto-encoder setup, then handles image and language inside a shared representation space, instead of being passed between separate modules. That means less handoff between modules, less information loss, and better consistency when creating dense visual content like infographics, guides, posters, comics, and image-text workflows. That’s how the model can generate coherent text and images together in one flow, which is why it is strong for infographics, guides, comics, posters, and step-by-step visual content. For infographic generation specifically, it is also around 2x faster than Qwen-Image-2.0 / Seedream-4.5 while staying in the same rough quality band, based on the client benchmark chart. 1/n

译商汤科技近日开源了SenseNova U1,其核心创新在于架构设计。该模型摒弃了传统的视觉编码器与变分自编码器分离结构,采用单一共享表示空间原生处理图像与文本,极大减少了模块间转换导致的信息损耗。这一设计使模型能够连贯地同时生成图文内容,在信息图、海报、漫画等需要高一致性的密集视觉内容创作上优势显著。性能方面,其信息图生成速度在同等质量下约为Qwen-Image-2.0/Seedream-4.5的两倍。

Google AI@GoogleAI · 5月21日69

We partnered with artists, designers, and builders to create new AI tools that solve real problems in their creative workflows. Here’s what’s new: — Introducing Google Pics in @GoogleWorkspace: A brand-new image creation & editing tool. Move and resize objects, add text, and translate just by hovering and clicking — Big updates to @GoogleFlow: 1) You can now create with Gemini Omni Flash in Google Flow 2) Google Flow Agent is a multi-step creative partner that reasons and plans complex tasks with you. 3) Google Flow tools are custom tools you can “vibe code” for animations, video effects, text layering & more — Design live with @StitchbyGoogle: Now, you can use text or voice prompts to edit layouts in real time then export those designs straight to code — More creative control in @GoogleFlowMusic: Edit songs section by section, remix the style of full songs, and create music videos with our new Gemini Omni Flash model

译谷歌与创作者合作推出系列AI工具更新。Google Workspace新增图像创作编辑工具Pics;Google Flow支持Gemini Omni Flash模型,并推出Flow Agent作为多步骤创作伙伴;设计工具StitchbyGoogle支持实时文字或语音编辑布局并导出代码;音乐工具Google FlowMusic增加分段编辑、风格混音及视频生成功能。

Berryxia.AI@berryxia · 5月20日72

特么现在Flash ≠便宜了啊? 仅仅是快了吧~ Google把Gemini 3.5 Flash直接扔出来后,Artificial Analysis测完直接给出了最扎心的结论: 它在Intelligence vs Speed的Pareto前沿上,把整个行业又往前推了一大截。 Intelligence Index拿到55分,比Gemini 3 Flash高9分,直接超过Grok 4.3和Claude Sonnet 4.6。 Agentic任务(GDPval-AA)Elo评分飙到1656,远超前代。 幻觉率从92%暴降到61%。 输出速度超280 tokens/s,比上一代快70%。 多模态也继续领跑,MMMU-Pro 84%。 看起来几乎完美。 但代价是:跑一次Artificial Analysis Intelligence Index的成本,是Gemini 3 Flash的5.5倍,比Gemini 3.1 Pro贵75%。 定价直接3倍($1.5/$9 per 1M input/output)。 “Flash”这个名字,本来代表又快又便宜。 现在它代表:你终于可以用更快的速度,拿到真正旗舰级的智能,但你得为这个组合付更多钱。 Google这次是把顶级智能塞进了Flash系列,还是在用价格重新定义什么叫“轻量”? 完整基准在这里:https://artificialanalysis.ai/models/gemini-3-5-flash

译Google发布的Gemini 3.5 Flash在性能上实现飞跃,智能指数达55分,超越Grok 4.3等竞品,幻觉率大幅下降,输出速度超280 tokens/s。然而,其运行成本是前代的5.5倍,定价显著提高,引发对“Flash”是否仍代表“便宜”的讨论。该模型已在ZenMux平台开放免费体验,实际测试显示效果惊艳,在多项Agent和多模态榜单中表现顶尖,标志着顶级智能与极致速度的新结合。

向阳乔木@vista8 · 5月20日73

几年前元宇宙火爆,在字节做过3D虚拟人。 那时做一个东西,要协调建模师、绑骨师、贴图师……实在崩溃。 刚试了下 Rodin Gen-2.5,一张图就能生成 3D 资产,太方便了! 一键下载 obj、fbx、glb等源文件和贴图资源,可以导入到3D软件继续编辑。 据说 Rodin Gen-2.5 是全球首款实现千万级面数的 3D 生成模型,用了原生 3D 贴图算法,材质纹理超精细,有点遥遥领先。 对游戏、动画、影视等产业来说,这种AI模型产品,是真 · 生产力工具。

译AI 3D生成模型Rodin Gen-2.5发布,号称全球首款能实现千万级面数的同类产品,材质纹理精细。该模型可从单张图片生成高质量3D资产,快速输出obj等通用格式文件供进一步编辑,极大地简化了传统建模、绑骨、贴图的复杂流程。其技术亮点包括原生3D贴图算法,旨在为游戏、动画、影视等产业提供真正的生产力工具。

SenseTime@SenseTime_AI · 5月20日68

Turn your ideas into visuals that spark stories 🧨

译将你的想法转化为激发故事的视觉画面 🧨 [引用 @Adamaestr0_]:大多数AI工具可以写作或生成图像。 但这个能同时做这两件事。 向你介绍 SenseNova U1。 一个能同时思考文本和图像的AI。 这改变了一切 🧵

Berryxia.AI@berryxia · 5月20日73

兄弟们!今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了! 我第一时间用它跑了那个经典的「AI模型递归二叉树生长测试」. 同一个 prompt,不同模型画出的树形态完全不一样。(见视频) Gemini 3.5 Flash 从输入提示词到生成完整 HTML 动画网页(树干慢慢长出、分支递归展开、最后随风摇摆),全程只用了 77.56 秒! 整体效果非常惊艳:树形态自然优雅、生长动画丝滑、视频和内容呈现都顶级! 熟悉的老朋友都知道,ZenMux 每次新模型都是 ZeroDelay 首发. Google I/O 2026 今天刚发布,现在立刻就能通过 API 调用! 还有免费额度可以白嫖~速度是真的没话说,还完美保留了旗舰级模型的能力。 专为 Agent 设计,在 MCP Atlas、Toolathlon、Finance Agent 等多项榜单直接拿下第一! 多模态理解也极强:MMMU-Pro 83.6%、CharXiv Reasoning 84.2%,全面超越上一代 Gemini 3.1 Pro。完全兼容主流 API 格式,无需改动现有工具链。 支持按量计费 + Builder 套餐。 👇 直接体验 正式版 → http://zenmux.ai/google/gemini-3.5-flash 免费试用 → http://zenmux.ai/google/gemini-3.5-flash-free

译Gemini 3.5 Flash现已在ZenMux平台免费开放试用。该模型在经典的递归二叉树生长测试中表现惊艳,仅用77.56秒便生成了完整的HTML动画网页,展现了顶级的响应速度与生成质量。其在MCP Atlas、Toolathlon等多项Agent榜单中位列第一,多模态理解能力(如MMMU-Pro得分83.6%)也全面超越上一代模型。模型完全兼容主流API格式,并提供按量计费和Builder套餐选择。

Rohan Paul@rohanpaul_ai · 5月20日49

Google's Android XR glasses demo showed real-time visual capture via the glasses' camera feeding into Gemini. The AI edited the image per voice instructions, with the result pushed directly to the paired smartwatch for viewing.

译谷歌的Android XR眼镜演示展示了通过眼镜摄像头进行实时视觉捕捉,并将画面输入Gemini。AI根据语音指令编辑图像,结果直接推送到配对的智能手表上查看。

Rohan Paul@rohanpaul_ai · 5月20日51

OpenClaw + Meta Ray-Ban glasses. This setup uses the Ray-Ban glasses' built-in camera for egocentric vision. Voice input triggers Gemini Live to interpret what the wearer sees, then routes tasks to OpenClaw, which then completed the purchase.

译OpenClaw + Meta Ray-Ban眼镜。 该设置利用Ray-Ban眼镜的内置摄像头实现第一人称视角。语音输入触发Gemini Live解读佩戴者所见,随后将任务路由至OpenClaw,最终完成购买。

Kling AI@Kling_ai · 5月20日50

Kling AI Cannes Showcase — House of David & Trailer of The Old Stories: Moses Deep integration into Hollywood-grade pipelines. House of David, the first Hollywood production to openly discuss the use of AI video generation technology in the production process on an industrial level, has captivated over 44M viewers worldwide, ranked among the U.S.’s top 10 new series debuts, and reached #1 on Prime Video in the U.S. Kling AI works seamlessly with live-action production, delivering consistent, high-quality shots at scale and meeting strict industrial delivery standards — proving AI as a reliable, efficient new foundation for global filmmaking.

译在戛纳展示的Kling AI视频生成技术已深度融入好莱坞工业级制作流程。其首个公开应用于剧集《David之家》的项目,吸引了超过4400万全球观众,位列美国新剧前十并登顶Prime Video。该技术能够无缝对接实拍制作,以高标准交付大量高质量镜头,证明了AI作为全球电影制作可靠、高效新基础的潜力。

Berryxia.AI@berryxia · 5月20日57

兄弟们! 今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了! 我第一时间用它跑了那个经典的「AI模型递归二叉树生长测试」. 同一个 Prompt,不同模型画出的树形态完全不一样。(见视频) Gemini 3.5 Flash 从输入提示词到生成完整 HTML 动画网页(树干慢慢长出、分支递归展开、最后随风摇摆),全程只用了 77.56 秒! 整体效果非常惊艳:树形态自然优雅、生长动画丝滑、视频和内容呈现都顶级! 熟悉的老朋友都知道,ZenMux 每次新模型都是 ZeroDelay 首发. Google I/O 2026 今天刚发布,现在立刻就能通过 API 调用! 还有免费额度可以白嫖~ 速度是真的没话说,还完美保留了旗舰级模型的能力。 专为 Agent 设计,在 MCP Atlas、Toolathlon、Finance Agent 等多项榜单直接拿下第一! 多模态理解也极强:MMMU-Pro 83.6%、CharXiv Reasoning 84.2%,全面超越上一代 Gemini 3.1 Pro。 完全兼容主流 API 格式,无需改动现有工具链。 支持按量计费 + Builder 套餐。 👇 直接体验 正式版 → http://zenmux.ai/google/gemini-3.5-flash 免费试用 → http://zenmux.ai/google/gemini-3.5-flash-free

译Google I/O 2026 发布了新一代模型 Gemini 3.5 Flash,ZenMux 平台已第一时间提供 API 接入并开放免费试用。实测中,该模型仅用时 77.56 秒即完成一段复杂 HTML 递归二叉树生长动画,生成效果流畅自然。其性能全面升级,在多项 Agent 专属评测榜单中位列第一,多模态理解能力(MMMU-Pro 达 83.6%)也显著超越前代。模型完全兼容主流 API 格式,支持按量计费与套餐方案,便于开发者快速接入。

Kling AI@Kling_ai · 5月20日72

http://x.com/i/article/2055141424790970368 # Kling AI Introduces the World’s First Native 4K Video Model On April 23, Kling AI officially launched the world’s first native 4K video generation feature for the Kling 3.0 video model series. Designed for professional-grade content creation, the new 4K feature enables users to generate true 4K videos in a single click — delivering sharper visuals, richer detail, and cinematic image quality while significantly improving production efficiency. Since its launch, Kling 4K has already been adopted across a wide range of creative industries, from Hollywood production teams to independent creators, from animation studios to advertising agencies. Here’s a look at how industry pioneers are using Kling 4K to reshape creative workflows. ## Film & Television As AI-generated video continues to evolve from experimental creation into industrial-scale production, 4K quality has become one of the key requirements for professional film and television workflows. From cinematic detail to character consistency, production teams are increasingly looking for AI tools that can integrate seamlessly into existing pipelines without sacrificing visual fidelity. One of the earliest and most vocal adopters of AI in Hollywood production is Jon Erwin, the creator of House of David and founder & CEO of Innovative Dreams. His team has openly discussed how AI tools have been already being incorporated into large-scale productions, with Kling 4K becoming part of that evolution. > Since House of David season 1, Kling has been an essential part of our workflow. Now it has become the first foundation model that we’ve used that is native 4K. The details are superb and nuanced. It’s beautiful. It’s another leap forward in GAI tools. For production teams like Innovative Dreams, native 4K generation is not simply about resolution, it directly impacts how AI-generated footage can be used alongside traditional cinematic assets. Another studio helping define the next generation of AI-native filmmaking is Wonder Studios, a studio producing music videos alongside Google DeepMind, YouTube and Universal Music Group, original series and commercial work for some of the world's leading brands and artists. Built on a belief that filmmakers should own what they build, Wonder offers creators a genuine stake in their projects, and that same uncompromising approach to craft is why native 4K generation has become essential to the studio's work. > Kling's native 4K is a must-have for any serious creator. The problem with upscalers is that they tend to modify your characters in the process, but because Kling generates at true 4K from the ground up, that issue just doesn't exist. Your characters stay consistent, your quality stays intact, and for anyone working in AI video, it's become an essential part of the workflow. For AI-native productions, consistency is often one of the biggest technical challenges. Traditional upscaling workflows can unintentionally alter facial features, costumes, or visual identity between shots. Native 4K generation helps preserve those details directly from the source, allowing creators to maintain continuity across sequences while reducing additional post-production correction work. ## Animation Production Cao Han, the animation director incorporated Kling AI into multiple stages of production while creating the AIGC feature project Born of the Tide. Cao Han explained that his team tested many different AI models during production. > While some models could accept highly detailed input images, the generated results often degraded into a more generic 3D animation look, with noticeable loss in facial features and fabric textures. In comparison, Kling AI was able to preserve artistic color tones with much higher fidelity while maintaining realistic texture and motion in complex physical effects such as water and fire. At the same time, Born of the Tide is a story heavily focused on ensemble scenes, featuring large-scale sequences such as dragon boat races, ceremonial performances, bombings, and conflicts involving government forces fighting over land. These scenes often require dozens of characters to appear within the same frame. In traditional production workflows, when characters occupy only a small portion of the screen, facial details and visual clarity can easily break down. Kling 4K, however, made these complex large-scale scenes far more viable for stable, production-ready execution. ## Advertising & Commercial Production In the advertising industry, agencies and creative studios are now exploring how native 4K AI workflows can support premium commercial production across beauty, fashion, automotive, and branded storytelling. Wes Walker, founder and managing partner of Obsidian, has worked on high-end commercial campaigns for major global brands, including luxury labels such as Longchamp. In discussing the studio’s adoption of Kling 4K, Walker highlighted how production-grade image quality is becoming essential for AI-generated assets to coexist with traditional cinematography. > At Obsidian, we work to a premium standard, whether the work is live action, hybrid, or fully synthetic. Our productions in luxury, beauty, automotive, product, and narrative world-building demand high resolution, high fidelity imagery that can stand seamlessly beside live action. That’s why 4K matters. It marks a real step toward AI becoming fully production-ready. We’ve been consistently impressed by Kling’s performance, the quality of its team, and its ability to render imagery that feels cinematic, grounded, and emotionally alive. When paired with our own pipeline and tools like EchoChrome, which upscales bit depth, these assets are now holding up on major commercials and high-end productions in ways that were not possible even a short time ago. For studios operating at the premium end of commercial production, the shift toward native 4K is not only about sharper imagery, but also about enabling AI assets to withstand professional color grading, compositing, and large-format delivery requirements. This transition is also being recognized by long-established production companies like Tool, an award-winning cross-media creative production company with decades of experience in live-action filmmaking and creative technology. The company has received major industry recognition including Emmy Awards and Cannes Palme d’Or honors. > We’ve been testing Kling’s 4K output across a range of projects and the results speak for themselves - exceptional image fidelity, sharp textures, no degradation in logos or fine detail — and the stability enables precise creative control that supports a truly intentional cinematic experience rather than purely generative output. This changes what’s possible for production-ready AI work. Dustin Callif, President of Tool, described Kling 4K as a meaningful advancement toward production-ready AI filmmaking and advertising workflows. ## AI Productivity Tools For creative platforms and production tools, the value of Kling 4K is even more direct: it significantly reduces intermediate production steps while enabling large-scale, high-quality content creation. Launched by Wondershare, ReelMate is a one-stop AI premium drama production platform that supports a fully integrated workflow spanning scriptwriting, asset generation, storyboard creation, video generation, and post-production editing. Designed for premium AI live-action productions as well as 2D and 3D animated content creation, ReelMate deeply integrates leading AI video models including Kling, while leveraging director-level AI agent capabilities to ensure character, scene, and cinematic consistency across multi-shot productions. Wondershare ReelMate has already achieved a 10× increase in storyboard creation efficiency, while overall AI-driven production efficiency has improved by more than 5× compared to traditional workflows. By deeply integrating Kling’s native 4K capabilities into its AI premium drama and film production pipeline, ReelMate is further opening up a new pathway toward industrial-grade AI film and television production, enabling both production efficiency and visual quality to reach professional studio standards. According to evaluations conducted by Wondershare, Kling AI is capable of directly generating native 3840×2160 resolution content during the generation stage itself. Even under complex lighting conditions, character skin textures remain delicate and natural, achieving cinema-level visual quality. In character rendering, facial textures, eye details, and subtle micro-expressions are reproduced with remarkable precision, providing stronger visual support for high-end AI live-action and premium drama production. Tech companies like Dashverse have begun building full-stack narrative platforms centered on AI. Its product Frameo, for instance, is designed for the large-scale production of next-generation AI movies, TV dramas and micro-dramas. Through its partnership with Kling AI, Dashverse is integrating more advanced AI production workflows into Frameo, enabling seamless synergy across audio production, character animation, multilingual storytelling and cross-genre style adaptation. > Combining Kling's continuously evolving video generation capabilities with Dashverse's production infrastructure, the overall production cycle has been cut by more than 50%, while retaining studio-level content quality and supporting global distribution. Powered by Frameo and Kling, Dashverse is building global infrastructure for AI-native storytelling, helping bridge the "imagination gap". It empowers creators, filmmakers, VFX artists and animation studios to operate as efficiently as full-fledged production companies. More than a feature upgrade, Kling 4K signals a broader shift in the industry: AI-generated content is moving from experimental workflows into a scalable tool for professional production. As 4K adoption grows across studios, filmmakers, and commercial teams, production-ready quality is becoming the new standard.

译4月23日,Kling AI正式推出全球首个原生4K视频生成模型,专为专业内容创作设计。该功能支持一键生成真4K画质视频,显著提升画面细节与制作效率。模型已获得好莱坞团队、动画工作室等多方采用。好莱坞制片人指出,这是其工作流中首个使用的原生4K基础模型;Wonder Studios强调,原生4K从底层生成避免了传统放大技术的角色变形问题,保持了画面一致性;动画导演则认为,该模型在保留艺术色调与复杂特效纹理方面优于同类产品。

Rohan Paul@rohanpaul_ai · 5月20日73

Chinese AI labs are increasingly releasing very serious open source work. SenseNova U1 just dropped on HuggingFace: native multimodal modeling, MoT architecture (38B-Active 3B MoE) It attacks the hardest part of image generation: readable, structured, consistent image-text output. The most interesting part of SenseNova U1 is it treats multimodal generation as one native modeling problem, not a chain of separate vision, language, and image modules. That means less handoff between modules, less information loss, and better consistency when creating dense visual content like infographics, guides, posters, comics, and image-text workflows. ComfyUI support, fast A3B inference, and absolutely brilliant for dense visuals like infographics, posters, comics, and guides.

译商汤科技SenseNova U1已开源发布。其核心创新在于原生多模态统一建模,将视觉、语言与图像生成视为一个统一问题,而非分立模块的链式处理,从而减少了信息损失。该模型采用MoT架构(38B-Active 3B MoE),在生成信息图、海报、漫画等结构复杂的密集图文内容时能保持高度一致性。详细的技术报告披露了其包括近无损视觉接口、联合训练策略在内的完整构建方案,为行业提供了前沿参考。

歸藏(guizang.ai)@op7418 · 5月20日55

谷歌 Genie 3 这个新功能很有意思 可以选择美国谷歌街景的任何一个地点作为首帧图片,然后生成 Google Genie 3 可互动的世界。 比如非常知名的黄石公园啊,城市之类的地方,然后你就可以进去游览了,代入感很强 而且你可以对这个街景的内容做风格化,比如:变成海底世界、末日后的世界之类的

译谷歌 Genie 3 新增了基于 Google 街景生成可交互虚拟世界的功能。用户可以选择美国任意街景地点作为首帧图像,生成对应的可探索环境,带来强烈的代入感。该功能还支持风格化处理,能将现实场景转化为海底世界、末日废土等不同风格的虚拟场景。

Berryxia.AI@berryxia · 5月20日73

兄弟们,Google DeepMind刚放出的Gemini 3.5 Flash,直接把Intelligence vs Speed的Pareto前沿拉新高度了。 Artificial Analysis拿到预发布权限,测完后结论很明确: 它在Intelligence Index拿到55分,比Gemini 3 Flash高9分,直接超过Grok 4.3和Claude Sonnet 4.6。 Agentic任务(GDPval-AA)Elo评分飙到1656,远超前代。 幻觉率从92%暴降到61%。 多模态理解也继续领跑,MMMU-Pro 84%。 输出速度超280 tokens/s,比上一代快70%。 看起来几乎完美。 但代价是:跑一次Artificial Analysis Intelligence Index的成本是Gemini 3 Flash的5.5倍,比Gemini 3.1 Pro贵75%。 定价直接3倍($1.5/$9 per 1M input/output),加上agentic任务里token用量显著增加。 速度和智能终于兼得,但价格直接把“Flash”这个词的便宜属性干掉了。 完整基准在这里:https://artificialanalysis.ai/models/gemini-3-5-flash

译Google DeepMind 最新发布的 Gemini 3.5 Flash 模型在性能与速度的平衡上取得突破。其智能指数得分为 55,较上一代大幅提升,超越了 Grok 4.3 和 Claude Sonnet 4.6。模型在智能体任务和降低幻觉率方面进步显著,输出速度超过 280 tokens/s。然而,其 API 定价相比前代模型上涨约 3 倍,运行基准测试的成本更是达到 5.5 倍。这意味着 Gemini 3.5 Flash 在实现“更快更智能”的同时,也显著改变了 Flash 系列以往低成本的市场定位。

StepFun@StepFun_ai · 5月20日68

Welcome, another 3.5 Flash 👋

译Google推出Gemini 3.5 Flash模型,现已向所有用户开放,并集成到其产品与API中。相比Gemini 3.1 Pro,3.5 Flash在几乎所有基准测试中均有提升,编程能力进步尤为显著。该模型性能媲美顶尖模型,但生成速度极快(比其他前沿模型快4倍),在“智能与输出速度”的评估维度中位于顶尖象限,实现了效率与效果的卓越平衡。

meng shao@shao__meng · 5月20日64

Gemini Omni 来了!Google 的优势,果然还是在多模态模型吧?! Gemini 3.0 发布时,最惊艳的就是之前 Claude 和 GPT 都没有的多模态理解能力;Nano Banana 和 Veo 在多模态生成方面也是断档的强(发布时,后来被超越了) 现在 Google I/O 发布的 Gemini Omni,又是一个原生多模态的「理解 + 生成」模型,当前主攻视频,可用任意组合输入(图、文、视频、音频)产出或编辑视频。 来看看官方对 Omni 和 Veo 的对比: 1. 工作方式 Veo:多模态常被压成文本再生成 Omni:从底层原生多模态设计 2. 提示词 Veo:需非常具体、逐帧描述 Omni:可只给意图,由推理补细节 3. 编辑 Veo:多为单次生成 Omni:多轮对话式编辑,每步叠加上一步 4. 知识 Veo:偏视觉模式匹配 Omni:结合 Gemini 的世界知识、物理直觉 注意:这里的 Veo 代表了 Veo、Sora、Seedance 等几乎全部之前的视频生成模型,这个对比感觉几乎是吊打了。 Omni 三大能力 1. 对话式视频编辑(核心差异化) · 用自然语言改已有视频,每轮指令建立在上一轮结果上。 · 强调 一致性:角色、物理、场景记忆在多轮修改后仍连贯。 · 典型操作:换背景、改机位、换物体/角色、改动作、加特效,无需每次重述整段 prompt。 2. 世界知识 + 物理直觉 · 物理: 重力、动能、流体等,用于更可信的运动(如弹珠连锁轨道)。 · 知识: 历史、科学、文化语境,用于科普/叙事类内容(如粘土定格「蛋白质折叠」)。 · 文字: 不只「能写字」,而是文字与画面动作、节奏同步(如字母表 26 项 + 对应 lower third)。 3. 任意参考物组合(Reference anything) · 图、文、视频、音频可混用为「配料」,合成一条叙事。 · 能力包括:动作/风格迁移、参考图换角色(保留动作与口型)、草图仅作运动引导转实拍、分镜图按节拍生成等。 · 音频: 首发主要支持 人声参考;其他音频输入类型将陆续开放。

译Google发布了原生多模态模型Gemini Omni。与传统模型需逐帧描述不同,它采用底层原生设计,支持以意图驱动生成视频,并能通过多轮对话进行编辑,每一步都基于上一结果,确保一致性。该模型融合了Gemini的世界知识与物理直觉,并能将图、文、音视频等任意参考物组合,实现跨模态叙事生成。其目标是“从任何东西创造任何东西”,并从视频生成起步。

Rohan Paul@rohanpaul_ai · 5月20日69

Google Gemini 3.5 Flash is super strong model for its class. Beats Gemini 3.1 Pro on so many benchmarks. An agent model with 4x faster tokens per second. And @aimlapi just added gemini 3.5 Flash to their API and keeping it FREE for 24hrs. Setup instructions in comment.

译Google Gemini 3.5 Flash 是其类别中非常强大的模型。在众多基准测试中超越了 Gemini 3.1 Pro。 这是一个代理模型,每秒处理的令牌速度快4倍。 @aimlapi 刚刚将 Gemini 3.5 Flash 添加到其 API 中,并且在24小时内免费提供。 设置说明见评论。

Google Gemini@GeminiApp · 5月20日52

Gemini 3.5 Flash can translate complex electrical engineering constraints into an interactive UI. It can build an interactive circuit helper to design and simulate electronics with a physical build guide while generating an interactive simulation of the circuit.

译Gemini 3.5 Flash可以将复杂的电气工程约束转化为交互式界面。 它能够构建一个交互式电路助手,用于设计和模拟电子元件,同时提供物理构建指南,并生成电路的交互式模拟。

🚨 AI News | TestingCatalog@testingcatalog · 5月20日60

AI/ML API platform now supports Gemini 3.5 Flash and offers 24 hours of FREE token usage for model testing! > AI/ML API is an AI platform for developers and SaaS entrepreneurs looking to integrate cutting-edge AI capabilities into their products. Check the details below 👇

译AI/ML API平台现已支持Gemini 3.5 Flash,并提供24小时免费token使用以供模型测试! > AI/ML API是一个面向开发者和SaaS创业者的AI平台,旨在帮助他们将前沿AI能力集成到产品中。 详情请查看下方 👇

小互@xiaohu · 5月20日61

Google I/O 2026 开发者大会 完整中英文双语视频 Google I/O 2026:Gemini 3.5 Flash、Spark、Omni 三剑齐发 Gemini 3.5 Flash升级为:行动大脑 Gemini Spark:远端个人 AIAgent 入口 Gemini Omni:多模态世界模型雏形

小互@xiaohu · 5月20日60

Google 智能眼镜 展示 让你"不用掏手机"就能完成日常的事情 让 Gemini 帮你 点咖啡,手机放兜里,眼镜只在最后一步确认时提示即可

Berryxia.AI@berryxia · 5月20日63

Gemini Omni 不仅仅是构建看起来真实的场景,它还能推理接下来应该发生什么。 它将对物理学的直观理解与 Gemini 对历史、科学和文化背景的知识相结合。 今天开始向全球 Google AI Plus、Pro 和 Ultra 订阅用户推出,首先支持视频输出,通过

译Google 发布的 Gemini Omni 模型核心能力升级,它不仅能生成高度真实的场景,更关键的是具备了对物理世界后续发展的推理能力。这一能力源于其对物理学的直观理解与广泛的背景知识结合。该模型现已向全球 Google AI Plus、Pro 和 Ultra 订阅用户推出,初期将优先支持视频内容的生成与输出。

Berryxia.AI@berryxia · 5月20日71

Google I/O 大会发布会重要的一个发布就是它! Google DeepMind今天直接把“从任何东西生成任何东西”这件事,迈出了第一步。 他们发布了Gemini Omni。 不仅仅是又一个视频生成工具,而是想把Gemini和生成媒体系统彻底融合。 它真正懂物理、懂历史、懂文化、懂故事逻辑。 你能定义一个角色,然后随便扔进任何场景,它都能保持一致的外貌、动作和光影。 你能用自然语言改风格、加效果,或者直接把你自己拍的视频重新想象——改环境、加物体、换动作,全程对话式操作。 以前生成视频是“拍完一段就结束”,现在它是活的、可编辑的、能持续演进的世界。 视频终于不再是死的内容,是可以被实时重写的“世界素材”。 Gemini Omni Flash已经在Gemini App、Flow by Google和YouTube Shorts上线,几周后也会开放API。 PS:有人说效果不如SD2,尤其中文就更不用说了。 但是支持片段编辑的效果还不错。

译Google DeepMind在I/O大会上发布了Gemini Omni模型,旨在迈出“从任何东西生成任何东西”的第一步。该模型将Gemini的智能与生成媒体系统深度融合,在世界理解、多模态和编辑能力上实现飞跃。其核心特点在于生成的视频能保持角色、光影等逻辑一致性,并支持通过自然语言进行实时编辑和风格调整,将视频转变为可动态演进的“世界素材”。该模型目前已在部分应用上线并即将开放API,不过其实际效果,尤其是在中文生成方面,仍存在一些讨论。

Berryxia.AI@berryxia · 5月20日63

兄弟们,Google I/O 2026 昨晚 Keynote 完整总结! 不想看长文就看一图流总结吧~· Sundar Pichai 主讲,主题直指「Agentic Gemini 时代」AI 不再是聊天机器人,而是能自主思考、执行任务、跨设备运行的「世界模型」! 昨晚这场 2 小时 keynote 没有放出大家之前狂猜的 Gemini 4.0 / Veo 4,而是聚焦更务实、更落地的 Gemini 3.5 系列 + Omni 世界模型,直接把 AI 推向操作系统级智能体。 Google 这波操作,稳扎稳打,强调「自主执行 + 跨平台一致性」! 模型最大亮点: • Gemini 3.5 Flash:立刻可用!速度暴增(输出可达 289 tokens/秒),上下文更强,专为 agentic 任务优化,比之前快 4 倍,已成默认模型。 • Gemini Omni(最大惊喜!):全新多模态「世界模型」! 任意输入→任意输出(文本生视频/图像/音频,视频直接编辑,图像生成动作)。 它懂物理世界(重力、动能),可在聊天里实时生成/编辑视频,已整合 Nano、Genie、Veo 等能力。 Google 说:这是从「预测文本」到「模拟现实」的飞跃,还用来训练机器人了! • Gemini 3.5 Pro:下个月上线,更强推理版。 • Gemini Spark:24/7 always-on 自主 Agent,能个性化、后台持续工作,帮你自动处理邮件、日历、跨 App 任务,几乎零干预! 📱 Gemini App 彻底重做: 采用 Neural Expressive 新设计语言,动画更流畅、色彩更鲜艳、地形感更强,体验直接起飞! 🌐 全生态落地重磅功能: • Search 升级:搜索框变「AI Agents」信息代理,能主动收集、总结、持续跟踪信息,甚至「你睡觉时它还在干活」。 • Workspace / Gmail / Android Auto:AI 代理深度集成,自动生成回复、智能表单、跨 App 操作。 • 创意工具全面增强:Generative Media 直接用 Omni 驱动视频/图像/音乐生成。 • 其他:Ask YouTube、Universal Cart 通用购物车、SynthID 水印全行业推广。 🕶️ 硬件与跨设备: • Android XR 智能眼镜正式预览(非概念机)! 与 Samsung、Warby Parker、Gentle Monster 合作,今年秋季推出。 首批是轻量音频眼镜(≈50g,无显示屏,靠手机算力),支持 Gemini 实时翻译、抬头通知、视觉搜索。 2027 年才有带微 LED 显示的 AR 版。 • Googlebook + Aluminium OS:Android Show 已提前官宣,昨晚进一步演示 Magic Pointer 等 AI 深度集成,Android 正式杀入笔记本战场! 👨‍💻 开发者福利: • Google Antigravity 2.0 大升级:独立桌面/CLI 工具,支持多代理并行 coding(现场演示 93 个子代理 12 小时从零造 OS!)。 • Agent-First 开发新命令:/goal、/grill-me 等,让 AI 自主完成复杂任务。 • Gemma 开源家族、Chrome AI 智能体 Web 也有更新。 📊 总结与我的分析: Google 这场 Keynote 是「巩固而非爆炸」。 没有参数战,而是把 Gemini 真正变成操作系统级智能体,重点推动 Android、Search、眼镜等产品真实落地。 在 Agentic AI 赛道上,Google 与 OpenAI、Anthropic 保持同步,甚至在「多模态世界模拟」上领先一步! #GoogleIO

译2026年Google I/O大会的主题为“Agentic Gemini时代”,旨在将AI从聊天工具进化为能自主思考、执行任务的“世界模型”。本次大会未发布Gemini 4.0,而是推出了更务实的Gemini 3.5系列,核心包括:速度极快且为智能体优化的Gemini 3.5 Flash;能理解物理世界、实现任意模态生成的全新“世界模型”Gemini Omni;以及可24/7自主工作的智能体Gemini Spark。同时,Android XR智能眼镜和AI集成的Googlebook笔记本等硬件亮相。整体上,Google正将Gemini深度整合至其全生态,巩固其在自主AI赛道上的领先地位。

Ethan Mollick@emollick · 5月20日62

For those saying "the tomato sauce blood from the sword wound that flying Shakespeare inflicted on the pizza robot while the otters discussed Spirit Airlines wasn't thick enough" or whatever... this was state of the art in July 2025 (2 years) for "an otter using wifi on a plane"

译该推文展示了2025年7月(两年前)AI视频生成模型所能达到的“最先进”技术水平,并以此作为当前讨论的参照。引用部分提供了关键上下文:早期Gemini Omni模型能根据包含多个角色、复杂场景与叙事逻辑的超现实文本提示(如飞行员海獭解释航空公司破产、莎士比亚与披萨机器人战斗等),生成相应的视频内容。推文作者通过展示这一历史技术状态,回应了关于生成内容细节真实性的讨论。

小互@xiaohu · 5月20日55

看看 Gemini Omni的实力 一句话就是:视频版的香蕉🍌 当然远不至于视频的编辑能力,它应该是世界模型的雏形... 通用AGI的初始形态...

Google Gemini@GeminiApp · 5月20日61

Create videos with your own voice and likeness using avatars with Gemini Omni. When you create an avatar, you have an AI digital version of yourself so you can easily generate videos that look and sound like you. No need to upload your image every time.

译使用Gemini Omni,你可以用自己的声音和形象创建数字分身视频。 当你创建一个数字分身后,你就拥有了自己的AI数字版本,可以轻松生成外观和声音都像你的视频,无需每次都上传你的图像。

Orange AI@oran_ge · 5月20日77

Gemini flash 3.5 昨晚发布,现已可用。 - 模型效果大幅超越 3.1 Pro,指标和 gpt 5.5 接近,比 gpt5.5 好的是 Agentic 和 多模态。 - 价格只要 gpt5.5 的三分之一,缓存价格只要六分之一。 - API 定价 $1.50 / $9.00 per 1M token(输入/输出),缓存 输入 $0.15。上下文窗口 1M token。 - 速度极快,是其他旗舰模型的4倍,非常适合 Agent 使用。 官方介绍地址: https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/

Ethan Mollick@emollick · 5月20日67

The Odyssey and the Iliad get so many movie treatments but the sequel, the Roman Aeneid, is entirely ignored. Here is a teaser trailer from one prompt to Gemini Omni. The first pass made all the flags Danish(?) but Omni is capable of editing video, so I asked for their removal.

译《奥德赛》和《伊利亚特》被多次改编成电影,但其续作罗马史诗《埃涅阿斯纪》却完全被忽视。 这是用一段提示词为Gemini Omni制作的预告片。第一版把所有旗帜都做成了丹麦的(?),但Omni能够编辑视频,所以我要求移除了它们。

Google AI@GoogleAI · 5月20日83

Today, we launched a brand-new intelligent Search box. Here's what that means: An upgrade to the Search experience with our most advanced Gemini 3.5 models, bringing with them our latest agentic capabilities You can ask across modalities (text, images, files, and videos) and Search can reason across them all We're combining AI Overviews and AI Mode into one, seamless AI Search experience. So you can ask follow-up questions, build context, and received even more tailored and personalized responses This new AI Search experience is live today across desktop and mobile, worldwide.

译谷歌宣布推出基于Gemini 3.5模型的全新智能搜索框。该更新将AI Overviews与AI Mode整合为统一的AI搜索体验,支持对文本、图像、文件及视频进行跨模态推理查询。用户可进行多轮对话,搜索将结合上下文提供更个性化、定制化的回答。该新功能已在全球桌面和移动设备端同步上线。

Demis Hassabis@demishassabis · 5月20日79

Gemini Omni is a major leap in world understanding & multimodal editing! It can take photos, video & audio and build entirely new scenes. Over time it’ll be able to handle any input & any output - starting w/ video You can even give it your own videos & iterate on your ideas:

译Gemini Omni在世界理解与多模态编辑方面实现了重大飞跃!它能处理照片、视频和音频,并构建全新的场景。随着时间的推移,它将能够处理任何输入和任何输出——从视频开始。 你甚至可以提供自己的视频,并在此基础上迭代你的想法:

Google Gemini@GeminiApp · 5月20日72

Build your first game with Gemini 3.5 Flash. Translate everyday objects directly into interactive, digital experiences without complex 3D modeling. Start with a Nano Banana prompt, turn your image into a game in Canvas, and refine your vision for optimal gameplay.

译使用 Gemini 3.5 Flash 构建你的第一款游戏。 无需复杂的3D建模,即可将日常物品直接转化为互动的数字体验。从一个 Nano Banana 提示开始,在 Canvas 中将你的图像变成游戏,并优化你的愿景以获得最佳游戏体验。

Josh Woodward@joshwoodward · 5月20日32

Gemini Omni is so fun - insanely great at editing videos!

译Gemini Omni太有趣了——视频编辑能力简直逆天!

Google AI@GoogleAI · 5月20日48

Some fun Gemini Omni use cases from the community👇🧵 (We’ll keep updating this thread throughout the day)

译一些来自社区的有趣Gemini Omni用例👇🧵 (我们将在全天持续更新此推文串)

Google AI@GoogleAI · 5月20日74

By now, you've probably heard about Gemini Omni, our new model designed to create anything from any input, starting with video. But... what's the big deal? Let’s break it down 🧵👇

译到现在,你可能已经听说了 Gemini Omni,这是我们新推出的模型,旨在从任意输入(从视频开始)创造任何内容。 但……这有什么大不了的? 让我们来分解一下 🧵👇

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月21日
07:15
Google Gemini@GeminiApp
66
Gemini 3.5 Flash 能理解复杂主题和图表,满足您的特定需求,以最适合您的方式可视化结果。 观看 Gemini 处理一篇高等数学论文,进行可视化探索,并生成最重要的元素。
Google产品更新多模态
关联讨论 19 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)Google Developers Blog(RSS)The Decoder:AI News(RSS)IT之家(RSS)X:Berry Xia (@berryxia)X:Jeff Dean (@JeffDean)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google DeepMind (@GoogleDeepMind)X:Google AI for Developers (@googleaidevs)X:Rohan Paul (@rohanpaul_ai)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)
05:35
Google AI Developers@googleaidevs
同事件精选74
Google Stitch更新:AI设计助手实现全流程构建

Google推出了其AI设计伙伴Stitch的多项重要更新。新功能支持实时流式构建设计,允许用户在不中断流程的情况下直接进行编辑和互动反馈。Stitch现已能够导入现有代码库或Design.md文件,基于实际生产组件进行设计以保持品牌一致性。同时,工具新增了动态界面生成功能,并可将设计项目直接导出为可分享的线上URL,简化了从原型到生产的部署流程。该工具现已面向全球用户开放。

智能体Google产品更新多模态
同一事件,精选展示《谷歌发布多款AI创意工具新功能》
推荐理由:Stitch 这次更新把设计到生产流水线打通了,实时流加运动 UI 让原型更接近真产品,做移动端和 Web 的可以直接试试,比自己搭环境快太多。
04:17
Google DeepMind@GoogleDeepMind
同事件精选84
Gemini 3.5 Flash 已正式发布。
Google多模态模型发布
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:Google 在 Gemini 3.5 上继续扩展 Flash 线,这种轻量模型对成本和延迟敏感场景很关键,如果你在等一个便宜的 Gemini API,该看了。
03:53
小互@xiaohu
39
由Gemma 4驱动的Open Duck机器人 具备视觉能力,还能对话
Google产品更新具身智能多模态
02:14
Google Gemini@GeminiApp
同事件精选72
使用Gemini Omni创建、混剪和编辑视频比以往任何时候都更容易。 它提供了一种流畅的对话式创作和编辑方式。只需从相册上传视频,并让Gemini进行修改即可。
Google产品更新多模态视频
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:Gemini Omni把视频编辑做成了对话,虽然不算革命性更新,但对随手剪片的普通人来说,不用学剪辑软件就是最大的可用性。
00:36
Rohan Paul@rohanpaul_ai
63
商汤开源统一多模态模型SenseNova U1

商汤科技近日开源了SenseNova U1,其核心创新在于架构设计。该模型摒弃了传统的视觉编码器与变分自编码器分离结构,采用单一共享表示空间原生处理图像与文本,极大减少了模块间转换导致的信息损耗。这一设计使模型能够连贯地同时生成图文内容,在信息图、海报、漫画等需要高一致性的密集视觉内容创作上优势显著。性能方面,其信息图生成速度在同等质量下约为Qwen-Image-2.0/Seedream-4.5的两倍。

图像生成多模态开源/仓库模型发布
00:14
Google AI@GoogleAI
精选69
谷歌发布多款AI创意工具新功能

谷歌与创作者合作推出系列AI工具更新。Google Workspace新增图像创作编辑工具Pics;Google Flow支持Gemini Omni Flash模型,并推出Flow Agent作为多步骤创作伙伴;设计工具StitchbyGoogle支持实时文字或语音编辑布局并导出代码;音乐工具Google FlowMusic增加分段编辑、风格混音及视频生成功能。

智能体Google产品更新图像生成

推荐理由:Google这次更新的不是单点工具,而是把AI能力像乐高一样嵌入到创意工作流的每一步,Flow Agent的多步骤推理尤其值得做设计的人试试看。
5月20日
22:08
Berryxia.AI@berryxia
72
性能飞跃但成本激增,Gemini 3.5 Flash重新定义"轻量"?

Google发布的Gemini 3.5 Flash在性能上实现飞跃,智能指数达55分,超越Grok 4.3等竞品,幻觉率大幅下降,输出速度超280 tokens/s。然而,其运行成本是前代的5.5倍,定价显著提高,引发对“Flash”是否仍代表“便宜”的讨论。该模型已在ZenMux平台开放免费体验,实际测试显示效果惊艳,在多项Agent和多模态榜单中表现顶尖,标志着顶级智能与极致速度的新结合。

Berryxia.AI: 兄弟们! 今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了! 我第一时间用它跑了那个经典的「AI模型递归二叉树生长测试」. 同一个 Prompt ,不同模型画出的树形态完全不一样。(见视频-Prompt见评论区) G...

Google多模态推理评测/基准
22:02
向阳乔木@vista8
73
AI生成3D资产模型Rodin Gen-2.5发布:宣称千万级面数,助产业提效

AI 3D生成模型Rodin Gen-2.5发布,号称全球首款能实现千万级面数的同类产品,材质纹理精细。该模型可从单张图片生成高质量3D资产,快速输出obj等通用格式文件供进一步编辑,极大地简化了传统建模、绑骨、贴图的复杂流程。其技术亮点包括原生3D贴图算法,旨在为游戏、动画、影视等产业提供真正的生产力工具。

Hyper3D by Deemos: Introducing #Rodin Gen-2.5🚀 🔥World's 1st 10 MILLION polygon #3D GenAI - down to skin microstructures. 1️⃣1M-poly in 4s...

产品更新图像生成多模态
18:46
SenseTime@SenseTime_AI
同事件精选68
将你的想法转化为激发故事的视觉画面 🧨 【引用 @Adamaestr0_】:大多数AI工具可以写作或生成图像。 但这个能同时做这两件事。 向你介绍 SenseNova U1。 一个能同时思考文本和图像的AI。 这改变了一切 🧵

Adam: La mayoría de las herramientas de IA pueden escribir o generar imágenes. Pero esta hace AMBAS cosas a la vez. Te present...

多模态模型发布
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
推荐理由:商汤发了 SenseNova U1,主打文本和图像同时生成的「全模态」,但宣传语太简略,没给任何性能数据或技术细节,暂时看不出是真突破还是常规迭代,先标记关注。
18:07
Berryxia.AI@berryxia
73
兄弟们!今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了!

Gemini 3.5 Flash现已在ZenMux平台免费开放试用。该模型在经典的递归二叉树生长测试中表现惊艳,仅用77.56秒便生成了完整的HTML动画网页,展现了顶级的响应速度与生成质量。其在MCP Atlas、Toolathlon等多项Agent榜单中位列第一,多模态理解能力(如MMMU-Pro得分83.6%)也全面超越上一代模型。模型完全兼容主流API格式,并提供按量计费和Builder套餐选择。

智能体Google多模态评测/基准
16:05
Rohan Paul@rohanpaul_ai
49
谷歌的Android XR眼镜演示展示了通过眼镜摄像头进行实时视觉捕捉,并将画面输入Gemini。AI根据语音指令编辑图像,结果直接推送到配对的智能手表上查看。
Google产品更新多模态端侧
15:05
Rohan Paul@rohanpaul_ai
51
OpenClaw + Meta Ray-Ban眼镜。 该设置利用Ray-Ban眼镜的内置摄像头实现第一人称视角。语音输入触发Gemini Live解读佩戴者所见,随后将任务路由至OpenClaw,最终完成购买。
智能体GoogleMeta多模态
13:40
Kling AI@Kling_ai
50
Kling AI落地好莱坞,工业化应用案例引关注

在戛纳展示的Kling AI视频生成技术已深度融入好莱坞工业级制作流程。其首个公开应用于剧集《David之家》的项目,吸引了超过4400万全球观众,位列美国新剧前十并登顶Prime Video。该技术能够无缝对接实拍制作,以高标准交付大量高质量镜头,证明了AI作为全球电影制作可靠、高效新基础的潜力。

多模态行业动态视频
13:05
Berryxia.AI@berryxia
57
Gemini 3.5 Flash 发布,已可在 ZenMux 免费体验

Google I/O 2026 发布了新一代模型 Gemini 3.5 Flash,ZenMux 平台已第一时间提供 API 接入并开放免费试用。实测中,该模型仅用时 77.56 秒即完成一段复杂 HTML 递归二叉树生长动画,生成效果流畅自然。其性能全面升级,在多项 Agent 专属评测榜单中位列第一,多模态理解能力(MMMU-Pro 达 83.6%)也显著超越前代。模型完全兼容主流 API 格式,支持按量计费与套餐方案,便于开发者快速接入。

Google多模态评测/基准
12:36
Kling AI@Kling_ai
72
Kling AI推出全球首个原生4K视频生成模型

4月23日,Kling AI正式推出全球首个原生4K视频生成模型,专为专业内容创作设计。该功能支持一键生成真4K画质视频,显著提升画面细节与制作效率。模型已获得好莱坞团队、动画工作室等多方采用。好莱坞制片人指出,这是其工作流中首个使用的原生4K基础模型;Wonder Studios强调,原生4K从底层生成避免了传统放大技术的角色变形问题,保持了画面一致性;动画导演则认为,该模型在保留艺术色调与复杂特效纹理方面优于同类产品。

多模态模型发布视频
11:34
Rohan Paul@rohanpaul_ai
73
SenseNova U1开源发布,革新原生多模态生成

商汤科技SenseNova U1已开源发布。其核心创新在于原生多模态统一建模,将视觉、语言与图像生成视为一个统一问题,而非分立模块的链式处理,从而减少了信息损失。该模型采用MoT架构(38B-Active 3B MoE),在生成信息图、海报、漫画等结构复杂的密集图文内容时能保持高度一致性。详细的技术报告披露了其包括近无损视觉接口、联合训练策略在内的完整构建方案,为行业提供了前沿参考。

SenseTime: 🔥 New week, New SenseNova-U1 Drop - and this one goes Deep!🔥 📄 The full Technical Report is OUT - the most detailed d...

图像生成多模态开源生态模型发布
11:11
歸藏(guizang.ai)@op7418
55
谷歌 Genie 3 实现街景交互生成与风格化

谷歌 Genie 3 新增了基于 Google 街景生成可交互虚拟世界的功能。用户可以选择美国任意街景地点作为首帧图像,生成对应的可探索环境,带来强烈的代入感。该功能还支持风格化处理,能将现实场景转化为海底世界、末日废土等不同风格的虚拟场景。

Google产品更新多模态视频
11:05
Berryxia.AI@berryxia
73
Google DeepMind 发布 Gemini 3.5 Flash:性能大幅提升,但成本显著增加

Google DeepMind 最新发布的 Gemini 3.5 Flash 模型在性能与速度的平衡上取得突破。其智能指数得分为 55,较上一代大幅提升,超越了 Grok 4.3 和 Claude Sonnet 4.6。模型在智能体任务和降低幻觉率方面进步显著,输出速度超过 280 tokens/s。然而,其 API 定价相比前代模型上涨约 3 倍,运行基准测试的成本更是达到 5.5 倍。这意味着 Gemini 3.5 Flash 在实现“更快更智能”的同时,也显著改变了 Flash 系列以往低成本的市场定位。

Artificial Analysis: Google's new Gemini 3.5 Flash is the clear leader on the Intelligence vs Speed Pareto frontier and makes large gains on ...

智能体DeepMind多模态模型发布
09:19
StepFun@StepFun_ai
68
Google推出Gemini 3.5 Flash模型,现已向所有用户开放,并集成到其产品与API中。相比Gemini 3.1 Pro,3.5 Flash在几乎所有基准测试中均有提升,编程能力进步尤为显著。该模型性能媲美顶尖模型,但生成速度极快(比其他前沿模型快4倍),在"智能与输出速度"的评估维度中位于顶尖象限,实现了效率与效果的卓越平衡。

Sundar Pichai: Just off stage at #GoogleIO, some highlights from this morning 🧵 Gemini 3.5 Flash is available today for everyone in @a...

Google多模态编码行业动态
09:14
meng shao@shao__meng
64
Gemini Omni 来了!Google 的优势,果然还是在多模态模型吧?!

Google发布了原生多模态模型Gemini Omni。与传统模型需逐帧描述不同,它采用底层原生设计,支持以意图驱动生成视频,并能通过多轮对话进行编辑,每一步都基于上一结果,确保一致性。该模型融合了Gemini的世界知识与物理直觉,并能将图、文、音视频等任意参考物组合,实现跨模态叙事生成。其目标是“从任何东西创造任何东西”,并从视频生成起步。

Google DeepMind: We're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video....

DeepMindGoogle多模态模型发布
09:04
Rohan Paul@rohanpaul_ai
69
Google Gemini 3.5 Flash 是其类别中非常强大的模型。在众多基准测试中超越了 Gemini 3.1 Pro。 这是一个代理模型,每秒处理的令牌速度快4倍。 @aimlapi 刚刚将 Gemini 3.5 Flash 添加到其 API 中,并且在24小时内免费提供。 设置说明见评论。

AI/ML API: .@Google : "We're releasing Gemini 3.5 Flash" Us: *We're offering it for free* free for 24hrs via our API find instructi...

Google多模态模型发布
08:38
Google Gemini@GeminiApp
52
Gemini 3.5 Flash可以将复杂的电气工程约束转化为交互式界面。 它能够构建一个交互式电路助手,用于设计和模拟电子元件,同时提供物理构建指南,并生成电路的交互式模拟。
Google产品更新多模态
08:37
🚨 AI News | TestingCatalog@testingcatalog
60
AI/ML API平台现已支持Gemini 3.5 Flash,并提供24小时免费token使用以供模型测试! > AI/ML API是一个面向开发者和SaaS创业者的AI平台,旨在帮助他们将前沿AI能力集成到产品中。 详情请查看下方 👇

AI/ML API: .@Google : "We're releasing Gemini 3.5 Flash" Us: *We're offering it for free* free for 24hrs via our API find instructi...

Google产品更新多模态
08:19
小互@xiaohu
61
Google I/O 2026 开发者大会 完整中英文双语视频 Google I/O 2026:Gemini 3.5 Flash、Spark、Omni 三剑齐发 Gemini 3.5 Flash升级为:行动大脑 Gemini Spark:远端个人 AIAgent 入口 Gemini Omni:多模态世界模型雏形
智能体Google多模态教程/实践
08:19
小互@xiaohu
60
Google 智能眼镜 展示 让你"不用掏手机"就能完成日常的事情 让 Gemini 帮你 点咖啡,手机放兜里,眼镜只在最后一步确认时提示即可
Google产品更新多模态端侧
08:05
Berryxia.AI@berryxia
63
Gemini Omni:不止于真实,更懂推理

Google 发布的 Gemini Omni 模型核心能力升级,它不仅能生成高度真实的场景,更关键的是具备了对物理世界后续发展的推理能力。这一能力源于其对物理学的直观理解与广泛的背景知识结合。该模型现已向全球 Google AI Plus、Pro 和 Ultra 订阅用户推出,初期将优先支持视频内容的生成与输出。

Google产品更新多模态视频
08:05
Berryxia.AI@berryxia
71
Google DeepMind发布Gemini Omni,迈向"生成万物"愿景

Google DeepMind在I/O大会上发布了Gemini Omni模型,旨在迈出“从任何东西生成任何东西”的第一步。该模型将Gemini的智能与生成媒体系统深度融合,在世界理解、多模态和编辑能力上实现飞跃。其核心特点在于生成的视频能保持角色、光影等逻辑一致性,并支持通过自然语言进行实时编辑和风格调整,将视频转变为可动态演进的“世界素材”。该模型目前已在部分应用上线并即将开放API,不过其实际效果,尤其是在中文生成方面,仍存在一些讨论。

Google DeepMind: We're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video....

Google多模态模型发布视频
08:05
Berryxia.AI@berryxia
63
Google I/O 2026大会总结:迈向Agentic Gemini时代

2026年Google I/O大会的主题为“Agentic Gemini时代”,旨在将AI从聊天工具进化为能自主思考、执行任务的“世界模型”。本次大会未发布Gemini 4.0,而是推出了更务实的Gemini 3.5系列,核心包括:速度极快且为智能体优化的Gemini 3.5 Flash;能理解物理世界、实现任意模态生成的全新“世界模型”Gemini Omni;以及可24/7自主工作的智能体Gemini Spark。同时,Android XR智能眼镜和AI集成的Googlebook笔记本等硬件亮相。整体上,Google正将Gemini深度整合至其全生态,巩固其在自主AI赛道上的领先地位。

智能体Google多模态现象/趋势
08:02
Ethan Mollick@emollick
62
该推文展示了2025年7月(两年前)AI视频生成模型所能达到的"最先进"技术水平,并以此作为当前讨论的参照。引用部分提供了关键上下文:早期Gemini Omni模型能根据包含多个角色、复杂场景与叙事逻辑的超现实文本提示(如飞行员海獭解释航空公司破产、莎士比亚与披萨机器人战斗等),生成相应的视频内容。推文作者通过展示这一历史技术状态,回应了关于生成内容细节真实性的讨论。

Ethan Mollick: I had early Gemini Omni access: "sea otter in a pilot's uniform explains why Spirit Airlines went bankrupt to a river ot...

Google多模态大佬观点视频
07:49
小互@xiaohu
55
看看 Gemini Omni的实力 一句话就是:视频版的香蕉🍌 当然远不至于视频的编辑能力,它应该是世界模型的雏形… 通用AGI的初始形态…
Google多模态现象/趋势视频
07:08
Google Gemini@GeminiApp
61
使用Gemini Omni,你可以用自己的声音和形象创建数字分身视频。 当你创建一个数字分身后,你就拥有了自己的AI数字版本,可以轻松生成外观和声音都像你的视频,无需每次都上传你的图像。
Google产品更新多模态视频
06:36
Orange AI@oran_ge
77
Gemini flash 3.5 昨晚发布,现已可用。 - 模型效果大幅超越 3.1 Pro,指标和 gpt 5.5 接近,比 gpt5.5 好的是 Agentic 和 多模态。 - 价格只要 gpt5.5 的三分之一,缓存价格只要六分之一。 - API 定价 $1.50 / $9.00 per 1M token(输入/输出),缓存 输入 $0.15。上下文窗口 1M token。 - 速度极快,是其他旗舰模型的4倍,非常适合 Agent 使用。 官方介绍地址: https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/
智能体Google多模态模型发布
06:02
Ethan Mollick@emollick
67
《奥德赛》和《伊利亚特》被多次改编成电影,但其续作罗马史诗《埃涅阿斯纪》却完全被忽视。 这是用一段提示词为Gemini Omni制作的预告片。第一版把所有旗帜都做成了丹麦的(?),但Omni能够编辑视频,所以我要求移除了它们。
Google多模态教程/实践视频
05:40
Google AI@GoogleAI
精选83
谷歌推出全新AI智能搜索框,支持多模态交互

谷歌宣布推出基于Gemini 3.5模型的全新智能搜索框。该更新将AI Overviews与AI Mode整合为统一的AI搜索体验,支持对文本、图像、文件及视频进行跨模态推理查询。用户可进行多轮对话,搜索将结合上下文提供更个性化、定制化的回答。该新功能已在全球桌面和移动设备端同步上线。

Google产品更新多模态推理

推荐理由:Google搜索史上最大一次交互变革,Gemini 3.5加持的搜索框能理解文本、图片、视频,AI Overviews和对话模式彻底融合,搜索终于变成真正的对话助手。
04:38
Demis Hassabis@demishassabis
79
Gemini Omni在世界理解与多模态编辑方面实现了重大飞跃!它能处理照片、视频和音频,并构建全新的场景。随着时间的推移,它将能够处理任何输入和任何输出--从视频开始。 你甚至可以提供自己的视频,并在此基础上迭代你的想法:
Google多模态模型发布视频
04:38
Google Gemini@GeminiApp
精选72
使用 Gemini 3.5 Flash 构建你的第一款游戏。 无需复杂的3D建模,即可将日常物品直接转化为互动的数字体验。从一个 Nano Banana 提示开始,在 Canvas 中将你的图像变成游戏,并优化你的愿景以获得最佳游戏体验。
Google多模态教程/实践

推荐理由:Google Gemini 官方教你把日常物品照片变成互动游戏,Nano Banana 到 Canvas 的链路很直接,想试 Gemini 多模态能力的人可以当入门案例跑一遍。
04:11
Josh Woodward@joshwoodward
32
Gemini Omni太有趣了--视频编辑能力简直逆天!
Google多模态大佬观点视频
04:10
Google AI@GoogleAI
48
一些来自社区的有趣Gemini Omni用例👇🧵 (我们将在全天持续更新此推文串)
Google多模态教程/实践
03:40
Google AI@GoogleAI
74
到现在,你可能已经听说了 Gemini Omni,这是我们新推出的模型,旨在从任意输入(从视频开始)创造任何内容。 但……这有什么大不了的? 让我们来分解一下 🧵👇
Google多模态模型发布视频
‹ 上一页
1…1112131415…23
下一页 ›