AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 907 条
全部一手资讯X论文
标签「多模态」清除
Sundar Pichai@sundarpichai · 5月20日79

Gemini Omni doesn't just build scenes that look real, it reasons about what should happen next. It combines an intuitive understanding of physics with Gemini's knowledge of history, science, and cultural context. Rolling out today starting with video outputs to Google AI Plus, Pro and Ultra subscribers globally through the @Geminiapp + Google Flow, and @YouTube Shorts this week.

译Gemini Omni不仅能构建逼真的场景,还能推理接下来应该发生什么。它结合了对物理的直观理解与Gemini在历史、科学和文化背景方面的知识。 今日起,通过@Geminiapp + Google Flow和@YouTube Shorts,向全球Google AI Plus、Pro和Ultra订阅用户推出视频生成功能。

Google DeepMind@GoogleDeepMind · 5月20日61

We want to help scientists discover their next breakthrough with AI. Gemini for Science is our new suite of experimental tools to help them explore more hypotheses, validate work at scale, unpack literature with ease, and more 🧵

译我们希望借助AI帮助科学家发现下一个重大突破。 Gemini for Science是我们全新的实验性工具套件,旨在帮助他们探索更多假设、大规模验证工作、轻松解析文献等。🧵

Google Gemini@GeminiApp · 5月20日81

Meet Gemini Omni, our new model that can create anything from any input, starting with video. With Gemini Omni, you can combine images, videos and text as inputs and generate high-quality videos grounded in Gemini's real-world knowledge. #GoogleIO

译介绍Gemini Omni,我们的新模型,可以从任何输入创建任何内容,首先从视频开始。 借助Gemini Omni,您可以将图像、视频和文本作为输入组合,并生成基于Gemini现实世界知识的高质量视频。#GoogleIO

OpenRouter@OpenRouter · 5月20日82

Gemini 3.5 Flash from @GoogleDeepMind is live on OpenRouter! Beats Gemini 3.1 Pro on coding, agentic work, and tool use at Flash-tier price and speed. 1M context, 65K max output, multimodal. $1.50/M input, $9/M output.

译来自@GoogleDeepMind的Gemini 3.5 Flash现已登陆OpenRouter! 在编码、智能体任务和工具使用方面超越Gemini 3.1 Pro,同时保持Flash级别的价格和速度。 支持100万上下文、6.5万最大输出、多模态。输入$1.50/百万token,输出$9/百万token。

François Chollet@fchollet · 5月20日62

Gemini

译Gemini [引用 @arcprize]:Gemini 3.5 Flash ARC-AGI(已验证) ARC-AGI-2: - 高配:72.1%,$0.85 - 最低配:8.9%,$0.11 ARC-AGI-1: - 高配:92.5%,$0.42 - 最低配:48.8%,$0.06 Gemini 3.5 Flash在ARC-AGI测试中与GPT-5.5(中配)表现相当

AYi@AYi_AInotes · 5月20日80

Damn! Google has really gone absolutely wild this time. Gemini Omni is about to blow the roof off the ceiling of video generation 🤯 Making videos used to be like building with Lego blocks, piece by piece, slowly. Now it’s giving you a magic Lego factory that can actually think. You chat in natural language, and it understands real-world physics, history, biology, culture—then directly generates or edits any video. Five most mind-blowing abilities that you can use right now: 1Understands real physics—glass marbles colliding, turning, and bouncing in ways that match reality. 2Faces never get distorted—define a character once, put them in any scene, any action. 3Edit videos like you edit ChatGPT text—change backgrounds, swap people, add effects with a single sentence. 4Upload an image and apply any style—make claymation, visualize protein folding, whatever you imagine. 5Video isn’t a dead file anymore—change angles, lighting, objects, even storylines just by chatting. This isn’t a competitor to Sora. This is the first time a world model has truly entered a consumer-facing product. It’s not just generating pixels—it’s simulating a coherent physical and semantic world. Open the Gemini app right now and try Omni Flash. Go try it. You’ll thank me later.

译Google推出Gemini Omni,首个面向消费者的世界模型。它通过自然语言交互,将Gemini的智能与生成媒体系统结合,实现了对物理规律、历史、生物等世界的深刻理解。用户可以像编辑ChatGPT文本一样用单句指令编辑视频,实现人物一致性、风格迁移、角度调整等功能。它不是单纯生成像素,而是模拟连贯的物理与语义世界,标志着AI视频生成从拼接工具向智能创作系统的飞跃。

Google Gemini@GeminiApp · 5月20日57

Gemini Omni is coming to the Gemini app for paid subscribers today. It lets you bring your ideas to life using any combination of text, images, and video inputs. Just open up Gemini, attach a video from your camera roll, and change it around. It’s that simple. #GoogleIO

译Gemini Omni今日登陆Gemini应用,面向付费订阅用户开放。 它让你能通过文本、图像和视频的任意组合来实现创意。只需打开Gemini,从相册中附加一段视频,然后进行编辑。就这么简单。#GoogleIO

Google Gemini@GeminiApp · 5月20日68

We announced a lot of Gemini updates at #GoogleIO, including: - A complete redesign of the Gemini experience with Neural Expressive - Agentic experiences coming to Gemini with Daily Brief & Gemini Spark - Gemini Omni & 3.5 Flash models - and more! Catch up on everything here 🧵

译我们在#GoogleIO上宣布了多项Gemini更新,包括: - 采用神经表达技术的全新Gemini体验设计 - 即将推出的Gemini智能体功能,含每日简报与Gemini Spark - Gemini Omni与3.5 Flash模型 - 以及更多内容! 详情请见此线程🧵

Chubby♨️@kimmonismus · 5月20日81

The real „wow“ moment is Gemini Omni. A world model towards AGI. It can create anything from any input. This is insane.

译真正的“哇”时刻是 Gemini Omni。一个迈向 AGI 的世界模型。 它可以从任何输入创建任何内容。这太疯狂了。

🚨 AI News | TestingCatalog@testingcatalog · 5月20日75

GOOGLE I/O 🔥: GEMINI 3.5 FLASH HAS BEEN ANNOUNCED! Gemini 3.5 performs on par with Gemini 3.1 Pro on Artificial Analysis Intelligence benchmark but is much faster.

译谷歌I/O大会🔥:Gemini 3.5 Flash已发布! Gemini 3.5在人工智能分析智能基准测试中表现与Gemini 3.1 Pro相当,但速度更快。 [引用 @GeminiApp]:Gemini 3.5 Flash来了,这是我们迄今为止在快速高效完成任务方面最好的模型。 无论您需要日常任务帮助还是多步骤创意项目,Gemini 3.5 Flash都能应对现实世界的复杂性,助您采取行动。#GoogleIO

Artificial Analysis@ArtificialAnlys · 5月20日78

Google’s new Gemini 3.5 Flash is the clear leader on the Intelligence vs Speed Pareto frontier and makes large gains on GDPval-AA (real-world agentic tasks), but is 5x the cost of Gemini 3 Flash @GoogleDeepMind gave us pre-release access to Gemini 3.5 Flash, the latest model in its Flash family, which has traditionally has offered faster, lower-cost alternatives to Gemini Pro models. Gemini 3.5 Flash scores 55 on the Artificial Analysis Intelligence Index, up 9 points from Gemini 3 Flash, driven primarily by agentic performance gains and hallucination reduction. It achieves speeds of over 280 output tokens/s, but higher token usage and token pricing make it over 5x more costly to run the Intelligence Index than Gemini 3 Flash, and 75% more costly than Gemini 3.1 Pro. Gemini 3.5 Flash is $1.50/1M input and $9/1M output tokens, Gemini 3 Flash was $0.5/$3 per 1M input/output tokens, a 3x increase. The rest of the increase was driven by higher token usage when running our benchmarks Key results for Gemini 3.5 Flash with ‘high’ thinking level: ➤ 9 point Intelligence Index improvement: Gemini 3.5 Flash scores 55 on the Artificial Analysis Intelligence Index, up 9 points from Gemini 3 Flash. This places it ahead of Grok 4.3 (high, 53) and Claude Sonnet 4.6 (max, 52). The model improves across nearly all evaluations, with the largest gains coming from agentic evaluations and AA-Omniscience (knowledge and hallucination). On AA-Omniscience, Gemini 3.5 Flash improves by 11 points, driven primarily by reduced hallucinations, with its hallucination rate falling to 61%, a 31 point decrease compared to Gemini 3 Flash ➤ Agentic capability improvements: Gemini 3.5 Flash improves substantially over Gemini 3 Flash across our agentic evaluations, in both GDPval-AA (real-world agentic tasks) and Tau2-Bench Telecom (agentic tool use). Its GDPval-AA result is especially notable, achieving an Elo of 1656, well ahead of Gemini 3 Flash (1204) and Gemini 3.1 Pro (1314), and just behind GPT-5.4 (xhigh, 1674). This represents a meaningful step forward for Google in agentic performance, which has historically been a relative weakness for Gemini models ➤ Speed-intelligence frontier: Gemini 3.5 Flash achieves speeds of over 280 output tokens per second, ~70% faster than Gemini 3 Flash and models such as gpt-oss-120b and GPT-5.4 mini (xhigh). With its 55 Intelligence Index score, this places Gemini 3.5 Flash on the speed-intelligence Pareto frontier alongside Gemini 3.1 Pro and Gemini 3.1 Flash-Lite, reinforcing Google’s strength in models balancing speed and intelligence ➤ 5.5x increase in cost to run: Gemini 3.5 Flash costs $1,552 to run the Artificial Analysis Intelligence Index, 5.5x more than Gemini 3 Flash and 75% more than Gemini 3.1 Pro. This is driven by increases in both token usage and token prices. Output token usage is broadly unchanged from Gemini 3 Flash (73M vs. 72M), but input token usage increases significantly, driven primarily by an increase in the number of turns in agentic evaluations. Gemini 3.5 Flash is priced 3x higher than Gemini 3 Flash at $1.50/$9.00 per 1M input/output tokens, with a 90% discount for cached input tokens ➤ Google continues to lead multimodal performance: Gemini 3.5 Flash is multimodal, supporting image, video, and speech input alongside text. This differs from many proprietary models, including Claude Opus 4.7, Grok 4.3, and GPT-5.5, which support image input only. In our multimodal evaluation, MMMU-Pro, Gemini 3.5 Flash scores 84% - the highest score recorded. This puts models from Google in the top two spots, with Gemini 3.1 Pro scoring 82% Key model details: ➤ Context window: Retains the same 1M context window as Gemini 3 Flash ➤ Multimodality: Text, image, video and speech input with text output only ➤ Pricing: $1.50/$9.00 per million input/output tokens, with a 90% discount for cached input tokens Congratulations @GoogleDeepMind , @sundarpichai and @demishassabis on the great release!

译谷歌发布新模型Gemini 3.5 Flash,其在智能指数上提升9分至55分,超越Grok 4.3和Claude Sonnet 4.6,尤其在代理任务和知识真实性(大幅减少幻觉)方面进步显著。输出速度超280 tokens/s,使其位于速度与智能的领先前沿。然而,模型运行成本相比前代增加5.5倍,主要由于输入令牌用量及定价上涨。此外,它在多模态评估MMMU-Pro中取得最高分,支持多模态输入,展现了谷歌的综合优势。

Chubby♨️@kimmonismus · 5月20日68

Insane evals for a Flash model! Gemini 3.5 Flash is really good for its size!

译一个Flash模型的评测结果太疯狂了!Gemini 3.5 Flash对于其尺寸来说真的非常出色!

Ethan Mollick@emollick · 5月20日74

Gemini Omni: "a dramatic reading of Death by Water from the Wasteland by a man eating garlic bread while balanced on a unicycle on a small platform over a churning sea of tomato sauce in which, at the center, sites a meatball with bright blue eyes wearing a top hat"

译Gemini Omni:“一个男人一边吃着蒜香面包,一边在独轮车上保持平衡,站在翻滚的番茄酱海洋上方的小平台上,朗读《荒原》中的《溺水之死》。在酱海中央,漂浮着一颗戴着高顶礼帽、长着亮蓝色眼睛的肉丸。”

Google DeepMind@GoogleDeepMind · 5月20日78

We’re dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video. It combines Gemini’s intelligence with our generative media systems - representing a leap forward in world understanding, multimodality, and editing 🧵

译我们推出Gemini Omni:这是迈向一个能从任何内容生成任何内容的模型的第一步——从视频开始。 它结合了Gemini的智能与我们的生成式媒体系统——代表了在世界理解、多模态和编辑方面的飞跃🧵

🚨 AI News | TestingCatalog@testingcatalog · 5月20日74

GOOGLE I/O 🔥: GEMINI 3.5 FLASH HAS STARTED ROLLED OUT ON GEMINI AND APIs! Testing time soon 👀

译谷歌I/O 🔥:Gemini 3.5 Flash 已开始在 Gemini 和 API 上推出! 即将开始测试 👀

🚨 AI News | TestingCatalog@testingcatalog · 5月20日75

GOOGLE I/O 🔥: GEMINI OMNI FLASH HAS BEEN ANNOUNCED AND IS NOW AVAILABLE ON GEMINI AND GOOGLE FLOW. GEMINI OMNI PRO IS COMING SOON 🤩

译谷歌 I/O 🔥:GEMINI OMNI FLASH 已发布,现已在 GEMINI 和 GOOGLE FLOW 上可用。 GEMINI OMNI PRO 即将推出 🤩

Chubby♨️@kimmonismus · 5月20日77

„Progress towards AGI“: Gemini Omni - world models -Gemini Omni official!! It can create anything from any input!!!

译„迈向AGI的进展“:Gemini Omni - 世界模型 -Gemini Omni官方发布!! 它可以从任何输入创建任何内容!!!

Chubby♨️@kimmonismus · 5月20日54

Gemini 3.5 Flash official! Insanely fast an capable model

译Gemini 3.5 Flash官方发布!速度极快且能力强大的模型

Ethan Mollick@emollick · 5月20日44

I had early Gemini Omni access: "sea otter in a pilot's uniform explains why Spirit Airlines went bankrupt to a river otter who is distracted by their laptop while they are in a hot air balloon over NYC. in the next balloon over, william shakespeare fights a robot made of pizza"

译我早期获得了Gemini Omni的访问权限:"一只穿着飞行员制服的海獭在纽约上空的热气球里,向一只被笔记本电脑分心的河獭解释为什么精神航空破产了。在旁边的另一个热气球里,威廉·莎士比亚正在与一个由披萨制成的机器人搏斗"

DogeDesigner@cb_doge · 5月20日58

Grok Summary of Elon Musk's Forbes interview from today. OpenAI Lawsuit & Verdict Musk called the verdict a “dangerous precedent”. He argued that allowing a nonprofit to convert into a for-profit (especially after removing key protective clauses) undermines charitable giving in America. He described the jury’s decision as dubious because it overlooked the gradual nature of the conversion and plans to appeal to establish stronger protections against what he sees as “looting” charities. AI Predictions & Timeline Musk painted a picture of extremely rapid progress: •AI breakthroughs are happening constantly (“When I go to sleep, there’s an AI breakthrough; when I go to lunch, there’s a breakthrough”). •In ~5 years, digital intelligence could exceed the sum of all human intelligence. •The global economy may roughly double in size within 5–7 years. •Humanoid robots: At least 100 million in 5 years, potentially up to a billion. •AI is already “vastly smarter than humans” in some domains; he hopes it will be “nice to us.” He emphasized that AI compute (especially for training and inference) will increasingly move to space because of abundant solar power and the ability to scale without Earth-based grid or land constraints. SpaceX & Multi-Planetary Future Musk reiterated SpaceX’s core mission: making humanity multi-planetary as a backup for civilization. He highlighted progress toward fully reusable rockets (targeting major capability by year-end) that could enable massive cargo shipments (millions of tons) to the Moon and Mars to build self-sustaining cities. He also touched on the value of the existing Starlink satellite constellation for future space-based infrastructure, including potential orbital data centers. Neuralink & “Jesus-Level” Tech Musk described Neuralink’s brain-machine interfaces as capable of delivering near-miraculous outcomes — restoring eyesight, mobility, and speech for people with disabilities. He framed these as high-priority “Jesus level” innovations that directly extend and improve human capability. Other Big Ideas & Untapped Opportunities Musk pointed to several areas ripe for disruption: •Tunnels — 3D transportation networks to eliminate surface traffic (he encouraged others to start tunnel companies). •Synthetic/digital medicine — Custom RNA and related technologies that could effectively “cure anything.” •Electric aircraft and other sustainable transport. •Space-based AI infrastructure — Leveraging solar power for massive compute clusters. Legacy & Mindset When asked what he wants to be remembered for in 250 years, Musk replied simply: “He played a useful role in the advancement of civilization.” His focus remains on the technologies needed to extend life beyond Earth and accelerate human progress. He named Nikola Tesla as a top historical inspiration and Jensen Huang among current ones. Overall tone: Classic Musk — zero victimhood about the OpenAI loss, maximum forward-looking vision, rapid topic shifts, and a sense of urgency about AI, space, and extending civilization. The interview blends candid legal criticism with sweeping predictions about a future of abundant energy, intelligent machines, and humanity becoming multi-planetary.

译在《福布斯》访谈中,埃隆·马斯克就多个领域阐述了激进观点。他批评针对OpenAI的诉讼败诉开创了“危险先例”,并计划上诉。其核心预测包括:AI发展呈指数级,5年内数字智能或超全人类智能总和;全球经济规模有望数年内翻倍;人形机器人将达数亿台。SpaceX致力于开发全复用火箭,以实现大规模太空运输并建立地外城市。他将Neuralink脑机接口技术视为“耶稣级”创新,能恢复残障人士机能。此外,他还提及了隧道交通、合成医学等机遇,整体展现出以技术加速人类文明进程的强烈紧迫感与乐观构想。

向阳乔木@vista8 · 5月20日41

Gemini Omni Flash 效果很拉胯啊! 提示词:生成墨比斯风格的科幻动画短片,银河系搭车客指南 好像根本没理解第二句话...

小互@xiaohu · 5月20日48

Google 全新Omni 模型 🫡

歸藏(guizang.ai)@op7418 · 5月20日67

哇! 谷歌新视频模型 Gemini Omni Flash 已经上线 FLow

Luma@LumaLabsAI · 5月20日66

Luma Agents can now generate with Seedance 2.0. Point your next project at it, see what it produces, keep moving. Same workflow, more to work with. Open Luma Agents → http://lumalabs.ai/app

译Luma Agents现在可以使用Seedance 2.0进行生成了。 将你的下一个项目指向它,看看它能产出什么,然后继续前进。同样的工作流程,但有了更多可用内容。 打开Luma Agents → http://lumalabs.ai/app

🚨 AI News | TestingCatalog@testingcatalog · 5月19日59

GOOGLE I/O 🔥: More Google Flow updates! Characters and Scenes are now available there, too! Users can create characters that can later be reused for video generation. Different character voices are also available. Besides that, the Google Flow app for Android is now available on Google Play. TESTING TIME! 👀

译Google Flow在I/O期间发布了一系列重要更新。核心功能包括新增角色与场景创建,用户可生成并复用角色形象与语音,用于视频创作。应用已正式登陆Google Play,覆盖Android平台。通过集成Gemini Omni,Flow获得了新的AI助手体验,用户可通过聊天模式与Gemini协作,进行概念构思、图像变体生成等智能操作,并新增了可定制的风格工具。

Berryxia.AI@berryxia · 5月19日47

兄弟们,看这个AI辅助的头影测量轨迹,直接把我看呆了。 干了我一直想干没有干的事儿! 即使你完全不懂正畸,也能一眼感受到那种丝滑和精准。 @SwiftyAlbert 这位正畸医生兼macOS原生开发者,把自己的OrthoKit App做成了真·黑科技。 以前做一次完整的头影测量,医生得手动点几十个关键标志点,花大半天时间,还容易出错。 现在AI直接接管,整个过程自动识别、自动描迹、自动生成报告,几秒钟就出结果。 App已经在App Store上线,Mac、iPhone、iPad全平台支持。 前15个患者免费,里面30多个分析项目,一半以上是全AI驱动(Steiner、McNamara、Bjork、Baccetti…)。 AI真正开始把“专业门槛极高”的医疗诊断,从手工活变成了人人能用的智能工具。 以前只有顶级诊所能做的精准分析,现在普通正畸医生也能轻松拥有。

译正畸医生兼开发者@SwiftyAlbert打造的OrthoKit应用,利用AI技术实现了头影测量的全自动化。传统上医生需手动标注数十个标志点、耗时且易错,而AI接管后,几秒内即可完成自动识别、描迹并生成报告。该应用已上架全平台,提供超过30项分析(如Steiner、McNamara),其中半数以上由AI驱动。这标志着高专业门槛的医疗诊断正转化为智能工具,使更多正畸医生能轻松获得精准分析能力。

Berryxia.AI@berryxia · 5月19日67

http://x.com/i/article/2056641313874083840 # 黄仁勋说要选会用 AI 的应届生。我追着 AI 追了半年,胖了 10 斤。 「黄仁勋说要选会用 AI 的应届生。这话我同意。但我追着 AI 追了半年,先把自己干掉了 10 斤——是熬出来的。」 最近也看到NVIDIA CEO 黄仁勋 在接受采访直接表态就是: “如果让我在两个应届生之间选: 一个完全不懂AI,   一个是AI使用专家……   我会每次都选后者。 会计、市场、供应链、律师、销售…… 所有岗位都一样。” 他不是在说AI会取代人类。 他是在说:AI已经变成每份工作的基本工具。 凌晨三点看 YC 的访谈,听完又去听各种大神的播客和演讲,听他们讨论 AI 进展速率、人形机器人量产时间表,听完合上电脑下楼便利店买关东煮,回来继续刷 X 肝帖。 很多搞内容、做产品、写代码的朋友过去这一年大概都是这么过来的。 因为AI时代迭代的速度是真的远超自己的速度,你越追越累。 焦虑像潮水一样,从睁眼那一刻开始涨。 但我心里一直有个想法没敢说出来 — 我们这群人整天讨论 AI 取代谁,最先被取代的可能不是会计也不是程序员,是那个还没等到 AI 取代他、就已经被自己的生活方式干掉的人。 > 不是被 AI 取代,AI已经变成每份工作的基本工具。让你成为更精神、更稳定、更健康的一个有血有肉的灵魂。 ## 「你拍这些干嘛?」「发给我的教练。」「……什么教练?」 今天晚上吃完饭去健身房,在健身房上课。 每做完一组动作,我就掏出手机拍一张。从坐姿推胸机,到引体向上,到高位下拉机,再到深蹲和拉伸。 教练看我拍了好几张,问我「你拍这些干嘛」。 我说「发给我的教练」。 他愣了一下。 > 「。。。什么教练?」 我笑着说,「给我的线上的小龙虾教练」。 我索性把手机递过去,让他看了一眼我跟「小 B」的聊天记录。小 B 是我前几天训出来的一只 AI 健身教练,每天下班提醒我开练,我把每组动作的重量和次数发给它,它给我估算热量、记日报、做周报,会顺手画肌肉解剖示意图,还会在我想点外卖炸鸡的时候戳我一下。 他看了一会儿没说话,然后跟我说,「这个东西其实可以推荐给我的学员,让他们下课之后还能监督和给他们提醒什么的!」。 那一刻我觉得挺奇妙的。那只虾不只是在帮我减肥,它还在帮一个干了 10 年的健身教练,想象他下一份工作怎么干。 ## 那只虾,仅需10分钟就可以训出来! 倒回去说一下,那只虾是从哪儿来的。 之前我也想过用通用 AI 当健身教练,它根本记不住上次聊了什么,每次都得重新交代「我是谁、多高、多重、目标是什么」。也试过自带模板的产品,打开就是个让你填字段的表单,连续熬夜的人最不想干的事就是填表。 朋友半夜甩给我一个链接说「试试这个,不用搞prompt」。 那是 360 安全龙虾云端版(claw.360.cn),5 月 13 日刚在「龙虾课堂第一期」直播里发布。 它做了一件挺反常识的事 — 市面上大多数 AI Agent,给你的其实是一只空虾,剩下全靠自己往里填。 360 这边做了一只专门用来训别的虾的虾,叫龙虾教练。 一句话讲清楚,就是「一个帮你配置 AI 的 AI」。 跟它走四步就行: > 聊需求 用人话告诉它你想干嘛 做调研 它自己分析你这一行的背景 装技能 从内置的 50000+ 技能里挑出你需要的 做测试 训完先自己跑一遍,过了关再交给你 下面拆开讲一下我训小 B 的全过程。 ## 第一步:我跟它聊我想要什么 我打开龙虾教练,没废话,直接说我是个长期熬夜的内容博主,最近胖了 10 斤,希望每天有人提醒我喝水、提醒我别太晚吃,每天给我日报、每周给我曲线报告,「不要那种让我填表的健身 App,我已经够累了」。 打开龙虾教练,一段话讲清楚我要什么 — 不用 prompt 模板,不用填表 它没有像普通 AI 那样马上开搞,而是反问了我几个问题: - 「你目前体测怎么样?」 — 我把体测报告截图甩给它,它直接读图,把体重、BMI、体脂率、骨骼肌、内脏脂肪一行行抓出来 - 「你的主要目标是哪种?」 减脂 / 增肌 / 塑型 / 其他 — 我选减脂 - 「每周能训几次?」「有没有运动禁忌?」「饮食上有什么偏好?」 - 「教练风格你想要哪种?」 严厉督促 / 温和鼓励 / 专业分析 — 我选督促型,外加每周一次专业分析 - 「一个月减 10 斤算激进,要不要拉到一个半月?」 — 这个反问我没想到,它自己劝我别太狠 我一边回答它一边觉得,这一段对话比写 prompt 舒服十倍。我只用说人话,剩下的它自己结构化。 ## 第二步:它自己钻进后台,开始配置。 聊完几轮,它消失了一会儿,自己开始写配置。 我们可以看到已经在调用工具和调动Agent帮我们来完成任务了。 点开是一段 JSON,里面写着 agent_type / namiAgentId / role / scene: claw_chat_create / task: 定性项的风格是专业分析型… 这些字段。 我没看懂全部,但意思我看懂了 — 它在替我下单一只新的虾。 然后是更狠的一段,它开始往那只新虾的"脑子"里写东西: - MEMORY.md — 小 B(健身教练)的长期记忆:我是谁、目标多少、用什么语气督促我、什么时候不要联系我 - skill_inventory — 给小 B 挂的技能:humanizer-zh(让回复有人话)、白话改写、内容可视化、长上下文压缩…… - TOOLS — 小 B 可以调用的工具:能用 web_search 查最新营养学文章、能用 web_fetch 抓老板(也就是我)发的链接,但有边界 — "先用记忆,不轻易重新调研" - 安静时间 — 23:00–07:00 不主动联系;工作时间 09:00–18:00 除午餐提醒外不打扰;越级触发条件是身体严重不适、连续疲劳 这些事,如果让我自己用 prompt + workflow + 权限配置一项一项搞,我得花一整个周末。 龙虾教练在我和同事们扯闲篇的时候替我跑完了。 ## 第三步:测试通过,小 B 出生 茶泡完回来,屏幕上跳出一行字:「小 B(健身教练)配置已生成」。 我点开看了一眼角色简介: > 小 B(健身教练)你的专业健身私教,20 年经验的健身与营养双专家,专注减脂塑形、科学训练与饮食管理,用数据和专业帮你实现一个半月减 10 斤的目标。版本号 v20260518-1。 从我打开龙虾教练到小 B 出生,整个过程 10 分钟出头。 ## 健身完,我在椭圆机旁边掏出手机 ‘用语音 + 拍照,把今天的训练量和 Apple Watch 数据丢给小 B 讲回今天健身房。 下完课,我坐在椭圆机旁边喘气,掏出手机点进小 B,按住麦克风开始口播。 我先把今天的引体向上拍下来发上去,配一句话「重量方面,默认配的应该是 15 公斤,你帮我记录一下」。 然后接着口播深蹲三组 30/40/50 个、椭圆机 20 分钟阻力 5、推胸机 15 公斤 3 组 12 次。 最后我又把 iPhone 体能 App 里的 Apple Watch 摘要截图发给它,「这是我今天带的 Apple Watch 记录的体能消耗,你做参考,等下出报告的时候把这个数据结合进来」。 它思考了几秒,回了一张干净的表: > 🔥 预估热量消耗坐姿推胸机(3 组 45 次) ~35 kcal坐姿推肩机(4 组 65 次) ~45 kcal深蹲(3 组 120 次) ~80 kcal椭圆机(20 分钟,阻力 5) ~180 kcal总计 约 340 kcal 下面跟了两句,「你说还有 Apple Watch 数据要给我看?发一下我对照下实际消耗,校准估算量」、「另外,推胸机的重量还没说,大概多少公斤?」 它会追问,它要求交叉验证,它知道哪里数据不够、需要我补。 它没在敷衍我。 定时推送目前偶尔有 5–10 分钟延迟,他们自己也承认还在打磨。但比起一个完美但不主动烦我的助手,我更需要这种「会犯点小错但每天在线」的。 ## 它每天给我一份日报,每周给我一份周报 数据发完,云盘里多了一份 HTML,叫每日训练日报。 不是 GPT 那种纯文字总结,是带颜色、带图标、自己排过版的一张图。 到了周日晚上,它会自动生成一份健身周报。 就会有一份非常专业的训练总结的图表报告给你。 真的比健身房的很多教练给你的数据更准确。 ## 它顺手画了组动作示意图 我跟它提过一句「我对器械的名字搞不清楚,能不能给我一个动作教学的小册子」。 第二天云盘里多了个文件夹「健身动作教学示意图」,里面八张图对应推日、拉日、腿日。 我点开看的时候才意识到,它在背后又调了一只虾。 左边那张是它的「后台」 — 小 B 在调用「AI 生图 Image-2 视觉专家」,一只专门负责出图的虾,把动作要点写成 prompt,让它一张张画。 右边那张是出来的成品,菱形肌、背阔肌、斜方肌按发力部位涂成红色,旁边还配了不同阶段的肌肉激活区域。 我没去配模型API、没调 Prompt、没写工作流。 我跟它说「给我一个动作教学的小册子」。剩下的事,它替我打通了链路。 这里可能有的朋友说,我不想打开 App,我就是觉得直接在微信里或者飞书上跟我的这个“小龙虾”对话更方便,这行不行呢? 其实这个也是支持的。它直接支持飞书、微信、企业微信等主流 IM 软件,全部在电脑上配置完毕之后,你就可以在微信上调教并使用你的小龙虾助手了。 所以说,这种多 IM 主流接入的支持,确实非常友好。 你说它有没有缺点呢?肯定有,现在我也发现了一些不是特别友好的地方: 1. 无法直接在对话框中生成图片 虽然可以使用 SVG 或者生成训练示意图,但生图的入口在另外一个窗口。希望未来可以直接在一个窗口内搞定生图。 2. 历史记录的逻辑问题 多次对话时,默认进入的不是上一次对话,而是需要手动点击一下历史记录。 我希望在未来的版本中能看到这两个方面的更新。其他的就看后续发展了,因为现在“小龙虾”的迭代速度都比较快,我觉得未来可能会更好用。 ## 不只是一只虾,是一支团队 小 B 跑稳了之后,我顺手又训了几只: 我自己需要的AI热点新闻选题虾、深度思考虾等。 加上 360 安全龙虾里本身就内置的 100 多只预训练好的专家虾 — 我没必要全部自己训: - CEO 智囊团 — 巴菲特看价值、乔布斯看产品、马斯克看本质。打开就能三个人吵一架,给我打个商业判断 - 第一性原理策略专家 — 我去年想做的一个内容矩阵,跟它聊了 40 分钟,它直接把"为什么要做"、"做给谁看"、"为什么是你做"三层一层层剥到我哑口无言 - 视频创作专家 / 内容创意专家 — 接了 Seedance 2.0、Seedream、海螺、可灵、万相、Midjourney 这些多模态模型。我有一次需要一个 3 秒的开场动效,直接说"帮我做一个像 Notion 启动动画那种的",半小时后云盘里就有 mp4 你看 — 这一年大家都在讨论"AI 取代人类",我桌面上现在的形态是: 我没被取代。我手机里多了一支团队。 ## 每只虾的背后,都有一台云电脑 过去我用的所有 AI Agent,几乎都是聊天框 — 你说一句,它说一句,关掉就完事。 360安全龙虾,这边做的事情不一样:它在云端给每一只虾配了一台云电脑、一套云桌面、一个云盘。 - 云电脑 — 能开浏览器,能装软件,能跑长任务。我让追热点助理去 X 扫一圈,是它真在云端开了一个 X 标签页扒数据,不是装样子 - 云终端 — 能跑命令、能启服务。OPC 那只虾给我写完一段代码之后,是真的能在云端起一个 Web Server,丢我一个 URL,我点开就是上线了的 demo - 云盘 — 所有产出(小 B 的日报、追热点助理的晨报、写作守门员标红的稿子、OPC 出的代码包)全自动落盘,按虾分文件夹,随时调出来 - 内置 AI 编程高手 — 内置了多个世界顶尖模型,我之前最贵的一笔订阅就是给这几个工具凑齐的。现在一个账号里全有了 最骚的一点是 — 我不需要 24 小时挂一台 Mac mini。 小 B 在云端,追热点助理在云端,OPC 在云端。我手机上只装一个客户端,相当于一个遥控器。 我可以在椭圆机旁边掏出手机让 OPC 给我跑一个改动;可以在地铁上对追热点助理说"这条推荐我加到明天晨报里"; 可以在飞机起火前一分钟告诉小 B"今晚临时聚餐,火锅,提前算热量"。 PC / Mac / 安卓 / iOS 全终端同步在线,微信、飞书、钉钉、QQ 都能直接接进去。 花一份钱,100+ 顶尖大模型按场景切换 — 快模型干日常聊天、强模型干长推理、专用模型干代码 / 读图 / 生图 / 生视频。 50000+ 内置技能全免费,不用一个个找、一个个装、一个个踩坑。 你不需要给每一只虾单独注册海外账号、绑卡、配 API Key、装管控。 云端这件事,是把"养虾"从一个本地玩具变成一支真在工作的团队的最关键一步。 ## 我们写 AI 的人,可能严重低估了「用不上」这三个字 写到这儿我得说一件想了挺久的事。 我身边能稳定用上 Claude、GPT 的人,加起来不到一只手。 能搞定信用卡 + 科学上网 + API Key、还愿意每个月给一个境外账户付费的人,本来就是少数。 剩下 95% 的同事和朋友,AI 对他们要么是抖音上划过的截图,要么是被吹得很神、自己试一次就放下的豆包。 我也想过把我自己最熟的东西推荐给他们 — 推 ChatGPT、Claude,他们打不开 让他们自己写 prompt,他们看我像看一个上岸了但精神状态有点问题的人。 我身边搞 AI 的朋友焦虑的是「国内的 AI 是不是赶不上国外」,整天讨论 GPT、Claude、Gemini 的 benchmark,仿佛差距是一场科学竞赛。 但真正的差距不在 benchmark,是在「一个上不了海外模型、不会写 prompt 的普通人,能不能把 AI 真正用进自己的生活」这件事上。 > 360安全龙虾这一次端出来的不是参数表,是一条让普通人也能进得来的路。 不用费劲折腾网络、配置环境,打开就能跟主龙虾说人话。 不用学 prompt、不用配工作流,跟龙虾教练聊四句话,我那点提词手艺就被它默默翻译成了 MEMORY.md、skill_inventory、TOOLS 调用规则,塞进一只虾里。 不用 24 小时挂电脑,云端给每只虾配好了办公室,手机当遥控器就行。 我那些原本对 AI 隔着一道玻璃的同事,第一次可以直接说一句中文,就把活儿派出去。 国产生产力工具卷的不该是分数。 是有多少具体的人,被这套工具悄悄改变了今天的状态。 ## 回到我那最开始减肥的故事 每天小 B 都会发我一张曲线图,缓慢往下走。 并且我第二天身体不舒服直接告诉他问题,就会收到对应的回复和建议。 比我们去给私教发消息咨询方便更多。 一个月能不能真减到 10 斤我不知道,但有一件事我确定 — 最近这几周我熬夜次数少了。 不是我变自律了,是每天有具体的小事在跟踪。 人一旦盯着具体的小事,就不容易被宏大叙事吸进去。 绝大多数关于 AI 的讨论都在抬头看,看奇点、看 AGI、看人形机器人什么时候量产。 强不强是模型的事,合不合是教练的事。 对了,今天健身房那位真人教练临走时问我,「你那只虾叫什么名字来着?」 我说「小 B」。 他说「行,明天我也去训一只,记得把链接给我一下」。

译NVIDIA CEO 黄仁勋指出,AI已成为每份工作的基本工具。推文作者以自身实践为例,为应对健康与效率焦虑,利用360“龙虾教练”平台在10分钟内训练出个性化AI健身助手“小B”。该AI能记录训练数据、生成专业日报周报,甚至调用其他AI绘制动作示意图,无需用户编写代码或配置复杂工作流。案例展示了AI工具正从概念讨论快速落地为普通人可用的日常助手,也提醒在追赶技术浪潮时,不应牺牲身心健康。

Berryxia.AI@berryxia · 5月19日67

xdm,这个研究对于古代历史研究的价值很大啊! 他们刚刚开源了Chronicles-OCR,一个专门测VLLM对古汉字感知能力的基准。 数据集横跨3000年演变,涵盖7种历史字体,从甲骨文一直到草书,2800张平衡图像,来自不同材质的真实载体。 测试分4个核心任务: 字符定位、细粒度识别、古文字解析、字体分类。 结果很扎心:视觉分布随时间漂移后,大部分模型感知能力直接崩盘。 以前大家卷的是现代图文理解,现在Tencent把AI拉到真正需要“穿越时空”才能看懂的古文字上。 这才是把文化传承和AI视觉能力真正连在一起。 Paper和完整数据集已经开源: Paper:https://arxiv.org/abs/2605.11960 GitHub:https://github.com/Tencent/Hunyuan-Chronicles-OCR 论文还没有阅读,完了可以好好研究一下。

译腾讯开源了Chronicles-OCR基准,旨在专门评估视觉语言模型对古汉字的感知能力。该数据集横跨3000年演变,涵盖从甲骨文到草书的7种历史字体,包含2800张来自多样材质的真实图像。研究设置了字符定位、细粒度识别、古文字解析和字体分类四项核心任务。测试结果揭示,面对历史字体带来的视觉分布漂移,大部分模型的感知能力会急剧下降。该研究为古文字研究提供了重要的AI评测工具。

AYi@AYi_AInotes · 5月19日66

为啥昨天发的这颗葡萄在X上炸锅了?一天跑了4800赞,280万浏览, 先说结论,炸锅倒不是因为它有多好看,主要是因为它把3DGS的最难考卷做成了满分答案。 用了6660张宏观照片,43万个高斯点,模型压到50MB以下,手机能实时旋转,半透明果肉里的光都还原了, 讲真,这种半透明物体一直是3DGS的噩梦,但他偏偏选了最难的那个来打样, 接下来我们来拆两件事: 1️⃣3DGS为什么在这个赛道把NeRF甩开了, 2️⃣它还有哪些硬伤没解决 👇

译一颗葡萄的3D模型在社交平台X上引发热议,一天内获4800赞和280万浏览。其核心在于利用3DGS技术成功攻克了半透明物体重建的公认难题。项目使用6660张宏观照片训练,生成仅43万高斯点,压缩后模型小于50MB,实现了在手机端实时360度旋转和光影还原。这一突破验证了“最难案例跑通,则更简单物体皆可数字化”的逻辑,展示了从专业扫描仪和建模团队降维到个人相机加自动训练的低成本、高效率新流程,为手办、珠宝、文物等领域的数字资产化指明了方向,开发者正通过工具miqula将此流程产品化。

Alibaba Cloud@alibaba_cloud · 5月19日45

🎬 Proud Title Sponsor of the AI Film Festival Monaco! We're honored to be named Title Sponsor of the AI Film Festival Monaco 2026 — a groundbreaking gathering where cinema meets artificial intelligence. As a global leader in cloud computing and AI infrastructure, Alibaba Cloud is committed to empowering creators, studios, and innovators with the tools they need to shape the future of storytelling. From training large foundation models and generating immersive video content to delivering high-performance rendering at scale, our cloud platform provides the elastic, secure, and intelligent foundation for AI-native creative production. This festival embodies the powerful convergence of technology and artistry — and we're excited to support a new generation of visionaries building at the speed of AI. Join us in Monaco: 🔗 Get your seat to the future: https://int.alibabacloud.com/m/1000413073/ 📍 One Monte Carlo, Monaco 🗓 June 9–10, 2026 #AlibabaCloud #AIFilmFestiva #CreativeTech #GenerativeAI #Monaco2026

译阿里巴巴云宣布成为2026年蒙特卡洛人工智能电影节的冠名赞助商。该电影节旨在探索电影与人工智能技术的融合。作为全球云计算和AI基础设施领导者,阿里云将为创作者提供大模型训练、沉浸式视频内容生成及大规模高性能渲染等支持,构建AI原生创作所需的弹性、安全与智能云平台,助力新一代创作者加速创新。

歸藏(guizang.ai)@op7418 · 5月19日56

CodePilot 令我非常震惊的一个点是,最近因为我用它做 PPT Skills 做的比较多,它把我的风格喜好记下来了。 然后它改掉了生成式 UI widget 里面的视觉样式。 开始用我最喜欢的视觉风格来为我生成可视化的内容解释,这个太顶了! 看一下这三个图,太漂亮了!

译CodePilot展示了强大的个性化能力,能通过用户频繁使用PPT功能的行为,学习并记录其视觉风格偏好。系统随后将这一风格应用于生成式UI组件的视觉样式中,使生成的可视化内容自动适配用户喜好,提升了内容的个性化与美观度。

Alibaba Cloud@alibaba_cloud · 5月19日60

🚀🚀Qwen3.7 Preview lands on Arena! ⚡️⚡️Here come Qwen3.7-Plus-Preview. Alibaba now #5 in Vision.🎨 Can't wait to release Qwen3.7 series models!Stay tuned! @arena

译🚀🚀Qwen3.7预览版登陆竞技场! ⚡️⚡️Qwen3.7-Plus-Preview来了。阿里巴巴现在在视觉领域排名第五。🎨 迫不及待要发布Qwen3.7系列模型了!敬请期待!@arena

Alibaba Cloud@alibaba_cloud · 5月19日55

🚀🚀Qwen3.7 Preview lands on Arena! ⚡️⚡️Here come Qwen3.7-Max-Preview. Alibaba now #6 lab in Text. Can't wait to release Qwen3.7 series models!Stay tuned! @arena

译阿里巴巴旗下通义千问的Qwen3.7系列模型在AI评测平台Arena首次公开。其中,Qwen3.7 Max Preview在文本竞技场总排名第13,使阿里在该平台位列第六;在数学、专业知识、软件与IT、编程等多个细分领域排名进入前十。此外,Qwen3.7 Plus Preview在视觉竞技场排名第16,阿里在该领域位列第五。官方表示即将正式发布Qwen3.7系列完整模型。

Tencent Hy@TencentHunyuan · 5月19日72

🎉 🎉 🎉 We're open-sourcing Chronicles-OCR, a visual perception benchmark evaluating VLLMs on ancient Chinese characters. The dataset spans 3,000 years of evolution. It covers 7 historical scripts from Oracle Bone to Cursive, featuring 2,800 balanced images across highly diverse physical media. We assess models on 4 core tasks: • Character Spotting • Fine-grained Recognition • Ancient Text Parsing • Script Classification The evaluation reveals how visual distribution shifts affect model perception over time. Explore the dataset and paper below. 👇 📄 Paper: https://arxiv.org/abs/2605.11960 🔗 GitHub: https://github.com/VirtualLUOUCAS/Chronicles-OCR

译开源了评估视觉大语言模型(VLLM)对古代汉字视觉感知能力的基准测试Chronicles-OCR。该数据集覆盖了从甲骨文到草书的3000年演变历程,包含7种历史书体与2800张均衡图像。评估涵盖字形定位、细粒度识别、古代文本解析和字体分类四项核心任务,旨在探究视觉分布随时间的变化如何影响模型感知。相关论文与代码已开源。

歸藏(guizang.ai)@op7418 · 5月19日46

今晚谷歌新视频模型的演示。 看起来肯定是可以进行视频编辑了,就是不知道是统一模型还是跟生成分开的

译谷歌新视频模型的演示表明其可能具备视频编辑功能,引发了关于模型架构是否统一或分开生成与编辑的讨论。此演示与Google I/O 2026会议相关,Sundar Pichai推文预告会议将于明天10am PT举行,预示着更多技术细节可能在此次活动中披露。

Berryxia.AI@berryxia · 5月19日33

卧槽~这个可以啊! 其实Apple Vision Pro就是通过追踪眼球来控制,类似你的眼球就像移动的鼠标指针,你的手部捏合的动作就是鼠标点击的动作。 这个直接搞到显示器上有点意思!

Berryxia.AI@berryxia · 5月19日76

今天就被奥德赛实验室的“实际”模型刷屏! Odyssey刚刚把“世界模型”直接拉进多人模式了。 Agora-1,全球第一个真正实时的多agent世界模型。 人类和AI现在可以同时进同一个模拟世界,实时互动、互相影响。 他们直接拿经典GoldenEye死亡竞赛做了可玩的研究预览。 你现在就能进去,和AI一起开黑、互射、抢旗,模型会实时生成画面和声音,整个世界持续更新。 这已经不是单人生成视频,而是多人共享的活世界。 Odyssey说,长期来看,多agent世界模型会彻底改变游戏、模拟、教育、机器人和AI协作的方式。 大家不再是旁观者,而是真正一起生活在同一个模拟里。 现在就可以去试:https://agora.odyssey.ml 完整介绍在这里:https://odyssey.ml/introducing-agora-1

译奥德赛实验室推出Agora-1,这是全球首个实时多agent世界模型,允许多人与AI同时在同一个模拟世界中实时互动并相互影响。该模型以经典游戏GoldenEye死亡竞赛为演示场景,提供可玩研究预览,用户现在即可体验与AI共同参与动态生成的模拟世界。这标志着从单人生成视频向多人共享“活世界”的转变,长期来看可能重塑游戏、模拟、教育、机器人及AI协作等领域,使人类从旁观者变为与AI共同生活的参与者。

meng shao@shao__meng · 5月19日47

这就是 Veo 4 吗? 如果是,这个视频续写和不同特效切换,在视频剪辑方面效果很不错,而且视频长度加长到 10s 了。

译推文疑似展示或讨论了Veo 4的视频生成能力,重点提及了视频续写、不同特效切换等效果,以及视频时长增加至10秒的新特性。该推文引用了Google CEO Sundar Pichai的预告,暗示这些展示可能与即将举行的Google I/O 2026大会相关。

Berryxia.AI@berryxia · 5月19日62

卧槽,这个模型真的有点东西啊! 看完后就想问什么时候可以上手啊! Odyssey AI实验室刚刚扔出一个真正让人眼前一亮的家伙:Starchild-1。 这是全球第一个实时多模态世界模型。 它不只是生成画面,还能同时生成真实世界的声音。 视频里你能看到一个完整的场景:画面在动,声音同步响起,视觉和听觉完全融为一体,像真正活过来的世界模拟。 以前的世界模型大多只能“看”世界,现在Starchild-1直接学会了“听”。 这不仅仅是又一个视频生成工具,更大的意义是朝着通用世界模型又迈出的关键一步,真正理解并模拟物理世界的下一步。 Odyssey团队说,他们正在用这种新形式的多模态智能,重新定义AI对现实的认知。

译Odyssey AI实验室发布了Starchild-1,这是全球首个实时多模态世界模型。该模型不仅能生成视频画面,还能同步生成与之匹配的声音,实现了视觉与听觉的真正融合,模拟出完整、鲜活的世界动态。与以往只能“看”世界的世界模型不同,Starchild-1实现了“听”的能力。这被视为向通用世界模型迈出的关键一步,旨在重新定义AI对现实世界的认知与模拟方式。

🚨 AI News | TestingCatalog@testingcatalog · 5月19日68

GOOGLE I/O 🔥: These legends are AI-generated via an upcoming Gemini Omni model. > Both videos are 8s HD samples. > Video with Sandar and Demis is likely generated as an image-to-video using Omni for style editing. > Logan's video is likely a "Likeness" Avatar and Omni video. And "GEMINI" means a new model release! 🤯

译谷歌I/O 🔥:这些传奇人物是通过即将推出的Gemini Omni模型生成的AI图像。 > 两段视频均为8秒高清样本。 > 与Sundar和Demis相关的视频很可能是使用Omni进行风格编辑的图像转视频生成。 > Logan的视频则可能是“相似度”虚拟形象与Omni视频的结合。 而“GEMINI”意味着新模型的发布!🤯

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月20日
03:29
Sundar Pichai@sundarpichai
79
Gemini Omni不仅能构建逼真的场景,还能推理接下来应该发生什么。它结合了对物理的直观理解与Gemini在历史、科学和文化背景方面的知识。 今日起,通过@Geminiapp + Google Flow和@YouTube Shorts,向全球Google AI Plus、Pro和Ultra订阅用户推出视频生成功能。
Google多模态模型发布视频
03:11
Google DeepMind@GoogleDeepMind
61
我们希望借助AI帮助科学家发现下一个重大突破。 Gemini for Science是我们全新的实验性工具套件,旨在帮助他们探索更多假设、大规模验证工作、轻松解析文献等。🧵
DeepMindGoogle产品更新多模态
03:08
Google Gemini@GeminiApp
81
介绍Gemini Omni,我们的新模型,可以从任何输入创建任何内容,首先从视频开始。 借助Gemini Omni,您可以将图像、视频和文本作为输入组合,并生成基于Gemini现实世界知识的高质量视频。#GoogleIO
Google多模态模型发布视频
03:03
OpenRouter@OpenRouter
82
来自@GoogleDeepMind的Gemini 3.5 Flash现已登陆OpenRouter! 在编码、智能体任务和工具使用方面超越Gemini 3.1 Pro,同时保持Flash级别的价格和速度。 支持100万上下文、6.5万最大输出、多模态。输入$1.50/百万token,输出$9/百万token。
Google多模态模型发布
03:01
François Chollet@fchollet
62
Gemini 【引用 @arcprize】:Gemini 3.5 Flash ARC-AGI(已验证) ARC-AGI-2: - 高配:72.1%,$0.85 - 最低配:8.9%,$0.11 ARC-AGI-1: - 高配:92.5%,$0.42 - 最低配:48.8%,$0.06 Gemini 3.5 Flash在ARC-AGI测试中与GPT-5.5(中配)表现相当

ARC Prize: Gemini 3.5 Flash ARC-AGI (Verified) ARC-AGI-2: - High: 72.1%, $0.85 - Minimal: 8.9%, $0.11 ARC-AGI-1: - High: 92.5%, $0....

Google多模态推理评测/基准
02:55
AYi@AYi_AInotes
80
Google Gemini Omni重新定义视频生成

Google推出Gemini Omni,首个面向消费者的世界模型。它通过自然语言交互,将Gemini的智能与生成媒体系统结合,实现了对物理规律、历史、生物等世界的深刻理解。用户可以像编辑ChatGPT文本一样用单句指令编辑视频,实现人物一致性、风格迁移、角度调整等功能。它不是单纯生成像素,而是模拟连贯的物理与语义世界,标志着AI视频生成从拼接工具向智能创作系统的飞跃。

Google DeepMind: We're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video....

DeepMindGoogle图像生成多模态
02:38
Google Gemini@GeminiApp
57
Gemini Omni今日登陆Gemini应用,面向付费订阅用户开放。 它让你能通过文本、图像和视频的任意组合来实现创意。只需打开Gemini,从相册中附加一段视频,然后进行编辑。就这么简单。#GoogleIO
Google产品更新多模态
02:38
Google Gemini@GeminiApp
精选68
我们在#GoogleIO上宣布了多项Gemini更新,包括: - 采用神经表达技术的全新Gemini体验设计 - 即将推出的Gemini智能体功能,含每日简报与Gemini Spark - Gemini Omni与3.5 Flash模型 - 以及更多内容! 详情请见此线程🧵
智能体Google产品更新多模态

推荐理由:Google IO上Gemini这波更新,从Neural Expressive到代理体验,是在把AI助手往主动帮你做事的方向推,产品人和开发者该认真看看。
02:30
Chubby♨️@kimmonismus
81
真正的"哇"时刻是 Gemini Omni。一个迈向 AGI 的世界模型。 它可以从任何输入创建任何内容。这太疯狂了。

Logan Kilpatrick: Introducing Gemini Omni 🔮........ Omni is our new model that can create anything from any input - starting with video (...

Google多模态模型发布视频
02:06
🚨 AI News | TestingCatalog@testingcatalog
75
谷歌I/O大会🔥:Gemini 3.5 Flash已发布! Gemini 3.5在人工智能分析智能基准测试中表现与Gemini 3.1 Pro相当,但速度更快。 【引用 @GeminiApp】:Gemini 3.5 Flash来了,这是我们迄今为止在快速高效完成任务方面最好的模型。 无论您需要日常任务帮助还是多步骤创意项目,Gemini 3.5 Flash都能应对现实世界的复杂性,助您采取行动。#GoogleIO

Google Gemini: Gemini 3.5 Flash is here and it's our best model yet for getting things done quickly and efficiently. Whether you need h...

Google多模态模型发布
02:03
Artificial Analysis@ArtificialAnlys
78
速度智能兼得的新一代AI:谷歌Gemini 3.5 Flash发布

谷歌发布新模型Gemini 3.5 Flash,其在智能指数上提升9分至55分,超越Grok 4.3和Claude Sonnet 4.6,尤其在代理任务和知识真实性(大幅减少幻觉)方面进步显著。输出速度超280 tokens/s,使其位于速度与智能的领先前沿。然而,模型运行成本相比前代增加5.5倍,主要由于输入令牌用量及定价上涨。此外,它在多模态评估MMMU-Pro中取得最高分,支持多模态输入,展现了谷歌的综合优势。

智能体DeepMindGoogle多模态
02:00
Chubby♨️@kimmonismus
68
一个Flash模型的评测结果太疯狂了!Gemini 3.5 Flash对于其尺寸来说真的非常出色!

Chubby♨️: Gemini 3.5 Flash official! Insanely fast an capable model

Google多模态模型发布
01:59
Ethan Mollick@emollick
74
Gemini Omni:"一个男人一边吃着蒜香面包,一边在独轮车上保持平衡,站在翻滚的番茄酱海洋上方的小平台上,朗读《荒原》中的《溺水之死》。在酱海中央,漂浮着一颗戴着高顶礼帽、长着亮蓝色眼睛的肉丸。"
Google其他多模态视频
01:41
Google DeepMind@GoogleDeepMind
78
我们推出Gemini Omni:这是迈向一个能从任何内容生成任何内容的模型的第一步--从视频开始。 它结合了Gemini的智能与我们的生成式媒体系统--代表了在世界理解、多模态和编辑方面的飞跃🧵
DeepMindGoogle多模态模型发布
01:36
🚨 AI News | TestingCatalog@testingcatalog
74
谷歌I/O 🔥:Gemini 3.5 Flash 已开始在 Gemini 和 API 上推出! 即将开始测试 👀
Google多模态模型发布
01:36
🚨 AI News | TestingCatalog@testingcatalog
精选75
谷歌 I/O 🔥:GEMINI OMNI FLASH 已发布,现已在 GEMINI 和 GOOGLE FLOW 上可用。 GEMINI OMNI PRO 即将推出 🤩

Google DeepMind: Omni brings together an improved understanding of physics with Gemini's knowledge of history, biology, and culture, brid...

Google多模态模型发布

推荐理由:Gemini Omni Flash 是 Google 对多模态生成的新尝试,把物理模拟和历史叙事揉在一起,做视频内容的人可以盯着看。
01:30
Chubby♨️@kimmonismus
精选77
"迈向AGI的进展":Gemini Omni - 世界模型 -Gemini Omni官方发布!! 它可以从任何输入创建任何内容!!!

Chubby♨️: Cap-ex at google is increasing at roughly 6x per year!

Google多模态模型发布

推荐理由:Google 放出 Gemini Omni,从任何输入生成任何内容,这个能力宣言直接把生成式 AI 的边界推到极限。虽然细节还不明朗,但看这架势,模型竞赛又要烧一把火。
01:30
Chubby♨️@kimmonismus
54
Gemini 3.5 Flash官方发布!速度极快且能力强大的模型

Chubby♨️: "Progress towards AGI": Gemini Omni - world models -Gemini Omni official!! It can create anything from any input!!!

Google多模态模型发布
01:28
Ethan Mollick@emollick
44
我早期获得了Gemini Omni的访问权限:"一只穿着飞行员制服的海獭在纽约上空的热气球里,向一只被笔记本电脑分心的河獭解释为什么精神航空破产了。在旁边的另一个热气球里,威廉·莎士比亚正在与一个由披萨制成的机器人搏斗"
Google其他多模态视频
00:36
DogeDesigner@cb_doge
58
马斯克《福布斯》访谈:科技愿景与争议观点

在《福布斯》访谈中,埃隆·马斯克就多个领域阐述了激进观点。他批评针对OpenAI的诉讼败诉开创了“危险先例”,并计划上诉。其核心预测包括:AI发展呈指数级,5年内数字智能或超全人类智能总和;全球经济规模有望数年内翻倍;人形机器人将达数亿台。SpaceX致力于开发全复用火箭,以实现大规模太空运输并建立地外城市。他将Neuralink脑机接口技术视为“耶稣级”创新,能恢复残障人士机能。此外,他还提及了隧道交通、合成医学等机遇,整体展现出以技术加速人类文明进程的强烈紧迫感与乐观构想。

OpenAI具身智能多模态大佬观点
00:26
向阳乔木@vista8
41
Gemini Omni Flash 效果很拉胯啊! 提示词:生成墨比斯风格的科幻动画短片,银河系搭车客指南 好像根本没理解第二句话…
Google多模态评测/基准
00:18
小互@xiaohu
48
Google 全新Omni 模型 🫡
Google多模态模型发布
00:09
歸藏(guizang.ai)@op7418
67
哇! 谷歌新视频模型 Gemini Omni Flash 已经上线 FLow
Google多模态模型发布视频
00:02
Luma@LumaLabsAI
66
Luma Agents现在可以使用Seedance 2.0进行生成了。 将你的下一个项目指向它,看看它能产出什么,然后继续前进。同样的工作流程,但有了更多可用内容。 打开Luma Agents → http://lumalabs.ai/app
产品更新多模态
5月19日
23:34
🚨 AI News | TestingCatalog@testingcatalog
59
Google Flow在I/O期间发布了一系列重要更新。核心功能包括新增角色与场景创建,用户可生成并复用角色形象与语音,用于视频创作。应用已正式登陆Google Play,覆盖Android平台。通过集成Gemini Omni,Flow获得了新的AI助手体验,用户可通过聊天模式与Gemini协作,进行概念构思、图像变体生成等智能操作,并新增了可定制的风格工具。

🚨 AI News | TestingCatalog: GOOGLE I/O 🔥: Google Flow is getting Gemini Omni and a new Flow Agent experience! > Your Agent is active! Ask Gemini to...

Google产品更新多模态视频
21:01
Berryxia.AI@berryxia
47
正畸医生出品:AI几秒搞定头影测量,颠覆传统流程

正畸医生兼开发者@SwiftyAlbert打造的OrthoKit应用,利用AI技术实现了头影测量的全自动化。传统上医生需手动标注数十个标志点、耗时且易错,而AI接管后,几秒内即可完成自动识别、描迹并生成报告。该应用已上架全平台,提供超过30项分析(如Steiner、McNamara),其中半数以上由AI驱动。这标志着高专业门槛的医疗诊断正转化为智能工具,使更多正畸医生能轻松获得精准分析能力。

Alberto: Por favor mirad qué maravilla el trazado cefalométrico asistido por IA, aunque no entendáis de ortodoncia:

产品更新多模态
19:01
Berryxia.AI@berryxia
67
10分钟训出AI健身教练,黄仁勋的预言正在照进现实

NVIDIA CEO 黄仁勋指出,AI已成为每份工作的基本工具。推文作者以自身实践为例,为应对健康与效率焦虑,利用360“龙虾教练”平台在10分钟内训练出个性化AI健身助手“小B”。该AI能记录训练数据、生成专业日报周报,甚至调用其他AI绘制动作示意图,无需用户编写代码或配置复杂工作流。案例展示了AI工具正从概念讨论快速落地为普通人可用的日常助手,也提醒在追赶技术浪潮时,不应牺牲身心健康。

智能体多模态教程/实践
16:00
Berryxia.AI@berryxia
67
腾讯开源Chronicles-OCR基准:评估视觉语言模型的古汉字感知能力

腾讯开源了Chronicles-OCR基准,旨在专门评估视觉语言模型对古汉字的感知能力。该数据集横跨3000年演变,涵盖从甲骨文到草书的7种历史字体,包含2800张来自多样材质的真实图像。研究设置了字符定位、细粒度识别、古文字解析和字体分类四项核心任务。测试结果揭示,面对历史字体带来的视觉分布漂移,大部分模型的感知能力会急剧下降。该研究为古文字研究提供了重要的AI评测工具。

Tencent Hy: 🎉 🎉 🎉 We're open-sourcing Chronicles-OCR, a visual perception benchmark evaluating VLLMs on ancient Chinese character...

多模态论文/研究
13:50
AYi@AYi_AInotes
66
葡萄3D模型在X平台爆火:4800赞背后的3DGS技术突破

一颗葡萄的3D模型在社交平台X上引发热议,一天内获4800赞和280万浏览。其核心在于利用3DGS技术成功攻克了半透明物体重建的公认难题。项目使用6660张宏观照片训练,生成仅43万高斯点,压缩后模型小于50MB,实现了在手机端实时360度旋转和光影还原。这一突破验证了“最难案例跑通,则更简单物体皆可数字化”的逻辑,展示了从专业扫描仪和建模团队降维到个人相机加自动训练的低成本、高效率新流程,为手办、珠宝、文物等领域的数字资产化指明了方向,开发者正通过工具miqula将此流程产品化。

AYi: Damn,有点炸裂啊,一颗葡萄用了6660张宏观照片训练3DGS, 模型只有43万个高斯点, 压缩完不到50MB, 但你可以在手机上看它360度旋转, 连果肉里透出来的光都还原了, 更炸的是老哥回复里那句话,有人问底部怎么拍到的,他甩了张g...

多模态现象/趋势端侧
12:44
Alibaba Cloud@alibaba_cloud
45
阿里云冠名2026年蒙特卡洛人工智能电影节

阿里巴巴云宣布成为2026年蒙特卡洛人工智能电影节的冠名赞助商。该电影节旨在探索电影与人工智能技术的融合。作为全球云计算和AI基础设施领导者,阿里云将为创作者提供大模型训练、沉浸式视频内容生成及大规模高性能渲染等支持,构建AI原生创作所需的弹性、安全与智能云平台,助力新一代创作者加速创新。

多模态行业动态视频
11:59
歸藏(guizang.ai)@op7418
56
CodePilot学习用户风格并自动调整UI生成样式

CodePilot展示了强大的个性化能力,能通过用户频繁使用PPT功能的行为,学习并记录其视觉风格偏好。系统随后将这一风格应用于生成式UI组件的视觉样式中,使生成的可视化内容自动适配用户喜好,提升了内容的个性化与美观度。

智能体产品更新多模态
11:10
Alibaba Cloud@alibaba_cloud
60
🚀🚀Qwen3.7预览版登陆竞技场! ⚡️⚡️Qwen3.7-Plus-Preview来了。阿里巴巴现在在视觉领域排名第五。🎨 迫不及待要发布Qwen3.7系列模型了!敬请期待!@arena

Arena.ai: In the Vision Arena, Qwen3.7 Plus Preview makes @Alibaba_Qwen the #5 lab, ranking #16 overall.

多模态模型发布评测/基准
11:10
Alibaba Cloud@alibaba_cloud
55
阿里巴巴旗下通义千问的Qwen3.7系列模型在AI评测平台Arena首次公开。其中,Qwen3.7 Max Preview在文本竞技场总排名第13,使阿里在该平台位列第六;在数学、专业知识、软件与IT、编程等多个细分领域排名进入前十。此外,Qwen3.7 Plus Preview在视觉竞技场排名第16,阿里在该领域位列第五。官方表示即将正式发布Qwen3.7系列完整模型。

Arena.ai: Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...

多模态模型发布
11:04
Tencent Hy@TencentHunyuan
精选72
开源古代汉字视觉感知评估基准Chronicles-OCR

开源了评估视觉大语言模型(VLLM)对古代汉字视觉感知能力的基准测试Chronicles-OCR。该数据集覆盖了从甲骨文到草书的3000年演变历程,包含7种历史书体与2800张均衡图像。评估涵盖字形定位、细粒度识别、古代文本解析和字体分类四项核心任务,旨在探究视觉分布随时间的变化如何影响模型感知。相关论文与代码已开源。

多模态开源生态论文/研究

推荐理由:腾讯混元开源的视觉感知基准,专攻古汉字识别,覆盖从甲骨文到草书的三千年演变,做 OCR 和视觉模型的可以拿来测测自家模型在历史文本上的感知退化。
10:59
歸藏(guizang.ai)@op7418
46
谷歌新视频模型的演示表明其可能具备视频编辑功能,引发了关于模型架构是否统一或分开生成与编辑的讨论。此演示与Google I/O 2026会议相关,Sundar Pichai推文预告会议将于明天10am PT举行,预示着更多技术细节可能在此次活动中披露。

Sundar Pichai: On our way to I/O 2026. See you at 10am PT tomorrow!

Google产品更新多模态视频
10:56
Berryxia.AI@berryxia
33
卧槽~这个可以啊! 其实Apple Vision Pro就是通过追踪眼球来控制,类似你的眼球就像移动的鼠标指针,你的手部捏合的动作就是鼠标点击的动作。 这个直接搞到显示器上有点意思!
多模态现象/趋势
09:56
Berryxia.AI@berryxia
精选76
首个实时多agent世界模型发布,人类可与AI同屏互动

奥德赛实验室推出Agora-1,这是全球首个实时多agent世界模型,允许多人与AI同时在同一个模拟世界中实时互动并相互影响。该模型以经典游戏GoldenEye死亡竞赛为演示场景,提供可玩研究预览,用户现在即可体验与AI共同参与动态生成的模拟世界。这标志着从单人生成视频向多人共享“活世界”的转变,长期来看可能重塑游戏、模拟、教育、机器人及AI协作等领域,使人类从旁观者变为与AI共同生活的参与者。

Odyssey: Introducing Agora-1, a multi-agent world model. Multiple participants-human or AI-can now interact inside the same world...

智能体多模态模型发布

推荐理由:Odyssey把世界模型推进到了多人实时交互,可玩的GoldenEye死亡竞赛预览比任何PPT都有说服力,做游戏和模拟的人得上去打两把。
09:26
meng shao@shao__meng
47
推文疑似展示或讨论了Veo 4的视频生成能力,重点提及了视频续写、不同特效切换等效果,以及视频时长增加至10秒的新特性。该推文引用了Google CEO Sundar Pichai的预告,暗示这些展示可能与即将举行的Google I/O 2026大会相关。

Sundar Pichai: On our way to I/O 2026. See you at 10am PT tomorrow!

Google多模态行业动态视频
08:56
Berryxia.AI@berryxia
62
Odyssey推出首个实时多模态世界模型Starchild-1

Odyssey AI实验室发布了Starchild-1,这是全球首个实时多模态世界模型。该模型不仅能生成视频画面,还能同步生成与之匹配的声音,实现了视觉与听觉的真正融合,模拟出完整、鲜活的世界动态。与以往只能“看”世界的世界模型不同,Starchild-1实现了“听”的能力。这被视为向通用世界模型迈出的关键一步,旨在重新定义AI对现实世界的认知与模拟方式。

Odyssey: Meet our new friend, Starchild-1 ❤️ Starchild-1 is the first ever real-time multimodal world model. A world model unders...

多模态模型发布语音
08:49
🚨 AI News | TestingCatalog@testingcatalog
68
谷歌I/O 🔥:这些传奇人物是通过即将推出的Gemini Omni模型生成的AI图像。 > 两段视频均为8秒高清样本。 > 与Sundar和Demis相关的视频很可能是使用Omni进行风格编辑的图像转视频生成。 > Logan的视频则可能是"相似度"虚拟形象与Omni视频的结合。 而"GEMINI"意味着新模型的发布!🤯

Logan Kilpatrick: Gemini

Google图像生成多模态模型发布
‹ 上一页
1…1213141516…23
下一页 ›