AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 907 条
全部一手资讯X论文
标签「多模态」清除
Rohan Paul@rohanpaul_ai · 5月26日22

This autonomous weeding robot uses AI vision to detect weeds among young crops and eliminates them instantly with targeted high-precision laser pulses. Real-time on board GPUs map every plant position and directs lasers precisely at weeds @carbon_robotics

译这款自主除草机器人使用AI视觉在幼苗作物中检测杂草,并立即用高精度激光脉冲进行定向清除。 实时车载GPU绘制每株植物位置,并精确引导激光对准杂草 @carbon_robotics

Alibaba Cloud@alibaba_cloud · 5月25日31

At Qwen Conference 2026, Pax Chen (CEO, Fizzdragon) joins the Foundation Model Forum to break down From Script to Screen in Minutes: How AI Empowers Film, Ads & Creative Content. Unpack the next frontier of AI-driven creative workflows. Step into the AI-native momentum. 🚀 Stay tuned:https://click.qwencloud.com/m/20000000190/

译在Qwen Conference 2026上,Fizzdragon CEO Pax Chen加入基础模型论坛,解析《从剧本到银幕只需几分钟:AI如何赋能电影、广告与创意内容》。深入探讨AI驱动创意工作流的下一个前沿。走进AI原生浪潮。 🚀 敬请关注:https://click.qwencloud.com/m/20000000190/

Alibaba Cloud@alibaba_cloud · 5月25日24

At Qwen Conference 2026, industry visionaries and ecosystem pioneers take the stage at the Foundation Model Forum for a panel discussion on The Multimodal Future with Qwen. Unpack the architectural shifts driving cross-modal alignment. Step into the AI-native momentum. 🚀 Stay tuned: https://click.qwencloud.com/m/20000000190/

译在通义千问大会 2026 上,行业远见者与生态先锋将在基础模型论坛登台,参与关于通义千问多模态未来的圆桌讨论。深入解析推动跨模态对齐的架构变革。感受 AI 原生动力。 🚀 敬请关注:https://click.qwencloud.com/m/20000000190/

Alibaba Cloud@alibaba_cloud · 5月25日41

At Qwen Conference 2026, Arash Tayebi (CEO, Kara Tech) joins the Foundation Model Forum to discuss Beyond Subtitles: The Next Frontier of Digital Inclusion with AI. Step into the AI-native momentum. 🚀 Stay tuned: https://click.qwencloud.com/m/20000000190/

译在Qwen Conference 2026上,Kara Tech CEO Arash Tayebi加入基础模型论坛,讨论“超越字幕:AI驱动的数字包容新前沿”。感受AI原生动力。 🚀 敬请关注:https://click.qwencloud.com/m/20000000190/

向阳乔木@vista8 · 5月25日57

用 Suno生成了一首好听的小甜歌,不少关键词也热门歌的提示词学习的。 比如风格选了Dream Pop(梦幻朦胧的空间感) 和 ⁠Disco-lite (有律动但不重)。 比如 Breathy female vocal,气声女声,效果是一个女孩在你耳边哼歌 情绪选的是Softly euphoric,实现轻柔的欣快感,混响选的是Soft reverb。 https://music.qiaomu.ai/track/daydreaming-again-3bef

译推文分享了使用Suno生成一首“小甜歌”的经验,其风格选择了Dream Pop(营造梦幻朦胧的空间感)与Disco-lite(提供有律动但不重的节奏)。在人声提示词上使用了“Breathy female vocal”以模拟女孩在耳边哼唱的效果,情绪设定为“Softly euphoric”以实现轻柔的欣快感,并应用了“Soft reverb”。最后附上了生成歌曲的链接。

Alibaba Cloud@alibaba_cloud · 5月25日40

On May 26, industry pioneers and visionaries gather at Sands Expo Singapore to analyze the absolute frontier of Agentic AI—from core infrastructure to cross-industry multimodal workflows. 🚀 For more information: https://click.qwencloud.com/m/20000000190/

译5月26日,行业先驱与远见者齐聚新加坡金沙会展中心,深入分析智能体AI的绝对前沿——从核心基础设施到跨行业多模态工作流。 🚀 了解更多信息:https://click.qwencloud.com/m/20000000190/

向阳乔木@vista8 · 5月25日64

X不让直接发音频,可以直接让Codex帮把音频转成MP4。 当然,会ffmpeg指令的话也很简单,但大模型太适合做这种转格式操作了。

小互@xiaohu · 5月25日61

兄弟们,Hyper3D 又放大招了 这次是真的猛... Rodin Gen-2.5发布: 最强 3D 生成模型 4 秒生成百万面模型 全球首个千万面级3D生成 在模型细节上,连毛孔、皮肤微结构这种级别的细节都能还原... 原生贴图纹理,严格对齐几何,涉及到衣物质感和缝线等微小纹理正确,细节和对齐做到正确平衡。 思考模式从低到高,最快 4 秒出稿 - 极低模式 - 4 秒出稿 - 快速制作简易资产、批量测试实验 - 低模式 - 9 秒出稿 - 简约风模型,小型硬表面道具制作 - 中模式 - 20 秒出稿 - 结构与细节表现均衡 - 高模式 - 40 秒出稿 - 高品质资产,结构层次丰富,表面平滑 - 极高模式 - 80 秒出稿 - 微观细节专业资产 一张参考图就能出贴图模型 原生 3D 贴图算法,直接在三维空间里生成纹理,360° 无死角覆盖,转到背面底部都不会糊,支持 PBR 材质,光影一键预处理。用过之前那些贴图拼接糊成一坨的工具的兄弟,应该知道这个差距有多大。 Faithful 模式严格贴合参考素材,Creative 模式自动优化结构,比如轮胎给你修成完美圆形。最高精度档下还能切 Micro 和 Clean: Micro 给你毛孔级细节,Clean 给你干净平滑的几何,做风格化或者后续上动画都好用。而且支持同时并行跑 10 个模型,批量探索创意方向直接起飞。 背后团队是影眸科技,国人团队,2016 年就开始做 3D 生成。 整个行业走"2D 升维 3D"捷径的时候,他们死磕原生 3D 模型,更难,但破面、拓扑混乱这些致命问题,只有这条路能治。 今年论文拿了 SIGGRAPH 2025 最佳论文奖,同期获奖的商业公司只有 Google 和 Meta。

译影眸科技推出 Rodin Gen-2.5,号称全球首个千万面级 3D 生成模型。该模型提供从极低(4秒)到极高(80秒)的五档思考模式,以平衡生成速度与细节精度。其原生 3D 贴图算法能在三维空间直接生成纹理,支持 PBR 材质与 360° 无死角覆盖,并提供 Faithful(贴合参考)与 Creative(自动优化)两种贴图模式。该模型已获 SIGGRAPH 2025 最佳论文奖。

karminski-牙医@karminski3 · 5月25日58

数字人模型本地都能跑了吗? 美团刚发了个数字人模型 LongCat-Video-avatar-1.5, 只要给到图片和音频, 就能生成口播, 我给大家录了一段实测. 目前 HuggingFace Space 上的 demo 只能生成5s的视频, 所以我是录了两段480p的拼接起来的. 我特意挑选了一个很困难的case, 大家可以看到这个人物嘴部有遮挡. 实际效果来看虽然距离SOTA级别的模型有差距, 主要还是口型, 以及输出最大只支持720p. 不过720p这个也比较好解决, 大家可以看到我视频中演示的这个清晰度是可以的, 我是直接用了AI提升分辨率到4K重绘了一下. 这个模型作为本地部署方案还是可以的, 尤其是动漫人物也能泛化. 另外模型略大, int8量化也有16G, 需要用一个好一点的显卡. #longcat #数字人模型 #数字人

译美团发布数字人模型LongCat-Video-avatar-1.5,可通过图片和音频生成口播视频。demo仅支持5秒480p视频。实测中人物嘴部遮挡案例效果与SOTA有差距,主要在口型。最大分辨率720p,但可AI提升至4K。模型本地部署可行,对动漫人物泛化,但体积大,int8量化需16G显存。

Berryxia.AI@berryxia · 5月25日20

我靠这个设计巧思,交互太丝滑了。 Claude可以复刻出来吗?

PixVerse@PixVerse_ · 5月24日62

Character design workflow test in Pixverse GPT Image 2.0 for Lucas’ visual identity, Seedance 2.0 for animated popping performance. From static concept sheet to cinematic motion. RT + Follow + Reply = Workflow

译在Pixverse中进行角色设计工作流测试 使用GPT Image 2.0为Lucas创建视觉形象,使用Seedance 2.0制作动画弹跳表演。 从静态概念图到电影级动态效果。 RT + Follow + Reply = 工作流

Rohan Paul@rohanpaul_ai · 5月24日47

Fei-Fei Li ( @drfeifei ) beautifully explains Robotics. She defines robotics not by form, like humanoids or cars, but by function: they are any "embodied machines" that must perceive, understand, and act within a physical, 3D space. This core requirement is "spatial intelligence," the unifying principle of all robotics, allowing them to perform tasks and even collaborate with humans. Throughout all of human history, we have been confined to a single, shared reality: the "physical Earth 3D world." This singularity has been our only playground. However, new technologies that combine 3D generation and reconstruction are shattering this limitation. We can now create "infinite universes"—a multiverse of digital worlds for countless purposes, from training robots to enabling creativity, travel, and storytelling. This leap from one physical world to an infinite multiverse unlocks boundless possibilities for human imagination and interaction. Video from @a16z

译李飞飞重新定义机器人学,强调其核心是“空间智能”——即机器在三维物理空间中感知、理解与行动的能力。这一能力使机器人能执行任务并实现人机协作。3D生成与重建技术正打破人类仅能体验单一物理世界的局限,创造出用于训练、创造、旅行与社交的无限数字多元宇宙。未来,人们将以“多元宇宙”的方式生活,极大拓展人类想象与交互的边界。

Alibaba Cloud@alibaba_cloud · 5月24日42

On May 26, Professor Steven Hoi (Head of Multimodal Interaction, Tongyi Large Model Business Unit) will hit the main stage at Sands Expo Singapore to unpack Foundation Models for the Agent Era. 🚀 Register: https://click.qwencloud.com/m/20000000190/

译5月26日,通义大模型事业部多模态交互负责人Steven Hoi教授将在新加坡金沙会展中心主舞台,解析智能体时代的基础模型。 🚀 报名链接:https://click.qwencloud.com/m/20000000190/

Alibaba Cloud@alibaba_cloud · 5月24日18

On May 26, Narek Hayrapetyan (Head of Video Product, Picsart) will be at Sands Expo Singapore to break down how multimodal AI is completely redefining visual creation. 🚀 Register: https://click.qwencloud.com/m/20000000190/

译5月26日,Picsart视频产品负责人Narek Hayrapetyan将在新加坡金沙会展中心,解析多模态AI如何彻底重塑视觉创作。 🚀 报名链接:https://click.qwencloud.com/m/20000000190/

StepFun@StepFun_ai · 5月24日70

StepAudio 2.5 Realtime is live! Real-time voice that picks up what you actually mean — tone, pace, pauses, sighs, even the half-laugh mid-sentence. ⚡ Top-tier paralinguistic perception — reads tone, pace, micro-emotions ⚡ Bring-your-own persona via API — personality, backstory, quirks, language style ⚡ 10,000+ native personas → millions of feature combinations ⚡ 5 preset personas to try out of the box ⚡ ZH/EN RLHF-tuned to hold character even under roleplay stress tests. Try it → https://www.stepfun.com/studio/audio?tab=voice-chat Model card: https://stepaudiollm.github.io/step-audio-2.5-realtime/

译StepAudio 2.5 Realtime是一款实时语音模型,能够深度理解用户语音中的语气、语速、停顿乃至微表情等副语言特征。它支持通过API接入自定义人格,允许设定个性、背景故事和语言风格,并提供了上万种原生人格选项,可组合出数百万种特征。产品还内置了5个可直接体验的预设人格,并经过RLHF调优,确保在复杂的角色扮演压力测试中也能保持角色一致性。该模型支持中文和英文。

Rohan Paul@rohanpaul_ai · 5月24日62

"You could basically imagine, completely neural computers in a certain sense. Imagine a device that takes raw videos or audio into basically what is a neural net, and uses diffusion to render a UI that is unique for that moment in a certain sense." ~ Andrej Karpathy Going by this, the next big software shift may be that much of the software disappears. Karpathy’s point is not simply that AI will help us build apps faster; it is that many apps may be artifacts of a world where computers needed every intermediate step spelled out. He says "I kind of feel like, in the early days of computing, people were actually a little bit confused as to whether computers would look like calculators or whether computers would look like neural nets. In the 50s and 60s, it was not really obvious which way it would go. Of course, we went down the calculator path and ended up building classical computing. Neural nets are currently running virtualized on existing computers, but you could imagine that a lot of this will flip, and that the neural net becomes kind of like the host process, while the CPUs become kind of like the co-processor." Classical software treats the CPU as the host process and intelligence as something bolted on through tools, scripts, models, and APIs. Karpathy is imagining the reverse: the neural network becomes the host process, while conventional code becomes a small deterministic accessory for tasks where exactness still matters. This is why the future interface may not look like a better app store. It may look like raw video, audio, documents, or intent entering a neural system, with the interface itself generated for that moment rather than built in advance by a product team. --- From "Sequoia Capital" YouTube channel, (link in comment)

译Andrej Karpathy 认为,下一代重大软件变革将是大量传统应用的消失。他预言了一种“完全神经化”的计算范式:原始输入直接由神经网络处理,通过扩散模型实时生成专属于当下的界面。当前经典计算以 CPU 为主、智能为辅,而未来神经网络可能成为主导进程,传统 CPU 则退化为处理精确任务的协处理器。这意味着许多现有应用只是过渡产物,未来交互可能不再是静态应用,而是由神经系统根据即时情境生成的动态界面。

🚨 AI News | TestingCatalog@testingcatalog · 5月23日38

ICYMI 👀: Gemini in Chrome is now available to some users in Europe. I finally got Gemini for Chrome feature here in Germany on my Canary build, with Gemini 3.5 Flash, Skills, and Gemini Live. Does it work for you as well?

译如果你错过了 👀:Gemini在Chrome浏览器中现已向部分欧洲用户开放。 我终于在我的Canary版本中获得了德国的Chrome Gemini功能,包含Gemini 3.5 Flash、技能和Gemini Live。 你也能用了吗?

Alibaba Cloud@alibaba_cloud · 5月23日61

The velocity of the Qwen3.7-Max development is unreal. This is what relentless innovation looks like. #AlibabaCloud #Qwen

译阿里云Qwen团队新发布的Qwen3.7-Max模型在极短时间内(不到一个月)实现了多模态生成能力的惊人进步。独立测试显示,该模型已从此前表现落后,跃升至在特定测试中与Gemini 3.5 Flash持平,并超越了GPT-5.5与Claude Opus 4.7。其渲染的图像(如足球运动员与足球)在比例和真实感上表现尤为突出,展现出卓越的空间推理能力。

Google Gemini@GeminiApp · 5月23日87

http://x.com/i/article/2057551138384470016 # The Gemini app becomes more agentic, delivering proactive, 24/7 help ## Gemini is becoming a more helpful AI assistant, with an intuitive new UI, proactive daily briefs and Gemini Spark, an agent to help you get things done around the clock. It’s been a banner year for the Gemini app. Last year at Google I/O, Gemini was serving 400 million users. Today, more than 900 million people across 230 countries and more than 70 languages turn to Gemini for help every month. In time for Google I/O 2026, here’s what's new: - Gemini 3.5 Flash: The first in our next generation of models that combines frontier intelligence with lightning-fast action. - Neural Expressive: A vibrant, dynamic and completely reimagined design language for Gemini. - Gemini Omni: Our new model that can seamlessly transform text, images and video prompts into cinematic, high-quality video outputs. - Daily Brief: A new agent that gives you a personalized morning brief and organizes exactly what you need to know to start your day. - Gemini Spark: A 24/7 personal AI agent designed to proactively manage tasks and help you navigate your digital life, all under your direction. - MacOS app: Our desktop app will be integrating Gemini Spark so it can operate on your local machine, and it will also add powerful new voice features. ## Neural Expressive: A new design language for the AI era We’ve redesigned the entire Gemini experience from the ground up, introducing a stunning new design language we call Neural Expressive. The interface now features fluid animations, vibrant colors, new typography and haptic feedback. We’ve also integrated the Gemini Live conversational experience directly into Gemini. Now, you can seamlessly switch from typing a quick question to diving deep into a free-flowing conversation — and back again — without missing a beat. We also re-engineered the mic so you can tap and talk through a complex idea at your own pace without getting cut off mid-thought. And soon, we’ll start offering regional dialects, allowing you to choose a voice that truly resonates with you. Finally, we’re using the power of our Gemini models to make responses more engaging and easier to understand. Instead of throwing a wall of text at you, Gemini now designs tailored responses in real time — incorporating rich imagery, interactive timelines, narrated videos and dynamic graphics. Neural Expressive is rolling out globally across the web, Android and iOS for everyone. ## Gemini Omni: Turning your ideas into cinematic videos To unlock your creative potential, we're introducing Gemini Omni, a model designed to turn your imagination into reality. By seamlessly combining text, images and video inputs, Gemini Omni allows you to generate stunning, high-quality video outputs effortlessly. With Gemini Omni, video editing becomes a fluid, natural conversation. You can apply cinematic zooms or swap out backgrounds with a simple prompt. Just upload footage from your camera roll, apply built-in templates with a single tap and create polished content without expensive equipment or specialized technical jargon. You can even drop yourself directly into the action by creating a custom AI avatar that looks and sounds exactly like you. Gemini Omni is rolling out to Google AI Plus, Pro and Ultra subscribers worldwide. ## Daily Brief: Start your day on the right foot We’re introducing Daily Brief, an agent that gives you a personalized morning digest that’s designed to be your first stop every day. Built on the success of our recent Google Labs experiment CC, Daily Brief gives you a seamless, intuitive entry point into the world of AI agents. Once you opt in, Gemini works across your connected apps in the background. It gathers urgent updates from your Gmail inbox, tracks upcoming events from your Calendar and compiles relevant follow-up details into a skimmable briefing. It goes far beyond a simple summary. Daily Brief actively organizes and prioritizes based on your specific goals, even suggesting immediate next steps. You can easily steer it by giving responses a quick thumbs up or down over time. Daily Brief is rolling out to Google AI Plus, Pro and Ultra subscribers, starting in the U.S. ## Gemini Spark: From information to action We’re also introducing Gemini Spark, a 24/7 personal AI agent that helps you navigate your digital life. Spark represents a big shift for Gemini, transforming it from an assistant that can answer your questions into an active partner that does real work on your behalf and under your direction. Gemini Spark runs on Gemini 3.5 and uses the Antigravity harness. It’s deeply integrated with the Workspace tools you rely on daily, like Gmail, Docs, Slides and more. Even better, because it is a cloud-based agent, Spark keeps working in the background even when you close your laptop or lock your phone. That combination means Spark is ready to take complex tasks off your plate so you can be more present for what matters most. With Gemini Spark, you can: - Set recurring tasks or triggers: Automatically parse monthly credit card statements to flag new or hidden subscription fees. - Teach it new skills: Direct it to check your inbox for ongoing updates from your kids' school, extract critical deadlines and send a consolidated daily digest to you and your partner. - Create complete workflows: Ask it to synthesize raw meeting notes across emails and chats, create polished Google Docs with its findings and even draft the companion email kicking off a project. This is just the beginning. We’ve got a packed roadmap of features shipping over the summer. We’re expanding our list of Gemini connected apps with new MCP connections to Canva, OpenTable and Instacart launching today, and a full list of more partners are integrating now. In the coming weeks, Spark will be able to use these MCP connections to get things done for you. We'll also be adding new abilities, including texting and emailing Spark, creating custom sub-agents and operating your local browser. Spark operates under your direction. You choose whether to turn it on and what apps it connects to, and it’s designed to ask you first before performing high-stakes actions like spending money or sending emails. Gemini Spark will roll out to trusted testers this week, and we're planning to roll it out as a Beta for U.S. Google AI Ultra subscribers next week. ## Gemini app for macOS: Take control of your desktop We’re working on big updates to the Gemini app for macOS. We’ll be bringing Gemini Spark to the Gemini desktop app this summer so it can help with tasks involving your local files and automate workflows across your desktop. We’re also innovating on new voice experiences in the macOS app, similar to what we previewed at The Android Show. You won’t have to worry about all the “ums” or “what abouts” that happen as you think aloud. Using the context from your screen, Gemini can turn your free-flowing speech into precise drafts, instantly reformatting the text to capture your intent, right where your cursor is. The macOS app is available to download today for all users, with Gemini Spark and the new voice features will roll out later this summer. All of these updates get us closer to our vision of a truly universal assistant that’s personal, proactive and powerful. So whether you’re a busy student, parent or small business owner, we look forward to what you can do with Gemini.

译谷歌宣布Gemini应用月活用户已突破9亿。在此次更新中,Gemini正从工具演变为更主动的个人AI代理。主要更新包括新一代模型Gemini 3.5 Flash、全新的“Neural Expressive”设计语言,以及能将提示转化为高质量视频的Gemini Omni模型。核心亮点是两项代理功能:“Daily Brief”提供个性化每日简报,“Gemini Spark”则作为24/7的个人代理,在用户授权下主动管理任务与数字生活。这些更新标志着AI助手向更主动、更整合的方向发展。

Suno@suno · 5月23日58

How McClenney feeds his custom synth rig into Suno 🎛️

译McClenney如何将他的定制合成器设备接入Suno 🎛️

ChatGPT@ChatGPTapp · 5月23日69

Paperwork is better when you can just talk through it. With Images in ChatGPT and voice mode, you can upload a form, say what to fill in, and get back a completed version.

译用对话处理文书工作更轻松。 借助ChatGPT的图像功能和语音模式,您可以上传表单,说出要填写的内容,即可获得填写完成的版本。

Ethan Mollick@emollick · 5月23日76

I think people don't realize why Gemini Omni is different than other video AIs. It is fully multimodal, so it can edit video natively, too I took the famous "train " movie from 1896 & made it a bullet train, LEGO, added a time traveler, a centipede, muppets... (see reflections?)

译我认为人们没有意识到Gemini Omni与其他视频AI的不同之处。它是完全多模态的,因此也能原生编辑视频。 我拿了1896年著名的“火车”电影,把它变成了高铁、乐高,加入了时间旅行者、蜈蚣、布偶……(看到倒影了吗?)

Luma@LumaLabsAI · 5月23日72

Imagination. Instant cinematic reality. Seedance 2.0 is now live in Luma Agents. Portraits, landscapes, sci-fi, fantasy — every shot rendered at a quality that speaks for itself. Try it today → http://lumalabs.ai/app

译想象力。瞬间化为电影级现实。 Seedance 2.0现已在Luma Agents上线。人像、风景、科幻、奇幻——每一帧都以不言自明的品质呈现。 立即体验 → http://lumalabs.ai/app

🚨 AI News | TestingCatalog@testingcatalog · 5月22日51

ICYMI: Imagine Agent is now available on Grok for iOS! Have you tested it yet? 👀

译错过了吗?Imagine Agent现已登陆Grok iOS版! 你试过了吗?👀

Rohan Paul@rohanpaul_ai · 5月22日57

World models are moving into wild territory. Project Genie just turned Google Maps Street View into a promptable world simulator. Google AI Ultra users can now turn any real U.S. locations into interactive AI-made scenes.

译世界模型正进入未知领域。 Project Genie刚刚将谷歌地图街景转变为一个可通过提示词操控的世界模拟器。 谷歌AI Ultra用户现在可以将任何美国真实地点转化为交互式AI生成场景。

Google DeepMind@GoogleDeepMind · 5月22日67

Project Genie 🤝 @GoogleMaps Street View You can now take real U.S. places and transform them into new, interactive worlds. 🌍

译Project Genie 🤝 @GoogleMaps Street View 你现在可以将真实的美国地点转化为全新的交互式世界。🌍

Greg Brockman@gdb · 5月22日75

try Appshots in the Codex app:

译OpenAI的Codex应用推出了名为Appshots的新功能。用户通过同时按下两个CMD键,即可将当前应用的完整上下文(包括可见与不可见的屏幕内容)发送给Codex,远超普通截图所能提供的信息。与此同时,OpenAI更新了远程Codex,使其在笔记本电脑锁屏状态下仍可正常运行,允许用户安全地将笔记本留在家中,通过手机进行远程编码。该应用集成了多项独特功能,提升了使用体验。

小互@xiaohu · 5月22日71

网易有道今天开源了 Confucius4 双模型: 一个做数学视觉推理,一个做语音克隆 有的公司在卷参数规模,有道这次卷的是工程精度和落地成本 开源直接放的是完整权重,不是只给 API 诚意满满 多模态:http://huggingface.co/netease-youdao/Confucius4 语音:http://github.com/netease-youdao/Confucius4-TTS

译网易有道开源Confucius4双模型,包括一个专注数学视觉推理的多模态模型,以及一个用于语音克隆的TTS模型。此次开源直接提供完整权重,而非仅提供API,强调在工程精度和实际部署成本上的投入,而非单纯追求参数规模。模型已发布于HuggingFace和GitHub平台。

Google Gemini@GeminiApp · 5月22日82

Gemini Omni is here, and we’ve been seeing amazing creations all week. Here are some standouts 👇

译Gemini Omni来了,我们本周看到了许多令人惊叹的创作。以下是一些杰出作品 👇

Berryxia.AI@berryxia · 5月22日66

兄弟们,Apple的Persona团队又把数字人真实度干上新高度了。 他们刚在WWDC26前放出一篇新论文,专门讲面部捕捉和动画的最新进展。 从演示视频里看,捕捉精度和动画自然度又明显进化了一步,尤其是眼部微表情、头部细微动作和皮肤质感,真实感拉满。 这已经不是简单的“数字头像”了,而是越来越接近可信的数字分身。 对AR/VR、游戏、远程协作来说,这类突破直接决定“沉浸感”能不能成立。毕竟当你戴上头显后,最先被打穿的往往就是“这个人看起来假”的那层滤镜。 Apple显然还在持续重仓这条赛道。 论文和演示在这里(强烈建议看视频): https://apple.github.io/ml-headsup/ 有空试试这货到底表现如何??

译苹果Persona团队在WWDC26前发布新论文,展示了面部捕捉与动画技术的最新进展。从演示来看,其在眼部微表情、头部细微动作和皮肤质感等细节上实现了显著提升,使数字形象的真实感进一步增强,已超越简单“数字头像”,趋近于可信的“数字分身”。这类突破对AR/VR、游戏和远程协作等领域的沉浸式体验至关重要,能够有效打破虚拟交互中的“不真实感”。苹果持续重仓该技术赛道,相关论文与演示视频已公开。

🚨 AI News | TestingCatalog@testingcatalog · 5月22日71

OPENAI 🔥: Codex on macOS now supports Appshots, allowing users to quickly add context from any app directly to the prompt. Besides that, a new annotation editor is now available in the browser, the/goal command is enabled by default, and Plugins are now shareable.

译OpenAI宣布Codex在macOS平台推出重要更新,核心功能为“Appshots”。该功能允许用户通过快捷键快速将任何应用窗口的完整上下文(包括屏幕截图与可访问文本)附加至Codex对话线程,从而为AI提供更全面的工作背景信息。此外,本次更新还包括浏览器端的新版注释编辑器、默认启用的/goal命令,以及现已支持分享的插件功能。Appshots已向所有Mac端用户开放。

小互@xiaohu · 5月22日60

OpenAI 给 Codex 加了一个新的功能,叫 Appshots。 将任意窗口上下文传输给 Codex: 你在 Mac 上开发、设计、写文档、看网页时,可以直接把“当前正在操作的窗口上下文”发给 Codex。 操作方式: 在 Mac 上按两次 Command 键(⌘⌘),就能把当前应用窗口附加到 Codex 对话线程里。 重点不是单纯截图。 Codex 会同时获取: • 当前窗口的截图 • 窗口里的文本内容 • 甚至包括屏幕上没显示出来的部分内容 比如: 你现在在 VS Code 里写代码。 虽然屏幕只显示前 50 行,但整个文件其实有几百行。 Appshots 不只是拍一张图片,它还能读取编辑器里的文本上下文,所以 Codex 能理解完整代码结构。 再比如: 你在 Figma、Notion、浏览器、终端里工作。 按 ⌘⌘ 后,Codex 可以直接看到: • 当前 UI 长什么样 • 页面文字内容 • 控制台报错 • 文档说明 • 设计稿结构 这样你就不用: “复制粘贴代码 + 截图 + 手动解释半天”。 它更像: 把你的当前工作界面“共享”给 AI。

译OpenAI为Codex推出Appshots功能,允许用户将Mac上任意窗口的实时上下文传输至AI。通过双击Command键,Codex不仅能获取当前窗口截图,还可读取完整文本内容(包括未滚动显示的部分)。该功能旨在简化开发、设计等工作流,用户无需手动复制代码或截图,即可让AI直接理解如VS Code、Figma、Notion等界面的代码结构、页面内容或设计框架,实现工作界面的智能共享。

Greg Brockman@gdb · 5月22日68

codex app continues to get extremely good, plus features for businesses and enterprise such as token analytics and plugin sharing

译OpenAI为Codex应用推出“Appshots”新功能,用户可通过快捷键(如Mac的Command-Command)将当前应用窗口的截图与文本内容直接附加到对话中,从而为AI提供更全面的上下文信息,包括屏幕外内容。该功能现已在Mac端全套餐开放,企业版访问权限也将很快推出。此外,Codex还新增了面向企业和商业场景的功能,如token使用分析和插件共享,以增强协作与数据分析能力。

ViggleAI@ViggleAI · 5月22日66

Introducing Fight Anyone 3D🥊A 3D party fighter, probably the most satisfying game to play at work. Upload anyone's photo → a playable 3D fighter with a voice, a personality + signature moves, built by Viggle's own game engine + model. 100% free in beta + 20 gift cards to give away. Play more, win more! Fight your colleague. Fight your friends. Fight anyone. Link + tutorial + more in the thread ↓

译介绍Fight Anyone 3D🥊一款3D派对格斗游戏,可能是上班时玩起来最爽的游戏。 上传任何人的照片 → 一个可玩的3D格斗角色,带有语音、个性+招牌动作,由Viggle自研游戏引擎+模型打造。 公测期间100%免费+赠送20张礼品卡。玩得越多,赢得越多! 和同事对战。和朋友对战。和任何人对战。链接+教程+更多内容见下方推文串 ↓

Chubby♨️@kimmonismus · 5月22日49

1/ I have been spending time with SenseNova U1, a native multimodal model series released by @SenseTime_Al. It is built on an architecture called NEO-unify that processes images and text together in one single system. It is a big change from the usual way of handing tasks off between separate components. Look at this thread 🧵:

译1/ 我最近在体验 SenseNova U1,这是 @SenseTime_Al 发布的原生多模态模型系列。 它基于一种名为 NEO-unify 的架构构建,该架构在一个统一系统中同时处理图像和文本。这与通常在不同组件间传递任务的方式有很大不同。 请看这个帖子 🧵:

歸藏(guizang.ai)@op7418 · 5月22日52

剪映海外版宣布跟 Gemini 合作了 未来可以在这边里使用剪映的编辑功能去编辑图像视频,但是没有说具体的合作方式和上线时间

🚨 AI News | TestingCatalog@testingcatalog · 5月21日58

Google 🤝 CapCut Google partners with CapCut to bring its image and video editing features directly to Gemini! Will we see Seedance models coming to Gemini too? This is quite an interesting move 👀

译Google宣布与视频编辑应用CapCut达成合作,将后者的图像和视频编辑功能直接整合进其AI模型Gemini中。这意味着用户未来将能在一个对话式AI平台内完成更复杂的创意内容编辑。此次合作被视为AI工具与专业创意软件融合的重要一步,旨在打造更无缝、智能的创作工作流。双方均认为,这是未来创作工具走向一体化、对话式体验的开端。

Kling AI@Kling_ai · 5月21日67

Kling AI Debuts at Cannes — RAPHAEL RAPHAEL, a 100% AI-generated feature film project, is a large-scale production being developed in collaboration between Mateo AI Studio and MBC C&I’s AI Content Lab, a leading force in AI video production in Korea. Currently in production with the goal of a theatrical release in 2026, this project is leveraging Kling AI’s powerful video model throughout the production process to maximize distinctive visual effects and deliver a differentiated cinematic experience. It proves the industrial viability of pure AI filmmaking and marks a new trend for AI-native theatrical cinema.

译AI电影项目RAPHAEL在戛纳亮相。该片由Mateo AI Studio与韩国MBC C&I的AI内容实验室联合开发,全程使用Kling AI视频模型进行制作,旨在实现独特的视觉效果与差异化的观影体验。项目计划于2026年登陆院线,其大规模制作旨在证明纯AI电影制作的工业可行性,标志着AI原生院线电影新趋势的开端。

SenseTime@SenseTime_AI · 5月21日64

🏆 @SenseTime_AI 𝗵𝗮𝘀 𝗯𝗲𝗲𝗻 𝗻𝗮𝗺𝗲𝗱 𝗖𝗵𝗶𝗻𝗮’𝘀 𝗡𝗼. 𝟭 #VisionAI 𝗹𝗲𝗮𝗱𝗲𝗿 𝗯𝘆 @IDC 𝗳𝗼𝗿 𝘁𝗵𝗲 𝟭𝟬𝘁𝗵 𝗰𝗼𝗻𝘀𝗲𝗰𝘂𝘁𝗶𝘃𝗲 𝘆𝗲𝗮𝗿. Behind the milestone: 🚀 𝗖𝗩 𝟮.𝟬 𝗘𝘃𝗼𝗹𝘂𝘁𝗶𝗼𝗻: Spearheaded the transition to next-generation Vision AI architectures, natively embedding GenAI capabilities. 🌏 𝗢𝘃𝗲𝗿𝘀𝗲𝗮𝘀 𝗚𝗿𝗼𝘄𝘁𝗵: Expanded to 12 international markets, serving 500+ enterprise clients with exceptional retention. 💹 𝗣𝗿𝗼𝗳𝗶𝘁𝗮𝗯𝗹𝗲 𝗚𝗿𝗼𝘄𝘁𝗵: Anchored by accelerating annual recurring revenue (ARR). 🔄 𝗔𝗜 𝗮𝘁 𝗦𝗰𝗮𝗹𝗲: Transitioning from project-based deployments to a highly scalable AI Platform. A decade of market leadership cements our foundation to lead the next wave of technology advancement, including the much-anticipated convergence of Vision AI and Genrative AI.

译商汤科技被IDC连续十年评为中国计算机视觉市场第一。其关键驱动因素包括:主导推进CV 2.0架构演进,原生嵌入生成式AI能力;海外市场扩展至12个国际区域,服务超500家企业客户并保持高留存率;以年度经常性收入增长为锚点实现盈利性增长;并从项目制交付转型为高度可扩展的AI平台。这一十年市场领导地位为其引领计算机视觉与生成式AI的融合浪潮奠定了基础。

向阳乔木@vista8 · 5月21日75

乔木 Suno Skill效果演示,生成一首空灵的德语音乐。 每月10美元,想听什么风格,就生成什么风格,虽然比人的匠心制作差得远,但随时随地生成任意风格歌曲。 哪怕给一个github仓库都能写一首歌出来。。

译这是基于Suno AI音乐生成工具的技能实现,可通过简单指令按用户需求生成不同风格的歌曲(例如德语空灵风格)。该技能订阅费用为每月10美元,支持高度自定义的风格生成。技术层面已优化,新增近6000个音乐风格检索以提升准确性,并可通过谷歌CDP免登录直接调用。项目已开源,提供GitHub仓库地址与安装指令,降低了创作门槛。目前AI生成音乐在艺术性上仍与人工制作存在差距,但实现了快速、灵活的创作可能。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月26日
01:28
Rohan Paul@rohanpaul_ai
22
这款自主除草机器人使用AI视觉在幼苗作物中检测杂草,并立即用高精度激光脉冲进行定向清除。 实时车载GPU绘制每株植物位置,并精确引导激光对准杂草 @carbon_robotics
具身智能多模态教程/实践
5月25日
20:54
Alibaba Cloud@alibaba_cloud
31
在Qwen Conference 2026上,Fizzdragon CEO Pax Chen加入基础模型论坛,解析《从剧本到银幕只需几分钟:AI如何赋能电影、广告与创意内容》。深入探讨AI驱动创意工作流的下一个前沿。走进AI原生浪潮。 🚀 敬请关注:https://click.qwencloud.com/m/20000000190/
多模态行业动态视频
20:54
Alibaba Cloud@alibaba_cloud
24
在通义千问大会 2026 上,行业远见者与生态先锋将在基础模型论坛登台,参与关于通义千问多模态未来的圆桌讨论。深入解析推动跨模态对齐的架构变革。感受 AI 原生动力。 🚀 敬请关注:https://click.qwencloud.com/m/20000000190/
多模态行业动态
20:24
Alibaba Cloud@alibaba_cloud
41
在Qwen Conference 2026上,Kara Tech CEO Arash Tayebi加入基础模型论坛,讨论"超越字幕:AI驱动的数字包容新前沿"。感受AI原生动力。 🚀 敬请关注:https://click.qwencloud.com/m/20000000190/
多模态行业动态
15:53
向阳乔木@vista8
57
Suno生成小甜歌的风格与参数分享

推文分享了使用Suno生成一首“小甜歌”的经验,其风格选择了Dream Pop(营造梦幻朦胧的空间感)与Disco-lite(提供有律动但不重的节奏)。在人声提示词上使用了“Breathy female vocal”以模拟女孩在耳边哼唱的效果,情绪设定为“Softly euphoric”以实现轻柔的欣快感,并应用了“Soft reverb”。最后附上了生成歌曲的链接。

多模态教程/实践
14:53
Alibaba Cloud@alibaba_cloud
40
5月26日,行业先驱与远见者齐聚新加坡金沙会展中心,深入分析智能体AI的绝对前沿--从核心基础设施到跨行业多模态工作流。 🚀 了解更多信息:https://click.qwencloud.com/m/20000000190/
智能体多模态行业动态
13:53
向阳乔木@vista8
64
X不让直接发音频,可以直接让Codex帮把音频转成MP4。 当然,会ffmpeg指令的话也很简单,但大模型太适合做这种转格式操作了。
多模态教程/实践编码
13:21
小互@xiaohu
61
影眸科技发布 Rodin Gen-2.5 3D 生成模型

影眸科技推出 Rodin Gen-2.5,号称全球首个千万面级 3D 生成模型。该模型提供从极低(4秒)到极高(80秒)的五档思考模式,以平衡生成速度与细节精度。其原生 3D 贴图算法能在三维空间直接生成纹理,支持 PBR 材质与 360° 无死角覆盖,并提供 Faithful(贴合参考)与 Creative(自动优化)两种贴图模式。该模型已获 SIGGRAPH 2025 最佳论文奖。

多模态模型发布
11:17
karminski-牙医@karminski3
58
数字人模型本地都能跑了吗?

美团发布数字人模型LongCat-Video-avatar-1.5,可通过图片和音频生成口播视频。demo仅支持5秒480p视频。实测中人物嘴部遮挡案例效果与SOTA有差距,主要在口型。最大分辨率720p,但可AI提升至4K。模型本地部署可行,对动漫人物泛化,但体积大,int8量化需16G显存。

多模态视频评测/基准
09:18
Berryxia.AI@berryxia
20
我靠这个设计巧思,交互太丝滑了。 Claude可以复刻出来吗?
其他多模态
5月24日
23:23
PixVerse@PixVerse_
62
在Pixverse中进行角色设计工作流测试 使用GPT Image 2.0为Lucas创建视觉形象,使用Seedance 2.0制作动画弹跳表演。 从静态概念图到电影级动态效果。 RT + Follow + Reply = 工作流
图像生成多模态教程/实践视频
16:27
Rohan Paul@rohanpaul_ai
47
李飞飞:空间智能开启无限虚拟宇宙新纪元

李飞飞重新定义机器人学,强调其核心是“空间智能”——即机器在三维物理空间中感知、理解与行动的能力。这一能力使机器人能执行任务并实现人机协作。3D生成与重建技术正打破人类仅能体验单一物理世界的局限,创造出用于训练、创造、旅行与社交的无限数字多元宇宙。未来,人们将以“多元宇宙”的方式生活,极大拓展人类想象与交互的边界。

a16z: For all of history, humanity shared one 3D world. @theworldlabs co-founder @drfeifei says spatial intelligence now lets ...

具身智能多模态大佬观点
16:22
Alibaba Cloud@alibaba_cloud
42
5月26日,通义大模型事业部多模态交互负责人Steven Hoi教授将在新加坡金沙会展中心主舞台,解析智能体时代的基础模型。 🚀 报名链接:https://click.qwencloud.com/m/20000000190/
智能体多模态行业动态
16:22
Alibaba Cloud@alibaba_cloud
18
5月26日,Picsart视频产品负责人Narek Hayrapetyan将在新加坡金沙会展中心,解析多模态AI如何彻底重塑视觉创作。 🚀 报名链接:https://click.qwencloud.com/m/20000000190/
多模态行业动态
05:49
StepFun@StepFun_ai
70
StepAudio 2.5实时语音发布:副语言感知与人格化交互

StepAudio 2.5 Realtime是一款实时语音模型,能够深度理解用户语音中的语气、语速、停顿乃至微表情等副语言特征。它支持通过API接入自定义人格,允许设定个性、背景故事和语言风格,并提供了上万种原生人格选项,可组合出数百万种特征。产品还内置了5个可直接体验的预设人格,并经过RLHF调优,确保在复杂的角色扮演压力测试中也能保持角色一致性。该模型支持中文和英文。

产品更新多模态语音
02:57
Rohan Paul@rohanpaul_ai
62
神经网络将成主导,传统应用或消失

Andrej Karpathy 认为,下一代重大软件变革将是大量传统应用的消失。他预言了一种“完全神经化”的计算范式:原始输入直接由神经网络处理,通过扩散模型实时生成专属于当下的界面。当前经典计算以 CPU 为主、智能为辅,而未来神经网络可能成为主导进程,传统 CPU 则退化为处理精确任务的协处理器。这意味着许多现有应用只是过渡产物,未来交互可能不再是静态应用,而是由神经系统根据即时情境生成的动态界面。

多模态大佬观点
5月23日
20:37
🚨 AI News | TestingCatalog@testingcatalog
38
如果你错过了 👀:Gemini在Chrome浏览器中现已向部分欧洲用户开放。 我终于在我的Canary版本中获得了德国的Chrome Gemini功能,包含Gemini 3.5 Flash、技能和Gemini Live。 你也能用了吗?
Google产品更新多模态
15:51
Alibaba Cloud@alibaba_cloud
61
阿里云Qwen团队新发布的Qwen3.7-Max模型在极短时间内(不到一个月)实现了多模态生成能力的惊人进步。独立测试显示,该模型已从此前表现落后,跃升至在特定测试中与Gemini 3.5 Flash持平,并超越了GPT-5.5与Claude Opus 4.7。其渲染的图像(如足球运动员与足球)在比例和真实感上表现尤为突出,展现出卓越的空间推理能力。

GMI Cloud: Salute to the Qwen team 🫡 We tested Qwen 3.7-Max, Gemini 3.5 Flash, GPT-5.5, and Claude Opus 4.7. The biggest shock cam...

GoogleOpenAI多模态评测/基准
08:14
Google Gemini@GeminiApp
87
Gemini升级:用户超9亿,推出智能代理功能

谷歌宣布Gemini应用月活用户已突破9亿。在此次更新中,Gemini正从工具演变为更主动的个人AI代理。主要更新包括新一代模型Gemini 3.5 Flash、全新的“Neural Expressive”设计语言,以及能将提示转化为高质量视频的Gemini Omni模型。核心亮点是两项代理功能:“Daily Brief”提供个性化每日简报,“Gemini Spark”则作为24/7的个人代理,在用户授权下主动管理任务与数字生活。这些更新标志着AI助手向更主动、更整合的方向发展。

智能体Google产品更新多模态
关联讨论 18 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)IT之家(RSS)X:Berry Xia (@berryxia)X:Jeff Dean (@JeffDean)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Rohan Paul (@rohanpaul_ai)X:Logan Kilpatrick (@OfficialLoganK)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)
07:49
Suno@suno
58
McClenney如何将他的定制合成器设备接入Suno 🎛️
多模态教程/实践
03:38
ChatGPT@ChatGPTapp
精选69
用对话处理文书工作更轻松。 借助ChatGPT的图像功能和语音模式,您可以上传表单,说出要填写的内容,即可获得填写完成的版本。
OpenAI产品更新多模态语音

推荐理由:填表终于不用打字了,上传表格对着说就行,ChatGPT 这个更新把语音和图像真正串起来,以后各种纸质表单直接扔进去就完事。
01:50
Ethan Mollick@emollick
同事件精选76
我认为人们没有意识到Gemini Omni与其他视频AI的不同之处。它是完全多模态的,因此也能原生编辑视频。 我拿了1896年著名的"火车"电影,把它变成了高铁、乐高,加入了时间旅行者、蜈蚣、布偶……(看到倒影了吗?)
Google多模态现象/趋势视频
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:Ethan Mollick 用几个例子把 Gemini Omni 的真正能力讲清楚了,原生多模态让视频编辑不再是生硬叠加,而是理解场景后的重构,做视频的该看。
01:07
Luma@LumaLabsAI
72
想象力。瞬间化为电影级现实。 Seedance 2.0现已在Luma Agents上线。人像、风景、科幻、奇幻--每一帧都以不言自明的品质呈现。 立即体验 → http://lumalabs.ai/app
产品更新多模态视频
5月22日
23:37
🚨 AI News | TestingCatalog@testingcatalog
51
错过了吗?Imagine Agent现已登陆Grok iOS版! 你试过了吗?👀
智能体xAI产品更新多模态
23:26
Rohan Paul@rohanpaul_ai
57
世界模型正进入未知领域。 Project Genie刚刚将谷歌地图街景转变为一个可通过提示词操控的世界模拟器。 谷歌AI Ultra用户现在可以将任何美国真实地点转化为交互式AI生成场景。
Google产品更新多模态
23:14
Google DeepMind@GoogleDeepMind
精选67
Project Genie 🤝 @GoogleMaps Street View 你现在可以将真实的美国地点转化为全新的交互式世界。🌍
DeepMindGoogle产品更新图像生成

推荐理由:Project Genie这次不是纸上谈兵了,直接吃进真实街景吐出来可玩世界,虽然暂时只限美国,但这是生成式游戏从能做走向普通人可玩的关键一步。
20:35
Greg Brockman@gdb
75
OpenAI的Codex应用推出了名为Appshots的新功能。用户通过同时按下两个CMD键,即可将当前应用的完整上下文(包括可见与不可见的屏幕内容)发送给Codex,远超普通截图所能提供的信息。与此同时,OpenAI更新了远程Codex,使其在笔记本电脑锁屏状态下仍可正常运行,允许用户安全地将笔记本留在家中,通过手机进行远程编码。该应用集成了多项独特功能,提升了使用体验。

Anthony Kroeger: Codex just launched one of the coolest features - Appshots. by pressing both CMD keyboard buttons, context of whatever a...

OpenAI产品更新多模态编码
14:47
小互@xiaohu
71
网易有道开源双模型,聚焦工程精度与落地成本

网易有道开源Confucius4双模型,包括一个专注数学视觉推理的多模态模型,以及一个用于语音克隆的TTS模型。此次开源直接提供完整权重,而非仅提供API,强调在工程精度和实际部署成本上的投入,而非单纯追求参数规模。模型已发布于HuggingFace和GitHub平台。

GitHubHugging Face多模态开源生态
08:37
Google Gemini@GeminiApp
同事件精选82
Gemini Omni来了,我们本周看到了许多令人惊叹的创作。以下是一些杰出作品 👇
Google多模态模型发布
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:Google 的 GPT-4o 时刻终于来了,Gemini Omni 原生多模态的体验比想象中更惊艳,普通人也能随手出大片。
08:13
Berryxia.AI@berryxia
66
苹果数字人面部捕捉技术再突破,逼真度迈向新高

苹果Persona团队在WWDC26前发布新论文,展示了面部捕捉与动画技术的最新进展。从演示来看,其在眼部微表情、头部细微动作和皮肤质感等细节上实现了显著提升,使数字形象的真实感进一步增强,已超越简单“数字头像”,趋近于可信的“数字分身”。这类突破对AR/VR、游戏和远程协作等领域的沉浸式体验至关重要,能够有效打破虚拟交互中的“不真实感”。苹果持续重仓该技术赛道,相关论文与演示视频已公开。

Jonathan Cooper: Apple's Persona team continuing to do amazing work with face capture and animation. New paper released ahead of WWDC26 h...

多模态视频论文/研究
05:05
🚨 AI News | TestingCatalog@testingcatalog
71
OpenAI宣布Codex在macOS平台推出重要更新,核心功能为"Appshots"。该功能允许用户通过快捷键快速将任何应用窗口的完整上下文(包括屏幕截图与可访问文本)附加至Codex对话线程,从而为AI提供更全面的工作背景信息。此外,本次更新还包括浏览器端的新版注释编辑器、默认启用的/goal命令,以及现已支持分享的插件功能。Appshots已向所有Mac端用户开放。

OpenAI Developers: It's Codex Thursday, and yes, we have updates for you. First up: Appshots, a new way to bring the context of what you're...

OpenAI产品更新多模态编码
04:38
小互@xiaohu
60
OpenAI Codex新增Appshots功能,窗口上下文一键传输

OpenAI为Codex推出Appshots功能,允许用户将Mac上任意窗口的实时上下文传输至AI。通过双击Command键,Codex不仅能获取当前窗口截图,还可读取完整文本内容(包括未滚动显示的部分)。该功能旨在简化开发、设计等工作流,用户无需手动复制代码或截图,即可让AI直接理解如VS Code、Figma、Notion等界面的代码结构、页面内容或设计框架,实现工作界面的智能共享。

智能体OpenAI产品更新多模态
04:02
Greg Brockman@gdb
68
OpenAI为Codex应用推出"Appshots"新功能,用户可通过快捷键(如Mac的Command-Command)将当前应用窗口的截图与文本内容直接附加到对话中,从而为AI提供更全面的上下文信息,包括屏幕外内容。该功能现已在Mac端全套餐开放,企业版访问权限也将很快推出。此外,Codex还新增了面向企业和商业场景的功能,如token使用分析和插件共享,以增强协作与数据分析能力。

OpenAI Developers: It's Codex Thursday, and yes, we have updates for you. First up: Appshots, a new way to bring the context of what you're...

OpenAI产品更新多模态编码
03:36
ViggleAI@ViggleAI
精选66
介绍Fight Anyone 3D🥊一款3D派对格斗游戏,可能是上班时玩起来最爽的游戏。 上传任何人的照片 → 一个可玩的3D格斗角色,带有语音、个性+招牌动作,由Viggle自研游戏引擎+模型打造。 公测期间100%免费+赠送20张礼品卡。玩得越多,赢得越多! 和同事对战。和朋友对战。和任何人对战。链接+教程+更多内容见下方推文串 ↓
产品更新图像生成多模态

推荐理由:Viggle把「上传照片生成3D格斗角色」做成了免费派对游戏,有声音有个性,交互感拉满,是近期最适合摸鱼的产品,但AI含量主要在娱乐侧,别当生产力工具。
02:26
Chubby♨️@kimmonismus
49
1/ 我最近在体验 SenseNova U1,这是 @SenseTime_Al 发布的原生多模态模型系列。 它基于一种名为 NEO-unify 的架构构建,该架构在一个统一系统中同时处理图像和文本。这与通常在不同组件间传递任务的方式有很大不同。 请看这个帖子 🧵:
多模态评测/基准
00:30
歸藏(guizang.ai)@op7418
52
剪映海外版宣布跟 Gemini 合作了 未来可以在这边里使用剪映的编辑功能去编辑图像视频,但是没有说具体的合作方式和上线时间

CapCut: CapCut is partnering with @GeminiApp . Soon, users will be able to edit images and videos directly within the Gemini app...

Google产品更新多模态
5月21日
20:59
🚨 AI News | TestingCatalog@testingcatalog
58
Google宣布与视频编辑应用CapCut达成合作,将后者的图像和视频编辑功能直接整合进其AI模型Gemini中。这意味着用户未来将能在一个对话式AI平台内完成更复杂的创意内容编辑。此次合作被视为AI工具与专业创意软件融合的重要一步,旨在打造更无缝、智能的创作工作流。双方均认为,这是未来创作工具走向一体化、对话式体验的开端。

CapCut: CapCut is partnering with @GeminiApp . Soon, users will be able to edit images and videos directly within the Gemini app...

Google产品更新多模态
11:18
Kling AI@Kling_ai
67
首部100%AI生成电影亮相戛纳,剑指2026院线

AI电影项目RAPHAEL在戛纳亮相。该片由Mateo AI Studio与韩国MBC C&I的AI内容实验室联合开发,全程使用Kling AI视频模型进行制作,旨在实现独特的视觉效果与差异化的观影体验。项目计划于2026年登陆院线,其大规模制作旨在证明纯AI电影制作的工业可行性,标志着AI原生院线电影新趋势的开端。

多模态行业动态
10:52
SenseTime@SenseTime_AI
64
商汤连续十年领跑中国计算机视觉市场

商汤科技被IDC连续十年评为中国计算机视觉市场第一。其关键驱动因素包括:主导推进CV 2.0架构演进,原生嵌入生成式AI能力;海外市场扩展至12个国际区域,服务超500家企业客户并保持高留存率;以年度经常性收入增长为锚点实现盈利性增长;并从项目制交付转型为高度可扩展的AI平台。这一十年市场领导地位为其引领计算机视觉与生成式AI的融合浪潮奠定了基础。

多模态行业动态
10:34
向阳乔木@vista8
精选75
开源Suno技能:一键生成任意风格AI音乐

这是基于Suno AI音乐生成工具的技能实现,可通过简单指令按用户需求生成不同风格的歌曲(例如德语空灵风格)。该技能订阅费用为每月10美元,支持高度自定义的风格生成。技术层面已优化,新增近6000个音乐风格检索以提升准确性,并可通过谷歌CDP免登录直接调用。项目已开源,提供GitHub仓库地址与安装指令,降低了创作门槛。目前AI生成音乐在艺术性上仍与人工制作存在差距,但实现了快速、灵活的创作可能。

向阳乔木: Suno 生成 Skill 做了优化,增加了近6000个音乐风格检索,让生成的音乐更准确。 用谷歌CDP刷新获取登录Token,完全不用打开网站就能创作歌曲了。 开源地址:https://github.com/joeseesun/qiaom...

GitHub多模态教程/实践

推荐理由:乔木这个 Suno Skill 把音乐生成从“抽卡”变成“精准点唱”,6000 种风格检索让普通人也能玩出花样,虽然比不上专业制作,但做短视频配乐绝对够用,看完就能装。
‹ 上一页
1…1011121314…23
下一页 ›