AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 907 条
全部一手资讯X论文
标签「多模态」清除
Chubby♨️@kimmonismus · 5月29日66

ByteDance just open-sourced one of the most capable multimodal models out there. BAGEL does image generation, editing, style transfer, and visual understanding - all in a single 7B parameter model. Apache 2.0 licensed! One model. No switching between specialized tools.  Amazing

译字节跳动开源多模态模型BAGEL,单一7B参数模型即可执行图像生成、编辑、风格转换与视觉理解,采用Apache 2.0许可。引用推文显示,该公司此前已发布首个去中心化训练的视频生成模型Paris 2.0,其在FVD基准上性能约为同等数据与算力单体模型的2倍。

Ethan Mollick@emollick · 5月29日57

I had early access to Opus 4.8. Was impressed by it. Here is Opus 4.8's one shot of "create a visually interesting shader that can run in twigl, make it like an infinite city of neo-gothic towers partially drowned in a stormy ocean with large waves" (this is all done with math)

译Opus 4.8与GPT-5.2 Pro在相同任务上展示了其代码生成能力。两者均通过“一次性生成”(single shot)的方式,为twigl平台创建可运行的视觉shader。具体任务为:用数学生成一个“无限的新哥特式塔楼城市部分淹没于巨浪汹涌的暴风雨海洋中”的场景。这则推文通过并列展示,体现了两个顶级大语言模型在创意编程领域的直接对比。

Google AI@GoogleAI · 5月29日41

We wanted to see if we could take simple, physical materials (like cardboard and markers) and use AI to bring them to life. What was the result? A short film starring a bunch of TPUs getting ready for the big stage at Google I/O 2026! Working with director Laurie Rowan and Nexus Studios, we kept human artistry at the center of the film by blending puppetry and 3D animation with our models to do the following ↓ Nano Banana: Generated beautifully stylized first frames from the raw puppet footage and basic 3D animations. @GoogleAIStudio: Built a custom tool inside the platform to test these frames at scale, ensuring pixel-perfect consistency Gemini Omni & experimental @GoogleDeepMind Models: Merged the base animation and stylized frames to elevate the final piece to a cinematic level. Our AI pipelines were specifically designed to protect the crafty details that give these films their heart, like the tiny human imperfections of puppetry, or the nuance an animator can build into an expression.

译Google通过一部短片展示了如何利用AI工具将纸板、马克笔等简单物理材料“赋予生命”。该短片讲述了为Google I/O 2026舞台做准备的一群TPU的故事,创作中融合了木偶戏与3D动画。核心工具包括:Nano Banana(从原始木偶镜头和基础3D动画生成风格化首帧)、Google AI Studio(构建定制工具以大规模测试帧并确保一致性)、以及Gemini Omni和Google DeepMind的实验性模型(合并基础动画与风格化帧,提升至电影级画面)。整个AI流水线的设计旨在保护那些体现手工艺温度的细微细节,例如木偶戏的细微不完美感。

Berryxia.AI@berryxia · 5月29日61

刚刚刷到Mark Gurman的爆料,直接把iOS 27的渲染图和核心变化甩了出来。 Siri彻底重做,不再是那个只会简单问答的助手,而是能真正理解上下文、主动帮你处理多步任务的智能体。 AI功能大幅升级,照片编辑直接上新维度,Camera App还专门给专业用户做了可自定义界面,ISO、快门、峰值对焦这些参数终于能随手调。 苹果这次没再玩小修小补,将会把系统级的AI能力和创作工具一起拉到新高度。 以前大家总觉得苹果在AI上慢半拍,这次iOS 27却把Siri和相机这些最日常的入口,变成了真正能放大生产力的地方。 它没有简单堆参数,把AI藏进你每天都在用的界面里,让普通人也能用得上,专业玩家也能玩得深。 这套打法,把AI从炫技工具,真正变成了系统底层能力。 到底能不能行? 看看吧~

译Mark Gurman爆料苹果iOS 27将带来重大AI升级。核心变化是Siri被彻底重做,从简单问答助手转变为能理解上下文的智能体。AI功能将大幅增强,照片编辑能力进入新维度。系统还为专业用户推出了可自定义界面的Camera App,支持调整ISO、快门等参数。此次升级的关键在于将AI能力深度整合到系统底层与日常界面中,旨在让功能对普通用户易用,同时满足专业需求,而非简单堆砌功能。

AYi@AYi_AInotes · 5月29日48

那些说@Google Omni拉胯,说不如seedance 2.0的人看过来, Omni演示的把一个普通人手变成活体解剖演示, 肌肉、肌腱、骨骼全都看得清清楚楚,这用在生物医学相关的课上,简直就是最完美的解剖教学啊🤯

译推文回应了关于Google Omni能力的争议,展示了其将普通人手转化为逼真活体解剖影像的演示效果。该演示清晰呈现肌肉、肌腱、骨骼等组织结构,被评价为生物医学教学的理想工具。文中提及的对比对象为seedance 2.0,强调了该技术在教育领域的独特应用价值。

SenseTime@SenseTime_AI · 5月29日65

𝗛𝗼𝘄 𝗼𝘂𝗿 𝘂𝗽𝗴𝗿𝗮𝗱𝗲𝗱 𝗶𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰 𝗴𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻 𝗺𝗼𝗱𝗲𝗹 — 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭-𝟴𝗕-𝗠𝗼𝗧-𝗜𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰 — 𝗱𝗲𝗹𝗶𝘃𝗲𝗿𝘀 𝗲𝘃𝗲𝗻 𝘀𝘁𝗿𝗼𝗻𝗴𝗲𝗿 𝗰𝗮𝗽𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀 💪 • 𝗧𝗲𝘅𝘁 𝗮𝗰𝗰𝘂𝗿𝗮𝗰𝘆 & 𝗿𝗲𝗮𝗱𝗮𝗯𝗶𝗹𝗶𝘁𝘆 enhanced — reduced repetition, avoided unnatural enlargement, and stronger support for small fonts • 𝗟𝗮𝘆𝗼𝘂𝘁 𝗰𝗼𝗻𝘀𝗶𝘀𝘁𝗲𝗻𝗰𝘆 & 𝗿𝗮𝘁𝗶𝗼𝗻𝗮𝗹𝗶𝘁𝘆 improved, with more stable backgrounds • 𝗖𝗵𝗮𝗿𝘁 & 𝗱𝗶𝗮𝗴𝗿𝗮𝗺 𝗾𝘂𝗮𝗹𝗶𝘁𝘆 elevated • 𝗔𝗰𝗮𝗱𝗲𝗺𝗶𝗰 𝗿𝗲𝗻𝗱𝗲𝗿𝗶𝗻𝗴 supported Try it out: 🥰 https://huggingface.co/sensenova/SenseNova-U1-8B-MoT-Infographic 🖼 Showcases: https://github.com/OpenSenseNova/SenseNova-U1/blob/main/docs/u1_infographic_showcases.md 👾 Discord: https://discord.gg/BuTXPHmQub @huggingface @github

译SenseNova-U1-8B-MoT-Infographic 是一个升级后的8B参数信息图表生成模型。其核心提升在于:增强了文本的准确性与可读性,减少了重复和不自然的放大;改进了布局的一致性与合理性,背景更稳定;提升了图表与示意图的渲染质量;并新增了学术内容的渲染支持。

Google Gemini@GeminiApp · 5月29日58

Great news: Users in India can now upload and edit videos directly with Gemini Omni! Get started in the app or http://gemini.google.com: > Upload your video > Tell Gemini the change you want to make > Enjoy your new creation We can't wait to see what you make!

译好消息:印度用户现在可以直接使用Gemini Omni上传和编辑视频了! 在应用或 http://gemini.google.com 中开始使用: > 上传您的视频 > 告诉Gemini您想要进行的更改 > 享受您的新作品 我们迫不及待想看到您的创作!

AK@_akhaliq · 5月28日55

Agent Explorative Policy Optimization for Multimodal Agentic Reasoning

译多模态智能体推理的探索性策略优化

Xiaomi MiMo@XiaomiMiMo · 5月28日69

MiMo-V2.5 is now available in OpenCode — free for a limited time. 🎉

译MiMo-V2.5现已在OpenCode上线——限时免费。🎉 [引用 @opencode]:OpenCode x MiMo V2.5 - 限时免费 1M上下文 • 推理 • 文本 • 图像

Rohan Paul@rohanpaul_ai · 5月28日61

Reactor just launched the infrastructure layer for real-time World Models. Backed by $59M from Lightspeed, Amplify, Jeffrey Katzenberg, and world-class angels. World Models change the job of video from playback to live generation, where pixels are created as the user acts and speaks. A few lines of the Reactor SDK and you're streaming pixels from a World Model into your product in real time. That matters for games, creative tools, simulation, robotics, storytelling, and probably a few categories we do not have names for yet. Developers can now build products where the world changes as the user acts.

译Reactor公司宣布推出实时世界模型(World Models)基础设施层,并完成了由Lightspeed领投的5900万美元种子轮与A轮融资。其核心突破是将视频生成从被动预渲染转变为根据用户行动和语音实时生成的像素流。开发者只需使用几行ReactSDK代码,即可将前沿世界模型的实时像素流集成到产品中,应用于游戏、创意工具、模拟、机器人及叙事等领域。公司核心团队成员来自Apple、Meta、Google等多家公司,目前已有众多合作伙伴与开发者在使用其平台。

Chubby♨️@kimmonismus · 5月28日67

This is so interesting: How far can AI already go in building a community on Twitch? This team built an AI streamer in one night that plays, reacts, interacts with chat, gets nervous on risky calls, and celebrates wins. The implications are massive: - What happens when an AI streamer can go 24/7, never burns out, never takes a day off? - What happens when viewers emotionally bond with an AI that "knows" them better than any human creator? - What does it mean for the creator economy when the barrier to entry for entertainment drops to zero? We're not talking about perfection here. We're talking about direction. And the direction is clear.

译一个团队在一夜之间打造了一款AI Twitch主播。该AI能玩游戏、进行解说、与直播聊天互动,并在做出高风险决策时感到紧张,在获胜后表现出喜悦。文中探讨了其深远影响:当AI能实现24/7不间断直播、永不倦怠时会怎样;当观众与能比人类创作者更“了解”他们的AI建立情感联结时意味着什么;以及当娱乐的创作门槛降至零时,对创作者经济将产生何种冲击。该AI主播被其开发者@karthik_ragu_06等人定义为“具有情感智能的数字人类”。

小互@xiaohu · 5月28日44

X 的自动翻译全面生效了吗 现在所有的推文 都会根据你使用的语言自动翻译,你现在可以浏览任何帖子和回复全部展示的是你正在使用的语言 巴别塔倒塌了?

Kling AI@Kling_ai · 5月28日62

Kling AI is taking the stage at AI on the Lot's Community Day - the world’s largest AI film & media conference to proudly present 20 original short films from the Prompt Club's filmmakers, each pushing the boundaries of what AI cinema looks like at native 4K resolution. Community Day is where the industry comes together to not only talk about AI filmmaking, but to actually watch it on the big screen. Kling AI's showcase is in incredible company with the first NA theatrical releases of Gossip Goblin’s The Patch Wright and Higgsfield’s Hell Grind as well as Emmy Awards Winner Bernie Su’s HOLYWATER: Liminality. Join us on May 29 at 1PM at The Culver Theater, 9500 Culver Blvd, Culver City, California.

译可灵AI将在全球最大AI影视会议AI on the Lot的社区日上,展示由Prompt Club的电影制作人创作的20部原创AI短片。所有短片均为原生4K分辨率,旨在探索AI电影的边界。该展示将于5月29日在加州卡尔弗市的卡尔弗剧院举行。

🚨 AI News | TestingCatalog@testingcatalog · 5月28日45

ICYMI 👀: Users with access to Google Genie experiment now can use locations from Google Maps to generate virtual worlds. “Golden Gate Bridge” 🤖

译如果你错过了 👀:现在,拥有 Google Genie 实验访问权限的用户可以使用 Google 地图中的地点来生成虚拟世界。 “金门大桥” 🤖

PixVerse@PixVerse_ · 5月28日64

Excited to be part of Alibaba Cloud’s open AI ecosystem launched at #QwenConference2026. Looking forward to bringing PixVerse’s AI video generation capabilities to more creators and developers through Model Studio. 🚀

译很高兴能参与阿里云在#QwenConference2026上推出的开放AI生态。期待通过Model Studio将PixVerse的AI视频生成能力带给更多创作者和开发者。🚀

歸藏(guizang.ai)@op7418 · 5月28日74

来了!这次的小红书图片生成器 Skill 效果太好了 我都没想到他能够这么顶, 这次在图文混排上下了非常大功夫 2 套主题、28 个版式、9 套配色、8 大小红书主流内容类别适配 如果你自己有非常漂亮的图片,那么它就会凸显你的图片。 如果你没有图片,它会帮你找很牛逼的图片。 即使你的图片不太行,它也会帮你美化,而且会主动避免使用 AI 图片生成,防止你的内容被打上 AI 标记。 我过去一段时间做这类图文内容的痛点都被解决了,放在这里边

译一款针对小红书内容的图片生成器 Skill 发布,宣称效果出色,解决了图文混排的核心痛点。该 Skill 包含 2 套主题、28 个版式、9 套配色,并适配 8 大小红书主流内容类别。其核心优势在于智能处理图片:能凸显用户提供的高质量图片、自动寻找优质图片替代,并能美化普通图片,同时主动避免使用 AI 生成图片以防止内容被标记。该工具旨在高效生成具有专业效果的小红书图文内容。

Berryxia.AI@berryxia · 5月28日68

最近鹅厂发了 一堆新产品啊! 今天又来了~ Tencent直接把创意工作最烦人的痛点一次性干掉了。 再也不用在Midjourney、Runway、Figma、Blender之间来回切。 他们刚刚推出Miora,一个真正的AI创意Agent studio,现在国际版公测。 所有东西(图像、视频、UI/UX、3D)都在同一个画布上生成,agent自己理解上下文、自己调用工具、自己图像修复、本地编辑、拆背景,还能记住你的喜好。 内置一堆专业Agent:品牌、故事板、插画、UI/UX、视频、3D…… 也安排了对应的SKILLS商店:你可以用官方的、自己造的、还能分享给社区。

译腾讯推出Miora,一个整合图像、视频、UI/UX和3D生成的AI创意Agent平台,现已开启国际版公测。该平台允许用户在同一画布内完成全部创意工作,无需在Midjourney、Runway等多个工具间切换,避免了上下文丢失。Miora内置了品牌、故事板、插画、UI/UX、视频、3D等专业Agent,具备理解设计语境、自主推理、调用工具、局部编辑及记忆用户偏好的能力。同时,它提供官方的技能商店,支持用户创建、使用并分享自定义技能。

AYi@AYi_AInotes · 5月28日52

一个地图截图+手绘路径, 就能生成这么流畅、物理感强的无人机POV航拍视频, 相比seedance、Kling,Google Omni最擅长的应该就是这种精确的相机控制,空间理解、世界模型的真实感

Ethan Mollick@emollick · 5月28日60

Google has the only true Omni model, but the elements aren't hooked up. It appears it can take in & output audio, images. video, songs, text, code, etc. But right now each type of output is separate. When you can access the model directly, blending modes, a lot becomes possible.

译Google拥有唯一真正的全模态模型,但各元素尚未连接。它似乎能接收和输出音频、图像、视频、歌曲、文本、代码等。但目前每种输出类型都是分离的。当你能直接访问模型,混合模式,很多事情就变得可能了。

Google Gemini@GeminiApp · 5月28日77

Easily transform your videos into new visual styles with Gemini Omni. Just upload a video or photo and ask Gemini to apply a look or style to your final output.

译使用 Gemini Omni 轻松将您的视频转换为新的视觉风格。 只需上传视频或照片,并要求 Gemini 为您的最终输出应用某种外观或风格。

Google AI@GoogleAI · 5月28日45

Look back at last week’s I/O announcements with @NotebookLM. You can listen to an audio overview, watch the video recap, and even check out our detailed slide deck summarizing all of the biggest news and launches. Check it out here: http://goo.gle/4xcgBoj

译与 @NotebookLM 一起回顾上周的 I/O 发布内容。 你可以收听音频概览、观看视频回顾,甚至查看我们详细的幻灯片,总结所有重大新闻和发布。 在此查看:http://goo.gle/4xcgBoj

Rohan Paul@rohanpaul_ai · 5月28日57

Such a great example of the power of OpenAI’s Codex. He showed Codex a photo of the chip of the MP3 player, which was having some problems. Codex guided him to put the MP3 player into bootloader mode on a Mac. In that mode the Mac can read the entire firmware (the player’s operating system) straight from the device’s flash memory. He ran the commands Codex gave him and the Mac dumped the full binary file. He fed that binary back to Codex. Codex analyzed the machine code, found the exact sections causing the problems, then generated a patched custom firmware with the fixes and gave it back to him. problem solved.

译一位用户展示了一款从AliExpress购买的廉价MP3播放器,它存在蓝牙音频卡顿和菜单操作不便的问题。用户将设备芯片的照片提供给OpenAI的Codex进行分析。Codex随后引导用户通过Mac设备提取了播放器的完整固件文件。Codex分析了该固件的机器代码,定位到导致问题的具体代码段,并生成了一个修复了蓝牙问题并优化了菜单导航的定制固件。用户将此固件刷写回设备后,问题得到解决。此案例具体体现了AI工具在处理底层硬件调试与定制化开发任务中的潜力。

OpenCode@opencode · 5月28日66

OpenCode x MiMo V2.5 - Free for a limited time 1M context • reasoning • text • image

译OpenCode x MiMo V2.5 - 限时免费 1M 上下文 • 推理 • 文本 • 图像

Luma@LumaLabsAI · 5月28日51

A fox on the frontlines. A walrus at the helm. An otter healing the sick. Everyone has a calling, sometimes you just have to start looking. Start creating → http://lumalabs.ai/app

译前线的狐狸。掌舵的海象。治愈病患的水獭。每个人都有自己的使命,有时你只需开始寻找。 开始创作 → http://lumalabs.ai/app

Google Gemini@GeminiApp · 5月27日75

Add text, video, or up to five images as your ingredients and Gemini Omni can combine them all into one cohesive ten-second video. Try it today and share your creations in the replies. 👇

译添加文本、视频或最多五张图片作为素材,Gemini Omni可以将它们全部组合成一个连贯的十秒视频。 今天就来试试,并在回复中分享你的创作。👇

Kling AI@Kling_ai · 5月27日58

Kling AI at The 79th Cannes International Film Festival Interview | Directors from China, the U.S. and South Korea on AI & Filmmaking At the 79th Cannes Film Festival, Kling AI brought together three creators from China, the U.S. and South Korea to discuss how AI is entering real film production workflows. From a Hollywood-scale series to a fully AI-generated theatrical feature and an AI-powered animated film, the conversation explores how creators are using AI across different forms of cinematic storytelling. Watch the video for their firsthand perspectives!

译快手旗下Kling AI在第79届戛纳电影节举办访谈,邀请中国、美国和韩国的创作者,共同探讨AI如何进入真实的电影制作工作流。对谈内容涵盖了从好莱坞规模的剧集制作,到全AI生成的剧情电影,以及AI动画电影等不同形式的影视创作。创作者们分享了AI在其实际叙事创作中的应用视角。

🚨 AI News | TestingCatalog@testingcatalog · 5月27日61

ANTHROPIC 🔥: Voice mode on Claude mobile apps is about to get an upgrade with 18 new supported languages! > Claude will be able to change language on the fly > All languages have 1-2 new voices > Voice Mode UI will get a new look > A new push-to-talk functionality will be added > It is powered by Claude Haiku 4.5, but still TTS Soon? 👀

译ANTHROPIC 🔥: Claude移动应用的语音模式即将升级,新增支持18种语言! > Claude将能够实时切换语言 > 所有语言都有1-2个新声音 > 语音模式界面将焕新 > 将新增按键说话功能 > 由Claude Haiku 4.5驱动,但仍是TTS 很快?👀

Berryxia.AI@berryxia · 5月27日61

鹅厂好的新基准测试,叫Chronicles-OCR。 腾讯HY实验室和四家机构一起做的,专门测AI对3000年中国古文字的识别能力。 2800张专家标注的图像,覆盖甲骨文、金文、篆书、隶书、楷书、行书、草书七大类。 结果28个前沿多模态模型全军覆没。 最强的VLLM在甲骨文上也只拿到14%的准确率。 端到端检测的H-mean最高才16.5%。 GPT-5和Gemini 2.5 Pro直接接近0。 更反直觉的是,开启reasoning模式反而让表现变差。 Chain-of-thought在感知失败的时候,反而放大了幻觉。 模型其实根本没在认字,它认的是载体。 古文字分类准确率能到96.7%,靠的是看到龟壳、青铜器这些容器,而不是看懂上面的字符。 到底非遗中的价值,AI的攻克只有九牛一毛。

译腾讯HY实验室与四家机构发布了专门测试AI对中国古文字识别能力的基准Chronicles-OCR,包含2800张专家标注图像,覆盖甲骨文、金文等七大类。测试显示,28个前沿多模态模型集体表现不佳:VLLM在甲骨文上准确率仅14%,GPT-5与Gemini 2.5 Pro得分近零。值得注意的是,开启推理模式反而损害性能,因模型实为识别龟壳、青铜器等载体(准确率96.7%),而非真正识别字符本身。

向阳乔木@vista8 · 5月27日13

Suno生成了一首很痞的歌曲,很像gala 哈哈哈

Saining Xie@sainingxie · 5月27日69

📸latest in our cambrian series: cambrian-p, p for pose. i think pose is probably the minimal sufficient 3d signal (and it’s easy to get!) that we need for robust video multimodal models -- jointly modeling frames and pose turns image sequences into a globally grounded structure.

译推文介绍了Cambrian-P,这是一个原生集成相机位姿的多模态大语言模型。其核心观点是,相机位姿是一种易于获取且足以支撑鲁棒视频理解的最小3D信号。通过联合建模视频帧与位姿,模型能将图像序列转化为全局结构化的表示。引用推文指出,当前多模态大语言模型在识别视频活动方面表现优异,但对视频中的空间结构及自主体/物体动态的理解仍然不足,而相机位姿信息是弥补这一差距的关键缺失环节。

Berryxia.AI@berryxia · 5月27日25

最近也在使用YOLO 模型做一些人体形体动作识别的项目,发现传统的这种模型参数很小,结合LLM一起来做一些东西还是不错的选择。

swyx@swyx · 5月27日31

everybody talks about the china->us catchup not enough people talking about the us-> china catchup great job @o_lacombe et al, @robert_mchardy et al!

译每个人都在谈论中国追赶美国 却很少有人谈论美国追赶中国 干得好 @o_lacombe 等人,@robert_mchardy 等人!

小互@xiaohu · 5月27日21

strudel+gemini 生成电子音乐 有点酷… 视频来自抖音:@六月的小号

SenseTime@SenseTime_AI · 5月26日77

🚀 𝗪𝗲'𝘃𝗲 𝗼𝗽𝗲𝗻-𝘀𝗼𝘂𝗿𝗰𝗲𝗱 𝘁𝗵𝗲 𝗳𝘂𝗹𝗹 𝘁𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗰𝗼𝗱𝗲𝗯𝗮𝘀𝗲 𝗳𝗼𝗿 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭 (8B dense + A3B MoE). ​ ​ One stack for 𝘁𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗺𝘂𝗹𝘁𝗶𝗺𝗼𝗱𝗮𝗹 𝘁𝗮𝘀𝗸𝘀 across: text-to-image · editing · interleaved generation · text & vision understanding.​ ​ Built for practical large-scale training: ​ ⚙ Hybrid WP/TP/PP + ISP parallelism​ 🌊 Streaming, resumable, packed data pipeline ​ 🎛 Env-var driven configs for easy experimentation ​ 🧱 Decoupled backbone, data, and objective modules ​ 📈 Scales from 1×8 GPUs to multi-node clusters ​ ​ Apache-2.0 👇 ​ https://github.com/OpenSenseNova/SenseNova-U1​ Discord: https://discord.gg/BuTXPHmQub​ ​ @GitHub

译商汤开源了SenseNova-U1(8B dense + A3B MoE)的完整训练代码库。这是一个统一的框架,支持文本到图像、图像编辑、交错生成、文本与视觉理解等多种多模态任务的训练。其设计注重实用性与大规模训练,采用混合并行、流式可恢复数据管道、环境变量配置、解耦模块化设计,并支持从1×8 GPU扩展到多节点集群的规模。代码库以Apache-2.0协议开源。

SenseTime@SenseTime_AI · 5月26日70

🚀 𝗪𝗲'𝘃𝗲 𝗼𝗽𝗲𝗻-𝘀𝗼𝘂𝗿𝗰𝗲𝗱 𝘁𝗵𝗲 𝗳𝘂𝗹𝗹 𝘁𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗰𝗼𝗱𝗲𝗯𝗮𝘀𝗲 𝗳𝗼𝗿 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭 (8B dense + A3B MoE). ​ ​ One stack for 𝘁𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗺𝘂𝗹𝘁𝗶𝗺𝗼𝗱𝗮𝗹 𝘁𝗮𝘀𝗸𝘀 across: text-to-image · editing · interleaved generation · text & vision understanding.​ ​ Built for practical large-scale training: ​ ⚙ Hybrid WP/TP/PP + ISP parallelism​ 🌊 Streaming, resumable, packed data pipeline ​ 🎛 Env-var driven configs for easy experimentation ​ 🧱 Decoupled backbone, data, and objective modules ​ 📈 Scales from 1×8 GPUs to multi-node clusters ​ ​ Apache-2.0 👇 ​ https://github.com/OpenSenseNova/SenseNova-U1​ Discord: https://discord.gg/BuTXPHmQub​ ​ @github

译OpenSenseNova开源了SenseNova-U1的完整训练代码库,支持其8B密集模型与A3B MoE架构。该代码库使用一个统一的框架,可同时训练多种多模态任务,包括文本到图像生成、图像编辑、交错生成及文本与视觉理解。工程上为大规模训练设计,支持混合并行、流式可恢复数据管线、环境变量驱动配置以及从1×8 GPUs到多节点集群的扩展能力。代码已在GitHub开源,采用Apache-2.0协议。

Elon Musk@elonmusk · 5月26日63

Paste screenshots into Grok Build

译xAI 的开发工具 Grok Build 现在支持直接粘贴截图来辅助开发。用户可通过快捷键截屏后,将图像粘贴至 Grok Build 界面,随后要求其基于图像进行灵感启发、讲解、调试或代码复现。该功能利用了 Grok 多模态模型强大的视觉能力,能够理解截图、UI 和视觉上下文,使得通过视觉化方式沟通和迭代开发想法变得比手动输入细节更直观、自然。

Baidu Inc.@Baidu_Inc · 5月26日30

@BoatbomberRBLX brought one of the world's oldest writing systems to the ERNIE AI Developer Challenge: ancient cuneiform tablets. Using PaddleOCR, he built NabuOCR to help read cuneiforms from tablet images. See the story behind the winning project 👇

译@BoatbomberRBLX 将世界上最古老的文字系统之一——古代楔形文字泥板——带入了ERNIE AI开发者挑战赛。 他使用PaddleOCR构建了NabuOCR,以帮助从泥板图像中读取楔形文字。 了解这个获奖项目背后的故事👇

Rohan Paul@rohanpaul_ai · 5月26日59

One engineering challenge in dexterous Robot hands is balancing strength and speed. Here a SharpaWave performing rapid hand cycles at over 4x/sec. The Dynamic Tactile Array uses visuo-tactile sensing: fingertip integrates camera & 1,000+ tactile pixels.

译灵巧机械手的一个工程挑战在于平衡强度与速度。 这里 SharpaWave 正以超过每秒 4 次的频率进行快速手部循环。动态触觉阵列采用视觉-触觉传感:指尖集成了摄像头和 1000 多个触觉像素。

向阳乔木@vista8 · 5月26日70

以前只知道有个乐队叫子曰,没想到网易有道大模型也叫子曰。 最新发布的子曰4是一个全模态模型,27B参数,视觉数理方向同规模SOTA,纯文本数理难题准确率81.4%。 在27B这个“甜点级”参数规模里,子曰4做到了中文学习场景下多模态+纯文本数理推理的双料极佳。 这次,子曰4全模态模型和TTS引擎同步开源,开放参数权重,支持本地部署、二次训练。 尤其是 TTS 模型,看介绍有点强:只需3秒就能克隆原声,支持14种语言,克隆准确度超97%,音色还原度 95%以上。 在线录了13秒音频,克隆我的声音,然后朗读朋友写的诗,效果如下:

译网易有道发布子曰4,一个27B参数的全模态大语言模型,在视觉数理方向达到同规模SOTA,纯文本数理难题准确率为81.4%。该模型在27B“甜点级”参数规模下,实现了多模态与纯文本数理推理的双重优势。同时,子曰4全模态模型和TTS引擎已同步开源,开放参数权重,支持本地部署与二次训练。其TTS模型只需3秒即可克隆原声,支持14种语言,克隆准确度超97%,音色还原度达95%以上。

Elon Musk@elonmusk · 5月26日67

How to use Grok Build

译xAI发布了面向非技术背景的SuperGrok和X Premium+用户的Grok Build入门视频教程。教程提供了分步指南,核心内容包括:通过一条命令快速安装Grok Build;利用其创建真实的网站;使用内置的Grok Imagine工具自动生成图像与视频;以及在不同文件夹中同时运行多个项目。整个过程无需任何编程经验,并且Grok可以协助执行命令。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月29日
01:44
Chubby♨️@kimmonismus
66
字节跳动开源多模态模型BAGEL,单一7B参数模型即可执行图像生成、编辑、风格转换与视觉理解,采用Apache 2.0许可。引用推文显示,该公司此前已发布首个去中心化训练的视频生成模型Paris 2.0,其在FVD基准上性能约为同等数据与算力单体模型的2倍。

bidhan: We're releasing Paris 2.0, which, to our knowledge, is the world's first decentralized trained video generation model. W...

多模态开源生态模型发布
01:12
Ethan Mollick@emollick
57
Opus 4.8与GPT-5.2 Pro在相同任务上展示了其代码生成能力。两者均通过"一次性生成"(single shot)的方式,为twigl平台创建可运行的视觉shader。具体任务为:用数学生成一个"无限的新哥特式塔楼城市部分淹没于巨浪汹涌的暴风雨海洋中"的场景。这则推文通过并列展示,体现了两个顶级大语言模型在创意编程领域的直接对比。

Ethan Mollick: Had early access to GPT-5.2. Its an impressive model. Here is GPT 5.2 Pro's version of "create a visually interesting sh...

Anthropic多模态模型发布
01:06
Google AI@GoogleAI
41
Google用AI工具让纸板和马克笔"活起来"

Google通过一部短片展示了如何利用AI工具将纸板、马克笔等简单物理材料“赋予生命”。该短片讲述了为Google I/O 2026舞台做准备的一群TPU的故事,创作中融合了木偶戏与3D动画。核心工具包括:Nano Banana(从原始木偶镜头和基础3D动画生成风格化首帧)、Google AI Studio(构建定制工具以大规模测试帧并确保一致性)、以及Gemini Omni和Google DeepMind的实验性模型(合并基础动画与风格化帧,提升至电影级画面)。整个AI流水线的设计旨在保护那些体现手工艺温度的细微细节,例如木偶戏的细微不完美感。

Google多模态教程/实践视频
00:32
Berryxia.AI@berryxia
61
iOS 27爆料:Siri彻底重做,AI系统级整合

Mark Gurman爆料苹果iOS 27将带来重大AI升级。核心变化是Siri被彻底重做,从简单问答助手转变为能理解上下文的智能体。AI功能将大幅增强,照片编辑能力进入新维度。系统还为专业用户推出了可自定义界面的Camera App,支持调整ISO、快门等参数。此次升级的关键在于将AI能力深度整合到系统底层与日常界面中,旨在让功能对普通用户易用,同时满足专业需求,而非简单堆砌功能。

Mark Gurman: BREAKING: A first look with renders at Apple's upcoming iOS 27, completely revamped Siri, major new AI features, enhance...

产品更新多模态语音
00:31
AYi@AYi_AInotes
48
Google Omni演示手部解剖,生物医学教学潜力获赞

推文回应了关于Google Omni能力的争议,展示了其将普通人手转化为逼真活体解剖影像的演示效果。该演示清晰呈现肌肉、肌腱、骨骼等组织结构,被评价为生物医学教学的理想工具。文中提及的对比对象为seedance 2.0,强调了该技术在教育领域的独特应用价值。

Google多模态现象/趋势
00:06
SenseTime@SenseTime_AI
同事件精选65
SenseNova信息图表生成模型升级:文本、布局与图表质量全面增强

SenseNova-U1-8B-MoT-Infographic 是一个升级后的8B参数信息图表生成模型。其核心提升在于:增强了文本的准确性与可读性,减少了重复和不自然的放大;改进了布局的一致性与合理性,背景更稳定;提升了图表与示意图的渲染质量;并新增了学术内容的渲染支持。

Hugging Face图像生成多模态模型发布
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
推荐理由:商汤这个8B信息图生成模型升级了,文本和布局都更稳,对常做数据图表和学术配图的人算个实用的小迭代,没有到改变游戏规则的程度。
00:05
Google Gemini@GeminiApp
58
好消息:印度用户现在可以直接使用Gemini Omni上传和编辑视频了! 在应用或 http://gemini.google.com 中开始使用: > 上传您的视频 > 告诉Gemini您想要进行的更改 > 享受您的新作品 我们迫不及待想看到您的创作!
Google产品更新多模态视频
5月28日
23:43
AK@_akhaliq
55
多模态智能体推理的探索性策略优化
智能体arXiv多模态推理
23:38
Xiaomi MiMo@XiaomiMiMo
同事件精选69
MiMo-V2.5现已在OpenCode上线--限时免费。🎉 【引用 @opencode】:OpenCode x MiMo V2.5 - 限时免费 1M上下文 • 推理 • 文本 • 图像

OpenCode: OpenCode x MiMo V2.5 - Free for a limited time 1M context • reasoning • text • image

多模态推理模型发布
同一事件,精选展示《小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式,1T 模型输出突破 1000 tokens/s》
推荐理由:MiMo-V2.5在OpenCode免费开放,1M上下文加多模态推理,小米的模型迭代不算大新闻,但趁免费白嫖一下国产模型的机会别错过。如果你正在选型,跑个分试试。
23:12
Rohan Paul@rohanpaul_ai
61
Reactor推出实时世界模型基础设施

Reactor公司宣布推出实时世界模型(World Models)基础设施层,并完成了由Lightspeed领投的5900万美元种子轮与A轮融资。其核心突破是将视频生成从被动预渲染转变为根据用户行动和语音实时生成的像素流。开发者只需使用几行ReactSDK代码,即可将前沿世界模型的实时像素流集成到产品中,应用于游戏、创意工具、模拟、机器人及叙事等领域。公司核心团队成员来自Apple、Meta、Google等多家公司,目前已有众多合作伙伴与开发者在使用其平台。

reactor: Today, we're coming out of stealth with $59M in seed and Series A funding, led by Lightspeed, with Amplify Partners, Wnd...

智能体产品更新多模态行业动态
21:42
Chubby♨️@kimmonismus
67
一夜之间构建的AI Twitch主播:功能、情绪与潜在影响

一个团队在一夜之间打造了一款AI Twitch主播。该AI能玩游戏、进行解说、与直播聊天互动,并在做出高风险决策时感到紧张,在获胜后表现出喜悦。文中探讨了其深远影响:当AI能实现24/7不间断直播、永不倦怠时会怎样;当观众与能比人类创作者更“了解”他们的AI建立情感联结时意味着什么;以及当娱乐的创作门槛降至零时,对创作者经济将产生何种冲击。该AI主播被其开发者@karthik_ragu_06等人定义为“具有情感智能的数字人类”。

Tavus: @Twitch the first ever human-like AI streamer is here. This AI streamer plays, narrates, reacts to chat, gets nervous on...

智能体多模态现象/趋势视频
19:06
小互@xiaohu
44
X 的自动翻译全面生效了吗 现在所有的推文 都会根据你使用的语言自动翻译,你现在可以浏览任何帖子和回复全部展示的是你正在使用的语言 巴别塔倒塌了?
产品更新多模态
16:11
Kling AI@Kling_ai
62
可灵AI将在AI电影节展示20部4K原创短片

可灵AI将在全球最大AI影视会议AI on the Lot的社区日上,展示由Prompt Club的电影制作人创作的20部原创AI短片。所有短片均为原生4K分辨率,旨在探索AI电影的边界。该展示将于5月29日在加州卡尔弗市的卡尔弗剧院举行。

多模态行业动态视频
15:41
🚨 AI News | TestingCatalog@testingcatalog
45
如果你错过了 👀:现在,拥有 Google Genie 实验访问权限的用户可以使用 Google 地图中的地点来生成虚拟世界。 "金门大桥" 🤖
Google产品更新图像生成多模态
12:36
PixVerse@PixVerse_
64
很高兴能参与阿里云在#QwenConference2026上推出的开放AI生态。期待通过Model Studio将PixVerse的AI视频生成能力带给更多创作者和开发者。🚀

Alibaba Cloud: Launched at #QwenConference2026 today: Alibaba Cloud's fully open AI ecosystem. Beyond Qwen, the world's leading models ...

产品更新多模态视频
11:37
歸藏(guizang.ai)@op7418
74
小红书图片生成器新Skill,图文混排痛点全解决

一款针对小红书内容的图片生成器 Skill 发布,宣称效果出色,解决了图文混排的核心痛点。该 Skill 包含 2 套主题、28 个版式、9 套配色,并适配 8 大小红书主流内容类别。其核心优势在于智能处理图片:能凸显用户提供的高质量图片、自动寻找优质图片替代,并能美化普通图片,同时主动避免使用 AI 生成图片以防止内容被标记。该工具旨在高效生成具有专业效果的小红书图文内容。

歸藏(guizang.ai): http://x.com/i/article/2059811469081141248

图像生成多模态教程/实践
10:28
Berryxia.AI@berryxia
68
腾讯Miora:一个AI创意Agent平台

腾讯推出Miora,一个整合图像、视频、UI/UX和3D生成的AI创意Agent平台,现已开启国际版公测。该平台允许用户在同一画布内完成全部创意工作,无需在Midjourney、Runway等多个工具间切换,避免了上下文丢失。Miora内置了品牌、故事板、插画、UI/UX、视频、3D等专业Agent,具备理解设计语境、自主推理、调用工具、局部编辑及记忆用户偏好的能力。同时,它提供官方的技能商店,支持用户创建、使用并分享自定义技能。

Tencent AI: Meet Miora ✨your AI creative agent studio, now in international beta. 💡 Here's the idea: Images, video, UI/UX, 3D - all...

智能体产品更新多模态
10:28
AYi@AYi_AInotes
52
一个地图截图+手绘路径, 就能生成这么流畅、物理感强的无人机POV航拍视频, 相比seedance、Kling,Google Omni最擅长的应该就是这种精确的相机控制,空间理解、世界模型的真实感
Google多模态教程/实践视频
07:35
Ethan Mollick@emollick
60
Google拥有唯一真正的全模态模型,但各元素尚未连接。它似乎能接收和输出音频、图像、视频、歌曲、文本、代码等。但目前每种输出类型都是分离的。当你能直接访问模型,混合模式,很多事情就变得可能了。
Google多模态大佬观点
05:52
Google Gemini@GeminiApp
同事件精选77
使用 Gemini Omni 轻松将您的视频转换为新的视觉风格。 只需上传视频或照片,并要求 Gemini 为您的最终输出应用某种外观或风格。
Google产品更新多模态视频
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:Gemini 终于把图像风格迁移做到视频上了,并且直接集成到 Omni 里,不需要任何剪辑软件,对短视频创作者是个小但实用的更新。
04:59
Google AI@GoogleAI
45
与 @NotebookLM 一起回顾上周的 I/O 发布内容。 你可以收听音频概览、观看视频回顾,甚至查看我们详细的幻灯片,总结所有重大新闻和发布。 在此查看:http://goo.gle/4xcgBoj
Google多模态教程/实践
03:07
Rohan Paul@rohanpaul_ai
57
利用OpenAI Codex解决硬件问题实例

一位用户展示了一款从AliExpress购买的廉价MP3播放器,它存在蓝牙音频卡顿和菜单操作不便的问题。用户将设备芯片的照片提供给OpenAI的Codex进行分析。Codex随后引导用户通过Mac设备提取了播放器的完整固件文件。Codex分析了该固件的机器代码,定位到导致问题的具体代码段,并生成了一个修复了蓝牙问题并优化了菜单导航的定制固件。用户将此固件刷写回设备后,问题得到解决。此案例具体体现了AI工具在处理底层硬件调试与定制化开发任务中的潜力。

ぶんかい@AIで遊ぶ人: ぼくの着想の限界=Codexの限界。 それくらいまーじでCodexでなんでもできる。 これアリエクで買ったやっすいMP3プレイヤー。 でもBluetoothの音飛びと操作性が悪くて放置してたんですよ。 だけど昨日急にシャワーしている時にエウ...

OpenAI多模态教程/实践
02:12
OpenCode@opencode
66
OpenCode x MiMo V2.5 - 限时免费 1M 上下文 • 推理 • 文本 • 图像
产品更新多模态推理编码
01:42
Luma@LumaLabsAI
51
前线的狐狸。掌舵的海象。治愈病患的水獭。每个人都有自己的使命,有时你只需开始寻找。 开始创作 → http://lumalabs.ai/app
产品更新多模态视频
5月27日
23:51
Google Gemini@GeminiApp
75
添加文本、视频或最多五张图片作为素材,Gemini Omni可以将它们全部组合成一个连贯的十秒视频。 今天就来试试,并在回复中分享你的创作。👇
Google产品更新多模态视频
关联讨论 19 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)IT之家(RSS)X:Berry Xia (@berryxia)X:Jeff Dean (@JeffDean)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Rohan Paul (@rohanpaul_ai)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)
23:10
Kling AI@Kling_ai
58
Kling AI戛纳电影节探讨AI影视制作应用

快手旗下Kling AI在第79届戛纳电影节举办访谈,邀请中国、美国和韩国的创作者,共同探讨AI如何进入真实的电影制作工作流。对谈内容涵盖了从好莱坞规模的剧集制作,到全AI生成的剧情电影,以及AI动画电影等不同形式的影视创作。创作者们分享了AI在其实际叙事创作中的应用视角。

多模态现象/趋势视频
22:40
🚨 AI News | TestingCatalog@testingcatalog
61
ANTHROPIC 🔥: Claude移动应用的语音模式即将升级,新增支持18种语言! > Claude将能够实时切换语言 > 所有语言都有1-2个新声音 > 语音模式界面将焕新 > 将新增按键说话功能 > 由Claude Haiku 4.5驱动,但仍是TTS 很快?👀
Anthropic产品更新多模态语音
21:27
Berryxia.AI@berryxia
61
腾讯HY实验室发布Chronicles-OCR基准测试

腾讯HY实验室与四家机构发布了专门测试AI对中国古文字识别能力的基准Chronicles-OCR,包含2800张专家标注图像,覆盖甲骨文、金文等七大类。测试显示,28个前沿多模态模型集体表现不佳:VLLM在甲骨文上准确率仅14%,GPT-5与Gemini 2.5 Pro得分近零。值得注意的是,开启推理模式反而损害性能,因模型实为识别龟壳、青铜器等载体(准确率96.7%),而非真正识别字符本身。

ModelScope: The best VLLM scores only 14% on oracle bone script recognition. Chronicles-OCR, a new ancient Chinese character benchma...

多模态论文/研究评测/基准
15:31
向阳乔木@vista8
13
Suno生成了一首很痞的歌曲,很像gala 哈哈哈
其他多模态
10:31
Saining Xie@sainingxie
69
推文介绍了Cambrian-P,这是一个原生集成相机位姿的多模态大语言模型。其核心观点是,相机位姿是一种易于获取且足以支撑鲁棒视频理解的最小3D信号。通过联合建模视频帧与位姿,模型能将图像序列转化为全局结构化的表示。引用推文指出,当前多模态大语言模型在识别视频活动方面表现优异,但对视频中的空间结构及自主体/物体动态的理解仍然不足,而相机位姿信息是弥补这一差距的关键缺失环节。

Jihan Yang: Camera pose matters for video understanding! Today's MLLMs excel at recognizing activities, but still struggle with the ...

多模态论文/研究
08:27
Berryxia.AI@berryxia
25
最近也在使用YOLO 模型做一些人体形体动作识别的项目,发现传统的这种模型参数很小,结合LLM一起来做一些东西还是不错的选择。
多模态教程/实践
03:20
swyx@swyx
31
每个人都在谈论中国追赶美国 却很少有人谈论美国追赶中国 干得好 @o_lacombe 等人,@robert_mchardy 等人!

Latent.Space: [AINews 3 Apr 2026] Gemma 4: The world's best small Multimodal Open Models, dramatically better than Gemma 3 in every wa...

Google多模态大佬观点开源生态
01:29
小互@xiaohu
21
Strudel+Gemini 生成电子音乐 有点酷… 视频来自抖音:@六月的小号
Google其他多模态
5月26日
23:29
SenseTime@SenseTime_AI
同事件精选77
开源多模态模型SenseNova-U1完整训练代码库

商汤开源了SenseNova-U1(8B dense + A3B MoE)的完整训练代码库。这是一个统一的框架,支持文本到图像、图像编辑、交错生成、文本与视觉理解等多种多模态任务的训练。其设计注重实用性与大规模训练,采用混合并行、流式可恢复数据管道、环境变量配置、解耦模块化设计,并支持从1×8 GPU扩展到多节点集群的规模。代码库以Apache-2.0协议开源。

多模态开源/仓库开源生态数据/训练
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
推荐理由:商汤把 SenseNova-U1 的训练代码全量开源,支持多模态任务和 MoE,还给了完整的并行策略,做多模态训练的可以直接 fork 过去用,Apache-2.0 很友好。
22:58
SenseTime@SenseTime_AI
70
SenseNova-U1全训练代码开源,支持多模态多任务训练

OpenSenseNova开源了SenseNova-U1的完整训练代码库,支持其8B密集模型与A3B MoE架构。该代码库使用一个统一的框架,可同时训练多种多模态任务,包括文本到图像生成、图像编辑、交错生成及文本与视觉理解。工程上为大规模训练设计,支持混合并行、流式可恢复数据管线、环境变量驱动配置以及从1×8 GPUs到多节点集群的扩展能力。代码已在GitHub开源,采用Apache-2.0协议。

图像生成多模态开源/仓库开源生态
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)
22:58
Elon Musk@elonmusk
63
xAI 的开发工具 Grok Build 现在支持直接粘贴截图来辅助开发。用户可通过快捷键截屏后,将图像粘贴至 Grok Build 界面,随后要求其基于图像进行灵感启发、讲解、调试或代码复现。该功能利用了 Grok 多模态模型强大的视觉能力,能够理解截图、UI 和视觉上下文,使得通过视觉化方式沟通和迭代开发想法变得比手动输入细节更直观、自然。

X Freeze: Just press Cmd + Shift + Ctrl + 3, then Cmd + V paste the screenshot directly into Grok Build and ask it to inspire, gui...

xAI多模态教程/实践
22:30
Baidu Inc.@Baidu_Inc
30
@BoatbomberRBLX 将世界上最古老的文字系统之一--古代楔形文字泥板--带入了ERNIE AI开发者挑战赛。 他使用PaddleOCR构建了NabuOCR,以帮助从泥板图像中读取楔形文字。 了解这个获奖项目背后的故事👇
多模态教程/实践
15:00
Rohan Paul@rohanpaul_ai
59
灵巧机械手的一个工程挑战在于平衡强度与速度。 这里 SharpaWave 正以超过每秒 4 次的频率进行快速手部循环。动态触觉阵列采用视觉-触觉传感:指尖集成了摄像头和 1000 多个触觉像素。
具身智能多模态论文/研究
14:28
向阳乔木@vista8
70
网易有道子曰4全模态模型开源,27B参数,TTS支持3秒声音克隆

网易有道发布子曰4,一个27B参数的全模态大语言模型,在视觉数理方向达到同规模SOTA,纯文本数理难题准确率为81.4%。该模型在27B“甜点级”参数规模下,实现了多模态与纯文本数理推理的双重优势。同时,子曰4全模态模型和TTS引擎已同步开源,开放参数权重,支持本地部署与二次训练。其TTS模型只需3秒即可克隆原声,支持14种语言,克隆准确度超97%,音色还原度达95%以上。

多模态开源生态模型发布语音
09:22
Elon Musk@elonmusk
同事件精选67
xAI发布了面向非技术背景的SuperGrok和X Premium+用户的Grok Build入门视频教程。教程提供了分步指南,核心内容包括:通过一条命令快速安装Grok Build;利用其创建真实的网站;使用内置的Grok Imagine工具自动生成图像与视频;以及在不同文件夹中同时运行多个项目。整个过程无需任何编程经验,并且Grok可以协助执行命令。

Dan: Beginner video: How to install & use Grok Build (made for non-technical SuperGrok and X Premium+ users) I got so many qu...

xAI多模态教程/实践
同一事件,精选展示《Grok Build 0.1 on API》
推荐理由:Elon 亲自转发的教程把 Grok Build 门槛压到了零编码,直接面向普通用户,是目前最友好的官方入门信号。
‹ 上一页
1…910111213…23
下一页 ›