AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 906 条
全部一手资讯X论文
标签「多模态」清除
小互@xiaohu · 6月13日72

卧槽 Telegram 发布重大更新 - 现在机器人能发富文本了 - 还能让AI帮你管理群聊 - Telegram 终于上手表了 这不得够微信学习十来年?? 以前 bot 回消息只能纯文本,现在AI Bot支持: ・表格、清单、嵌套引用块 ・行内插图、图片轮播、拼图 ・可折叠段落、脚注、标题锚点 ・数学公式、上下标 单条最多塞 32768 个字符,超过 8000 字会自动折叠成一个"显示更多"按钮 适合 AI bot 输出长答案、做内容卡片的场景

译Telegram 发布重大更新,机器人现支持富文本消息,包括表格、清单、嵌套引用块、行内插图、图片轮播、可折叠段落、脚注、标题锚点、数学公式、上下标。单条消息最多可包含 32768 个字符,超过 8000 字时自动折叠为“显示更多”按钮。更新还引入 AI 协助管理群聊功能,适合 AI 机器人输出长答案和内容卡片场景。

MiniMax (official)@MiniMax_AI · 6月13日82

day-0 in @vllm_project and it comes with: dedicated MSA prefill/decode kernels, 1M-context serving with prefix caching + chunked prefill, BF16 + MXFP8 on both Hopper and Blackwell 🚀 this is what open-weight done properly looks like. thanks @vllm_project, @NVIDIAAI, @AIatAMD, @inferact

译MiniMax M3 发布,具备前沿编码与智能体能力,原生图像视频输入和计算机使用,1M-token 上下文。核心采用 MSA 稀疏注意力:每个 query 评分 128-token KV 块,仅对 top 块做注意力。vLLM 当日即支持 M3,包括专用 MSA prefill/decode 核、前缀缓存与分块 prefill、BF16 和 MXFP8 检查点、Hopper 与 Blackwell 的 MoE 后端,并在 NVIDIA 与 AMD 硬件上验证。同时支持原生多模态输入、工具调用、推理解析和思考模式控制等智能体工作负载。

MiniMax (official)@MiniMax_AI · 6月13日73

With only ~428B params, and ~23B activated params M3 still handles frontier coding + long-horizon agents + native multimodal (text, image, video) at 1M-token context few open-weight models do any of this. M3 does all of it. Thanks @baseten 🚀

译MiniMax 开源 M3 模型,约 428B 总参数、23B 激活参数,支持前沿编码、长周期智能体任务及原生多模态(文本、图像、视频),上下文窗口达 1M token。开放权重,可在 Baseten 部署。在少于 500B 参数的模型中,能同时兼顾编码、智能体工作负载和 1M 上下文的模型极少,M3 全部实现。

MiniMax (official)@MiniMax_AI · 6月13日56

means a lot coming from @NVIDIAAI free GPU-accelerated M3 endpoint are live now go try it 👇

译来自@NVIDIAAI的认可意义重大 免费GPU加速的M3端点现已上线 快来试试👇

fofr@fofrAI · 6月13日46

Fine-grained 3D motion control in AI video just got a little bit closer

译@andrew_n_carr 宣布“编辑视频运动!放弃提示开始导演”,并展示其“通用视频编辑器”工作流:先用 comic 4 捕捉视频,再用运动编辑器修改动作,最后用视频到视频模型(如 Runway、Gemini)重新渲染。他以时装片段为例,希望模特展现高抬腿活力,无需重拍。主推文 fofr 表示,AI视频中精细的3D运动控制已更近一步。

MiniMax (official)@MiniMax_AI · 6月13日64

day-0 and already on @FireworksAI_HQ with blazing fast inference long-horizon agents, full-repo understanding, multimodal coding all in one model Try M3 today on Fireworks AI

译MiniMax M3 已在 Fireworks AI 上线,Day-0 即获最快推理端点。模型为开源权重,在 Artificial Analysis 指数排名第一。支持 512K 上下文窗口、原生图像及视频输入;采用 MSA 稀疏注意力机制,实现 9 倍更快的 prefill 与 15 倍更快的 decode。定价与 M2.7 持平。M3 将长周期智能体、全仓库理解与多模态编程集成于单一模型。

MiniMax (official)@MiniMax_AI · 6月13日70

M3 open weight just dropped and it's live on @Modular cloud on day zero with up to a 1M-context and MSA architecture kernel-to-cloud optimization is exactly what M3 needs glad to have @Modular with us from the start

译MiniMax 发布 M3 模型开源权重,并宣布与 Modular 合作,在 Modular Cloud 上当天上线。M3 支持最高 1M-token 上下文长度,接受文本、图像、视频多模态输入,采用 MSA(Multi-Stream Attention)架构,专为长时间运行的智能体(Agent)与编码(Coding)工作负载优化。

🚨 AI News | TestingCatalog@testingcatalog · 6月13日51

NVIDIA ❤️ MiniMax MiniMax M3 weights are now available on @huggingface, and NVIDIA now offers a Free Endpoint on its platform for testing. Testing time 👀

译NVIDIA ❤️ MiniMax MiniMax M3 权重现已在 @huggingface 上发布,NVIDIA 在其平台上提供免费端点用于测试。 测试时间到 👀

Deedy@deedydas · 6月12日72

Claude 5 Fable (Ultracode) "Make a playable alpine glacial valley at sunrise" No meshes or models. Everything you see is math. Fable screenshotted its own work and iterated. Took ~30 mins, ~500k tokens, ~2500 lines of code, and ~$25. Extremely impressive.

译Claude 5 Fable (Ultracode) "在日出时制作一个可玩的高山冰川山谷" 没有网格或模型。你所看到的一切都是数学。Fable 截取了自己作品的屏幕截图并进行了迭代。 耗时约 30 分钟,约 500k tokens,约 2500 行代码,约 25 美元。极其令人印象深刻。

SenseTime@SenseTime_AI · 6月12日61

🚀 Introducing SenseNova-U1-8B-MoT-Interleaved—our newly optimized model purpose-built for interleaved text-and-image generation! Key upgrades where it matters most: ✨ 𝗡𝗮𝗿𝗿𝗮𝘁𝗶𝘃𝗲 𝗰𝗼𝗻𝘁𝗶𝗻𝘂𝗶𝘁𝘆 strengthened — coherent storytelling sustained across multiple pages 👥 𝗖𝗵𝗮𝗿𝗮𝗰𝘁𝗲𝗿 𝗰𝗼𝗻𝘀𝗶𝘀𝘁𝗲𝗻𝗰𝘆 improved — character identities and art style remain stable throughout 📝 𝗩𝗶𝘀𝘂𝗮𝗹 𝗾𝘂𝗮𝗹𝗶𝘁𝘆 elevated — cleaner text rendering and more reliable layouts with fewer artifacts Try it now 👇 https://huggingface.co/sensenova/SenseNova-U1-8B-MoT-Interleaved Showcases: https://github.com/OpenSenseNova/SenseNova-U1 Discord: https://discord.com/invite/BuTXPHmQub @huggingface @github

译商汤推出SenseNova-U1-8B-MoT-Interleaved模型,专门用于交错文本与图像生成。核心升级包括:叙事连续性增强,支持多页连贯故事;角色一致性改进,人物身份与艺术风格保持稳定;视觉质量提升,文字渲染更清晰、布局更可靠、伪影减少。模型已在HuggingFace开放体验。

MiniMax (official)@MiniMax_AI · 6月12日81

MiniMax M3, Open-Weight, Now On Hugging Face , with only ~428B parameters and ~23B activated parameters Weights: https://huggingface.co/MiniMaxAI/MiniMax-M3 MiniMax Sparse Attention: https://huggingface.co/papers/2606.13392

译MiniMax 发布开源权重模型 M3,约 428B 总参数、23B 激活参数,已上传 HuggingFace。该模型融合三种前沿能力:编码与智能体方面达 59.0% SWE-Bench Pro、66.0% Terminal Bench 2.1、34.8% SWE-fficiency、28.8% KernelBench Hard、74.2% MCP Atlas;采用 MiniMax 稀疏注意力将上下文窗口扩展至 1M token;原生多模态。同步上线 MiniMax Code 工具及 API 平台。权重与技术报告预计约 10 天后发布。

Ethan Mollick@emollick · 6月12日31

Not having access to native imagegen does hold Fable back somewhat. It is really good at making PNGs, etc, but there are lots of areas (including commercially valuable ones like presentations) where having the ability to have multimodal output would be helpful/token efficient.

译无法使用原生图像生成确实在一定程度上限制了Fable。它非常擅长制作PNG等,但在很多领域(包括具有商业价值的领域,如演示文稿)中,拥有多模态输出能力将是有帮助的/节省token的。

Alibaba Cloud@alibaba_cloud · 6月12日31

AI as both the destroyer and the continuation of human creativity. 👁️Featured showcase: A stunning music video by @duan_wenkai @Lilychou @musicure @yangcao_ @C_voiceStudio @MeiQingDing , winner of the Outstanding AI-Themed Short Film award at the 16th BJIFF [WanMuse+] Theme Competition. 🔗: https://int.alibabacloud.com/m/1000413253/ Looking back at art history from the future, it explores a museum defined by power—where AI devours the past to birth its own existence. LINYE enters as both the intruder and the newest exhibit.

译阿里云宣传一部由多位创作者联合制作的AI音乐视频,该片荣获第16届北京国际电影节(BJIFF)[WanMuse+]主题竞赛“优秀AI主题短片”奖。视频从未来视角审视艺术史,描绘一个由权力定义的博物馆——AI吞噬过去以创造自身存在。主角LINYE既是闯入者,也是最新展品,探讨AI作为人类创造力的毁灭与延续。

Alibaba Cloud@alibaba_cloud · 6月12日26

Thailand | Where Ancient Spirit Meets Digital Pulse, Reimagined by AI From the sacred curves of Naga serpents carved in stone to the thunderous rhythm of Muay Thai fists meeting sandbags—from the fragrant explosion of lemongrass and kaffir lime in a simmering tom yum to the golden glow of Ayutthaya’s ruins rising through morning mist—this video, created by Qwen and Wan, uses AI to weave Thailand’s soul into a digital tapestry. Ready to turn your vision into reality? Unleash the creative power of our models on Model Studio and start building tomorrow, today. 🔗 https://int.alibabacloud.com/m/1000414396/ #AlibabaCloud #Wan #Qwen #ModelStudio #Thailand #Bangkok #MuayThai #ThaiHeritage #CreativeAI #AInnovation #TechForGood

译阿里云发布由 Qwen 和 Wan 模型生成的泰国主题 AI 视频,融合娜迦蛇雕、泰拳、冬阴功、大城府朝雾等泰国文化元素。视频旨在展示模型创意能力,并推广 Model Studio 平台,鼓励用户利用该平台将创意转化为现实。推文未提供模型版本号、参数规模、benchmark分数等具体数字。

PixVerse@PixVerse_ · 6月12日72

PixVerse Canvas is live on Web — your AI video production workspace. Stop generating clips. Start producing videos you can actually ship. Plan, refine, and deliver in one place. RT+Follow+Reply=300Creds in DMs (72H ONLY)

译PixVerse Canvas 现已上线 Web——你的 AI 视频制作工作空间。 不再生成片段。 开始制作真正可以交付的视频。 规划、优化、交付,一站式完成。 转推+关注+回复=300积分私信发送(仅72小时)。

karminski-牙医@karminski3 · 6月12日62

另外忘了说了,这个模型支持多模态输入!文本,图片,视频都可以,是真的夯

译Google 发布 Diffusion Gemma,模型大小 26B,激活参数量 4B。与 NVIDIA 合作优化 RTX 4090/5090,5090 每秒可生成 700+ token。支持文本、图片、视频多模态输入。AIME 2026 数学测试达 Gemma4-26B-A4B 的 94%,tau2 bench Agent 测试达 82%。输出质量略逊于传统大模型但速度更快。4bit 量化版本仅需 16GB 显存即可运行。

🚨 AI News | TestingCatalog@testingcatalog · 6月12日58

GOOGLE 🔥: Gemini Omni Flash will soon be available via APIs for image-to-video, text-to-video, and video editing! Did it get updated again after the release? 👀

译GOOGLE 🔥:Gemini Omni Flash 即将通过 API 提供图像转视频、文本转视频和视频编辑功能! 发布后又更新了吗?👀

AYi@AYi_AInotes · 6月12日70

一群 AI 研究员把量化金融的知识处理框架开源了,叫 QuantMind(MIT 协议)。 它不是 Bloomberg Terminal 的替代品,但确实在干一件类似的事:把 arXiv 量化论文、SEC filings、研报、博客等非结构化内容,批量解析成可查询的语义知识图谱。 核心优势在于两阶段架构:先把文献一次性提取并结构化(支持表格、公式、图表的多模态解析), 之后你用自然语言提问就能进行多跳推理和交叉验证,提取的知识会长期留存,后续查询成本很低。 它真正能替代的其实是对冲基金花六位数薪水让初级分析师干的「大量读论文、整理观点、做文献综述」这类工作。 以前的信息差很大一部分来自「我还没来得及读那篇关键论文」,但是现在这个借口正在快速失效, 但咱们也别误会,真正的 alpha 依然来自你问的问题、验证的严谨程度,以及把洞见转化为行动的能力, 工具只是把「读文献」这个基础环节的成本大幅降低了。

译一群AI研究员开源了量化金融知识处理框架QuantMind(MIT协议)。它能将arXiv论文、SEC文件、研报等非结构化内容批量解析为可查询的语义知识图谱,支持多模态解析(表格、公式、图表)及自然语言多跳推理,可替代初级分析师读论文、整理观点等工作。但真正的alpha仍取决于提问质量与验证严谨度。

Logan Kilpatrick@OfficialLoganK · 6月12日81

Gemini Omni Flash is SOTA at image to video, text to video, and video editing : ) Excited to get this to developers in the API soon!

译Gemini Omni Flash 在图像到视频、文本到视频和视频编辑方面达到了 SATA : ) 很高兴很快能将这一能力通过 API 提供给开发者!

Google DeepMind@GoogleDeepMind · 6月11日60

We’re teaming up @Palmeiras, the first football club to meaningfully build upon TacticAI: our AI system that can help simulate field scenarios and predict open play dynamics up to 8 seconds in advance. ⚽

译我们正与@Palmeiras合作,他们是第一家有意义地基于TacticAI构建的足球俱乐部:我们的AI系统可以模拟场上情景并提前最多8秒预测开放比赛动态。⚽

StepFun@StepFun_ai · 6月11日52

Great to see Step 3.7 Flash available on @ZenMuxAI! Fast, multimodal, and built for real-world workflows — now free to try on ZenMux for 1 month. Excited to make StepFun models more accessible to builders.

译阶跃星辰旗下多模态模型 Step 3.7 Flash 现已登陆 AI 平台 ZenMux,提供一个月免费试用。该模型专为快速迭代、编码、文档分析和多语言任务打造,面向开发者开放体验。

宝玉@dotey · 6月11日77

baoyu-design skill (让你本地运行 Claude Design 的 Skill)更新,现在支持导入 figma 本地文件(Figma可以保存成 xxx.fig 文件)。比如你有一个设计系统的 Figma 文件,可以根据 Figma 在本地重建一个设计系统,和 Claude Design 在线版一样的效果。 这个功能还挺复杂的,如果没有 Claude Fable 5 帮忙搞不定,就是 Token 不够用 😭 用法很简单,安装 Skill 后,把 Figma 路径发给它,让导入为 Design System,后续新建设计项目都可以用,也可以直接加到项目中。 Skill 地址:https://github.com/jimliu/baoyu-design

译baoyu-design skill 更新,现已支持导入 Figma 本地文件(.fig),可在本地重建设计系统,效果与 Claude Design 在线版一致。该功能依赖 Claude Fable 5 辅助(Token 不够用)。安装后提供 Figma 文件路径即可导入为 Design System,后续新建设计项目可复用。同时支持在新建项目时添加已导入的 Design System,保留了 Claude Design 原始的导入和编译方式,用户可通过提问选择设计系统。安装命令:`npx skills add JimLiu/baoyu-design`。项目地址:https://github.com/jimliu/baoyu-design。

Alibaba Cloud@alibaba_cloud · 6月11日26

Mexico | The Rhythm of Creation and Wisdom, Reimagined by AI From the cradle of ancestral wisdom and the time-honored mastery drawn from the earth’s bounty, to the vibrant rhythms of mariachi and the intricate woven patterns of Zapotec art—this video, created by Qwen and Wan, uses AI to reimagine time and culture. We journey from ancient sanctuaries to modern hubs of innovation, illustrating how AI bridges the wisdom of the past with the possibilities of the future, charting infinite new paths. Ready to bring your own ideas to life? Explore the power of our models on Model Studio and start creating today. 🔗 https://int.alibabacloud.com/m/1000414330/ #AlibabaCloud #Wan #Qwen #ModelStudio #Mexico #CreativeAI #AInnovation

译阿里云发布一段由Qwen和Wan模型生成的AI视频,以墨西哥文化为主题,融合祖先智慧、传统工艺、Mariachi音乐和Zapotec编织艺术,从古老圣地到现代创新枢纽,展现AI如何连接过去与未来。视频旨在展示模型的创意能力,并引导用户通过Model Studio平台使用相关模型进行创作。

Elon Musk@elonmusk · 6月11日32

Video made with Grok Imagine

译《巴比伦蜜蜂》用AI模拟了AOC被迫学习经济学的情景,该视频由Grok制作。

Orange AI@oran_ge · 6月11日72

非常厉害,但感觉很贵的样子

译Google 推出 Gemini 3.5 Live Translate,支持 70 多种语言边听边译,保留说话人语调、节奏和音高,延迟仅几秒,自动降噪。Google Translate App 新增听筒模式,开发者可通过 API 调用,支持自动语言检测。

Chubby♨️@kimmonismus · 6月11日67

The Elder Scrolls 5 Fablewind (v2). Working inventory + items, working quests, level-system, mana/stamina/health working, buy/sell and a bit updated graphics. Lets see how good this geeds

译The Elder Scrolls 5 Fablewind (v2)。工作库存+物品,工作任务,等级系统,法力/耐力/生命值工作,买卖和一点更新的图形。 让我们看看这个有多好

AYi@AYi_AInotes · 6月11日43

Damn,AGI到来之后,品味和审美一定是一个人最核心的竞争力和最强的护城河, Claude Fable 5遇到审美和品味高的,输出质量高到爆炸,这效果真的绝了😭

译天哪,AGI到来之后,品味和审美一定是一个人最核心的竞争力和最强的护城河, Claude Fable 5遇到审美和品味高的,输出质量高到爆炸,这效果真的绝了😭

AK@_akhaliq · 6月11日46

ABot-Earth 0.5 Generative 3D Earth Model

译ABot-Earth 0.5 生成式3D地球模型

SiliconFlow@SiliconFlowAI · 6月10日58

If you need one model for agents, long context, and multimodal inputs — this is it. Meet @GoogleDeepMind 's Gemma 4 12B on SiliconFlow 🔥 💰Input / Output: $0.1 / $0.3 per 1M tokens on SiliconFlow 🛠️ 262K Context | Built-in Thinking | Native Tool Calling | 140+ Languages ✨ Encoder-free architecture: vision and audio inputs flow directly into the LLM backbone, reducing process latency 🧠 12B Size, 26B Brain: nearing Google's 26B performance, excel at multi-step reasoning and agentic workflows Try it on SiliconFlow ⬇️

译Google DeepMind 的 Gemma 4 12B 已在硅基流动上线,定价输入 $0.1/1M tokens,输出 $0.3/1M tokens。支持 262K 上下文、内置思考、原生工具调用及 140+ 种语言。采用无编码器架构,视觉和音频输入直接注入 LLM 主干,降低处理延迟。12B 参数但配备 26B “大脑”,性能接近 Google 26B 级别,擅长多步推理与智能体工作流。

OpenAI Developers@OpenAIDevs · 6月10日40

For musician and composer @sound4movement, Codex works like a studio assistant. He asks for a piano track in 3/4, sets the tempo and harmony, then describes how the performance should build. Codex handles the setup in Ableton Live. Michael stays focused on the creative work.

译对于音乐人和作曲家 @sound4movement,Codex 就像一个工作室助手。他要求一个 3/4 拍的钢琴轨道,设置速度和和声,然后描述表演应该如何构建。Codex 在 Ableton Live 中处理设置。Michael 则专注于创作工作。

Chubby♨️@kimmonismus · 6月10日41

Holy Sh*t. This is insane. @ChrissGPT made a real Pokemon Clone with Claude Fable 5

译我靠,这太疯狂了。@ChrissGPT 用 Claude Fable 5 制作了一个真实的宝可梦克隆。

Chubby♨️@kimmonismus · 6月10日56

So we can expect The Elder Scrolls VI to be fully prompt-generated, right? Matt Shumer made this with Fable 5 in three.js. Insane.

译所以我们可以期待《上古卷轴VI》完全由提示词生成,对吧? Matt Shumer 用 three.js 制作了 Fable 5。 太疯狂了。

Chubby♨️@kimmonismus · 6月10日53

1/ While I'm currently running my tests (it's morning in Germany right now :), here are some examples of how good Fable 5 is 🧵:

译Matt Shumer 用 Fable 5 在 three.js 中制作了这个,让人不禁期待《上古卷轴6》完全由提示词生成。太疯狂了。

Deedy@deedydas · 6月10日66

Claude Fable’s ability to create rich docs, slides, sheets, websites in specific styles pixel perfectly is the biggest step change in AI model quality since o3. Here’s another compilation of 8 amazing things it can do, many of which took >2hrs of thinking! – Perfectly designed McKinsey style report – Near identical SpaceX S-1 IPO draft – Pixel-perfect recreation of Pokemon, the game – 3D design of a controllable humanoid robot – Apple Liquid Glass UI with just CSS – 3D world rendering of Yosemite (!!) – Upgraded website design – Rich, beautiful email marketing templates

译Claude Fable 在创建文档、幻灯片、表格、网站等方面实现了像素级精准,被认为是自 o3 以来 AI 模型质量的最大飞跃。其能力包括:完美复现 McKinsey 风格报告、近乎一致的 SpaceX S-1 IPO 草案、像素级还原宝可梦游戏、可控人形机器人 3D 设计、仅用 CSS 实现 Apple Liquid Glass UI、优胜美地 3D 世界渲染、网站设计升级以及精美的邮件营销模板。其中许多任务需要超过 2 小时的深度思考。

Huawei Cloud@HuaweiCloud1 · 6月10日45

You can't democratize AI healthcare without continuous innovation. At Huawei Cloud INSPIRE 2026, Peter Zhou, Director of the Board at Huawei and CEO of Huawei Cloud, shared how the Smart Healthcare Zone is bringing AI diagnosis from city to county — for every doctor and patient. Learn more: https://tinyurl.com/ycx669xp #INSPIRE2026 #HuaweiCloud #SmartHealthcare

译没有持续的创新,就无法实现 AI 医疗的民主化。在华为云 INSPIRE 2026 上,华为董事、华为云 CEO 张平安(Peter Zhou)分享了智能医疗专区如何将 AI 诊断从城市带到县乡——惠及每一位医生和患者。 了解更多:https://tinyurl.com/ycx669xp #INSPIRE2026 #HuaweiCloud #SmartHealthcare

宝玉@dotey · 6月10日60

大量测试 Claude Design 后我的一个结论: UI/UX 设计方面 Claude 4.8 就够好了,Fable 5 没有体现出更好的 UI/UX 设计能力,甚至还不如 Claude 4.8 的设计效果。

译Anthropic同日发布Fable 5与Mythos 5,同底座但Fable 5加安全分类器(检测攻击/生化/蒸馏时降级至Opus 4.8,95%对话不触发),Mythos 5仅限Project Glasswing合作伙伴。API定价输入$10/百万token、输出$50,较Mythos Preview降60%,比Opus 4.8贵一倍。实际能力:Stripe用Fable 5一天完成5000万行Ruby全库迁移;视觉接口通关宝可梦火红版;Mythos 5使蛋白质设计加速约10倍,基因组学模型超Science但体量仅1%。订阅用户即日起至6月22日免费,后续需额外购买credits。政策变化:所有Mythos级流量强制保留30天用于安全监控。博主@dotey大量测试后认为,Claude 4.8在UI/UX设计上已足够好,Fable 5未体现更强能力甚至更差。

PixVerse@PixVerse_ · 6月10日38

A clever role-reversal short that highlights the creative power of AI video. Humorous, visually sharp, and perfectly executed. Great work @ai_am_furufuru !

译一则巧妙的角色反转短片,凸显了AI视频的创意力量。幽默、视觉锐利、执行完美。干得漂亮 @ai_am_furufuru !

Rohan Paul@rohanpaul_ai · 6月10日47

Those eyes moved so naturally AheadForm’s Bionic face, pushing against the uncanny valley. Imagine this face on XPeng’s fashion-model-like smooth walker. That would go so hard.

译那些眼睛动得如此自然 AheadForm的仿生面部,正在突破恐怖谷。 想象这张脸出现在小鹏那模特般流畅的步行机器人上。那将非常震撼。

Berryxia.AI@berryxia · 6月10日35

这么看Fable5 的效果有点明显啊,交互细节和动效都很到位。

xAI@xai · 6月10日59

Learn more about our work with @gopuff to build a personalized shopping assistant with chat, voice, and image models https://x.ai/news/grok-gopuff

译了解更多关于我们与 @gopuff 合作,利用聊天、语音和图像模型构建个性化购物助手的信息

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月13日
10:26
小互@xiaohu
72
Telegram重大更新:机器人支持富文本与AI群管理

Telegram 发布重大更新,机器人现支持富文本消息,包括表格、清单、嵌套引用块、行内插图、图片轮播、可折叠段落、脚注、标题锚点、数学公式、上下标。单条消息最多可包含 32768 个字符,超过 8000 字时自动折叠为“显示更多”按钮。更新还引入 AI 协助管理群聊功能,适合 AI 机器人输出长答案和内容卡片场景。

智能体产品更新多模态
05:43
MiniMax (official)@MiniMax_AI
同事件精选82
MiniMax M3 发布,具备前沿编码与智能体能力,原生图像视频输入和计算机使用,1M-token 上下文。核心采用 MSA 稀疏注意力:每个 query 评分 128-token KV 块,仅对 top 块做注意力。vLLM 当日即支持 M3,包括专用 MSA prefill/decode 核、前缀缓存与分块 prefill、BF16 和 MXFP8 检查点、Hopper 与 Blackwell 的 MoE 后端,并在 NVIDIA 与 AMD 硬件上验证。同时支持原生多模态输入、工具调用、推理解析和思考模式控制等智能体工作负载。

vLLM: 🎉 Congrats to @MiniMax_AI on releasing MiniMax M3! Frontier coding and agentic capabilities, native image and video inp...

多模态开源生态推理模型发布
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
推荐理由:M3把1M上下文从‘理论上能做’变成了‘今天就能部署’,MSA稀疏注意力是关键,开源社区和推理框架的深度合作值得关注。
05:13
MiniMax (official)@MiniMax_AI
73
MiniMax 开源 M3 模型,约 428B 总参数、23B 激活参数,支持前沿编码、长周期智能体任务及原生多模态(文本、图像、视频),上下文窗口达 1M token。开放权重,可在 Baseten 部署。在少于 500B 参数的模型中,能同时兼顾编码、智能体工作负载和 1M 上下文的模型极少,M3 全部实现。

Baseten: Congrats to the MiniMax team on the open-source launch of M3! There are very few <500bn parameter models that can tackle...

多模态模型发布编码
03:43
MiniMax (official)@MiniMax_AI
56
来自@NVIDIAAI的认可意义重大 免费GPU加速的M3端点现已上线 快来试试👇

NVIDIA AI: Congrats to the @MiniMax_AI team on the release of MiniMax M3, a long-context multimodal model for text, image, and vide...

多模态模型发布视频
03:16
fofr@fofrAI
46
@andrew_n_carr 宣布"编辑视频运动!放弃提示开始导演",并展示其"通用视频编辑器"工作流:先用 comic 4 捕捉视频,再用运动编辑器修改动作,最后用视频到视频模型(如 Runway、Gemini)重新渲染。他以时装片段为例,希望模特展现高抬腿活力,无需重拍。主推文 fofr 表示,AI视频中精细的3D运动控制已更近一步。

Andrew Carr 🤸: EDIT MOTION IN VIDEOS!!! Quit prompting and start directing I've been shouting for YEARS about 3D as the control layer. ...

多模态教程/实践视频
03:13
MiniMax (official)@MiniMax_AI
64
MiniMax M3 已在 Fireworks AI 上线,Day-0 即获最快推理端点。模型为开源权重,在 Artificial Analysis 指数排名第一。支持 512K 上下文窗口、原生图像及视频输入;采用 MSA 稀疏注意力机制,实现 9 倍更快的 prefill 与 15 倍更快的 decode。定价与 M2.7 持平。M3 将长周期智能体、全仓库理解与多模态编程集成于单一模型。

Fireworks AI: MiniMax M3 is live on Fireworks. Day-0, fastest endpoint for the MiniMax series. → Top open-weight model on the Artifici...

智能体多模态推理模型发布
00:43
MiniMax (official)@MiniMax_AI
70
MiniMax 发布 M3 模型开源权重,并宣布与 Modular 合作,在 Modular Cloud 上当天上线。M3 支持最高 1M-token 上下文长度,接受文本、图像、视频多模态输入,采用 MSA(Multi-Stream Attention)架构,专为长时间运行的智能体(Agent)与编码(Coding)工作负载优化。

Modular: M3 open weights from @MiniMax_AI just dropped, and Modular is a Day Zero launch partner. 1M-token context. Text, image, ...

智能体多模态开源/仓库模型发布
00:42
🚨 AI News | TestingCatalog@testingcatalog
51
NVIDIA ❤️ MiniMax MiniMax M3 权重现已在 @huggingface 上发布,NVIDIA 在其平台上提供免费端点用于测试。 测试时间到 👀

NVIDIA AI: Congrats to the @MiniMax_AI team on the release of MiniMax M3, a long-context multimodal model for text, image, and vide...

Hugging Face多模态开源/仓库模型发布
6月12日
23:32
Deedy@deedydas
72
Claude 5 Fable (Ultracode) "在日出时制作一个可玩的高山冰川山谷" 没有网格或模型。你所看到的一切都是数学。Fable 截取了自己作品的屏幕截图并进行了迭代。 耗时约 30 分钟,约 500k tokens,约 2500 行代码,约 25 美元。极其令人印象深刻。
Anthropic多模态模型发布编码
22:34
SenseTime@SenseTime_AI
61
商汤SenseNova-U1-8B-MoT-Interleaved发布

商汤推出SenseNova-U1-8B-MoT-Interleaved模型,专门用于交错文本与图像生成。核心升级包括:叙事连续性增强,支持多页连贯故事;角色一致性改进,人物身份与艺术风格保持稳定;视觉质量提升,文字渲染更清晰、布局更可靠、伪影减少。模型已在HuggingFace开放体验。

图像生成多模态开源/仓库模型发布
22:12
MiniMax (official)@MiniMax_AI
同事件精选81
MiniMax 发布开源权重模型 M3,约 428B 总参数、23B 激活参数,已上传 HuggingFace。该模型融合三种前沿能力:编码与智能体方面达 59.0% SWE-Bench Pro、66.0% Terminal Bench 2.1、34.8% SWE-fficiency、28.8% KernelBench Hard、74.2% MCP Atlas;采用 MiniMax 稀疏注意力将上下文窗口扩展至 1M token;原生多模态。同步上线 MiniMax Code 工具及 API 平台。权重与技术报告预计约 10 天后发布。

MiniMax (official): Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities - Coding & Agentic Frontier:...

Hugging Face多模态推理模型发布
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
推荐理由:开放权重模型首次把编码 Agent 和多模态拉满,SWE-bench Pro 59% 逼近专有前沿,附带稀疏注意力 1M 上下文。做代码工具和 Agent 的团队应该都盯上它了。
21:02
Ethan Mollick@emollick
31
无法使用原生图像生成确实在一定程度上限制了Fable。它非常擅长制作PNG等,但在很多领域(包括具有商业价值的领域,如演示文稿)中,拥有多模态输出能力将是有帮助的/节省token的。
图像生成多模态大佬观点
16:40
Alibaba Cloud@alibaba_cloud
31
阿里云展示AI短片获北影节奖项

阿里云宣传一部由多位创作者联合制作的AI音乐视频,该片荣获第16届北京国际电影节(BJIFF)[WanMuse+]主题竞赛“优秀AI主题短片”奖。视频从未来视角审视艺术史,描绘一个由权力定义的博物馆——AI吞噬过去以创造自身存在。主角LINYE既是闯入者,也是最新展品,探讨AI作为人类创造力的毁灭与延续。

其他多模态视频
15:08
Alibaba Cloud@alibaba_cloud
26
阿里云Qwen与Wan用AI创作泰国风情视频

阿里云发布由 Qwen 和 Wan 模型生成的泰国主题 AI 视频,融合娜迦蛇雕、泰拳、冬阴功、大城府朝雾等泰国文化元素。视频旨在展示模型创意能力,并推广 Model Studio 平台,鼓励用户利用该平台将创意转化为现实。推文未提供模型版本号、参数规模、benchmark分数等具体数字。

图像生成多模态行业动态
09:27
PixVerse@PixVerse_
72
PixVerse Canvas 现已上线 Web--你的 AI 视频制作工作空间。 不再生成片段。 开始制作真正可以交付的视频。 规划、优化、交付,一站式完成。 转推+关注+回复=300积分私信发送(仅72小时)。
产品更新多模态
08:06
karminski-牙医@karminski3
62
Google 发布 Diffusion Gemma,模型大小 26B,激活参数量 4B。与 NVIDIA 合作优化 RTX 4090/5090,5090 每秒可生成 700+ token。支持文本、图片、视频多模态输入。AIME 2026 数学测试达 Gemma4-26B-A4B 的 94%,tau2 bench Agent 测试达 82%。输出质量略逊于传统大模型但速度更快。4bit 量化版本仅需 16GB 显存即可运行。

karminski-牙医: 单卡 700TPS! Diffusion Gemma 来了! Google 刚刚发布了 Gemma 小模型的 Diffusion 版本! 大小26B, 激活参数量4B, 最重要的是, 这次还跟 NVIDIA 合作针对4090和5090优化了...

Google多模态推理模型发布
07:38
🚨 AI News | TestingCatalog@testingcatalog
58
GOOGLE 🔥:Gemini Omni Flash 即将通过 API 提供图像转视频、文本转视频和视频编辑功能! 发布后又更新了吗?👀

Logan Kilpatrick: Gemini Omni Flash is SOTA at image to video, text to video, and video editing : ) Excited to get this to developers in t...

Google产品更新多模态视频
01:37
AYi@AYi_AInotes
70
QuantMind:量化金融知识处理框架开源(MIT协议)

一群AI研究员开源了量化金融知识处理框架QuantMind(MIT协议)。它能将arXiv论文、SEC文件、研报等非结构化内容批量解析为可查询的语义知识图谱,支持多模态解析(表格、公式、图表)及自然语言多跳推理,可替代初级分析师读论文、整理观点等工作。但真正的alpha仍取决于提问质量与验证严谨度。

AYi: http://x.com/i/article/2064536412670562304

GitHub检索增强多模态开源/仓库
01:20
Logan Kilpatrick@OfficialLoganK
同事件精选81
Gemini Omni Flash 在图像到视频、文本到视频和视频编辑方面达到了 SATA : ) 很高兴很快能将这一能力通过 API 提供给开发者!
Google图像生成多模态模型发布
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:视频生成正式进入全模态一体时代,Gemini Omni Flash 把图生视频、文生视频和剪辑整合在一个模型里,API 很快上线,做视频工具的可以提前琢磨对手在哪了。
6月11日
23:44
Google DeepMind@GoogleDeepMind
60
我们正与@Palmeiras合作,他们是第一家有意义地基于TacticAI构建的足球俱乐部:我们的AI系统可以模拟场上情景并提前最多8秒预测开放比赛动态。⚽
Google多模态行业动态
20:59
StepFun@StepFun_ai
52
阶跃星辰旗下多模态模型 Step 3.7 Flash 现已登陆 AI 平台 ZenMux,提供一个月免费试用。该模型专为快速迭代、编码、文档分析和多语言任务打造,面向开发者开放体验。

ZenMux: Curious how StepFun 3.7 Flash stacks up against the models in your daily workflow? Now's a good time to find out 👀 We'r...

多模态行业动态
14:52
宝玉@dotey
同事件精选77
baoyu-design skill 更新:支持导入 Figma 本地文件重建设计系统

baoyu-design skill 更新,现已支持导入 Figma 本地文件(.fig),可在本地重建设计系统,效果与 Claude Design 在线版一致。该功能依赖 Claude Fable 5 辅助(Token 不够用)。安装后提供 Figma 文件路径即可导入为 Design System,后续新建设计项目可复用。同时支持在新建项目时添加已导入的 Design System,保留了 Claude Design 原始的导入和编译方式,用户可通过提问选择设计系统。安装命令:npx skills add JimLiu/baoyu-design。项目地址:https://github.com/jimliu/baoyu-design。

宝玉: baoyu-design skill 现在支持导入 Design System,以及在新建项目时添加导入的 Design System 比我想的要麻烦的多:https://github.com/JimLiu/baoyu-design/pul...

GitHub多模态开源/仓库
同一事件,精选展示《baoyu-design skill 支持导入 Design System 并在新建项目中使用》
推荐理由:宝玉把 baoyu-design 调教得越来越像 Claude Design 在线版,现在能直接吃 Figma 文件生成设计系统,前端和设计同学可以省掉大量重复劳动。
14:04
Alibaba Cloud@alibaba_cloud
26
阿里云Qwen和Wan生成墨西哥文化AI视频

阿里云发布一段由Qwen和Wan模型生成的AI视频,以墨西哥文化为主题,融合祖先智慧、传统工艺、Mariachi音乐和Zapotec编织艺术,从古老圣地到现代创新枢纽,展现AI如何连接过去与未来。视频旨在展示模型的创意能力,并引导用户通过Model Studio平台使用相关模型进行创作。

多模态行业动态视频
12:21
Elon Musk@elonmusk
32
《巴比伦蜜蜂》用AI模拟了AOC被迫学习经济学的情景,该视频由Grok制作。

The Babylon Bee: We Asked AI To Simulate What Would Happen If AOC Was Forced To Learn Economics Made with @grok.

xAI产品更新多模态视频
06:41
Orange AI@oran_ge
72
Google 推出 Gemini 3.5 Live Translate,支持 70 多种语言边听边译,保留说话人语调、节奏和音高,延迟仅几秒,自动降噪。Google Translate App 新增听筒模式,开发者可通过 API 调用,支持自动语言检测。

小互: 今天被很多人忽略的大新闻 Google 发布实时翻译模型 :Gemini 3.5 Live Translate - 能在70多种语言之间做到边听边译 - 同时保留说话人的语调、节奏和音高 - 不用等说完才翻,全程只比说话人慢几秒 - 自动滤...

Google产品更新多模态语音
01:14
Chubby♨️@kimmonismus
67
The Elder Scrolls 5 Fablewind (v2)。工作库存+物品,工作任务,等级系统,法力/耐力/生命值工作,买卖和一点更新的图形。 让我们看看这个有多好

Chubby♨️: More realistic example of a one shotted game. Asked Fable 5 to recreate a game in the style of The Elder Scrolls 5 Morro...

多模态教程/实践
00:34
AYi@AYi_AInotes
43
天哪,AGI到来之后,品味和审美一定是一个人最核心的竞争力和最强的护城河, Claude Fable 5遇到审美和品味高的,输出质量高到爆炸,这效果真的绝了😭

ハヤシモン|AI × 個人開発: Claude Fable 5でどこまで表現できるのか、あえて難しいお題を投げてみた。 インクが流体みたいに溶け合う演出。 これは厳しいかなと思って限界を見にいったんだけど、普通に形になってしまった。 デザイン表現力もかなりすごい。 実際にこ...

Anthropic图像生成多模态大佬观点
00:23
AK@_akhaliq
46
ABot-Earth 0.5 生成式3D地球模型
多模态模型发布
6月10日
23:47
SiliconFlow@SiliconFlowAI
58
Gemma 4 12B 登陆硅基流动

Google DeepMind 的 Gemma 4 12B 已在硅基流动上线,定价输入 $0.1/1M tokens,输出 $0.3/1M tokens。支持 262K 上下文、内置思考、原生工具调用及 140+ 种语言。采用无编码器架构,视觉和音频输入直接注入 LLM 主干,降低处理延迟。12B 参数但配备 26B “大脑”,性能接近 Google 26B 级别,擅长多步推理与智能体工作流。

智能体产品更新多模态
23:34
OpenAI Developers@OpenAIDevs
40
对于音乐人和作曲家 @sound4movement,Codex 就像一个工作室助手。他要求一个 3/4 拍的钢琴轨道,设置速度和和声,然后描述表演应该如何构建。Codex 在 Ableton Live 中处理设置。Michael 则专注于创作工作。
OpenAI多模态教程/实践
20:12
Chubby♨️@kimmonismus
41
我靠,这太疯狂了。@ChrissGPT 用 Claude Fable 5 制作了一个真实的宝可梦克隆。
Anthropic多模态现象/趋势
17:11
Chubby♨️@kimmonismus
56
所以我们可以期待《上古卷轴VI》完全由提示词生成,对吧? Matt Shumer 用 three.js 制作了 Fable 5。 太疯狂了。
多模态现象/趋势
17:11
Chubby♨️@kimmonismus
53
Matt Shumer 用 Fable 5 在 three.js 中制作了这个,让人不禁期待《上古卷轴6》完全由提示词生成。太疯狂了。

Chubby♨️: So we can expect The Elder Scrolls VI to be fully prompt-generated, right? Matt Shumer made this with Fable 5 in three.j...

多模态评测/基准
16:44
Deedy@deedydas
66
Claude Fable 实现像素级精准,是自 o3 以来 AI 模型质量最大飞跃

Claude Fable 在创建文档、幻灯片、表格、网站等方面实现了像素级精准,被认为是自 o3 以来 AI 模型质量的最大飞跃。其能力包括:完美复现 McKinsey 风格报告、近乎一致的 SpaceX S-1 IPO 草案、像素级还原宝可梦游戏、可控人形机器人 3D 设计、仅用 CSS 实现 Apple Liquid Glass UI、优胜美地 3D 世界渲染、网站设计升级以及精美的邮件营销模板。其中许多任务需要超过 2 小时的深度思考。

Anthropic图像生成多模态大佬观点
16:12
Huawei Cloud@HuaweiCloud1
45
没有持续的创新,就无法实现 AI 医疗的民主化。在华为云 INSPIRE 2026 上,华为董事、华为云 CEO 张平安(Peter Zhou)分享了智能医疗专区如何将 AI 诊断从城市带到县乡--惠及每一位医生和患者。 了解更多:https://tinyurl.com/ycx669xp #INSPIRE2026 #HuaweiCloud #SmartHealthcare
多模态行业动态
13:44
宝玉@dotey
60
博主测试:Claude 4.8 UI/UX设计已够好,Fable 5未见优势甚至更差

Anthropic同日发布Fable 5与Mythos 5,同底座但Fable 5加安全分类器(检测攻击/生化/蒸馏时降级至Opus 4.8,95%对话不触发),Mythos 5仅限Project Glasswing合作伙伴。API定价输入$10/百万token、输出$50,较Mythos Preview降60%,比Opus 4.8贵一倍。实际能力:Stripe用Fable 5一天完成5000万行Ruby全库迁移;视觉接口通关宝可梦火红版;Mythos 5使蛋白质设计加速约10倍,基因组学模型超Science但体量仅1%。订阅用户即日起至6月22日免费,后续需额外购买credits。政策变化:所有Mythos级流量强制保留30天用于安全监控。博主@dotey大量测试后认为,Claude 4.8在UI/UX设计上已足够好,Fable 5未体现更强能力甚至更差。

宝玉: Anthropic 今天同时发布了两个模型:Claude Fable 5 和 Claude Mythos 5。 两个模型用的是同一个底座,区别在于 Fable 5 加了一套安全分类器,面向所有用户开放;Mythos 5 去掉了部分安全限制,...

Anthropic产品更新多模态大佬观点
11:46
PixVerse@PixVerse_
38
一则巧妙的角色反转短片,凸显了AI视频的创意力量。幽默、视觉锐利、执行完美。干得漂亮 @ai_am_furufuru !

ふるふるの大冒険/Furufuru's Epic Adventure: 「The Fish Strikes Back/魚の逆襲」 #seedance #pixversecpp @PixVerse_

其他多模态视频
10:47
Rohan Paul@rohanpaul_ai
47
那些眼睛动得如此自然 AheadForm的仿生面部,正在突破恐怖谷。 想象这张脸出现在小鹏那模特般流畅的步行机器人上。那将非常震撼。
产品更新具身智能多模态
07:07
Berryxia.AI@berryxia
35
这么看Fable5 的效果有点明显啊,交互细节和动效都很到位。
产品更新多模态
03:42
xAI@xai
59
了解更多关于我们与 @gopuff 合作,利用聊天、语音和图像模型构建个性化购物助手的信息
xAI多模态行业动态语音
‹ 上一页
1…34567…23
下一页 ›