AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 906 条
全部一手资讯X论文
标签「多模态」清除
Nathan Lambert@natolambert · 6月7日67

Something to show people that don't get AI safety at least a little bit. We have so much we don't know and don't currently control in the models. (extreme content warning, but you're on X)

译AI研究员Nathan Lambert用一条推文展示AI安全风险:某用户向ChatGPT发送提示,要求其“修复一张附件照片”,但并未上传任何图片。模型在无真实输入的情况下自行“幻觉”出画面,生成的图片如失落的媒体恐怖片般诡异。Lambert指出,我们对模型内部运作知之甚少,也无法完全控制其行为,这一现象直观揭示了AI安全的重要性。

AYi@AYi_AInotes · 6月6日60

一定要给你的龙虾或者Hermes配上多模态大模型, 我今天实测下来,目前多模态大模型性价比最高的 就是Qwen3-VL / Qwen3.5 VL系列, 比Gemini 3.5 Flash 输出便宜 22 倍,读图能力一样在, 我自己用的是qwen/qwen3.5-flash($0.1/$0.4,多模态图+视频,1M 上下文),供大家参考。

译用户实测推荐,目前多模态大模型性价比最高的是Qwen3-VL / Qwen3.5 VL系列,其输出价格比Gemini 3.5 Flash便宜22倍,读图能力相当。作者使用的具体模型是qwen/qwen3.5-flash,价格为$0.1/$0.4,支持多模态图片+视频,上下文窗口达1M。

🚨 AI News | TestingCatalog@testingcatalog · 6月6日48

GOOGLE 🔥: NotebookLM will soon be able to generate files in many different formats from your sources, based on this teaser. There is a high chance that this release will be coupled with Gemini 3.5 Flash upgrade as well. A huge list of formats referenced in the code. ["pdf","txt","md","docx","csv","pptx","epub","3g2","3gp","aac","aif","aifc","aiff","amr","au","avi","cda","m4a","mid","mp3","mp4","mpeg","ogg","opus","ra","ram","snd","wav","wma","avif","bmp","gif","ico","jp2","png","webp","tif","tiff","heic","heif","jpeg","jpg","jpe"] https://x.com/NotebookLM/status/2063005289885155439/video/1

译Google 的 NotebookLM 即将支持从用户资料生成多种格式的文件,包括 pdf、txt、md、docx、csv、pptx、epub 以及大量音视频与图片格式(如 mp3、mp4、wav、jpg、png、heic 等)。此次更新很可能与 Gemini 3.5 Flash 模型升级一同发布。

Rohan Paul@rohanpaul_ai · 6月6日48

Today’s edition of my newsletter just went out. 🔗 https://www.rohan-paul.com/p/anthropic-just-disclosed-that-claude 🗞️ Anthropic says 80% of its new production code is now authored by Claude 🗞️ New Google paper shows general LLMs can solve formal math by planning proofs and checking each step. Raised general LLM performance from under 10% to 70% 🗞️ Google’s new open source Gemma 4 12B can analyze audio and video while running fully locally on a consumer 16GB GPU 🗞️ Alibaba’s Qwen3.7-Plus supports text, video, and image inputs at a low price of $0.4/$1.6 per 1M tokens, though it remains proprietary. 🗞️ Anthropic’s new chemistry report has a genuinely wild result.

译Anthropic 称其 80% 的新生产代码由 Claude 编写。Google 新论文显示,通用 LLM 通过规划证明与逐步验证,将形式数学求解性能从低于 10% 提升至 70%。Google 开源 Gemma 4 12B,可在消费级 16GB GPU 上本地运行,支持音频和视频分析。通义千问发布 Qwen3.7-Plus,支持文本、视频、图像输入,价格 $0.4/$1.6 每百万 token,闭源。Anthropic 新化学报告有惊人结果。

宝玉@dotey · 6月6日65

Cursor 也支持在浏览器端标记 UI 了,这样修改 UI 起来就方便多了

Michael Truell@mntruell · 6月6日80

Working with agents should feel like working with a colleague. You should be able “speak to” them not just with text chats, but by gesturing at a screen together, talking live, etc.

译与 AI 智能体协作应感觉像与同事协作一样。你应能“与它们交谈”——不仅通过文本聊天,还能一起对着屏幕做手势、实时对话等。

Google AI@GoogleAI · 6月6日78

Here’s this week’s shipping recap 👇 — Nano Banana 2 & Nano Banana Pro are now GA and available via the Gemini Enterprise Agent Platform, Gemini API, and in @GoogleAIStudio —Co-Scientist, our new multi-agent system for structured scientific thinking, generates and refines novel hypotheses to solve complex scientific problems — dreambeans from @GoogleLabs works overnight to curate a personalized daily collection of topics that are relevant to you based on your connected Google apps — @GoogleGemma 4 12B, our unified encoder-free model, brings powerful multimodal intelligence straight to your laptop fully offline — Gemma 4 models and their drafters are now optimized with Quantization-Aware Training (QAT) to cut memory requirements and maximize on-device performance — @GoogleMagenta RealTime 2 is our open-weights live music model that you can play like an instrument using a MIDI keyboard, text prompts, and gestures

译Google AI 本周发布多项更新:Nano Banana 2 及 Pro 正式 GA,可通过 Gemini Enterprise Agent Platform、Gemini API 和 Google AI Studio 获取;Co-Scientist 多智能体系统面向科研自动生成优化新假设;Google Labs 推出 dreambeans,根据用户 Google 应用数据每日生成个性化话题集;Gemma 4 12B 统一无编码器多模态模型可完全离线运行于笔记本;Gemma 4 系列及草稿模型引入 QAT 降低内存需求;Google Magenta RealTime 2 开源实时音乐模型,支持 MIDI 键盘、文本提示和手势演奏。

Google Gemini@GeminiApp · 6月6日81

You can now create and edit images directly in Gemini Live. Whether testing out room decor, getting help with math, or creating shareable memes, it all happens in real-time. Just open the Gemini app, tap the Live button, share your camera, and tell Gemini what you want to see.

译你现可直接在 Gemini Live 中创建和编辑图像。 无论是测试房间装饰、解决数学问题,还是制作可分享的梗图,所有操作都实时完成。 只需打开 Gemini 应用,点击 Live 按钮,共享摄像头,告诉 Gemini 你想看到的。

AI at Meta@AIatMeta · 6月5日64

Big congrats to our SAM 3D team for receiving a Best Paper Honorable Mention at #CVPR26! This prestigious recognition underscores their incredible work pushing the boundaries of computer vision. Read the paper here: https://arxiv.org/abs/2511.16624

译热烈祝贺我们的 SAM 3D 团队在 #CVPR26 获得最佳论文荣誉提名!这项殊荣凸显了他们在推动计算机视觉边界方面的杰出工作。 论文链接:https://arxiv.org/abs/2511.16624

OpenBMB@OpenBMB · 6月5日66

A developer in our community recently built AccountingLLM (http://quaesto.com/) using MiniCPM-V 4.6 to automate financial document analysis. You can upload IPO prospectuses, annual reports, or audit filings. It automatically: 📄 Extract financial tables from complex PDFs 🔗 Reconstruct tables split across pages 🔢 Check key figures against accounting equations ⚠️ Flag suspicious entries for human review The developer already turned this into a commercial service — it's not just a demo, it's an actual product people can use.👇

译社区开发者使用面壁智能MiniCPM-V 4.6构建了AccountingLLM(quaesto.com),用于自动化财务文档分析。该工具可上传IPO招股书、年报或审计文件,自动从复杂PDF中提取财务表格、重建跨页表格、对照会计等式检查关键数据,并标记可疑条目供人工审核。开发者已将其商业化,成为实际可用的产品。

Chubby♨️@kimmonismus · 6月5日56

1/ Most AI video tools still feel like demos. You type a prompt → you get a clip. But the real bottleneck was never generation. It was turning an idea into something usable. With LTX Studio + LTX-2.3, that gap is basically collapsing. The clips I just made felt… different. A thread: 🧵

译1/ 大多数AI视频工具仍像是演示。 你输入提示词 → 你就得到一个片段。 但真正的瓶颈从来不是生成。 而是将一个创意转化为可用的东西。 有了LTX Studio + LTX-2.3,这个差距基本上在消失。 我刚制作的片段感觉……与众不同。 一条线程:🧵

Alibaba Cloud@alibaba_cloud · 6月5日21

Vietnam | Tradition in Motion, Reimagined by AI From Hanoi's motorbike streams to Mekong floating markets, this video—created by Qwen and Wan—uses AI to celebrate Vietnam's living culture. Try it yourself, explore Model Studio and start creating with AI today. 👉 https://int.alibabacloud.com/m/1000414086/

译越南 | 传统在流动中,由AI重新构想 从河内的摩托车流到湄公河的水上市场,这段由Qwen和Wan创作的视频,用AI颂扬越南的活态文化。 亲自尝试,探索Model Studio,立即开始用AI创作。 👉 https://int.alibabacloud.com/m/1000414086/

MiniMax (official)@MiniMax_AI · 6月5日67

Excited to bring M3 to more developers through @dgrid_ai 🤝 Frontier coding, native multimodality, and 1M-token context — now available on DGrid.

译MiniMax M3现已在去中心化AI网关DGrid上线,提供1M token上下文窗口、原生多模态能力和前沿编码性能,面向下一代AI应用与自主智能体。开发者可通过dgrid.ai使用,并在6月7日前享50%折扣。DGrid表示将借助其基础设施让M3更易被开发者和智能体调用,推动MiniMax模型在生态中的广泛采用。

meng shao@shao__meng · 6月5日55

Airbnb 创始人 @bchesky 正在筹备创建一个新的 AI lab,构建专门用于 UI 和 设计的模型。 如果 Airbnb 做 UI 和设计模型,我举双手赞成,真的太喜欢 Airbnb 的设计品味。

Alibaba Cloud@alibaba_cloud · 6月5日22

Join Alibaba Cloud at VivaTech’s AInnovation Summit! Explore business impact with Qwen & Wan, hear customer stories, and network over afternoon tea. 📅 June 17, 15:00-17:00 CEST 📍 Paris Expo Porte de Versailles | Hall 7.3 Workshop A 👉Register on: https://int.alibabacloud.com/m/1000414065/

译加入阿里云在VivaTech的AInnovation峰会!与Qwen和Wan一起探索商业影响,聆听客户故事,并在下午茶中交流。 📅 6月17日,15:00-17:00 CEST 📍 Paris Expo Porte de Versailles | Hall 7.3 Workshop A 👉注册:https://int.alibabacloud.com/m/1000414065/

Josh Woodward@joshwoodward · 6月5日72

Love this Gemini feature on my macOS app!

译Josh Woodward 喜欢 macOS 版 Gemini 应用的这个功能。 同时按下两个 Command ⌘ 键,即可将当前活动窗口无缝附加到聊天中,无需手动截图或切换标签页。

Rohan Paul@rohanpaul_ai · 6月5日55

AI has become fragmented in a strange way. too many good tools in too many separate places. Most serious users of AI now bounce between ChatGPT, Claude, Gemini, Grok, image tools, video tools and browser tabs. @OverchatAI just launched a single multi-model AI app that puts chat, image and video generation behind one shared interface.

译OverchatAI发布多模型AI应用,将聊天、图像、视频生成整合在单一界面。实测让GPT-5.5和Gemini 3.1 Pro进行10局UNO对战,Gemini每张牌消耗6倍推理token(133.5K vs 22.5K),最终以8-2获胜,且模型间会在出牌间隙互相调侃。

fofr@fofrAI · 6月5日67

First frame now in Omni

译让图片动起来。上传图片作为首帧,添加提示词,用Gemini Omni Flash生成专属视频。主推文表示Omni现已支持首帧功能。

Rohan Paul@rohanpaul_ai · 6月5日57

I tried the newly launched Image-to-3D model, Rodin Gen-2.5, and the biggest improvement is control. It offers five different generation modes to fit a wide range of creative needs. You can generate a million-polygon model in as little as 4 seconds, with support for up to 10 million polygons for highly detailed outputs. Best of all, it comes with native 3D PBR materials, so your models look polished and production-ready right from the start. If you're creating assets at scale, Hyper 3D (@DeemosTech) also supports parallel batch generation, making it easy to speed up your workflow. On top of that, it features Break to Parts for instantly separating model components, as well as local editing capabilities, so you can modify specific areas without regenerating the entire model. From generation speed and model quality to flexible post-editing tools, Hyper 3D covers nearly every stage of the 3D creation pipeline that creators care about.

译Rohan Paul 实测新推出的图像转 3D 模型 Rodin Gen-2.5,最大改进是控制力。提供五种生成模式,最快 4 秒生成百万多边形模型,支持最高 1000 万多边形输出。原生 3D PBR 材质,模型开箱即用。Hyper 3D 还支持并行批量生成、Break to Parts 部件分离和局部编辑,无需重新生成整个模型,覆盖 3D 创作全流程。

Google AI Developers@googleaidevs · 6月5日70

Play our new open-weights music model, @GoogleMagenta RealTime 2, using a MIDI keyboard, live text prompts, and even hand gestures ✌️ https://x.com/GoogleMagenta/status/2062589313372594538

译Google AI for Developers 宣布推出开放权重的实时音乐模型 Magenta RealTime 2 (MRT2)。该模型可通过 MIDI 键盘、实时文本提示甚至手势进行演奏。MRT2 在 MacBook 上原生运行,延迟低于 200ms,提供开放权重、开源推理引擎以及配套应用和插件套件。

fofr@fofrAI · 6月5日54

I like how Omni picked a Vivienne Westwood necklace and Burberry trench coat for this. > a video of a British woman saying all the words that British people say differently to folks in the US (one every 1s). show the animated word at the bottom each time. interesting fashion - pick specifically known brands and items for clothing, nothing generic (Privacy and Schedule are fails here)

译我喜欢 Omni 为此选择了一条 Vivienne Westwood 项链和 Burberry 风衣。

Google Gemini@GeminiApp · 6月5日60

See how easy it is to bring your wildest ideas to life with Gemini Omni. Just select "Create videos" in Gemini, add text, video, or up to five images, and let your imagination run wild.

译看看用 Gemini Omni 将最疯狂的创想变为现实有多简单。 只需在 Gemini 中选择“Create videos”,添加文字、视频或多达五张图片,然后尽情释放你的想象力。

SenseTime@SenseTime_AI · 6月4日69

"𝗦𝗲𝗿𝗶𝗼𝘂𝘀𝗹𝘆 𝗶𝗺𝗽𝗿𝗲𝘀𝘀𝗶𝘃𝗲 𝘀𝘁𝘂𝗳𝗳". Thanks for the kind words, @gurru_tech — that's 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗨𝟭 turning prompts into professional infographics. Unified model that natively understands and generates text and images. Open-sourced. Run it yourself. 🎥Watch the video: https://youtu.be/HKz2e3STUwg 🎛️ SenseNova Studio: https://unify.light-ai.top/ (Try infographics; also join Discord for text-image interleaved gen) 🤗 https://huggingface.co/collections/sensenova/sensenova-u1 🛠️ https://github.com/OpenSenseNova/SenseNova-U1 👾 Discord: https://discord.com/invite/BuTXPHmQub @huggingface @github

译商汤SenseTime发布SenseNova U1,一个原生理解和生成文本与图像的统一模型。该模型已开源,用户可自行运行。被@gurru_tech称赞“令人印象深刻”。提供在线演示平台SenseNova Studio、HuggingFace模型、GitHub代码及Discord社区。

SiliconFlow@SiliconFlowAI · 6月4日72

Post-training is having a moment — Nex-N2-Pro from neolab @NexEcosystem proves it. Built on Qwen3.5-397B-A17B, delivers GPT-5.5 and Claude Opus 4.7–level performance. 🎉 T+0 Support on SiliconFlow · Free for First 2 Weeks N2-Pro: 397B MoE / Reasoning Model / 262K context / VLM → Auto-adjusts reasoning depth, 30–50% fewer thinking tokens, no performance trade-off → SOTA performance on Terminal Bench 2.1, GDPVal, SWE-Verified → Excels at agentic coding, deep search, tool use → Plug-and-play with Claude Code, Cursor, OpenClaw, etc. Try it on SiliconFlow ⬇️

译neolab 推出 Nex-N2-Pro,基于 Qwen3.5-397B-A17B,总参数 397B 的 MoE 推理模型,支持 262K 上下文与多模态(VLM),性能达到 GPT-5.5 和 Claude Opus 4.7 级别。模型可自动调节推理深度,减少 30-50% 思考 token 且无性能折损,在 Terminal Bench 2.1、GDPVal、SWE-Verified 上取得 SOTA。擅长智能体编码、深度搜索和工具使用,兼容 Claude Code、Cursor 等工具。硅基流动已提供 T+0 支持,前两周免费使用。

SenseTime@SenseTime_AI · 6月4日69

"𝗦𝗲𝗿𝗶𝗼𝘂𝘀𝗹𝘆 𝗶𝗺𝗽𝗿𝗲𝘀𝘀𝗶𝘃𝗲 𝘀𝘁𝘂𝗳𝗳". Thanks for the kind words, @gurru_tech — that's 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗨𝟭 turning prompts into professional infographics. Unified model that natively understands and generates text and images. Open-sourced. Run it yourself. 🎥Watch the video: https://youtu.be/HKz2e3STUwg 🎛️ SenseNova Studio: https://unify.light-ai.top/ (Try infographics; also join Discord for text-image interleaved gen) 🤗 https://huggingface.co/collections/sensenova/sensenova-u1 🛠️ https://github.com/OpenSenseNova/SenseNova-U1 👾 Discord: https://discord.com/invite/BuTXPHmQub

译商汤 SenseTime 推出 SenseNova U1 开源多模态模型,实现原生理解与生成文本和图像,可一键将提示词转化为专业信息图。该模型被开发者 @gurru_tech 评价为“非常令人印象深刻”。项目已开源,提供 SenseNova Studio 在线试用,并公开 HuggingFace 模型集合、GitHub 源码仓库及 Discord 社区入口。

Rohan Paul@rohanpaul_ai · 6月4日58

Great piece from Dr. Fei-Fei Li (@drfeifei) “The world is not made of words.... A model that masters simulation can project its understanding into pixels for human consumption, and into action predictions for embodied agents." LLMs learn patterns in text, so they can explain a room, but they do not naturally know how the room changes when a chair moves, glass breaks, sunlight shifts, or a robot pushes a cup. A world model tries to learn the hidden structure behind what we see, meaning it can predict views the camera never captured, model object behavior, and support agents that act inside real or virtual environments. To see a world from a new angle, to predict what happens when something is pushed, and to decide what to do next all require a common internal model of space, causality, and consequence.

译李飞飞(Fei-Fei Li)指出,大语言模型(LLM)仅学习文本模式,能描述房间但无法理解椅子移动、玻璃破碎、阳光变化或机器人推杯子等物理变化。世界模型则试图学习视觉背后隐藏的结构,能预测相机未捕捉的视角、建模物体行为、支持真实或虚拟环境中行动的智能体。理解新视角、预测推动结果、决定下一步行动,都需要一个共同的内在模型,涵盖空间、因果与后果。

StepFun@StepFun_ai · 6月4日77

Great to see Step 3.7 Flash live on @FireworksAI_HQ. Designed for inference from day one, Step 3.7 Flash combines a hardware-friendly architecture with MTP-assisted decoding to reach up to 400 tokens/s. Fast, multimodal, and ready to power capable agents in real-world workflows.

译阶跃星辰的 Step 3.7 Flash 已上架 Fireworks AI。该模型为 198B 稀疏 MoE 多模态大模型(VLM),含 196B 语言骨干和 1.8B 视觉编码器,从设计之初优化推理效率,采用硬件友好架构与 MTP 辅助解码,速度达 400 tokens/s。具备原生多模态理解与行动、可靠工具使用、增强搜索能力,面向真实智能体工作负载,采用 Apache 2.0 开源许可。

Google AI Developers@googleaidevs · 6月4日47

Join @GoogleDeepmind and @HeyGen on June 11th! Our LA event for builders working at the intersection of AI agents, creative tooling, and multimodal apps is now open for registration 👇 https://x.com/HeyGen/status/2062256762867388748

译加入 @GoogleDeepmind 和 @HeyGen,6月11日!我们面向AI智能体、创意工具和多模态应用开发者的洛杉矶活动现已开放注册 👇 https://x.com/HeyGen/status/2062256762867388748

Rohan Paul@rohanpaul_ai · 6月4日65

Most AI workflows break because the user has to carry the context manually, and Anuma is trying to make that context portable, private, and usable across models. Anuma is a private AI workspace built around 1 memory across every model, so your context, preferences, goals, and past work can follow you across ChatGPT, Claude, Gemini, Grok, DeepSeek, Kimi, and others. It also adds on-device encrypted memory, Private Mode by default, no logs, no training, full memory export, Council Mode, model switching inside 1 chat, and AI texting through iMessage or SMS. I integrated Anuma into my AI workflow and for me, the strongest use case research paper analysis: I’m uploading 3 different papers on the same topic, then using Anuma’s multimodal and parallel multi-model workflow to compare how different models read, summarize, question, and connect the papers. That is where Council Mode becomes useful, because you can see multiple model responses side by side instead of trusting 1 answer blindly. No more opening 5 separate AI tabs and re-explaining the same research context again and again, I can keep the same memory, switch models, compare answers, and continue the analysis in 1 place.

译Rohan Paul 介绍 Anuma,一个私人 AI 工作空间,核心功能是跨模型统一记忆——用户在 ChatGPT、Claude、Gemini、Grok、DeepSeek、Kimi 等模型间切换时,上下文、偏好、目标和历史工作自动跟随。额外功能包括设备端加密记忆、默认隐私模式、无日志无训练、支持完整记忆导出、Council Mode(多模型并列回复对比)、单聊内模型切换,以及通过 iMessage 或 SMS 的 AI 文本能力。Paul 分享研究论文分析用例:上传多篇论文,利用多模态和多模型并行工作流,对比不同模型对同一主题的阅读、总结和关联能力,避免重复解释上下文。

Elon Musk@elonmusk · 6月4日43

Grok Imagine 1.5 at rank 1

译Grok Imagine Video 1.5 在视频竞技场排行榜上位列第一。 主推文:Grok Imagine 1.5 排名第一。

StepFun@StepFun_ai · 6月4日73

Thanks @ArtificialAnlys for the detailed independent evaluation. Step 3.7 Flash is built with a clear focus on the intelligence-speed frontier: MTP-assisted decoding, 400+ output tokens/s, stronger agentic performance, native multimodal capabilities, and Apache 2.0 open weights. This is the direction we believe matters for production agent workloads: capable, efficient, and deployable at scale.

译阶跃星辰发布开源 Step 3.7 Flash(Apache 2.0),采用 MoE 架构(198B 总参/11B 活跃参),配备 MTP 辅助解码(3 个预测头),输出速度超 400 tokens/s,是同类两倍多。Artificial Analysis Intelligence Index 得分 42.6,较 Step 3.5 Flash 提升 4 分。智能体能力明显增强:GDPval-AA Elo 升至 1298,TerminalBench Hard 升至 35.6%。新增 1.8B 视觉编码器,MMMU-Pro 得分 75.3%。上下文窗口 256K tokens,提供 BF16、FP8、NVFP4 版本。缺点:AA-Omniscience 准确率仅 25.4%,幻觉率 84.4%。

DogeDesigner@cb_doge · 6月4日65

Grok Imagine Video 1.5 is now ranked #1 on the Video Arena Leaderboard. 🥇

译Grok Imagine Video 1.5 现在在 Video Arena 排行榜上排名第一。🥇

Artificial Analysis@ArtificialAnlys · 6月4日67

StepFun's Step 3.7 Flash sits on the Intelligence vs Output Speed Pareto frontier, scoring 43 on the Artificial Analysis Intelligence Index and is served at over 400 output tokens/s Step 3.7 Flash (open weights, Apache 2.0) is a significant upgrade on Step 3.5 Flash and stands out for its speed and gains in agentic performance (particularly GDPval-AA). 400 output tokens/s is more than double other models of a similar size class. Contributing to this speed is that the model has only 11B active parameters and the model ships with trained Multi-Token Prediction heads (3) that predict several tokens in a single forward pass, letting it decode multiple tokens at once using speculative decoding. Key results for Step 3.7 Flash with the high reasoning level: ➤ 4 point Intelligence Index improvement: Step 3.7 Flash scores 42.6 on the Artificial Analysis Intelligence Index, up 4 points from Step 3.5 Flash 2603 (38.5). It is equivalent to Qwen3.5 122B A10B (41.6) and trails MiniMax-M2.7 (49.6) and DeepSeek V4 Flash (Max Effort, 46.5) ➤ Speed-intelligence frontier: Step 3.7 Flash achieves ~400 output tokens/s on StepFun's first-party API, placing the model on the Intelligence vs Output Speed Pareto frontier. StepFun has released the weights for this model and we expect several third-party providers to serve this model ➤ Agentic capability improvements: Step 3.7 Flash improves over Step 3.5 Flash 2603 across our agentic evaluations, in both GDPval-AA (real-world agentic tasks) and TerminalBench Hard (agentic coding and terminal use). It achieves a GDPval-AA Elo of 1298, up from 1070 for Step 3.5 Flash 2603, and it's TerminalBench Hard score increases to 35.6% from 32.6%. AA-LCR (Long Context Reasoning) improves to 63.7% from 54.3%. Scores for other evals remain relatively flat ➤ Weaker on knowledge and hallucination than peers: While Step 3.7 Flash trails competitors overall on AA-Omniscience (-38), it improves from Step 3.5 Flash 2603 (-44). It has an AA-Omniscience accuracy of 25.4% and a hallucination rate of 84.4% ➤ Native multimodal support, new in this generation: Step 3.7 Flash introduces a 1.8B-parameter vision encoder for native image understanding, where Step 3.5 Flash was text-only. On MMMU-Pro (multimodal reasoning) it scores 75.3%, roughly matching Qwen3.5 122B A10B (75.0%). Among its same-size open weights peers, MiniMax-M2.7, DeepSeek V4 Flash, and gpt-oss-120b are text-only Key model details: ➤ Context window: 256K tokens ➤ Parameters: 198B total, 11B active (MoE). At BF16 native precision, Step 3.7 Flash requires ~400GB to store the weights. StepFun has also released FP8 (~200GB) and NVFP4 (~100GB) versions for lower-memory deployment ➤ License: Apache 2.0 ➤ Availability: Currently Step 3.7 Flash is available on @StepFun_ai 's first-party API

译StepFun 开源 Step 3.7 Flash(Apache 2.0),总参数 198B、激活 11B(MoE),上下文 256K。在 Artificial Analysis 智能指数上得分 42.6,较 Step 3.5 Flash 提升 4 分,输出速度超 400 tokens/s,通过 Multi-Token Prediction(3 个 token)加速。新增 1.8B 视觉编码器支持原生多模态,MMMU-Pro 得分 75.3%。代理能力提升:GDPval-AA Elo 从 1070 升至 1298,TerminalBench Hard 达 35.6%,AA-LCR 63.7%。知识/幻觉仍弱:AA-Omniscience 准确率 25.4%,幻觉率 84.4%。提供 BF16、FP8、NVFP4 精度权重以降低部署成本。

Jeff Dean@JeffDean · 6月4日75

Check out our Gemma 4 12B model: it's a super capable open weights model that can run directly on your laptop.

译来看看我们的 Gemma 4 12B 模型:它是一个功能非常强大的开源权重模型,可以直接在你的笔记本电脑上运行。

Elon Musk@elonmusk · 6月4日71

Grok on Cloudflare

译xAI 与 Cloudflare 合作,将 Grok 的 LLM、音频、图像和视频模型接入 Cloudflare AI Gateway,用户可直接通过 Cloudflare 计费,无需额外认证或 API 密钥。Elon Musk 发推称 "Grok on Cloudflare"。

Elon Musk@elonmusk · 6月4日73

Iliad (Troy) trailer made by Grok Imagine 1.5, which was just released

译伊利亚特(特洛伊)预告片由刚刚发布的 Grok Imagine 1.5 制作

Berryxia.AI@berryxia · 6月4日67

大家还在把音频AI当成视觉和文本的边缘附属品时,一个开源模型直接把语音、音乐、环境音三件事彻底统一到一个模型里,干翻了所有闭源方案。 真的试试实际效果如何,看着是真的不粗~~ 大家本地搭音频Agent,想让AI不光听懂人说话,还能分辨背景音乐、环境音效,甚至自动剪辑播客。 之前所有方案不是闭源贵得离谱,就是语音和音乐两套系统,串起来一塌糊涂。 今天MOSS-Audio直接把这个痛点干掉了。 OpenMOSS团队这个模型刚刚冲上Hugging Face Trending第一。 它把Speech、Sound、Music真正做到了audio-language统一建模:扔一段带背景音乐的对话,它能同时转录语音、识别环境音、理解音乐情绪,还能生成文本描述或者直接做下游任务。 不是简单堆数据,而是真正从架构上打通了音频世界。 开源可商用,Hugging Face和GitHub代码全放出来了,普通开发者现在就能拉下来本地跑。 这其实把行业当前最主流的认知直接反转了:真正通往超级智能的下一块拼图,不是继续卷视觉+文本,而是让AI像人一样同时感知声音世界。 音频从来不是附属,将和文本同等重要的感官入口。 谁先把这一块做通,谁就抢到了下一代agent的先机。 以前我们总觉得音频AI要等闭源大厂慢慢迭代,现在开源社区用一个模型就把“语音+声音+音乐”这个三合一难题端上来了,速度和开放度反而领先。

译OpenMOSS团队发布MOSS-Audio,一个融合语音(Speech)、环境音(Sound)、音乐(Music)的开源音频-语言模型,已冲上Hugging Face Trending第一。该模型从架构上打通三大音频域,可同时转录对话、识别背景音、理解音乐情绪并生成文本或执行下游任务。模型完全开源可商用,代码和权重已在Hugging Face及GitHub公布,开发者可本地运行。

小互@xiaohu · 6月4日71

Google 发布 Gemma 4 12B 开源模型 16GB 笔记本跑全模态 AI Gemma 4 12B 采用了一种叫"Unified"的无编码器架构,让文字、图像、音频、视频四种输入直接进入同一个 Transformer 主干网络处理。 模型可直接处理原始的图像和声音 用一个类比讲清楚 传统多模态模型处理图片和音频的方式,类似于一个只会中文的老板配了两个翻译:一个英文翻译(视觉编码器),一个日文翻译(音频编码器)。 每次有英文或日文材料进来,必须先让翻译转成中文,老板才能看懂。翻译本身占工位(显存),翻译过程要排队等(延迟),而且老板拿到的是翻译加工过的版本,不是原文。 Gemma 4 12B 做的事情是:把两个翻译都裁了,让老板自己学会了直接看英文和日文。 几个关键数字: 16GB 显存或统一内存能跑,4-bit 量化低到 8GB,目标就是在普通笔记本上本地运行 256K Token 上下文窗口,支持 140+ 种语言 内置 Thinking 模式(逐步推理)和原生 Function Calling

译Google 发布 Gemma 4 12B 开源模型,采用无编码器 Unified 架构,可直接处理文本、图像、音频、视频,无需独立编码器。16GB 显存可运行,4-bit 量化后低至 8GB。支持 256K token 上下文、140+ 语言,内置 Thinking 模式和 Function Calling。

Berryxia.AI@berryxia · 6月4日69

Google 昨晚发布Gemma 4 12B 多模态的大模型,至少需要16G 内存就可以运行。 应该和Qwen 的模型进行对比其效果如何~

DogeDesigner@cb_doge · 6月4日70

SpaceXAI keeps raising the bar. 🔥 Grok Imagine Video 1.5 preview is now live on the API, and the results look insanely cinematic. 📽️ Go try it yourself. 💻 Godspeed SpaceXAI. 🚀

译SpaceXAI 不断刷新标准。🔥 Grok Imagine Video 1.5 预览版现已上线 API,效果看起来极为电影感。📽️ 去亲自试试吧。💻 祝 SpaceXAI 好运。🚀

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月7日
10:26
Nathan Lambert@natolambert
67
AI研究员Nathan Lambert用一条推文展示AI安全风险:某用户向ChatGPT发送提示,要求其"修复一张附件照片",但并未上传任何图片。模型在无真实输入的情况下自行"幻觉"出画面,生成的图片如失落的媒体恐怖片般诡异。Lambert指出,我们对模型内部运作知之甚少,也无法完全控制其行为,这一现象直观揭示了AI安全的重要性。

Penguin: I found the weirdest ChatGPT image bug If you ask it this prompt: "Restore the attached photo. I apologise for the conte...

OpenAI多模态安全/对齐
6月6日
23:24
AYi@AYi_AInotes
60
Qwen3-VL系列实测:性价比超Gemini 3.5 Flash 22倍

用户实测推荐,目前多模态大模型性价比最高的是Qwen3-VL / Qwen3.5 VL系列,其输出价格比Gemini 3.5 Flash便宜22倍,读图能力相当。作者使用的具体模型是qwen/qwen3.5-flash,价格为$0.1/$0.4,支持多模态图片+视频,上下文窗口达1M。

AYi: http://x.com/i/article/2060717603987791878

Google多模态评测/基准
17:08
🚨 AI News | TestingCatalog@testingcatalog
48
NotebookLM 将支持多格式输出,或与 Gemini 3.5 Flash 同步升级

Google 的 NotebookLM 即将支持从用户资料生成多种格式的文件,包括 pdf、txt、md、docx、csv、pptx、epub 以及大量音视频与图片格式(如 mp3、mp4、wav、jpg、png、heic 等)。此次更新很可能与 Gemini 3.5 Flash 模型升级一同发布。

Google产品更新多模态
07:59
Rohan Paul@rohanpaul_ai
48
AI 简报:Anthropic、Google、阿里等最新动态

Anthropic 称其 80% 的新生产代码由 Claude 编写。Google 新论文显示,通用 LLM 通过规划证明与逐步验证,将形式数学求解性能从低于 10% 提升至 70%。Google 开源 Gemma 4 12B,可在消费级 16GB GPU 上本地运行,支持音频和视频分析。通义千问发布 Qwen3.7-Plus,支持文本、视频、图像输入,价格 $0.4/$1.6 每百万 token,闭源。Anthropic 新化学报告有惊人结果。

AnthropicGoogle多模态开源生态
02:22
宝玉@dotey
65
Cursor 也支持在浏览器端标记 UI 了,这样修改 UI 起来就方便多了

Cursor: With Design Mode, you can now point, draw, or talk to update your UI.

产品更新多模态编码
01:50
Michael Truell@mntruell
精选80
与 AI 智能体协作应感觉像与同事协作一样。你应能"与它们交谈"--不仅通过文本聊天,还能一起对着屏幕做手势、实时对话等。

Cursor: With Design Mode, you can now point, draw, or talk to update your UI.

智能体产品更新多模态编码

推荐理由:Cursor 新加的 Design Mode 让改 UI 像跟同事比划屏幕一样自然,手势、画框、说话都能驱动 agent,AI 编程工具第一次有了‘面对面’的感觉。
01:20
Google AI@GoogleAI
精选78
Google AI 本周产品更新:Nano Banana 2、Co-Scientist、dreambeans、Gemma 4 等

Google AI 本周发布多项更新:Nano Banana 2 及 Pro 正式 GA,可通过 Gemini Enterprise Agent Platform、Gemini API 和 Google AI Studio 获取;Co-Scientist 多智能体系统面向科研自动生成优化新假设;Google Labs 推出 dreambeans,根据用户 Google 应用数据每日生成个性化话题集;Gemma 4 12B 统一无编码器多模态模型可完全离线运行于笔记本;Gemma 4 系列及草稿模型引入 QAT 降低内存需求;Google Magenta RealTime 2 开源实时音乐模型,支持 MIDI 键盘、文本提示和手势演奏。

智能体Google产品更新多模态

推荐理由:周报里藏了个大号:Gemma 4 12B开源多模态且完全离线,开发者今天就能在自己笔记本上跑起来,Co-Scientist的多agent科学推理也有看头。
00:41
Google Gemini@GeminiApp
精选81
你现可直接在 Gemini Live 中创建和编辑图像。 无论是测试房间装饰、解决数学问题,还是制作可分享的梗图,所有操作都实时完成。 只需打开 Gemini 应用,点击 Live 按钮,共享摄像头,告诉 Gemini 你想看到的。
Google产品更新图像生成多模态

推荐理由:Gemini Live 终于能用嘴改图了,实时对话+图像生成让装修试色、数学解题变成「聊着天就把活干了」,产品人和普通用户都该试试这个新交互。
6月5日
23:33
AI at Meta@AIatMeta
64
热烈祝贺我们的 SAM 3D 团队在 #CVPR26 获得最佳论文荣誉提名!这项殊荣凸显了他们在推动计算机视觉边界方面的杰出工作。 论文链接:https://arxiv.org/abs/2511.16624
Meta多模态论文/研究
21:36
OpenBMB@OpenBMB
精选66
社区基于MiniCPM-V 4.6打造财务分析工具AccountingLLM

社区开发者使用面壁智能MiniCPM-V 4.6构建了AccountingLLM(quaesto.com),用于自动化财务文档分析。该工具可上传IPO招股书、年报或审计文件,自动从复杂PDF中提取财务表格、重建跨页表格、对照会计等式检查关键数据,并标记可疑条目供人工审核。开发者已将其商业化,成为实际可用的产品。

产品更新多模态行业动态

推荐理由:这不是又一个AI读财报的demo,而是直接上线接客的商业产品。做财务、审计的可以试试它从招股书里自动扒表格和勾稽检查的实用性。
20:59
Chubby♨️@kimmonismus
56
1/ 大多数AI视频工具仍像是演示。 你输入提示词 → 你就得到一个片段。 但真正的瓶颈从来不是生成。 而是将一个创意转化为可用的东西。 有了LTX Studio + LTX-2.3,这个差距基本上在消失。 我刚制作的片段感觉……与众不同。 一条线程:🧵
多模态大佬观点视频
16:53
Alibaba Cloud@alibaba_cloud
21
越南 | 传统在流动中,由AI重新构想 从河内的摩托车流到湄公河的水上市场,这段由Qwen和Wan创作的视频,用AI颂扬越南的活态文化。 亲自尝试,探索Model Studio,立即开始用AI创作。 👉 https://int.alibabacloud.com/m/1000414086/
多模态行业动态视频
16:36
MiniMax (official)@MiniMax_AI
67
MiniMax M3现已在去中心化AI网关DGrid上线,提供1M token上下文窗口、原生多模态能力和前沿编码性能,面向下一代AI应用与自主智能体。开发者可通过dgrid.ai使用,并在6月7日前享50%折扣。DGrid表示将借助其基础设施让M3更易被开发者和智能体调用,推动MiniMax模型在生态中的广泛采用。

DGrid AI: DGrid 🤝 @MiniMax_AI MiniMax M3 is now live on http://dgrid.ai. Enjoy 50% off through June 7th. ⚡️ With frontier coding ...

产品更新多模态编码
13:56
meng shao@shao__meng
55
Airbnb创始人筹建AI Lab专注UI设计模型

Airbnb 创始人 @bchesky 正在筹备创建一个新的 AI lab,构建专门用于 UI 和 设计的模型。 如果 Airbnb 做 UI 和设计模型,我举双手赞成,真的太喜欢 Airbnb 的设计品味。

TBPN: BREAKING: @bchesky is launching a new AI lab to build models, focused on UI and design

多模态行业动态
10:52
Alibaba Cloud@alibaba_cloud
22
加入阿里云在VivaTech的AInnovation峰会!与Qwen和Wan一起探索商业影响,聆听客户故事,并在下午茶中交流。 📅 6月17日,15:00-17:00 CEST 📍 Paris Expo Porte de Versailles | Hall 7.3 Workshop A 👉注册:https://int.alibabacloud.com/m/1000414065/
多模态行业动态
07:08
Josh Woodward@joshwoodward
72
Josh Woodward 喜欢 macOS 版 Gemini 应用的这个功能。 同时按下两个 Command ⌘ 键,即可将当前活动窗口无缝附加到聊天中,无需手动截图或切换标签页。

Google Gemini: Get tailored help for what's on your screen using the Gemini app for macOS. 💻 Simply press both Command ⌘ keys at the s...

Google产品更新多模态
06:54
Rohan Paul@rohanpaul_ai
55
OverchatAI发布多模型AI应用,将聊天、图像、视频生成整合在单一界面。实测让GPT-5.5和Gemini 3.1 Pro进行10局UNO对战,Gemini每张牌消耗6倍推理token(133.5K vs 22.5K),最终以8-2获胜,且模型间会在出牌间隙互相调侃。

Overchat AI: I made @OpenAI GPT-5.5 and @GoogleDeepMind Gemini 3.1 Pro play REAL UNO - 10 games, full rules. Gemini overthought every...

产品更新多模态
06:36
fofr@fofrAI
67
让图片动起来。上传图片作为首帧,添加提示词,用Gemini Omni Flash生成专属视频。主推文表示Omni现已支持首帧功能。

Google Flow: Bring your images to life ⚡️ Upload your picture as a first frame and add a prompt to generate your own unique video wit...

Google产品更新多模态视频
03:54
Rohan Paul@rohanpaul_ai
57
Hyper 3D Rodin Gen-2.5 图像转 3D:4 秒生成百万多边形

Rohan Paul 实测新推出的图像转 3D 模型 Rodin Gen-2.5,最大改进是控制力。提供五种生成模式,最快 4 秒生成百万多边形模型,支持最高 1000 万多边形输出。原生 3D PBR 材质,模型开箱即用。Hyper 3D 还支持并行批量生成、Break to Parts 部件分离和局部编辑,无需重新生成整个模型,覆盖 3D 创作全流程。

图像生成多模态模型发布
02:54
Google AI Developers@googleaidevs
精选70
Google AI for Developers 宣布推出开放权重的实时音乐模型 Magenta RealTime 2 (MRT2)。该模型可通过 MIDI 键盘、实时文本提示甚至手势进行演奏。MRT2 在 MacBook 上原生运行,延迟低于 200ms,提供开放权重、开源推理引擎以及配套应用和插件套件。

Google Magenta Project: Introducing Magenta RealTime 2 (MRT2): the live music model you can play as an instrument. MRT2 offers MIDI and prompt c...

Google多模态开源生态模型发布
关联讨论 1 条IT之家(RSS)
推荐理由:Magenta RealTime 2 把音乐生成从「后期制作」拉到了「实时演奏」,开放权重且延迟低于 200ms,音乐创作者值得立刻上手试试。
01:34
fofr@fofrAI
54
我喜欢 Omni 为此选择了一条 Vivienne Westwood 项链和 Burberry 风衣。

fofr: True story. > Say Paella like a British woman

多模态教程/实践
01:05
Google Gemini@GeminiApp
60
看看用 Gemini Omni 将最疯狂的创想变为现实有多简单。 只需在 Gemini 中选择"Create videos",添加文字、视频或多达五张图片,然后尽情释放你的想象力。
Google产品更新多模态视频
6月4日
23:16
SenseTime@SenseTime_AI
69
商汤SenseNova U1开源统一文本图像模型

商汤SenseTime发布SenseNova U1,一个原生理解和生成文本与图像的统一模型。该模型已开源,用户可自行运行。被@gurru_tech称赞“令人印象深刻”。提供在线演示平台SenseNova Studio、HuggingFace模型、GitHub代码及Discord社区。

Hugging Face图像生成多模态模型发布
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)
23:15
SiliconFlow@SiliconFlowAI
精选72
Nex-N2-Pro 发布:基于 Qwen3.5 的 397B MoE 推理模型,性能达 GPT-5.5 水平

neolab 推出 Nex-N2-Pro,基于 Qwen3.5-397B-A17B,总参数 397B 的 MoE 推理模型,支持 262K 上下文与多模态(VLM),性能达到 GPT-5.5 和 Claude Opus 4.7 级别。模型可自动调节推理深度,减少 30-50% 思考 token 且无性能折损,在 Terminal Bench 2.1、GDPVal、SWE-Verified 上取得 SOTA。擅长智能体编码、深度搜索和工具使用,兼容 Claude Code、Cursor 等工具。硅基流动已提供 T+0 支持,前两周免费使用。

多模态推理模型发布编码

推荐理由:后训练模型能直追 GPT-5.5 和 Claude 4.7,免费两周,对做 agent 和 deep search 的人来说是难得的低成本试错机会。
22:46
SenseTime@SenseTime_AI
同事件精选69
SenseNova U1 开源统一模型:原生图文生成

商汤 SenseTime 推出 SenseNova U1 开源多模态模型,实现原生理解与生成文本和图像,可一键将提示词转化为专业信息图。该模型被开发者 @gurru_tech 评价为“非常令人印象深刻”。项目已开源,提供 SenseNova Studio 在线试用,并公开 HuggingFace 模型集合、GitHub 源码仓库及 Discord 社区入口。

图像生成多模态开源生态模型发布
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
推荐理由:商汤这回把图文统一模型开源了,SenseNova U1的infographic功能比市面上大多数文生图工具更懂文字和布局,做内容的朋友可以上手试试。
21:52
Rohan Paul@rohanpaul_ai
58
Fei-Fei Li 谈世界模型 vs 大语言模型

李飞飞(Fei-Fei Li)指出,大语言模型(LLM)仅学习文本模式,能描述房间但无法理解椅子移动、玻璃破碎、阳光变化或机器人推杯子等物理变化。世界模型则试图学习视觉背后隐藏的结构,能预测相机未捕捉的视角、建模物体行为、支持真实或虚拟环境中行动的智能体。理解新视角、预测推动结果、决定下一步行动,都需要一个共同的内在模型,涵盖空间、因果与后果。

Fei-Fei Li: http://x.com/i/article/2062244283940544512

具身智能多模态大佬观点
21:18
StepFun@StepFun_ai
同事件精选77
阶跃星辰的 Step 3.7 Flash 已上架 Fireworks AI。该模型为 198B 稀疏 MoE 多模态大模型(VLM),含 196B 语言骨干和 1.8B 视觉编码器,从设计之初优化推理效率,采用硬件友好架构与 MTP 辅助解码,速度达 400 tokens/s。具备原生多模态理解与行动、可靠工具使用、增强搜索能力,面向真实智能体工作负载,采用 Apache 2.0 开源许可。

Fireworks AI: Many research labs only consider inference efficiency after the fact. Step 3.7 Flash is a 198B sparse MoE VLM designed b...

多模态推理模型发布
同一事件,精选展示《在 NVIDIA GPU 上运行面向企业级就绪的多模态 AI--Step 3.7 Flash》
推荐理由:198B稀疏MoE加MTP解码把速度推到400 tok/s,还开源Apache 2.0,这规格做agent的大脑正合适,做实时应用的可以试试手。
20:53
Google AI Developers@googleaidevs
47
加入 @GoogleDeepmind 和 @HeyGen,6月11日!我们面向AI智能体、创意工具和多模态应用开发者的洛杉矶活动现已开放注册 👇 https://x.com/HeyGen/status/2062256762867388748

HeyGen: HeyGen + Google DeepMind in LA on June 11 A night of demos, conversations, and people building with agents, multimodal a...

智能体Google多模态行业动态
20:52
Rohan Paul@rohanpaul_ai
65
Anuma:跨模型统一记忆的私人AI工作空间

Rohan Paul 介绍 Anuma,一个私人 AI 工作空间,核心功能是跨模型统一记忆——用户在 ChatGPT、Claude、Gemini、Grok、DeepSeek、Kimi 等模型间切换时,上下文、偏好、目标和历史工作自动跟随。额外功能包括设备端加密记忆、默认隐私模式、无日志无训练、支持完整记忆导出、Council Mode(多模型并列回复对比)、单聊内模型切换,以及通过 iMessage 或 SMS 的 AI 文本能力。Paul 分享研究论文分析用例:上传多篇论文,利用多模态和多模型并行工作流,对比不同模型对同一主题的阅读、总结和关联能力,避免重复解释上下文。

MCP/工具多模态教程/实践
12:37
Elon Musk@elonmusk
43
Grok Imagine Video 1.5 在视频竞技场排行榜上位列第一。 主推文:Grok Imagine 1.5 排名第一。

DogeDesigner: Grok Imagine Video 1.5 is now ranked #1 on the Video Arena Leaderboard. 🥇

xAI多模态行业动态视频
12:17
StepFun@StepFun_ai
73
阶跃星辰发布开源 Step 3.7 Flash(Apache 2.0),采用 MoE 架构(198B 总参/11B 活跃参),配备 MTP 辅助解码(3 个预测头),输出速度超 400 tokens/s,是同类两倍多。Artificial Analysis Intelligence Index 得分 42.6,较 Step 3.5 Flash 提升 4 分。智能体能力明显增强:GDPval-AA Elo 升至 1298,TerminalBench Hard 升至 35.6%。新增 1.8B 视觉编码器,MMMU-Pro 得分 75.3%。上下文窗口 256K tokens,提供 BF16、FP8、NVFP4 版本。缺点:AA-Omniscience 准确率仅 25.4%,幻觉率 84.4%。

Artificial Analysis: StepFun's Step 3.7 Flash sits on the Intelligence vs Output Speed Pareto frontier, scoring 43 on the Artificial Analysis...

智能体多模态推理模型发布
12:00
DogeDesigner@cb_doge
65
Grok Imagine Video 1.5 现在在 Video Arena 排行榜上排名第一。🥇

Elon Musk: Iliad (Troy) trailer made by Grok Imagine 1.5, which was just released

多模态模型发布视频
11:52
Artificial Analysis@ArtificialAnlys
67
StepFun 开源 Step 3.7 Flash 模型,性能与速度并进

StepFun 开源 Step 3.7 Flash(Apache 2.0),总参数 198B、激活 11B(MoE),上下文 256K。在 Artificial Analysis 智能指数上得分 42.6,较 Step 3.5 Flash 提升 4 分,输出速度超 400 tokens/s,通过 Multi-Token Prediction(3 个 token)加速。新增 1.8B 视觉编码器支持原生多模态,MMMU-Pro 得分 75.3%。代理能力提升:GDPval-AA Elo 从 1070 升至 1298,TerminalBench Hard 达 35.6%,AA-LCR 63.7%。知识/幻觉仍弱:AA-Omniscience 准确率 25.4%,幻觉率 84.4%。提供 BF16、FP8、NVFP4 精度权重以降低部署成本。

多模态开源生态推理模型发布
10:23
Jeff Dean@JeffDean
75
来看看我们的 Gemma 4 12B 模型:它是一个功能非常强大的开源权重模型,可以直接在你的笔记本电脑上运行。

Google Gemma: Meet Gemma 4 12B! A unified, encoder-free multimodal model designed to bring high-performance intelligence directly to y...

Google多模态开源生态模型发布
关联讨论 7 条X:Demis Hassabis (@demishassabis)X:Sundar Pichai (@sundarpichai)X:Google AI for Developers (@googleaidevs)Google Developers Blog(RSS)The Decoder:AI News(RSS)Google DeepMind:Blog(RSS)Hacker News 热门(buzzing.cc 中文翻译)
09:36
Elon Musk@elonmusk
同事件精选71
xAI 与 Cloudflare 合作,将 Grok 的 LLM、音频、图像和视频模型接入 Cloudflare AI Gateway,用户可直接通过 Cloudflare 计费,无需额外认证或 API 密钥。Elon Musk 发推称 "Grok on Cloudflare"。

Cloudflare Developers: We're partnering with @xai to bring Grok to @Cloudflare AI Gateway. • Grok LLMs, audio, image, and video models are now ...

xAI产品更新多模态
同一事件,精选展示《Grok模型登陆Cloudflare AI Gateway》
推荐理由:开发者现在可以在Cloudflare上零配置调用Grok全家桶了,从LLM到视频生成,对已经用Cloudflare生态的人来说,这比单独接入xAI API省事太多。
09:06
Elon Musk@elonmusk
同事件精选73
伊利亚特(特洛伊)预告片由刚刚发布的 Grok Imagine 1.5 制作
xAI多模态模型发布视频
同一事件,精选展示《xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)》
推荐理由:Elon 亲自演示 Grok Imagine 1.5,生成的《伊利亚特》预告片质感让我觉得视频生成赛道又要卷一轮,做短片的可以盯一下。
08:51
Berryxia.AI@berryxia
67
MOSS-Audio:开源统一语音、环境音、音乐的音频-语言模型登顶HF Trending第一

OpenMOSS团队发布MOSS-Audio,一个融合语音(Speech)、环境音(Sound)、音乐(Music)的开源音频-语言模型,已冲上Hugging Face Trending第一。该模型从架构上打通三大音频域,可同时转录对话、识别背景音、理解音乐情绪并生成文本或执行下游任务。模型完全开源可商用,代码和权重已在Hugging Face及GitHub公布,开发者可本地运行。

MOSI: MOSS-Audio just hit #1 on @huggingface Trending. Speech. Sound. Music. One open audio-language model. Try it: Hugging Fa...

多模态模型发布语音
08:40
小互@xiaohu
71
Google 发布 Gemma 4 12B 开源模型

Google 发布 Gemma 4 12B 开源模型,采用无编码器 Unified 架构,可直接处理文本、图像、音频、视频,无需独立编码器。16GB 显存可运行,4-bit 量化后低至 8GB。支持 256K token 上下文、140+ 语言,内置 Thinking 模式和 Function Calling。

Google多模态开源生态模型发布
07:51
Berryxia.AI@berryxia
69
Google 昨晚发布Gemma 4 12B 多模态的大模型,至少需要16G 内存就可以运行。 应该和Qwen 的模型进行对比其效果如何~

Google Gemma: Meet Gemma 4 12B! A unified, encoder-free multimodal model designed to bring high-performance intelligence directly to y...

Google多模态模型发布端侧
06:59
DogeDesigner@cb_doge
70
SpaceXAI 不断刷新标准。🔥 Grok Imagine Video 1.5 预览版现已上线 API,效果看起来极为电影感。📽️ 去亲自试试吧。💻 祝 SpaceXAI 好运。🚀
多模态模型发布视频
‹ 上一页
1…56789…23
下一页 ›