AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 906 条
全部一手资讯X论文
标签「多模态」清除
swyx@swyx · 6月18日53

my notes from the @midjourney medical launch - @Scobleizer compared this to the original iPhone and Tesla launches (that he was also front row for) - find you a man who looks at you like @bryan_johnson was 😍 ing for @DavidSHolz - see @iScienceLuvr tweet linked for Nature paper - reminds me of our @biohub episodes: better science starts with better data, and that means better imaging - people asking "but wen FDA?" are so small minded. we will do the easy stuff, then we'll do the harder stuff. roll up your sleeves and help or just be patient. - when you have genuinely better tech+mission, all the other hurdles just sort of fall away/figure themselves out: business model, regulatory approval, hiring, marketing, confusion over what to do - this was just the first of 8 side project launches MJ has planned this year - this is what technological ambition looks like: not 10% better, not 2x better, but 40-100x better in every dimension - how are we getting this level of innovation and ambition out of a $10m/yr research budget and whats wrong with the way we use R&D in every other megacorp/goverment/frontier lab? - how has $BFLY stock not mooned yet, this thing just had its ChatGPT moment thank you to L for letting me into what I believe is going to be the top 10 most important launches i'll ever see live.

译swyx 记录 Midjourney 医疗产品发布,与会者将其比作初代 iPhone 和特斯拉发布。该产品旨在将医学成像质量提升 40-100 倍,实现“扫描器官像称体重”。Midjourney 仅以每年 1000 万美元研发预算支撑这一创新,质疑其他机构的研发效率。今年 MJ 另有 7 个副项目计划发布。Nature 论文及 biohub 播客佐证更好数据驱动更好科学。swyx 认为技术+使命足够强,监管等障碍会自行解决。

Berryxia.AI@berryxia · 6月18日19

卧槽~~ 这根本用不完啊! 真是便宜啊!我接到了Bloome 里面各种音影视频文本文件一股脑搞进去,这么久才花费这么点钱。。 并且日常使用做各种我需要的任务都可以帮我搞定😄

meng shao@shao__meng · 6月18日58

Kimi K2.7 Code 和 Claude Fable 5 生成落地页的实验对比分析 @nutlope 让 Kimi K2.7 Code 和 Claude Fable 5 分别生成 12 个落地页,进行并排对比。实验结果发布在 OVSC 网站上,同时包含 Claude Opus 4.8 的变体生成页面,可以查看总成本、token 用量和生成时间等详细数据。 实验设计 · 基础提示:使用相同提示集,涵盖 B2B SaaS、屋顶 Speakeasy 鸡尾酒吧、SQL 查询转图表开发者工具等不同类别。 · 初始结果:仅凭提示生成时,两个模型均产生明显“AI 生成感”的页面(布局通用、视觉平淡)。 · 优化策略:为 Kimi 设置自定义 Design Inspiration MCP Server,提供高质量落地页截图、UI 元素及视觉参考。由于 Kimi 支持多模态,可直接将图像纳入提示。这显著提升输出质量:层次结构更清晰、排版更优、构图更具意图性,页面加载更快、无破损占位图、易读性更好。 成本对比 · 单页成本示例:B2B SaaS 落地页,Kimi 仅需 4 美分,Claude Fable 则为 1.09 美元(约 27 倍差异)。 · 平均水平:Kimi 比 Fable 约 16 倍便宜,比 Opus 约 8 倍便宜。整体实验中 Kimi 总成本降低 94%(约 16 倍节省)。 · 迭代价值:落地页开发通常需生成多版本、迭代优化。低成本允许廉价快速实验,累积优势显著(如生成 100 页可节省约 94 美元)。 质量对比 使用 GPT-5.5 按标准化评分表(定位、视觉方向、内容结构、工艺、响应式、技术执行等)对截图和源码打分(0-100 分)。Claude Fable 在部分案例中得分略高,但差距较小。Kimi 在设计、结构和整体页面质量上保持竞争力,尤其在提供充足视觉上下文后,性价比优势突出。 关键发现 · 上下文至关重要:单纯提示难以突破通用 AI 风格;引入高质量视觉参考(MCP)能让开源模型实现质的飞跃。 · 开源模型实用性:Kimi K2.7 Code 在成本、速度和 token 效率上表现出色,结合强上下文输入后,已足以支持实际落地页工作流。迭代时优势更明显。 · 实验启示:开源模型正成为生成式编码智能体的现实选择,尤其适合需要大量变体探索的场景。

译@nutlope 让 Kimi K2.7 Code 和 Claude Fable 5 各生成 12 个落地页并排对比。初始两者均有“AI 生成感”;为 Kimi 设置自定义 Design Inspiration MCP Server(利用多模态能力)后质量显著提升。成本上,B2B SaaS 单页 Kimi 仅 4 美分,Claude Fable 1.09 美元(约 27 倍差);平均 Kimi 比 Fable 便宜约 16 倍、比 Opus 便宜约 8 倍,总成本降低 94%。质量由 GPT-5.5 评分(0-100),Claude Fable 略高但差距小,Kimi 性价比突出。实验表明,结合高质量视觉参考后,开源模型已足以支持实际落地页工作流,批量迭代优势显著。

Berryxia.AI@berryxia · 6月18日48

🔥Gemini 3.5 Pro 爆料合集!发布越来越近了! - 谷歌已经开始暗示 Gemini 3.5 Pro,在 Gemini 3.1 Pro 的产品卡片上出现了“3.5 Pro 即将推出”的标签~ - 相比 3.1 Pro,预计视觉能力更强、多模态推理更出色,SVG/前端生成功能也会升级! - 大概率会搭载更严格的安全过滤器和内容审核机制 - 定价预计比 Gemini 3.1 Pro 更高 - 最大期待:谷歌能在正式发布前,修复早期 3.5 Pro 版本在长复杂任务中表现出的“偷懒”问题!

译谷歌即将发布 Gemini 3.5 Pro,已在 Gemini 3.1 Pro 产品卡片上标注“3.5 Pro 即将推出”。相比 3.1 Pro,预计视觉能力更强、多模态推理更出色,SVG/前端生成功能升级。将搭载更严格的安全过滤器和内容审核机制,定价预计更高。最大期待是谷歌能在正式发布前修复早期版本在长复杂任务中的“偷懒”问题。

MiniMax (official)@MiniMax_AI · 6月18日51

image input with M3 carrying a full sim. good build @coldopn

译MiniMax 官方转发用户 @coldopn 的体验:前沿模型已不再仅限于 Anthropic 和 OpenAI。通过将一张插图截图输入 Kilo Code,切换至 MiniMax M3 模型,仅凭一句“将此截图动画化为可工作的黑洞模拟器”的提示词,M3 即生成了完整的黑洞模拟器。整个推理过程仅花费 0.53 美元,展现了 M3 强大的视觉理解与生成能力。

Ethan Mollick@emollick · 6月18日60

I have a fun, oddly useful AI benchmark: "build me a procedurally generated 3D simulation showing the evolution of a harbor town from 3000 BC to 3000 AD, it should look beautiful & allow me to have some control over it" Play the gallery of 20 models: https://ai-harbor-town-gallery.netlify.app/

译我有一个有趣且出奇有用的AI基准测试:“为我构建一个程序化生成的3D模拟,展示一个港口小镇从公元前3000年到公元3000年的演变,它应该看起来很漂亮,并允许我对其进行一些控制。” 查看20个模型的画廊:https://ai-harbor-town-gallery.netlify.app/

Odyssey@odysseyml · 6月18日58

We’ve raised a $310M Series B to accelerate world models! We believe AI that can understand and simulate the world will be one of the most important technologies of our time. We're excited to partner with Natural Capital, Amazon, GV, AMD, IQT, and others to bring this to life.

译我们已筹集 3.1 亿美元 B 轮融资,以加速世界模型! 我们相信,能够理解和模拟世界的 AI 将成为我们时代最重要的技术之一。 我们很高兴与 Natural Capital、Amazon、GV、AMD、IQT 等合作,将这一愿景变为现实。

Chubby♨️@kimmonismus · 6月18日30

I've been working with Tavus for a while now, but this is simply amazing. I'm serious, it's like science fiction. An avatar that I can collaborate with on the PC feels exactly like the future from Star Trek, just as I've always imagined it. It's fantastic. Computer use + voice model + avatar – that's the way forward!

译1987年苹果展示的Knowledge Navigator——能看见用户、控制电脑、外观和声音都像人类的AI助手,近40年后被Tavus在Cerebras支持下变为现实。新推出的Dom具备computer use、语音模型和数字人形象,用户可与之在PC上协作操作。推文作者称这如同科幻成真,像《星际迷航》中的未来。

Alibaba Cloud@alibaba_cloud · 6月17日40

Alibaba has upgraded HappyOyster 1.0, a real-time interactive model by Alibaba Token Hub (ATH) business group. With Adventure and Directing Modes, the enhanced model now offers richer environmental interactions, expanded player controls, and rewindable storylines. These innovations pave the way for opportunities in gaming, interactive dramas, livestreaming, and cultural tourism. Discover how HappyOyster 1.0 is transforming immersive experiences: https://www.alizila.com/alibaba-upgrades-happyoyster-1-0-with-enhanced-interactivity-for-content-creation/ #AlibabaAI #Innovation

译阿里云升级HappyOyster 1.0实时交互模型,新增冒险与导演模式,支持更丰富的环境交互、扩展的玩家控制及可倒回故事线。该升级旨在为游戏、互动剧、直播、文化旅游等场景带来新机遇。

Chubby♨️@kimmonismus · 6月17日46

The interesting move with MaineCoon is that it doesn't stop perceiving once it starts responding. Most conversational AI waits for input, answers, then goes quiet until you speak again; this one is built to keep reading expression, voice, and timing while it talks, in real time. That shifts AI video from something you watch toward something that reacts to you while you're in it, and it's one of the clearer signals I've seen of where real-time, interactive AI is actually heading.

译MaineCoon 是首个不限时长(unlimited-duration)的交互式音视频模型,摒弃了传统AI“等待输入→回复→静默”的轮次模式。它在回答过程中持续实时读取用户的表情、声音和时机,实现边说话边感知的对话体验,将AI视频从被动观看转向主动实时互动,被认为是实时交互AI的前沿信号。

Greg Brockman@gdb · 6月17日74

GPT-Realtime-2 is something new

译Greg Brockman 称 GPT-Realtime-2 是全新事物。@per_simmons_ 体验数周后表示,GPT-Realtime-2 是操作系统的未来,仅用语音即可打开应用、搜索网页、编辑 Premiere Pro,设置只需几个提示词且无需编码。视频演示了通过 MCP 连接 Obsidian 以及利用无障碍树控制 Premiere Pro 等功能。

Berryxia.AI@berryxia · 6月17日65

兄弟们,肝出来了!并且全部免费开源了! 我把PP-OCRv6直接做成了本地工作台,在Mac上用CoreML加速,一键就能切换Tiny、Small、Medium三个模型大小! Tiny只有1.5MB适合极致轻量,Medium 34.5MB主打精度,中间Small做平衡。 支持图片上传、批量处理、结果导出CSV/Markdown/Excel,历史记录自动保存。 整个东西完全本地跑,隐私安全,不用上传任何数据。 最爽的是在苹果硅上自动开启CoreML加速,Intel Mac和Linux也能CPU跑。 还专门做了浏览器版Tiny模型,零依赖直接在网页里就能用OCR。 附带评测脚本,能跟OmniDocBench和macOS自带Apple Vision对比,实际测试在弯曲表面、点阵字体、低对比度这些难搞场景表现都不错。 以前做本地OCR最烦的就是模型下载、环境配置、精度和速度权衡,现在我把这些全封装好了。 开发者、研究者、需要离线处理文档的人直接clone就能用。 这其实是我自己日常做OCR时踩了很多坑后,顺手做的东西。 希望能帮到同样有这个需求的朋友。

译Berry Xia 开源了基于 PP-OCRv6 的本地工作台,在 Mac 上使用 CoreML 加速,提供 Tiny(1.5MB)、Small、Medium(34.5MB)三个模型大小,支持一键切换。支持图片上传、批量处理、结果导出 CSV/Markdown/Excel,历史记录自动保存。全部本地运行,隐私安全;苹果硅自动开启 CoreML 加速,Intel Mac 和 Linux 也能用 CPU 跑。另提供浏览器版 Tiny 模型,零依赖即可在网页端使用。附带评测脚本可对比 OmniDocBench 和 macOS 自带 Apple Vision,在弯曲表面、点阵字体、低对比度等场景表现良好。

宝玉@dotey · 6月17日75

baoyu-design skill 可以在本地生成动画视频,导出 mp4 格式,就像附件视频这个。 Claude Design 网页版可以用提示词创建动画视频,但你需要在网页上才能看到视频,无法下载。也有人基于第三方插件录屏软件实现过,不过很麻烦,效果也不是很好。 在这套 Skill 基础上,我已经实现了直接把动画导出成 mp4 视频的能力。 生成动画和导出视频,其实原理差不多,就是每一帧画面,都是根据所在时间坐标算出来的,就像一个函数 f(t),你传入给动画引擎任意一个时间点 t,它能直接算出那一瞬间屏幕上每个元素的位置、透明度、大小,所有视觉状态完全由 t 决定。不需要从头播放到那个时刻,也不需要记住之前发生了什么。 传统写动画的方式是命令式的:到了某个时刻,去改某个元素的位置,把透明度调一下。状态散落在各处,时间一乱画面就乱。这套引擎反过来,用的是声明式思路:你不去驱动元素运动,只描述在第 t 秒,每个元素应该长什么样。 打个比方,传统动画像看电影,你必须从头看才知道第 30 分钟画面是什么。这套引擎更像一本特殊的书,翻到任意一页,画面都是完整的、确定的。 这个设计带来了三个能力: 1. 拖动播放条跳到任意位置可以,因为 f(t) 随时能算; 2. 反复调试同一个画面可以,因为同一个 t 永远产出同一帧; 3. 把动画导出成视频也可以,而且方式很巧妙。 那么导出视频是怎么实现的呢? 直觉上,把浏览器里的动画变成 MP4,录个屏不就行了? 录屏是实时的。机器稍微一卡就掉帧,拍出来的视频不可复现。而且播放条、黑色背景、圆角阴影这些"播放器外壳"会一起被录进去。 baoyu-design 用的方法更像定格动画的拍摄:启动一个无头浏览器(没有界面的 Chromium),加载动画页面,通过引擎预留的一个控制接口精确操控时间轴。每设定一个时间点,等浏览器把画面渲染完成,截一张图,通过管道直接喂给 ffmpeg 编码。一段 95 秒、30fps 的动画就是 2850 次"摆好时间,拍照"的循环。慢,但每一帧都是精确的,绝不掉帧。 这里有个容易忽略的细节:设定时间后,工具会等两帧 requestAnimationFrame 再截图。因为修改时间只是改了 React 状态,浏览器还需要一到两帧才能把新画面真正画到屏幕上。等少了,截到的可能是上一帧的残影。 为了让画面更锐利,截图时用 2 倍设备像素比渲染,实际按 3840×2160 出图,最后由 ffmpeg 缩回 1080p。原理和高分辨率印刷一样:先在更大的画布上精细绘制,再高质量缩小,文字边缘和细线会明显更清晰。 baoyu-design 在 GitHub 开源(MIT 协议),目前 1.2K star。感兴趣的可以去看看它的 skills/baoyu-design 目录,动画引擎的完整实现都在里面。 https://github.com/jimliu/baoyu-design

译baoyu-design(本地运行 Claude Design 的 Skill)新增动画视频导出功能。其声明式动画引擎基于 f(t) 设计:任意时间点 t 可绝对确定画面状态。导出采用无头 Chromium 逐帧截图 + ffmpeg 编码,每帧等待两帧 requestAnimationFrame 确保渲染完成。截图以 2 倍 DPR(3840×2160)再缩回 1080p,保证细节清晰。95 秒 30fps 动画需 2850 次截图循环,帧帧精确。项目已开源(MIT),获 1.2K star。此前 baoyu-design 已支持 PPT 本地生成和导出可编辑 PPTX。

AK@_akhaliq · 6月17日26

Data Journalist Agent Transforming Data into Verifiable Multimodal Stories

译数据记者智能体 将数据转化为可验证的多模态故事

Rohan Paul@rohanpaul_ai · 6月17日65

Catnip just dropped MaineCoon, a 22B real-time audio-visual foundation model that turns text prompts into a live character stream with synced speech, motion, and expression. The first streaming-native model of its kind. sub-second first frame, 47.5FPS on one H100, 30FPS on one RTX Pro 6000, and about 7x faster throughput than comparable audio-visual systems in its internal tests. The big deal is that a normal video generator can wait, revise, and render a finished clip, but a social interface has to move causally, remember its own imperfect past, and stay ahead of playback without breaking identity, voice, or rhythm.

译Catnip推出MaineCoon,一个22B参数的实时音频-视觉基础模型,能将文本提示词转化为带同步语音、动作和表情的实时角色流,支持无限时长交互。作为首个流式原生模型,MaineCoon实现亚秒级首帧,单张H100上达47.5FPS,单张RTX Pro 6000上达30FPS,内部测试吞吐量比同类音频-视觉系统快约7倍。与被动视频生成不同,它能因果性地实时响应,记住自身不完美的过去,并保持角色身份、声音和节奏的连贯一致,让AI从轮次式应答变为“与你同在”的实时存在。

Ethan Mollick@emollick · 6月17日32

Compare GPT-5.2 from 7 months ago with the new GLM-5.2 Deep Think Max's: "create a visually interesting shader that can run in twigl with an infinite city of neo-gothic towers partially drowned in a stormy ocean with large waves" "Make it better" GLM-5.2 also had a couple errors

译Ethan Mollick 将 7 个月前的 GPT-5.2 与新款 GLM-5.2 Deep Think Max 进行对比,用同一提示词要求生成可运行于 Twigl 的着色器(描绘哥特塔楼无限城市半淹于风暴海洋)。GLM-5.2 出现了若干错误。此前 Ethan 曾提前体验 GPT-5.2,并展示了 GPT-5.2 Pro 单次生成的该着色器版本。

AK@_akhaliq · 6月17日24

JoyAI-VL-Interaction Real-Time Vision-Language Interaction Intelligence

译JoyAI-VL-Interaction 实时视觉语言交互智能

DogeDesigner@cb_doge · 6月17日69

🚨 Grok Update 🚨 You can now share your screen with Grok and get real-time help in Voice Mode. Just tap the window icon, select Share Screen, and start the broadcast.

译🚨 Grok 更新 🚨 现在你可以与 Grok 共享屏幕,并在语音模式下获得实时帮助。 只需点击窗口图标,选择共享屏幕,然后开始广播。

StepFun@StepFun_ai · 6月17日51

Excited to see Step 3.7 Flash live via @novita_labs on @OpenRouter. Built for high-efficiency agent workloads, Step 3.7 Flash combines native multimodal understanding, strong agentic coding capabilities, reliable tool use, and web & visual search workflows for production AI agents. Thanks to the Novita team for helping expand the StepFun ecosystem.

译阶跃星辰的 Step 3.7 Flash 已通过 Novita 在 OpenRouter 上线。该模型专为高效智能体工作负载设计,具备原生多模态理解、强智能体编码能力、可靠工具使用,以及网页与视觉搜索工作流。引用信息强调其高效多模态推理和多步工具使用能力,主要面向编码与智能体应用场景。

fofr@fofrAI · 6月16日24

Did you know Omni is good at text?

译你知道吗,Omni 也擅长文本处理。

fofr@fofrAI · 6月16日60

A reminder: Omni can generate entirely new audio for you if you remove any existing audio tracks first ffmpeg -i input.mp4 -c:v copy -an input_without_audio.mp4

译提醒:如果你先移除视频中现有的音轨,Omni 可以为你生成全新音频。 ffmpeg -i input.mp4 -c:v copy -an input_without_audio.mp4

SiliconFlow@SiliconFlowAI · 6月16日65

Better Coding with Less Overthinking K2.7 Code takes K2.6's strong base and goes deep Meet @MoonshotAI Kimi K2.7 Code on SiliconFlow — coding-focused, agentic, purpose-built on K2.6. 💰 Cache Input/Input/Output: 0.19/0.94/4.00 per 1M tokens 💪Improved coding & agentic performance, approaches GPT5.5 & Opus 4.8 🧠Less overthinking: 30% lower reasoning-token usage vs K2.6 ⚙️Long-horizon coding: better instruction following, higher end-to-end task completion rates 32B Activated/ 1T Params | VLM | Interleaved Thinking | Multi-Step Tool Call Try it on SiliconFlow ⬇️

译硅基流动上线月之暗面Kimi K2.7 Code模型。基于K2.6改进,专注编码与智能体任务。32B激活/1T总参,VLM多模态,支持交错思考与多步工具调用。相比K2.6,推理token使用减少30%,减少过度思考;长程编码任务指令遵循和完成率提升。性能接近GPT5.5与Opus 4.8。价格:缓存输入0.19/输入0.94/输出4.00每百万token。

凡人小北@frxiaobei · 6月16日14

这种故事 AI 写不了吧? 如果可以写,我可以付费买提示词。

Greg Brockman@gdb · 6月16日40

great ux makes such a difference

译我们刚为 ChatGPT 推送了更快、更流畅的照片附件体验!附件菜单现在可平滑过渡到相机,拍摄更迅速,选中的图片直接移入输入框,整个流程如同一个连续动作。优秀的用户体验影响巨大。

向阳乔木@vista8 · 6月16日23

你可能和我一样,经典古籍实在读不下去。 以《道德经》为例,拆解每句翻译成大白话 + AI生图,一下就Get了。 项目正在开发中,预计本周开源。

Josh Woodward@joshwoodward · 6月16日74

Our mic icon just got way better on Android and iOS! This is HUGE for non-English speakers. + now 70+ languages + mix languages freely + don't have to change language settings + still doesn't interrupt you :)

译我们的麦克风图标在 Android 和 iOS 上变得更好用了!这对非英语使用者来说意义重大。 + 现已支持 70+ 种语言 + 可自由混用语言 + 无需更改语言设置 + 仍然不会打断你 :)

Google AI Developers@googleaidevs · 6月16日44

How does Gemma 4 12B handle audio and vision without encoders? @MaartenGr maps out the architecture in this step-by-step visual guide. ⤵️ https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4-12b

译Gemma 4 12B 如何处理音频和视觉而无编码器?@MaartenGr 用逐步视觉指南解析了该架构。⤵️ https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4-12b

Ethan Mollick@emollick · 6月16日39

Very clever. And matches what I would expect: models are weak on vision relative to everything else, so visual steps are where errors accumulate most in workflows.

译非常巧妙。而且符合我的预期:模型在视觉方面弱于其他一切,因此可视化步骤是工作流中错误积累最多的地方。

AYi@AYi_AInotes · 6月16日68

seedance 2.0比Grok贵将近4倍, 但生成视频这质量一点也不输啊, 这可是就一句话的提示词兄弟们, 只是想测一下Grok对中国古装风格的理解,真的超预期了

译用户对比Seedance 2.0与Grok的视频生成效果,发现Seedance 2.0价格贵近4倍,质量却不相上下;仅用一句话提示词测试Grok对中国古装风格理解,结果超预期。引用推文指出,GPT Image 2加Grok的混合工作流性价比极高:SuperGrok月费30美元,目前有3个月67%优惠,单条短片几乎零边际成本。角色风格一致性由GPT Image 2把控,出图后丢进Grok做动态效果即可。

OpenRouter@OpenRouter · 6月15日32

Sneak peak of the new multimodal Rankings page 👀 Google's Veo 3.1 climbing the video leaderboard

译新多模态排名页面的预览 👀 Google 的 Veo 3.1 正在视频排行榜上攀升

小互@xiaohu · 6月15日60

兄弟们 这个牛P啊 Agentic Detection:一个视觉检测模型 用一句话描述,AI 就在图里精确圈出目标 你只需要给它一张照片,描述你要找什么,它要把里面的东西用方框圈出来,再告诉你每个框里都是什么。 而且不需要你提前训练它... 它还能处理需要物理推理的检测,例如: 你说"烟的来源"在哪,它会推理整个画面,定位到森林火灾的起火点 你说"需要维修的电线杆",它能挑出变形的电力设施 你说"空着的停车位有哪些",它能找出来并标记

译Perceptron推出Agentic Detection视觉检测模型,用户只需提供一张图片并用自然语言描述目标,即可自动框出并分类,无需预先训练。该模型还能处理物理推理检测任务,例如定位森林火灾的起火点(“烟的来源”)、挑出变形电线杆(“需要维修的电线杆”)、标记空车位等。引用推文指出,该模型支持用自然语言或示例描述任意物体进行定位。

Ethan Mollick@emollick · 6月14日62

Final one-shot prompt I did before the Fable interruption: "build me a cool simulation thing that lets me demo the various forms of FTL travel from both famous works of fiction and scientific speculation. it should be graphically compelling & interesting." https://superluminal-ftl.netlify.app/

译在 Fable 打断之前,我完成的最后一次一次性提示词:“做一个很酷的模拟工具,让我能演示从科幻名作和科学推测中来的各种超光速旅行形式。它应该有视觉吸引力且有趣。” https://superluminal-ftl.netlify.app/

StepFun@StepFun_ai · 6月14日48

Step 3.7 Flash is now live on @DeepInfra 🚀 Builders and teams can now try our open-source multimodal reasoning model through DeepInfra’s API, with private endpoint deployment available for dedicated workloads. Built for agentic coding, tool use, search, and vision workflows. Thanks to the DeepInfra team!

译Step 3.7 Flash 现已上线 @DeepInfra 🚀 开发者和团队现可通过 DeepInfra 的 API 试用我们的开源多模态推理模型,并可为专用工作负载部署私有端点。 专为智能体编程、工具使用、搜索和视觉工作流而构建。 感谢 DeepInfra 团队!

StepFun@StepFun_ai · 6月14日43

Step 3.7 Flash is now live on @DeepInfra 🚀 Developers can now try our open-source multimodal reasoning model through DeepInfra’s API, with private endpoint deployment available for dedicated workloads. Built for agentic coding, tool use, search, and vision workflows. Thanks to the DeepInfra team!

译Step 3.7 Flash 现已在 @DeepInfra 上线 🚀 开发者现在可以通过 DeepInfra 的 API 试用我们的开源多模态推理模型,并支持为专用工作负载部署私有端点。 专为智能体编程、工具使用、搜索和视觉工作流打造。 感谢 DeepInfra 团队!

MiniMax (official)@MiniMax_AI · 6月14日45

All powered by M3 on Hermes Agent @NousResearch

译我本人没有操作 TouchDesigner。Hermes Agent 从头开始学习并完成了以下工作: → 使用计算机操控功能浏览我的桌面 → 弄明白如何连接到 TouchDesigner → 读取我的参考图像 → 与我一起在自我学习循环中迭代艺术作品 → 然后将学到的内容保存为可复用的技能,用于处理下一张图像 这一切均由 @MiniMax_AI M3 × Hermes Desktop Agent @NousResearch 驱动。 完整演示 📽️

Suno@suno · 6月14日70

Major update: Stem separation on Suno just got a massive level up. 🚀 We’re now regenerating stems from scratch instead of just isolating frequencies. The result? Clean, artifact-free tracks ready to drop into your DAW.

译重大更新:Suno 的音轨分离刚刚大幅升级。🚀 我们现在从零重新生成音轨,而非仅仅隔离频率。结果如何?纯净无伪影的音轨,可直接拖入你的 DAW。

jason@jxnlco · 6月14日9

The great @heyjgold and our production team!

译了不起的@heyjgold和我们的制作团队! 有人感叹GPT-4o麦片真是个绝妙的主意(之前从IG看到,无法再找到出处)。

Rohan Paul@rohanpaul_ai · 6月13日51

Higgsfield just announced Higgsfield Games, a prompt-to-multiplayer product that can build and deploy 2D or 3D games with generated characters, props, and settings. Build and deploy multiplayer games from one prompt, in any genre, 2D or 3D. The hard part in any game project was turning an idea into code, assets, physics, multiplayer, and launch, and Higgsfield compresses that into one prompt. Claude Fable 5 reason through the game idea while Higgsfield MCP calls the tools that build characters, props, environments, and playable structure.

译Higgsfield 近日宣布推出 Higgsfield Games,这是一款可从一条提示词直接构建并部署任意类型 2D 或 3D 多人游戏的产品,自动生成角色、道具和场景。该产品由 Claude Fable 5 推理游戏创意,并通过 Higgsfield MCP 调用工具完成资产和物理逻辑构建,将创意转化为代码、资产、多人游戏和发布的全流程压缩为单次提示词操作。用户可通过 Claude 的 MCP 界面或 Higgsfield 超级计算机体验。

Rohan Paul@rohanpaul_ai · 6月13日68

Nvidia's Cosmos 3: 1 model that can understand, simulate, and act across many physical AI tasks. It treats action as a first-class language of the world. Most AI models look at reality from the outside: images become captions, videos become descriptions, and motion becomes something to label after the fact. Cosmos 3 tries to collapse that distance by putting language, image, video, audio, and action into one shared system, so a robot can connect what it sees with what might happen next and what it should do. A home robot cannot simply recognize a plate, a table, and a human instruction, because the useful question is what changes when it moves, grasps, slips, bumps, or waits. That is why the paper’s action-token design matters: it turns movement into something the model can condition on, infer from video, or generate alongside a future scene. ---- Link – arxiv. org/abs/2606.02800 Title: "Cosmos 3: Omnimodal World Models for Physical AI"

译Nvidia发布Cosmos 3——一种全模态世界模型,将语言、图像、视频、音频和动作整合到同一系统,使物理AI能跨越“理解、模拟、行动”三大任务。它把动作视为世界的第一类语言,通过动作token设计,让模型可基于视频推断动作,或同时生成未来场景及对应运动。这使机器人从“识别物体”升级为预测“移动、抓取、滑动”等交互后果。相关论文《Cosmos 3: Omnimodal World Models for Physical AI》已发布于arXiv。

MiniMax (official)@MiniMax_AI · 6月13日80

the kernels are doing the lord's work today, day-0 on @vllm_project, verified on nvidia and amd. go read the writeup 👇

译MiniMax 发布全新开源模型 M3,具备前沿编码、智能体能力、原生图像视频输入、Computer Use 及 1M-token 上下文窗口。核心采用 MSA 稀疏注意力架构:每个 query 仅对 128-token 的 KV 块打分,只关注 top 块,使超长上下文实际可部署。M3 在 vLLM 获 Day-0 支持,已在 NVIDIA 和 AMD 硬件验证,包括 MSA 专用 prefill/decode kernel、1M-token 上下文服务(prefix caching + chunked prefill)、BF16/MXFP8 检查点(Hopper 和 Blackwell 的 MoE 后端)、原生多模态输入,以及工具调用、推理解析和思考模式控制等功能。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月18日
12:50
swyx@swyx
53
swyx 的 Midjourney 医疗产品发布现场笔记

swyx 记录 Midjourney 医疗产品发布,与会者将其比作初代 iPhone 和特斯拉发布。该产品旨在将医学成像质量提升 40-100 倍,实现“扫描器官像称体重”。Midjourney 仅以每年 1000 万美元研发预算支撑这一创新,质疑其他机构的研发效率。今年 MJ 另有 7 个副项目计划发布。Nature 论文及 biohub 播客佐证更好数据驱动更好科学。swyx 认为技术+使命足够强,监管等障碍会自行解决。

Latent.Space: [AINews Jun 17] Midjourney Medical: scan your organs like you step on a scale https://www.latent.space/p/ainews-midjourn...

多模态大佬观点
09:43
Berryxia.AI@berryxia
19
卧槽~~ 这根本用不完啊! 真是便宜啊!我接到了Bloome 里面各种音影视频文本文件一股脑搞进去,这么久才花费这么点钱。。 并且日常使用做各种我需要的任务都可以帮我搞定😄
多模态大佬观点
09:19
meng shao@shao__meng
58
Kimi K2.7 Code 和 Claude Fable 5 生成落地页的实验对比分析

@nutlope 让 Kimi K2.7 Code 和 Claude Fable 5 各生成 12 个落地页并排对比。初始两者均有“AI 生成感”;为 Kimi 设置自定义 Design Inspiration MCP Server(利用多模态能力)后质量显著提升。成本上,B2B SaaS 单页 Kimi 仅 4 美分,Claude Fable 1.09 美元(约 27 倍差);平均 Kimi 比 Fable 便宜约 16 倍、比 Opus 便宜约 8 倍,总成本降低 94%。质量由 GPT-5.5 评分(0-100),Claude Fable 略高但差距小,Kimi 性价比突出。实验表明,结合高质量视觉参考后,开源模型已足以支持实际落地页工作流,批量迭代优势显著。

Hassan: http://x.com/i/article/2067278912984436736

多模态开源生态编码评测/基准
08:43
Berryxia.AI@berryxia
48
Gemini 3.5 Pro 爆料:视觉、多模态与安全升级

谷歌即将发布 Gemini 3.5 Pro,已在 Gemini 3.1 Pro 产品卡片上标注“3.5 Pro 即将推出”。相比 3.1 Pro,预计视觉能力更强、多模态推理更出色,SVG/前端生成功能升级。将搭载更严格的安全过滤器和内容审核机制,定价预计更高。最大期待是谷歌能在正式发布前修复早期版本在长复杂任务中的“偷懒”问题。

Google多模态推理行业动态
07:14
MiniMax (official)@MiniMax_AI
51
MiniMax 官方转发用户 @coldopn 的体验:前沿模型已不再仅限于 Anthropic 和 OpenAI。通过将一张插图截图输入 Kilo Code,切换至 MiniMax M3 模型,仅凭一句"将此截图动画化为可工作的黑洞模拟器"的提示词,M3 即生成了完整的黑洞模拟器。整个推理过程仅花费 0.53 美元,展现了 M3 强大的视觉理解与生成能力。

Brian Turcotte: Frontier doesn't only mean Anthropic and OpenAI anymore. I built this black hole simulator by simply dropping an illustr...

GitHub多模态编码评测/基准
01:16
Ethan Mollick@emollick
60
我有一个有趣且出奇有用的AI基准测试:"为我构建一个程序化生成的3D模拟,展示一个港口小镇从公元前3000年到公元3000年的演变,它应该看起来很漂亮,并允许我对其进行一些控制。" 查看20个模型的画廊:https://ai-harbor-town-gallery.netlify.app/
多模态评测/基准
00:33
Odyssey@odysseyml
58
我们已筹集 3.1 亿美元 B 轮融资,以加速世界模型! 我们相信,能够理解和模拟世界的 AI 将成为我们时代最重要的技术之一。 我们很高兴与 Natural Capital、Amazon、GV、AMD、IQT 等合作,将这一愿景变为现实。
多模态行业动态视频
00:28
Chubby♨️@kimmonismus
30
1987年苹果展示的Knowledge Navigator--能看见用户、控制电脑、外观和声音都像人类的AI助手,近40年后被Tavus在Cerebras支持下变为现实。新推出的Dom具备computer use、语音模型和数字人形象,用户可与之在PC上协作操作。推文作者称这如同科幻成真,像《星际迷航》中的未来。

Hassaan Raza: Last week Apple previewed the future of Siri. In 1987 though, Apple showcased a far more advanced AI assistant that woul...

智能体产品更新多模态
6月17日
19:19
Alibaba Cloud@alibaba_cloud
40
阿里升级实时交互模型HappyOyster 1.0

阿里云升级HappyOyster 1.0实时交互模型,新增冒险与导演模式,支持更丰富的环境交互、扩展的玩家控制及可倒回故事线。该升级旨在为游戏、互动剧、直播、文化旅游等场景带来新机遇。

产品更新多模态
18:50
Chubby♨️@kimmonismus
46
MaineCoon 是首个不限时长(unlimited-duration)的交互式音视频模型,摒弃了传统AI"等待输入→回复→静默"的轮次模式。它在回答过程中持续实时读取用户的表情、声音和时机,实现边说话边感知的对话体验,将AI视频从被动观看转向主动实时互动,被认为是实时交互AI的前沿信号。

Catnip: 🥇MaineCoon: From Passive Video to Real-Time AI Presence The first unlimited-duration interactive audio-visual model. Mo...

多模态大佬观点视频
12:23
Greg Brockman@gdb
74
Greg Brockman 称 GPT-Realtime-2 是全新事物。@per_simmons_ 体验数周后表示,GPT-Realtime-2 是操作系统的未来,仅用语音即可打开应用、搜索网页、编辑 Premiere Pro,设置只需几个提示词且无需编码。视频演示了通过 MCP 连接 Obsidian 以及利用无障碍树控制 Premiere Pro 等功能。

Pat Simmons: GPT-Realtime 2 is the future of the operating system. I've been experimenting with it for a couple weeks now, and I gott...

OpenAI多模态教程/实践语音
11:35
Berryxia.AI@berryxia
65
Berry Xia 开源 PP-OCRv6 本地工作台,支持 CoreML 加速及三模型切换

Berry Xia 开源了基于 PP-OCRv6 的本地工作台,在 Mac 上使用 CoreML 加速,提供 Tiny(1.5MB)、Small、Medium(34.5MB)三个模型大小,支持一键切换。支持图片上传、批量处理、结果导出 CSV/Markdown/Excel,历史记录自动保存。全部本地运行,隐私安全;苹果硅自动开启 CoreML 加速,Intel Mac 和 Linux 也能用 CPU 跑。另提供浏览器版 Tiny 模型,零依赖即可在网页端使用。附带评测脚本可对比 OmniDocBench 和 macOS 自带 Apple Vision,在弯曲表面、点阵字体、低对比度等场景表现良好。

Berryxia.AI: http://x.com/i/article/2066906413935611904

产品更新多模态端侧
08:27
宝玉@dotey
精选75
baoyu-design 本地动画视频导出功能更新

baoyu-design(本地运行 Claude Design 的 Skill)新增动画视频导出功能。其声明式动画引擎基于 f(t) 设计:任意时间点 t 可绝对确定画面状态。导出采用无头 Chromium 逐帧截图 + ffmpeg 编码,每帧等待两帧 requestAnimationFrame 确保渲染完成。截图以 2 倍 DPR(3840×2160)再缩回 1080p,保证细节清晰。95 秒 30fps 动画需 2850 次截图循环,帧帧精确。项目已开源(MIT),获 1.2K star。此前 baoyu-design 已支持 PPT 本地生成和导出可编辑 PPTX。

宝玉: baoyu-design skill(让你本地运行 Claude Design 的 Skill)更新,本地生成 PPT 的效果,可以借助 Cursor、Codex 内置的浏览器预览 PPT,也可以直接用它们的标记工具修改 PPT 细节。按 ...

GitHub多模态开源/仓库视频

推荐理由:宝玉把 Claude Design 动画导出能力做成了本地 skill,原理讲得很透,声明式引擎加 f(t) 直接抽帧的思路让开发者能零成本复现,想要高质量 AI 动画输出的创作者可以立即用起来。
05:35
AK@_akhaliq
26
数据记者智能体 将数据转化为可验证的多模态故事
智能体多模态论文/研究
04:35
Rohan Paul@rohanpaul_ai
65
Catnip推出MaineCoon:22B实时音频-视觉流式基础模型

Catnip推出MaineCoon,一个22B参数的实时音频-视觉基础模型,能将文本提示词转化为带同步语音、动作和表情的实时角色流,支持无限时长交互。作为首个流式原生模型,MaineCoon实现亚秒级首帧,单张H100上达47.5FPS,单张RTX Pro 6000上达30FPS,内部测试吞吐量比同类音频-视觉系统快约7倍。与被动视频生成不同,它能因果性地实时响应,记住自身不完美的过去,并保持角色身份、声音和节奏的连贯一致,让AI从轮次式应答变为“与你同在”的实时存在。

Catnip: 🥇MaineCoon: From Passive Video to Real-Time AI Presence The first unlimited-duration interactive audio-visual model. Mo...

多模态模型发布视频语音
03:35
Ethan Mollick@emollick
32
Ethan Mollick 将 7 个月前的 GPT-5.2 与新款 GLM-5.2 Deep Think Max 进行对比,用同一提示词要求生成可运行于 Twigl 的着色器(描绘哥特塔楼无限城市半淹于风暴海洋)。GLM-5.2 出现了若干错误。此前 Ethan 曾提前体验 GPT-5.2,并展示了 GPT-5.2 Pro 单次生成的该着色器版本。

Ethan Mollick: Had early access to GPT-5.2. Its an impressive model. Here is GPT 5.2 Pro's version of "create a visually interesting sh...

多模态评测/基准
01:00
AK@_akhaliq
24
JoyAI-VL-Interaction 实时视觉语言交互智能
多模态论文/研究
00:23
DogeDesigner@cb_doge
69
🚨 Grok 更新 🚨 现在你可以与 Grok 共享屏幕,并在语音模式下获得实时帮助。 只需点击窗口图标,选择共享屏幕,然后开始广播。
xAI产品更新多模态语音
00:01
StepFun@StepFun_ai
51
阶跃星辰的 Step 3.7 Flash 已通过 Novita 在 OpenRouter 上线。该模型专为高效智能体工作负载设计,具备原生多模态理解、强智能体编码能力、可靠工具使用,以及网页与视觉搜索工作流。引用信息强调其高效多模态推理和多步工具使用能力,主要面向编码与智能体应用场景。

Novita AI: 🚀 Step 3.7 Flash from @StepFun_ai is now available via Novita on @OpenRouter. High-efficiency multimodal reasoning. Mul...

智能体多模态推理模型发布
6月16日
23:48
fofr@fofrAI
24
你知道吗,Omni 也擅长文本处理。
OpenAI多模态评测/基准
22:48
fofr@fofrAI
60
提醒:如果你先移除视频中现有的音轨,Omni 可以为你生成全新音频。 ffmpeg -i input.mp4 -c:v copy -an input_without_audio.mp4

fofr: Omni tip: If you remove any audio from the video you're editing, Omni will fully regenerate the audio for you, which mig...

多模态教程/实践
22:18
SiliconFlow@SiliconFlowAI
同事件精选65
Kimi K2.7 Code发布:专注编码的智能体模型,接近GPT5.5

硅基流动上线月之暗面Kimi K2.7 Code模型。基于K2.6改进,专注编码与智能体任务。32B激活/1T总参,VLM多模态,支持交错思考与多步工具调用。相比K2.6,推理token使用减少30%,减少过度思考;长程编码任务指令遵循和完成率提升。性能接近GPT5.5与Opus 4.8。价格:缓存输入0.19/输入0.94/输出4.00每百万token。

多模态模型发布编码
同一事件,精选展示《6倍速!Kimi K2.7 Code 高速版已上线》
推荐理由:K2.7 Code 在编码上逼近 GPT-5.5 和 Opus 4.8,同时推理 token 用量降低 30%,对追求前沿编码能力又在意成本的技术团队是个实用选择,硅基流动上的定价也给了明确预期。
21:46
凡人小北@frxiaobei
14
这种故事 AI 写不了吧? 如果可以写,我可以付费买提示词。
多模态现象/趋势
14:35
Greg Brockman@gdb
40
我们刚为 ChatGPT 推送了更快、更流畅的照片附件体验!附件菜单现在可平滑过渡到相机,拍摄更迅速,选中的图片直接移入输入框,整个流程如同一个连续动作。优秀的用户体验影响巨大。

Naman Kedia: We just shipped a faster, more fluid photo attach experience in ChatGPT! The attach menu now transitions smoothly into t...

OpenAI产品更新多模态
09:49
向阳乔木@vista8
23
你可能和我一样,经典古籍实在读不下去。 以《道德经》为例,拆解每句翻译成大白话 + AI生图,一下就Get了。 项目正在开发中,预计本周开源。
多模态开源/仓库
08:07
Josh Woodward@joshwoodward
74
我们的麦克风图标在 Android 和 iOS 上变得更好用了!这对非英语使用者来说意义重大。 + 现已支持 70+ 种语言 + 可自由混用语言 + 无需更改语言设置 + 仍然不会打断你 :)
Google产品更新多模态语音
05:36
Google AI Developers@googleaidevs
44
Gemma 4 12B 如何处理音频和视觉而无编码器?@MaartenGr 用逐步视觉指南解析了该架构。⤵️ https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4-12b
Google多模态教程/实践
01:15
Ethan Mollick@emollick
39
非常巧妙。而且符合我的预期:模型在视觉方面弱于其他一切,因此可视化步骤是工作流中错误积累最多的地方。

Josh Tycko: Can AI find the monkey business in your dataset?

多模态大佬观点
00:59
AYi@AYi_AInotes
68
用户对比Seedance 2.0与Grok的视频生成效果,发现Seedance 2.0价格贵近4倍,质量却不相上下;仅用一句话提示词测试Grok对中国古装风格理解,结果超预期。引用推文指出,GPT Image 2加Grok的混合工作流性价比极高:SuperGrok月费30美元,目前有3个月67%优惠,单条短片几乎零边际成本。角色风格一致性由GPT Image 2把控,出图后丢进Grok做动态效果即可。

AYi: GPT Image 2 加 Grok简直是目前玩AI视频的性价比之王,而且grok还能给你加字幕,真的厉害,@grok bro你还藏了多少我不知道的? 自从Seedance一直涨价我就没续订会员了, 本来以为 Seedance 2.0 是当...

OpenAIxAI多模态视频
6月15日
23:56
OpenRouter@OpenRouter
32
新多模态排名页面的预览 👀 Google 的 Veo 3.1 正在视频排行榜上攀升
Google产品更新多模态视频
18:44
小互@xiaohu
60
Perceptron发布Agentic Detection视觉检测模型

Perceptron推出Agentic Detection视觉检测模型,用户只需提供一张图片并用自然语言描述目标,即可自动框出并分类,无需预先训练。该模型还能处理物理推理检测任务,例如定位森林火灾的起火点(“烟的来源”)、挑出变形电线杆(“需要维修的电线杆”)、标记空车位等。引用推文指出,该模型支持用自然语言或示例描述任意物体进行定位。

Perceptron AI: Today we're releasing Perceptron Agentic Detection: localize anything you can describe in natural language or show examp...

多模态模型发布
6月14日
22:44
Ethan Mollick@emollick
62
在 Fable 打断之前,我完成的最后一次一次性提示词:"做一个很酷的模拟工具,让我能演示从科幻名作和科学推测中来的各种超光速旅行形式。它应该有视觉吸引力且有趣。" https://superluminal-ftl.netlify.app/
多模态教程/实践
15:41
StepFun@StepFun_ai
48
Step 3.7 Flash 现已上线 @DeepInfra 🚀 开发者和团队现可通过 DeepInfra 的 API 试用我们的开源多模态推理模型,并可为专用工作负载部署私有端点。 专为智能体编程、工具使用、搜索和视觉工作流而构建。 感谢 DeepInfra 团队!

DeepInfra: Step 3.7 Flash is Live on DeepInfra: An Agentic, Multimodal Model Built for Production

多模态开源生态推理行业动态
15:11
StepFun@StepFun_ai
43
Step 3.7 Flash 现已在 @DeepInfra 上线 🚀 开发者现在可以通过 DeepInfra 的 API 试用我们的开源多模态推理模型,并支持为专用工作负载部署私有端点。 专为智能体编程、工具使用、搜索和视觉工作流打造。 感谢 DeepInfra 团队!

DeepInfra: Step 3.7 Flash is Live on DeepInfra: An Agentic, Multimodal Model Built for Production

多模态推理模型发布
07:50
MiniMax (official)@MiniMax_AI
45
我本人没有操作 TouchDesigner。Hermes Agent 从头开始学习并完成了以下工作: → 使用计算机操控功能浏览我的桌面 → 弄明白如何连接到 TouchDesigner → 读取我的参考图像 → 与我一起在自我学习循环中迭代艺术作品 → 然后将学到的内容保存为可复用的技能,用于处理下一张图像 这一切均由 @MiniMax_AI M3 × Hermes Desktop Agent @NousResearch 驱动。 完整演示 📽️

Amber Shen: I didn't touch TouchDesigner myself. Hermes agent learned it from scratch and built this: → navigated my desktop with co...

智能体多模态行业动态
02:31
Suno@suno
同事件精选70
重大更新:Suno 的音轨分离刚刚大幅升级。🚀 我们现在从零重新生成音轨,而非仅仅隔离频率。结果如何?纯净无伪影的音轨,可直接拖入你的 DAW。
产品更新多模态
同一事件,精选展示《更高水平的创意控制 · Suno团队》
推荐理由:Suno 把 stem 分离从滤波换成了重新生成,这对做音乐的人来说是个实质进步,artifacts 老问题被从根上解决,不再只是凑合能用。
02:24
jason@jxnlco
9
了不起的@heyjgold和我们的制作团队! 有人感叹GPT-4o麦片真是个绝妙的主意(之前从IG看到,无法再找到出处)。

Karine Hsu: omg gpt-4os cereal, such a good idea (saw this on IG a while ago but cannot find the credit anymore)

其他多模态
6月13日
22:07
Rohan Paul@rohanpaul_ai
51
Higgsfield 推出 Higgsfield Games:从提示词到多人游戏

Higgsfield 近日宣布推出 Higgsfield Games,这是一款可从一条提示词直接构建并部署任意类型 2D 或 3D 多人游戏的产品,自动生成角色、道具和场景。该产品由 Claude Fable 5 推理游戏创意,并通过 Higgsfield MCP 调用工具完成资产和物理逻辑构建,将创意转化为代码、资产、多人游戏和发布的全流程压缩为单次提示词操作。用户可通过 Claude 的 MCP 界面或 Higgsfield 超级计算机体验。

Higgsfield AI 🧩: Meet Higgsfield Games. For the first time, build and deploy multiplayer games from one prompt, in any genre, 2D or 3D, w...

AnthropicMCP/工具产品更新多模态
22:07
Rohan Paul@rohanpaul_ai
68
Nvidia 推出 Cosmos 3:全模态世界模型,让物理AI实现理解、模拟与行动

Nvidia发布Cosmos 3——一种全模态世界模型,将语言、图像、视频、音频和动作整合到同一系统,使物理AI能跨越“理解、模拟、行动”三大任务。它把动作视为世界的第一类语言,通过动作token设计,让模型可基于视频推断动作,或同时生成未来场景及对应运动。这使机器人从“识别物体”升级为预测“移动、抓取、滑动”等交互后果。相关论文《Cosmos 3: Omnimodal World Models for Physical AI》已发布于arXiv。

arXiv具身智能多模态模型发布
10:45
MiniMax (official)@MiniMax_AI
80
MiniMax 发布全新开源模型 M3,具备前沿编码、智能体能力、原生图像视频输入、Computer Use 及 1M-token 上下文窗口。核心采用 MSA 稀疏注意力架构:每个 query 仅对 128-token 的 KV 块打分,只关注 top 块,使超长上下文实际可部署。M3 在 vLLM 获 Day-0 支持,已在 NVIDIA 和 AMD 硬件验证,包括 MSA 专用 prefill/decode kernel、1M-token 上下文服务(prefix caching + chunked prefill)、BF16/MXFP8 检查点(Hopper 和 Blackwell 的 MoE 后端)、原生多模态输入,以及工具调用、推理解析和思考模式控制等功能。

vLLM: 🎉 Congrats to @MiniMax_AI on releasing MiniMax M3! Frontier coding and agentic capabilities, native image and video inp...

多模态开源生态推理模型发布
关联讨论 12 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)IT之家(RSS)
‹ 上一页
123456…23
下一页 ›