AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 906 条
全部一手资讯X论文
标签「多模态」清除
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 4月21日

Dead Internet Theory update: AI song uploads have nearly overtaken human music RECAP: 1) The majority of articles on the internet are written by AIs... 2) 4 of the top 10 Youtube channels... 3) 4 in 10 Facebook posts... 4) 1 in 5 videos shown to new Youtube users... 5) The #1 most-subscribed Twitch streamer is an AI... 6) 44% of songs on Deezer... Also, anecdotally, I tried a new Youtube account and most of the ads were AI generated. Fake humans fake endorsing products for gullible boomers and grandmas

译死互联网理论正在成为现实。数据显示,AI内容已全面渗透:Deezer上44%歌曲为AI上传,Twitch订阅第一主播也是AI;多数网络文章、四成Facebook帖子及Top 10 YouTube频道内容均由AI生成。连广告领域也充斥AI生成的虚假代言。AI正系统性替代人类创作,从音乐到视频全面入侵。

AK@_akhaliq · 4月21日48

PersonaVLM Long-Term Personalized Multimodal LLMs paper: https://huggingface.co/papers/2604.13074

译PersonaVLM 长期个性化多模态大语言模型 论文: https://huggingface.co/papers/2604.13074

karminski-牙医@karminski3 · 4月19日

花费106刀测试! Claude-Opus-4.7 到底更新了啥? 给大家带来 Claude-Opus-4.7 的视觉能力+前端+后端能力测试! 本次测试多模态前端测试采用 pass@3 (相同prompt运行3次取最好结果), 复杂前端测试采用 pass@6, 后端能力测试采用 pass@3. 从测试来看 Claude-Opus-4.7 最大的提升都是视觉能力提升带来的, 包括颜色识别, 细微的画面元素, 都比 Opus-4.6 有明显的提升, 甚至空间理解也变强了. 我觉得用来替代 GPT-5.4-Pro 进行多模态前端交互设计非常不错 (毕竟价格在那摆着). 但是在其余考验硬实力的测试上均有不同程度的下降, 甚至这个下降我觉得不是因为模型能力导致的(只要prompt做更具体的提示, 比如跟他说你要用xxx算法实现), 它其实是能写出来的. 但是如果用在 Harness 场景, 让它自己采取最优的算法自己去实现和验证, 通常就得不到比 Opus-4.6 更好的结果了. 为什么会这样? 核心问题我觉得是这次即使是给到 xhigh 的 reasoning effort 可能它的思考空间(budget)也是不太够的(具体表现就是感觉模型偷懒了), 它的能力强, 但是需要更多的思考才能达到更强的水平. (阴谋论一波这也是为什么官方出了 xhigh 这个 reasoning level). 所以在实际使用中, 如果遇到性能下降问题, 只能反复提示它, 让他跨多个会话反复思考, 才能达到预期的效果. 最后本次测试所有API调用均在 openrouter 完成, 总计开销在 106USD 左右. #claudeopus47 #opus47 #anthropic #claude #opus

译花费106美元在OpenRouter上实测Claude-Opus-4.7显示,其视觉能力较4.6版本显著提升,在颜色识别、细节捕捉和空间理解方面表现突出,可替代GPT-4o Pro用于多模态前端任务。但在后端硬实力测试中表现下滑,核心问题在于即使开启xhigh reasoning effort,模型的思考预算仍显不足,导致"偷懒"现象。实际使用中需通过反复提示和跨会话思考才能发挥最佳性能。

Rohan Paul@rohanpaul_ai · 4月19日

AI fakery is pushing major apps toward proof of humanity to become a standard login layer. BBC: Tinder and Zoom just backed iris-based proof of humanity as a new defense against bots, scams, and deepfakes online. The reason is because, AI now copies faces, voices, and chat well enough that a profile photo or video call no longer proves a person is real. World, , formerly known as Worldcoin, is part of Tools for Humanity, will scan the iris, turn that into a unique code, and stores the credential on the user’s phone as a World ID. Tinder plans to show a verified human badge, while Zoom plans to use the same credential to reduce deepfake impersonation in meetings. This system is selling personhood, not identity, so it tries to answer “is this a real human?” more than “what is this person’s legal name?”. That fits the scam problem, because US romance scams still cost more than $1.14B, and Deloitte says AI-enabled fraud could hit $40B by 2027. That biometrics can become a reusable internet primitive, like a login layer for a web flooded with synthetic people. --- bbc .com/news/articles/cp9vppem4evo

译AI伪造技术泛滥正推动互联网平台采用生物识别"人性证明"。Tinder与Zoom宣布集成World(原Worldcoin)的虹膜扫描系统World ID,通过唯一生物凭证区分真人与深度伪造或机器人。与传统身份验证不同,该系统验证"人格"(personhood)而非法定身份,旨在应对日益严重的AI诈骗风险。此举或使生物识别成为应对合成人类泛滥的可重用互联网基础登录层。

宝玉@dotey · 4月18日77

http://x.com/i/article/2045321561201053696 # 设计圈的 Claude Code 时刻来了 Anthropic 今天发布了 Claude Design,第一时间体验了一下,震惊程度不亚于当年第一次用 Claude Code 写代码。借用 flypig 老师一句话: > 刚才用了一下,这么说:Claude Design 让 Google 那个 Stitch 看起来像个笑话。 这就是设计领域的 Claude Code 时刻。 我不会说“设计已死”、“设计师要被替代了”之类哗众取宠的话,只是想说: > 从想法到高保真交互原型的差距已基本消失,非设计师终于能独立产出可交付设计;设计师生产力指数级提升,但设计外包和传统设计工具要大幅缩水了。 今天 Figma 股价大跌也侧面印证了这一点。 ## 先看我的实测案例 给大家看一个完整案例,这是我大约 3 轮交互做出来的一个设计作品,不是简单的一个静态图片或者网页,里面的链接大部分可以点击交互。 初始提示词很简陋: > 帮我设计一个 writing agent 的 Mac App 支持多 workspace,可以看到 workspace 的文档(markdown、文本文档),可以对文档进行手动编辑,也可以调用 agent 编辑 markdown 文档 也可以在聊天对话中创建/编辑文档 主要是我还没想好做成个啥样,期待着它帮我想想,所以说得比较模糊。 然后它给了我一些问题让我选择,有单选有多选,还可以自己输入,或者让它自行决定。 过了一会去看,它给了我 3 个方案让我选择,就像一个专业的设计师,先跟你确认清楚需求,然后给几个不同方向让你挑。 每个结果都不是静态图片或者静态网页,都是可以点击交互的。 看完我觉得方案 2 和方案 3 都不错,但都有问题,需要综合一下。于是给了一些修改意见,还把 Codex 的截图发给它参考,让它把方案 2 和方案 3 综合一下,再结合 Codex 的一些设计。 它很快给了我一个新版本,基本上就是我想要但是描述不清楚的那种。 比如它把 Documents 和 Chat 用一个 Tab 分开,就是我喜欢的设计,比我预想的“一上一下”更好。 整体设计我挺满意,也提不出更好的要求,接下来就是抠细节。文档编辑历史它没实现,我就让它补这块。 提示词很简单: > 帮我基于当前设计,设计 history 部分,希望用户能更方便的看文档编辑历史,对比差异 很快它就出了一版,但是打开一看,效果不行。 我正准备提示它改,结果发现它自己检测出了布局问题,自己修复了。 修复后的版本就很好看了,没有布局问题,甚至还能方便地选择任意两个版本比较变更。 从左边的消息历史看,它有自动纠错机制。 最终产出物是 React 代码和样式表。 整个过程让我很意外的几件事:它会主动问需求、它会给多方案、它能理解多图混合参考、它能自检自纠、它输出的是可运行代码而不是静态稿。这套协作模式,和之前任何一个设计工具都不一样。 ## Claude Design 到底是个什么东西 先说基础信息。Claude Design 是 Anthropic Labs 今天发布的新产品,由 Claude Opus 4.7 驱动,Pro、Max、Team、Enterprise 订阅都能用(Enterprise 默认关,需要管理员开),直接去 claude.ai/design 就能进。 界面很简单:左边聊天,右边画布。 你描述想要什么,它在右边画出来;你用聊天、行内评论、直接编辑、或者它自动生成的调节滑杆去改;改完之后可以导出成 HTML、PDF、PPTX、ZIP,或者送进 Canva 继续编辑,或者直接打包给 Claude Code 去落地成产品代码。 看起来好像就是个 AI 版 Figma?并不是。 Ryan Mather 是 Anthropic 自己设计团队的人,一个人同时负责 7 个产品线。他今天发的推文里面说了一条很关键的话: > 不要用对待画布工具的方式来用 Claude Design。它是另一种动物,有自己的超能力。老实说它更像 Claude Code,而不是像画布式的设计工具。 https://x.com/Flomerboy/status/2045162328593670321 这句话是理解 Claude Design 的钥匙。 ## 和 Figma、Canva 们的根本不同 过去一年,Figma 加了 AI、Adobe 加了 AI、Canva 也加了 AI。它们的逻辑都是一样的:在以人为主的画布工具上,加一层 AI 插件,帮你画得更快一点、写文案方便一点。 Claude Design 走的是另一条路:AI 是主要的生成者,人是主要的审阅者。整套工具的骨架就是围绕这个假设搭的。 这个区别听起来抽象,落到产品上有几个很具体的差异。 ## 输出是可运行代码,不是静态设计稿 我上面那个 Mac App 案例,最终拿到的是 React + CSS,是一个能跑的东西,链接可以点、标签可以切、版本可以 diff。这和“生成一张漂亮的 UI 图”是两个物种。 ## 组织级设计系统 你上传代码库、PPT、品牌资料之后,它会抽出颜色、字体、组件、布局规范,后面所有项目都自动套用。Brilliant 的设计师反馈说,以前在别的工具里需要 20 多轮提示才能搞定的复杂交互,在 Claude Design 里 2 轮就搞定,原因就是它已经“认识”你的设计语言。 ## 理解你的代码库 不是把代码当截图看,是真的读组件结构、框架模式、文件组织。所以设计师做完之后点一下 handoff,工程师那边拿到的不是“这是一张图你去还原”,而是“这是一组可以直接接到你现有组件库里的实现草案”。 ## 会做工具,不只是做设计 官方博客里提到一个能力:你可以让 Claude Design 临时给你生成一个专门的工具,比如一个针对你品牌色盘的拾色器、一个自定义的 spec 生成器、一个小的交互原型测试工具。产出不局限于“设计文件”,而是“任何帮你把问题想清楚的计算产物”。 Datadog 的反馈也有意思:以前需要一周、跨多轮 brief → mockup → review 才能完成的事,现在在一次会议里就能边聊边做出成型原型,甚至让工程师现场参与到设计对话里。 这不像“Figma 提速 30%”那种优化。更像另一种工作方式。 ## 能拿来做什么 从官方博客和目前披露的使用场景看,Claude Design 至少能覆盖这几类工作: 产品原型和交互流程。 比如我的 Mac App 案例,或者 5 屏 onboarding 流程、带筛选和详情抽屉的搜索体验、审批工作流队列。这是它最强的一块。 演示文稿。 10 页 Q1 结果 Deck、15 页董事会 roadmap、客户会前材料、全员会 Deck。导出 PPTX 直接可用,也可以送去 Canva 继续编辑。 营销物料。 落地页、社媒图、活动视觉。 内部工具后台。 管理面板、内容审核队列、权限管理界面。这一类过去专门养一个前端岗来做,现在 PM 自己就能出可交付原型。 设计探索。 一次性出 3 到 5 个方向,让你挑。以前这是“我时间不够所以只能做两版给你看”,现在是“我出五版,你挑一版再精修”。 还有官方没重点讲但其实很重要的:视频 demo。Ryan Mather 提到它能直接生成视频形态的演示,不只是静态图。这对产品发布、用户测试、投资人沟通是新的能力位。 一句话概括使用边界:结构清晰、信息块明确、交互逻辑可描述的东西,它都做得不错;模糊情绪导向的纯艺术创作,它不是来抢这个饭碗的。 ## 这事不止关于设计 Ryan Mather 一个人服务 7 个产品,这是一个信号。这事放在两个月之前是不可能的。 ## 对设计师 生产力会指数级提升,但团队规模大概率会缩。过去一家公司需要 5 个设计师的活儿,现在 1 到 2 个就能做完,而且单人产出反而更多、更好。留下来的人会更值钱,因为他们做的是真正吃判断力的工作:品牌方向、关键插画、命名、战略级决策。剩下 80% 的执行工作,模型接走了。 ## 同样的剧本,已经演过了 编程圈是 Claude Code,能用好 AI 的工程师产出翻几倍,跟不上的慢慢被挤出来;分析圈是各种 AI 辅助数据分析,分析师从“写 SQL 的”变成“和 AI 一起提问题的”。每一次轮到新的专业,走的都是同一条轨迹:人均产出飙升,头部的人拿得更多,尾部的人看着机会一点点消失。设计圈刚好走到这个拐点。 ## 对 PM、创始人、营销人员 这是一个完全新的能力。以前你有想法,要么画个草图找设计师排队,要么忍着自己做个丑到抑郁的 PPT。现在你描述清楚想法,它给你一个可以直接拿去给工程师、给投资人、给客户的成品。 ## 对 Figma、Adobe、Canva 这是警钟,但股价跌 10% 可能只反映了表层冲击。Ryan Mather 那条推里还有一层更深的信号:Anthropic 自己的设计团队已经把 Claude Design 当主力工具用,Figma 只是偶尔才会被提到。如果 Anthropic 的设计师已经不主要用 Figma,别的科技公司凭什么还主要用?再过 2 到 3 个季度,当企业年度预算开始重新整合设计工具开销,老牌工具的续费数字会比股价给出更直接的答案。 ## 对公司决策层 有两件事要重新算账。一件是设计岗位的编制。Mather 一个人覆盖 7 个产品线,背后的参照线是原本需要 3 到 5 个设计师的工作量;放到年度预算表里,这个数字很难不被问到。另一件是工具订阅成本。当主力工作能在一个产品里基本完成,那些原本分散在 Figma、Sketch、Notion、Miro、Keynote 上的账号就会被拿出来重新评估。 ## 对工程师 这是久违的好消息。设计到工程的交接一直是最痛苦的环节之一:设计师按视觉做,工程师按代码做,中间全靠 Figma 标注和来回 review。现在从 Claude Design 出来的东西本身就带着组件结构和实现草案,落地成本直接降一个量级。 ## 其他 Claude Design 目前还是 research preview,有一些现实边界需要清楚: 它还没有审计日志和用量追踪,不支持数据驻留,上传的资产会被持久存储。如果你在一家对合规要求很严的公司,短期内最好不要把最高敏感度的设计素材直接放进去。 它目前只有网页界面,没有开放 API。你想把它嵌到自己产品里,目前还不行,只能基于 Claude API 和 Agent SDK 自建类似能力。但 Claude Design 能力这么强,最关键的是 Opus 4.7 模型在多模态能力上的增强,理论上来说你用 Opus 4.7 也能搭出来类似的产品。 但是和 Claude Code 一样,虽然同样用 Claude 的模型,但是 Claude Code 在很多方面就是能表现更好,毕竟 Anthropic 他们自家才知道怎么最大化的利用好新的模型,以及他们还能反过来,根据用户使用的设计数据和交互,去训练下一代的模型,形成数据飞轮。 这个优势短期内其他家比如 OpenAI 和 Gemini,还无法很快追上。 ## 价格与额度 这张表基于 Anthropic 官方 Claude Design 定价文档整理;官方没有公开 weekly allowance 的具体数值,所以这些格子必须标记为“未说明”。 我自己是 Claude Max@5x,就设计了一个 App 和生成了一个 Slides,一周的额度就没了。 ## 模型、规格与多模态能力 Claude Design 当前唯一明确公开的底层模型是 Claude Opus 4.7。 官方没有说明用户是否可以在 Claude Design 中切换到 Sonnet 或 Haiku,因此这一项应视为未说明 / 大概率固定。与此同时,Anthropic 的模型总览页面给出了当前主力模型的对比,便于理解 Claude Design 选型背后的原因。 上表数据由 Anthropic 模型总览汇总;其中“Claude Design 采用关系”来自 Claude Design 官方博客。 在视觉规格上,Opus 4.7 是首个支持高分辨率图像的 Claude 模型,最大原生分辨率可达长边 2576 像素,单图最高约 4784 图像 token。这对 Claude Design 尤其重要,因为它大量依赖截图、网页捕获、原型对照和文档视觉语义。与此同时,Opus 4.7 使用新 tokenizer,处理相同文本时 token 可能比 Opus 4.6 高出约 1x–1.35x,这意味着在图像/代码/长上下文场景里,开发者必须重新估算 max_tokens、缓存与成本。 ## 最后 Claude Design 带来的冲击,不只是设计圈的一次效率升级,更像一场深刻的范式转变。过去,设计师们习惯于在画布上精雕细琢、手动标注;现在,AI 已经可以直接从想法到可运行的高保真交互原型,让设计师的角色从纯粹的执行者向战略性的决策者转变。这种变化不只发生在设计领域,程序员、分析师、营销人员、产品经理,都已经或者即将经历类似的革命。 在这样一个时代里,真正被重新定义的不仅是我们的工作方式,还有我们对生产力和创造力的理解。AI 不会取代人类对美的判断、对品牌的洞察、对战略的规划,但它的到来却让每个人都有机会更加专注于这些最具价值的能力。 也许几年后,我们会回头看今天的 Claude Design,就像今天我们看待第一次使用 Claude Code 那样,发现历史的分水岭就在不经意间发生了——而我们刚刚走进了那个全新的未来。

译Anthropic发布由Claude Opus驱动的AI设计工具Claude Design。用户可通过自然语言描述直接生成高保真、可交互的原型,并输出React等可运行代码。该工具能理解并自动套用设计系统与代码库规范,其核心逻辑是“AI为主要生成者,人为审阅者”,显著区别于Figma等传统画布工具。这将极大提升设计生产力,改变设计师、PM等角色协作模式,并对传统设计工具市场构成冲击。

DogeDesigner@cb_doge · 4月18日37

Grok 4.3 (beta) can extract audio from videos.

译Grok 4.3 (beta) 可以从视频中提取音频。

AK@_akhaliq · 4月18日39

UniDoc-RL Coarse-to-Fine Visual RAG with Hierarchical Actions and Dense Rewards paper: https://huggingface.co/papers/2604.14967

译UniDoc-RL 具有分层动作和密集奖励的从粗到细视觉 RAG 论文: https://huggingface.co/papers/2604.14967

AK@_akhaliq · 4月17日46

HY-World 2.0 A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds paper: https://huggingface.co/papers/2604.14268

译HY-World 2.0 一个用于重建、生成和模拟3D世界的多模态世界模型 paper: https://huggingface.co/papers/2604.14268

karminski-牙医@karminski3 · 4月17日

正在做一个 harness AI自动游戏开发框架 给大家看个好玩的, 最近正在做的 harness 自动游戏开发框架, 目前这个 demo 叫「D级少女」, 大概设定就是让JK去处理SCP收容物这样的冒险游戏. (图是AI的哈, 还正在框架阶段) harness 的部分主要是基于 SCP 数据库扩展关卡, 然后自动生成游戏物品, 任务道具, 然后管线会给关卡, 道具等配图(调用AI文生图/图生图API), 以及进行全自动配音(TTS) (harness的生成部分). 最重要的是我给 harness 框架配置了沙盒 (注意配图下面的纯文本命令部分), 这个是个"无头游戏", 即直接使用命令行也能玩这个游戏, 这样AI在使用 Agent 自动生成完毕每个关卡的游戏内容后, 可以直接使用这个沙盒验证本次的修改, 然后根域提示词和脚本约束来修正关卡, 同时做游戏数值验证/调整. 确保可玩性. (harness 的约束部分) 目前还在开发中, 后续会开源框架并且给大家带来个细节教程, 如何构建一个这样的全自动 harness 框架. 当然不要想peach哈, 游戏设定啥的还是要你自己写的. 以及目前 harness 还是只能解决工程量问题, 即"可玩性". 而"好玩性"还是要靠人来自己决解的. #harness #AIAgent #AI游戏开发

译harness框架通过AI Agent实现游戏内容全自动生成与验证。该系统基于SCP数据库扩展关卡,自动生成物品与任务道具,并集成AI绘图与TTS配音管线。核心创新在于内置沙盒环境(无头游戏模式),允许AI在命令行中自动验证关卡可玩性,根据约束条件修正数值。开发者强调,框架目前解决的是工程层面的"可玩性",而创意层面的"好玩性"仍需人工把控。项目后续将开源。

Google Gemini@GeminiApp · 4月17日

This event is happening soon! Join the Gemini Discord here: http://discord.gg/gemini

译这场活动即将开始!在此加入 Gemini Discord:http://discord.gg/gemini [引用 @GeminiApp]:准备好充分利用 Gemini 中的笔记本了吗? 加入 @GoogleDeepMind 产品经理 Rebecca Zapfel 的直播演示,了解如何掌握多模态上下文、持久记忆、项目组织,以及如何使用 @NotebookLM 笔记本作为来源。随后将进行实时问答。 📅 本周四,4 月 16 日上午 11:30(太平洋时间) 👉还没加入我们的 Discord?在此加入:http://discord.gg/gemini

AK@_akhaliq · 4月17日39

Geometric Context Transformer for Streaming 3D Reconstruction paper: https://huggingface.co/papers/2604.14141

译用于流式3D重建的几何上下文Transformer paper: https://huggingface.co/papers/2604.14141

TestingCatalog News 🗞@testingcatalog · 4月16日43

Google is preparing Gemini Live support for its recently released Gemini desktop app. Gemini Live will appear as a sphere overlay (purpure), and users will also be able to share their screens with Gemini. Soon? 👀

译Google正在为其最近发布的Gemini桌面应用准备Gemini Live支持。 Gemini Live将以球状覆盖层(紫色)的形式出现,用户还能与Gemini共享屏幕。 快来了?👀

Google Gemini@GeminiApp · 4月16日

Ready to make the most of notebooks in Gemini? Join @GoogleDeepMind Product Manager, Rebecca Zapfel, for a live demo on mastering multimodal context, persistent memory, project organization, and using @NotebookLM notebooks as sources. A live Q&A will follow. 📅 This Thursday, April 16 at 11:30 AM PT 👉Not in our Discord yet? Join here: http://discord.gg/gemini

译准备好充分利用 Gemini 中的笔记本了吗? 加入 @GoogleDeepMind 产品经理 Rebecca Zapfel 的直播演示,掌握多模态上下文、持久记忆、项目组织,以及如何使用 @NotebookLM notebooks 作为来源。随后是现场问答。 📅 本周四,4月16日,11:30 AM PT 👉还没加入我们的 Discord?在此加入:http://discord.gg/gemini

AK@_akhaliq · 4月16日49

GlotOCR Bench OCR Models Still Struggle Beyond a Handful of Unicode Scripts paper: https://huggingface.co/papers/2604.12978

译GlotOCR Bench OCR 模型在少数 Unicode 文字体系之外仍表现不佳 paper: https://huggingface.co/papers/2604.12978

AK@_akhaliq · 4月16日55

Nvidia released Lyra 2.0 on Hugging Face Explorable Generative 3D Worlds paper: https://huggingface.co/papers/2604.13036 model: https://huggingface.co/nvidia/Lyra-2.0

译NVIDIA 在 Hugging Face 上发布了 Lyra 2.0 可探索的生成式 3D 世界 论文: https://huggingface.co/papers/2604.13036 模型: https://huggingface.co/nvidia/Lyra-2.0

DogeDesigner@cb_doge · 4月15日

Grok now supports uploading up to 100 files at once. Today I uploaded multiple images into one chat and asked Grok to analyze them all together. It processed everything in seconds and prepared a detailed report. A super useful feature for batch analysis.

译Grok 现在支持一次上传最多 100 个文件。 今天我在一个聊天中上传了多张图片,并让 Grok 一起分析它们。它在几秒钟内处理完所有内容,并准备了一份详细的报告。 批量分析的一个超实用功能。

DogeDesigner@cb_doge · 4月15日

NEWS: SpaceX is now using a voice-based AI assistant powered by Grok to handle Starlink customer support calls. The voice sounds fully human and can converse with users in real time. "Grok is already doing quite a good job at SpaceX and Tesla. We are seeing Grok be very helpful in things like customer service and the AI is infinitely patient, so you can yell at it, and it's still going to be very nice."

译NEWS: SpaceX 正在使用由 Grok 提供支持的语音 AI 助手来处理 Starlink 客户支持电话。该声音听起来完全像人类,可以实时与用户对话。 "Grok 在 SpaceX 和 Tesla 已经表现得相当出色。我们看到 Grok 在客户服务等事务中非常有帮助,而且 AI 拥有无限的耐心,所以你可以对它大喊大叫,它仍然会非常有礼貌。"

AK@_akhaliq · 4月15日38

OmniShow Unifying Multimodal Conditions for Human-Object Interaction Video Generation paper: https://huggingface.co/papers/2604.11804

译OmniShow 统一多模态条件以生成人物-物体交互视频 论文: https://huggingface.co/papers/2604.11804

TestingCatalog News 🗞@testingcatalog · 4月14日

NotebookLM will be overpowered 👀 > Google is working on a new Canvas experience and Connectors support for NotebookLM. > Canvas mode lets users generate any visual representation of the data from notebook sources. > A new Connectors option has been added to the settings menu recently (currently hidden). > Looks like at Google I/O, we will see a new NotebookLM with Canvas, Connectors, and Personal intelligence support.

译NotebookLM 将会变得超强 👀 > Google 正在为 NotebookLM 开发新的 Canvas 体验和 Connectors 支持。 > Canvas 模式让用户能够从笔记本来源生成任何数据的可视化呈现。 > 最近设置菜单中新增了一个 Connectors 选项(目前隐藏)。 > 看起来在 Google I/O 上,我们将看到支持 Canvas、Connectors 和 Personal intelligence 的新版 NotebookLM。

AK@_akhaliq · 4月14日47

Matrix-Game 3.0 Real-Time and Streaming Interactive World Model with Long-Horizon Memory paper: https://huggingface.co/papers/2604.08995

译Matrix-Game 3.0 具备长时记忆的实时流式交互世界模型 论文: https://huggingface.co/papers/2604.08995

AK@_akhaliq · 4月14日40

FORGE Fine-grained Multimodal Evaluation for Manufacturing Scenarios paper: https://huggingface.co/papers/2604.07413

译FORGE 面向制造场景的细粒度多模态评估 论文: https://huggingface.co/papers/2604.07413

Rohan Paul@rohanpaul_ai · 4月13日

A startup just turned Jesus into a paid AI video-call avatar that sells prayer, conversation, and memory for $1.99 a minute. The company says this version was trained on the King James Bible plus sermons from preachers. The avatar was shaped around Jonathon Roumie’s screen version from The Chosen, turning a language model into something closer to a digital actor with a familiar face, tone, and style. Users are paying for a feeling of being seen, answered, and spiritually guided in real time rather than for raw information they could read free elsewhere. --- nypost .com/2026/04/10/tech/from-buddhabot-to-1-99-chats-with-ai-jesus-the-faith-based-tech-boom-is-here/

译一家初创公司推出AI耶稣视频通话服务,每分钟收费$1.99,模型基于King James Bible及牧师布道训练,形象参照Jonathon Roumie在The Chosen中的荧幕造型。该服务将语言模型转化为具有特定面容、语气与风格的数字演员,核心卖点并非宗教信息获取,而是实时精神陪伴带来的被关注与指引感,代表信仰科技与情感付费结合的新商业模式。

DogeDesigner@cb_doge · 4月12日

Grok is insanely good at analyzing images, documents, scans, reports & more! Just upload your PDF or image and let Grok do the rest.

译Grok 在分析图像、文档、扫描件、报告等方面极其出色!

Deedy@deedydas · 4月12日

The coolest thing Meta AI's Muse Spark can do by far is counting objects! As you can tell, it's far from perfect. They call it "visual grounding" and it can count objects and do bounding boxes. I've been playing with the new model and here's what I think so far: Good stuff: – Incredible at vision. It's ability to read text in images is the best I've seen. – Really high quality at web design. It's the only model I've seen that uses Unsplash, OpenLibrary and other images by default. – It's free! You don't pay to use Muse Spark Thinking. Bad stuff: – Meta's classic playbook of growth tactics are dodgy. They're sending Instagram notifs to people's friends without their consent. Their app ranking jump is not organic. – Reasoning itself is pretty solid but not best in class. It can do pretty advanced math and science problems. The long term threat here is Meta has distribution and has the ability to give their model away for free, which makes them a formidable threat to the big AI labs, particularly in consumer.

译Meta推出免费视觉模型Muse Spark,擅长visual grounding、图像文字识别与网页设计,能精准计数物体并生成边界框。但Meta采用dodgy增长策略,未经用户同意向Instagram好友推送通知。其推理能力虽solid但非顶尖,不及GPT与Claude。凭借庞大分发渠道和免费策略,Muse Spark对大型AI实验室构成长期威胁,尤其在消费级市场可能重塑竞争格局。

karminski-牙医@karminski3 · 4月10日

AI能帮我拍照了? Qwen3.5-Omni实测! 给大家带来 Qwen3.5-Omni-Plus 全模态大模型实测! 这个模型同时支持文本, 音频, 图片, 视频输入, 并且支持文本和语音输出. 非常适合做语音助手. 本次主要测试了它的视觉能力, 测试包括视频理解和图片文本理解, 直接来看结论: 视频理解测试中, 画面细节都能准确的捕捉, 比如视频中的关键道具, 文本, 动作等. 而图片测试则是令我最意外的, 我测试了从100-5000字的OCR识别, 测试结论是2000字以内错误率能在0.1%以内, 直到3900字+才会到0.3%以上. 不过测试中也暴露出了模型的一些问题, 比如视频理解中会出现幻觉, 识别出不存在的音乐或者情节. 建议在实际生产中增加交叉验证或者干脆把温度调整到0试试. 另外我这次还魔改了龙虾(openclaw), 让它支持了Omni模型, 成功实现了让 Qwen3.5-Omni-Plus 操作我平板电脑的屏幕和摄像头, 结合大家生活中的场景 Omni 模型可以做出很多有趣的 SKILL. #通义实验室 #千问大模型 #qwen #qwen35omni

译Qwen3.5-Omni-Plus作为全模态大模型,支持文本、音频、图像、视频输入及文本与语音输出。实测显示其视频理解能精准捕捉画面细节,OCR能力在2000字内错误率低于0.1%,但存在幻觉问题,会虚构音乐或情节。作者通过修改openclaw框架,实现了该模型对平板屏幕和摄像头的直接控制,拓展了端侧AI交互场景。

Ethan Mollick@emollick · 4月10日

All is not lost. Duckerton is still possible. Here is Seedance 2.0 with the same prompt.

译Seedance 2.0 可用相同提示词生成 Duckerton 视频(人人头戴活鸭的摄政风场景),证明这种怪诞创作仍有可能。作者讽刺 OpenAI 似乎已认为此类内容不配占用其算力。

Ethan Mollick@emollick · 4月10日

One fun thing about AI is that it lets you play with interfaces and approaches to displaying information in new ways without a lot of effort. I got a an internet connected e-ink display and set it up to show me the weather as interpreted by nano banana using rotating styles.

译入手联网电子墨水屏,接入 nano banana 以轮换风格实时展示天气。AI 降低了尝试新型界面和数据可视化的门槛,无需复杂开发即可实现个性化信息展示。

Google Gemini@GeminiApp · 4月10日

Rolling out today, you can create longer tracks in Gemini for FREE! Select “Create music” in the tools menu and “Thinking” or “Pro” from the model picker. Give it a try, and share your creations in the replies. 👇

译Gemini 今日上线 Lyria 3 Pro,支持生成更长音乐曲目及复杂过渡效果。用户可在工具菜单选择"Create music"并切换 Thinking 或 Pro 模式免费使用,该功能已向 Google AI Plus/Pro/Ultra 用户推出。

AK@_akhaliq · 4月10日

MedGemma 1.5 Technical Report paper: https://huggingface.co/papers/2604.05081

译MedGemma 1.5 技术报告正式发布,详述该医疗多模态大模型的架构设计、训练方法与临床评估结果。论文已公开至 Hugging Face。

TestingCatalog News 🗞@testingcatalog · 4月10日

Gemini can now help visualize complex topics through interactive experiences directly in chat. "Show me the visualization" button will appear under certain questions, which could trigger this new experience. Testing time 👀

译Gemini 现可在聊天中直接生成交互式可视化内容,针对特定问题显示"Show me the visualization"按钮,点击后可调整变量、旋转 3D 模型及探索数据,以更沉浸的方式理解复杂概念。

AK@_akhaliq · 4月9日

INSPATIO-WORLD A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling paper: https://huggingface.co/papers/2604.07209

译INSPATIO-WORLD 通过时空自回归建模实现实时 4D 世界模拟,可实时生成动态三维环境并支持交互。技术论文已发布于 Hugging Face。

karminski-牙医@karminski3 · 4月9日

不是牛油果是缪斯! Meta刚刚发布了新模型! Meta 刚刚终于发布了他们继Llama4后的首个大模型 Muse Spark! (我不确定到底应不应该翻译成缪斯哈) 这是一个原生多模态推理模型, 支持文本+图片输入. 从性能上看, 目前这个模型并不是 SOTA 级别的, 官方放出的分数表格很鸡贼, 我给大家画了一下哪个是最高的, 大家就可以看出, 这个模型更对是面向图像理解, 健康与医疗任务, 代理搜索类任务优化的(这三个SOTA了).而 Agent, 多任务编排, 并行推理, 视觉推理链这些虽然是这次的主打功能, 但是相关测试评分没有到达 SOTA 级别. 目前上下文窗口和参数量都没有公开, 不过官方报道里面提了一嘴 "The results are clear: we can reach the same capabilities with over an order of magnitude less compute than our previous model, Llama 4 Maverick" 并且说 "With larger models in development", 所以我们可以推测, 这并不是个旗舰模型, 而是系列模型中的先导模型, 并且从Blog中的技术介绍 "scaling Muse Spark with multi-agent thinking enables superior performance with comparable latency" 可以推测, 想表达的是 "跑 N 个小模型并行推理,而不是跑 1 个大模型长时间思考", 这个策略通常只对单模型足够小, 推理足够快时才有意义, 否则成本会爆炸. #muse #musespark #meta #llama #原生多模态推理模型

译Muse Spark是Meta继Llama 4后推出的原生多模态推理模型,支持文本与图像输入。该模型在图像理解、医疗健康及代理搜索任务上达到SOTA水平,但Agent与多任务编排等主打功能评分未达顶尖。官方强调其计算效率较Llama 4 Maverick提升一个数量级,并透露更大模型正在开发中。技术路线采用"多小模型并行推理"策略,以低延迟换取性能,而非依赖单一大模型的长时间思考。

AK@_akhaliq · 4月9日

Video-MME-v2 Towards the Next Stage in Benchmarks for Comprehensive Video Understanding paper: https://huggingface.co/papers/2604.05015

译Video-MME 基准测试发布 v2 版本,推动全面视频理解评估进入新阶段。论文已上传至 Hugging Face。

swyx 🇬🇧@swyx · 4月7日

i'm being asked for oneliner descriptions of each track, so here goes (pushback/improvements welcome): 1. Claw track: This is the year of the personal agent - many people have been dreaming of a personal AI, from being a friend to an executive assistant. @steipete's OpenClaw created the category, and we've gathered maintainers and Claw competitors to preview what's next! 2. Context Engineering: LLM context lengths grow from 4000 to 1 million tokens, our jobs went from prompting to RAG to search to ever more complex context management for agents. This is the track for everyone who's watched @dexhorthy's keynotes and stressed about getting in the dumb zone. 3. Harness Engineering: The most exciting discovery in agent engineering is that harnesses are more responsible for variations in performance than the LLMs they build on. @_lopopolo ignited this category with the most extreme version of the dark factory harness we've ever seen, but here we have many of the best harness engineering ideas of 2026. 4. Evals & Observability: All serious AI engineering starts with evals & observability — you only get paid for what you can reliably maintain and improve. We are proud to feature perspectives from eval platforms like @braintrustdata_, LLM researchers like @maximelabonne, and benchmark authors. 5. Voice & Vision: The first of our multimodal AI tracks focus on voice and vision AI, the first modalities humans had before the invention of writing. This is the track to catch up on TTS, ASR, OCR, and all the other usecases from the @elevenlabs decacorn to @mistralai's new model to @meetgranola to @huggingface and more! 6. Gemini: Last but certainly not least, London is home to @googledeepmind who have an amazing team of engineers, PMs, and researchers with updates on open models, evals, agents, WebMCP, and even a special presentation on Text Diffusion models!

译AI Engineer Europe Build Day公布六大技术分论坛,聚焦AI工程前沿实践。议程涵盖Personal Agent(Claw)个人代理、Context Engineering长上下文管理、Harness Engineering代理性能优化、Evals & Observability评估体系、Voice & Vision语音视觉多模态,以及Gemini专场。从OpenClaw到Google DeepMind,内容涉及RAG、TTS、ASR、WebMCP等技术方向,呈现AI工程从提示词向复杂代理系统演进的最新趋势。

AK@_akhaliq · 4月7日

Token Warping Helps MLLMs Look from Nearby Viewpoints paper: https://huggingface.co/papers/2604.02870

译新论文提出 Token Warping 技术,使 MLLMs 能够从附近视角观察,增强多模态模型的视角理解能力。

swyx 🇬🇧@swyx · 4月5日

always wanted to do one of those “is it coachella” announcements - here is our designer’s take on it!

译Google DeepMind 作为 Presenting Sponsors 回归本周伦敦 AIE Europe,以音乐节海报风格官宣演讲阵容:VP of Research Raia Hadsell 及多位产品负责人将出席,现场展示 Gemini 3.1、Embeddings 2、Veo 3、Gemma 4 等全模态技术进展。

karminski-牙医@karminski3 · 4月3日

Qwen3.6-plus 实测! 新模型有哪些变化? 给大家带来刚刚正式发布的 Qwen3.6-Plus 的全方位编程能力测试, Qwen3.6-Plus 支持多模态输入, 所以可以做到给到图片还原设计. 首先是前端性能测试: case1: 建模&空间理解测试, 使用 three.js 还原一块手表 case2: 建模&空间理解测试, 使用 three.js 还原一个分体键盘 case3: UI布局&组件测试, 给到 UI Kit 参考图来设计UI元素 直接来看结果: #Qwen36plus #阿里千问 #多模态模型 #AIAgent #AI编程

译Qwen3.6-Plus 实测显示其多模态编程能力突出。该模型支持图像输入并生成对应代码,测试中通过 three.js 成功还原手表与分体键盘的3D建模,并能依据 UI Kit 参考图生成界面组件。验证了其空间理解、建模能力及前端代码生成水平,展现了从设计图到代码的直接转换能力。

Artificial Analysis@ArtificialAnlys · 4月3日

Google has released Gemma 4, a new family of multimodal open-weight models including Gemma 4 E2B, Gemma 4 E4B, Gemma 4 31B and Gemma 4 26B A4B @GoogleDeepMind’s new Gemma 4 family introduces four multimodal models supporting text, image, and video inputs. We evaluated Gemma 4 31B (dense) and Gemma 4 26B A4B (MoE), both with a 256k context window, while the other two smaller models support up to 128k. With 31B and 26B parameters respectively, both evaluated models can run on a single H100. On GPQA Diamond, our scientific reasoning evaluation, Gemma 4 31B (Reasoning) scores 85.7%, the second highest result we have recorded for an open-weights model with fewer than 40B parameters, just behind Qwen3.5 27B (Reasoning, 85.8%). It reaches this score using only ~1.2M output tokens, fewer than Qwen3.5 27B (~1.5M) and Qwen3.5 35B A3B (~1.6M). Gemma 4 26B A4B (Reasoning) scores 79.2%, ahead of gpt-oss-120B (high, 76.2%) but behind Qwen3.5 9B (Reasoning, 80.6%). We are now running the Artificial Analysis Intelligence Index on all four Gemma 4 models and will share a full update once those results are complete.

译Google DeepMind推出Gemma 4系列四款多模态开源模型,支持文本、图像及视频输入。31B(密集架构)与26B A4B(MoE架构)拥有256k上下文窗口,可在单张H100运行;另两款较小模型支持128k上下文。GPQA Diamond测试中,Gemma 4 31B(Reasoning)获85.7%,仅次于Qwen3.5 27B,但输出token仅约1.2M,效率更优;26B A4B(Reasoning)得分79.2%,超越gpt-oss-120B。

Satya Nadella@satyanadella · 4月2日

We’re bringing our growing MAI model family to every developer in Foundry, including … · MAI-Transcribe-1, most accurate transcription model in world across 25 languages · MAI-Voice-1, natural, expressive speech generation · MAI-Image-2, our most capable image model yet Start building: https://microsoft.ai/news/today-were-announcing-3-new-world-class-mai-models-available-in-foundry/

译MAI 模型家族正式登陆 Foundry 平台,推出三款新模型:MAI-Transcribe-1(支持25种语言的最准确转录模型)、MAI-Voice-1(自然语音生成)和 MAI-Image-2(最强图像生成模型)。开发者现可通过该平台直接调用。

karminski-牙医@karminski3 · 4月2日

GLM-5V-Turbo 能补充 GLM-5.1模态上的不足吗? GLM-5V-Turbo 刚刚发布啦! 给大家带来 GLM-5V-Turbo 简单实测! 之前给大家测试 GLM-5.1 的时候, 大家除了API不稳定问题以外, 抱怨最多的就是 5.1 不支持多模态输入, 而智谱更多的把多模态输入放在了V系列模型, 而支持多模态输入的旗舰模型一个很大的应用场景就是, 给到参考图直接克隆网页. 于是直接给大家带来 GLM-5V-Turbo 的网页克隆测试! 直接说结论, GLM-5V-Turbo 仍然保持了之前系列模型的文本识别准确率, 但是输出前端代码的性能的确一般, 我测试了总计4个场景, 分别是: case1: 需要使用js计算进行背景图片绝对定位 case2: 文本透明 case3: SVG 线条分割画面 case4: 复杂DIV布局 #GLM5VTrubo #GLM5V #GLM #智谱

译智谱发布多模态模型 GLM-5V-Turbo,弥补 GLM-5.1 缺乏视觉输入的短板。实测显示其文本识别准确率保持水准,但前端代码生成能力一般。在网页克隆测试中,面对 JavaScript 背景定位、透明文本、SVG 分割及复杂 DIV 布局等场景,模型将设计图转换为精确代码的表现仍有提升空间。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
4月21日
23:43
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
死互联网理论更新:AI内容全面占领互联网

死互联网理论正在成为现实。数据显示,AI内容已全面渗透:Deezer上44%歌曲为AI上传,Twitch订阅第一主播也是AI;多数网络文章、四成Facebook帖子及Top 10 YouTube频道内容均由AI生成。连广告领域也充斥AI生成的虚假代言。AI正系统性替代人类创作,从音乐到视频全面入侵。

AI Notkilleveryoneism Memes ⏸️: Dead Internet Theory update: The #1 most-subscribed Twitch streamer is an AI RECAP: 1) The majority of articles on the i...

多模态现象/趋势视频
06:05
AK@_akhaliq
48
PersonaVLM 长期个性化多模态大语言模型 论文: https://huggingface.co/papers/2604.13074
智能体多模态论文/研究
4月19日
17:08
karminski-牙医@karminski3
106美元实测Claude-Opus-4.7:视觉飞跃但推理偷懒

花费106美元在OpenRouter上实测Claude-Opus-4.7显示,其视觉能力较4.6版本显著提升,在颜色识别、细节捕捉和空间理解方面表现突出,可替代GPT-4o Pro用于多模态前端任务。但在后端硬实力测试中表现下滑,核心问题在于即使开启xhigh reasoning effort,模型的思考预算仍显不足,导致"偷懒"现象。实际使用中需通过反复提示和跨会话思考才能发挥最佳性能。

Anthropic多模态编码评测/基准
15:44
Rohan Paul@rohanpaul_ai
Tinder与Zoom引入虹膜验证抵御AI伪造

AI伪造技术泛滥正推动互联网平台采用生物识别"人性证明"。Tinder与Zoom宣布集成World(原Worldcoin)的虹膜扫描系统World ID,通过唯一生物凭证区分真人与深度伪造或机器人。与传统身份验证不同,该系统验证"人格"(personhood)而非法定身份,旨在应对日益严重的AI诈骗风险。此举或使生物识别成为应对合成人类泛滥的可重用互联网基础登录层。

多模态安全/对齐
4月18日
10:32
宝玉@dotey
精选77
Anthropic发布Claude Design:AI驱动设计工具,变革工作流程

Anthropic发布由Claude Opus驱动的AI设计工具Claude Design。用户可通过自然语言描述直接生成高保真、可交互的原型,并输出React等可运行代码。该工具能理解并自动套用设计系统与代码库规范,其核心逻辑是“AI为主要生成者,人为审阅者”,显著区别于Figma等传统画布工具。这将极大提升设计生产力,改变设计师、PM等角色协作模式,并对传统设计工具市场构成冲击。

Anthropic产品更新多模态

推荐理由:Claude Design 把设计从「人画 AI 辅助」翻转成「AI 画人审」,输出直接是可运行代码而非静态稿,PM 和创始人第一次能自己出可交付原型,Figma 股价当天跌 10% 不是巧合。
02:32
DogeDesigner@cb_doge
37
Grok 4.3 (beta) 可以从视频中提取音频。
xAI产品更新多模态
00:58
AK@_akhaliq
39
UniDoc-RL 具有分层动作和密集奖励的从粗到细视觉 RAG 论文: https://huggingface.co/papers/2604.14967
检索增强多模态论文/研究
4月17日
23:58
AK@_akhaliq
46
HY-World 2.0 一个用于重建、生成和模拟3D世界的多模态世界模型 paper: https://huggingface.co/papers/2604.14268
具身智能多模态论文/研究
10:58
karminski-牙医@karminski3
AI游戏开发框架harness:自动生成内容并沙盒自验证

harness框架通过AI Agent实现游戏内容全自动生成与验证。该系统基于SCP数据库扩展关卡,自动生成物品与任务道具,并集成AI绘图与TTS配音管线。核心创新在于内置沙盒环境(无头游戏模式),允许AI在命令行中自动验证关卡可玩性,根据约束条件修正数值。开发者强调,框架目前解决的是工程层面的"可玩性",而创意层面的"好玩性"仍需人工把控。项目后续将开源。

智能体多模态开源/仓库
02:50
Google Gemini@GeminiApp
这场活动即将开始!在此加入 Gemini Discord:http://discord.gg/gemini 【引用 @GeminiApp】:准备好充分利用 Gemini 中的笔记本了吗? 加入 @GoogleDeepMind 产品经理 Rebecca Zapfel 的直播演示,了解如何掌握多模态上下文、持久记忆、项目组织,以及如何使用 @NotebookLM 笔记本作为来源。随后将进行实时问答。 📅 本周四,4 月 16 日上午 11:30(太平洋时间) 👉还没加入我们的 Discord?在此加入:http://discord.gg/gemini

Google Gemini: Ready to make the most of notebooks in Gemini? Join @GoogleDeepMind Product Manager, Rebecca Zapfel, for a live demo on ...

DeepMindGoogle检索增强产品更新
00:08
AK@_akhaliq
39
用于流式3D重建的几何上下文Transformer paper: https://huggingface.co/papers/2604.14141
具身智能多模态论文/研究
4月16日
07:46
TestingCatalog News 🗞@testingcatalog
43
Google正在为其最近发布的Gemini桌面应用准备Gemini Live支持。 Gemini Live将以球状覆盖层(紫色)的形式出现,用户还能与Gemini共享屏幕。 快来了?👀

TestingCatalog News 🗞: @sundarpichai @GeminiApp @antigravity Looks like Gemini Live soon! 🔥

Google产品更新多模态
02:43
Google Gemini@GeminiApp
准备好充分利用 Gemini 中的笔记本了吗? 加入 @GoogleDeepMind 产品经理 Rebecca Zapfel 的直播演示,掌握多模态上下文、持久记忆、项目组织,以及如何使用 @NotebookLM notebooks 作为来源。随后是现场问答。 📅 本周四,4月16日,11:30 AM PT 👉还没加入我们的 Discord?在此加入:http://discord.gg/gemini
Google多模态教程/实践
01:37
AK@_akhaliq
49
GlotOCR Bench OCR 模型在少数 Unicode 文字体系之外仍表现不佳 paper: https://huggingface.co/papers/2604.12978
多模态论文/研究评测/基准
00:07
AK@_akhaliq
55
NVIDIA 在 Hugging Face 上发布了 Lyra 2.0 可探索的生成式 3D 世界 论文: https://huggingface.co/papers/2604.13036 模型: https://huggingface.co/nvidia/Lyra-2.0
多模态开源生态模型发布
4月15日
11:41
DogeDesigner@cb_doge
Grok 现在支持一次上传最多 100 个文件。 今天我在一个聊天中上传了多张图片,并让 Grok 一起分析它们。它在几秒钟内处理完所有内容,并准备了一份详细的报告。 批量分析的一个超实用功能。
xAI产品更新多模态
01:36
DogeDesigner@cb_doge
NEWS: SpaceX 正在使用由 Grok 提供支持的语音 AI 助手来处理 Starlink 客户支持电话。该声音听起来完全像人类,可以实时与用户对话。 "Grok 在 SpaceX 和 Tesla 已经表现得相当出色。我们看到 Grok 在客户服务等事务中非常有帮助,而且 AI 拥有无限的耐心,所以你可以对它大喊大叫,它仍然会非常有礼貌。"
xAI多模态行业动态语音
00:03
AK@_akhaliq
38
OmniShow 统一多模态条件以生成人物-物体交互视频 论文: https://huggingface.co/papers/2604.11804
多模态视频论文/研究
4月14日
22:03
TestingCatalog News 🗞@testingcatalog
NotebookLM 将会变得超强 👀 > Google 正在为 NotebookLM 开发新的 Canvas 体验和 Connectors 支持。 > Canvas 模式让用户能够从笔记本来源生成任何数据的可视化呈现。 > 最近设置菜单中新增了一个 Connectors 选项(目前隐藏)。 > 看起来在 Google I/O 上,我们将看到支持 Canvas、Connectors 和 Personal intelligence 的新版 NotebookLM。
Google检索增强产品更新多模态
09:32
AK@_akhaliq
47
Matrix-Game 3.0 具备长时记忆的实时流式交互世界模型 论文: https://huggingface.co/papers/2604.08995
具身智能多模态论文/研究
01:16
AK@_akhaliq
40
FORGE 面向制造场景的细粒度多模态评估 论文: https://huggingface.co/papers/2604.07413
多模态论文/研究评测/基准
4月13日
04:33
Rohan Paul@rohanpaul_ai
初创公司推出付费AI耶稣视频通话服务

一家初创公司推出AI耶稣视频通话服务,每分钟收费$1.99,模型基于King James Bible及牧师布道训练,形象参照Jonathon Roumie在The Chosen中的荧幕造型。该服务将语言模型转化为具有特定面容、语气与风格的数字演员,核心卖点并非宗教信息获取,而是实时精神陪伴带来的被关注与指引感,代表信仰科技与情感付费结合的新商业模式。

产品更新多模态语音
4月12日
10:59
DogeDesigner@cb_doge
Grok 在分析图像、文档、扫描件、报告等方面极其出色!
xAI其他多模态
08:43
Deedy@deedydas
Meta Muse Spark评测:视觉强劲但增长策略惹争议

Meta推出免费视觉模型Muse Spark,擅长visual grounding、图像文字识别与网页设计,能精准计数物体并生成边界框。但Meta采用dodgy增长策略,未经用户同意向Instagram好友推送通知。其推理能力虽solid但非顶尖,不及GPT与Claude。凭借庞大分发渠道和免费策略,Muse Spark对大型AI实验室构成长期威胁,尤其在消费级市场可能重塑竞争格局。

Meta多模态评测/基准
4月10日
14:57
karminski-牙医@karminski3
Qwen3.5-Omni-Plus实测:全模态交互、OCR精度与端侧控制

Qwen3.5-Omni-Plus作为全模态大模型,支持文本、音频、图像、视频输入及文本与语音输出。实测显示其视频理解能精准捕捉画面细节,OCR能力在2000字内错误率低于0.1%,但存在幻觉问题,会虚构音乐或情节。作者通过修改openclaw框架,实现了该模型对平板屏幕和摄像头的直接控制,拓展了端侧AI交互场景。

智能体多模态模型发布
12:12
Ethan Mollick@emollick
Seedance 2.0 可用相同提示词生成 Duckerton 视频(人人头戴活鸭的摄政风场景),证明这种怪诞创作仍有可能。作者讽刺 OpenAI 似乎已认为此类内容不配占用其算力。

Ethan Mollick: My most popular Sora video was "an Elaborate regency romance where everyone is wearing a live duck for a hat (each duck ...

产品更新多模态视频
05:15
Ethan Mollick@emollick
入手联网电子墨水屏,接入 nano banana 以轮换风格实时展示天气。AI 降低了尝试新型界面和数据可视化的门槛,无需复杂开发即可实现个性化信息展示。
多模态现象/趋势端侧
03:00
Google Gemini@GeminiApp
Gemini 今日上线 Lyria 3 Pro,支持生成更长音乐曲目及复杂过渡效果。用户可在工具菜单选择"Create music"并切换 Thinking 或 Pro 模式免费使用,该功能已向 Google AI Plus/Pro/Ultra 用户推出。

Google Gemini: Longer tracks are here with Lyria 3 Pro in Gemini! From experimenting with different styles to generating tracks with co...

Google产品更新多模态
01:09
AK@_akhaliq
MedGemma 1.5 技术报告正式发布,详述该医疗多模态大模型的架构设计、训练方法与临床评估结果。论文已公开至 Hugging Face。
Google多模态论文/研究
01:05
TestingCatalog News 🗞@testingcatalog
Gemini 现可在聊天中直接生成交互式可视化内容,针对特定问题显示"Show me the visualization"按钮,点击后可调整变量、旋转 3D 模型及探索数据,以更沉浸的方式理解复杂概念。

Google Gemini: Gemini can now transform your questions and complex concepts into customizable interactive visualizations directly in yo...

Google产品更新多模态
4月9日
23:43
AK@_akhaliq
INSPATIO-WORLD 通过时空自回归建模实现实时 4D 世界模拟,可实时生成动态三维环境并支持交互。技术论文已发布于 Hugging Face。
Hugging Face多模态视频论文/研究
06:36
karminski-牙医@karminski3
Meta发布Muse Spark:高效多模态但非旗舰

Muse Spark是Meta继Llama 4后推出的原生多模态推理模型,支持文本与图像输入。该模型在图像理解、医疗健康及代理搜索任务上达到SOTA水平,但Agent与多任务编排等主打功能评分未达顶尖。官方强调其计算效率较Llama 4 Maverick提升一个数量级,并透露更大模型正在开发中。技术路线采用"多小模型并行推理"策略,以低延迟换取性能,而非依赖单一大模型的长时间思考。

智能体Meta多模态模型发布
02:30
AK@_akhaliq
Video-MME 基准测试发布 v2 版本,推动全面视频理解评估进入新阶段。论文已上传至 Hugging Face。
Hugging Face多模态视频评测/基准
4月7日
22:03
swyx 🇬🇧@swyx
AI Engineer Europe Build Day公布六大技术分论坛议程

AI Engineer Europe Build Day公布六大技术分论坛,聚焦AI工程前沿实践。议程涵盖Personal Agent(Claw)个人代理、Context Engineering长上下文管理、Harness Engineering代理性能优化、Evals & Observability评估体系、Voice & Vision语音视觉多模态,以及Gemini专场。从OpenClaw到Google DeepMind,内容涉及RAG、TTS、ASR、WebMCP等技术方向,呈现AI工程从提示词向复杂代理系统演进的最新趋势。

swyx 🇬🇧: just went live on european TBPN! exclusive preview of the @aiDotEngineer Europe Build Day today

智能体Google多模态行业动态
00:09
AK@_akhaliq
新论文提出 Token Warping 技术,使 MLLMs 能够从附近视角观察,增强多模态模型的视角理解能力。
Hugging Face多模态论文/研究
4月5日
23:21
swyx 🇬🇧@swyx
Google DeepMind 作为 Presenting Sponsors 回归本周伦敦 AIE Europe,以音乐节海报风格官宣演讲阵容:VP of Research Raia Hadsell 及多位产品负责人将出席,现场展示 Gemini 3.1、Embeddings 2、Veo 3、Gemma 4 等全模态技术进展。

AI Engineer: 🇬🇧 London is the birthplace of @GoogleDeepMind, and we're so honored to have them back as: Presenting Sponsors of this...

DeepMindGoogle多模态行业动态
4月3日
17:18
karminski-牙医@karminski3
Qwen3.6-Plus实测:多模态编程与设计还原能力评测

Qwen3.6-Plus 实测显示其多模态编程能力突出。该模型支持图像输入并生成对应代码,测试中通过 three.js 成功还原手表与分体键盘的3D建模,并能依据 UI Kit 参考图生成界面组件。验证了其空间理解、建模能力及前端代码生成水平,展现了从设计图到代码的直接转换能力。

多模态模型发布编码
01:09
Artificial Analysis@ArtificialAnlys
精选
Google发布Gemma 4多模态开源模型系列

Google DeepMind推出Gemma 4系列四款多模态开源模型,支持文本、图像及视频输入。31B(密集架构)与26B A4B(MoE架构)拥有256k上下文窗口,可在单张H100运行;另两款较小模型支持128k上下文。GPQA Diamond测试中,Gemma 4 31B(Reasoning)获85.7%,仅次于Qwen3.5 27B,但输出token仅约1.2M,效率更优;26B A4B(Reasoning)得分79.2%,超越gpt-oss-120B。

DeepMindGoogle多模态开源生态
关联讨论 2 条X:Artificial Analysis (@ArtificialAnlys)X:Jeff Dean (@JeffDean)
推荐理由:Google发布多模态开源模型Gemma 4,单卡H100可跑且科学推理能力突出
4月2日
22:29
Satya Nadella@satyanadella
精选
MAI 模型家族正式登陆 Foundry 平台,推出三款新模型:MAI-Transcribe-1(支持25种语言的最准确转录模型)、MAI-Voice-1(自然语音生成)和 MAI-Image-2(最强图像生成模型)。开发者现可通过该平台直接调用。
Microsoft多模态模型发布语音

推荐理由:Microsoft CEO 亲自发布 MAI 系列三大新模型,覆盖语音转录、合成与图像生成
13:03
karminski-牙医@karminski3
智谱GLM-5V-Turbo实测:多模态补强但代码生成偏弱

智谱发布多模态模型 GLM-5V-Turbo,弥补 GLM-5.1 缺乏视觉输入的短板。实测显示其文本识别准确率保持水准,但前端代码生成能力一般。在网页克隆测试中,面对 JavaScript 背景定位、透明文本、SVG 分割及复杂 DIV 布局等场景,模型将设计图转换为精确代码的表现仍有提升空间。

多模态模型发布编码
‹ 上一页
1…20212223
下一页 ›