AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「多模态」清除
6月11日周四
08:00HuggingFace Daily Papers(社区热门论文)50Avatar V:扩展视频参考的虚拟人视频生成
06:41Orange AI72Google 发布 Gemini 3.5 Live Translate 实时翻译模型
04:23Simon Willison 博客68DiffusionGemma 发布:Google 开源 26B 参数扩散模型,NVIDIA 免费托管
03:22The Decoder:AI News(RSS)56Google 新开源模型 DiffusionGemma:从噪声生成文本,而非逐字逐词
01:14Chubby♨️67老滚5 Fablewind v2:库存、任务与等级系统
00:34AYi43AGI时代品味审美成核心壁垒,Claude Fable 5惊艳
00:23AK46ABot-Earth 0.5 生成式3D地球模型
00:00Suno:Blog(网页)68精选Suno 重构音轨分离功能,推出三种拆分方式
6月10日周三
23:47SiliconFlow58Gemma 4 12B 登陆硅基流动
23:34OpenAI Developers40Codex 像工作室助手助音乐人创作
20:12Chubby♨️41Claude Fable 5 做出真实宝可梦克隆
19:24Artificial Intelligence News(RSS)61Siri AI 带着 Google inside 来了,大部分世界被锁定
17:11Chubby♨️56Fable 5 AI演示引发《上古卷轴6》猜测
17:11Chubby♨️53Fable 5 在 three.js 中展示惊人能力
16:56HuggingFace Daily Papers(社区热门论文)70精选快手开源 Kwai Keye-VL-2.0-30B-A3B:面向长视频理解与智能体智能的 MoE 多模态模型
16:44Deedy66Claude Fable 实现像素级精准,是自 o3 以来 AI 模型质量最大飞跃
16:12Huawei Cloud45华为云智能医疗专区将AI诊断下沉县乡
13:56HuggingFace Daily Papers(社区热门论文)64Lip Forcing:用于实时唇同步的少步自回归扩散方法
13:44宝玉60博主测试:Claude 4.8 UI/UX设计已够好,Fable 5未见优势甚至更差
12:56HuggingFace Daily Papers(社区热门论文)67WorldOlympiad:视频世界模型三项全能评测基准
12:56HuggingFace Daily Papers(社区热门论文)62Data2Story:将数据转化为可验证多模态故事的数据记者智能体
11:56HuggingFace Daily Papers(社区热门论文)61每项多模态证据仅用一个token:面向资源受限问答的Latent Memory
11:46PixVerse38PixVerse转发用户幽默AI角色反转视频
10:56HuggingFace Daily Papers(社区热门论文)63ARM:统一离散表示的自回归大型多模态模型
10:47Rohan Paul47AheadForm仿生面部突破恐怖谷适配小鹏
09:28IT之家(RSS)50初探苹果 iOS 27 相机应用:打磨界面,整合 Siri AI 技能
09:28IT之家(RSS)42苹果升级 iOS 27 版地图:AI 优化飞行俯瞰植被显示效果、引入本地榜单
08:00HuggingFace Daily Papers(社区热门论文)78同事件精选JoyAI-VL-Interaction:实时视觉-语言交互智能同一事件,精选展示《京东全栈开源JoyAI-VL-Interaction,从“一问一答”走向“边看边说”》
08:00HuggingFace Daily Papers(社区热门论文)37APT:通过动作专家预训练提升视觉-语言-动作策略的语言指令泛化能力
08:00HuggingFace Daily Papers(社区热门论文)61Orchestra-o1:全模态智能体编排框架
08:00HuggingFace Daily Papers(社区热门论文)59从2D网格到1D token:改革多模态图像融合的共享表示
08:00HuggingFace Daily Papers(社区热门论文)56PianoKontext:从平淡上下文中生成富有表现力的演奏
07:27IT之家(RSS)72Anthropic 发布 Claude Fable 5 与 Mythos 5
07:07Berryxia.AI35这么看Fable5 的效果有点明显啊,交互细节和动效都很到位。
03:42xAI59xAI与Gopuff合作打造个性化购物助手
03:34MiniMax (official)46MiniMax 上线 RespanAI Gateway 平台
03:20Ars Technica:AI(RSS)63Google 发布 Gemini 3.5 Live Translate,实现即时语音到语音翻译
02:13TechCrunch:AI(RSS)61WWDC 2026:Siri AI、iOS 27 与 Apple Intelligence 等全揭晓
01:44MarkTechPost(RSS)60Google 发布 Gemini 3.5 Live Translate:覆盖 70+ 语言的流式语音到语音翻译模型
01:38Hacker News 热门(buzzing.cc 中文翻译)81同事件精选Claude Fable 5同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月11日
08:00
HuggingFace Daily Papers(社区热门论文)
50
Avatar V:扩展视频参考的虚拟人视频生成

Avatar V 是一个生产级框架,通过视频参考条件建模替代静态图像驱动。模型直接对参考视频的完整 token 序列进行注意力计算,同时重现静态身份和动态行为(如说话节奏、微表情)。核心技术包括线性复杂度的稀疏参考注意力、支持闭环风格迁移的运动表示流、继承全参考条件的身份感知超分精炼器。数据引擎从 5000 万原始视频中筛选出 1 亿以上训练片段,经 flow matching 预训练、个性微调、两阶段蒸馏(>10 倍加速)和 RLHF 对齐等五阶段训练,部署于数千 GPU。可生成无限时长 1080p 视频,在跨场景基准上保持最优的身份保留、唇同步和生成质量,全面超越 Seedance 2.0、Kling O3 Pro、Veo 3.1 和 OmniHuman 1.5。

多模态视频论文/研究
06:41
Orange AI@oran_ge
72
Google 推出 Gemini 3.5 Live Translate,支持 70 多种语言边听边译,保留说话人语调、节奏和音高,延迟仅几秒,自动降噪。Google Translate App 新增听筒模式,开发者可通过 API 调用,支持自动语言检测。

小互: 今天被很多人忽略的大新闻 Google 发布实时翻译模型 :Gemini 3.5 Live Translate - 能在70多种语言之间做到边听边译 - 同时保留说话人的语调、节奏和音高 - 不用等说完才翻,全程只比说话人慢几秒 - 自动滤...

Google产品更新多模态语音
04:23
Simon Willison 博客
68
DiffusionGemma 发布:Google 开源 26B 参数扩散模型,NVIDIA 免费托管

Google 将去年 5 月短暂发布的 Gemini Diffusion 研究成果转化为开放权重的 Gemma 模型,模型名为 google/diffusiongemma-26B-A4B-it,采用 Apache 2 许可证开源。NVIDIA 正通过其 NIM 云 API 免费托管该模型。实测生成 2,409 个模型 token 仅需 4.4 秒,速度至少达到 500 token/s。

Google多模态开源生态模型发布
03:22
The Decoder:AI News(RSS)
56
Google 新开源模型 DiffusionGemma:从噪声生成文本,而非逐字逐词

Google 发布 260 亿参数的 DiffusionGemma 模型,文本生成方式不再逐 token 预测,而是通过扩散过程从噪声直接生成,类似图像 AI 将噪声转化为图片。Nvidia 测试显示,该模型在单块 H100 GPU 上可达约每秒 1,000 tokens,速度约为可比自回归模型的四倍。代价是输出质量较低,因此 Google 目前将其定位为面向开发者的实验性工具。模型已开源。

Google多模态开源生态模型发布
01:14
Chubby♨️@kimmonismus
67
The Elder Scrolls 5 Fablewind (v2)。工作库存+物品,工作任务,等级系统,法力/耐力/生命值工作,买卖和一点更新的图形。 让我们看看这个有多好

Chubby♨️: More realistic example of a one shotted game. Asked Fable 5 to recreate a game in the style of The Elder Scrolls 5 Morro...

多模态教程/实践
00:34
AYi@AYi_AInotes
43
天哪,AGI到来之后,品味和审美一定是一个人最核心的竞争力和最强的护城河, Claude Fable 5遇到审美和品味高的,输出质量高到爆炸,这效果真的绝了😭

ハヤシモン|AI × 個人開発: Claude Fable 5でどこまで表現できるのか、あえて難しいお題を投げてみた。 インクが流体みたいに溶け合う演出。 これは厳しいかなと思って限界を見にいったんだけど、普通に形になってしまった。 デザイン表現力もかなりすごい。 実際にこ...

Anthropic图像生成多模态大佬观点
00:23
AK@_akhaliq
46
ABot-Earth 0.5 生成式3D地球模型
多模态模型发布
00:00
Suno:Blog(网页)
精选68
Suno 重构音轨分离功能,推出三种拆分方式

Suno 对音轨分离功能进行重构,推出三种拆分方式:Auto Split 将歌曲自动拆分为最多 12 个音轨(鼓、贝斯、吉他等);Split from Mix 可隔离或移除特定乐器/人声并生成伴奏轨道;Advanced Split(仅 Premier 订阅)支持从近 100 种乐器中精确提取目标音轨。与常规切割算法不同,Suno 使用最新模型从零重新生成每个音轨,而非从混音中切割,以消除串音和音质损失。该功能适用于 Pro 和 Premier 订阅用户,可用于 Suno 创作或上传的音乐。

产品更新多模态

推荐理由:Suno 重写了 stem separation,不再是旧路子切音频,而是用模型重新生成干净的干声,鼓点有劲、人声没杂音,还能拆上百种乐器,做混音的人可以试试。
6月10日
23:47
SiliconFlow@SiliconFlowAI
58
Gemma 4 12B 登陆硅基流动

Google DeepMind 的 Gemma 4 12B 已在硅基流动上线,定价输入 $0.1/1M tokens,输出 $0.3/1M tokens。支持 262K 上下文、内置思考、原生工具调用及 140+ 种语言。采用无编码器架构,视觉和音频输入直接注入 LLM 主干,降低处理延迟。12B 参数但配备 26B “大脑”,性能接近 Google 26B 级别,擅长多步推理与智能体工作流。

智能体产品更新多模态
23:34
OpenAI Developers@OpenAIDevs
40
对于音乐人和作曲家 @sound4movement,Codex 就像一个工作室助手。他要求一个 3/4 拍的钢琴轨道,设置速度和和声,然后描述表演应该如何构建。Codex 在 Ableton Live 中处理设置。Michael 则专注于创作工作。
OpenAI多模态教程/实践
20:12
Chubby♨️@kimmonismus
41
我靠,这太疯狂了。@ChrissGPT 用 Claude Fable 5 制作了一个真实的宝可梦克隆。
Anthropic多模态现象/趋势
19:24
Artificial Intelligence News(RSS)
61
Siri AI 带着 Google inside 来了,大部分世界被锁定

Apple 在 WWDC 2026 上正式推出 Siri AI,其内部集成了 Google 技术。然而,该 AI 服务的可用性受到严格限制,大部分地区的用户无法使用。Apple 操作系统项目管理副总裁 Stacey Ford 在介绍 Spotlight 时提及了搜索体验的痛点,这一发布标志着 Apple 在 AI 领域的重要进展,但全球覆盖的缺失成为显著争议点。

Google产品更新多模态
17:11
Chubby♨️@kimmonismus
56
所以我们可以期待《上古卷轴VI》完全由提示词生成,对吧? Matt Shumer 用 three.js 制作了 Fable 5。 太疯狂了。
多模态现象/趋势
17:11
Chubby♨️@kimmonismus
53
Matt Shumer 用 Fable 5 在 three.js 中制作了这个,让人不禁期待《上古卷轴6》完全由提示词生成。太疯狂了。

Chubby♨️: So we can expect The Elder Scrolls VI to be fully prompt-generated, right? Matt Shumer made this with Fable 5 in three.j...

多模态评测/基准
16:56
HuggingFace Daily Papers(社区热门论文)
精选70
快手开源 Kwai Keye-VL-2.0-30B-A3B:面向长视频理解与智能体智能的 MoE 多模态模型

快手开源 Kwai Keye-VL-2.0-30B-A3B,一个 MoE 多模态基础模型,激活仅 3B 参数,专为长视频理解和智能体智能设计。模型首次将 DeepSeek Sparse Attention (DSA) 适配到 GQA 多模态架构,实现无损 256K 上下文处理,并通过可扩展视频 I/O、异构 ViT-LM 并行及自定义 DSA 内核优化吞吐与计算开销。引入跨模态多教师在策略蒸馏(MOPD)结合 Context-RL 和 Video-RL,缓解多任务对齐中的灾难性遗忘,原生支持代码、工具、搜索场景下的多智能体协作与多模态自纠正。在 TimeLens、Video-MME-v2、LongVideoBench 等多个基准上达到同类规模 SOTA,模型权重已开源。

智能体多模态视频论文/研究

推荐理由:Keye-VL-2.0 把长视频理解推到 256K 上下文,还用了 DeepSeek 的稀疏注意力,这是目前我能找到的对长短视频最兼顾的多模态模型,做视频 agent 的该看看。
16:44
Deedy@deedydas
66
Claude Fable 实现像素级精准,是自 o3 以来 AI 模型质量最大飞跃

Claude Fable 在创建文档、幻灯片、表格、网站等方面实现了像素级精准,被认为是自 o3 以来 AI 模型质量的最大飞跃。其能力包括:完美复现 McKinsey 风格报告、近乎一致的 SpaceX S-1 IPO 草案、像素级还原宝可梦游戏、可控人形机器人 3D 设计、仅用 CSS 实现 Apple Liquid Glass UI、优胜美地 3D 世界渲染、网站设计升级以及精美的邮件营销模板。其中许多任务需要超过 2 小时的深度思考。

Anthropic图像生成多模态大佬观点
16:12
Huawei Cloud@HuaweiCloud1
45
没有持续的创新,就无法实现 AI 医疗的民主化。在华为云 INSPIRE 2026 上,华为董事、华为云 CEO 张平安(Peter Zhou)分享了智能医疗专区如何将 AI 诊断从城市带到县乡--惠及每一位医生和患者。 了解更多:https://tinyurl.com/ycx669xp #INSPIRE2026 #HuaweiCloud #SmartHealthcare
多模态行业动态
13:56
HuggingFace Daily Papers(社区热门论文)
64
Lip Forcing:用于实时唇同步的少步自回归扩散方法

Lip Forcing提出了自回归扩散方法用于视频到视频唇同步,从14B参数的音频条件双向视频扩散教师模型蒸馏出因果学生模型。推理时每个块仅需两步去噪,无需CFG,实现实时流式处理。技术分析揭示CFG的保真度-同步权衡,进而衍生出Sync-Window DMD、两步推理调度和基于SyncNet的奖励三项组件。1.3B学生模型在31 FPS下实时输出,比同规模双向模型快17.6倍;14B学生模型是目前最大的V2V唇同步扩散模型,比教师快39.8倍,保真度接近。首帧时延均小于1毫秒。

多模态视频论文/研究
13:44
宝玉@dotey
60
博主测试:Claude 4.8 UI/UX设计已够好,Fable 5未见优势甚至更差

Anthropic同日发布Fable 5与Mythos 5,同底座但Fable 5加安全分类器(检测攻击/生化/蒸馏时降级至Opus 4.8,95%对话不触发),Mythos 5仅限Project Glasswing合作伙伴。API定价输入$10/百万token、输出$50,较Mythos Preview降60%,比Opus 4.8贵一倍。实际能力:Stripe用Fable 5一天完成5000万行Ruby全库迁移;视觉接口通关宝可梦火红版;Mythos 5使蛋白质设计加速约10倍,基因组学模型超Science但体量仅1%。订阅用户即日起至6月22日免费,后续需额外购买credits。政策变化:所有Mythos级流量强制保留30天用于安全监控。博主@dotey大量测试后认为,Claude 4.8在UI/UX设计上已足够好,Fable 5未体现更强能力甚至更差。

宝玉: Anthropic 今天同时发布了两个模型:Claude Fable 5 和 Claude Mythos 5。 两个模型用的是同一个底座,区别在于 Fable 5 加了一套安全分类器,面向所有用户开放;Mythos 5 去掉了部分安全限制,...

Anthropic产品更新多模态大佬观点
12:56
HuggingFace Daily Papers(社区热门论文)
67
WorldOlympiad:视频世界模型三项全能评测基准

WorldOlympiad 将视频世界模型评估分解为物理、几何和交互三个维度。物理轨道用物体分割和 MLLM-as-judge 检验视频对力学、热现象、材料属性等规则的遵循;几何轨道以高斯泼溅重建评估结构一致性、跨视角连贯性与相机轨迹对齐;交互轨道评测模型能否按复杂动作提示生成连贯长程视频。基准覆盖游戏、机器人和通用真实视频三大场景。实验表明,当前最先进模型在物理推理、3D 一致性和长程交互上存在显著差距。

arXiv具身智能多模态视频
12:56
HuggingFace Daily Papers(社区热门论文)
62
Data2Story:将数据转化为可验证多模态故事的数据记者智能体

Data2Story是一个多智能体框架,将数据记者工作流中的多种专业角色编排成虚拟新闻编辑室。其两项创新是:每个声明通过Inspector链接到数据、代码或外部参考,实现基于证据的归因;文章可多模态生成,如为地理内容生成交互式地图、为音乐生成音频。在18篇文章上的评估从四个维度进行:人与智能体的角度覆盖、53名参与者的评分、计算机使用智能体作为读者导航代理、以及可验证性(代码验证器重新执行语句并与参考对照)。Data2Story产出有竞争力且证据可追溯的多媒体故事,在透明度和可审计性上表现突出,但人类文章在编辑角度、创意设计和呈现上仍具优势。框架定位为记者协作者,代码和演示已公开。

智能体多模态论文/研究
11:56
HuggingFace Daily Papers(社区热门论文)
61
每项多模态证据仅用一个token:面向资源受限问答的Latent Memory

Latent Memory提出一种潜在空间记忆范式,由小型压缩器LLM/VLM将每个原始文本或图像证据压缩为单个高维潜在token。查询时,将查询嵌入同一空间检索相关token并直接输入预训练LLM/VLM生成答案。通过统一端到端训练,结合重建、对比和蒸馏目标,使单个token同时携带重建、检索和生成信息。在HotpotQA等七个纯文本QA基准和多项多模态QA基准上,Latent Memory取得与先进RAG基线相当的问答性能,同时生成器token消耗减少3至10倍,并在WebQA上达到图像问答最强性能。代码已公开。

arXiv检索增强多模态论文/研究
11:46
PixVerse@PixVerse_
38
一则巧妙的角色反转短片,凸显了AI视频的创意力量。幽默、视觉锐利、执行完美。干得漂亮 @ai_am_furufuru !

ふるふるの大冒険/Furufuru's Epic Adventure: 「The Fish Strikes Back/魚の逆襲」 #seedance #pixversecpp @PixVerse_

其他多模态视频
10:56
HuggingFace Daily Papers(社区热门论文)
63
ARM:统一离散表示的自回归大型多模态模型

ARM是一种基于离散表示的自回归模型,将图像理解、生成与编辑统一在下一个token预测框架中。首先训练离散语义视觉tokenizer,通过多目标监督实现语义判别、语言对齐与忠实重建;然后在文本与图像token序列上训练7B自回归模型,自然融合视觉语言感知与生成能力;最后用强化学习优化文本到图像生成与指令引导编辑的偏好对齐,使WISE整体得分从0.50提升至0.56,GEdit-Bench-EN的G_O评分从5.75提升至6.68,并观察到跨任务协同效果。

arXiv图像生成多模态论文/研究
10:47
Rohan Paul@rohanpaul_ai
47
那些眼睛动得如此自然 AheadForm的仿生面部,正在突破恐怖谷。 想象这张脸出现在小鹏那模特般流畅的步行机器人上。那将非常震撼。
产品更新具身智能多模态
09:28
IT之家(RSS)
50
初探苹果 iOS 27 相机应用:打磨界面,整合 Siri AI 技能

iOS 27 相机应用更新幅度不大,主要对 iOS 26 重构后的界面进行补充修饰。核心元素位置不变,当前模式居中,默认突出“照片”,左右提示“视频”和“人像”。设置抽屉移至右下角,面板统一从底部弹出;视频设置从顶部移到底部;照片模式新增景深、格式、水平仪、网格线等入口。真正新功能是相机内整合 Siri Mode,基于 Visual Intelligence,用户拍下目标后直接提问,Siri 按画面内容回答,官方用例包括分摊账单和记录饮食摄入。

产品更新多模态端侧
09:28
IT之家(RSS)
42
苹果升级 iOS 27 版地图:AI 优化飞行俯瞰植被显示效果、引入本地榜单

iOS 27 版 Apple 地图升级“飞行俯瞰”功能,结合 AI 与航拍图像优化植被 3D 显示效果,树木枝干层次更丰富,目前仅纽约、伦敦等部分城市可用。同时引入“本地榜单”(Local Lists)功能,基于地图交互数据统计区域内最受欢迎餐厅,展示列表、营业时间、价格区间和菜品图片,用户可添加标记,基于隐私数据不关联个人,功能先在美国落地。

产品更新多模态
08:00
HuggingFace Daily Papers(社区热门论文)
同事件精选78
JoyAI-VL-Interaction:实时视觉-语言交互智能

JoyAI-VL-Interaction是一个8B参数的视觉优先交互模型,能像人一样持续观察实时画面,自主决定每秒钟保持沉默、回应或将复杂问题委托给后台模型。模型擅长视觉触发响应和时间感知,并涌现出引导用户切换屏幕、根据幻灯片即兴讲解等未专门训练的能力。配合完整可部署系统,支持实时视频流输入、可插拔ASR/TTS模块、记忆、可视化UI及可连接任意API或智能体的后台大脑。在六个真实场景中,人类评估者更偏好该模型而非豆包和Gemini的应用内视频通话助手。这是首个开源且附带训练配方、数据和完整部署系统的视觉驱动交互模型。

智能体多模态模型发布
同一事件,精选展示《京东全栈开源JoyAI-VL-Interaction,从"一问一答"走向"边看边说"》
推荐理由:这是首次把视觉主动交互能力做成开源模型和完整系统,模型不再等问题才回答,而是自己决定何时开口或保持沉默,对做实时助手和直播产品的团队有直接参考价值。
08:00
HuggingFace Daily Papers(社区热门论文)
37
APT:通过动作专家预训练提升视觉-语言-动作策略的语言指令泛化能力

视觉-语言-动作(VLA)模型将预训练VLM与连续动作专家结合,但在分布外语言指令上泛化差——原因是数据中语言多样性低且动作专家随机初始化导致梯度噪声削弱VLM。APT从贝叶斯视角将策略分解为语言无关的视觉-动作(VA)先验和语言条件VLA似然,采用两阶段训练:阶段1冻结VLM,在视觉-动作对上预训练动作专家作为VA先验;阶段2通过门控融合注入语言token,保留已学习的视觉运动先验。APT适用于π和GR00T风格架构,在未见指令和组合任务上实现一致提升。

具身智能多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
Orchestra-o1:全模态智能体编排框架

Orchestra-o1是一种全模态智能体编排框架,支持文本、图像、音频和视频等多模态输入的统一理解与协调。其引入统一编排机制,实现模态感知的任务分解、在线子智能体专化及并行子任务执行。在OmniGAIA基准上,Orchestra-o1超越第二名10.3%的准确率。研究还提出决策对齐的组相对策略优化(DA-GRPO),一种高效智能体强化学习方法,用于训练Orchestra-o1-8B,该模型在所有现有开源全模态智能体中达到最优性能。

智能体多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
59
从2D网格到1D token:改革多模态图像融合的共享表示

多模态图像融合现有方法基于2D特征网格,局部建模强但全局外观控制有限。本文引入紧凑1D token接口,基于冻结预训练图像tokenizer作为全局载体,同时保留2D空间路径恢复局部结构。提出选择性token编辑(STE),稀疏更新或替换关键token,在不改变融合主干、不引入额外损失下引导全局一致性。在四个基准上取得最佳整体性能,全局一致性和局部保真度均提升。

图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
PianoKontext:从平淡上下文中生成富有表现力的演奏

PianoKontext 是一种流匹配渲染模型,专为古典钢琴音乐设计,在预训练 Music2Latent 模型的潜在空间中生成可变长度的富有表现力演奏。该方法将 MIDI 乐谱合成为平淡音频,利用动态时间规整(DTW)在潜在空间中对齐乐谱与演奏数据,并将对齐的嵌入拼接至 DiT 块中,以简单有效的方式学习乐谱与演奏之间的依赖关系。演示音频见项目页面。

多模态论文/研究
07:27
IT之家(RSS)
72
Anthropic 发布 Claude Fable 5 与 Mythos 5

Anthropic 于 6 月 9 日推出 Claude Fable 5 和 Mythos 5。Fable 5 面向普通用户,是目前公开最强的 Claude 模型,在软件工程、知识工作、视觉、科学研究等领域优于 Opus,自主运行时间更长。Mythos 5 通过 Project Glasswing 向网络安全防御方和基础设施提供商开放,具备全球最强网络安全能力,并在药物设计、分子生物学和基因组学中表现突出。两款模型本质相同,仅安全护栏不同。Fable 5 采用新分类器拦截网络安全、生物化学和蒸馏请求,命中后转由 Claude Opus 4.8 响应。定价均为每百万输入 10 美元、每百万输出 50 美元。Fable 5 已全面上线,Mythos 5 暂限 Glasswing 合作伙伴及少量生物研究者。

Anthropic多模态推理模型发布
关联讨论 31 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)公众号:卡尔的AI沃茨X:歸藏 (@op7418)The Verge:AI(RSS)X:Berry Xia (@berryxia)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克
07:07
Berryxia.AI@berryxia
35
这么看Fable5 的效果有点明显啊,交互细节和动效都很到位。
产品更新多模态
03:42
xAI@xai
59
了解更多关于我们与 @gopuff 合作,利用聊天、语音和图像模型构建个性化购物助手的信息
xAI多模态行业动态语音
03:34
MiniMax (official)@MiniMax_AI
46
MiniMax 在 @RespanAI Gateway 上线 开发者现在有了另一种便捷方式访问我们的模型。 随着更多团队在文本、语音、图像、视频和音乐领域推出 AI 产品,我们希望在你需要时,我们的模型就在那里。 链接在评论区 👇 #MiniMax #Respan #AIGateway #MultimodalAI #AIModels #Developers #BuildWithAI
多模态行业动态部署/工程
03:20
Ars Technica:AI(RSS)
63
Google 发布 Gemini 3.5 Live Translate,实现即时语音到语音翻译

Gemini 3.5 Live Translate 提供即时语音到语音翻译,能够保留说话者的语调、节奏和音高,并通过 SynthID 水印确保安全性。

Google多模态模型发布语音
02:13
TechCrunch:AI(RSS)
61
WWDC 2026:Siri AI、iOS 27 与 Apple Intelligence 等全揭晓

苹果在 WWDC 2026 上重点展示了其长期以来的 Siri 助手改进体验,并宣布了 iOS 27 和 Apple Intelligence 等多项更新,所有 announcement 均大量融入 AI 技术。

产品更新多模态语音
01:44
MarkTechPost(RSS)
60
Google 发布 Gemini 3.5 Live Translate:覆盖 70+ 语言的流式语音到语音翻译模型

Gemini 3.5 Live Translate 是一款流式语音到语音翻译模型,支持 70 多种语言。它会持续生成音频,仅落后说话人几秒。该模型通过 Gemini Live API、Google Meet 和翻译应用向开发者开放。

Google多模态模型发布语音
01:38
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选81
Claude Fable 5

Claude Fable 5 登上 Hacker News 热门,获得 158 个赞同,源页面为 Anthropic 官网。

Anthropic多模态安全/对齐推理
同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》
推荐理由:Anthropic 的 Mythos 系列首款公开发行模型,编码和科学推理能力在多个基准上超越 GPT-5.5,虽然安全分类器导致 5% 会话降级到 Opus 4.8,但价格大幅降低,是当前最强的可用模型之一。
‹ 上一页
1…1011121314…50
下一页 ›