AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「多模态」清除
今天7月3日 周五
06:08MarkTechPost(RSS)63RAG-Anything 教程:在 Colab 中构建文本、表格、公式和图像的多模态检索管道
03:06TechCrunch:AI(RSS)61Meta悄然推出vibe-coded游戏应用Pocket
01:08Apple Machine Learning Research(RSS)62精选RL微调VLM的鲁棒性与思维链一致性研究
7月2日周四
23:03Ethan Mollick50Ethan Mollick:你真的需要自己的基准测试
22:33Berryxia.AI48GenRecon:结合生成式先验的多视角3D重建方法
22:00公众号:可灵AI(快手·视频)49可灵AI广告斩获戛纳金狮:两部作品获1银2铜
16:39小互66豆包复刻真人+2D贴纸搞笑短视频
15:28HuggingFace Daily Papers(社区热门论文)54多模态连续推理:非对称互变分学习
12:04IT之家(RSS)26极氪 OTA 7.2 更新发布:40 项新增功能,18 项体验优化
11:28HuggingFace Daily Papers(社区热门论文)51Perceive-to-Reason (P2R):解耦感知与推理的细粒度视觉推理框架
11:25歸藏(guizang.ai)69AI Skills 让 Live Photo 制作门槛大降
10:28HuggingFace Daily Papers(社区热门论文)46DiscoPER:基于迭代元反思的自主科学发现框架
09:28HuggingFace Daily Papers(社区热门论文)50VideoSearch-R1:通过软查询优化实现迭代视频检索与推理
08:03IT之家(RSS)42华为联合上海电信落地 5G-A×AI 大上行样板点:实测峰值速率 1Gbps,中心城区年底实现 20Mbps 上行连续覆盖
02:32Google Blog:AI(RSS)43Google 2026年6月AI更新汇总
01:21AYi47AI零成本副业:儿童动画月入$5000+,营销Agent Lev8找客户三项Benchmark领先
00:32Suno30Suno 探索开发者 API 计划
00:20Artificial Intelligence News(RSS)45部署零售AI以扩展个性化和客户洞察
7月1日周三
23:57Luma29Luma AI绿幕与海洋同动作转换
23:31Berryxia.AI47接入小米mimo的AI智能体实测
22:25Google AI55Google DeepMind SynthID 水印技术进展
22:10Runway:News(网页)48Runway 宣布与 Bertelsmann 达成创意合作
19:41OpenBMB35MiniCPM-V 4.6 边缘部署获赞
19:03IT之家(RSS)26Rokid AR 眼镜官宣搭载恒玄 BES2810 芯片:6nm 工艺,支持全新语音交互
18:52fofr46Nano Banana 2 Lite 展示完美动物物体融合
17:28HuggingFace Daily Papers(社区热门论文)43MuSViT:乐谱表示的基础视觉模型
17:28HuggingFace Daily Papers(社区热门论文)48DataEvolver:面向文本丰富图像生成的自进化多智能体数据构建框架
14:56MiniMax (official)45MiniMax 研究员谈稀疏注意力与原生多模态训练
08:30Berryxia.AI55Google推出Nano Banana 2 Lite与Gemini Omni Flash,实现图像到视频快速闭环
08:28ginobefun45Claude Sonnet 5 / Nano Banana 2 Lite / Gemini Omni Flash / 吴恩达 AI 智能体循环
07:31Rohan Paul33AI周报:央行担忧,中国模型成本低50倍,Meta脑机接口78%准确率
07:28🚨 AI News | TestingCatalog48NotebookLM 推出 Short Video Overviews 生成 60 秒竖版视频
07:01DogeDesigner37马斯克:Neuralink技术达到耶稣级奇迹
03:55The Verge:AI(RSS)50Google NotebookLM 新增 TikTok 风格竖屏视频摘要功能
03:27Luma31Luma AI打造恐龙与智能体的温馨小世界
02:28Artificial Analysis68阿里巴巴 HappyHorse 1.1 登顶 Artificial Analysis 视频排行榜第二
02:23Runway28Runway AI 峰会 9 月登陆旧金山
01:38The Decoder:AI News(RSS)59Google 发布 Nano Banana 2 Lite 图像模型与 Gemini Omni Flash 视频模型
01:31Rohan Paul72Google发布Nano Banana 2 Lite与Gemini Omni Flash
00:55MiniMax (official)65MiniMax M3 400B+参数多模态发布
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月3日
06:08
MarkTechPost(RSS)
63
RAG-Anything 教程:在 Colab 中构建文本、表格、公式和图像的多模态检索管道

本教程使用 RAG-Anything 搭建多模态检索工作流,可检索文本、表格、公式和图像。首先在 Colab 中安装依赖并修复 Pillow 版本,通过 OpenAI API key 配置对话、视觉和嵌入函数。接着生成包含图表和 PDF 的合成多模态报告,将其转为 content_list 格式并插入检索系统。最后配置并测试 naive、local、global 和 hybrid 四种检索模式。环境变量包括 CHUNK_SIZE=900、CHUNK_OVERLAP_SIZE=120,便于在笔记本中复现。

检索增强多模态教程/实践
03:06
TechCrunch:AI(RSS)
61
Meta悄然推出vibe-coded游戏应用Pocket

Meta推出新应用Pocket,用户可通过AI提示词生成小型互动游戏和应用。该应用源自Meta今年早些时候收购的vibe-coding游戏平台Gizmo团队,界面与Gizmo原有应用高度相似,并提供可浏览他人作品的发现信息流。Pocket于6月29日上线App Store和Google Play,目前处于初期实验阶段,Meta尚未正式宣布。其前身Gizmo在iOS和Google Play累计安装63.5万次,正面评价占比98%。

Meta产品更新多模态
01:08
Apple Machine Learning Research(RSS)
精选62
RL微调VLM的鲁棒性与思维链一致性研究

强化学习(RL)微调被扩展至视觉语言模型(VLM)。研究发现,简单的文本扰动——误导性标题或错误思维链(CoT)——会显著降低模型鲁棒性和置信度,且开源模型衰退更明显。闭源模型呈现类似失败模式,但鲁棒性和推理一致性更强。进一步分析揭示准确性与忠实性的权衡:微调提升基准准确率,但同时侵蚀CoT的可靠性及对上下文变化的鲁棒性;对抗性增强可改善鲁棒性,却无法阻止忠实性漂移。引入忠实性感知奖励能恢复答案与推理的对齐,但与增强结合时训练易崩溃到捷径策略。这些发现强调需联合关注正确性、鲁棒性与视觉推理的忠实性。

多模态推理论文/研究

推荐理由:RL微调让VLM基准分变好看,却可能让它的推理链变得靠不住,这个反直觉的诊断对正在用RL打磨多模态模型的团队是个警醒。
7月2日
23:03
Ethan Mollick@emollick
50
Ethan Mollick主张用自定义基准测试评估模型,而非依赖通用基准或直接换模型。他举例:翻译埃及象形文字用Gemini 3.5 Flash,运行自动售货机用Opus 4.8。JakeABoggs的HieroglyphBench测试显示,Anthropic Fable 5与GPT-5.5持平,但均远落后于Gemini系列,其中Gemini 3.5 Flash得分是Fable 5的两倍以上。

Jake Boggs: Fable 5 is a large step for Anthropic's vision capabilities and effectively ties with GPT-5.5 on HieroglyphBench, my ben...

多模态大佬观点评测/基准
22:33
Berryxia.AI@berryxia
48
GenRecon:结合生成式先验的多视角3D重建方法

GenRecon将生成式3D先验与多视角重建结合,把场景切分成重叠chunk,用Trellis.2等生成模型条件重建各chunk并拼接。核心创新是投影式conditioning,将多视角图像特征提升到3D空间。输出可编辑PBR mesh,室内重建保真度和完整度比SOTA高16%。

多模态端侧论文/研究
22:00
公众号:可灵AI(快手·视频)
49
可灵AI广告斩获戛纳金狮:两部作品获1银2铜

戛纳国际创意节今年首设AI Craft子赛道,两部使用可灵AI生成的广告获奖:《L'Ultimo Uomo Reale》获Classic单元Film银奖及Craft单元Film铜奖,《Lorem Ipsum》获Classic单元Film铜奖。前者为二手奢侈品平台The RealReal的愚人节广告,几乎全由AI生成,仅手提包为实拍,展现人物一致性和复杂视觉奇观;后者由Purga Films制作,全片角色用拉丁文假文对话,风格迥异但情绪推进精准。两部作品标志可灵已产出商业交付级广告,获全球最高级别广告创意殿堂认可。

多模态行业动态视频
16:39
小互@xiaohu
66
用户使用豆包,根据详细prompt复刻了一部真人实拍与2D动漫贴纸合成的搞笑短视频。视频为第一人称厨房做饭视角,包含4个镜头:贴纸角色倒盐捣乱、被锅铲敲头、被喂盐咸菜、齁到倒地。prompt指定了风格(8K超清竖屏)、时长10秒、场景(真实厨房)、角色(金色长发水手服Q版贴纸人物)及各镜头的动作与音效。

John: 简简单单使用豆包复刻一下📺 prompt 👇 [风格]真人实拍+2D动漫贴纸合成搞笑短视频(Live-Action + Flat 2D Sticker Composite),第一人称做饭视角(POV Cooking Vlog),写实厨房...

多模态教程/实践视频
15:28
HuggingFace Daily Papers(社区热门论文)
54
多模态连续推理:非对称互变分学习

多模态大语言模型受语言空间瓶颈限制,连续潜在推理虽能绕过离散token的感知损失,但存在训练-推理不匹配:训练时后验利用答案捷径,迫使推理时先验模仿包含不可用信息的后验,导致性能下降。提出非对称互变分学习(AMVL)框架,通过双向KL校准解决——前向KL训练先验匹配后验,反向KL正则化后验防止崩溃至推理不兼容区域,缓解“答案泄露”。理论分析将后验污染形式化为先验污染,证明双KL目标可降低污染。在latent-integrated MLLM上,AMVL在复杂BLINK基准平均提升+10.83,单项推理任务最高提升+32.00,潜在空间稳定性得到改善。

多模态推理论文/研究
12:04
IT之家(RSS)
26
极氪 OTA 7.2 更新发布:40 项新增功能,18 项体验优化

极氪向全系搭载 8295 智能座舱平台的车型推送 OTA 7.2 更新,共 40 项新增功能和 18 项体验优化。超级 Eva 语音助手升级,支持情绪识别、模糊导航规划、车外语音喊话、雨夜模式等。千里浩瀚 G-ASD 4.0 高阶智驾新增人工收费站自动通行、乡村土路稳定通行、导航终点自动靠边停靠、偏移泊车等功能,搭载世界行为模型。Zeekr AI OS 7 座舱系统采用瑞典团队全新视觉设计,支持智慧分屏、手势盲操、AI 生成式桌面与 AI Sidebar。辅助驾驶更新适用于搭载千里浩瀚 H7 及以上的车型。

产品更新多模态行业动态
11:28
HuggingFace Daily Papers(社区热门论文)
51
Perceive-to-Reason (P2R):解耦感知与推理的细粒度视觉推理框架

Perceive-to-Reason (P2R) 提出两阶段统一框架:模型先作为感知器定位与问题相关的视觉证据,再作为推理器基于标注图像和裁剪区域回答问题。为对齐训练,引入感知-推理交替 GRPO(PRA-GRPO),一种仅用最终答案监督的、区分角色的强化学习策略。基于 Qwen3-VL-Instruct-2B/4B/8B,P2R 在各规模上持续提升性能。其中 P2R-4B 在 V-Star 达 93.2%,在 HR-Bench-4K 和 HR-Bench-8K 上分别达 81.9% 和 80.5%,显著超越对应基线。进一步实验表明,P2R 的收益可延伸至更广泛的多模态推理任务。

多模态推理论文/研究
11:25
歸藏(guizang.ai)@op7418
69
AI Skills 让 Live Photo 制作门槛大降

藏师傅推出的 Skills 功能可制作 Live Photo,用户只需提供文案和一段视频,便能自动完成编辑、排版并生成带文字的 Live Photo。该功能还能执行拼图、夹子等基础编辑操作,比市面上同类产品更方便。其门槛极低,适合展示步骤说明、产品细节、动态网页等需要动态呈现的场景。

歸藏(guizang.ai): http://x.com/i/article/2072507922257723392

多模态教程/实践
10:28
HuggingFace Daily Papers(社区热门论文)
46
DiscoPER:基于迭代元反思的自主科学发现框架

DiscoPER 是一个大语言模型驱动的自主科学发现框架。它无需预设研究目标,动态生成代码探索数据集,且每个发现必须通过统计检验。框架引入二阶元反思机制,周期性分析自身已有发现,识别结构模式、混淆和认知空白,主动将假设探索重定向到未知区域。结合工具使用,可处理多模态来源(如图像)的信息。在 iNatDisco 生态基准上,DiscoPER 恢复 8/9 已知模式,假设支持率 72.7%,优于经典因果发现与 LLM 引导基线。消融实验证实随数据规模扩展及二阶元反思的收益。

多模态数据/训练论文/研究
09:28
HuggingFace Daily Papers(社区热门论文)
50
VideoSearch-R1:通过软查询优化实现迭代视频检索与推理

现有视频检索方法常将检索视为预处理步骤,失败后无法优化查询,且智能体框架多假设已提供相关视频。VideoSearch-R1提出一种智能体框架,通过与视频搜索引擎多轮交互实现迭代检索与推理。其核心是软查询优化(SQR),在连续潜在空间中优化搜索查询token,而非在离散文本空间重写。SQR及推理过程使用组相对策略优化(GRPO)训练,由检索和下游任务的任务级奖励信号引导。该方法在三个视频语料库时刻检索(VCMR)数据集上达到最先进性能,且生成的token远少于显式文本级查询优化。

多模态搜索论文/研究
08:03
IT之家(RSS)
42
华为联合上海电信落地 5G-A×AI 大上行样板点:实测峰值速率 1Gbps,中心城区年底实现 20Mbps 上行连续覆盖

华为与上海电信在上海西岸美术馆打造5G‑A×AI大上行样板点,依托全国首张5G‑A×AI大上行商用网络,实测上行峰值1Gbps、下行近4Gbps。当前核心城区热门商圈已实现泛在20Mbps上行连续覆盖,预计年底覆盖整个中心城区。现场以AI眼镜等终端演示多模态交互,2.1GHz 8T8R网络较1.8GHz 4T4R响应更快无卡顿,上行覆盖提升3‑5dB,容量翻倍。GSMA于2026年3月发布“大上行网络倡议”,提出泛在20Mbps、峰值1Gbps等核心指标。

多模态端侧行业动态
02:32
Google Blog:AI(RSS)
43
Google 2026年6月AI更新汇总

Google在6月发布多项AI更新:推出Gemini 3.5 Live Translate实时语音翻译;

Google多模态模型发布端侧
01:21
AYi@AYi_AInotes
47
AI零成本副业:儿童动画月入$5000+,营销Agent Lev8找客户三项Benchmark领先

主推文介绍零成本AI副业:用AI做YouTube儿童早教动画。五步:搜童谣对标、AI改写脚本、Wan2.7或Pika生成动画、AI配儿童音色+背景音乐、标题标签SEO。日更1-2条,首月见收益,月入$5000-$10000。注意纯原创、专业儿童音色、遵守COPPA关闭个性化广告。另引用营销Agent Lev8,找海外客户场景:有效结果90个(Exa 58.2,Codex 20),匹配精度83.3%(Exa 76.5,Codex 71.8),单条成本$0.052(Exa $0.061)。Lev8聚合50+数据源和10亿+职场人脉,支持5个渠道发送定制破冰消息。

AYi: 真的有点兴奋,终于等来营销圈的 Codex 了,不管你是独立开发还是OPC一人公司,找客户扒联系方式写破冰信这些破事,直接给你干得明明白白! 甚至你用来做副业搞钱都是一个超级神器! 我们都知道,AI现在已经把写代码的门槛拉平了,Codex能...

智能体多模态教程/实践视频
00:32
Suno@suno
30
Suno 正在探索推出开发者 API,计划从一批合作伙伴开始,重点关注能解锁生成式音乐新体验的应用。主推文仅一个表情"👀"。

Jack Brody: Ahead of our partner powered model, we're exploring a developer API for @suno and want to hear from you before we start ...

产品更新多模态
00:20
Artificial Intelligence News(RSS)
45
部署零售AI以扩展个性化和客户洞察

零售AI通过生成式UI实时定制页面布局、文案和交互组件,将购买频率提升35%、平均订单价值提高21%。多模态社交倾听系统处理视频、音频和未标记图像,覆盖82%的互联网流量,全球市场本财年达28.3亿美元,76%的分析师报告可见投资回报。基于大语言模型的合成用户模拟可在沙箱环境中执行数千次自动化访谈和内容测试。边缘计算硬件支持无收银台结账、实时货架跟踪等物理自动化,该市场预计2040年超3700亿美元。Model Context Protocol(MCP)作为开放通信标准,标准化模型与零售数据库、产品目录及CRM的集成。

多模态现象/趋势端侧部署/工程
7月1日
23:57
Luma@LumaLabsAI
29
观看拍摄变成世界。一边是绿幕,另一边是开阔海洋,相同的动作连接两者。由@heydin_ai制作。使用Luma创作。
产品更新多模态视频
23:31
Berryxia.AI@berryxia
47
接入小米mimo的AI智能体实测

我不管别人怎么吹,我觉得切身体会每天都用这玩意。 发现真的比很多Agent什么的好用很多,我接的是小米的mimo模型,听说读写,下载视频、剪辑什么的都可以搞定。 我已经当个小秘在用了哈! PS:不是一条广告😁 如果是就让老板安排打钱吧!

Bloome: This is what Bloome was built for. Drop Claude Code, Codex and DeepSeek into one group chat and they build competing ver...

智能体多模态教程/实践
22:25
Google AI@GoogleAI
55
Google DeepMind SynthID 水印技术进展

Google DeepMind 2023 年推出 SynthID 数字水印,已覆盖图像、视频、音频和文本,累计标记超 1000 亿图像视频及 6 万年音频。用户可在 Google 搜索、Chrome 内 Gemini 及 Gemini App 验证内容,使用超 5000 万次。同时采用 C2PA Content Credentials 标准,可查内容来源与修改历史。已开源文本水印技术,并与 OpenAI、NVIDIA、Apple 等合作推广。

Google产品更新多模态安全/对齐
22:10
Runway:News(网页)
48
Runway 宣布与 Bertelsmann 达成创意合作

Runway 宣布与 Bertelsmann 建立创意合作伙伴关系。双方将在创意内容领域展开合作,具体合作细节尚未披露。

多模态行业动态
19:41
OpenBMB@OpenBMB
35
真的写得很好且实用。👍 我们很欣赏你如何拆解整个本地管道,并突出说明了为什么 MiniCPM-V 4.6 是边缘部署的绝佳选择--其小巧的尺寸、强大的多模态能力以及在 Apple Silicon 上出色的效率正是这些模型令人兴奋之处。🤗

Shirish Srivastava: https://medium.com/@shirishsrivastava/running-local-vision-llms-on-apple-silicon-a-lightweight-playwright-llama-cpp-pipe...

多模态教程/实践端侧
19:03
IT之家(RSS)
26
Rokid AR 眼镜官宣搭载恒玄 BES2810 芯片:6nm 工艺,支持全新语音交互

Rokid AR 眼镜搭载恒玄 BES2810 芯片(6nm 工艺,超低功耗),集成 NPU 和 HiFi 5s,算力与效率大幅提升,支持全新语音交互及灵活 EQ 调音。该眼镜在 Rokid Open Day 2026 亮相,采用空间 + AI 双摄设计,支持电致变色、6DoF 自由度、58° FoV 视野。此外,它首次搭载高通骁龙至尊空间计算协处理器(3nm 制程),算力远超 Rokid AR Studio、Meta Quest Pro、Pico4 等产品。

产品更新多模态端侧
18:52
fofr@fofrAI
46
Nano Banana 2 Lite: > 一张阿拉伯眼镜蛇的照片,但头部被替换成一个订书机,无缝衔接,完美的动物与物体组合,物体颜色与动物匹配,感觉自然融为一体,物体的局部巧妙构成面部,如同空想性视错觉(原始动物面部完全不可见),无缝且完美融合。
图像生成多模态模型发布
17:28
HuggingFace Daily Papers(社区热门论文)
43
MuSViT:乐谱表示的基础视觉模型

MuSViT是首个专为乐谱表示设计的基础视觉模型,采用ViT编码器并通过掩码自编码器在IMSLP的970万页乐谱上预训练,使用两阶段课程(先合成排版乐谱,再训练完整IMSLP语料库)。在四个下游任务(全页与谱行级乐谱识别、音乐符号检测、难度分类)上,线性探测(冻结编码器)中MuSViT持续优于通用视觉编码器,微调则改进多数任务的特化SOTA方法。嵌入-转录一致性分析表明,MuSViT直接在表示空间中编码符号化的音乐结构,而其他编码器的嵌入与乐谱内容不相关。

多模态论文/研究
17:28
HuggingFace Daily Papers(社区热门论文)
48
DataEvolver:面向文本丰富图像生成的自进化多智能体数据构建框架

DataEvolver提出自进化多智能体框架,将数据构建视为反馈驱动的策略进化。它包含检索器、验证器、评论家和生成器,利用被拒样本的失败信号指导下一轮构建。在PixArt-alpha上以0.75M规模测试,DataEvolver在TextScenesHQ上OCR-F1比最强基线提升85.3%,在LongTextBench上提升35.3%,且收益可迁移至Show-o2。

图像生成多模态论文/研究
14:56
MiniMax (official)@MiniMax_AI
45
MiniMax 强化学习研究负责人姜松岩在 AI Engineer 大会第二天参加炉边谈话,与 Thom Wolf 探讨了稀疏注意力、从训练第一天就融入的原生多模态方案,以及开放权重对 AI 发展的意义。她强调分享了团队在这些方向的工作,并重申相信开放权重的重要性。

Olive Song: Backstage and onstage with @Thom_Wolf and @swyx . I really enjoyed the fireside chat! Thanks for having me back at @aiDo...

多模态开源生态行业动态
08:30
Berryxia.AI@berryxia
55
Google推出Nano Banana 2 Lite与Gemini Omni Flash,实现图像到视频快速闭环

Google推出超快图像模型Nano Banana 2 Lite(4秒出图)与多模态模型Gemini Omni Flash(支持视频生成与对话式编辑)。两者结合可先快速生成图像再转为动画,大幅降低成本。演示中室内设计照片可快速生成多个方案并动画化,将创意工作流从等待变为快速迭代。

Google图像生成多模态模型发布
08:28
ginobefun@hongming731
45
Claude Sonnet 5 / Nano Banana 2 Lite / Gemini Omni Flash / 吴恩达 AI 智能体循环

Anthropic 发布 Claude Sonnet 5,定位最具 agent 能力,性能接近 Opus 4.8,8月31日前输入2美元/百万token、输出10美元,之后恢复3/15美元。Google DeepMind 推出 Nano Banana 2 Lite(文生图延迟约4秒,每千张0.034美元)和 Gemini Omni Flash(多模态视频生成,0.10美元/秒,上限10秒)。吴恩达总结 AI 智能体三大循环:编程循环、开发者反馈循环、外部反馈循环,强调人机协同。

ginobefun: http://x.com/i/article/2072100123912687616

智能体多模态行业动态
07:31
Rohan Paul@rohanpaul_ai
33
AI周报:央行担忧,中国模型成本低50倍,Meta脑机接口78%准确率

Rohan Paul 新闻通讯要点:央行担忧 AI 淘金热可能引发下一场金融冲击;中国开发者通过灰色市场 API 以官方价格 5%-10% 购买 Claude 服务,且隐藏真实用户身份;Sakana Fugu 技术报告发布;中国 AI 模型每 token 成本比美国同行低至 50 倍;DeepSeek 发布新推理优化方法;Meta 开源无需手术的脑机接口系统,词准确率达 78%。

多模态开源生态行业动态
07:28
🚨 AI News | TestingCatalog@testingcatalog
48
Google NotebookLM 新增 Short Video Overviews 功能,可将复杂资料自动转化为 60 秒竖版短视频(类似 Shorts),用于教育等场景的深度讲解。该功能正在向 Google AI Ultra 和 Pro 订阅用户推送(网页端和移动端),免费用户后续也会获得。

NotebookLM: Doom scrolling but make it educational 🤓 Introducing Short Video Overviews in NotebookLM! Turn your most complex source...

Google产品更新多模态
07:01
DogeDesigner@cb_doge
37
马斯克:Neuralink技术达到耶稣级奇迹

马斯克表示,Neuralink脑机接口技术可实现“耶稣级别”的奇迹:帮助脑或脊柱损伤患者恢复说话(已实现)、让失明或天生盲人通过直接刺激大脑视觉中枢重获视力、以及让瘫痪者重新行走。他称这些能力为“赛博格超能力”,并认为对脑损伤患者具有重要意义。

多模态大佬观点
03:55
The Verge:AI(RSS)
50
Google NotebookLM 新增 TikTok 风格竖屏视频摘要功能

Google NotebookLM 近日为 AI Ultra 和 Pro 订阅用户推出新功能:可基于用户上传的源文件自动生成 60 秒竖屏 AI 视频,并配上 AI 生成图像和旁白。官方示例以纸片剪贴画风格回顾澳大利亚对鸸鹋的战争。用户可在 NotebookLM 网页或 App 的 Studio 栏中选择“Video”→“Short”,指定或自定义主题后点击生成。此前 NotebookLM 已支持 AI 播客、电影风格视频和视觉解释器。该功能目前仅支持英语,免费用户将很快可用。

Google产品更新多模态
03:27
Luma@LumaLabsAI
31
一只孤独的恐龙。 一份共享的冰淇淋。 一段友谊。 整个温柔的小世界,与一个AI智能体一同构建,由Anurag Tiwari创作。 使用Luma制作。
其他多模态视频
02:28
Artificial Analysis@ArtificialAnlys
68
阿里巴巴 HappyHorse 1.1 登顶 Artificial Analysis 视频排行榜第二

阿里巴巴 HappyHorse 1.1 在 Artificial Analysis 文生视频和图生视频排行榜位列第二,仅次于字节跳动 Seedance 2.0。该模型基于统一 Transformer 架构,是 1.0 的改进版,重点提升音画同步,支持七种语言的原生音频与唇形同步对话,并在运动、角色和场景一致性上增强。支持最多 9 张参考图像,生成 720p 和 1080p。图生视频带音频模态从第 5 名升至第 2 名。定价 $9.90/分钟(1080p),已在阿里云 Model Studio、Qwen Cloud 和 fal 上线。

多模态模型发布视频
02:23
Runway@runwayml
28
今年 9 月,Runway AI 峰会即将来到旧金山。这是一场为期一天的聚会,汇集机器人、自动驾驶、生命科学、基础设施等领域的行业领袖,共同探讨 AI 如何重塑智能与世界互动的方式。 以下是首批公布的演讲嘉宾,更多嘉宾即将公布。 通过下方链接了解更多信息并注册。
多模态行业动态
01:38
The Decoder:AI News(RSS)
59
Google 发布 Nano Banana 2 Lite 图像模型与 Gemini Omni Flash 视频模型

Google 推出两款新生成式 AI 模型。Nano Banana 2 Lite 可在 4 秒内生成图像,每张成本 0.034 美元(1K 分辨率),API 名称为 gemini-3.1-flash-lite-image。Gemini Omni Flash 允许开发者通过文本提示在 API 中生成和编辑最长 10 秒的视频,每秒输出价格 0.10 美元。Google 推荐将两个模型链式使用:先用 Nano Banana 2 Lite 生成图像,再传递给 Gemini Omni Flash 转化为视频。两者均使用 SynthID 水印,已通过 Google AI Studio、Gemini API 和 Gemini Enterprise Agent Platform 提供。

Google图像生成多模态模型发布
01:31
Rohan Paul@rohanpaul_ai
72
Google发布Nano Banana 2 Lite与Gemini Omni Flash

Google推出快速图像模型Nano Banana 2 Lite(4秒生成,$0.034/1K分辨率图像)以及视频编辑模型Gemini Omni Flash(输出10秒片段,$0.10/秒,支持文本/图像/视频输入和对话式剪辑)。两者可链式使用:Nano生成参考图,Omni将其动画化,逐步替代gemini-2.5-flash-image。当前Omni Flash API不支持音频参考,视频参考最多3秒但未正确生效;Interactions API保留会话上下文,支持连续3次编辑。

Logan Kilpatrick: Introducing Nano Banana 2 Lite 🍌 and Gemini Omni Flash 🔮, our new generative media models in the Gemini API and AI Stu...

Google图像生成多模态模型发布
00:55
MiniMax (official)@MiniMax_AI
65
最后终于跟 @LambdaAPI 合作发布了! MiniMax 公布新模型卡 M3,参数量超过 400B,使用未量化权重需要整台 HGX B200(且认为无法在 Hopper 上运行 MXFP4)。在性能之外,多模态能力也是一大亮点 😍

Zach Mueller: New model card up, @MiniMax_AI M3! (Working through the Colorado backlog) At 400B+ parameters, using the unquantized wei...

多模态模型发布
‹ 上一页
123…50
下一页 ›