AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「多模态」清除
5月4日周一
13:13IT之家(RSS)51豆包将在免费模式外新增付费订阅:68 元 / 200 元 / 500 元三档,主打生产力场景
11:19Kling AI42经典电影海报动起来 克林4K技术呈现
08:00HuggingFace Daily Papers(社区热门论文)63基于预测性隐变量的视频生成
5月3日周日
23:13IT之家(RSS)50继"液态玻璃"之后:苹果 iOS 27 将重心转向 AI,Siri 迎来独立 App 并将深度整合到相机应用中
22:13Berryxia.AI47苹果或推AirPods Ultra 内置摄像头传感器
20:15Chubby♨️42谷歌新模型传闻:Gemini更新与视觉模型猜测
16:45Chubby♨️45谷歌或于I/O大会推出全新Omni模型,Gemini视频生成能力有望升级
14:12IT之家(RSS)59国内首部院线 AI 原生动画电影将至,《三星堆:未来往事》获颁"龙标"
06:50TestingCatalog News 🗞58谷歌I/O动态:Gemini测试用于视频生成的新Omni模型
02:41Rohan Paul48Chatly发布Omni Agent,从聊天转向工作流组装
5月2日周六
12:11阿绎 AYi57说个暴论,你的审美和品味就是你的提示词,并决定了你使用AI的上限。
09:18Hacker News 热门(buzzing.cc 中文翻译)60通晓一切
08:00HuggingFace Daily Papers(社区热门论文)56将漂移转为约束:非平稳环境中的鲁棒推理对齐
08:00HuggingFace Daily Papers(社区热门论文)57ESARBench:面向无人机具身搜索与救援的智能体基准
08:00HuggingFace Daily Papers(社区热门论文)52证据链:面向迭代检索增强生成的像素级视觉归因框架
08:00HuggingFace Daily Papers(社区热门论文)52SplAttN:通过高斯软光栅化和注意力桥接2D与3D的点云补全
07:48凡人小北77精选2026 年的 AI 提示方式与 2022 年 ChatGPT 推出时大不相同。
07:40Elon Musk61Grok Imagine智能体模式开启创意无限画布
03:11阿绎 AYi65AI并非取代医生,而是成为医生的"超级大脑"
03:10Tomer Tunguz 博客(VC 分析)57精选本周的积极信号:AI在医疗、教育、农业与科研领域的突破性进展
01:16AK56异构科学基础模型协同研究新进展
01:13歸藏(guizang.ai)60吴恩达新课,26 年的 AI 提示已经和 23 年有很大的不同
5月1日周五
19:17Hacker News 热门(buzzing.cc 中文翻译)76精选Grok 4.3
19:15PixVerse49文本生成视频模型对比:SeeDance 2.0与HappyHorse 1.0
13:13歸藏(guizang.ai)45AI将催生下一代爆款游戏类型与平台
11:46meng shao66在 Codex App 中使用 GPT-5.5 和 GPT-Image-2 的实际应用体验:视觉理解 + 代码生成 + 浏览器执行 + 效果评估迭代,组成Web/App 开发全新闭环!
11:16Kling AI25旧照焕新 静图生动 视频胜千言
11:14HuggingFace Daily Papers(社区热门论文)62PhyCo:学习生成运动中的可控物理先验
11:14HuggingFace Daily Papers(社区热门论文)51MoCapAnything V2:面向任意骨骼的端到端运动捕捉框架
11:14HuggingFace Daily Papers(社区热门论文)55InteractWeb-Bench:多模态智能体能在交互式网站生成中摆脱盲目执行吗?
11:13歸藏(guizang.ai)40AI生成国风恐怖探案游戏Strange Rites将登陆Steam
10:14HuggingFace Daily Papers(社区热门论文)54异构科学基础模型协作
10:14HuggingFace Daily Papers(社区热门论文)56视觉生成的新时代:从原子映射到智能体世界建模的演进
10:13歸藏(guizang.ai)63一下午一句话,Codex帮我开发了一个完整的游戏!
10:13歸藏(guizang.ai)62Codex智能解析游戏素材包,自动拼图归类
09:10IT之家(RSS)31苹果 AirPods Ultra 耳机曝光:配红外摄像头,强化 Siri 交互
09:10Berryxia.AI63Geometry成为AI建筑关键层,OpenGeometry打通文本到CAD全流程
08:10IT之家(RSS)45IT早报 0501:追觅 CEO 要求员工开通社媒账号;OPPO 将推四曲面手机;iPhone 18 Pro 相机大升级
08:10Berryxia.AI25苹果内部测试类ChatGPT应用AFM Playground
08:10Berryxia.AI68利用AI工具链快速生成360度沉浸式游戏场景
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月4日
13:13
IT之家(RSS)
51
豆包将在免费模式外新增付费订阅:68 元 / 200 元 / 500 元三档,主打生产力场景

豆包在免费模式外新增付费订阅服务,推出三档价格:标准版连续包月68元、包年688元;加强版连续包月200元、包年2048元;专业版连续包月500元、包年5088元。付费功能专注于复杂任务和生产力场景,如PPT生成、数据分析和影视制作,以满足专业用户对高价值任务的需求。免费版本将继续服务日常使用,官方表示相关方案仍在测试阶段,正式上线时会公布完整信息。

产品更新多模态推理
11:19
Kling AI@Kling_ai
42
经典电影。标志性时刻。 现以惊艳的Kling 4K动态呈现。 海报不再只是悬挂着了。 它们在播放。🎬
产品更新图像生成多模态视频
08:00
HuggingFace Daily Papers(社区热门论文)
63
基于预测性隐变量的视频生成

视频变分自编码器(VAE)通过隐空间建模提升生成效率,但重建优化未必改善生成性能。为此,本研究受预测性世界建模启发,提出预测性视频VAE(PV-VAE),引入统一的预测性重建目标。该方法在训练时随机丢弃未来帧,仅编码部分过去观测,并让解码器同时重建已观测帧与预测未来帧,从而使隐空间编码更具时间预测性的结构,增强对视频动态的连贯理解。在UCF101数据集上,PV-VAE相比Wan2.2 VAE收敛速度提升52%,FVD指标改善34.42。分析表明,该模型具有良好的可扩展性,其隐空间能有效捕捉时间连贯性与运动先验,在下游视频理解任务中也带来一致性能提升。

多模态视频论文/研究
5月3日
23:13
IT之家(RSS)
50
继"液态玻璃"之后:苹果 iOS 27 将重心转向 AI,Siri 迎来独立 App 并将深度整合到相机应用中

据报道,苹果下一代操作系统iOS 27将聚焦AI与性能提升。Siri将迎来诞生以来最重大的形态转变,被重塑为拥有独立App的聊天机器人,界面酷似iMessage,支持集成第三方智能体,并具备单指令处理多任务、跨App联动及文件分析等能力。同时,AI将深度整合至相机应用,新增独立的“Siri模式”,支持通过镜头实时识别食品营养信息、提取联系人等。照片编辑功能也将获得AI驱动的新工具。

智能体产品更新多模态
22:13
Berryxia.AI@berryxia
47
据古尔曼爆料Apple正在搞一款AirPods Ultra,比AirPods Pro多了摄像头,更多的传感器和摄像头加入其中。
多模态行业动态
20:15
Chubby♨️@kimmonismus
42
目前的传闻: - Google Gemini Flash 3.2/3.5(已在测试中) - 新的Omni模型,甚至可能推出更新的Veo来与Seedance竞争 - "spark Robin"--新的视觉模型?
Google多模态行业动态视频
16:45
Chubby♨️@kimmonismus
45
据泄露信息显示,谷歌可能正在为其Gemini平台测试一款全新的Omni模型,专注于视频生成功能,其界面标语为"由Omni驱动"。该模型的内部代号接近当前基于Veo的视频工具"Toucan"。分析指出,若谷歌正式发布名为Gemini Omni的视频生成模型,其性能很可能超越现有的Veo 3.1版本。此举若成真,Gemini将成为首个具备视频输出能力的顶级Omni模型,相关进展或于即将到来的Google I/O大会上正式公布。

TestingCatalog News 🗞: GOOGLE I/O 🚨: A NEW OMNI MODEL IS BEING TESTED ON GEMINI FOR VIDEO GENERATION! > "Start with an idea or try a template....

Google多模态模型发布视频
14:12
IT之家(RSS)
59
国内首部院线 AI 原生动画电影将至,《三星堆:未来往事》获颁"龙标"

国内首部AI原生动画院线电影《三星堆:未来往事》已获得公映许可证,即将登陆全国影院。该片深度结合三星堆古蜀文明与AI技术,以AI呈现文物,构建连接过去与未来的科幻世界。其概念预告片已在香港国际影视展亮相,创作脉络可追溯至2024年上线的同系列AI科幻短剧《三星堆·未来启示录》第一季,该短剧全网播放量已达1.6亿次。

多模态行业动态视频
06:50
TestingCatalog News 🗞@testingcatalog
58
谷歌I/O动态:Gemini测试用于视频生成的新Omni模型

谷歌正在其Gemini平台测试一款名为“Omni”的新模型,专注于视频生成功能。泄露信息显示,该模型的界面提示用户“从一个想法开始或尝试一个模板”,并注明“由Omni驱动”。这一模型可能与内部代号“Toucan”的视频生成工具密切相关,后者目前由Veo驱动。如果谷歌计划正式发布用于视频生成的Gemini Omni,其性能很可能超越当前的Veo 3.1版本。若消息属实,Gemini将成为首个具备视频输出能力的顶级Omni模型,这标志着谷歌在视频生成领域的重大技术进展,并可能为未来的Google I/O 2026活动预热。此举显示了谷歌在人工智能视频生成方面的持续创新和竞争态势。

Google多模态模型发布视频
02:41
Rohan Paul@rohanpaul_ai
48
Chatly发布Omni Agent,从聊天转向工作流组装

Chatly近日发布Omni Agent,其核心理念是超越聊天,转向工作流组装。该产品采用多智能体路由机制,可将用户设定的目标自动分解,并分配给不同的专业智能体协同完成多元化任务,如邮件营销、演示文稿、落地页设计等。它具备强大的记忆层,能持续学习并复用用户的品牌信息、偏好、项目规则等上下文。通过原生工作空间集成,AI可直接在用户现有的文件、任务和活动环境中操作。产品提供Think、Pro、Ultra三个层级,旨在通过统一界面整合深度研究、多媒体生成与记忆功能,让用户从使用工具转向指挥智能体。

Chatly: Introducing "Omni Agent". The only AI you'll ever need. One ecosystem. Three tiers. Infinite possibilities. Think. Pro. ...

智能体产品更新多模态
5月2日
12:11
阿绎 AYi@AYi_AInotes
57
说个暴论,你的审美和品味就是你的提示词,并决定了你使用AI的上限。

一个零经验的开发者,仅用两周时间,通过向AI描述创意并筛选最佳结果,便独立完成了一款3D外卖配送游戏。这体现了“vibe coding”模式:AI负责所有执行层任务,人类则专注提供方向与审美判断。此举并非作弊,而是创意的民主化,将过去团队数月的工作压缩至个人短期完成。AI虽能生成一切,却无法判断何为舒适、有趣或富有灵魂,这些正是人类不可替代的价值。未来,这种模式或将开启一个属于普通人的全新创作黄金时代。

多模态现象/趋势
09:18
Hacker News 热门(buzzing.cc 中文翻译)
60
通晓一切

GitHub上开源了“Understand Anything”项目,这是一个AI驱动的工具,旨在帮助用户理解和解释各类复杂概念与信息。该项目发布后在Hacker News社区获得102个积分,反映出科技开发者对其技术潜力的高度关注。工具可能整合自然语言处理等技术,以提升知识获取与理解的效率。

智能体多模态开源/仓库
08:00
HuggingFace Daily Papers(社区热门论文)
56
将漂移转为约束:非平稳环境中的鲁棒推理对齐

本文针对多模态大语言模型在非平稳环境中推理分布多样化且不可预测的挑战,提出将多源推理对齐视为概念漂移下的约束满足问题。我们设计了自主偏好优化框架,将模型间分歧作为动态负约束处理。该框架通过监督引导将目标模型投射到源模型能力联合中,再利用约束感知优化,通过多负Plackett-Luce目标抑制漂移轨迹,合成一致的共识流形。在胸部X射线解释任务上的实验表明,我们的70亿参数模型展现出卓越的鲁棒性,平均准确率甚至超过专有源模型。同时,我们发布了包含170,982条推理轨迹的大规模基准CXR-MAX,以推动相关研究。

GitHub多模态安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
ESARBench:面向无人机具身搜索与救援的智能体基准

研究团队提出了具身搜索与救援新任务,并发布首个综合性基准ESARBench,用于评估多模态大语言模型驱动的无人机智能体。该基准基于Unreal Engine 5和AirSim构建了四个从真实世界GIS数据映射的高保真、大规模开放环境,包含动态天气、昼夜变化和随机线索布置。基准包含600个基于真实救援案例建模的任务及一套评估指标。实验评估了从传统启发式方法到基于MLLM的导航智能体等多种基线,结果揭示了该任务在空间记忆、空中适应性及搜索效率与飞行安全权衡方面的关键瓶颈。

具身智能多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
52
证据链:面向迭代检索增强生成的像素级视觉归因框架

针对迭代检索增强生成在解析文本时存在的证据定位粗粒度与视觉语义丢失问题,本研究提出了“证据链”框架。该框架与检索器无关,直接利用视觉语言模型对检索到的文档截图进行推理,无需针对特定格式进行解析,并能输出精确的边界框以可视化完整推理链条。在Wiki-CoE和SlideVQA两个基准上的实验表明,经微调的Qwen3-VL-8B-Instruct模型表现稳健,在需要视觉布局理解的场景中显著优于基于文本的基线方法,为像素级可解释的iRAG提供了一个通用解决方案。代码已开源。

arXiv检索增强多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
52
SplAttN:通过高斯软光栅化和注意力桥接2D与3D的点云补全

多模态点云补全中,硬投影易导致跨模态熵崩溃,阻碍视觉先验传播。为此,SplAttN提出一种新方法,以可微分高斯光栅化替代硬投影,将投影转化为连续密度估计,生成密集连续的图像平面表示。这避免了稀疏支持问题,改善了梯度流动与跨模态连接学习能力。实验显示,SplAttN在PCN和ShapeNet-55/34数据集上达到最先进性能。在KITTI真实场景基准测试中,反事实评估表明,SplAttN能保持对视觉线索的强健依赖,而基线模型则退化为对视觉移除不敏感的单模态模板检索器,验证了其有效建立跨模态连接。代码已开源。

arXiv多模态论文/研究
07:48
凡人小北@frxiaobei
精选77
吴恩达(Andrew Ng)推出新课程《人人皆可的 AI 提示技巧》,旨在帮助不同水平的用户成为 AI 高级使用者。课程教授适用于 ChatGPT、Gemini、Claude 等工具的通用提示技巧,核心内容包括:利用深度研究模式生成复杂问题的详尽报告;为 AI 提供远超常人认知的丰富文档与图像上下文;在重要决策时让 AI 进行长时间深度思考;以及使用 AI 生成图像、分析数据、构建简单游戏和网站。课程还将剖析大模型的工作原理,帮助学员判断何时可信赖 AI 的答案。

Andrew Ng: How we prompt AI is very different in 2026 than 2022 when ChatGPT came out. I'm teaching a new course, AI Prompting for ...

多模态教程/实践

推荐理由:吴恩达亲自下场教提示工程,从深度研究到让AI替你决策,覆盖了你没想到的那些用法,免费课程值得花两小时走一遍。
07:40
Elon Musk@elonmusk
61
试试 Grok Imagine 智能体模式测试版! 在 @imagine 智能体模式中,你可以在同一页面内进行头脑风暴、写作、生成和编辑图像,然后将它们转化为视频。 请在桌面端访问 http://grok.com/imagine 尝试。

Grok Imagine: Your entire creative workflow just collapsed into one infinite canvas. In @imagine Agent Mode, you can brainstorm, write...

智能体xAI产品更新多模态
03:11
阿绎 AYi@AYi_AInotes
65
AI并非取代医生,而是成为医生的"超级大脑"

针对“AI诊断超越急诊医生”的误读,作者指出相关Science论文实为概念验证,强调AI仅作为“第二意见”。实验条件苛刻:AI仅能访问纯文本病历,在此限定任务中表现优于两位资深医生。AI的核心优势在于无疲劳、无认知偏差、能快速分析海量病例统计规律,而非替代医生。人类医生在多模态感知、伦理判断和物理互动上仍不可替代。未来合理场景是人机协同——AI辅助分诊,优先筛选高危病例,让医生专注于需人类判断的环节。真正的挑战在于建立信任、明确责任及整合至现有医疗体系。

Polymarket: JUST IN: Study reveals AI now outperforms doctors at diagnosing emergency room patients.

多模态大佬观点
03:10
Tomer Tunguz 博客(VC 分析)
精选57
本周的积极信号:AI在医疗、教育、农业与科研领域的突破性进展

近期多项进展展现了AI的巨大积极影响。医疗领域,Mayo Clinic的AI能通过常规CT提前最多三年检测胰腺癌,强生利用AI将新药线索生成时间减半。教育方面,哈佛研究显示AI导师使学生学习效果翻倍,泰国培训16万名教师惠及330万学生。农业上,AI能以约88%准确率预测害虫爆发。科研中,AI快速筛查NASA数据,新发现超一万颗系外行星候选。此外,香港推出AI洪水预报系统,Atlassian和Twilio等公司也因AI驱动业绩增长并上调预期。这些案例平衡了AI风险,凸显其创新潜力。

多模态数据/训练现象/趋势

推荐理由:Tomer 收集了最近两周 AI 在医学、教育、农业的硬核落地案例,对反 AI 恐慌是一剂清醒剂,SaaS 公司的营收也说明行业在回暖。
01:16
AK@_akhaliq
56
异构科学基础模型协作 paper: https://huggingface.co/papers/2604.27351
Hugging Face多模态论文/研究
01:13
歸藏(guizang.ai)@op7418
60
吴恩达推出新课程"AI Prompting for Everyone",指出2026年AI提示方法与2022年ChatGPT推出时已有显著不同。课程旨在帮助所有技能水平的用户成为AI高级使用者,涵盖适用于ChatGPT、Gemini、Claude等工具的通用技能,包括使用深度研究模式处理复杂问题报告、提供文档和图像等充分上下文、让AI长时间思考重要决策(如购车或择业),以及利用AI生成图像、分析数据和构建简单网站游戏。课程还讲解模型工作原理,帮助用户判断何时信任AI答案,并融入飞松鼠、创造力测试等趣味元素。详情可访问deeplearning.ai。

Andrew Ng: How we prompt AI is very different in 2026 than 2022 when ChatGPT came out. I'm teaching a new course, AI Prompting for ...

多模态教程/实践
5月1日
19:17
Hacker News 热门(buzzing.cc 中文翻译)
精选76
Grok 4.3

x.ai 正式发布了 Grok 4.3 模型,开发者可通过官方文档获取详细信息。该模型在 Hacker News 社区获得关注,相关帖子收获了 100 点热度。此次发布标志着 Grok 系列模型的持续迭代更新。

xAI多模态推理模型发布

推荐理由:xAI 的 Grok 4.3 如期而至,性能和对标都写在文档里了,想了解最新大模型实力的开发者值得花五分钟看一眼。
19:15
PixVerse@PixVerse_
49
主推文感谢了用户@TomLikesRobots分享的文本生成视频模型对比。对比在SeeDance 2.0和HappyHorse 1.0之间进行,使用了统一的提示词来生成具有低保真、温馨、赛璐珞风格动漫美学的视频。其中,HappyHorse由@PixVerse_提供,目前对会员免费。由于两个模型自带的音频效果不佳,创作者最终使用@Suno来生成背景音轨。

TomLikesRobots🤖: SeeDance 2.0 vs HappyHorse 1.0 Very quick text-to_video comparison. Which do you prefer? Universal Prompt: "Aesthetic: l...

多模态评测/基准
13:13
歸藏(guizang.ai)@op7418
45
AI将催生下一代爆款游戏类型与平台

社区驱动的小游戏和社交游戏,如Roblox,正成为趋势。过去这类游戏构建成本高、类型少,如今技术门槛已大幅降低。历史上,Dota和PUBG等爆款均从游戏Mod演变而来。同理,基于AI技术,完全有可能演化出下一个现象级游戏类型。当前的关键缺口在于,缺乏一个能够整合这些AI能力的综合性游戏创作平台与工具。

歸藏(guizang.ai): http://x.com/i/article/2049902517254070272

多模态现象/趋势
11:46
meng shao@shao__meng
66
在 Codex App 中使用 GPT-5.5 和 GPT-Image-2 的实际应用体验:视觉理解 + 代码生成 + 浏览器执行 + 效果评估迭代,组成Web/App 开发全新闭环!

Codex App 结合 GPT-5.5 与 GPT-Image-2,构建了从视觉理解到代码生成、浏览器执行及效果评估的开发闭环。GPT-5.5 提升了编码细节与复杂逻辑处理能力,GPT-Image-2 擅长生成高保真UI。工作流支持输入截图或概念设计,自动分析、生成交互应用并修正设计偏差,内置结构化流程以提高实现保真度。这大幅缩短了从想法到高保真应用的迭代周期,适用于Web、移动及复杂工具开发,但复杂任务仍需人工提示与设计把关。

dominik kundel: http://x.com/i/article/2049579443216338944

OpenAI多模态教程/实践编码
11:16
Kling AI@Kling_ai
25
旧照片变得如4K般清晰。 静态影像化作动态记忆。 一段视频。胜过千言万语。🎞️
产品更新图像生成多模态视频
11:14
HuggingFace Daily Papers(社区热门论文)
62
PhyCo:学习生成运动中的可控物理先验

现代视频扩散模型擅长外观合成,但物理一致性不足,如物体漂移、碰撞不真实。PhyCo框架引入连续、可解释且基于物理的控制,整合三个核心组件:包含超过10万条模拟视频的大规模数据集,系统改变摩擦、恢复系数等属性;基于像素对齐物理属性图的ControlNet,对预训练扩散模型进行物理监督微调;以及VLM引导的奖励优化,通过微调视觉语言模型评估视频并提供可微分反馈。该方法使模型能通过调整物理属性生成物理一致且可控的视频,无需推理时模拟或几何重建。在Physics-IQ基准测试中,PhyCo显著提升物理真实感,人类研究证实其控制更清晰、更忠实。

多模态视频论文/研究
11:14
HuggingFace Daily Papers(社区热门论文)
51
MoCapAnything V2:面向任意骨骼的端到端运动捕捉框架

MoCapAnything V2 提出了首个完全端到端的单目视频运动捕捉框架,用于驱动任意骨骼。该框架将视频到姿态、姿态到旋转两个模块设计为可学习且联合优化,解决了传统分解流程中旋转模糊与不可微逆运动学带来的限制。通过引入目标资产的参考姿态-旋转对与休息姿态,明确定义了旋转坐标系,将旋转预测转化为条件良好的问题。模型直接从视频预测关节位置,无需依赖网格中间表示,提升了鲁棒性与效率。实验表明,该方法在多个数据集上将旋转误差从约17度显著降低至约10度,在未见骨骼上可达6.54度,且推理速度比基于网格的方法快约20倍。

多模态视频论文/研究
11:14
HuggingFace Daily Papers(社区热门论文)
55
InteractWeb-Bench:多模态智能体能在交互式网站生成中摆脱盲目执行吗?

本文针对非专业低代码用户指令模糊、质量低的现实瓶颈,提出了首个多模态交互式网站生成基准InteractWeb-Bench。该基准通过四类用户智能体与基于人物角色的指令扰动,系统模拟了包含模糊、冗余和矛盾在内的多样化用户行为,并提供了一个支持澄清、实现、验证和提交统一行动的交互式执行环境,以实现迭代式意图细化与代码合成。大量实验表明,当前前沿的多模态大语言模型智能体仍受困于“盲目执行”模式,在意图识别与自适应交互方面存在明显局限。

智能体多模态编码论文/研究
11:13
歸藏(guizang.ai)@op7418
40
AI参与的高品质游戏内容正快速增加,例如即将上架Steam的国风恐怖探案游戏Strange Rites。该游戏设定于1920年代,融合超自然侦探与黑色电影风格,受中国古典哥特文学启发。玩家扮演拥有鬼视能力的记者,在战争背景下调查相互关联的案件,探索人性之恶的主题。游戏完全由AI生成,提供互动式神秘剧体验,涉及犯罪现场调查、线索拼凑和道德模糊的选择。目前已在Steam开放愿望单。

Yoroll: Strange Rites - supernatural detective noir set in the 1920s, inspired by classical Chinese gothic lit. Every chapter is...

多模态现象/趋势
10:14
HuggingFace Daily Papers(社区热门论文)
54
异构科学基础模型协作

本研究提出Eywa异构智能体框架,以扩展语言中心的大模型系统至更广泛的科学基础模型。该框架通过为领域专用基础模型增加语言模型推理接口,使语言模型能指导非语言数据模态的推断,从而让预测性基础模型参与高层推理与决策。Eywa可作为单智能体流程的直接替代,或嵌入现有多智能体系统,并支持基于动态规划的跨模态任务协调。实验覆盖物理、生命及社会科学领域,结果表明Eywa能提升涉及结构化与领域专用数据的任务性能,并通过与专用模型的协作减少对纯语言推理的依赖。

智能体多模态论文/研究
10:14
HuggingFace Daily Papers(社区热门论文)
56
视觉生成的新时代:从原子映射到智能体世界建模的演进

当前视觉生成模型在写实性、指令跟随等方面进展显著,但在空间推理、长程一致性与因果理解上仍面临挑战。研究主张从外观合成转向智能视觉生成,即生成基于结构、动态和因果关系的合理内容。为此提出了一个五级分类体系,标志着从被动渲染器到交互式、世界感知生成器的根本转变。关键技术驱动力包括流匹配、统一的理解-生成模型、数据策展与后训练等。现有评估常因过度强调感知质量而高估进展,忽视了结构与时序缺陷。结合基准评测与真实场景测试,该路线图为推进下一代智能视觉生成系统提供了以能力为中心的视角。

智能体图像生成多模态论文/研究
10:13
歸藏(guizang.ai)@op7418
63
一下午一句话,Codex帮我开发了一个完整的游戏!

开发者仅通过向Codex描述想法,便在一个下午内完成了roguelike卡牌游戏《夜巡录:荒庙篇》的开发。Codex不仅生成游戏原型,还自主构建了素材生产流水线,包括调用GPT-Image 2.0生成绿幕图并自动抠图。面对大量未命名素材,它创新性地将所有图片拼合成一张大图供多模态模型一次性识别筛选。后期还打磨了受击反馈、音效及使用Seedance 2.0生成的动画等细节,展现了其结合内置工具与强大执行力的综合能力。

智能体OpenAI多模态大佬观点
10:13
歸藏(guizang.ai)@op7418
62
Codex智能解析游戏素材包,自动拼图归类

用户让Codex处理一个包含上千张图片的游戏素材包,Codex在没有具体指令的情况下,自主将每个文件的图片拼接成一张包含图片和文件名的大图。这种方法让用户能通过单张图快速浏览文件夹内所有素材的样式,找到所需素材后,只需将文件名拖入素材库修改即可,展现了其强大的自动化处理能力。

歸藏(guizang.ai): http://x.com/i/article/2049902517254070272

智能体OpenAI多模态教程/实践
09:10
IT之家(RSS)
31
苹果 AirPods Ultra 耳机曝光:配红外摄像头,强化 Siri 交互

彭博社透露苹果计划推出名为“AirPods Ultra”的新旗舰耳机,定位高于AirPods Pro 3(国行1899元)。其最大亮点是内置红外摄像头,用于配合iOS 27的新版Siri提供环境视觉信息,强化AI交互。交互方式将移除压感柄,改为摄像头识别的手势控制。音频方面预计搭载全新H3芯片,以降低延迟、提升音质并为AI功能提供算力。该产品可能于2026年秋季与iPhone 18系列一同发布。

多模态行业动态
09:10
Berryxia.AI@berryxia
63
Geometry成为AI建筑关键层,OpenGeometry打通文本到CAD全流程

推文指出,Geometry(几何)已成为AI在建筑领域缺失的关键层。@Bootsblac开发的OpenGeometry项目,实现了从文本或平面图到最终渲染的完整流程贯通,使得精确控制成为可能。其核心能力包括:直接从文本或平面图生成精确的BREP CAD模型;利用Three.js进行实时渲染,并由Google AI驱动,形成端到端的全流程。该项目已完整开源,可供使用。

多模态开源/仓库开源生态
08:10
IT之家(RSS)
45
IT早报 0501:追觅 CEO 要求员工开通社媒账号;OPPO 将推四曲面手机;iPhone 18 Pro 相机大升级

本期IT早报主要内容包括:追觅科技CEO要求全体员工开通社交媒体账号并发布视频;OPPO计划下半年推出效仿苹果风格的四曲面设计手机;iPhone 18 Pro系列或将迎来史上最大相机硬件升级。此外,极越汽车关联主体进入合并重整程序,DeepSeek发布多模态模型技术报告,央视曝光部分充电头功率虚标,宇树发布起售价2.69万元的双臂人形机器人,比亚迪与高德地图达成充电合作,支付宝等17家支付机构牌照获续展,华为鸿蒙新版本占比提升,以及小米大屏旗舰手机预计5月下旬发布。

DeepSeek多模态推理行业动态
08:10
Berryxia.AI@berryxia
25
苹果内部正在使用一款名为 AFM Playground 的应用程序,它看起来与 ChatGPT 非常相似,但使用的是苹果的 Foundation Models。 不知道能搞出来个啥? 【引用 @MWRevamped】:( #appleinternal )

MWR: ( #appleinternal ) Apple Internally uses an application that looks pretty similar to ChatGPT named AFM Playground, which...

产品更新多模态
08:10
Berryxia.AI@berryxia
68
利用AI工具链快速生成360度沉浸式游戏场景

推文介绍了一种利用AI工具链快速创建360度全景沉浸式小游戏体验的方法。核心流程是:首先,向图像生成AI(Agent)提供一个简单提示,例如让其研究AI公司吉祥物并生成一个360度全景动物园图像。然后,将生成的全景图输入Codex,即可获得相应的3D视图,从而构建出游戏场景。这种方法旨在简化沉浸式内容的创作门槛,标志着一种新的内容生成时代的到来。

图像生成多模态教程/实践
‹ 上一页
1…4041424344…50
下一页 ›