AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 904 条
全部一手资讯X论文
标签「多模态」清除
Mistral AI@MistralAI · 6月23日54

Introducing Mistral OCR 4. It creates structure with bounding boxes, block classification, and inline confidence scores in 170 languages. 🧵👇

译推出 Mistral OCR 4。它通过边界框、块分类和内联置信度评分在170种语言中创建结构。 🧵👇

Baidu Inc.@Baidu_Inc · 6月23日71

3B total parameters & 500M activated, yet powerful enough to transcribe 40+ pages in one pass while keeping context intact. Meet Unlimited OCR!

译百度开源Unlimited OCR,专为一次性读取长文档设计。模型总参数量3B,仅激活500M,在OmniDocBench v1.5和v1.6上取得端到端SOTA。核心创新为参考滑动窗口注意力(R-SWA),模拟人类抄书过程,保持源、近期上下文和后续焦点,同时软遗忘无关信息。凭借恒定KV缓存大小和更低注意力成本,可在单次前向传播中转录40+页,不丢失上下文也不减速。模型已开源至GitHub和Hugging Face。

fofr@fofrAI · 6月23日23

Gemini's vision skills impressively passed this test ⚫️🐜⚫️

译Gemini的视觉能力令人印象深刻地通过了这项测试 ⚫️🐜⚫️

fofr@fofrAI · 6月23日39

New vision benchmark just landed

译新的视觉基准刚刚发布。

🚨 AI News | TestingCatalog@testingcatalog · 6月23日48

BREAKING 🔥: First tests of "Bidi 1", an upcoming bidirectional voice model from OpenAI. This upgrade will arrive in ChatGPT and, potentially, in Codex soon as well. > Bidi 1 can speak over while you are talking and keep listening. > Bidi 1 can switch between tasks back and force mid-sentence. > Bidi 1 is much better at handling interruptions and pauses. > Bidi 1 can better keep and memorize the context while you speak. There is still a cap on how long it can keep speaking, which is expected, but it easily counted to 23 without pausing. * Bidi 1 is not available yet, but given all the recent preparations, we will get it very, very soon.

译OpenAI 正在测试名为 "Bidi 1" 的双向语音模型。它能在你说话时同时插话并保持收听,可在句子中间来回切换任务,处理打断和停顿的能力更强,还能更好地记忆对话上下文。目前模型仍有连续讲话长度上限,但在测试中可轻松数到 23 而不中断。据推文透露,OpenAI 正为网页版准备 Bidi 1:设置中将新增该语音模型选项,语音气泡颜色从蓝色变为黄色。该模型尚未上线,但预计很快就会推出。

X.PIN@thexpin · 6月23日57

ByteDance just dropped a wave of new models: 1️⃣ Doubao 2.1 Pro targets coding. 2️⃣ Seedance 2.5: 4K video, up to 30 seconds per clip. Landing in July with a new AI copyright commercialization platform. 3️⃣ Seedream 5.0 Pro: image model that actually handles text in images, multi-layer editing, and outputs editable layered design files. 4️⃣ Seed-Audio 1.0: zero-shot multimodal audio: multi-character dialogue, background music, and sound effects in one pass.

译字节跳动刚刚推出了一波新模型: 1️⃣ Doubao 2.1 Pro 面向编程。 2️⃣ Seedance 2.5:4K 视频,每段最长 30 秒。将于 7 月上线,同时推出新的 AI 版权商业化平台。 3️⃣ Seedream 5.0 Pro:图像模型,能处理图像中的文本,支持多层编辑,并输出可编辑的分层设计文件。 4️⃣ Seed-Audio 1.0:零样本多模态音频:一次生成多角色对话、背景音乐和音效。

Chubby♨️@kimmonismus · 6月23日25

Seedance 2.5 released. It looks insane! Still trying to figure out where Veo 4 is and why nothing comes close to Seedance

译Seedance 2.5 发布。看起来太疯狂了!仍在试图弄清楚 Veo 4 在哪里,以及为什么没有其他产品能接近 Seedance。

🚨 AI News | TestingCatalog@testingcatalog · 6月23日65

BYTEDANCE 🔥: Seedance 2.5 has been officially announced, along with an updated Seedance 2.0. - Seedance 2.0 now supports 4k output - Seedance 2.5 will be able to generate 30-second videos in one go - ByteDance also announced a new AI copyright commercialization platform This video ad is stunning 👀

译BYTEDANCE 🔥: Seedance 2.5 已正式发布,同时还有更新的 Seedance 2.0。 - Seedance 2.0 现支持 4k 输出 - Seedance 2.5 将能够一次性生成 30 秒视频 - 字节跳动还宣布了一个新的 AI 版权商业化平台 这个视频广告太惊艳了 👀

数字生命卡兹克@Khazix0918 · 6月23日78

http://x.com/i/article/2069297858969497600 # 一文总结2026火山引擎FORCE大会 - 向Coding和Agent全面进军。 今天,又是每年都非常重磅的火山引擎Force原动力大会了。 有一说一,人是真多啊。 基本上每年这个时候,就是豆包模型全家桶的年度更新。 今年自然也不例外,所有的模型基本就是全面升级。 人在现场,也第一时间给大家总结一下这次大会和我觉得值得说的亮点。 希望对大家有用。 一. Seed 2.1 Pro 这个模型,基本就是今天最重头戏了。 今天,正式发布了Doubao-Seed-2.1-pro和Doubao-Seed-2.1-turbo。 毕竟在这个时代,模型就是一切。 而基础模型,是所有心怀梦想的厂商,永远不可能放弃的话题。 Seed的基模在过去,在2025年初,可以说确实是个很棒的模型,那时候大家都还在卷推理,卷多模态。 可2025年,有太多的事情发生,Manus横空出世,将大家对于Agent的理解向前推了一大步,然后就是Claude Code+Claude让企业客户直接用脚投票,那段时间,Anthropic凭借着Coding和Agent能力的一骑绝尘,甚至将OpenAI都远远甩在了身后。 而Seed慢了,在这个Coding和Agent的能力几乎已经约等于模型智能能力水平的时代里,也逐渐越来越被人遗忘。 而这次基模Seed-2.1-Pro,在憋了很多之后,终于发布了,他们的多模态能力依然是王者,这个你丝毫不用怀疑字节在多模态上的能力,豆包手机和Seedance就能看出来这块的积累,而之前一直以来,都是巨大短板的Coding和Agent能力,在这半年持续不断的猛追之下,在这一次,也终于算是能打了,也终于算是到了可用级别。 老规矩,先看下评分。 Coding能力,确实是补了一大波,有些地方能摸一摸Opus 4.7的级别,比最新一代的模型还是差点了,差距坦诚的讲,还是有的。 Agent能力,也就是各种工具调用还有长程任务上,倒是大幅进化了不少。 现场还有一个秀Agent能力的我觉得挺牛逼的,还是蛮秀的。 目前Seed-2.1系列在火山、Trae、豆包上等等均已上线,也兼容所有的Agent框架,我直接在Claude Code里测了下。 我对它的评价是,一个非常综合的水桶级模型,虽然在Coding能力上,离Claude这种还有差距,但是这回至少是上桌了,然后他强就强在,水桶。 因为这玩意,在世界知识、多模态上,都有不错的表现。 一个还是多模态的能力,一个基模如果没有多模态,其实我觉得还是比较伤的,就像DeepSeek V4 Pro还有GLM-5.2,Coding能力确实都很强,但是最大的问题,还是没有多模态。 而Seed系列的多模态一直都是国际领先的水平,视觉理解的能力在几乎所有评测集上都是TOP。 你让它看文档、看图表、看视频,基本上能力都非常的强,一个又能写代码又能看图看视频的模型,跟一个只能写代码的模型,在实际业务场景里能做的事情还是有不少差距的。 举个例子,我自己开发的AI资讯监控网站AIHOT上,会对我们所有抓取到的内容进行摘要总结及评分。 比如今天早上抓到的这篇Google的内容,下面那一段文字,就是我对原文的摘要和总结,右上角就是AI系统对它的打分以及是否值得被精选。 但这个总结和评分,其实是丢信息的,因为原文里面是有图片的,甚至很多的模型里面,是有视频的。 而我背后用的模型,是两个没有多模态能力的纯文本模型,一个小一点的,用来翻译+总结和摘要,一个大一点的,用来评分。 因为丢失了多模态的信息,特别是这个评分,有的时候是不公平的,比如说X上的一些信息,可能只是发了个质量很高的播客视频,但是只简单配了两句话,那就很有可能,是会被我的精选系统过滤掉的。 很多发图片比较多的内容也是如此,比如,小红书和B站,这些上面的一些信息我过去一直没有监控,不是因为我监控的技术手段做不到,是过去我找不到一个比较好的支持多模态的评分模型,所以一直就没干。 那Doubao-Seed-2.1上了之后,我觉得完全可以把背后的这个模型,换成用Doubao-Seed-2.1-turbo来进行摘要,用Seed-2.1-Pro来进行评分,支持我AIHOT上多模态内容的生态。 说干就干,我直接把Claude Code里面的模型,用CC switch换成了Seed-2.1-Pro,让他自己来开发自己。 然后把我上面说的那段话,直接当做Prompt,扔了进去,先让他做摘要和总结这块的迭代,因为精选评分那块改模型整体改动太大了,Promtp、阈值、公式算法什么的都需要调整,还要做全量的线上数十万条数据的全量回测,不是一时半会就能干完的。 这个任务开发难度不算很高,但是也没有那么简单,就是我的那个代码,因为后端流程有点复杂了,乱七八糟的细节太多了,而且过去没有把图片扔进去推理的先例,图片缓存和持久化啥的全都没做,所以要考虑的细节还是很多的。 在思考了十几分钟以后,Doubao-Seed-2.1-pro给了我一个详细的方案。 考虑的还是比较全面的,一些对抗性审查的方案还有风险的应对措施,基本都考虑到了。 没啥问题,我就直接让他开工了。 大概在30分钟后,开发完成了。 基本没啥问题,前面的图片缓存、抓取、压缩流程啥的都能跑通,整体都还不错。 但是出现了一个很诡异的BUG,就是莫名其妙的,跑一个文字+多图的摘要,失败了一大半,长的甚至要几分钟之多,我都干懵了,我以为火山的API这么慢?? 结果让它找了半天原因,发现是Doubao-Seed-2.1默认开了深度思考,所以本来就慢,然后自己又给自己写了个300秒超时,然其中一个图片的包装函数又写错了。 改了两轮,搞了10分钟,才把这个事解决,然后让他给我列了一个100条数据的回测报告,这一次,发现推理速度变得极其牛逼,延迟几乎只要3.5s就能直接出。 回测报告的UI展示上,我觉得中规中矩,前端审美是能看的,干净清爽,也没啥特别的错位BUG。 摘要的信息准确性无敌,香爆了。 我感觉我的AIHOT在信息质量上,又要迈向新一波质量的升级了。 然后还有两个点我觉得还是需要说一下,价格和上下文长度。 首先是价格,这个价格相比海外,确实不算贵了,¥6 / ¥30每百万token(输入/输出),但是相比国内DeepSeek这种直接干到个位数级别的爹,感觉还是有优化空间。 上下文还是卡在了256k,没有到达主流的1M,这个还是比较可惜的。 坐等Doubao-Seed的下一个版本了。 二. 豆包办公模式 因为Doubao-Seed-2.1-Pro正式发布了,所以,还有一个很重要的功能应该也要即将正式上线了。 也是豆包专业版。 这其中专业版我觉得最核心的功能,我觉得就是我这两天一直在测的,基于Doubao-Seed-2.1-Pro的豆包办公模式,也是豆包的Agent。 因为我已经提前拿到了内测资格,当你打开豆包客户端之后,就能在下面看到这个东西。 基于Doubao-Seed-2.1-Pro的办公任务。 Agent时代下驱动的通用办公场景,也是所有厂子我觉得不可能放弃的一环。 豆包的办公模式其实之前就有了,但是之前的体验,坦诚的讲,我自己体验下来,说实话确实一般。 核心原因还是基模,因为之前跑的是Seed 2.0 Pro,这个模型多模态能力很强,理解力也不差,但是在Agent和Coding能力上的短板,导致它在执行一些稍微复杂办公任务的时候,就表现比较一半了。 而这次,底座换成了Seed-2.1-Pro。 不要小看这个“换底座”三个字。对于一个AI产品来说,底座模型的能力升级,可能比产品本身做任何改进都更有效,真的,产品团队搞半年的交互优化、流程重构,在现在,我觉得可能不如底座模型在Agent能力上提升个20%来得实在。 这就是我一直说的,模型就是一切。 我们自己体验下来,变化还是挺明显的。 打开豆包的桌面客户端,在输入框下侧选择办公任务,就能进入。 办公任务下,我们直接选中本地电脑,它就能够去访问到你本地电脑环境中的各种文件。 你可以指定某个项目文件夹,也可以不指定。 豆包自己也自带了一堆skills,Agent在执行任务的时候会自动调用。 我测试了一些任务,在豆包办公模式的表现上,Seed-2.1-Pro整体能力发挥的还不错。 举个例子。 我让它来做我们财务同事之前跟我讲的他们一个工作流。 月底报销的时候,她需要把全公司所有人的发票都汇总到一个飞书多维表格上。 这种活交给Agent来干最合适不过了。 这里出于隐私,我拿1月的发票来演示. 打开办公模式,我直接在收集了全公司发票的目录下,让他去汇总所有人的发票的信息,按照报销人的格式填到多维表格里面。 它会先申请访问文件的权限和执行脚本的权限。 然后还会申请飞书文档的编辑权限。 等你都授权之后,它就库库开始干了。 然后就能看到,它把公司各个部门按照每一个报销人,一共210个发票上的信息都提取出来,填到了我指定的多维表格里。 基本上没有什么问题,这个就体现出Agent能力和多模态模型的省心省力了。。。 然后测了下联网、收集信息调研的能力。 正好过几个月我们办公室的租期就到了,再加上越来越多的小伙伴加入我们,现在的办公室确实有点坐不下了。 所以我们最近就疯狂的在朝阳找新的、更大的地方。 目前行政那边,根据预算和交通方面的要求,实地也跑了一些,最后选了3个备选方案。 正好昨天下午给我的,我也不太懂,我就把这3个地方丢给豆包,把要求告诉它,让它帮我出一个对比方案,如果有它觉得更合适的地方,也可以推荐。。 它就去网上搜了一大堆资料,最后给了一份很详细的报告。 先从各个维度全面对比了3个地方,然后分别介绍优缺点,还额外给出了几个推荐的地方。 这个租金报价预估,居然基本都是真实的,跟我昨天行政拿给我的报价,几乎就没差个多少钱。。。 同样为了看得更直观,我又让它生成了一个PPT。 它会自动调用做PPT的技能去生成。 一轮直出的效果,只能说,能看。这块我盘了一下,大概率是skill的原因。 这块我建议可以加归藏的PPT skill,可能视觉效果会更好一点。 我自己也拿我之前测一些通用办公任务的30个题目的测试集,在基于Doubao-Seed-2.1-Pro之上的豆包办公任务跑了下回测。 最终效果长这样。 数据分析那边跟Gemini有点像,有时候会自作主张,踩中一些陷阱,比如其中的一道数据分析的题目。 但是整体来说,在有了Seed-2.1-Pro的加持之后,豆包的办公任务,也终于变得还不错了,能在Agent这个通用办公场景上,跟其他家正面开战了。 毕竟,这可是豆包啊。 三. Seedance Seedance这块,作为字节的王者,这次也迎来了一波更新。 Seedance 2.0拥有4K了,而且是原生4K。 注意,是原生4K,跟后期超分是两回事,现在市面上有不少4K视频,其实就是先生成个720p或者1080p的底子,然后拿超分模型往上拉。 Seedance 2.0模型的质量,配合上4K,基本是可以达到影视级了。 目前已经在火山和即梦上上线。 然后就是新模型,Seedance 2.5。 更加优秀的运动能力、分镜能力,还有表演质感。 而且,支持30秒的单段原生直出。 而且,现在,还支持在支持在保持画面一致性的同时做局部调整了。 四. 写在最后 除了上面三大块之外。 还有两个模型和一些功能我觉得可以快速提一下。 Seedream 5.0 pro,7月初上线。核心升级在于交互式精准编辑,你可以直接在画面上点选、圈选、用箭头标注来表达编辑意图,不需要再用文字去描述空间关系了,还有多图层分离和高密度信息表达能力的提升,一整页PPT的信息量都能准确呈现。 一个全新的音频生成模型。 支持用文字、声音参考生成音频、全要素直出(人声+音效+背景音一条Prompt搞定),单次可以生成2分钟音频并且支持延长到几十分钟保持一致性。 对于做有声书和播客的人来说简直是大杀器。 然后,火山方舟CLI也正式发布了,这对我这种后端几乎都在火山上的开发者来说是个大利好。 能方便非常多。 整体大概就是这样。 说到底还是那句话,模型就是一切。 字节,也在向Coding和Agent,全面进军了。

译豆包正式发布基模Doubao-Seed-2.1-pro和turbo。Coding能力接近Opus 4.7,Agent工具调用及长程任务大幅进化,多模态保持国际领先。价格¥6/¥30每百万token,上下文256k。模型已在火山引擎、Trae、豆包上线,兼容所有Agent框架。豆包办公模式基于Seed-2.1-Pro升级,可执行文件访问、文档编辑等Agent任务,现场演示自动汇总210张发票至飞书多维表格。

Orange AI@oran_ge · 6月23日43

声音模型的 Seedance 时刻,终于来了 今天我体验到一个全新的声音模型,跟以前所有的声音模型都不一样。 以前的声音模型一般叫 TTS(文本转语音),它们只能根据你给的文本来合成语音,它更像是一个朗读机器,而非智能声音模型。 但这个新模型,可以根据你的想象,生成一切你所需要的声音,包括人声、音乐、音效、环境音,以及这些声音里所富含的那些不可言说的微妙细节。 它的名字名字叫:豆包音频生成模型 Seed Audio 1.0。 在我看来,这就是声音模型的 Seedance 时刻。 就像香蕉是人类第一次将智能赋予图像,Seed Audio 是人类第一次将智能赋予声音。 接下来,就让我们一起听听它到底有何特别。 推特不能发音频,可转至公众号来听 https://mp.weixin.qq.com/s/GGjob8FJW6Xn-sulzc_MLg

译豆包音频生成模型 Seed Audio 1.0 发布,区别于传统 TTS(文本转语音)的朗读式合成,该模型能根据想象生成人声、音乐、音效和环境音,并捕捉其中的微妙细节。作者称其为“声音模型的 Seedance 时刻”,类比香蕉首次将智能赋予图像,认为这是人类首次将智能赋予声音。

小互@xiaohu · 6月23日59

字节跳动发布全新视频模型Seedance2.0升级版和 Seedance 2.5 一次生成30秒短片 原生支持4K分辨率 支持50个全模台参考素材输入 支持3D白模 同时发布AI版权商业化平台,可以使用官方授权的各种IP电影版权进行创作,分成!

译字节跳动推出 Seedance 2.0 升级版及 Seedance 2.5 视频生成模型,可一次生成 30 秒短片,原生支持 4K 分辨率,支持 50 个全模台参考素材输入及 3D 白模。同时发布 AI 版权商业化平台,允许用户使用官方授权的 IP 电影版权进行创作并参与分成。

Berryxia.AI@berryxia · 6月23日58

卧槽!Seedance 2.5 直接支持 30s 单段原生视频支出啊! 支持50个全模态参考素材,真的是吊炸天了。 PS:特么价格也要起起飞了吧😄

译字节跳动发布视频生成模型 Seedance 2.5,版本从 2.0 直接跳升至 2.5,预示大幅迭代。新版本支持单段 30 秒原生视频生成,无需拼接;同时可输入最多 50 个全模态参考素材,极大提升创作素材容量。定价尚未公布,但用户预期可能大幅上涨。

Berryxia.AI@berryxia · 6月23日63

卧槽,这一波有人直接把DeepSeek的“墙角挖倒了啊”? 今天在HuggingFace刷到一个有意思的OCR开源模型和背后有趣的故事。 这个OCR模型直接与传统的OCR模型完全不同! 先说说背景,熟悉的朋友都知道,我最近做过几次OCR评测(可以翻阅我的前面文章),测过18个文档、6类场景,搭过本地工作流。 对OCR的能力边界,算是有点体感。 之前评测最头疼的并不是准确率,是多页文档的工作流。所有模型都是逐页处理。 每一页清空一次记忆,再用外部调度器拼接结果。 本质上是个for-loop (循环),并不是真正的长程理解。 而百度这次开源的Unlimited OCR,解法完全不同。 它不逐页处理。 一次前向推理,几十页文档直接转录完。 核心卖点就一句话:One-Shot Long-Horizon Parsing(单次长时解析),也就是说句话说:无需大规模标注数据,低成本实现长文本深度句法理解,适配大语言模型少样本能力。 一张图或者一本多页PDF,直接扔进去就能一次性解析完。不用再切成小块反复跑。 据说这个模型灵感来源很有意思,人类抄书的时候,不会把整本书都记在脑子里。 只关注三个点:原文、刚写完的几个字、下一个要写的字。较早的内容自然淡出。 近期的上下文用来追踪进度。这种日常行为揭示了一种与当前模型截然不同的注意力模式。 Unlimited OCR的核心机制R-SWA,参考滑动窗口注意力,就是模拟这个过程。 每个token能看到完整图像。 但输出端只维护前面128个状态。32K上下文,一次推理几十页。 KV Cache大小恒定,不随文档长度增长。 这其实是把OCR从认字工具往文档理解引擎又推进了一步。以前大家觉得长文档处理必须分块。 现在越来越清楚:只要上下文够长、模型够强,一镜到底反而更高效、更准确。 技术报告的写法也很有意思。故事性极强,想法激进。 有种探索者的气质。这种风格此前都是DeepSeek技术报告的专属标签。 然后事情就开始变得有趣了。 翻了下技术报告的核心贡献者。 三位,两个人用真名。 唯独技术总监挂了个两字母缩写YY。YY是谁? 我顺着线索往回找了一下。您才怎么着? GitHub致谢栏把DeepSeek-OCR和DeepSeek-OCR-2排在了前两位。 DeepEncoder最初就是在DeepSeek OCR中被引入的。 这次Unlimited OCR恰恰完美融合了这一高压缩率编码器。 里面提及DeepSeek OCR的部分,语气不像在对标竞品。更像在对自己之前的研究展开反思和优化。 国内OCR圈不算大。 能做出R-SWA这种级别突破、还对DeepSeek OCR架构有亲手做过级别熟悉的人,一只手数得过来。 再看另一个细节。 2026年4月24日,DeepSeek-V4正式发布。58页技术报告末尾,近300个名字按字母顺序排列。 其中有10个名字旁边标注了一个小小的星号:已离职。 从2025年下半年到2026年初,不到半年,DeepSeek走了五个人。 他们去了哪。YY是谁。报告没直说,但越读越觉得答案在字里行间。 也明显看出来百度走最近的路子确实不一样了,你可要知道一直最强的OCR 莫属于他们啊,几乎没有什么对手啊! 从PaddleOCR到这次的Unlimited OCR,能感觉到在往一个更前沿的方向走。 这更新迭代速度,这人才储备的能力,以及发展方向,未来可期。 不管八卦,单论技术。一镜到底的长文档OCR这个方向确实是对的。 开源了。感兴趣的自己试试。 我后面也会进行实测,顺手点个🌟。 GitHub:http://github.com/baidu/Unlimited-OCR Hugging Face:http://huggingface.co/baidu/Unlimited-OCR

译百度在 HuggingFace 开源 Unlimited OCR 模型,核心卖点为 One-Shot Long-Horizon Parsing(单次长时解析),一次前向推理即可转录几十页 PDF 或图像。其创新机制 R-SWA(参考滑动窗口注意力)模拟人类抄写时的注意力模式——每个 token 看到完整图像,输出端只维护前 128 个状态,32K 上下文,KV Cache 大小恒定不随文档长度增长。技术报告披露灵感与 DeepSeek-OCR 架构有密切联系,核心贡献者中技术总监 YY 疑为近期从 DeepSeek 离职的研究者。模型已在 GitHub 和 HuggingFace 开放。

小互@xiaohu · 6月23日29

字节跳动今天将在2026火山引擎大会上 发布 Seedance2.5 我马上到会场了 给你们播报 发布的还有全新的豆包seed2.1模型,据说能力达到Opus4.6水平,还有全新的图像模型Seeddream 5.0…

译字节跳动今日在 2026 火山引擎大会上发布 Seedance2.5,同时推出全新豆包 Seed2.1 模型,声称能力达 Opus4.6 水平,以及新款图像模型 Seeddream 5.0。具体参数、性能分数及定价信息尚未公布。

向阳乔木@vista8 · 6月23日48

大聪明(赛博禅心)一直跟我说,做自媒体要研究新智元。 喷归喷,但人家起标题真的是一绝。 百度在一直OCR方面的技术很强,昨天开源 Unlimited OCR更强,3B参数500M激活,这么小的模型竟然有这么好的效果,出乎意料。 先不管作者是不是从DeepSeek出走的,文章提到的参考滑动注意力窗口技术值得关注。 技术解读见第二条,后面有项目开源地址。

译百度开源 Unlimited OCR 模型,仅3B参数、500M激活参数,在小参数量下实现极佳效果。推文提到其参考了滑动注意力窗口技术,并附带了技术解读和开源地址。

Berryxia.AI@berryxia · 6月23日73

卧槽,这一波直接把DeepSeek的“墙角挖到了啊”! 昨晚看到HuggingFace刷到这个有意思的OCR开源模型和原来背后有趣的故事。 这个OCR模型直接与传统的OCR模型完全不同! 光着速度和精准度真的就无敌了~~ 先说说背景,熟悉的朋友都知道,我最近做过几次OCR评测(可以翻阅我的前面文章),测过18个文档、6类场景,搭过本地工作流。对OCR的能力边界,算是有点体感。 之前评测最头疼的并不是准确率,是多页文档的工作流。所有模型都是逐页处理。 每一页清空一次记忆,再用外部调度器拼接结果。 本质上是个for-loop (循环),并不是真正的长程理解。 而百度这次开源的Unlimited OCR,解法完全不同。 它不逐页处理。 一次前向推理,几十页文档直接转录完。 核心卖点就一句话:One-Shot Long-Horizon Parsing(单次长时解析),也就是说句话说:无需大规模标注数据,低成本实现长文本深度句法理解,适配大语言模型少样本能力。 一张图或者一本多页PDF,直接扔进去就能一次性解析完,不用再切成小块反复跑。这特么是真的爽啊! 据说这个模型灵感来源很有意思,人类抄书的时候,不会把整本书都记在脑子里。 只关注三个点:原文、刚写完的几个字、下一个要写的字。较早的内容自然淡出。 近期的上下文用来追踪进度。这种日常行为揭示了一种与当前模型截然不同的注意力模式。 Unlimited OCR的核心机制R-SWA,参考滑动窗口注意力,就是模拟这个过程。 每个token能看到完整图像。但输出端只维护前面128个状态。32K上下文,一次推理几十页。KV Cache大小恒定,不随文档长度增长。 这其实是把OCR从认字工具往文档理解引擎又推进了一步。以前大家觉得长文档处理必须分块。 现在越来越清楚:只要上下文够长、模型够强,一镜到底反而更高效、更准确。 技术报告的写法也很有意思,故事性极强,想法激进。 有种探索者的气质,这种风格此前都是DeepSeek技术报告的专属标签。 然后事情就开始变得有趣了。 翻了下技术报告的核心贡献者。 三位中,两个人用真名。 唯独技术总监挂了个两字母缩写YY。YY是谁? 顺着线索往回找下看看? GitHub致谢栏把DeepSeek-OCR和DeepSeek-OCR-2排在了前两位。 DeepEncoder最初就是在DeepSeek OCR中被引入的。 这次Unlimited OCR恰恰完美融合了这一高压缩率编码器。 里面提及DeepSeek OCR的部分,语气不像在对标竞品。更像在对自己之前的研究展开反思和优化。 国内OCR圈也不算太大哈。 能做出R-SWA这种级别突破、还对DeepSeek OCR架构有亲手做过级别熟悉的人,一只手数得过来。 我们再看看另一外个细节哈。 2026年4月24日,DeepSeek-V4正式发布。58页技术报告末尾,近300个名字按字母顺序排列。 其中有10个名字旁边标注了一个小小的星号:已离职。 从2025年下半年到2026年初,不到半年,DeepSeek走了五个人。 他们去了哪。YY是谁。报告没直说,但越读越觉得答案在字里行间。 也明显看出来百度走最近的路子确实不一样了,你可要知道一直最强的OCR 莫属于他们啊,几乎没有什么对手啊! 从PaddleOCR到这次的Unlimited OCR,能感觉到在往一个更前沿的方向走。 这更新迭代速度,这人才储备的能力,以及发展方向,未来可期。 不管八卦,单论技术。一镜到底的长文档OCR这个方向确实是对的。 项目、模型都是开源,感兴趣的自己试试地址评论区👇🏻。

译百度在 HuggingFace 开源 Unlimited-OCR 模型,核心创新 R-SWA 使解码时 KV Cache 恒定,不随页数增长。模型不逐页处理,一次前向推理即可转录多页 PDF,32K 上下文覆盖几十页。在 OmniDocBench 上获 93 分,比 DeepSeek-OCR 高 6 个百分点。技术报告致谢栏将 DeepSeek-OCR 排首位,暗示架构继承;同期 DeepSeek-V4 报告末 10 人标注“已离职”。模型已开源。

elvis@omarsar0 · 6月23日48

OMG! Fugu Ultra is ridiculously good at these 3D renders.

译天哪!Fugu Ultra 在这些 3D 渲染中表现得极其出色。

Google AI Developers@googleaidevs · 6月23日62

The Interactions API is now GA. Featuring a stable schema and new capabilities via a single /interactions endpoint, it is now our standard interface for both model inference and autonomous agents. Check out the key updates: — Managed Agents: Spin up a secure, remote Linux sandbox for code execution and browsing via a single API call, using the default antigravity-preview-05-2026 agent or your own custom instructions — Simplified Schema: Every action is now represented as its own step (from user_input to model_output, etc.) in a simplified, linear flow — Background Execution: Set background=True to run models and agents asynchronously, letting you poll for results when ready — Expanded Tool Ecosystem: Native support for Computer Use, File Search, and Google Maps, alongside new agent-building tools like the Gemini API Docs MCP server and gemini-interactions-api Skill — Media Generation: Image generation via Google Search-grounded Nano Banana 2, music with Lyria 3, and expressive multi-speaker TTS Read the blog to learn more: https://blog.google/innovation-and-ai/technology/developers-tools/interactions-api-general-availability/

译Google Interactions API 现已正式可用(GA),通过统一 `/interactions` 端点提供稳定 schema,同时支持模型推理与自主智能体。关键更新包括:Managed Agents — 单次 API 调用即可启动安全远程 Linux 沙箱进行代码执行与网页浏览,默认使用 `antigravity-preview-05-2026` 智能体或自定义指令;简化 schema — 每个操作作为独立 step 形成线性流;后台执行 — 设置 `background=True` 实现异步运行并轮询结果;扩展工具生态 — 原生支持 Computer Use、File Search、Google Maps,新增 Gemini API Docs MCP server 与 gemini-interactions-api Skill;媒体生成 — 基于 Google Search 的 Nano Banana 2 图像生成、Lyria 3 音乐生成及多说话人 TTS。

Berryxia.AI@berryxia · 6月23日66

这速度真特么离谱啊!卧槽! 最新开源的Unlimited-OCR能一次性处理几百页文档,而且速度还很稳。 而这个模型来自百度刚刚在hugging face 发布,其核心创新是R-SWA(Reference Sliding Window Attention)。 它让模型在解码时KV Cache保持恒定,不会随着文档页数增加而爆炸式增长。 结果就是:一张图或者一本多页PDF,直接扔进去就能一次性解析完,速度和稳定性都比传统逐页处理的方式好很多。 在OmniDocBench上拿到了93分,比DeepSeek-OCR高出6个百分点。 这已经不是简单的准确率提升,而是把长文档OCR的工作流从“分块+外部调度器拼接”变成了真正的端到端一镜到底。 以前做多页文档最头疼的就是上下文断裂和格式不一致,现在模型能一次性看到整篇文档的结构、布局和逻辑关系,输出质量自然上了一个台阶。 这其实是把OCR从“认字工具”往“长文档理解引擎”又往前推了一大步。 技术路线很清晰,也很实用。 果然百度现在OCR独树一帜,遥遥领先了。 模型地址见评论区~ 👇

译百度PaddlePaddle在HuggingFace发布Unlimited-OCR,核心创新R-SWA(Reference Sliding Window Attention)使解码时KV Cache保持恒定,避免随页数爆炸。该模型可一次性处理数百页文档,速度和稳定性优于逐页处理。在OmniDocBench上得分93%,比DeepSeek-OCR高出6个百分点。这使长文档OCR从“分块+拼接”变为端到端一镜到底,直接理解整篇文档结构与布局。

SenseTime@SenseTime_AI · 6月22日50

Thanks YouTuber xCreate for the great breakdown of 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗨1! Great to see the model's powerful 𝘁𝗲𝘅𝘁-𝗶𝗺𝗮𝗴𝗲 𝗶𝗻𝘁𝗲𝗿𝗹𝗲𝗮𝘃𝗲𝗱 𝗿𝗲𝗮𝘀𝗼𝗻𝗶𝗻𝗴 and 𝗶𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰 capabilities featured — along with a 𝘀𝘁𝗲𝗽-𝗯𝘆-𝘀𝘁𝗲𝗽 𝗴𝘂𝗶𝗱𝗲 𝘁𝗼 𝗿𝘂𝗻𝗻𝗶𝗻𝗴 𝗶𝘁 𝗹𝗼𝗰𝗮𝗹𝗹𝘆 𝗮𝗻𝗱 𝘃𝗶𝗮 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗦𝘁𝘂𝗱𝗶𝗼. 🎥https://www.youtube.com/watch?v=FWaQC_exKh0 🎛️SenseNova Studio: https://unify.light-ai.top (Try infographics; also join Discord for text-image interleaved gen) 🤗https://huggingface.co/collections/sensenova/sensenova-u1 🛠️https://github.com/OpenSenseNova/SenseNova-U1 👾Discord: https://discord.com/invite/BuTXPHmQub

译商汤SenseTime发布推文,感谢YouTuber xCreate对SenseNova U1模型的详细拆解,重点展示其文本-图像交错推理(text-image interleaved reasoning)和信息图表(infographic)生成能力。推文附有逐步指南,指导用户通过SenseNova Studio在线使用或本地运行模型。相关资源包括YouTube视频、HuggingFace模型集合、GitHub仓库及Discord社区链接。

AK@_akhaliq · 6月22日32

PerceptionDLM Parallel Region Perception with Multimodal Diffusion Language Models

译PerceptionDLM 平行区域感知与多模态扩散语言模型

Chubby♨️@kimmonismus · 6月22日55

It looks like we’re getting a whole range of new GPT models this Thursday: GPT-5.6, 5.6 Pro, and a new bidirectional voice model. Initial tests of the voice model were outstanding, this is exactly what I had hoped for two years ago!

译据X用户Kim消息,本周四将发布多个新GPT模型,包括GPT-5.6、5.6 Pro以及双向语音模型GPT-Bidi-1。早期测试显示语音模型表现卓越。引用推文指出,5.6 Pro在正确提示词下可完成任意任务,GPT-Bidi-1知识截止于2025年8月,自GPT-4o时代以来备受期待。其余GPT-5.6模型此前以kindle alpha版本测试,预计将推出新checkpoint。

Chubby♨️@kimmonismus · 6月22日38

It seems the first tests with Sonnet 5 are already underway. If this is confirmed, we're in for a great release!

译Sonnet 5 首次亮相。模型速度极快,且未使用参考图。看来下周会很忙。Kim 评论称,若测试确认,这将是一次很棒的发版。

elvis@omarsar0 · 6月22日58

I don't even prompt/speak to agents that much anymore. With loops, agents do most of it for me now. I do spend more time writing verifiers to provide additional rich instructions (text+audio+images) that help fill in gaps. What's next? Hard to tell!

译Elvis Saravia(DAIR.AI)称他如今很少直接向智能体提示,而是依靠循环(loops)让智能体自主完成大部分工作。他转而花更多时间编写验证器(verifiers),通过文本、音频、图像提供丰富指令弥补智能体知识缺口。引用推文补充,2026年6月起应放弃手动编辑提示词,改用语音听写10分钟,将碎片、警示、示例和氛围直接灌给模型——大语言模型最擅长从语言中重构潜在意图。这标志着AI智能体交互正从精细提示转向循环+口述+验证器的新范式。

Rohan Paul@rohanpaul_ai · 6月22日51

Drones create the kind of data AI labs cannot scrape from the web. 500K hours of real drone footage from Ukraine are now being packaged for AI model training. These are full-motion video captured in messy combat conditions, where smoke, weather, terrain, shadows, heat signatures, and fast movement break many clean demos. The data wall will be much less of a problem when drones keep turning the physical world into labeled video. --- defensescoop. com/2026/06/16/data-from-half-a-million-hours-of-ukraine-conflict-drone-footage-now-available-to-train-ai/

译无人机能生成AI实验室无法从网络抓取的真实数据。来自乌克兰的50万小时真实战斗无人机全动态视频(含烟雾、天气、地形、阴影、热信号及快速移动等复杂条件)正被打包用于AI模型训练。这类物理世界转换而成的标注视频将大幅缓解AI训练面临的数据墙问题。

Berryxia.AI@berryxia · 6月22日61

苹果换帅后会有什么大动作? 这哥们本身就是硬件产品出生… 2001年,苹果发布了一款叫iPod的音乐播放器。没人想到它会重新定义整个消费电子行业。 二十五年后,苹果正在做一件更疯狂的事:把摄像头塞进AirPods。 Bloomberg的Mark Gurman报道,苹果计划在2027年推出三款产品:带摄像头的AirPods、第二代折叠屏iPhone,以及一款纪念iPhone诞生二十周年的特别版Pro机型。 其中最激进的是AirPods。内部代号B798,在耳机柄里放了计算机视觉摄像头。 看起来还是你熟悉的AirPods Pro,但它能看到你看到的东西。 苹果把这叫做"AI在身体上的下一个战场"。 这不是一个产品发布。 这是一整条产品线的重新定义。 耳机不再只是听音乐的工具,它变成了你和AI之间的视觉接口。 苹果在2001年用iPod证明了它可以重新发明一个品类。 二十六年后,它准备再做一次。只是这一次,品类是耳机。

译据Bloomberg报道,苹果计划2027年推出三款产品:内部代号B798的带摄像头AirPods、第二代折叠屏iPhone及纪念iPhone诞生二十周年的特别版Pro机型。最激进的是AirPods,在耳机柄内置计算机视觉摄像头,可捕捉用户视野,苹果将其定位为“AI在身体上的下一个战场”,使耳机从音乐工具变为AI视觉接口。新CEO John Ternus的首要任务被指是重整苹果设计团队,为产品线变革铺路。

OpenBMB@OpenBMB · 6月20日39

Thanks @aijoey for the impressive vision-agent security monitoring demo with MiniCPM-V 4.6. What stood out to us is the model consistently classifying scenes as 'routine / no emergency'—and that's the essence of security AI. It's not about flagging every person or vehicle, but reading the situation and assessing urgency. Only when police car blue lights appear on the highway does it trigger an alert, with the reasoning: 'There are police car blue lights, indicating a potential emergency situation.' This is exactly what we've been aiming for: vision that doesn't just see, but knows when to act.

译@aijoey 用 MiniCPM-V 4.6 搭建了视觉智能体安全监控 demo:四个 CCTV 实时画面,模型观察近期帧窗口,判断活动是否正常,仅在识别到真实事件时调用 `raise_alert(reason, severity)`。模型持续将场景分类为“常规/无紧急”,只在高速公路出现警车蓝灯时触发警报,推理为“警车蓝灯亮起,可能表示紧急情况”。该演示展示了小 VLM 超越图像描述、实现实际智能体行为的潜力。

🚨 AI News | TestingCatalog@testingcatalog · 6月20日55

ClickUp to add artifacts with Brain2 👀 > It will be able to create slides, prototypes, websites, or dashboards. > Brain pulls from workspace context, so the output is built on real project data > Artifacts render inline in the channel and stay fully interactive. When Brain is asked to build a presentation, it will now return a finished, professionally done, navigable deck right in the thread, ready to share or drop into a task.

译ClickUp 将通过 Brain2 添加 artifacts 👀 > 它将能够创建幻灯片、原型、网站或仪表板。 > Brain 从工作区上下文中提取信息,因此输出基于真实项目数据 > Artifacts 在频道内内联渲染,并保持完全交互。 当要求 Brain 制作演示文稿时,它现在将在线程中直接返回一个已完成、专业、可导航的幻灯片组,随时可以分享或放入任务中。

AYi@AYi_AInotes · 6月20日52

GPT-5.6 Pro 泄露了,大概下周四发布, 发现大家都在讨论Juice Value 960 又涨了多少,但如果你把视觉复刻、SVG 3D、Playwright 浏览器自动化这三个词连起来看,会发现一件很重要的事, OpenAI 在尝试把 GPT 从脑子变成手, 先看这三个词各自说了什么, 视觉复刻已经做到"几乎可以复刻设计",以前 GPT 能描述你的设计哪里不对,现在它能直接复刻一个给你看 SVG 3D 生成表现优异,甚至超越了 Fable 5——不是生成一张静态图就完事儿,能生成可以在浏览器里旋转缩放的三维对象, Playwright 浏览器自动化,这是最容易被忽略的技术点, ChatGPT 现在都能打开浏览器了̋(ˊ•͈ꇴ•͈ˋ) 不是假装打开,是真正操作网页:点击、输入、跳转、抓取 这三个词放在一起指向的已经不只是一个更强的语言模型了,已经是一个能做物理动作的 Agent 了, 以前 OpenAI 的比赛是谁的脑子最聪明,现在这场比赛多了一个项目:谁的手最稳 一个能和你聊天、告诉你该怎么做的人,现在能打开你的浏览器,移动你的鼠标,复制一个设计,生成一个 3D 图标,保存到桌面上。脑子还是那个脑子,但他已经长出手了

译GPT-5.6 Pro 预计下周四发布,泄露信息显示其三项关键能力:视觉复刻已近乎能完全复刻设计;SVG 3D 生成表现超越 Fable 5,支持浏览器内旋转缩放;Playwright 浏览器自动化可真实操作网页(点击、输入、跳转、抓取)。这三项能力表明 OpenAI 正将 GPT 从语言模型进化为能执行物理操作的 Agent——不仅能“思考”,还能打开浏览器、移动鼠标、复制设计并保存到桌面。

向阳乔木@vista8 · 6月20日16

gemini3还是不行啊,怎么把白条识别成泥鳅。。 影响我的钓鱼记录App 😂

SenseTime@SenseTime_AI · 6月19日45

#𝗔𝗜 changed the game for interior design. Shoutout to @eigi_and_ai for putting 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗨1 to the test! By uploading a simple living room photo, he used U1’s 𝗶𝗻𝗱𝘂𝘀𝘁𝗿𝘆-𝗳𝗶𝗿𝘀𝘁 𝘁𝗲𝘅𝘁-𝗶𝗺𝗮𝗴𝗲 𝗶𝗻𝘁𝗲𝗿𝗹𝗲𝗮𝘃𝗲𝗱 𝗴𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻 to instantly transform it into a cozy reading nook. Which room in your home needs a makeover? Try U1 today! 🎥https://www.youtube.com/watch?v=395Fk3WveRk 🎛️ SenseNova Studio: https://unify.light-ai.top (Try infographics; also join Discord for text-image interleaved gen) 🤗https://huggingface.co/collections/sensenova/sensenova-u1 🛠️ https://github.com/OpenSenseNova/SenseNova-U1 👾 Discord: https://discord.com/invite/BuTXPHmQub

译商汤 SenseNova U1 具备行业首创的文本-图像交错生成能力。用户上传客厅照片后,U1 可瞬间将其风格转变为温馨阅读角。该演示由 @eigi_and_ai 完成。U1 现已通过 SenseNova Studio、HuggingFace 模型库、GitHub 源码及 Discord 社区开放体验。

Fei-Fei Li@drfeifei · 6月19日54

Your thoughtful reflection is so inspiring and encouraging @smallfly ! As everyone talks about AI and automation, human creativity, story telling and productivity are even more important and essential to our society. @theworldlabs is founded on the premise of empowering human ingenuity and productivity. We are very grateful to be able to work with people like you! 🙏🌐

译Fei-Fei Li回应@smallfly对World Labs及空间智能的分享,称使命是赋能人类创造力。@smallfly在FastCompany文章中指出空间智能/世界模型是AI下一个重大方向。他从事体积捕获(NeRFs、3D Gaussian Splats),2024年9月注意到World Labs公告,2025年8月试用Marble beta。Marble能生成持久、空间一致的3D世界并实时渲染。他创作实验“Parallel Realities”:先体积捕获真实空间,再用Marble生成替代版本,最后通过World Labs的Spark渲染器让两个现实共存,实现真正空间连贯性。

AYi@AYi_AInotes · 6月18日36

所以预防医学才是医疗领域里最适合AI切入的赛道啊, 因为超声波能精准锁定身体里的组织, 这意味着影像检查跟治疗之间的界限开始变得模糊了, AI可以让超声波先扫一遍,把全身摸清楚,发现哪儿有问题,然后直接用声波给它刺激、消融、调节或者修好

译主推文认为预防医学是AI最适合切入的医疗领域,因为超声波能精准锁定身体组织,使影像检查与治疗之间的界限模糊。AI驱动的超声波可先对全身进行扫描,发现异常后直接用声波进行刺激、消融、调节或修复,实现诊断与治疗的一体化。引用推文介绍了Midjourney Scanner技术,进一步呼应了这一趋势。

Orange AI@oran_ge · 6月18日32

今年 618 有点冷清 好像没什么电商广告,也没什么购物短信... 只有 AI 软件在促销 我们也凑个热闹吧 ListenHub 现已全面升级为 AI 创作者平台,接入了 Seedance 2.0、HappyHorse、GPT Image 2、Nano Banana Pro 等顶级的视频和图像模型,价格也很优惠。 今天开始为期一周的 618 + 端午节限时福利 🥳 1. ListenHub 订阅月费/年费会员,额外加赠送 50% 积分 2. 新用户注册立即赠送100积分 3. 老用户每日签到可免费获得 2 张生图额度 以上活动,限时7天,不要错过。 如果错过的话,就是黑五见了哈... 在这里参与活动: http://listenhub.ai

译ListenHub全面升级为AI创作者平台,已接入Seedance 2.0、HappyHorse、GPT Image 2、Nano Banana Pro等顶级的视频和图像模型,价格优惠。即日起进行为期一周的“618+端午节”限时福利:订阅月费或年费会员额外赠送50%积分;新用户注册即赠100积分;老用户每日签到免费获得2张生图额度。活动限时7天,逾期需等到黑五。

Chubby♨️@kimmonismus · 6月18日59

Holy, Midjourney now builds fast, affordable, recurring full-body scan designed to be better and cheaper as an MRI, completed in around 60 seconds and experienced more like a spa visit. https://x.com/midjourney/status/2067422898407837797/video/1

译天哪,Midjourney现在构建了一种快速、实惠、可重复的全身体扫描,设计得比MRI更好更便宜,大约60秒完成,体验更像一次水疗。

OpenBMB@OpenBMB · 6月18日59

Really impressive “gauge reader” demo by @aijoey MiniCPM-V 4.6 👀 What makes this interesting is that it goes far beyond OCR: The model needs to understand multiple visual signals at once, including pointer angles, scale ranges, units, value mapping, digital displays, and liquid level proportions, often within the same scene.💥 This demonstrates strong visual reasoning ability, not just text reading 🧠 Even more importantly, the real-world setup matters here. Many factories, data centers, labs, and energy systems still rely on traditional gauges and legacy panels.👍In the industrial automation field, this will have huge application scenarios. Relying on MiniCPM‑V 4.6’s structured output and powerful multimodal capabilities, many traditional instruments without sensors can be retrofitted at low cost using this solution. 🔥Instead of replacing hardware or installing new sensors, this demo shows a practical path where cameras and vision models turn existing equipment into readable, recordable, and alarm-ready data sources. Big thanks to Joey for this great demo 🤝

译面壁智能 MiniCPM-V 4.6 演示工业仪表读取,模型需同时理解指针角度、刻度范围、单位、数字显示、液位比例等视觉信号,输出结构化 JSON(pressure_bar, temp_c, flow_lpm, level_pct)。测试使用合成控制面板,评分标准为 pass(满量程5%内)、drift(10%内)、miss。数字显示和液位较易,模拟指针更困难。该方案通过摄像头+视觉模型低成本改造传统仪表,无需更换硬件,在工厂、数据中心等场景有巨大应用潜力。

AYi@AYi_AInotes · 6月18日54

太不可思议了,Midjourney 做了十年的生成式 AI,今天转头宣布要造医疗硬件,而且上来就是超声 CT这种顶级医疗器械🤯 不是开玩笑,刚刚正式宣布成立 Midjourney Medical,视频里是个赛博朋克风的全身扫描舱——人走进去,充满发光凝胶的舱体下沉,环形传感器阵列环绕扫描,屏幕上实时重建出毫米级分辨率的 3D 全息身体模型,进度条显示:60 秒。 技术路数很刁钻,不是 MRI 那种强磁场,也不是 CT 的 X 射线,是用超声波加水做全身层析成像。 水是耦合介质,50 万个微型传感器阵列采集信号,AI 负责把超声回波重建成立体解剖图, 没有辐射,不需要躺进那个让幽闭恐惧症发作的磁体管,理论上比传统 MRI 快近 100 倍。 更疯的是产品形态, 他们不在医院里装这台机器,要在旧金山开一家 Midjourney Spa——融合扫描、泡澡、桑拿、冷水浴的水疗中心。 你像去按摩一样 casually 做一次全身扫描,积累长期健康数据, 他们的目标是全球部署 5 万台,每月 10 亿次扫描。 @elonmusk 还回了个 "Cool"。 这公司以前把想象力变成像素,现在要把它变成你能走进去的机器世界。 2027 年底旧金山第一家研究型 Spa 开张,后续的工程化、临床验证、FDA,每条路都是硬仗, 但至少方向已经对了,因为预防医学最大的门槛不是技术,关键是心理摩擦,怎么让人愿意主动扫描,比造出更高分辨率的扫描仪难十倍。

译Midjourney 宣布成立 Midjourney Medical,进军医疗硬件领域,计划制造基于超声波和水耦合介质的全身扫描舱。该设备无需辐射或强磁场,配备 50 万个微型传感器阵列,60 秒内完成全身层析成像,理论速度比传统 MRI 快近 100 倍。公司还将在旧金山开设 Midjourney Spa,融合扫描、泡澡、桑拿、冷水浴,鼓励像按摩一样轻松完成定期扫描。目标全球部署 5 万台,每月 10 亿次扫描。Elon Musk 回复“Cool”。首家研究型 Spa 预计 2027 年底开业。

🚨 AI News | TestingCatalog@testingcatalog · 6月18日64

Catnip has introduced MaineCoon, a new real-time interactive audio-visual model that puts a live AI character on screen. > This is a 22B streaming model built for real-time processing, that keeps the character alive rather than pausing to render. > The first frame lands in under a second, and the generation runs up to 7x faster than existing audio-visual models, holding around 47.5 FPS on a single H100.

译Catnip 发布 MaineCoon,一款 22B 参数的流式实时交互音频-视觉模型,可在屏幕上呈现活生生的 AI 角色。首帧生成不到 1 秒,推理速度达 47.5 FPS(单张 H100),比现有音视频模型快 7 倍。该模型支持无限时长交互,强调 AI 持续在场而非轮流回复,旨在将被动视频升级为实时 AI 存在感。

swyx@swyx · 6月18日53

my notes from the @midjourney medical launch - @Scobleizer compared this to the original iPhone and Tesla launches (that he was also front row for) - find you a man who looks at you like @bryan_johnson was 😍 ing for @DavidSHolz - see @iScienceLuvr tweet linked for Nature paper - reminds me of our @biohub episodes: better science starts with better data, and that means better imaging - people asking "but wen FDA?" are so small minded. we will do the easy stuff, then we'll do the harder stuff. roll up your sleeves and help or just be patient. - when you have genuinely better tech+mission, all the other hurdles just sort of fall away/figure themselves out: business model, regulatory approval, hiring, marketing, confusion over what to do - this was just the first of 8 side project launches MJ has planned this year - this is what technological ambition looks like: not 10% better, not 2x better, but 40-100x better in every dimension - how are we getting this level of innovation and ambition out of a $10m/yr research budget and whats wrong with the way we use R&D in every other megacorp/goverment/frontier lab? - how has $BFLY stock not mooned yet, this thing just had its ChatGPT moment thank you to L for letting me into what I believe is going to be the top 10 most important launches i'll ever see live.

译swyx 记录 Midjourney 医疗产品发布,与会者将其比作初代 iPhone 和特斯拉发布。该产品旨在将医学成像质量提升 40-100 倍,实现“扫描器官像称体重”。Midjourney 仅以每年 1000 万美元研发预算支撑这一创新,质疑其他机构的研发效率。今年 MJ 另有 7 个副项目计划发布。Nature 论文及 biohub 播客佐证更好数据驱动更好科学。swyx 认为技术+使命足够强,监管等障碍会自行解决。

Berryxia.AI@berryxia · 6月18日19

卧槽~~ 这根本用不完啊! 真是便宜啊!我接到了Bloome 里面各种音影视频文本文件一股脑搞进去,这么久才花费这么点钱。。 并且日常使用做各种我需要的任务都可以帮我搞定😄

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月23日
22:11
Mistral AI@MistralAI
54
推出 Mistral OCR 4。它通过边界框、块分类和内联置信度评分在170种语言中创建结构。 🧵👇
产品更新多模态
18:11
Baidu Inc.@Baidu_Inc
71
百度开源Unlimited OCR,专为一次性读取长文档设计。模型总参数量3B,仅激活500M,在OmniDocBench v1.5和v1.6上取得端到端SOTA。核心创新为参考滑动窗口注意力(R-SWA),模拟人类抄书过程,保持源、近期上下文和后续焦点,同时软遗忘无关信息。凭借恒定KV缓存大小和更低注意力成本,可在单次前向传播中转录40+页,不丢失上下文也不减速。模型已开源至GitHub和Hugging Face。

Baidu AI: We're open-sourcing Unlimited OCR - built to read long documents in one pass. With 3B total parameters and only 500M act...

Hugging Face多模态模型发布
18:03
fofr@fofrAI
23
Gemini的视觉能力令人印象深刻地通过了这项测试 ⚫️🐜⚫️

fofr: New vision benchmark just landed

Google多模态评测/基准
17:03
fofr@fofrAI
39
新的视觉基准刚刚发布。

USDA Forest Service: Ticks can be as small as a poppy seed. There are five ticks in this photo. Can you spot them? Learn more about protectin...

多模态评测/基准
16:37
🚨 AI News | TestingCatalog@testingcatalog
48
OpenAI 正测试双向语音模型 Bidi 1,支持打断与连续对话

OpenAI 正在测试名为 "Bidi 1" 的双向语音模型。它能在你说话时同时插话并保持收听,可在句子中间来回切换任务,处理打断和停顿的能力更强,还能更好地记忆对话上下文。目前模型仍有连续讲话长度上限,但在测试中可轻松数到 23 而不中断。据推文透露,OpenAI 正为网页版准备 Bidi 1:设置中将新增该语音模型选项,语音气泡颜色从蓝色变为黄色。该模型尚未上线,但预计很快就会推出。

🚨 AI News | TestingCatalog: BREAKING 🔥: OpenAI is preparing "Bidi 1" for the upcoming web release! > A new voice model will be available in setting...

OpenAI多模态模型发布语音
15:55
X.PIN@thexpin
57
字节跳动刚刚推出了一波新模型: 1️⃣ Doubao 2.1 Pro 面向编程。 2️⃣ Seedance 2.5:4K 视频,每段最长 30 秒。将于 7 月上线,同时推出新的 AI 版权商业化平台。 3️⃣ Seedream 5.0 Pro:图像模型,能处理图像中的文本,支持多层编辑,并输出可编辑的分层设计文件。 4️⃣ Seed-Audio 1.0:零样本多模态音频:一次生成多角色对话、背景音乐和音效。
图像生成多模态模型发布视频
15:26
Chubby♨️@kimmonismus
25
Seedance 2.5 发布。看起来太疯狂了!仍在试图弄清楚 Veo 4 在哪里,以及为什么没有其他产品能接近 Seedance。
多模态大佬观点视频
14:37
🚨 AI News | TestingCatalog@testingcatalog
65
BYTEDANCE 🔥: Seedance 2.5 已正式发布,同时还有更新的 Seedance 2.0。 - Seedance 2.0 现支持 4k 输出 - Seedance 2.5 将能够一次性生成 30 秒视频 - 字节跳动还宣布了一个新的 AI 版权商业化平台 这个视频广告太惊艳了 👀

小互: 字节跳动发布全新视频模型Seedance2.0升级版和 Seedance 2.5 一次生成30秒短片 原生支持4K分辨率 支持50个全模台参考素材输入 支持3D白模 同时发布AI版权商业化平台,可以使用官方授权的各种IP电影版权进行创作,分...

多模态模型发布视频
14:33
数字生命卡兹克@Khazix0918
78
2026火山引擎FORCE大会发布Doubao-Seed-2.1系列,强化Coding与Agent能力

豆包正式发布基模Doubao-Seed-2.1-pro和turbo。Coding能力接近Opus 4.7,Agent工具调用及长程任务大幅进化,多模态保持国际领先。价格¥6/¥30每百万token,上下文256k。模型已在火山引擎、Trae、豆包上线,兼容所有Agent框架。豆包办公模式基于Seed-2.1-Pro升级,可执行文件访问、文档编辑等Agent任务,现场演示自动汇总210张发票至飞书多维表格。

智能体多模态模型发布
关联讨论 4 条X:Vista (@vista8)公众号:数字生命卡兹克字节 Seed:Research Feed(网页内嵌数据)公众号:火山引擎
13:10
Orange AI@oran_ge
43
豆包 Seed Audio 1.0:声音模型的 Seedance 时刻

豆包音频生成模型 Seed Audio 1.0 发布,区别于传统 TTS(文本转语音)的朗读式合成,该模型能根据想象生成人声、音乐、音效和环境音,并捕捉其中的微妙细节。作者称其为“声音模型的 Seedance 时刻”,类比香蕉首次将智能赋予图像,认为这是人类首次将智能赋予声音。

多模态模型发布语音
12:15
小互@xiaohu
59
字节跳动发布 Seedance 2.0/2.5 视频模型及版权平台

字节跳动推出 Seedance 2.0 升级版及 Seedance 2.5 视频生成模型,可一次生成 30 秒短片,原生支持 4K 分辨率,支持 50 个全模台参考素材输入及 3D 白模。同时发布 AI 版权商业化平台,允许用户使用官方授权的 IP 电影版权进行创作并参与分成。

多模态模型发布视频
12:14
Berryxia.AI@berryxia
58
字节跳动发布视频生成模型 Seedance 2.5,版本从 2.0 直接跳升至 2.5,预示大幅迭代。新版本支持单段 30 秒原生视频生成,无需拼接;同时可输入最多 50 个全模态参考素材,极大提升创作素材容量。定价尚未公布,但用户预期可能大幅上涨。

Berryxia.AI: 字节已经发布了Seedance 2.5 了,直接起跳就是半个点,都不是0.1 说明这次的迭代应该蛮大的。 还挺期待的看看到底有哪些变化,应该有很多产品都会第一时间接入自家的产品了。 开始吧~·

多模态模型发布视频
11:14
Berryxia.AI@berryxia
63
百度开源 Unlimited OCR:单次解析多页 PDF,疑似挖角 DeepSeek 技术骨干

百度在 HuggingFace 开源 Unlimited OCR 模型,核心卖点为 One-Shot Long-Horizon Parsing(单次长时解析),一次前向推理即可转录几十页 PDF 或图像。其创新机制 R-SWA(参考滑动窗口注意力)模拟人类抄写时的注意力模式——每个 token 看到完整图像,输出端只维护前 128 个状态,32K 上下文,KV Cache 大小恒定不随文档长度增长。技术报告披露灵感与 DeepSeek-OCR 架构有密切联系,核心贡献者中技术总监 YY 疑为近期从 DeepSeek 离职的研究者。模型已在 GitHub 和 HuggingFace 开放。

DeepSeek多模态开源/仓库模型发布
09:44
小互@xiaohu
29
字节火山引擎大会发布 Seedance2.5、豆包 Seed2.1 等新模型

字节跳动今日在 2026 火山引擎大会上发布 Seedance2.5,同时推出全新豆包 Seed2.1 模型,声称能力达 Opus4.6 水平,以及新款图像模型 Seeddream 5.0。具体参数、性能分数及定价信息尚未公布。

产品更新图像生成多模态视频
08:31
向阳乔木@vista8
48
百度开源 Unlimited OCR:3B参数500M激活性能惊艳

百度开源 Unlimited OCR 模型,仅3B参数、500M激活参数,在小参数量下实现极佳效果。推文提到其参考了滑动注意力窗口技术,并附带了技术解读和开源地址。

多模态开源/仓库端侧
08:13
Berryxia.AI@berryxia
73
百度开源 Unlimited-OCR,R-SWA 实现单次多页 PDF 解析

百度在 HuggingFace 开源 Unlimited-OCR 模型,核心创新 R-SWA 使解码时 KV Cache 恒定,不随页数增长。模型不逐页处理,一次前向推理即可转录多页 PDF,32K 上下文覆盖几十页。在 OmniDocBench 上获 93 分,比 DeepSeek-OCR 高 6 个百分点。技术报告致谢栏将 DeepSeek-OCR 排首位,暗示架构继承;同期 DeepSeek-V4 报告末 10 人标注“已离职”。模型已开源。

Berryxia.AI: 这速度真特么离谱啊!卧槽! 最新开源的Unlimited-OCR能一次性处理几百页文档,而且速度还很稳。 而这个模型来自百度刚刚在hugging face 发布,其核心创新是R-SWA(Reference Sliding Window At...

多模态开源/仓库模型发布
05:07
elvis@omarsar0
48
天哪!Fugu Ultra 在这些 3D 渲染中表现得极其出色。

Sakana AI: Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...

智能体产品更新多模态
01:35
Google AI Developers@googleaidevs
62
Google Interactions API 正式可用:统一端点、稳定 schema、Managed Agents 等新功能

Google Interactions API 现已正式可用(GA),通过统一 /interactions 端点提供稳定 schema,同时支持模型推理与自主智能体。关键更新包括:Managed Agents — 单次 API 调用即可启动安全远程 Linux 沙箱进行代码执行与网页浏览,默认使用 antigravity-preview-05-2026 智能体或自定义指令;简化 schema — 每个操作作为独立 step 形成线性流;后台执行 — 设置 background=True 实现异步运行并轮询结果;扩展工具生态 — 原生支持 Computer Use、File Search、Google Maps,新增 Gemini API Docs MCP server 与 gemini-interactions-api Skill;媒体生成 — 基于 Google Search 的 Nano Banana 2 图像生成、Lyria 3 音乐生成及多说话人 TTS。

智能体Google产品更新多模态
01:12
Berryxia.AI@berryxia
66
百度开源Unlimited-OCR:可一次性处理数百页文档

百度PaddlePaddle在HuggingFace发布Unlimited-OCR,核心创新R-SWA(Reference Sliding Window Attention)使解码时KV Cache保持恒定,避免随页数爆炸。该模型可一次性处理数百页文档,速度和稳定性优于逐页处理。在OmniDocBench上得分93%,比DeepSeek-OCR高出6个百分点。这使长文档OCR从“分块+拼接”变为端到端一镜到底,直接理解整篇文档结构与布局。

Adina Yakup: Unlimited-OCR 🔥New OCR from @PaddlePaddle It can parse hundreds of pages in a single pass while maintaining stable spee...

DeepSeekHugging Face多模态开源/仓库
6月22日
23:42
SenseTime@SenseTime_AI
50
商汤SenseTime感谢YouTuber xCreate拆解SenseNova U1,展示文本-图像推理与信息图表生成能力

商汤SenseTime发布推文,感谢YouTuber xCreate对SenseNova U1模型的详细拆解,重点展示其文本-图像交错推理(text-image interleaved reasoning)和信息图表(infographic)生成能力。推文附有逐步指南,指导用户通过SenseNova Studio在线使用或本地运行模型。相关资源包括YouTube视频、HuggingFace模型集合、GitHub仓库及Discord社区链接。

GitHubHugging Face图像生成多模态
23:41
AK@_akhaliq
32
PerceptionDLM 平行区域感知与多模态扩散语言模型
多模态论文/研究
22:56
Chubby♨️@kimmonismus
55
据X用户Kim消息,本周四将发布多个新GPT模型,包括GPT-5.6、5.6 Pro以及双向语音模型GPT-Bidi-1。早期测试显示语音模型表现卓越。引用推文指出,5.6 Pro在正确提示词下可完成任意任务,GPT-Bidi-1知识截止于2025年8月,自GPT-4o时代以来备受期待。其余GPT-5.6模型此前以kindle alpha版本测试,预计将推出新checkpoint。

Chetaslua: This Thursday 🤞 We already tested 5.6 pro a lot ( this model is special like with right prompt it can do anything) GPT-...

OpenAI多模态模型发布
21:26
Chubby♨️@kimmonismus
38
Sonnet 5 首次亮相。模型速度极快,且未使用参考图。看来下周会很忙。Kim 评论称,若测试确认,这将是一次很棒的发版。

Jayden Davis: BREAKING: First Look at Sonnet 5 🚨 SVG of Nintendo Switch 2 This model is hella fast and it is impressive since I didn'...

Anthropic图像生成多模态模型发布
07:04
elvis@omarsar0
58
Elvis Saravia(DAIR.AI)称他如今很少直接向智能体提示,而是依靠循环(loops)让智能体自主完成大部分工作。他转而花更多时间编写验证器(verifiers),通过文本、音频、图像提供丰富指令弥补智能体知识缺口。引用推文补充,2026年6月起应放弃手动编辑提示词,改用语音听写10分钟,将碎片、警示、示例和氛围直接灌给模型--大语言模型最擅长从语言中重构潜在意图。这标志着AI智能体交互正从精细提示转向循环+口述+验证器的新范式。

Guinness Chen: Bro it's June 2026. Stop hand editing your prompts. Hold down the dictation button and ramble for 10 minutes. Give the m...

智能体多模态大佬观点
02:06
Rohan Paul@rohanpaul_ai
51
乌克兰50万小时无人机影像用于AI训练

无人机能生成AI实验室无法从网络抓取的真实数据。来自乌克兰的50万小时真实战斗无人机全动态视频(含烟雾、天气、地形、阴影、热信号及快速移动等复杂条件)正被打包用于AI模型训练。这类物理世界转换而成的标注视频将大幅缓解AI训练面临的数据墙问题。

多模态数据/训练行业动态
00:09
Berryxia.AI@berryxia
61
苹果换帅后2027年产品规划:带摄像头AirPods、折叠屏iPhone与二十周年Pro机型

据Bloomberg报道,苹果计划2027年推出三款产品:内部代号B798的带摄像头AirPods、第二代折叠屏iPhone及纪念iPhone诞生二十周年的特别版Pro机型。最激进的是AirPods,在耳机柄内置计算机视觉摄像头,可捕捉用户视野,苹果将其定位为“AI在身体上的下一个战场”,使耳机从音乐工具变为AI视觉接口。新CEO John Ternus的首要任务被指是重整苹果设计团队,为产品线变革铺路。

Mark Gurman: Power On: The No. 1 priority for new Apple CEO John Ternus should be revamping the company's design team and reprioritiz...

多模态端侧行业动态
6月20日
21:50
OpenBMB@OpenBMB
39
@aijoey 用 MiniCPM-V 4.6 搭建视觉智能体安全监控 demo

@aijoey 用 MiniCPM-V 4.6 搭建了视觉智能体安全监控 demo:四个 CCTV 实时画面,模型观察近期帧窗口,判断活动是否正常,仅在识别到真实事件时调用 raise_alert(reason, severity)。模型持续将场景分类为“常规/无紧急”,只在高速公路出现警车蓝灯时触发警报,推理为“警车蓝灯亮起,可能表示紧急情况”。该演示展示了小 VLM 超越图像描述、实现实际智能体行为的潜力。

Joey: Built a vision-agent security monitoring demo with MiniCPM-V 4.6. @OpenBMB Four CCTV style feeds run on a live clock. Mi...

智能体多模态教程/实践
17:23
🚨 AI News | TestingCatalog@testingcatalog
55
ClickUp 将通过 Brain2 添加 artifacts 👀 > 它将能够创建幻灯片、原型、网站或仪表板。 > Brain 从工作区上下文中提取信息,因此输出基于真实项目数据 > Artifacts 在频道内内联渲染,并保持完全交互。 当要求 Brain 制作演示文稿时,它现在将在线程中直接返回一个已完成、专业、可导航的幻灯片组,随时可以分享或放入任务中。
产品更新多模态
15:01
AYi@AYi_AInotes
52
GPT-5.6 Pro 泄露:下周四发布,视觉复刻、SVG 3D、浏览器自动化三大能力曝光

GPT-5.6 Pro 预计下周四发布,泄露信息显示其三项关键能力:视觉复刻已近乎能完全复刻设计;SVG 3D 生成表现超越 Fable 5,支持浏览器内旋转缩放;Playwright 浏览器自动化可真实操作网页(点击、输入、跳转、抓取)。这三项能力表明 OpenAI 正将 GPT 从语言模型进化为能执行物理操作的 Agent——不仅能“思考”,还能打开浏览器、移动鼠标、复制设计并保存到桌面。

智能体OpenAI多模态现象/趋势
00:54
向阳乔木@vista8
16
gemini3还是不行啊,怎么把白条识别成泥鳅。。 影响我的钓鱼记录App 😂
Google多模态评测/基准
6月19日
23:24
SenseTime@SenseTime_AI
45
商汤 SenseNova U1 实现文本-图像交错生成

商汤 SenseNova U1 具备行业首创的文本-图像交错生成能力。用户上传客厅照片后,U1 可瞬间将其风格转变为温馨阅读角。该演示由 @eigi_and_ai 完成。U1 现已通过 SenseNova Studio、HuggingFace 模型库、GitHub 源码及 Discord 社区开放体验。

GitHubHugging Face其他图像生成
04:26
Fei-Fei Li@drfeifei
54
Fei-Fei Li回应@smallfly对World Labs及空间智能的分享,称使命是赋能人类创造力。@smallfly在FastCompany文章中指出空间智能/世界模型是AI下一个重大方向。他从事体积捕获(NeRFs、3D Gaussian Splats),2024年9月注意到World Labs公告,2025年8月试用Marble beta。Marble能生成持久、空间一致的3D世界并实时渲染。他创作实验"Parallel Realities":先体积捕获真实空间,再用Marble生成替代版本,最后通过World Labs的Spark渲染器让两个现实共存,实现真正空间连贯性。

Hugues Bruyère: @FastCompany just published a great piece on @theworldlabs , @drfeifei , Marble, and the idea that spatial intelligence ...

多模态大佬观点
6月18日
22:17
AYi@AYi_AInotes
36
预防医学:AI+超声波精准诊疗新方向

主推文认为预防医学是AI最适合切入的医疗领域,因为超声波能精准锁定身体组织,使影像检查与治疗之间的界限模糊。AI驱动的超声波可先对全身进行扫描,发现异常后直接用声波进行刺激、消融、调节或修复,实现诊断与治疗的一体化。引用推文介绍了Midjourney Scanner技术,进一步呼应了这一趋势。

Midjourney: A technical dive inside our new "Midjourney Scanner"

多模态现象/趋势
20:20
Orange AI@oran_ge
32
ListenHub升级AI创作者平台并推618限时福利

ListenHub全面升级为AI创作者平台,已接入Seedance 2.0、HappyHorse、GPT Image 2、Nano Banana Pro等顶级的视频和图像模型,价格优惠。即日起进行为期一周的“618+端午节”限时福利:订阅月费或年费会员额外赠送50%积分;新用户注册即赠100积分;老用户每日签到免费获得2张生图额度。活动限时7天,逾期需等到黑五。

产品更新图像生成多模态视频
15:45
Chubby♨️@kimmonismus
59
天哪,Midjourney现在构建了一种快速、实惠、可重复的全身体扫描,设计得比MRI更好更便宜,大约60秒完成,体验更像一次水疗。
产品更新多模态
15:42
OpenBMB@OpenBMB
59
面壁智能 MiniCPM-V 4.6 演示工业仪表读取,远超 OCR

面壁智能 MiniCPM-V 4.6 演示工业仪表读取,模型需同时理解指针角度、刻度范围、单位、数字显示、液位比例等视觉信号,输出结构化 JSON(pressure_bar, temp_c, flow_lpm, level_pct)。测试使用合成控制面板,评分标准为 pass(满量程5%内)、drift(10%内)、miss。数字显示和液位较易,模拟指针更困难。该方案通过摄像头+视觉模型低成本改造传统仪表,无需更换硬件,在工厂、数据中心等场景有巨大应用潜力。

Joey: been testing MiniCPM-V 4.6 locally on my DGX Spark this demo is an industrial gauge reader i generated a synthetic contr...

多模态教程/实践端侧
14:16
AYi@AYi_AInotes
54
Midjourney 成立医疗部门,推出超声波全身扫描舱

Midjourney 宣布成立 Midjourney Medical,进军医疗硬件领域,计划制造基于超声波和水耦合介质的全身扫描舱。该设备无需辐射或强磁场,配备 50 万个微型传感器阵列,60 秒内完成全身层析成像,理论速度比传统 MRI 快近 100 倍。公司还将在旧金山开设 Midjourney Spa,融合扫描、泡澡、桑拿、冷水浴,鼓励像按摩一样轻松完成定期扫描。目标全球部署 5 万台,每月 10 亿次扫描。Elon Musk 回复“Cool”。首家研究型 Spa 预计 2027 年底开业。

Midjourney: Announcing a new division of Midjourney called "Midjourney Medical"

多模态行业动态
14:15
🚨 AI News | TestingCatalog@testingcatalog
64
Catnip 发布 MaineCoon,一款 22B 参数的流式实时交互音频-视觉模型,可在屏幕上呈现活生生的 AI 角色。首帧生成不到 1 秒,推理速度达 47.5 FPS(单张 H100),比现有音视频模型快 7 倍。该模型支持无限时长交互,强调 AI 持续在场而非轮流回复,旨在将被动视频升级为实时 AI 存在感。

Catnip: 🥇MaineCoon: From Passive Video to Real-Time AI Presence The first unlimited-duration interactive audio-visual model. Mo...

多模态模型发布视频
12:50
swyx@swyx
53
swyx 的 Midjourney 医疗产品发布现场笔记

swyx 记录 Midjourney 医疗产品发布,与会者将其比作初代 iPhone 和特斯拉发布。该产品旨在将医学成像质量提升 40-100 倍,实现“扫描器官像称体重”。Midjourney 仅以每年 1000 万美元研发预算支撑这一创新,质疑其他机构的研发效率。今年 MJ 另有 7 个副项目计划发布。Nature 论文及 biohub 播客佐证更好数据驱动更好科学。swyx 认为技术+使命足够强,监管等障碍会自行解决。

Latent.Space: [AINews Jun 17] Midjourney Medical: scan your organs like you step on a scale https://www.latent.space/p/ainews-midjourn...

多模态大佬观点
09:43
Berryxia.AI@berryxia
19
卧槽~~ 这根本用不完啊! 真是便宜啊!我接到了Bloome 里面各种音影视频文本文件一股脑搞进去,这么久才花费这么点钱。。 并且日常使用做各种我需要的任务都可以帮我搞定😄
多模态大佬观点
‹ 上一页
12345…23
下一页 ›