AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 907 条
全部一手资讯X论文
标签「多模态」清除
karminski-牙医@karminski3 · 5月19日59

究极"拼好模"出现了! 字节跳动 Lance! 字节跳动刚发布了一个开源模型 Lance, 激活参数量只有 3B. 但是这个模型可以接受文本, 图片, 视频输入, 然后同时可以输出文本, 图片, 视频! 所以这一个模型就能完成像图片理解, 视频理解, 文生图, 图生图, 图片编辑, 文生视频, 图生视频, 视频编辑等任务. 而训练团队在技术报告中透露, 训练成本仅仅是 128 涨 A100 显卡 (按照大厂算力来说纯纯是把冗余算力拿来用了). 那为啥说是"拼好模"呢? 原因是团队并没有完全从0造轮子. 模型的视觉输入模块直接用了 Qwen2.5-VL-ViT (用来看图和视频), 而视觉输出模块是 Wan2.2_VAE (用来画画). 而模型本体是两个: Lance_3B (用来做图片的理解、生成或编辑任务) Lance_3B_Video (用来做视频相关的任务, 比如文生视频、图生视频) 所以, 这完全是一个研究性项目了, 而项目本身的亮点其实恰好是"拼得好". 这个模型不像之前许多自称为全能模型那样直接把大语言模型 (LLM) 和扩散模型 (Diffusion) 硬拼接在一起 (即所谓的 Pipeline 方案) . 而是在一个共享的交错序列 (Interleaved sequence) 中同时处理文本、图像和视频的上下文. 这样做最大的好处是统一了语义空间, 让模型的理解能力和性能更好. (从评测来看3B就接近了许多10B甚至20B模型的水平) 另外还引入了多任务协同. 简单来讲, 理解任务 (图片转向量) 和生成任务 (向量转图片) 在模型内部本身是互斥的. Lance 创新性地在同一个框架内加入了专用专家模块, 成功缓解了这种冲突, 让模型既能做 VQA (视觉问答) , 又能做图像/视频生成和编辑. 期待一波实际应用落地, 这个模型对于端侧和多模态 Agent 来讲意义是重大的, 有很多之前需要多个模型协作的场景都能用单个模型做了. #lance #全模态模型

译字节跳动开源了全模态模型Lance,其激活参数量仅为3B,却能同时处理文本、图片和视频的输入与输出,完成理解、生成与编辑等多种任务。该模型通过模块化拼接构建了Lance_3B与Lance_3B_Video两个版本,其创新在于采用共享交错序列统一语义空间,并引入专用专家模块协调理解与生成的互斥关系,使得小参数模型性能接近更大规模模型。训练仅需128张A100,对端侧部署和多模态Agent应用具有重要价值。

OpenAI Developers@OpenAIDevs · 5月19日38

Scientific data is often multimodal and complex. @altaratech is using OpenAI models to help scientists and engineers move through multi-step R&D workflows with more transparency.

译Altaratech公司正利用OpenAI模型解决科学数据多模态且复杂的核心挑战,旨在帮助科学家和工程师在复杂的研发流程中更高效、透明地工作。其应用关键点在于:协助科研人员跨复杂多模态数据进行推理、实现长流程研发任务的并行化处理,并通过提升过程透明度来建立信任。该公司在OpenAI开发者日上分享了这些实践,并表示正积极招募相关人才。

karminski-牙医@karminski3 · 5月19日54

Qwen3.7! 就在今天! ArenAI (就是之前的 LMArena), 刚刚发布了 Qwen3.7-Max-Preview 在 ArenAI 的内测跑分. 整体排名在第13, 处于目前版本国模SOTA. 本次提升最高的是数学能力, 达到了总榜第7, 编程水平在第10. 另外视觉能力测试也来到了第16. 我直接试了一下 ArenaAI 上面的 Qwen3.7-Max-Preview, 题目是一个使用 three.js 画一个软盘蓝图的场景, 主要考察大模型的前端+空间理解+建模能力. 直接看我两张 Qwen3.6-Plus 和 Qwen3.7-Max-Preview 的生成对比 (注意这个图上的元素完全是代码绘制的, 不是大模型生成的图片). 能看到Qwen3.7 在空间理解和指令遵循上有了很大的提升, 能保持所有元素都在同一轴向上(能完成这一点是巨大的进步, 目前 DeepSeek-V4-Pro 还有这方面的问题). 并且摆放顺序和每个标签的标记也是准确的, 以及背景的网点效果也还原了(这就是指令遵循的提升体现). 当然不足的地方也有很多, 比如这个软盘的一些不规则图形的细节刻画还是差了一些. 但是是瑕不掩瑜的. 稍后正式发布后给大家带来 Qwen3.7-Max 的详细评测! (另外值得注意的是 ArenaAI 给 meta 的新模型 Muse Spark 给到了第5的超高位置. 而目前社区中这个模型一点水花都没有. 我也没API能测这个模型. 所以 ArenaAI 的评分还是仅供参考.) #阿里千问 #qwen37 #qwen37max

译Qwen3.7-Max-Preview在ArenaAI内测中排名第13,为当前版本国产模型最佳。其数学能力(第7)与编程能力(第10)提升显著。实测显示,在前端代码生成任务中,Qwen3.7在空间理解和指令遵循上较前代(Qwen3.6)有巨大进步,能更准确地维持元素轴向与标记。文章同时指出,ArenaAI评分仅供参考,其为Meta新模型Muse Spark给出的高排名(第5)与社区现状不符。

Claude@claudeai · 5月19日75

You can now create more with Claude Design. We've doubled token limits across every plan.

译现在你可以用 Claude Design 创作更多内容了。 我们已将所有套餐的 token 限制翻倍。

OpenRouter@OpenRouter · 5月19日65

3 new models from @xai's Grok creative stack are live on OpenRouter: • Grok Imagine Image Quality: photoreal image generation and editing • Grok Imagine Video: short clips from text, image, or reference • Grok Voice TTS 1.0: 5 voices across 20+ languages More on each below 🧵

译@xai 的 Grok 创意套件中 3 款新模型现已在 OpenRouter 上线: • Grok Imagine Image Quality:照片级真实图像生成与编辑 • Grok Imagine Video:从文本、图像或参考生成短片 • Grok Voice TTS 1.0:支持 20 多种语言的 5 种语音 更多详情见下方 🧵

karminski-牙医@karminski3 · 5月19日53

Qwen3.7! 就在今天! ArenAI (就是之前的 LMArena), 刚刚发布了 Qwen3.7-Max-Preview 在 ArenAI 的内测跑分. 整体排名在第13, 处于目前版本国模SOTA. 本次提升最高的是数学能力, 达到了总榜第7, 编程水平在第10. 另外视觉能力测试也来到了第16. 我直接试了一下 ArenaAI 上面的 Qwen3.7-Max-Preview, 题目是一个使用 three.js 画一个软盘蓝图的场景, 主要考察大模型的前端+空间理解+建模能力. 直接看我两张 Qwen3.6-Plus 和 Qwen3.7-Max-Preview 的生成对比 (注意这个图上的元素完全是代码绘制的, 不是大模型生成的图片). 能看到Qwen3.7 在空间理解和指令遵循上有了很大的提升, 能保持所有元素都在同一轴向上(能完成这一点是巨大的进步, 目前 DeepSeek-V4-Pro 还有这方面的问题). 并且摆放顺序和每个标签的标记也是准确的, 以及背景的网点效果也还原了(这就是指令遵循的提升体现). 当然不足的地方也有很多, 比如这个软盘的一些不规则图形的细节刻画还是差了一些. 但是是瑕不掩瑜的. 稍后正式发布后给大家带来 Qwen3.7-Max 的详细评测! (另外值得注意的是 ArenaAI 给 meta 的新模型 Muse Spark 给到了第5的超高位置. 而目前社区中这个模型一点水花都没有. 我也没API能测这个模型. 所以 ArenaAI 的评分还是仅供参考.) #阿里千问 #qwen37 #qwen37max

译阿里千问今日推出Qwen3.7-Max-Preview,在ArenAI(原LMArena)内测中排名第13,为国内模型最高水平。模型数学能力显著提升,位列总榜第7;编程能力排名第10;视觉能力测试升至第16。作者实测显示,在前端代码生成场景中,Qwen3.7的空间理解与指令遵循能力进步明显,元素轴向一致性优于DeepSeek-V4-Pro等模型。此外,ArenaAI给Meta新模型Muse Spark的异常高评分引发关注,但该评分仅供参考。

Berryxia.AI@berryxia · 5月19日63

兄弟们,这次不是第一名的榜单哦! 阿里最新的Qwen 3.7 也来了… Arena最新排行榜直接把Qwen3.7的实力摆上来了。 Alibaba_Qwen的Qwen3.7 Max Preview在Text Arena总榜排到第13位,实验室总排名冲到第6。 细分赛道更狠: 数学第7 专家领域第9 软件与IT第9 编程第10 Vision Arena里,Qwen3.7 Plus Preview也杀到总榜第16,实验室排名直接第5。 这不是实验室闭门数据,而是Arena上百万真实用户投票跑出来的社区榜单。 Alibaba这次用Qwen3.7 Preview把文本和视觉能力同时往前推了一大步。 以前大家还在讨论谁是第一梯队,现在Alibaba已经用实际排名把自己的位置又往上提了一截。 完整榜单在这里:https://arena.ai/leaderboard

译阿里巴巴最新发布的Qwen3.7预览版在Arena社区排行榜上表现突出。在基于百万真实用户投票的Text Arena中,Qwen3.7 Max Preview总榜排名第13,使阿里巴巴位列实验室第6名,并在数学、专家咨询、软件与IT、编程等细分领域进入前十。同时,在Vision Arena中,Qwen3.7 Plus Preview总榜排名第16,助力阿里巴巴升至实验室第5名。此次排名并非实验室内部测试,而是社区实际交互的体现,标志着阿里在模型的文本与视觉综合能力上实现了重要进步。

Qwen@Alibaba_Qwen · 5月19日57

🚀🚀Qwen3.7 Preview lands on Arena ! Here come Qwen3.7-Max-Preview & Qwen3.7-Plus-Preview. Alibaba now #6 lab in Text, #5 in Vision.⚡️⚡️ Can't wait to release Qwen3.7 series models!Stay tuned! @arena

译阿里巴巴通义千问Qwen3.7-Max-Preview与Qwen3.7-Plus-Preview模型现已登陆AI评测平台Arena,分别参与文本与视觉评测。这一进展大幅提升了阿里巴巴在两大领域的实验室排名:在文本榜单跃升至全球第6位,在视觉榜单升至第5位。具体而言,Qwen3.7 Max Preview在文本总榜位列第13,并在数学、编程等多个子榜单中表现突出;Qwen3.7 Plus Preview在视觉总榜排名第16。官方对取得的进步表示祝贺,并透露Qwen3.7系列模型的正式版本即将发布。

Qwen@Alibaba_Qwen · 5月19日47

🚀🚀

译🚀🚀 [引用 @arena]:在视觉竞技场中,Qwen3.7 Plus Preview使@Alibaba_Qwen成为第5大实验室,总排名第16位。

elvis@omarsar0 · 5月18日62

Every time I ask my 10-year-old to use coding agents, he gets extremely disappointed. It turns out that all he wants is to build his own rocket simulator. No amount of context engineering helps. No model works. All coding agents fail. That's just one example. He has many use cases where the coding agent really suck. Learning apps and other types of science-centered simulators. It's not like he is trying to be adversarial or break the system. I use the coding agents so extensively in my codebases that I just assumed that he would get similar results. It's not the case. And I think this is happening across all kinds of domains. I know he is not the target user. I get all that. But if all these claims about superintelligent AI on the horizon (12-18 months) are right, then coding agents shouldn't struggle so much to build any of the things he wants. The reality is that coding agents can help maintain and build complex things that aim to extend what exists in abundance in the training data. No surprises there. There is plenty of AI research to explain the OOD issues with LLMs. I think there is a massive opportunity here. Potentially a more generalized harness (something I have been working on). It doesn't have to work super well now, but it tests on edge use cases as newer models and capabilities emerge. IMO, all of this is a good indicator that LLMs are nowhere close to AGI or whatever they call it these days. Every day that passes, I am more convinced that we need to quickly move beyond LLMs and into things like native multi-modal systems and world models.

译一个10岁孩子想创建火箭模拟器等科学应用,却屡屡被主流AI编码工具所挫败。这揭示了当前以LLM为核心的技术短板:它们擅长在丰富训练数据框架内维护和构建现有模式,但难以灵活应对需要全新综合创造能力的边缘与生成性任务。这暴露了LLM距离实现通用人工智能(AGI)的局限,指明了未来需向更具泛化能力的原生多模态系统与世界模型等方向突破。

🚨 AI News | TestingCatalog@testingcatalog · 5月18日61

GOOGLE 🔥: Gemini desktop app will get Gemini Live, Gemini Spark, Gemini Omni, and a new "Stream to Cursor" feature. What we know so far 👀 - "Stream to Cursor" feature will allow Gemini to have something similar to "Magic Pointer" announced last week during Android Show. - Gemini Spark Agent will be able to operate local files from attached folders. - Gimini Omni is referred to as "Veo4 Omni" internally. - Skills will be supported too. - Gemini Live feature is WIP and not functional yet. A short demo from testers ⚡

译谷歌Gemini桌面应用即将迎来重大功能更新。新增的“Stream to Cursor”功能类似上周Android Show上展示的“Magic Pointer”。Gemini Spark智能代理将能直接操作本地文件夹中的文件。此外,应用将引入被内部称为“Veo4 Omni”的新模型,并支持Skills技能体系。不过,Gemini Live实时功能目前仍在开发中,尚未可用。

Elon Musk@elonmusk · 5月18日75

Grok groks videos

译Grok可以处理视频了 [引用 @XFreeze]:你现在可以将整个视频上传给Grok,让它实时为你分析、总结、翻译、解释场景或提取重要上下文。 Grok能够理解完整的视频——而不仅仅是图像和文本。 它具备原生多模态能力和极其强大的视觉理解能力。

Kling AI@Kling_ai · 5月18日51

World Cup countdown is on ⚽ Put on your team jersey and try the new effect on Kling AI, all in one click!

译世界杯倒计时开始⚽ 穿上你的球队球衣,一键尝试Kling AI的新特效!

Elon Musk@elonmusk · 5月18日74

Grok Imagine

译Grok Imagine 现已向所有 X Premium+ 订阅者开放 这是我们的图像生成模型,由 xAI 开发

Alibaba Cloud@alibaba_cloud · 5月18日74

Cinematic AI is here. 🐎💨 HappyHorse is now on Model Studio. From raw prompt to 1080p multi-shot reality—experience the future of video generation in one unified workflow. No friction. Just pure performance. 🔥 LIMITED TIME: 20% OFF. Watch the demos and start building today. Access now: https://int.alibabacloud.com/m/1000412936/

译电影级AI现已到来。🐎💨 HappyHorse现已登陆Model Studio。从原始提示词到1080p多镜头现实感画面——在统一工作流中体验视频生成的未来。没有阻碍。只有纯粹性能。 🔥 限时优惠:8折。观看演示并立即开始创作。 立即访问:https://int.alibabacloud.com/m/1000412936/

Berryxia.AI@berryxia · 5月18日42

这个老哥直接硬核手搓GTA-6 ,还可以玩的那种😄 体验地址:http://gta6-single-prompt.vercel.app

Chubby♨️@kimmonismus · 5月18日46

I often find the term "AI slop" rather unhelpful. Let me explain what I mean. I regularly read about numerous people complaining about things without actually critiquing the content itself. For instance, people get outraged over the fact - or what they perceive as the fact - that children's books have been written with the help of "AI." And this fact alone, they argue, is sufficient grounds for outrage. This raises a question for me: why, exactly? Why should that be a bad thing? If the *content* is good, surely there is no reason to take offense. To me, "slop" would imply that the substantive quality is so poor that it clearly offers no significant value for instance, in terms of reading enjoyment. It does *not*, however, simply mean the mere fact that a machine generated the text. Conversely: I still remember when many people were shocked that GPT-4, back in the day, could mimic Shakespeare's tone in essays. Intelligence suddenly felt tangible. However, these models have become increasingly smarter, and I currently have no doubt that well-prompted articles or books can be at least just as good as those produced by human authors or scholars. Substantive criticism - criticism of the content itself - should be the standard. The same applies to AI videos or images. OpenAI's image model 2 set new benchmarks, just as "Nano Banana" did a few months ago. The images can appear so realistic that they are difficult to distinguish from actual photographs. I can understand the criticism when AI-generated images are used for advertising posters - images that were obviously created using a model that is months, if not years, old (DALL-E 3, I'm looking at you). By now, however, the outputs are so good that substantive criticism strikes me as hard to justify - even though the accusation of "slop" is still leveled almost reflexively. I don't want to be misunderstood: this does not, in turn, mean that everything labeled "AI-generated" is automatically good or valuable. It can be good, but it can also be bad - and much depends on the prompts, the research, or the fact-checking. However, neither AI music (Suno), AI images (OpenAI Image 2), AI videos (Seedance 2.0), nor AI books—such as children's books written using Claude—are inherently bad simply because they are AI-generated. On the contrary: Criticism must be substantive. In this respect, the outrage often expressed is frequently nothing more than pure resentment. Criticism is always welcome - but it must be well-founded. And in that regard, I believe that we, as a society, still have a good deal of work to do. oh and btw. This was 100% written by hand. But that fact doesn't make the text better per se. It depends on its content.

译作者认为“AI slop”一词无益,人们常因内容由AI生成而愤怒,却未批评内容本身。AI模型如GPT-4、Claude已能生成高质量文本,OpenAI Image 2的图像也逼真难辨。批评应基于实质内容,而非来源;AI生成内容可好可坏,取决于提示、研究等因素。社会需要更多有根据的批评,而非纯粹怨恨。

Rohan Paul@rohanpaul_ai · 5月18日63

Just a few days back, Thinking Machines Lab (TML), showcased a way of making AI interaction continuous instead of turn-based, a Full-Duplex Time-aligned micro-turn. It's a preview of the future of a near-realtime AI voice and video conversation with new 'interaction models' And MiniCPM-o 4.5 already shipped the same core idea through OpenBMB’s Omni-Flow framework: time-aligned perception and response instead of old turn-based chat. A 9B Full-Duplex omnimodal model that can see, hear, and speak at the same time. Omni-Flow also treats interaction as a continuous stream on a shared temporal axis, aligning visual input, audio input, and output speech/text into time chunks so the model can perceive while responding. That breaks the old walkie-talkie UX of AI: user talks, model waits, model replies. And this is not just a demo concept. It is a 9B open model with code, weights, a report, and edge deployment under 12GB RAM. It also surpasses Qwen3-Omni-30B-A3B in omni-modal capabilities and speech generation quality. This feels like the interaction layer AI was missing. OpenBMB already shipped this as a real Full-Duplex omni-modal architecture, with video tokens, audio tokens, LLM hidden states, speech tokens, and waveform generation all synced to one shared timeline.

译Thinking Machines Lab与OpenBMB团队正推动AI交互从传统的“对讲机”式轮转模式,向全双工、时间对齐的微轮转模式演进。其核心是通过Omni-Flow等框架,将视觉、听觉输入与语音、文本输出对齐到统一时间轴,实现感知与响应的同步。作为实践,开源的90亿参数多模态模型MiniCPM-o 4.5已能同时看、听、说,并在多模态能力和语音生成质量上超越了更大规模的模型。这标志着AI交互层的重要突破,使实时、自然的类人对话成为可能,且已具备代码、权重及边缘部署方案。

AYi@AYi_AInotes · 5月17日69

Damn,有点炸裂啊,一颗葡萄用了6660张宏观照片训练3DGS, 模型只有43万个高斯点, 压缩完不到50MB, 但你可以在手机上看它360度旋转, 连果肉里透出来的光都还原了, 更炸的是老哥回复里那句话,有人问底部怎么拍到的,他甩了张gif说“Like this”, 但玩笑归玩笑,真正重要的信息其实都藏在技术参数里: 90个焦点堆栈,每个74张, 全角度覆盖,底部也拍进去了, 半透明物体是3DGS最难搞的测试对象,他偏偏选了最难的那个, 逻辑也很简单:最难的通了,比它简单的任何东西就已经在射程之内了, 我理解这颗葡萄的本质不是炫技,而是一份写在技术参数里的产品化路线图, 下一个被数字化的可能不是葡萄,可以是任何你舍不得让它烂掉的东西 逻辑很简单,如果连葡萄这种最难的都跑通了,比它简单的任何东西,手办、珠宝、人脸、文物,都已经在射程之内, 以前做这种级别的3D数字资产,需要专业扫描仪加建模师加后期手动修,成本和时间劝退绝大多数人, 现在这套流程是,宏观镜头加照片堆,进3DGS自动训练,出来就是20到50MB的可分发模型, 门槛从专业团队降到了一个人加一台相机,这是我觉得真正炸的地方, Dany自己还在开发miqula工具,明显在把这套流程进一步封装成产品, 他用一颗葡萄,相当于给整个行业画了一张产品化路线图。 https://x.com/DanyBittel/status/2055623109890253163/video/1

译开发者Dany Bittel通过6660张葡萄宏观照片,利用3D Gaussian Splatting技术训练出仅50MB的高保真3D模型,在手机上即可流畅查看半透明细节。该实验攻克了最难的半透明物体建模,证明技术可轻松应用于手办、珠宝等物品,将3D数字资产创建门槛从专业团队大幅降低至个人。其开发的miqula工具正推动该流程产品化。同时,这也反映了AI工具的普遍悖论:制作demo的门槛急剧降低,但实现稳定生产级应用仍需克服工程化挑战。

AYi@AYi_AInotes · 5月16日64

说个最近最打动我的AI产品故事, 一个中国爸爸为女儿做了个单词App😭 2022年夏天,Ace Lee每天接女儿放学回家,女儿总会指着路边的东西问英文名字。 有一次她指着一个路牌问,他答不上来,打开翻译App,一个冰冷的机械音蹦了出来。 女儿只是轻轻说了一句噢。 那一刻他意识到,传统翻译App缺少了最重要的东西,就是温度。 于是他做了CapWords。 用相机对准任何东西,AI会自动识别物体,去掉背景,生成一个可爱的互动单词贴纸。 支持中文英文日文韩文等9种语言,还有真人发音和智能复习系统。 这个北京3人小团队的作品,直接拿下了2025年Apple设计奖, 是当年乐趣横生类别唯一的获奖App。 它最厉害的三个地方: 1. 识别准确率极高,几乎所有日常物体都能识别 2. 每个贴纸都有丝滑的动画和对应的真实音效 3. 完全没有广告,也没有内购订阅 我所以我觉得一款好的 AI产品一定不是为了融资做的, 核心是为了解决一个自己真正在乎的问题。 #AI工具 #语言学习 #Apple设计奖

译中国父亲Ace Lee因女儿使用传统翻译App时感到冰冷,决心开发有温度的AI应用CapWords。该应用能用相机识别物体,生成可爱的互动单词贴纸,支持9种语言及真人发音,凭借高识别率、流畅动画和无广告的纯粹体验,荣获2025年Apple设计奖。这体现了优秀AI产品应源于解决真实关切的问题。

Orange AI@oran_ge · 5月16日62

😂 绝了,上海电信直接把 Token 做成话费套餐了。 1块钱25万token,账单里直接就能扣。 手机厂商还在想怎么做 AI 入口,运营商先自己下场了。 甚至还说... "Token服务是中国电信今后的经营主线。" 具体方案: 1元 = 25万额度点 支持 30+ 主流大模型调用(文本、多模态) 话费账单直接付 上海电信用户免费领2500万额度点体验

译上海电信创新推出AI大模型Token话费套餐服务,用户支付1元即可获得25万Token额度,用于调用GPT、Claude等30多种主流模型。费用直接从话费账单扣除,上海电信用户可免费领取2500万额度点体验。该公司将“Token服务”定位为未来经营主线,标志着运营商直接下场提供AI基础设施服务,开辟了新的商业模式。

Rohan Paul@rohanpaul_ai · 5月16日46

This is Melody, humanoid for AI companionship. Tuned specifically for social & emotional exchanges. Maintains eye contact, recalls context & handles dialogue. uses facial actuators + skin material to make these expressions feel responsive & human-like. https://x.com/XNews24_7/status/1951822670561202542/video/1

译这是Melody,专为AI陪伴设计的人形机器人。 专门针对社交与情感交流进行调校。能保持眼神接触、回忆上下文并处理对话。 通过面部驱动器与皮肤材料,使表情反馈灵敏且类人。 https://x.com/XNews24_7/status/1951822670561202542/video/1

AYi@AYi_AInotes · 5月16日76

xAI这步棋太聪明了, Grok现在可以直接用在Hermes Agent里了, 从今天起,你不用额外花一分钱, 就能把你已经买了的任意等级Grok订阅, 无缝接入Hermes Agent里用, 没有复杂的API配置,不用手动填token, 一键OAuth登录就能用, 因为xAI没有自己从零开始造代理生态, 所以它只能把Grok变成了一个即插即用的超级大脑,然后插进已经成熟的开源Agent身体里, 相当于借力打力,把开发成本压到可以忽略,传播速度却可以快到飞起。 Hermes本身就是目前最好的开源个人Agent之一, 它能在你的电脑或者服务器上24小时一直跑, 有长期记忆,能跨会话学习你, 还能直接连WhatsApp Discord Telegram, 现在装上Grok的推理,生图,生视频和语音能力, 直接从能用变成好用, 对用户来说,就是已经付过的订阅费,突然又多了一个完全可控的本地AI代理,还挺香的, xAI说更多开源代理和集成即将到来, Grok正在从一个只能在X里用的聊天工具,慢慢变成整个AI生态的通用大脑,可以期待一下! #xAI #Grok #AI代理

译xAI宣布,Grok订阅用户现可一键通过OAuth登录,将服务直接集成到开源个人代理Hermes Agent中使用,无需额外付费或复杂配置。xAI并未自建代理生态,而是将Grok作为“即插即用”大脑嵌入成熟的Hermes Agent中,此举大幅降低了开发与推广成本。集成后,Hermes Agent在原有长期记忆、多平台连接等功能基础上,增强了Grok的推理、生图、生视频与语音能力,用户体验显著提升。这意味着用户仅凭现有订阅,即可获得一个完全可控的本地AI代理。xAI表示更多开源代理集成即将到来,Grok正从X平台聊天工具转型为更广泛的AI生态通用大脑。

ginobefun@hongming731 · 5月16日62

http://x.com/i/article/2055437368048721920 # BestBlogs 早报 · 2026-05-16 · AI 工程方法 / Abridge 医疗智能层 / Imagen 2.0 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-05-16 BestBlogs Pro 早鸟内测开放:你可以自定义订阅源、配置兴趣标签,每天获得一份属于自己的头条早报。欢迎抢先体验,并把反馈发回给我们:https://bestblogs.dev > AI 当编程助理已经不算新鲜,更值得看的是把它当成思考伙伴的方式。Google 的 Julie Qiu 谈如何在九语言客户端库里和 AI 一起读懂、试验、再设计;Abridge 用八千万次问诊把环境抄写做成医疗智能层;OpenAI 在 Podcast 第 19 期复盘 Imagen 2.0 的字渲染、多语言与 Creative Agents 路线。三篇都不爆炸,但都耐看。 ## 导语 今天 BestBlogs 早报的核心是三件"慢功夫"。一是 Google 资深 Staff 工程师 Julie Qiu 分享,她带着 gcloud CLI 团队维护九种语言的客户端库,怎样把 AI 当成思考伙伴而非纯粹的代码生成器,把"该不该这样改"的犹豫时间从几天压缩到几小时。二是 Abridge 这家从 2018 年就开始做医患对话的公司,今年要承接 8000 万次问诊,把环境抄写一步步扩展到临床智能层,给每位医生每周省下 10 到 20 小时。三是 OpenAI Podcast 第 19 期,产品负责人 Adele Lee 和研究员 Kenji 复盘 Imagen 2.0 上线之后用量增长 50%、每周生成 15 亿张图的反馈,以及围绕字渲染、多语言、Creative Agents 与 Codex 联动的路线图。 围绕这三个深度选题,速览部分有七条更具体的进展:Kimi WebBridge 让本地 AI Agent 真正以"你"的身份操作浏览器;DeepSeek-V4 MegaMoE 拆开看通信计算重叠如何把 MoE 性能提到 1.9 倍;Latent Space 的 AINews 观察到代码协作工具集体向 Conductor 形态收敛;宝玉用一篇长文把 Forward Deployed Engineer 这个新岗位讲清楚;腾讯混元把 33 种语言的翻译模型压到 440MB 装进手机;腾讯科技拆解 Cerebras 这次 IPO 招股书里的"小字";以及 Anthropic 与普华永道扩张合作,把 Claude 推到普华永道全球的咨询交付里。 扩展阅读再补五条:Iterate 的 Jonas Templestein 讲 Event-Sourced Agent Harness,Hugging Face 的 Merve Noyan 系统盘点开放智能体生态,阮一峰周刊聊 LoRa 与 Meshtastic 的"离网通信"思路,Qoder 1.0 把 AI IDE 升级为 Agent 自主开发工作台,前端早读课把 Karpathy 的 4 条 CLAUDE.md 规则补到 12 条。话题不算少,但都围绕同一个主题:当 AI 已经能完成一段一段的具体工作,真正的差距开始出现在"系统怎么搭、流程怎么设计、能不能持续跑下去"。 ## 精讲一:将 AI 用作大规模工程系统的思考伙伴 Julie Qiu 是 Google 的高级 Staff 工程师,现在带 Google Cloud CLI 与 SDK,过去几年还领导过 Go 语言团队和 Go 安全团队。她在 InfoQ 这场分享里要回答的,不是"AI 能帮我写多快的代码",而是更朴素的一个问题:当你负责一套真正复杂的系统,AI 应该如何嵌进你日常的工程节奏。这篇文章的 BestBlogs 链接是 https://www.bestblogs.dev/article/589d5efc。 她带的团队要做的事,本身就是一个"系统工程"的极端样本。Google Cloud 的服务团队定义 API,他们的团队拿着这些规格,给九种语言(Go、Python、Java、Node.js 等等)生成客户端库,再各自加上认证、错误处理、产品语义、语言习惯,最后发布到 PyPI、npm、Maven 这些包管理器里。每加一个新功能,都意味着九套代码同时要改、要测、要发布。任何"看着挺简单"的决策,在这套结构里都会被放大。 Julie 把她用 AI 的方式拆成三步:先读懂系统,再做实验,最后重新设计。读懂系统这一步,她举的例子是面对一段几千行的生成器代码,AI 不是直接帮她写一段新代码,而是像一个耐心的同事,把代码逻辑画成示意图,指出哪几个分支可能在新需求下会出错,让她快速对齐"现在到底是怎么跑的"。做实验这一步,AI 帮她做的是"如果我把这个抽象层换掉,会牵动哪些地方"的快速 what-if 模拟——不是生成最终代码,而是让她在 30 分钟里同时探多个分叉,再决定哪条路值得真的写代码去试。重新设计这一步则更靠后,等她已经对方案足够确信,AI 才进入"补全、写测试、清理边界情况"的角色。 文中最让人共鸣的一句话是:"最有用的不是让 AI 写代码,而是把每次'我应该这样改吗'的犹豫时间,从几天压到几小时。"对应到今天速览里的 Forward Deployed Engineer 和 Qoder 1.0,你会看到同一个趋势在不同位置展开:FDE 把这种"AI 加速决策"的能力直接卖给企业,Qoder 1.0 则在 IDE 里把任务窗口和编辑窗口拆开,让"想清楚"和"动手做"在工具里就有不同的状态。 对工程师读者的建议很具体:先选一个你已经反复进入的复杂系统(不是 toy 项目),用一两周时间记录自己每天在哪几个判断上花了最多时间,然后挑其中两三个让 AI 充当"对手盘"——它给一个版本,你给一个版本,再让它来 review。Julie 的经验是,真正把 AI 用成思考伙伴,关键不是 prompt 怎么写得花哨,而是你愿不愿意把决策过程显式化、写出来、被质疑。这件事对资深工程师来说尤其值得练。 她还分享了一个看似细节、但其实非常关键的工作习惯:把每次和 AI 的关键对话存档成"案例库"。不是为了下次复制粘贴,而是为了过一段时间后翻回去看,自己当时为什么会选 A 而不是 B、AI 又是从哪个角度提醒了你忽略的事情。她说这套档案在过去半年里成了她"系统理解力"加速最快的来源,因为它把日常工程里那些零散的判断,沉淀成了可以反复学习的训练集。这跟传统的工程文档不是一回事——传统文档说的是"系统是什么样",这份档案说的是"你是怎么变成现在这样思考的"。 ## 精讲二:AI 原生医疗:Abridge 一年 8000 万次就诊、为医生每周省 10-20 小时 Abridge 这家公司常常被叫做"AI 原生医疗"的代表,但很多人没注意到的是:他们 2018 年就成立了,比 ChatGPT 早整整四年。Latent Space 这期播客请来 Abridge 的 Janie Lee 和 Chai Asawa,以及 Redpoint 的 Jacob Effron,把这家公司从环境抄写起家、一路扩到临床智能层的过程讲了一遍,原文链接是 https://www.bestblogs.dev/article/e618e0e5。 先看几个硬指标。Abridge 今年预计承接 8000 万次以上的医患对话,覆盖美国 250 家大型医院体系,支持 28 种以上语言、50 多个临床专科。2025 年 6 月完成 3 亿美元 E 轮融资,估值 53 亿美元,半年前刚刚做过一轮 2.5 亿美元。这些数字落到产品上意味着,Abridge 不是"试点几家、Demo 几台"的小工具,而是已经渗透到美国医生日常工作流里的基础设施。 他们最早的楔子是 clinical documentation,也就是把医生与病人之间的对话自动转成结构化的就诊记录。这事看起来不性感,但它解决的是医生最痛的"pajama time"——下班后还要在家把白天的看诊记录敲进 EHR 系统。Abridge 自己披露,环境抄写已经能让每位医生每周节省 10 到 20 小时,并且这种节省不是来自"少写几个字",而是来自不用再事后回忆、不用反复在病人和电脑之间切换。一旦这一步被打牢,他们就有底气往下一层走。 下一层是 Chai 在播客里反复提到的 "healthcare-coded Glean":把 EHR 当作医疗 Agent 的文件系统,把医生与病人的对话、医院的政策、保险公司的报销规则、医学文献、本院的临床路径放在同一个上下文里,让 AI 在合适的时机弹出合适的建议。一个具体例子是预授权(prior authorization):在过去,一个 MRI 申请被保险公司拒掉,可能要等几周才能走完上诉流程;现在 Abridge 可以在病人还在诊室里的时候,就提醒医生哪一句话需要补在记录里、哪一个替代检查更可能被批准,把"几周"压成"几分钟"。 播客里另一个值得记住的比喻是"Abridge 想做医疗里的空调":永远在背景里运行,只在真正需要打断时才发声。这背后是 evals 和安全机制做了很重的活。文中提到他们专门组建了 clinician-scientist 团队,针对不同专科建立独立的评估集,从 100M 以上的真实医疗对话里筛出边界场景;对 PHI(受保护健康信息)他们做了大量 de-identification 工作,让数据可以被研究但不会泄露身份。 这条选题和精讲一、精讲三之间是一条线:当 AI 从"写一段代码"扩展到"嵌入到一个高风险高合规的工作流里",胜负关键已经不在模型本身,而在领域知识、流程改造、评估体系。精讲一讲的是个人工程师在一个复杂系统里怎么和 AI 搭班,Abridge 讲的是一家公司把这种搭班做到 250 家医院的规模,再往后看精讲三的 Creative Agents,则是 OpenAI 在尝试把同一种"长期协作"的关系延伸到普通用户的视觉创作。建议读者把这三篇放在一起读,能对"AI 原生"这个词有更扎实的画面感。 Abridge 的组织设计也值得多看一眼。他们没有简单按"算法 / 产品 / 销售"去切团队,而是组建了所谓的 clinician-scientist 团队:一半是有真实临床背景的医生,一半是 ML 研究员,他们坐在一起做评估集、改 prompt、看错误案例。Janie Lee 在播客里把这种结构叫做"让医生和模型在同一张白板前讨论问题"。它带来的副产品是销售环节的可信度——他们去和一家新医院谈合作时,对面的 CMIO 提出来的临床场景,桌上往往就坐着真做过这一行的人,对话能直接落到 evals 该怎么改、新的科室该怎么验证。这种细节看起来不起眼,却是同样数据条件下,他们能跑得比纯软件团队更快的隐性原因。 ## 精讲三:OpenAI Imagen 2.0 深度解析:文字渲染、多语言支持与创意 Agent 路线图 OpenAI Podcast 第 19 期由主持人 Andrew Maine 主持,请到了 Imagen 产品负责人 Adele Lee 和研究员 Kenji。他们这次想聊清楚的,是 Imagen 2.0 上线之后到底有哪些变化,以及为什么 OpenAI 内部把这次升级形容成"文艺复兴"。对应的 BestBlogs 链接是 https://www.bestblogs.dev/video/0da3123。 先看用量。Imagen 2.0 上线之后,整体使用量增长了 50%,每周生成约 15 亿张图。亚洲地区出现了大量"AI 色彩分析"类玩法,美国则反其道而行之,故意让模型生成"看起来像 MS Paint 画出来"的怪味插画,这说明用户已经过了"看看新奇"的阶段,开始在意作品里有没有真实的个性。这种使用量级别决定了 OpenAI 在做下一代决策时不能只想"模型多酷",更要想"在 15 亿张图的吞吐下,哪些场景值得倾斜资源"。 Imagen 2.0 的三个具体进步说得很清楚。第一是字渲染:以前的模型在做带英文标语的海报时经常拼错,现在能在信息图、UI 截图、产品页面上稳定写出准确的文字,这意味着模型第一次真正进入"做平面物料"的工作流。第二是多语言:模型直接学到了不同语言的视觉语境,比如中文标题的版式审美、阿拉伯语从右到左的排版习惯,不再需要先翻译再画。第三是写实感,把模型补足了一些物理世界的常识,比如材质反光、人物比例、相机焦段,让作品更像照片,少了那种磁化封面的"理想化质感"。 研究员 Kenji 在节目里重点演示了"网格测试"。早期模型让它画一个 3×3 的水果网格已经会乱掉,Imagen 2.0 能稳定地处理一个包含 100 个对象的网格——做生物图谱、解剖图、产品规格表都能用。这听上去像个 demo 数字,但实际上意味着模型已经能管理一种"组合性 prompt":你告诉它每一格画什么,它能逐格执行同时保持整体一致性。教育、企业内部幻灯片这种场景一下就被解锁。 路线图部分相对克制,主要两条线。第一条是 Creative Agents:把 Imagen 包装成像个人设计师、室内设计师、婚礼策划师那样的助手,慢慢学用户的偏好和过去的项目,再在长线项目上一起迭代。第二条是 Imagen 和 Codex 的串联:用户描述一个产品的视觉概念,Imagen 给视觉草稿,Codex 同时生成对应的网页或应用代码,让"设计"和"实现"在同一个回合里完成。Adele 给的具象例子是做一个 10 页面的漫画书或一个 360 度全景世界,需要的不是"画一张好图",而是"在 60 张以上的输出里保持角色一致"。 如果今天的早报你只能挑三件事记住,建议是:精讲一让你重新审视自己日常工作流里 AI 该扮演什么角色,精讲二让你看到一个 AI 原生公司怎样把 8 年时间用在最难也最有杠杆的工作流上,精讲三让你看到当生成式模型走向 Creative Agents 之后,"和模型一起工作"会以什么形态进入大众产品。 ## 速览 更具体的进展放在下面这一段。每一条都对应一篇值得花十几分钟读完的文章,不再展开论证。 Kimi WebBridge:让 AI 帮你操作浏览器——月之暗面 Kimi 推出 WebBridge 浏览器插件,让 Kimi Code、Claude Code、Cursor、Codex、Hermes Agent、OpenClaw 等本地 AI Agent 可以接管 Chrome / Edge,以登录用户的身份完成点击、滑动、表单填写、跨站信息整合等工作。两个例子很有代入感:自动抓取多家笔记 App 在应用商店的素材并写入在线文档;接管量化研究平台跑回测并自动产出研究报告。安装也很轻:商店搜插件、跑一行 curl 安装本地守护程序、重启 Agent,输入"使用 kimi-webbridge 帮我打开 kimi.com"测试通过即可上手。完整介绍在 https://www.bestblogs.dev/article/31884d93。 DeepSeek-V4 MegaMoE 拆解:通信计算重叠把性能提到 1.9 倍——zartbot 这篇接着上一篇模型结构分析,把 DeepSeek-V4 技术报告里的基础设施部分拆开看。MegaMoE 的关键在"细粒度专家并行":通过精细的 Block 调度、Pool 容量管理、Expert Wave 粒度切分,把 MoE 层里通信密集的 Dispatch / Combine 阶段藏到计算密集的两次线性层下面,跑出 1.5 到 1.9 倍的性能提升。文章详细列出了 Dispatch Warp、TMA Producer A/B、MMA Warp、Epilogue Warp 各自的代码段,以及 NVLink Barrier、Pull token、TMEM 双缓冲、SwiGLU 激活、FP8 量化等细节,是研究 MoE 推理优化的硬核参考。原文见 https://www.bestblogs.dev/article/76f659e2。 [AINews] 万物皆向 Conductor 看齐——Latent Space 的 AI 新闻头条这一期,从 GitHub 新版 GitHub App 切入,指出整个 AI 编程工具圈正在围绕"agent-first 形态"集体演化。Conductor 是最早跑出这种形态的产品,连 Y Combinator 的 Garry Tan 都公开为它站台。Claude Code 在新版桌面 App 上也加入了 git worktrees,OpenAI 把 Codex 推到移动端。一句"Everything is Crab"的演化生物学梗,被拿来类比这种 form factor 趋同的现象。背后两个十亿美元的问题是:先做出这种形态的公司怎么收费?下一步会演化成什么?详见 https://www.bestblogs.dev/article/3a3c9344。 Forward Deployed Engineer:AI 时代的新宠岗位,到底干什么?——宝玉这篇长文把最近 AI 圈一个热得发烫的岗位讲清楚。Google Cloud 大量招 FDE,面试压缩到两天两轮;OpenAI 拿到 40 亿美元成立独立"OpenAI Deployment Company",估值 140 亿美元,第一笔收购是英国的 Tomoro,带来 150 名 FDE;Anthropic 联合黑石、Hellman & Friedman、高盛低调成立自己的 FDE 咨询公司,把 Claude 推进各行各业的中型企业。FDE 不是单纯的售前或交付,更像是"懂业务又能写代码的 AI 转型操盘手"。文中追溯了这个岗位在 Palantir 时代的源流,也给了想转 FDE 的工程师一份清单。原文见 https://www.bestblogs.dev/article/81a8944a。 腾讯混元推出轻量翻译大模型,无需联网,手机直接运行——腾讯混元这次开源的是一组 Hy-MT1.5 系列翻译模型,原生支持 33 种语言、5 种方言、1056 个翻译方向。1.8B 参数的版本翻译效果比肩商业 API 与 235B 大模型;进一步做 2-bit 拉伸弹性量化得到 574MB 版本,效果几乎无损;再用 ACL 2026 入选的 Sherry 稀疏高效三值量化做到 1.25-bit、最终 440MB,普通骁龙手机也能离线跑。文中给了"异国自驾被警察拦下"的极端场景,配合配套 Demo 的"后台取词模式",让"手机原生离线翻译"这个老需求第一次有了能匹配商用质量的开源解。详见 https://www.bestblogs.dev/article/47e5f129。 警惕全球"最大"芯片 IPO 的暴雷风险——腾讯科技这篇深度报道把 Cerebras 这次 IPO 的招股书拆开看。Cerebras 以每股 185 美元定价、募资 55.5 亿美元、市值 398.17 亿美元,首日暴涨 70%,是 2026 年迄今全球最大 IPO。但作者提醒:Wafer-Scale Engine 的"100% 良率"是重新定义后的口径,靠的是片内冗余核心绕开缺陷,与传统 GPU 不在同一量度;公司从训练转向推理是结构性选择,因为片间 I/O 仍然是短板;与 OpenAI 那份超过 200 亿美元的合同有"股权换订单"成分;39% 毛利率背后含有较多会计层面的优化。文章核心提示是:这家公司值得关注,但不能用直觉算它的估值。原文见 https://www.bestblogs.dev/article/e6a73505。 普华永道正在部署 Claude,为客户构建技术、执行交易并重塑企业职能——Anthropic 和普华永道扩张战略联盟,把 Claude Code 与 Cowork 从美国团队推向全球数十万员工,并联合成立 Center of Excellence、培训认证 3 万名顾问。重点投入三个方向:智能体技术构建、AI 原生交易执行、企业职能重塑。普华永道还在 Claude 之上单独成立了一个 Office of the CFO 业务部门。Dario Amodei 在新闻稿里给了一组数据:原本要十周的保险核保现在十天能跑完,原本几小时的安全工作压到几分钟,整体交付时间最多缩短 70%。AINative 咨询的格局,正在被这种"模型 + 顶级咨询公司 + FDE 团队"的组合改写。详见 https://www.bestblogs.dev/article/b80806a0。 ## 扩展阅读 下面这几条更适合作为补充阅读:不一定是今天最大的新闻,但每一条都给上面的主题做了一个新的切面。 用一个抽象搭建 AI Agent Harness:事件溯源、Stream Processor 与 Dynamic Workers|Jonas Templestein,Iterate——Iterate 的 Jonas Templestein 在这个 workshop 里提出,把 AI Agent Harness 收敛到"事件"这一个抽象上:events.iterate.com 作为事件总线,Stream Processor 把不可变的事件历史 reduce 成 Agent 当前状态,Dynamic Workers 让你把一段 JavaScript 当事件 append 进去就完成逻辑部署。比较适合刚开始想自建 Agent 框架、又被 LangChain / LangGraph 复杂度劝退的工程师。链接:https://www.bestblogs.dev/video/b3b509f。 Hugging Face 开放智能体生态全景:从本地编程智能体、MCP 集成到 Skills 自动化微调——Merve Noyan 这场分享把开源 Agent 生态做了一次系统盘点:从 Open Weight 与 Open Source 的区别讲起,再到本地编程 Agent、MCP 集成、用 Skills 让模型自己跑微调,最后给了一个"3 万篇论文 OCR"的真实工程案例。对希望摆脱单一闭源 Agent 平台的团队尤其有用。链接:https://www.bestblogs.dev/video/677bdba。 科技爱好者周刊(第 396 期):互联网通信的替代方案——阮一峰这一期周刊把焦点放在 LoRa 与 Meshtastic 开源项目,讨论极端情况下"自己组网"的可能性:覆盖几十公里、不需要架线、用一节电池就能跑、单套设备几百元人民币。除了主话题,还顺手汇总了 MonkeyCode、逆向验证码、AI 生成 HTML 等动态,适合一周一次的横向更新。链接:https://www.bestblogs.dev/article/dd5b83f4。 Qoder 1.0 正式发布!从 AI IDE 迈向智能体自主开发工作台——阿里发布 Qoder 1.0,把原本的 AI IDE 升级为 Agent-first 的开发工作台:Quest 视窗从 IDE 模式独立出来,可以跨项目并行运行 Agent 任务,统一面板追踪所有任务状态;新增团队级知识引擎,把以前散落的记忆、Repo Wiki、知识卡片聚合起来,让 Agent 更懂项目;底层把 Agent Harness 拆成 Task Runtime 与 Knowledge Engineering 两条线重构。链接:https://www.bestblogs.dev/article/f6e56091。 【第 3699 期】Karpathy 的 4 条规则让 Claude 出错率骤降,但还不够。Mnimiy 又加了 8 条——Forrest Chang 把 Karpathy 关于 Claude 写代码的吐槽提炼成 4 条 CLAUDE.md 规则,GitHub 一度 12 万星,作者 Mnimiy 在 30 个代码库实测 6 周,把出错率从 41% 降到 3%,但也踩到 4 个盲区,再补 8 条规则,专门治理 Agent 时代的多步骤任务、Token 预算、测试质量这些新问题。前端早读课的编译版本读起来很顺。链接:https://www.bestblogs.dev/article/a8636fb0。 ## 今日阅读路径 如果今天只能读三篇,建议这样安排:先读精讲一 Julie Qiu 那篇,建立"AI 当思考伙伴"的方法论底座;再读速览里的宝玉 FDE 长文,把方法论放到行业岗位演化的脉络里看;最后读精讲二 Abridge,看一个 AI 原生公司怎么把这套思路跑到 250 家医院的规模上。三篇加起来一个多小时,读完会对今天的 AI 行业图景有一份立体认知。 如果今天还有半小时余量,再加精讲三 Imagen 2.0 与速览里的腾讯混元离线翻译模型,前者代表生成式产品如何走向 Creative Agents,后者代表模型小型化如何反向重塑端侧体验,一头一尾,刚好互补。 更长的时间窗口里,建议把 DeepSeek-V4 MegaMoE 那篇放在周末再读:它技术细节密度极高,但对理解未来一年端到端推理性能的天花板很有帮助;扩展阅读里 Iterate 的 Event-Sourced Harness 与 Hugging Face 开放智能体生态盘点,可以放在同一个学习时段,它们一起回答了"小团队怎样从零搭一套自己的 Agent 基建"这个具体问题,方法和工具都给得很完整。

译本期早报通过三个深度案例,展现AI应用正从单点任务转向系统集成。Google工程师将AI作为“思考伙伴”,将复杂决策时间从数天压缩至数小时;医疗AI公司Abridge通过处理海量就诊,为医生每周节省10-20小时,并构建临床智能层;OpenAI则复盘了Imagen 2.0的巨大生成量及未来路线图。核心趋势在于利用AI重构工作流程与系统设计。

ginobefun@hongming731 · 5月16日46

#BestBlogs 早报 2026-05-16 AI 当编程助理已经不算新鲜,更值得看的是把它当成思考伙伴的方式。 Google 的 Julie Qiu 谈如何在九语言客户端库里和 AI 一起读懂、试验、再设计; Abridge 用八千万次问诊把环境抄写做成医疗智能层; OpenAI 在 Podcast 第 19 期复盘 Imagen 2.0 的字渲染、多语言与 Creative Agents 路线。 三篇都不爆炸,但都耐看。

译本期早报探讨了AI从编程助理向“思考伙伴”的演进。案例包括Google工程师在多语言客户端开发中与AI协同理解与设计系统;Abridge公司利用海量问诊数据构建医疗智能理解层;以及OpenAI复盘Imagen 2.0在文本渲染和多语言支持上的进展,并展望“创意智能体”的未来。这些实践展示了AI正以更深入、融合的方式参与专业协作。

DogeDesigner@cb_doge · 5月16日69

NEWS: You can now connect Grok directly to Hermes Agent: the open-source, self-improving personal agent. With any Grok subscription, you instantly get: • Grok 4.3 for advanced reasoning & conversations
• Grok Text-to-Speech for natural voice responses
• Grok Imagine to generate images & videos inside the agent Just sign in with Grok OAuth and you’re live. No complicated setup. This is a huge step toward truly personal, always-on AI agents that actually remember you and act on your behalf. More open-source agent integrations are coming soon.

译Grok 现已支持直接连接至开源、自我提升的个人代理 Hermes Agent。所有 Grok 订阅用户均可立即使用 Grok 4.3 进行高级推理与对话,享受 Grok Text-to-Speech 提供的自然语音响应,以及通过 Grok Imagine 在代理内生成图像和视频。用户只需通过 Grok OAuth 登录即可启用,无需复杂设置。这标志着向真正个性化、持续在线、能记忆用户并代表用户行事的 AI 代理迈出了关键一步。更多开源代理集成即将推出。

Ethan Mollick@emollick · 5月16日57

Fine, you all want to code like this I guess. (Runway's new Agent mode is quite impressive, doing fairly complex story building from just a short text description of what you want. Not error free obviously, but this was pretty great for a one-shot attempt)

译推文展示了Runway新推出的Agent模式能根据简短文本描述构建复杂故事,虽不完美但效果显著。作者借此强调,与AI协作不应将其“提示”过程神秘化,反对使用含义模糊的随机斜杠命令等“魔法咒语”式交互。核心观点是,用户应像管理者一样,以清晰、结构化的格式直接提出需求,而非扮演依赖晦涩咒语的巫师,使AI协作回归高效、直观的本质。

AK@_akhaliq · 5月16日55

PhyMotion Structured 3D Motion Reward for Physics-Grounded Human Video Generation

译PhyMotion 基于物理结构化的3D运动奖励 用于物理基础的人类视频生成

Kling AI@Kling_ai · 5月15日61

Cannes Countdown | Featured speakers Lineup Unveiled for Kling AI Conference! Three world-class filmmakers gather in Cannes, with three outstanding works empowered by Kling AI technology: Wei Li | Creator of Born of the Tide, a Kling AI collaboration project; Leading Chinese Animation Director, known for Jiang Ziya: Legend of Deification Jon Erwin | Creator of the hit series House of David, a Kling AI collaboration project; Founder & Chief Content Officer of Wonder Project; CEO of Innovative Dreams Eekjun Yang | Creator of RAPHAEL, a Kling AI collaboration project; Director at Mateo AI Studio / AI Content Lab, MBC C&I With three benchmark works of Hollywood-scale production, an Amazon Prime series House of David, fully AI-generated animation Born of the Tide and theatrical feature film RAPHAEL, they’ll break down Kling AI’s behind-the-scenes role in cinematic creation and explore new possibilities for filmmaking. 📅 May 18, 2026 | 3:30–5:30 PM CEST 📍 Main Stage, Palais des Festivals, Cannes #KlingAI #Cannes2026 #MarcheDuFilm

译2026年戛纳电影节Kling AI大会将汇聚三位世界级电影制作人,展示他们运用Kling AI技术创作的标杆作品。中国动画导演魏立将分享AI生成动画《Born of the Tide》;Jon Erwin将解析为Amazon Prime制作的剧集《House of David》;Eekjun Yang则将介绍院线电影《RAPHAEL》的创作过程。三位讲者将深入探讨Kling AI在电影制作中的幕后应用,共同探索AI为影视创作带来的新可能性。活动定于2026年5月18日15:30至17:30,在戛纳影节宫主舞台举行。

MiniMax (official)@MiniMax_AI · 5月15日56

❤️‍🔥MiniMax across all the modalities

译❤️‍🔥MiniMax贯通所有模态

向阳乔木@vista8 · 5月15日63

前几天在Huggingface看到模型论文了。 面壁智能的MiniCPM-V 4.6 ,竟然只有1.3B的视觉模型。 看Benchmark效果有点强,抽空测试下。

译面壁智能推出仅1.3B参数的视觉语言模型MiniCPM-V 4.6。该模型采用LLaVA-UHD v4技术,将视觉编码成本降低55%,专为消费级和移动硬件优化,支持高效边缘部署。其在关键多模态和Artificial Analysis基准测试中,性能超越了Gemma4-E2B-it和Qwen3.5-0.8B等更大模型,且仅消耗后者2.5%的token预算。在处理高分辨率图像时,其首token生成时间比Qwen3.5-0.8B快2.2倍,在单张RTX 4090上的token吞吐量约为后者的1.5倍。模型已在Hugging Face、ModelScope等平台开源发布。

Alibaba Cloud@alibaba_cloud · 5月15日50

A K-POP MV, mostly directed by AI agents? 🎤✨ Built SPECTRA using Wan2.7 & HappyHorse. Agents handled generation, iteration, and editing — Shun Fujiyoshi @GhostyAIpp, Alibaba Cloud MVP, oversees quality gating and handles retakes. Not zero-touch yet. But close. 🎞️ Watch the MV: https://youtu.be/CwDxsTWy1Ak 📖 Full dev blog: https://int.alibabacloud.com/m/1000412982/ 🚀 20% OFF HappyHorse: https://int.alibabacloud.com/m/1000412936/

译一支主要由AI代理执导的K-POP MV?🎤✨ 使用Wan2.7和HappyHorse构建SPECTRA。代理负责生成、迭代和剪辑——由阿里巴巴云MVP Shun Fujiyoshi @GhostyAIpp监督质量把控并处理重制。 尚未实现零接触。但已非常接近。 🎞️ 观看MV:https://youtu.be/CwDxsTWy1Ak 📖 完整开发博客:https://int.alibabacloud.com/m/1000412982/ 🚀 HappyHorse八折优惠:https://int.alibabacloud.com/m/1000412936/

SenseTime@SenseTime_AI · 5月15日70

This is the frontier our innovators strive for. Excited to see passionate minds driving it forward.🔥

译主推文赞扬了创新者在前沿领域的探索。引用的推文具体指出,SenseNova-U1在空间智能能力上取得进展,其关键基准测试表现超越了Qwen3.5等强劲基线。同时,团队开源了目前最大的空间问答数据集SenseNova-SI-8M,并邀请业界在CVPR会议进行线下交流。

Berryxia.AI@berryxia · 5月15日75

兄弟们,这个可以啊!赶紧装起来! Kevin Lin,牛津大学博士后,前Meta和Microsoft研究员,刚刚把Violin这个开源视频翻译Skill放了出来。 视频已经是互联网绝对主流的内容形式。 可绝大多数高质量讲座、演讲、播客却被单一语言死死锁住,全球观众根本触达不到。 Violin把ASR、LLM翻译、TTS三者无缝串成一条流水线。 「输入一段视频,它就能自动完成语音识别、多语言翻译、自然语音合成。」 最实用的是两个功能: 你可以个性化翻译风格,把学术报告改成孩子也能听懂的版本; 还能直接和视频聊天,任何问题都基于视频内容给出答案。 它同时支持Web应用、CLI命令行和Agent Skill,全部MIT开源。 以后高质量内容不再只属于某一种语言,而是真正走向全球。 Demo、博客和GitHub都在原帖。 如果你在做内容、教育、跨语言传播,或者正在开发多模态Agent,这套Skill值得立刻去试。 你觉得AI下一步最该解决的,是内容创作,还是内容全球化? 项目地址:https://github.com/shang-zhu/violin

译牛津大学博士后Kevin Lin开源视频翻译工具Violin,旨在打破高质量视频内容的语言壁垒。该工具将语音识别、大语言模型翻译与语音合成整合为自动化流水线,支持多语言互译与个性化翻译风格调整,例如将学术报告转化为儿童易懂版本。用户还能直接与视频内容进行对话并获取相关答案。Violin提供Web应用、命令行界面和Agent Skill三种使用方式,所有功能基于MIT协议开源,由Together Compute提供技术支持,适用于内容创作、教育及多模态智能体开发等领域。

Berryxia.AI@berryxia · 5月15日74

这个项目也可以直接 # 安装成 Claude Code skill 命令:violin --install-skill 以后就可以直接这样:violin input.mp4 output_zh.mp4 --language Chinese 大家需要注意: 去 http://api.together.ai 注册获取 Key(也支持 OpenAI、ElevenLabs,只需其中一个)。 Violin 默认使用 Together AI(免费注册可得额度),需要设置环境变量: # 永久生效,加到 ~/.zshrc echo 'export TOGETHER_API_KEY=你的key' >> ~/.zshrc source ~/.zshrc

译牛津大学博士后Kevin Lin开源了视频翻译工具Violin,可将视频自动进行语音识别、LLM翻译和语音合成,打破语言壁垒。工具支持个性化翻译风格,并能基于视频内容进行问答交互。它提供Web应用、CLI命令行及Agent Skill(如Claude Code skill)多种使用方式,默认利用Together AI的免费额度,也支持OpenAI等API。该项目旨在推动高质量视频内容的全球化传播。

Berryxia.AI@berryxia · 5月15日72

.@neilsonks 刚刚把一个完整的 3D 生成工具包开源了,专门为 Claude Code 设计。 输入一张图片,它就能自动把整个场景拆解成可交互的 3D 世界:环境、网格、物理、灯光、音频全都有。 整个 pipeline 是这样一步步做出来的: 首先用图像生成和 3D 生成技能,从输入图片里提取物体,生成高质量网格。 每个生成的物体都会从原始图片里被“移除”,留下干净的静态世界背景。 最后再给整个场景加上物理模拟、实时灯光和环境音频。 他还专门做了一个配套的查看器 App,能直接浏览所有生成的物体,支持点击编辑位置、旋转、缩放、复制、删除,还能一键导出 scene.json。 以前从 2D 图片到可玩 3D 场景要花几天,现在 Claude Code 配合这个工具包,几分钟就能跑通一条完整链路。 项目完全开源,就在 GitHub:https://github.com/neilsonnn/image-blaster 如果你在做游戏、世界构建、产品可视化或者任何需要快速把概念图转成 3D 交互内容的项目,这套工具值得立刻去试。

译开发者@neilsonks开源了一套专为Claude Code设计的完整3D生成工具包。该工具能将输入的单张图片自动拆解,生成包含环境、网格、物理、灯光和音频的全套可交互3D场景。其流程首先利用图像与3D生成技术提取物体并生成高质量网格,随后移除物体以得到静态背景,最后为整个场景添加物理模拟、实时灯光和环境音效。配套查看器支持对生成物体的点击编辑与一键导出。此工具将以往需数天的2D转3D工作流程缩短至几分钟,适用于游戏开发、世界构建和产品可视化等项目。项目已在GitHub开源。

Chubby♨️@kimmonismus · 5月15日58

Until now, building a convincing AI human required video footage of a real person. @tavus just removed that constraint! Image-to-Replica takes a single image, a logo mascot, an AI-generated character, a sketch, and runs it through the same Phoenix-4 pipeline that powers their video-trained replicas. Now we can talk about real AI avatars.

译Tavus的Image-to-Replica技术突破了创建逼真AI虚拟人需依赖视频素材的限制。该技术仅需单张图像,如logo吉祥物、AI生成角色或草图,即可通过Phoenix-4管道处理,生成能进行真实对话的AI虚拟人。这意味着任何以单图像形式存在的面孔,包括品牌吉祥物、历史人物或AI设计角色,现在都能以虚拟形象实现互动,推动了AI虚拟人技术的实用化发展。

Chubby♨️@kimmonismus · 5月15日63

I've been testing Higgsfield's Supercomputer for the past few days, and it genuinely caught me off guard. You type a task in plain language. The system picks from 61 production skills, routes each sub-task to the best available model (GPT-5.5, Claude Opus, Gemini, Seedance, Veo, Kling, and more), runs them in parallel, and delivers finished assets. I pointed it at my own X post analytics, expecting something generic. It came back with senior-analyst-grade breakdowns: median engagement rates, hook score analysis, content pattern detection. Properly useful output, not a summary paragraph. A few things that really surprised me: - It generates up to 60 (!) minutes of video from a single prompt - Native Obsidian integration for persistent knowledge (the "LLM wiki" concept Karpathy floated recently, already shipping, and which I was building myself just recently) - 27 platform connectors (Slack, Drive, Notion, YouTube, Frame. io, the full stack) - Brand and identity locks persist across sessions, so your outputs stay consistent over time - Skills actually improve with use, version-tracked and eval-tested The whole thing runs cloud-side on GPU-colocated infrastructure, which means generations keep running even if you close the browser. Scheduled tasks just work without a local machine.

译Higgsfield的Supercomputer平台允许用户以自然语言描述任务,系统从61种生产技能中自动选取,并将子任务路由至GPT-4o、Claude Opus、Gemini及多种图像视频模型并行处理。它能生成长达60分钟的视频,原生集成Obsidian构建持久化知识库,并通过27个平台连接器连接各类工具。平台运行于云端GPU基础设施,支持品牌标识锁定和后台任务调度。其技能在使用中通过版本追踪和评估测试不断自我改进,用户可通过浏览器或Telegram直接访问,无需本地设置。

🚨 AI News | TestingCatalog@testingcatalog · 5月15日62

Google is silently rolling out an updated Gemini experience for its mobile apps ahead of Google I/O. Its updated UI for Gemini Live features an interactive "bar" or a dynamic island that reacts to your taps and can wave back. It should get loads of superpowers soon 👀

译Google在Google I/O大会前正悄然为其移动应用推出更新的Gemini体验。 其Gemini Live更新后的用户界面采用交互式“栏”或动态岛设计,可响应点击并回波动画。 预计很快将获得大量超级功能 👀

Suno@suno · 5月14日61

The Suno app just glowed up. We’ve made some updates over the last few weeks. Here’s some of our favorites 🧵

译Suno应用刚刚焕然一新。 过去几周我们进行了一些更新。 以下是我们喜爱的部分亮点 🧵

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月19日
07:25
karminski-牙医@karminski3
59
字节跳动开源全模态模型Lance:轻量高效的"拼好模"

字节跳动开源了全模态模型Lance,其激活参数量仅为3B,却能同时处理文本、图片和视频的输入与输出,完成理解、生成与编辑等多种任务。该模型通过模块化拼接构建了Lance_3B与Lance_3B_Video两个版本,其创新在于采用共享交错序列统一语义空间,并引入专用专家模块协调理解与生成的互斥关系,使得小参数模型性能接近更大规模模型。训练仅需128张A100,对端侧部署和多模态Agent应用具有重要价值。

多模态开源生态模型发布
05:42
OpenAI Developers@OpenAIDevs
38
Altaratech公司正利用OpenAI模型解决科学数据多模态且复杂的核心挑战,旨在帮助科学家和工程师在复杂的研发流程中更高效、透明地工作。其应用关键点在于:协助科研人员跨复杂多模态数据进行推理、实现长流程研发任务的并行化处理,并通过提升过程透明度来建立信任。该公司在OpenAI开发者日上分享了这些实践,并表示正积极招募相关人才。

Catherine Yeo: At the recent @OpenAIDevs Founder Day, I had fun chatting about how we use OpenAI's capabilities to scale scientific int...

OpenAI多模态行业动态
03:55
karminski-牙医@karminski3
54
Qwen3.7内测跑分出炉,空间理解与指令遵循大幅提升

Qwen3.7-Max-Preview在ArenaAI内测中排名第13,为当前版本国产模型最佳。其数学能力(第7)与编程能力(第10)提升显著。实测显示,在前端代码生成任务中,Qwen3.7在空间理解和指令遵循上较前代(Qwen3.6)有巨大进步,能更准确地维持元素轴向与标记。文章同时指出,ArenaAI评分仅供参考,其为Meta新模型Muse Spark给出的高排名(第5)与社区现状不符。

多模态推理评测/基准
03:50
Claude@claudeai
精选75
现在你可以用 Claude Design 创作更多内容了。 我们已将所有套餐的 token 限制翻倍。
Anthropic产品更新图像生成多模态

推荐理由:Claude Design 令牌加倍,做图做设计的人现在可以更放肆地挥霍上下文了,Anthropic 这波更新把设计工具的可用性拉高了一个档次。
03:12
OpenRouter@OpenRouter
精选65
@xai 的 Grok 创意套件中 3 款新模型现已在 OpenRouter 上线: • Grok Imagine Image Quality:照片级真实图像生成与编辑 • Grok Imagine Video:从文本、图像或参考生成短片 • Grok Voice TTS 1.0:支持 20 多种语言的 5 种语音 更多详情见下方 🧵
xAI产品更新多模态语音

推荐理由:如果你觉得官方 Grok API 麻烦,OpenRouter 现在一口气上线了 Imagine 图像、视频和 Voice TTS,做创意产品的开发者可以直接从这里调用了,省去多签一轮 API key 的功夫。
02:55
karminski-牙医@karminski3
53
Qwen3.7! 就在今天!

阿里千问今日推出Qwen3.7-Max-Preview,在ArenAI(原LMArena)内测中排名第13,为国内模型最高水平。模型数学能力显著提升,位列总榜第7;编程能力排名第10;视觉能力测试升至第16。作者实测显示,在前端代码生成场景中,Qwen3.7的空间理解与指令遵循能力进步明显,元素轴向一致性优于DeepSeek-V4-Pro等模型。此外,ArenaAI给Meta新模型Muse Spark的异常高评分引发关注,但该评分仅供参考。

多模态推理编码评测/基准
00:56
Berryxia.AI@berryxia
63
阿里Qwen3.7预览版在Arena排行榜取得显著成绩

阿里巴巴最新发布的Qwen3.7预览版在Arena社区排行榜上表现突出。在基于百万真实用户投票的Text Arena中,Qwen3.7 Max Preview总榜排名第13,使阿里巴巴位列实验室第6名,并在数学、专家咨询、软件与IT、编程等细分领域进入前十。同时,在Vision Arena中,Qwen3.7 Plus Preview总榜排名第16,助力阿里巴巴升至实验室第5名。此次排名并非实验室内部测试,而是社区实际交互的体现,标志着阿里在模型的文本与视觉综合能力上实现了重要进步。

Arena.ai: Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...

多模态评测/基准
00:02
Qwen@Alibaba_Qwen
57
阿里巴巴通义千问Qwen3.7-Max-Preview与Qwen3.7-Plus-Preview模型现已登陆AI评测平台Arena,分别参与文本与视觉评测。这一进展大幅提升了阿里巴巴在两大领域的实验室排名:在文本榜单跃升至全球第6位,在视觉榜单升至第5位。具体而言,Qwen3.7 Max Preview在文本总榜位列第13,并在数学、编程等多个子榜单中表现突出;Qwen3.7 Plus Preview在视觉总榜排名第16。官方对取得的进步表示祝贺,并透露Qwen3.7系列模型的正式版本即将发布。

Arena.ai: Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...

多模态模型发布评测/基准
00:02
Qwen@Alibaba_Qwen
47
🚀🚀 【引用 @arena】:在视觉竞技场中,Qwen3.7 Plus Preview使@Alibaba_Qwen成为第5大实验室,总排名第16位。

Arena.ai: In the Vision Arena, Qwen3.7 Plus Preview makes @Alibaba_Qwen the #5 lab, ranking #16 overall.

多模态模型发布评测/基准
5月18日
23:39
elvis@omarsar0
62
当AI遇到童真:一个10岁孩子对"智能"编码工具的失望

一个10岁孩子想创建火箭模拟器等科学应用,却屡屡被主流AI编码工具所挫败。这揭示了当前以LLM为核心的技术短板:它们擅长在丰富训练数据框架内维护和构建现有模式,但难以灵活应对需要全新综合创造能力的边缘与生成性任务。这暴露了LLM距离实现通用人工智能(AGI)的局限,指明了未来需向更具泛化能力的原生多模态系统与世界模型等方向突破。

智能体多模态大佬观点
21:19
🚨 AI News | TestingCatalog@testingcatalog
61
谷歌Gemini桌面应用将集成多项新功能与智能代理

谷歌Gemini桌面应用即将迎来重大功能更新。新增的“Stream to Cursor”功能类似上周Android Show上展示的“Magic Pointer”。Gemini Spark智能代理将能直接操作本地文件夹中的文件。此外,应用将引入被内部称为“Veo4 Omni”的新模型,并支持Skills技能体系。不过,Gemini Live实时功能目前仍在开发中,尚未可用。

智能体Google产品更新多模态
15:50
Elon Musk@elonmusk
精选75
Grok可以处理视频了 【引用 @XFreeze】:你现在可以将整个视频上传给Grok,让它实时为你分析、总结、翻译、解释场景或提取重要上下文。 Grok能够理解完整的视频--而不仅仅是图像和文本。 它具备原生多模态能力和极其强大的视觉理解能力。

X Freeze: You can now upload entire videos to Grok and have it analyze, summarize, translate, explain scenes, or extract important...

xAI产品更新多模态

推荐理由:Grok 补上了视频理解这块拼图,不是抽帧而是整个视频的上下文分析,做媒体和内容的人多了一个实用的多模态工具,可以上手试试。
13:42
Kling AI@Kling_ai
51
世界杯倒计时开始⚽ 穿上你的球队球衣,一键尝试Kling AI的新特效!
产品更新图像生成多模态视频
11:19
Elon Musk@elonmusk
同事件精选74
Grok Imagine 现已向所有 X Premium+ 订阅者开放 这是我们的图像生成模型,由 xAI 开发
xAI产品更新图像生成多模态
同一事件,精选展示《xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)》
推荐理由:below_threshold:T2 推文门槛 75,当前 finalScore=74
09:37
Alibaba Cloud@alibaba_cloud
74
电影级AI现已到来。🐎💨 HappyHorse现已登陆Model Studio。从原始提示词到1080p多镜头现实感画面--在统一工作流中体验视频生成的未来。没有阻碍。只有纯粹性能。 🔥 限时优惠:8折。观看演示并立即开始创作。 立即访问:https://int.alibabacloud.com/m/1000412936/
产品更新多模态视频
08:54
Berryxia.AI@berryxia
42
这个老哥直接硬核手搓GTA-6 ,还可以玩的那种😄 体验地址:http://gta6-single-prompt.vercel.app
多模态现象/趋势
03:05
Chubby♨️@kimmonismus
46
反对"AI垃圾"标签,倡导基于内容的实质批评

作者认为“AI slop”一词无益,人们常因内容由AI生成而愤怒,却未批评内容本身。AI模型如GPT-4、Claude已能生成高质量文本,OpenAI Image 2的图像也逼真难辨。批评应基于实质内容,而非来源;AI生成内容可好可坏,取决于提示、研究等因素。社会需要更多有根据的批评,而非纯粹怨恨。

多模态现象/趋势
02:40
Rohan Paul@rohanpaul_ai
63
AI交互新突破:全双工时间对齐微轮转实现类人实时对话

Thinking Machines Lab与OpenBMB团队正推动AI交互从传统的“对讲机”式轮转模式,向全双工、时间对齐的微轮转模式演进。其核心是通过Omni-Flow等框架,将视觉、听觉输入与语音、文本输出对齐到统一时间轴,实现感知与响应的同步。作为实践,开源的90亿参数多模态模型MiniCPM-o 4.5已能同时看、听、说,并在多模态能力和语音生成质量上超越了更大规模的模型。这标志着AI交互层的重要突破,使实时、自然的类人对话成为可能,且已具备代码、权重及边缘部署方案。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

多模态大佬观点语音
5月17日
21:44
AYi@AYi_AInotes
69
一颗葡萄与3DGS技术:个人化高保真3D建模的产品化路径

开发者Dany Bittel通过6660张葡萄宏观照片,利用3D Gaussian Splatting技术训练出仅50MB的高保真3D模型,在手机上即可流畅查看半透明细节。该实验攻克了最难的半透明物体建模,证明技术可轻松应用于手办、珠宝等物品,将3D数字资产创建门槛从专业团队大幅降低至个人。其开发的miqula工具正推动该流程产品化。同时,这也反映了AI工具的普遍悖论:制作demo的门槛急剧降低,但实现稳定生产级应用仍需克服工程化挑战。

AYi: 说个所有AI创业者都不愿意承认的事实: 现在做一个AI工具的门槛已经降到了地板, 普通人做一个AI工具都只需要一天, 但学会用它干成一件事,却至少得一个月, 感觉像是AI时代的一个悖论😅 5.7M 阅读 23 万点赞的这条推,表面看是游戏...

多模态现象/趋势
5月16日
22:43
AYi@AYi_AInotes
64
中国爸爸为女儿打造有温度的AI单词应用,获Apple设计奖

中国父亲Ace Lee因女儿使用传统翻译App时感到冰冷,决心开发有温度的AI应用CapWords。该应用能用相机识别物体,生成可爱的互动单词贴纸,支持9种语言及真人发音,凭借高识别率、流畅动画和无广告的纯粹体验,荣获2025年Apple设计奖。这体现了优秀AI产品应源于解决真实关切的问题。

多模态现象/趋势
17:38
Orange AI@oran_ge
62
上海电信推出Token话费套餐,1元可获25万额度

上海电信创新推出AI大模型Token话费套餐服务,用户支付1元即可获得25万Token额度,用于调用GPT、Claude等30多种主流模型。费用直接从话费账单扣除,上海电信用户可免费领取2500万额度点体验。该公司将“Token服务”定位为未来经营主线,标志着运营商直接下场提供AI基础设施服务,开辟了新的商业模式。

多模态行业动态
17:08
Rohan Paul@rohanpaul_ai
46
这是Melody,专为AI陪伴设计的人形机器人。 专门针对社交与情感交流进行调校。能保持眼神接触、回忆上下文并处理对话。 通过面部驱动器与皮肤材料,使表情反馈灵敏且类人。 https://x.com/XNews24_7/status/1951822670561202542/video/1
产品更新具身智能多模态
10:42
AYi@AYi_AInotes
76
xAI将Grok集成至Hermes Agent,用户可零成本扩展AI能力

xAI宣布,Grok订阅用户现可一键通过OAuth登录,将服务直接集成到开源个人代理Hermes Agent中使用,无需额外付费或复杂配置。xAI并未自建代理生态,而是将Grok作为“即插即用”大脑嵌入成熟的Hermes Agent中,此举大幅降低了开发与推广成本。集成后,Hermes Agent在原有长期记忆、多平台连接等功能基础上,增强了Grok的推理、生图、生视频与语音能力,用户体验显著提升。这意味着用户仅凭现有订阅,即可获得一个完全可控的本地AI代理。xAI表示更多开源代理集成即将到来,Grok正从X平台聊天工具转型为更广泛的AI生态通用大脑。

xAI: You can now use your @grok subscription inside @NousResearch Hermes Agent. http://x.ai/news/grok-hermes

智能体xAI产品更新多模态
08:54
ginobefun@hongming731
62
BestBlogs 早报 · 2026-05-16 · AI 工程方法 / Abridge 医疗智能层 / Imagen 2.0

本期早报通过三个深度案例,展现AI应用正从单点任务转向系统集成。Google工程师将AI作为“思考伙伴”,将复杂决策时间从数天压缩至数小时;医疗AI公司Abridge通过处理海量就诊,为医生每周节省10-20小时,并构建临床智能层;OpenAI则复盘了Imagen 2.0的巨大生成量及未来路线图。核心趋势在于利用AI重构工作流程与系统设计。

智能体OpenAI多模态现象/趋势
08:54
ginobefun@hongming731
46
#BestBlogs 早报 2026-05-16:AI作为深度协作的"思考伙伴"

本期早报探讨了AI从编程助理向“思考伙伴”的演进。案例包括Google工程师在多语言客户端开发中与AI协同理解与设计系统;Abridge公司利用海量问诊数据构建医疗智能理解层;以及OpenAI复盘Imagen 2.0在文本渲染和多语言支持上的进展,并展望“创意智能体”的未来。这些实践展示了AI正以更深入、融合的方式参与专业协作。

GoogleOpenAI多模态大佬观点
04:09
DogeDesigner@cb_doge
69
Grok 现可直接连接开源自我提升代理 Hermes Agent

Grok 现已支持直接连接至开源、自我提升的个人代理 Hermes Agent。所有 Grok 订阅用户均可立即使用 Grok 4.3 进行高级推理与对话,享受 Grok Text-to-Speech 提供的自然语音响应,以及通过 Grok Imagine 在代理内生成图像和视频。用户只需通过 Grok OAuth 登录即可启用,无需复杂设置。这标志着向真正个性化、持续在线、能记忆用户并代表用户行事的 AI 代理迈出了关键一步。更多开源代理集成即将推出。

智能体xAI产品更新多模态
02:05
Ethan Mollick@emollick
57
推文展示了Runway新推出的Agent模式能根据简短文本描述构建复杂故事,虽不完美但效果显著。作者借此强调,与AI协作不应将其"提示"过程神秘化,反对使用含义模糊的随机斜杠命令等"魔法咒语"式交互。核心观点是,用户应像管理者一样,以清晰、结构化的格式直接提出需求,而非扮演依赖晦涩咒语的巫师,使AI协作回归高效、直观的本质。

Ethan Mollick: Stop turning prompting into magic spells (and yes, this includes random slash commands with obscure outcomes). Let this ...

智能体产品更新多模态
02:04
AK@_akhaliq
55
PhyMotion 基于物理结构化的3D运动奖励 用于物理基础的人类视频生成
多模态视频论文/研究
5月15日
23:09
Kling AI@Kling_ai
61
戛纳倒计时 | Kling AI大会主讲阵容揭晓!

2026年戛纳电影节Kling AI大会将汇聚三位世界级电影制作人,展示他们运用Kling AI技术创作的标杆作品。中国动画导演魏立将分享AI生成动画《Born of the Tide》;Jon Erwin将解析为Amazon Prime制作的剧集《House of David》;Eekjun Yang则将介绍院线电影《RAPHAEL》的创作过程。三位讲者将深入探讨Kling AI在电影制作中的幕后应用,共同探索AI为影视创作带来的新可能性。活动定于2026年5月18日15:30至17:30,在戛纳影节宫主舞台举行。

多模态行业动态视频
20:07
MiniMax (official)@MiniMax_AI
56
❤️🔥MiniMax贯通所有模态

1LittleCoder💻: Minimax 🔥🔥🔥 shipping across modalities

产品更新多模态
18:27
向阳乔木@vista8
63
面壁智能推出仅1.3B参数的视觉语言模型MiniCPM-V 4.6。该模型采用LLaVA-UHD v4技术,将视觉编码成本降低55%,专为消费级和移动硬件优化,支持高效边缘部署。其在关键多模态和Artificial Analysis基准测试中,性能超越了Gemma4-E2B-it和Qwen3.5-0.8B等更大模型,且仅消耗后者2.5%的token预算。在处理高分辨率图像时,其首token生成时间比Qwen3.5-0.8B快2.2倍,在单张RTX 4090上的token吞吐量约为后者的1.5倍。模型已在Hugging Face、ModelScope等平台开源发布。

OpenBMB: 1/5 MiniCPM-V 4.6 (1.3B) is now live 🚀🚀 High-res visual processing, optimized for consumer-grade and mobile hardware. ...

多模态模型发布端侧
15:33
Alibaba Cloud@alibaba_cloud
50
一支主要由AI代理执导的K-POP MV?🎤✨ 使用Wan2.7和HappyHorse构建SPECTRA。代理负责生成、迭代和剪辑--由阿里巴巴云MVP Shun Fujiyoshi @GhostyAIpp监督质量把控并处理重制。 尚未实现零接触。但已非常接近。 🎞️ 观看MV:https://youtu.be/CwDxsTWy1Ak 📖 完整开发博客:https://int.alibabacloud.com/m/1000412982/ 🚀 HappyHorse八折优惠:https://int.alibabacloud.com/m/1000412936/
智能体多模态教程/实践
10:18
SenseTime@SenseTime_AI
同事件精选70
主推文赞扬了创新者在前沿领域的探索。引用的推文具体指出,SenseNova-U1在空间智能能力上取得进展,其关键基准测试表现超越了Qwen3.5等强劲基线。同时,团队开源了目前最大的空间问答数据集SenseNova-SI-8M,并邀请业界在CVPR会议进行线下交流。

Zhongang Cai: Excited to have contributed to the spatial intelligence capabilities of SenseNova-U1, surpassing strong baselines such a...

多模态开源生态数据/训练论文/研究
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
推荐理由:商汤的 SenseNova-U1 在空间智能基准上压过 Qwen3.5,还顺手开源了目前最大的空间 QA 数据集 SenseNova-SI-8M,搞具身智能和多模态的可以直接抱走数据。
09:51
Berryxia.AI@berryxia
精选75
牛津大学博士后开源视频翻译工具Violin,支持多语言翻译与视频对话

牛津大学博士后Kevin Lin开源视频翻译工具Violin,旨在打破高质量视频内容的语言壁垒。该工具将语音识别、大语言模型翻译与语音合成整合为自动化流水线,支持多语言互译与个性化翻译风格调整,例如将学术报告转化为儿童易懂版本。用户还能直接与视频内容进行对话并获取相关答案。Violin提供Web应用、命令行界面和Agent Skill三种使用方式,所有功能基于MIT协议开源,由Together Compute提供技术支持,适用于内容创作、教育及多模态智能体开发等领域。

Kevin Lin: 🌟Introducing🎻Violin - an Open-source Video Translation Skill. 📹Video is the dominant medium on the internet, yet most...

GitHub多模态开源/仓库语音

推荐理由:视频翻译过去得拼几个 API,Violin 一个开源 Skill 把 ASR、翻译、TTS 全通了,还加上视频对话和风格定制,做多语言内容传播的必须收藏。
09:51
Berryxia.AI@berryxia
74
牛津大学博士后Kevin Lin开源了视频翻译工具Violin,可将视频自动进行语音识别、LLM翻译和语音合成,打破语言壁垒。工具支持个性化翻译风格,并能基于视频内容进行问答交互。它提供Web应用、CLI命令行及Agent Skill(如Claude Code skill)多种使用方式,默认利用Together AI的免费额度,也支持OpenAI等API。该项目旨在推动高质量视频内容的全球化传播。

Berryxia.AI: 兄弟们,这个可以啊!赶紧装起来! Kevin Lin,牛津大学博士后,前Meta和Microsoft研究员,刚刚把Violin这个开源视频翻译Skill放了出来。 视频已经是互联网绝对主流的内容形式。 可绝大多数高质量讲座、演讲、播客却被单...

多模态开源生态教程/实践视频
08:51
Berryxia.AI@berryxia
72
开源3D生成工具包:单张图片快速构建可交互3D世界

开发者@neilsonks开源了一套专为Claude Code设计的完整3D生成工具包。该工具能将输入的单张图片自动拆解,生成包含环境、网格、物理、灯光和音频的全套可交互3D场景。其流程首先利用图像与3D生成技术提取物体并生成高质量网格,随后移除物体以得到静态背景,最后为整个场景添加物理模拟、实时灯光和环境音效。配套查看器支持对生成物体的点击编辑与一键导出。此工具将以往需数天的2D转3D工作流程缩短至几分钟,适用于游戏开发、世界构建和产品可视化等项目。项目已在GitHub开源。

neilson: open-sourcing a 3D gen toolkit for Claude Code input image → environment, meshes, physics, lighting, & audio

AnthropicGitHub产品更新多模态
06:32
Chubby♨️@kimmonismus
58
Tavus的Image-to-Replica技术突破了创建逼真AI虚拟人需依赖视频素材的限制。该技术仅需单张图像,如logo吉祥物、AI生成角色或草图,即可通过Phoenix-4管道处理,生成能进行真实对话的AI虚拟人。这意味着任何以单图像形式存在的面孔,包括品牌吉祥物、历史人物或AI设计角色,现在都能以虚拟形象实现互动,推动了AI虚拟人技术的实用化发展。

Tavus: Introducing Image-to-Replica. Any face that can exist as a single image, whether it's a brand mascot that has lived in a...

产品更新图像生成多模态
02:31
Chubby♨️@kimmonismus
63
实测Higgsfield Supercomputer:用自然语言驱动多模型并行的AI生产力平台

Higgsfield的Supercomputer平台允许用户以自然语言描述任务,系统从61种生产技能中自动选取,并将子任务路由至GPT-4o、Claude Opus、Gemini及多种图像视频模型并行处理。它能生成长达60分钟的视频,原生集成Obsidian构建持久化知识库,并通过27个平台连接器连接各类工具。平台运行于云端GPU基础设施,支持品牌标识锁定和后台任务调度。其技能在使用中通过版本追踪和评估测试不断自我改进,用户可通过浏览器或Telegram直接访问,无需本地设置。

Higgsfield AI 🧩: How Supercomputer works: 1. Access via browser or Telegram. No local setup 2. Describe your task 3. Orchestrates LLMs an...

智能体多模态视频评测/基准
01:39
🚨 AI News | TestingCatalog@testingcatalog
62
Google在Google I/O大会前正悄然为其移动应用推出更新的Gemini体验。 其Gemini Live更新后的用户界面采用交互式"栏"或动态岛设计,可响应点击并回波动画。 预计很快将获得大量超级功能 👀
Google产品更新多模态
5月14日
23:58
Suno@suno
61
Suno应用刚刚焕然一新。 过去几周我们进行了一些更新。 以下是我们喜爱的部分亮点 🧵
产品更新多模态
‹ 上一页
1…1314151617…23
下一页 ›