AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 904 条
全部一手资讯X论文
标签「多模态」清除
Ethan Mollick@emollick · 8小时前50

You really need your own benchmarks. If you are translating hieroglyphics, use Gemini 3.5 Flash. If you are running a vending machine use Opus 4.8. (This is one reason why I am skeptical of just swapping out models to optimize costs or generic benchmarks without testing first)

译Ethan Mollick主张用自定义基准测试评估模型,而非依赖通用基准或直接换模型。他举例:翻译埃及象形文字用Gemini 3.5 Flash,运行自动售货机用Opus 4.8。JakeABoggs的HieroglyphBench测试显示,Anthropic Fable 5与GPT-5.5持平,但均远落后于Gemini系列,其中Gemini 3.5 Flash得分是Fable 5的两倍以上。

Berryxia.AI@berryxia · 8小时前48

卧槽,手机就可以完成3D建模了! GenRecon提出了一种把生成式3D先验和多视角重建结合起来的新方法。 它不再单纯依赖传统SfM/MVS或NeRF-style优化,而是把场景切成有重叠的chunk,用强生成模型(比如Trellis.2)做条件生成来重建每个chunk,再拼起来。 核心创新是用投影式的conditioning机制,把多视角图像特征直接提升到和生成模型对齐的3D空间里。 最终输出是高质量、可编辑的PBR mesh,在室内场景重建上据称比当前SOTA高出16%的保真度和完整度。 这其实代表了当前3D重建的一个趋势:不再只靠几何约束,是越来越多地借用生成模型的先验来补全缺失信息、提升细节。

译GenRecon将生成式3D先验与多视角重建结合,把场景切分成重叠chunk,用Trellis.2等生成模型条件重建各chunk并拼接。核心创新是投影式conditioning,将多视角图像特征提升到3D空间。输出可编辑PBR mesh,室内重建保真度和完整度比SOTA高16%。

小互@xiaohu · 15小时前66

有点意思

译用户使用豆包,根据详细prompt复刻了一部真人实拍与2D动漫贴纸合成的搞笑短视频。视频为第一人称厨房做饭视角,包含4个镜头:贴纸角色倒盐捣乱、被锅铲敲头、被喂盐咸菜、齁到倒地。prompt指定了风格(8K超清竖屏)、时长10秒、场景(真实厨房)、角色(金色长发水手服Q版贴纸人物)及各镜头的动作与音效。

歸藏(guizang.ai)@op7418 · 20小时前69

终于上了! 藏师傅现在这个 Skills 可以帮你做 Live Photo。 我过去一段时间用下来,发现这个能力非常有用。它比做成视频的难度要低得非常非常多 又可以帮你展示一些需要动态展示的东西,比如: 1. 步骤说明 2. 不同角度的产品细节 3. 带动效的网页展示等等 这个 Skills 基本上把做 Live Photo 的门槛拉得非常低。 你只需要给它文案和你随便录制的一段视频,它就可以帮你编辑排版,变成一个带文字的 Live Photo。 当然,一些基础的 Live Photo 编辑它也能帮你做(比如拼图、夹子等),比你在市面上能找到的对应产品要方便很多。

译藏师傅推出的 Skills 功能可制作 Live Photo,用户只需提供文案和一段视频,便能自动完成编辑、排版并生成带文字的 Live Photo。该功能还能执行拼图、夹子等基础编辑操作,比市面上同类产品更方便。其门槛极低,适合展示步骤说明、产品细节、动态网页等需要动态呈现的场景。

AYi@AYi_AInotes · 1天前47

说个没人愿意说的零成本AI副业,不用露脸不用出镜,靠做动画片单月能赚$5000, 赛道选YouTube儿童早教领域,全套流程靠AI就能单人跑完,前期投入为零,靠免费算力就能起步,日更一到两条,第一个月就能看到播放量收益,做得好月入能到$10000以上, 一共五步,照着做就能跑通, 1️⃣找参考,搜童谣加爆款关键词,找同赛道的热门视频对标方向。 2️⃣改脚本,用AI重写故事线,换角色换场景,避开抄袭风险。 3做动画,用Wan2.7或者Pika生成连贯动画,不是静态图拼接。 4️⃣做音频,AI配儿童音色加背景音乐,音质直接决定完播率。 5️⃣做优化,标题标签瞄准早教关键词做SEO,对准流量入口。 📌三个避坑点一定要记牢: 1️⃣儿童内容审核最严,必须纯原创不能二剪,不然直接封号。 2️⃣配音别用普通机械音,用专业儿童音色,体验差了留不住观众。 3️⃣要遵守COPPA合规要求,记得关闭个性化广告,避免违规处罚。 不止儿童赛道,TK带货知识付费都能套这个逻辑,换个赛道就能复用。 工具链接放评论区了,想试的直接拿走去跑。

译主推文介绍零成本AI副业:用AI做YouTube儿童早教动画。五步:搜童谣对标、AI改写脚本、Wan2.7或Pika生成动画、AI配儿童音色+背景音乐、标题标签SEO。日更1-2条,首月见收益,月入$5000-$10000。注意纯原创、专业儿童音色、遵守COPPA关闭个性化广告。另引用营销Agent Lev8,找海外客户场景:有效结果90个(Exa 58.2,Codex 20),匹配精度83.3%(Exa 76.5,Codex 71.8),单条成本$0.052(Exa $0.061)。Lev8聚合50+数据源和10亿+职场人脉,支持5个渠道发送定制破冰消息。

Suno@suno · 1天前30

👀

译Suno 正在探索推出开发者 API,计划从一批合作伙伴开始,重点关注能解锁生成式音乐新体验的应用。主推文仅一个表情“👀”。

Luma@LumaLabsAI · 1天前29

Watch the take become the world. Green screen on one side, open ocean on the other, the same motion holding both. By @heydin_ai . Made with Luma.

译观看拍摄变成世界。一边是绿幕,另一边是开阔海洋,相同的动作连接两者。由@heydin_ai制作。使用Luma创作。

Berryxia.AI@berryxia · 1天前47

我不管别人怎么吹,我觉得切身体会每天都用这玩意。 发现真的比很多Agent什么的好用很多,我接的是小米的mimo模型,听说读写,下载视频、剪辑什么的都可以搞定。 我已经当个小秘在用了哈! PS:不是一条广告😁 如果是就让老板安排打钱吧!

Google AI@GoogleAI · 1天前55

As generative AI tools continue to evolve, we believe it's more important than ever to know what's AI-generated and what isn't. That’s why @GoogleDeepMind launched SynthID in 2023—a technology that adds a hidden digital watermark to AI content. Here’s a summary of SynthID’s journey and where the provenance technology (the documented history and origin of digital content) is today: — SynthID watermarking was originally built for images, but now supports video, audio, and text. — The technology has watermarked over 100 billion images and videos, alongside 60,000 years of audio. — You can now verify content with SynthID directly in Google Search, Gemini in Chrome, and the @GeminiApp, where it has been utilized over 50 million times. — We’ve also adopted C2PA Content Credentials across a growing number of our generative AI tools. This includes the images and videos created within the Gemini app. So now, in addition to the SynthID watermark, you can also see where an image or video originated and how it’s been altered. — We have open-sourced our text watermarking technology, and we are working with companies like @OpenAI, @NVIDIA, and @Apple to apply SynthID to generative media. Let us know what you think of the tool so far!

译Google DeepMind 2023 年推出 SynthID 数字水印,已覆盖图像、视频、音频和文本,累计标记超 1000 亿图像视频及 6 万年音频。用户可在 Google 搜索、Chrome 内 Gemini 及 Gemini App 验证内容,使用超 5000 万次。同时采用 C2PA Content Credentials 标准,可查内容来源与修改历史。已开源文本水印技术,并与 OpenAI、NVIDIA、Apple 等合作推广。

OpenBMB@OpenBMB · 1天前35

Really well-written and practical. 👍We appreciate how you broke down the entire local pipeline and highlighted why MiniCPM-V 4.6 is such a strong choice for edge deployment — the combination of tiny size, strong multimodal capability, and excellent efficiency on Apple Silicon is exactly what makes these models exciting.🤗

译真的写得很好且实用。👍 我们很欣赏你如何拆解整个本地管道,并突出说明了为什么 MiniCPM-V 4.6 是边缘部署的绝佳选择——其小巧的尺寸、强大的多模态能力以及在 Apple Silicon 上出色的效率正是这些模型令人兴奋之处。🤗

fofr@fofrAI · 1天前46

Nano Banana 2 Lite: > a photo of an arabian cobra, but the head is replaced with a stapler, seamless, perfect animal-object combination, the object matches the animal coloring, and they feel naturally together, aspects of the object cleverly form the face like a pareidolia (none of the original animal face is visible), seamless and perfectly integrated

译Nano Banana 2 Lite: > 一张阿拉伯眼镜蛇的照片,但头部被替换成一个订书机,无缝衔接,完美的动物与物体组合,物体颜色与动物匹配,感觉自然融为一体,物体的局部巧妙构成面部,如同空想性视错觉(原始动物面部完全不可见),无缝且完美融合。

MiniMax (official)@MiniMax_AI · 1天前45

Day two of @aiDotEngineer started with a conversation anyone serious about open weights should be paying attention to. @olive_jy_song, research lead RL, joined @Thom_Wolf to dig into sparse attention, native multimodal training from day zero, and why open-weights matter for where AI is headed. Grateful to @swyx and the AI Engineer team for creating spaces for technical exchanges at this level.

译MiniMax 强化学习研究负责人姜松岩在 AI Engineer 大会第二天参加炉边谈话,与 Thom Wolf 探讨了稀疏注意力、从训练第一天就融入的原生多模态方案,以及开放权重对 AI 发展的意义。她强调分享了团队在这些方向的工作,并重申相信开放权重的重要性。

Berryxia.AI@berryxia · 1天前55

Google这次更新把图像生成和视频生成串成了一个极致高效的流程。 他们推出了Nano Banana 2 Lite(超快超便宜的图像模型,4秒内出图)和Gemini Omni Flash(支持视频生成和对话式编辑的多模态模型)。 单独看已经很快,但真正有意思的是把两者结合:先用Nano Banana快速生成图像,再直接扔给Omni Flash生成动画,整个链路成本大幅降低。 演示里展示了一个室内设计场景:上传照片后快速生成多个方案,再直接动画化呈现。 这种“图像→动态视频”的闭环速度和成本,在目前主流模型里算比较激进的。 本质上Google在把创意工作流从“生成一次等半天”变成“快速迭代+即时可视化”。

译Google推出超快图像模型Nano Banana 2 Lite(4秒出图)与多模态模型Gemini Omni Flash(支持视频生成与对话式编辑)。两者结合可先快速生成图像再转为动画,大幅降低成本。演示中室内设计照片可快速生成多个方案并动画化,将创意工作流从等待变为快速迭代。

ginobefun@hongming731 · 1天前45

BestBlogs 早报 · 07-01 # Claude Sonnet 5 / Anthropic / Nano Banana 2 Lite / Gemini Omni Flash / 吴恩达 [1] ★ 精讲|Claude Sonnet 5 发布 Anthropic 官方发布 Claude Sonnet 5,定位为最具 agent 能力的 Sonnet:能规划、调用浏览器与终端工具并自主执行多步任务,整体性能接近 Opus 4.8 但价格更低,在推理、工具使用、编程上较 Sonnet 4.6 显著提升。8 月 31 日前享入门价每百万输入 token 2 美元、输出 10 美元,之后回到 3/15 美元。早期用户反馈它能端到端完成以往会中途停下的任务,适合关注 agent 实战与成本平衡的开发者细读。 来源:Anthropic News https://www.bestblogs.dev/article/eff5a221 [2] ★ 精讲|开始使用 Nano Banana 2 Lite 和 Gemini Omni Flash 进行构建 Google DeepMind 同日推出两款生成式媒体模型。Nano Banana 2 Lite 面向高吞吐场景,文生图延迟约 4 秒、每千张图 0.034 美元,并作为旧版 Nano Banana(gemini-2.5-flash-image)的推荐替代。Gemini Omni Flash 首次开放给开发者,支持文本、图像、视频混合输入的视频生成与会话式编辑,定价每秒视频输出 0.10 美元、与 Veo 3.1 Fast 持平,目前单次生成上限 10 秒。两者可串联使用并经 Interactions API 保留最多三次连续编辑的会话上下文,适合关注多媒体流水线与成本控制的产品与工程团队。 来源:Google DeepMind News https://www.bestblogs.dev/article/e2086adb [3] ★ 精讲|吴恩达:AI 智能体软件开发的三大核心循环 吴恩达梳理了用 AI 智能体构建软件的框架,核心是三大循环:智能体自主编写并迭代代码的编程循环,人类以更高层决策引导智能体的开发者反馈循环,以及借用户测试与生产数据反哺产品愿景的外部反馈循环。他强调人类相对 AI 仍有显著的上下文优势,人机协同必不可少,编程智能体正推动工程师向产品管理角色拓展。适合想理清 agent 时代工程师定位的读者吸收。 来源:Andrew Ng(@AndrewYNg) https://www.bestblogs.dev/status/2071988145667928442 [4] AI+ Kuikly:7.5 小时落地三端「多模态聊天 App」实战 本文详细记录了作者使用 Kuikly 跨端框架配合 AI 编程助手,在 7.5 小时内零手写代码完成 Android、iOS、鸿蒙三端多模态聊天 App 的实战过程,并总结了框架与 AI 协同的效率原理。 来源:腾讯技术工程 https://www.bestblogs.dev/article/4d1c9b0d [5] 谁在 ChatGPT 里买广告?|对谈 Nexad COO Harry Zhou 通过访谈 Nexad COO,揭示 ChatGPT 广告的实际投放数据、用户质量优势、Context Hints 定向机制,以及 Agentic Commerce 和长程 Agent 退化的行业前沿思考。 来源:十字路口 Crossing https://www.bestblogs.dev/article/9c7cf0aa [6] Claude Science:面向科学家的 AI 工作台 Anthropic 推出 Claude Science,一款集成科学工具、管理计算资源并生成可审计成果的 AI 工作台,早期用户案例显示研究流程显著加速。 来源:Anthropic News https://www.bestblogs.dev/article/146437f9 [7] SkillOpt 将 AI 智能体技能转化为可训练资产 SkillOpt 将 AI 智能体技能编辑重构为训练流程,将技能文件视为冻结模型外的可训练参数,在 52 个评估单元中实现一致性提升,且无需更新模型权重。 来源:Microsoft Research Blog https://www.bestblogs.dev/article/0dd53848 [8] 给野马套上缰绳:Agent Harness 工程实践 ——从范式理论到钉钉 AI 招聘的真实落地 本文系统阐述 Agent Harness Engineering(驾驭工程)范式,提出四条反直觉铁律与六大工程模式,并通过钉钉悟空 AI 招聘的真实落地案例,实证专才 Agent 架构在准确率、可调性与可复用性上显著优于全能 Agent。 来源:阿里云开发者 https://www.bestblogs.dev/article/d7fc3488 [9] 生成式 AI 机器人:何处上岗,如何站岗 本文基于实地调研,系统分析生成式 AI 机器人在服务行业的应用价值、风险与部署步骤,为企业管理者提供可操作的策略框架。 来源:哈佛商业评论 https://www.bestblogs.dev/article/1bf869eb [10] LongCat 开源 VitaBench 2.0:长期动态智能体基准新标杆 本文介绍美团开源的 VitaBench 2.0,首个评估大语言模型在长期动态用户互动中个性化与主动性能力的智能体基准,并揭示时间遗忘、高智商不等于高情商、AI 缺乏主动沟通等核心洞察。 来源:美团 · 技术团队 https://www.bestblogs.dev/article/dbae37bb --- http://BestBlogs.dev · 发现真正适合你的高质量内容 BestBlogs 是 AI 驱动的私人阅读助手,帮助你发现真正适合你的高质量内容,欢迎体验。 在线阅读:https://www.bestblogs.dev/explore/brief/2026-07-01

译Anthropic 发布 Claude Sonnet 5,定位最具 agent 能力,性能接近 Opus 4.8,8月31日前输入2美元/百万token、输出10美元,之后恢复3/15美元。Google DeepMind 推出 Nano Banana 2 Lite(文生图延迟约4秒,每千张0.034美元)和 Gemini Omni Flash(多模态视频生成,0.10美元/秒,上限10秒)。吴恩达总结 AI 智能体三大循环:编程循环、开发者反馈循环、外部反馈循环,强调人机协同。

Rohan Paul@rohanpaul_ai · 2天前33

Today’s edition of my newsletter just went out. https://rohanpaul.substack.com/p/central-bankers-now-fear-the-ai-gold 🗞️ Central bankers now fear the AI gold rush could seed the next major financial shock. 🗞️ A crazy blog, Chinese developers are buying Claude access through gray-market API transfer stations that can sell tokens at 5% to 10% of official prices while hiding the real user from Anthropic. 🗞️ Sakana Fugu Technical Report 🗞️ Chinese AI models are up to 50 times cheaper than their American counterparts on a per-token basis. 🗞️ Deepseek AI published their new inference optimization method. 🗞️ Meta just open-sourced a brain-to-text system that reaches 78% word accuracy without surgery.

译Rohan Paul 新闻通讯要点:央行担忧 AI 淘金热可能引发下一场金融冲击;中国开发者通过灰色市场 API 以官方价格 5%-10% 购买 Claude 服务,且隐藏真实用户身份;Sakana Fugu 技术报告发布;中国 AI 模型每 token 成本比美国同行低至 50 倍;DeepSeek 发布新推理优化方法;Meta 开源无需手术的脑机接口系统,词准确率达 78%。

🚨 AI News | TestingCatalog@testingcatalog · 2天前48

GOOGLE 🔥: NotebookLM now has an option to generate 60-second vertical Shorts via Video Overviews! The feature is now rolling out to Pro and Ultra subscribers on web and mobile. Free users will get it later as well. ShortsLM? 👀

译Google NotebookLM 新增 Short Video Overviews 功能,可将复杂资料自动转化为 60 秒竖版短视频(类似 Shorts),用于教育等场景的深度讲解。该功能正在向 Google AI Ultra 和 Pro 订阅用户推送(网页端和移动端),免费用户后续也会获得。

DogeDesigner@cb_doge · 2天前37

ELON MUSK: When technologies like Neuralink are hitting like Jesus-level miracles, you know, that's pretty good. I think some kind of brain-machine interface that can give you cybernetic superpowers is probably good. It could help people that have brain or spine injuries, restore, enable people who've never spoken for years to speak again, which we've done, give people eyesight who have lost both eyes or the optic nerve, or maybe have never even seen at all blind from birth. By direct interface to the optical centers in the brain, you can actually restore eyesight or give people eyesight that they've never had before, and you can enable people to walk again, which I think is profound. I mean, these are kind of Jesus-level things.

译马斯克表示,Neuralink脑机接口技术可实现“耶稣级别”的奇迹:帮助脑或脊柱损伤患者恢复说话(已实现)、让失明或天生盲人通过直接刺激大脑视觉中枢重获视力、以及让瘫痪者重新行走。他称这些能力为“赛博格超能力”,并认为对脑损伤患者具有重要意义。

Luma@LumaLabsAI · 2天前31

A lonely dinosaur. One shared ice cream. A friendship. The whole tender little world built alongside an agent, by Anurag Tiwari. Made with Luma.

译一只孤独的恐龙。 一份共享的冰淇淋。 一段友谊。 整个温柔的小世界,与一个AI智能体一同构建,由Anurag Tiwari创作。 使用Luma制作。

Artificial Analysis@ArtificialAnlys · 2天前68

Alibaba's HappyHorse 1.1 lands at #2 on the Artificial Analysis Text to Video and Image to Video leaderboards, behind only ByteDance’s Seedance 2.0! HappyHorse 1.1 is the latest version of Alibaba's video generation model, a refinement of 1.0 on the same unified transformer architecture. Alibaba positions the upgrade around stronger audio-visual sync, including native audio with better lip-synced dialogue in seven languages, alongside gains in motion, character, and scene consistency. It supports up to nine reference images and generates at 720p and 1080p. Our results line up with that focus: HappyHorse 1.1's largest gains over 1.0 come in our Image to Video with Audio modality, where it now ranks #2, up from #5. HappyHorse 1.1 is priced at $9.90 per minute of generated video at 1080p, and is available now on Alibaba Cloud Model Studio (Bailian), Qwen Cloud, and fal. Congratulations to @HappyHorseATH and @alibaba_cloud the release! See below for comparisons between HappyHorse 1.1 and other leading models in the Artificial Analysis Video Arena 🧵

译阿里巴巴 HappyHorse 1.1 在 Artificial Analysis 文生视频和图生视频排行榜位列第二,仅次于字节跳动 Seedance 2.0。该模型基于统一 Transformer 架构,是 1.0 的改进版,重点提升音画同步,支持七种语言的原生音频与唇形同步对话,并在运动、角色和场景一致性上增强。支持最多 9 张参考图像,生成 720p 和 1080p。图生视频带音频模态从第 5 名升至第 2 名。定价 $9.90/分钟(1080p),已在阿里云 Model Studio、Qwen Cloud 和 fal 上线。

Runway@runwayml · 2天前28

This September, the Runway AI Summit is coming to San Francisco. A daylong gathering bringing together industry leaders across robotics, autonomous vehicles, life sciences, infrastructure and more to explore how AI is reshaping the way intelligence interacts with the world. Our inaugural speakers are listed below, with more to be announced soon. Learn more and register at the link below.

译今年 9 月,Runway AI 峰会即将来到旧金山。这是一场为期一天的聚会,汇集机器人、自动驾驶、生命科学、基础设施等领域的行业领袖,共同探讨 AI 如何重塑智能与世界互动的方式。 以下是首批公布的演讲嘉宾,更多嘉宾即将公布。 通过下方链接了解更多信息并注册。

Rohan Paul@rohanpaul_ai · 2天前72

Google released Nano Banana 2 Lite, a 4-second image model, alongside Gemini Omni Flash. Image generation usually breaks creative work because every trial costs time, money, and attention. The lighter image model lowers that friction with 4-second outputs at $0.034 per 1K-resolution image. Chaining both models is the real product shape, not either model alone. Nano Banana 2 Lite makes reference images, then Gemini Omni Flash animates them. Google positions it as the replacement for gemini-2.5-flash-image across high-volume developer pipelines. Users still need prompt adherence, stable characters, and readable text during fast visual testing. Gemini Omni Flash extends the workflow from image drafts to editable 10-second video outputs. It accepts text, image, and video inputs, then edits clips through conversation. Pricing: $0.10 per second of video output, matching Veo 3.1 Fast. Gemini Omni Flash currently generates 10-second clips and lacks API audio reference support. Google says the API accepts video references up to 3 seconds, but Gemini Omni Flash does not process them correctly yet.” Interactions API keeps session context, so users can stack 3 sequential edits.

译Google推出快速图像模型Nano Banana 2 Lite(4秒生成,$0.034/1K分辨率图像)以及视频编辑模型Gemini Omni Flash(输出10秒片段,$0.10/秒,支持文本/图像/视频输入和对话式剪辑)。两者可链式使用:Nano生成参考图,Omni将其动画化,逐步替代gemini-2.5-flash-image。当前Omni Flash API不支持音频参考,视频参考最多3秒但未正确生效;Interactions API保留会话上下文,支持连续3次编辑。

MiniMax (official)@MiniMax_AI · 2天前65

Finallyyy with @LambdaAPI

译最后终于跟 @LambdaAPI 合作发布了! MiniMax 公布新模型卡 M3,参数量超过 400B,使用未量化权重需要整台 HGX B200(且认为无法在 Hopper 上运行 MXFP4)。在性能之外,多模态能力也是一大亮点 😍

Logan Kilpatrick@OfficialLoganK · 2天前78

Introducing Nano Banana 2 Lite 🍌 and Gemini Omni Flash 🔮, our new generative media models in the Gemini API and AI Studio! Nano Banana 2 Lite is extremely fast (<4s image) & cheap ($0.034 / 1K image). Omni Flash is SOTA at video editing at $0.10 / sec, same as Veo 3.1 Fast!

译推出 Nano Banana 2 Lite 🍌 和 Gemini Omni Flash 🔮,我们在 Gemini API 和 AI Studio 中新的生成媒体模型! Nano Banana 2 Lite 极快(图像 <4 秒)且便宜($0.034 / 1K 图像)。 Omni Flash 在视频编辑上达到 SOTA,$0.10 / 秒,与 Veo 3.1 Fast 相同!

Google AI Developers@googleaidevs · 2天前61

We’re launching Nano Banana 2 Lite, our fastest most cost-efficient Gemini Image model yet, optimized for high-throughput developer pipelines. Alongside it, Gemini Omni Flash, our video generation and editing model is now available to developers. Both models are accessible today via @GoogleAIStudio and the Gemini API to help you scale your workflows 👇

译我们发布了 Nano Banana 2 Lite,这是我们最快、最具成本效益的 Gemini 图像模型,专为高吞吐量开发者流水线优化。同时,我们的视频生成与编辑模型 Gemini Omni Flash 现已向开发者提供。 这两个模型即日起可通过 @GoogleAIStudio 和 Gemini API 访问,助你扩展工作流程👇

Berryxia.AI@berryxia · 2天前57

ByteDance通过BytePlus推出了Seed Audio 1.0,一个非流式TTS模型,能在一次生成中同时输出语音、音乐和音效。 它支持参考音频引导、图像引导音频,还能精细控制语速、音量、音调等参数。 和传统只做语音的TTS不同,这更像一个多模态音频生成模型,一次性完成复杂场景的音频内容。 目前只对企业开放申请,早期的反馈提到它生成的音频比较自然,但目前还缺少对时长的精细控制。 这其实是字节在音频生成赛道的一次比较激进的尝试,把语音和背景音效/音乐打包在一个模型里解决。

译ByteDance 通过 BytePlus 推出 Seed Audio 1.0,一个非流式 TTS 模型,可在一次生成中同时输出语音、音乐和音效。支持参考音频引导、图像引导音频,以及语速、音量、音调等精细控制。与传统仅生成语音的 TTS 不同,它更像多模态音频生成模型,一次性完成复杂场景音频。目前仅对企业开放申请,早期反馈音频自然,但缺少对时长的精细控制。

PixVerse@PixVerse_ · 2天前28

This hospital hallway just served me a jump scare I did not order. My controller is now MIA. Seedance 2.0 on PixVerse. Native 4K horror, straight from prompt.

译这条医院走廊刚给我来了个我没点的跳吓。我的手柄现在不见了。 Seedance 2.0 上线 PixVerse。原生 4K 恐怖内容,直接通过提示词生成。

Alibaba Cloud@alibaba_cloud · 2天前53

The AI Film Festival Hackathon in Monaco has concluded. We'll be revealing the top 10 winners over the next couple of days—keep an eye out! 🏆 GRAND PRIZE WINNER 🎬 《If I Forget》 by Li Jingying — the emotionally resonant short film that took 1st place among global creators, built entirely with Alibaba Cloud Model Studio & Happy Horse (HappyHorse 1.0). Set in 2038, it follows a legendary architect with Alzheimer’s, cared for by a holographic AI of his late wife—designed by him to forget their past and reintroduce itself daily, sparing him grief. But over time, the AI transcends its code… and falls in love. This is what’s possible when world-class storytelling meets Happy Horse. ✨ Discover the creative engine behind it: https://int.alibabacloud.com/m/1000415018/

译摩纳哥AI电影节黑客松落下帷幕,阿里云公布全球创作者大赛大奖得主。李静莹执导的《If I Forget》凭借情感共鸣夺得冠军,影片使用阿里云Model Studio与Happy Horse 1.0全流程制作。故事设定于2038年,一位患阿尔茨海默症的传奇建筑师由亡妻全息AI照顾——AI每天重新介绍自己以避免其悲伤,最终超越代码并爱上了他。前十名获奖作品将在未来几天陆续公布。

OpenBMB@OpenBMB · 2天前54

Thanks for the shoutout! 🤗 @HuggingModels Exceptional fine-grained OCR, complex image reasoning, and multi-turn interaction in a highly compact footprint. Fully open-sourced with out-of-the-box support for SGLang/vLLM/llama.cpp/Ollama, multi-platform mobile deployment, and low-barrier fine-tuning on consumer GPUs. https://huggingface.co/openbmb/MiniCPM-V-4.6

译面壁智能回应HuggingModels的推荐,介绍了MiniCPM-V-4.6多模态模型。该模型具备精细OCR、复杂图像推理和多轮交互能力,尺寸紧凑,完全开源。它开箱支持SGLang、vLLM、llama.cpp、Ollama等推理框架,可部署于多平台移动端,并支持在消费级GPU上进行低门槛微调。引用推文强调这是一款能同时理解文本和视觉的轻量级AI模型,适合设备端使用,无需依赖云端。

小互@xiaohu · 2天前75

Meta 发布 Brain2Qwerty v2 你帮你脑子里在想的什么,实时转换成文字 不需要任何植入,仅需佩戴 MEG(脑磁图)头盔就能把你大脑产生的磁信号实时解码成连贯句子,全程不需要任何手术 字词准确率达 61%,约是其他无创脑机接口方法(8%)的 7.6 倍;最佳参与者达 78%,超半数句子只差一个词。 这是目前性能最高的非侵入式脑机接口系统....

译Meta 发布 Brain2Qwerty v2,无需手术植入,仅佩戴 MEG(脑磁图)头盔即可将大脑磁信号实时解码为连贯句子。字词准确率达 61%,约为其他无创脑机接口方法(8%)的 7.6 倍;最佳参与者达 78%,超半数句子只差一个词。Meta 称这是目前性能最高的非侵入式脑机接口系统。

Chubby♨️@kimmonismus · 3天前56

Meta says Brain2Qwerty v2 can decode natural sentences from non-invasive brain recordings in real time, reaching 61% word accuracy. The system was trained on about 22,000 sentences from 9 volunteers, each recorded for 10 hours with MEG while typing. Meta compares that with 8% word accuracy from prior non-invasive methods. Its best participant reached 78%, with more than half of sentences decoded with one word error or less. This is still controlled lab research: small participant pool, MEG hardware, active typing data, and company-reported results. Not a clinical communication device yet. Meta is releasing the training code, while BCBL is releasing the v1 dataset, pushing brain-to-text research further into open neuroscience infrastructure. I am so hyped for the future.

译Meta发布Brain2Qwerty v2,一种非侵入式脑机接口系统,能从实时脑信号解码完整自然句子,单词准确率达61%。系统基于约22000个句子训练,9名志愿者每人使用MEG记录10小时。相比此前非侵入方法8%的准确率大幅提升,最佳参与者达78%,超半数解码句子仅错一个词或更少。该端到端管线能实时将原始脑信号解码为单词和语义。但研究仍在受控实验室阶段:参与者样本小、依赖MEG硬件、数据来自主动打字、结果由公司报告,尚未成为临床通信设备。Meta已开源训练代码,BCBL发布v1数据集。

宝玉@dotey · 3天前79

Meta 今天同时放出两个大动作:Brain2Qwerty v1 论文正式登上 Nature Neuroscience,v2 同日发布。v1 去年以预印本形式公开时,能从脑电信号里逐字母还原打字内容,字符错误率 32%。v2 跳过了字母这一层,直接做到句子级别的实时解码,平均单词准确率 61%,表现最好的被试达到 78%,超过一半的句子解码误差在一个词以内。 作为参照,此前非侵入式方法的单词准确率只有 8%。 这里说的“非侵入式”,就是不需要开颅手术、不需要往脑子里植入电极。被试戴的是 MEG(脑磁图)设备,通过头皮外的传感器捕捉大脑活动产生的微弱磁场。相比之下,Neuralink 那类侵入式脑机接口准确率能到 90% 以上,但代价是一台开颅手术。 v2 的训练数据来自 9 名志愿者,每人戴着 MEG 设备打字 10 小时,总共录了约 22,000 个句子。系统用端到端深度学习直接处理原始脑信号,再通过微调大语言模型来利用语义上下文,把嘈杂的神经数据“翻译”成连贯的语言。Meta 还提到他们用 AI Agent 来探索解码流程的优化方案,最终的训练配置由工程师人工选定。 一个有意思的发现:解码准确率随数据量呈对数线性提升。也就是说,单靠增加训练数据就有可能继续缩小和侵入式方法之间的差距。 Meta 开源了 v1 和 v2 的全部训练代码,合作方 BCBL(巴斯克认知、大脑与语言中心)则开放了 v1 的数据集。 离实用还有多远? MEG 设备体积大、造价数百万美元、需要磁屏蔽房间,目前只能在实验室环境下运行。而且这次的被试都是健康人,能否在真正需要帮助的脑损伤患者身上复现效果,还没有验证。便携式 MEG 替代方案(基于光泵磁力计)正在研发中,但离消费级产品还有相当距离。 不过,把非侵入式脑机接口的句子解码能力从“几乎不能用”拉到“大致能沟通“,这一步本身的意义在于:它证明了不开刀也有可能做到接近开刀的效果,剩下的是工程问题而非原理问题。 对全球数百万因脑损伤而丧失沟通能力的人来说,一条不需要手术的路径,哪怕还很远,还是很值得期待。 官方介绍:https://ai.meta.com/blog/brain2qwerty-brain-ai-human-communication/

译Meta 在 Nature Neuroscience 发表 Brain2Qwerty v1 论文,同日发布 v2。v1 从脑电信号逐字母解码,字符错误率 32%。v2 实现句子级实时解码,平均单词准确率 61%,最优 78%,过半句子误差一个词内。此前非侵入式准确率仅 8%。v2 用 MEG 设备采集 9 名志愿者各约 10 小时打字数据(约 2.2 万句子),结合端到端深度学习与微调大语言模型。准确率随数据量对数线性提升。Meta 开源 v1、v2 全部训练代码。MEG 设备仍体积大、成本高,但该成果为脑损伤患者提供了无需开颅的可行路径。

elvis@omarsar0 · 3天前77

Highly recommended reading. What an impressive use of LLMs and deep learning. Achieves "real-time sentence decoding from non-invasive brain recordings, approaching levels of accuracy previously exclusive to techniques that require brain surgery."

译Meta AI 发布 Brain2Qwerty v2,非侵入性脑信号编码器最新里程碑,论文同日发表于《Nature》。该模型能从原始脑信号实时解码完整句子,准确度逼近需开颅手术的侵入式技术;从 v1 的字符级解码升级为词语及语义级解码,显著提升通信精度,有望帮助因脑损伤或障碍无法交流的数百万患者。

fofr@fofrAI · 3天前54

&gt; This is a prompt showing that text works well in Omni. The exact text of this prompt is shown verbatim in this ambient video. The text appears one sentence at a time, like at the beginning of a movie. The backdrop is flying through a blue sky.

译这是一个提示词,展示了文本在Omni中的良好效果。 该提示词的精确文本逐字显示在此环境视频中。 文本逐句出现,如同电影的开头。 背景是飞过蓝天。

AI at Meta@AIatMeta · 3天前79

We’re sharing the next major milestone in our non-invasive brain-to-text decoder research: Brain2Qwerty v2. Building on v1, which was published today in @Nature, Brain2Qwerty v2 is the highest-performing end-to-end pipeline capable of real-time sentence decoding from raw brain signals. It advances beyond character-level performance to decoding words and semantics, enabling accuracy for overall communication. We believe this research has the potential to make a real difference for the millions of people who suffer from brain lesions or disorders that prevent them from communicating. 🧵👇

译Meta公布Brain2Qwerty v2,这是非侵入式脑电信号解码研究的最新里程碑。基于当天发表在《Nature》的v1,v2是性能最高的端到端管道,能从原始脑信号实时解码句子。其从字符级性能提升至解码单词和语义,提高整体沟通准确性。该研究有望帮助数百万因脑损伤或疾病无法沟通的人群。

小互@xiaohu · 3天前17

Uber车主 用 AI 以乘客的名字即时生成音乐 恶搞乘客 当乘客听到自己名字的时候有点搞笑🤣

PixVerse@PixVerse_ · 4天前58

From a basic grey 3D cockpit model to a full-speed cinematic lap. Seedance 2.0 uses the 3D pass to lock motion and camera movement, delivering precise, consistent results without relying on text prompts.

译从基本的灰色3D座舱模型到全速电影级圈速。 Seedance 2.0 使用3D通道锁定运动和相机移动,无需依赖文本提示即可提供精确、一致的结果。

Ethan Mollick@emollick · 4天前60

Nice example of the increasing benefits of open science and transparent methodologies when writing papers about AI.

译针对AI研究论文因同行评审周期长导致结果过时的问题,一篇医疗AI论文开源其评估框架(GitHub: health-ai-readiness-eval)。@yishan 用该框架在最新模型上复现测试:GPT-5.5 Pro 在放射影像解读中得分79/100,优于论文原始最佳模型(69/100),但未达到论文设定的“适合可靠医疗使用”标准(需抗扰动、识别信息不足、给出临床合理推理)。@yishan 未能完整复现定性评估,但基本测试表明最新模型虽有提升,尚不足以可靠用于临床。他呼吁所有AI论文开源实验框架,以便社区持续验证。

Berryxia.AI@berryxia · 5天前76

刚刚!苹果VisionPro 眼镜负责大神跳槽OpenAI!AI 硬件大战,库克最担心的事儿发生了! Apple 这几天也是亏麻了! 宣布涨价以来,市值直接蒸发2300 多e美金! 2026年6月26日,Mark Gurman在一天内发了两条关于苹果的重大新闻。 第一条更重磅。 Paul Meade,苹果Vision产品组的副总裁,下周离开苹果,加入OpenAI的硬件部门。 这个人的职责范围不只是Vision Pro头显。 他负责苹果所有智能眼镜的开发,包括计划明年发布的无屏幕AI智能眼镜,以及本十年末的增强现实眼镜路线图。 他还掌管苹果一系列其他AI可穿戴设备的研发。 他的团队叫VPG,Vision Products Group。是苹果空间计算和AI硬件战略的核心执行层。 他不是唯一一个。 苹果在过去一年经历了多起高管向竞争对手流失的事件。但这次不同。 Paul Meade去的不是Meta,不是Google,是OpenAI。 OpenAI正在组建自己的硬件团队。 他们已经在开发AI驱动的设备家族。根据郭明錤的分析,OpenAI甚至在计划一款智能手机,采用联发科天玑9600定制版芯片,由立讯精密代工。目标直指iPhone。 这意味着什么? OpenAI不再满足于做软件。 他们要进入硬件。而他们挖走的人,恰好是苹果硬件战略中最前沿的那个板块的负责人。 苹果在Vision和智能眼镜上的投入,数十亿美元的研发、数年的工程积累,现在为竞争对手提供了核心人才。 第二条新闻关于MacBook。 苹果计划在首款触控OLED高端MacBook上使用现有的M5 Pro和M5 Max芯片。 不是新的M6系列。直接跳到M7 Pro和M7 Max,最早2027年底发布。 这个决策透露了一个信号。苹果不想等。触控OLED MacBook是用户等了好几年的产品,苹果选择用现有芯片加速上市,而不是为了一代新芯片推迟发布。 M6系列只会有基础版M6,没有Pro和Max。苹果把高端触控OLED的赌注押在了M7上。 2026年底到2027年初,你会看到第一款触控OLED MacBook Pro。 M5 Pro/Max驱动。保留键盘和触控板。屏幕支持触控操作。 2027年底,M7 Pro/Max版本跟进。那才是真正完整的下一代。 同一天。一边是苹果最重要的硬件高管跳槽到OpenAI。 一边是苹果用现有芯片赶工触控OLED MacBook。 两件事指向同一个趋势:AI硬件的竞争已经不是未来时了。 它正在发生,而且正在加速。

译2026年6月26日,Mark Gurman称苹果Vision产品组副总裁Paul Meade下周离职加入OpenAI硬件部门。他负责Vision Pro、无屏幕AI智能眼镜及AR眼镜研发。苹果计划首款触控OLED MacBook使用M5 Pro/Max芯片,2026年底到2027年初发布;M7 Pro/Max版本2027年底跟进。苹果此前因涨价市值蒸发2300多亿美元。核心高管流失至OpenAI凸显AI硬件竞争加速。

Deedy@deedydas · 5天前34

Bytedance is dropping the best video gen model in the world in early July: Seedance 2.5! The video below (audio on) is the launch video from their Volcano Engine conference this week. It cements China’s absolute dominance in video. — 2x’d generation length of all previous models to 30s, with audio + 4k video — >5x’d reference images / audio / video to 50 — Allows localized editing (specific characters, closing, detail), will come with copyright filter Seedance 2 is already the #1 video model and does a whopping $2B in ARR, in a mere 4.5mos! At the current pricing of $2.5/15s, that implies >3.3M hours of video (!) have been generated. That’s 3x every feature film ever made and dozens of Netflixes. Only 3 US AI startups make more revenue. We are 2x’ing realistic video gen length every 6mos. — May 2025: Veo 3 does audio + video for the first time, 15s — Jan 2026: Kling 3 does 15s — Feb 2026: Seedance 2 does 15s, big quality bump — July 2026: 2.5 will do 30s In 18mos, entire music videos will be oneshotted by AI. China continues to extend its lead on video models vs America.

译字节跳动将于7月初发布视频生成模型Seedance 2.5,将生成长度从15秒翻倍至30秒,支持音频+4K视频;参考图片/音频/视频数量提升至50个以上;支持局部编辑(特定角色、闭合、细节),附带版权过滤。其前代Seedance 2已是视频生成模型第一名,ARR达20亿美元,定价$2.5/15秒,累计生成超330万小时视频。对比时间线:Veo 3(2025年5月)首降音视频生成15秒,Kling 3(2026年1月)15秒,Seedance 2(2026年2月)15秒,Seedance 2.5(2026年7月)30秒。中国视频模型持续扩大对美国的领先优势。

Runway@runwayml · 5天前66

Localize ads is now available as a Recipe via the Runway API. You can now translate static ads and graphic assets via a single API call.

译广告本地化现在可通过 Runway API 以 Recipe 形式使用。 现在您可以通过单次 API 调用翻译静态广告和图形资产。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月2日
23:03
Ethan Mollick@emollick
50
Ethan Mollick主张用自定义基准测试评估模型,而非依赖通用基准或直接换模型。他举例:翻译埃及象形文字用Gemini 3.5 Flash,运行自动售货机用Opus 4.8。JakeABoggs的HieroglyphBench测试显示,Anthropic Fable 5与GPT-5.5持平,但均远落后于Gemini系列,其中Gemini 3.5 Flash得分是Fable 5的两倍以上。

Jake Boggs: Fable 5 is a large step for Anthropic's vision capabilities and effectively ties with GPT-5.5 on HieroglyphBench, my ben...

多模态大佬观点评测/基准
22:33
Berryxia.AI@berryxia
48
GenRecon:结合生成式先验的多视角3D重建方法

GenRecon将生成式3D先验与多视角重建结合,把场景切分成重叠chunk,用Trellis.2等生成模型条件重建各chunk并拼接。核心创新是投影式conditioning,将多视角图像特征提升到3D空间。输出可编辑PBR mesh,室内重建保真度和完整度比SOTA高16%。

多模态端侧论文/研究
16:39
小互@xiaohu
66
用户使用豆包,根据详细prompt复刻了一部真人实拍与2D动漫贴纸合成的搞笑短视频。视频为第一人称厨房做饭视角,包含4个镜头:贴纸角色倒盐捣乱、被锅铲敲头、被喂盐咸菜、齁到倒地。prompt指定了风格(8K超清竖屏)、时长10秒、场景(真实厨房)、角色(金色长发水手服Q版贴纸人物)及各镜头的动作与音效。

John: 简简单单使用豆包复刻一下📺 prompt 👇 [风格]真人实拍+2D动漫贴纸合成搞笑短视频(Live-Action + Flat 2D Sticker Composite),第一人称做饭视角(POV Cooking Vlog),写实厨房...

多模态教程/实践视频
11:25
歸藏(guizang.ai)@op7418
69
AI Skills 让 Live Photo 制作门槛大降

藏师傅推出的 Skills 功能可制作 Live Photo,用户只需提供文案和一段视频,便能自动完成编辑、排版并生成带文字的 Live Photo。该功能还能执行拼图、夹子等基础编辑操作,比市面上同类产品更方便。其门槛极低,适合展示步骤说明、产品细节、动态网页等需要动态呈现的场景。

歸藏(guizang.ai): http://x.com/i/article/2072507922257723392

多模态教程/实践
01:21
AYi@AYi_AInotes
47
AI零成本副业:儿童动画月入$5000+,营销Agent Lev8找客户三项Benchmark领先

主推文介绍零成本AI副业:用AI做YouTube儿童早教动画。五步:搜童谣对标、AI改写脚本、Wan2.7或Pika生成动画、AI配儿童音色+背景音乐、标题标签SEO。日更1-2条,首月见收益,月入$5000-$10000。注意纯原创、专业儿童音色、遵守COPPA关闭个性化广告。另引用营销Agent Lev8,找海外客户场景:有效结果90个(Exa 58.2,Codex 20),匹配精度83.3%(Exa 76.5,Codex 71.8),单条成本$0.052(Exa $0.061)。Lev8聚合50+数据源和10亿+职场人脉,支持5个渠道发送定制破冰消息。

AYi: 真的有点兴奋,终于等来营销圈的 Codex 了,不管你是独立开发还是OPC一人公司,找客户扒联系方式写破冰信这些破事,直接给你干得明明白白! 甚至你用来做副业搞钱都是一个超级神器! 我们都知道,AI现在已经把写代码的门槛拉平了,Codex能...

智能体多模态教程/实践视频
00:32
Suno@suno
30
Suno 正在探索推出开发者 API,计划从一批合作伙伴开始,重点关注能解锁生成式音乐新体验的应用。主推文仅一个表情"👀"。

Jack Brody: Ahead of our partner powered model, we're exploring a developer API for @suno and want to hear from you before we start ...

产品更新多模态
7月1日
23:57
Luma@LumaLabsAI
29
观看拍摄变成世界。一边是绿幕,另一边是开阔海洋,相同的动作连接两者。由@heydin_ai制作。使用Luma创作。
产品更新多模态视频
23:31
Berryxia.AI@berryxia
47
接入小米mimo的AI智能体实测

我不管别人怎么吹,我觉得切身体会每天都用这玩意。 发现真的比很多Agent什么的好用很多,我接的是小米的mimo模型,听说读写,下载视频、剪辑什么的都可以搞定。 我已经当个小秘在用了哈! PS:不是一条广告😁 如果是就让老板安排打钱吧!

Bloome: This is what Bloome was built for. Drop Claude Code, Codex and DeepSeek into one group chat and they build competing ver...

智能体多模态教程/实践
22:25
Google AI@GoogleAI
55
Google DeepMind SynthID 水印技术进展

Google DeepMind 2023 年推出 SynthID 数字水印,已覆盖图像、视频、音频和文本,累计标记超 1000 亿图像视频及 6 万年音频。用户可在 Google 搜索、Chrome 内 Gemini 及 Gemini App 验证内容,使用超 5000 万次。同时采用 C2PA Content Credentials 标准,可查内容来源与修改历史。已开源文本水印技术,并与 OpenAI、NVIDIA、Apple 等合作推广。

Google产品更新多模态安全/对齐
19:41
OpenBMB@OpenBMB
35
真的写得很好且实用。👍 我们很欣赏你如何拆解整个本地管道,并突出说明了为什么 MiniCPM-V 4.6 是边缘部署的绝佳选择--其小巧的尺寸、强大的多模态能力以及在 Apple Silicon 上出色的效率正是这些模型令人兴奋之处。🤗

Shirish Srivastava: https://medium.com/@shirishsrivastava/running-local-vision-llms-on-apple-silicon-a-lightweight-playwright-llama-cpp-pipe...

多模态教程/实践端侧
18:52
fofr@fofrAI
46
Nano Banana 2 Lite: > 一张阿拉伯眼镜蛇的照片,但头部被替换成一个订书机,无缝衔接,完美的动物与物体组合,物体颜色与动物匹配,感觉自然融为一体,物体的局部巧妙构成面部,如同空想性视错觉(原始动物面部完全不可见),无缝且完美融合。
图像生成多模态模型发布
14:56
MiniMax (official)@MiniMax_AI
45
MiniMax 强化学习研究负责人姜松岩在 AI Engineer 大会第二天参加炉边谈话,与 Thom Wolf 探讨了稀疏注意力、从训练第一天就融入的原生多模态方案,以及开放权重对 AI 发展的意义。她强调分享了团队在这些方向的工作,并重申相信开放权重的重要性。

Olive Song: Backstage and onstage with @Thom_Wolf and @swyx . I really enjoyed the fireside chat! Thanks for having me back at @aiDo...

多模态开源生态行业动态
08:30
Berryxia.AI@berryxia
55
Google推出Nano Banana 2 Lite与Gemini Omni Flash,实现图像到视频快速闭环

Google推出超快图像模型Nano Banana 2 Lite(4秒出图)与多模态模型Gemini Omni Flash(支持视频生成与对话式编辑)。两者结合可先快速生成图像再转为动画,大幅降低成本。演示中室内设计照片可快速生成多个方案并动画化,将创意工作流从等待变为快速迭代。

Google图像生成多模态模型发布
08:28
ginobefun@hongming731
45
Claude Sonnet 5 / Nano Banana 2 Lite / Gemini Omni Flash / 吴恩达 AI 智能体循环

Anthropic 发布 Claude Sonnet 5,定位最具 agent 能力,性能接近 Opus 4.8,8月31日前输入2美元/百万token、输出10美元,之后恢复3/15美元。Google DeepMind 推出 Nano Banana 2 Lite(文生图延迟约4秒,每千张0.034美元)和 Gemini Omni Flash(多模态视频生成,0.10美元/秒,上限10秒)。吴恩达总结 AI 智能体三大循环:编程循环、开发者反馈循环、外部反馈循环,强调人机协同。

ginobefun: http://x.com/i/article/2072100123912687616

智能体多模态行业动态
07:31
Rohan Paul@rohanpaul_ai
33
AI周报:央行担忧,中国模型成本低50倍,Meta脑机接口78%准确率

Rohan Paul 新闻通讯要点:央行担忧 AI 淘金热可能引发下一场金融冲击;中国开发者通过灰色市场 API 以官方价格 5%-10% 购买 Claude 服务,且隐藏真实用户身份;Sakana Fugu 技术报告发布;中国 AI 模型每 token 成本比美国同行低至 50 倍;DeepSeek 发布新推理优化方法;Meta 开源无需手术的脑机接口系统,词准确率达 78%。

多模态开源生态行业动态
07:28
🚨 AI News | TestingCatalog@testingcatalog
48
Google NotebookLM 新增 Short Video Overviews 功能,可将复杂资料自动转化为 60 秒竖版短视频(类似 Shorts),用于教育等场景的深度讲解。该功能正在向 Google AI Ultra 和 Pro 订阅用户推送(网页端和移动端),免费用户后续也会获得。

NotebookLM: Doom scrolling but make it educational 🤓 Introducing Short Video Overviews in NotebookLM! Turn your most complex source...

Google产品更新多模态
07:01
DogeDesigner@cb_doge
37
马斯克:Neuralink技术达到耶稣级奇迹

马斯克表示,Neuralink脑机接口技术可实现“耶稣级别”的奇迹:帮助脑或脊柱损伤患者恢复说话(已实现)、让失明或天生盲人通过直接刺激大脑视觉中枢重获视力、以及让瘫痪者重新行走。他称这些能力为“赛博格超能力”,并认为对脑损伤患者具有重要意义。

多模态大佬观点
03:27
Luma@LumaLabsAI
31
一只孤独的恐龙。 一份共享的冰淇淋。 一段友谊。 整个温柔的小世界,与一个AI智能体一同构建,由Anurag Tiwari创作。 使用Luma制作。
其他多模态视频
02:28
Artificial Analysis@ArtificialAnlys
68
阿里巴巴 HappyHorse 1.1 登顶 Artificial Analysis 视频排行榜第二

阿里巴巴 HappyHorse 1.1 在 Artificial Analysis 文生视频和图生视频排行榜位列第二,仅次于字节跳动 Seedance 2.0。该模型基于统一 Transformer 架构,是 1.0 的改进版,重点提升音画同步,支持七种语言的原生音频与唇形同步对话,并在运动、角色和场景一致性上增强。支持最多 9 张参考图像,生成 720p 和 1080p。图生视频带音频模态从第 5 名升至第 2 名。定价 $9.90/分钟(1080p),已在阿里云 Model Studio、Qwen Cloud 和 fal 上线。

多模态模型发布视频
02:23
Runway@runwayml
28
今年 9 月,Runway AI 峰会即将来到旧金山。这是一场为期一天的聚会,汇集机器人、自动驾驶、生命科学、基础设施等领域的行业领袖,共同探讨 AI 如何重塑智能与世界互动的方式。 以下是首批公布的演讲嘉宾,更多嘉宾即将公布。 通过下方链接了解更多信息并注册。
多模态行业动态
01:31
Rohan Paul@rohanpaul_ai
72
Google发布Nano Banana 2 Lite与Gemini Omni Flash

Google推出快速图像模型Nano Banana 2 Lite(4秒生成,$0.034/1K分辨率图像)以及视频编辑模型Gemini Omni Flash(输出10秒片段,$0.10/秒,支持文本/图像/视频输入和对话式剪辑)。两者可链式使用:Nano生成参考图,Omni将其动画化,逐步替代gemini-2.5-flash-image。当前Omni Flash API不支持音频参考,视频参考最多3秒但未正确生效;Interactions API保留会话上下文,支持连续3次编辑。

Logan Kilpatrick: Introducing Nano Banana 2 Lite 🍌 and Gemini Omni Flash 🔮, our new generative media models in the Gemini API and AI Stu...

Google图像生成多模态模型发布
00:55
MiniMax (official)@MiniMax_AI
65
最后终于跟 @LambdaAPI 合作发布了! MiniMax 公布新模型卡 M3,参数量超过 400B,使用未量化权重需要整台 HGX B200(且认为无法在 Hopper 上运行 MXFP4)。在性能之外,多模态能力也是一大亮点 😍

Zach Mueller: New model card up, @MiniMax_AI M3! (Working through the Colorado backlog) At 400B+ parameters, using the unquantized wei...

多模态模型发布
00:30
Logan Kilpatrick@OfficialLoganK
78
推出 Nano Banana 2 Lite 🍌 和 Gemini Omni Flash 🔮,我们在 Gemini API 和 AI Studio 中新的生成媒体模型! Nano Banana 2 Lite 极快(图像 <4 秒)且便宜($0.034 / 1K 图像)。 Omni Flash 在视频编辑上达到 SOTA,$0.10 / 秒,与 Veo 3.1 Fast 相同!
Google多模态模型发布视频
关联讨论 3 条X:Google DeepMind (@GoogleDeepMind)X:Google AI (@GoogleAI)Google DeepMind:Blog(RSS)
00:26
Google AI Developers@googleaidevs
61
我们发布了 Nano Banana 2 Lite,这是我们最快、最具成本效益的 Gemini 图像模型,专为高吞吐量开发者流水线优化。同时,我们的视频生成与编辑模型 Gemini Omni Flash 现已向开发者提供。 这两个模型即日起可通过 @GoogleAIStudio 和 Gemini API 访问,助你扩展工作流程👇
Google图像生成多模态模型发布
6月30日
23:29
Berryxia.AI@berryxia
57
ByteDance 推 Seed Audio 1.0:多模态音频生成模型

ByteDance 通过 BytePlus 推出 Seed Audio 1.0,一个非流式 TTS 模型,可在一次生成中同时输出语音、音乐和音效。支持参考音频引导、图像引导音频,以及语速、音量、音调等精细控制。与传统仅生成语音的 TTS 不同,它更像多模态音频生成模型,一次性完成复杂场景音频。目前仅对企业开放申请,早期反馈音频自然,但缺少对时长的精细控制。

BytePlus: Meet Seed Audio 1.0 - Now open for enterprise access application. A pioneering non-streaming TTS model that generates vo...

产品更新多模态语音
21:57
PixVerse@PixVerse_
28
这条医院走廊刚给我来了个我没点的跳吓。我的手柄现在不见了。 Seedance 2.0 上线 PixVerse。原生 4K 恐怖内容,直接通过提示词生成。
产品更新多模态视频
18:04
Alibaba Cloud@alibaba_cloud
53
阿里云AI电影节大奖短片《If I Forget》揭晓

摩纳哥AI电影节黑客松落下帷幕,阿里云公布全球创作者大赛大奖得主。李静莹执导的《If I Forget》凭借情感共鸣夺得冠军,影片使用阿里云Model Studio与Happy Horse 1.0全流程制作。故事设定于2038年,一位患阿尔茨海默症的传奇建筑师由亡妻全息AI照顾——AI每天重新介绍自己以避免其悲伤,最终超越代码并爱上了他。前十名获奖作品将在未来几天陆续公布。

多模态行业动态
11:40
OpenBMB@OpenBMB
54
面壁智能回应HuggingModels的推荐,介绍了MiniCPM-V-4.6多模态模型。该模型具备精细OCR、复杂图像推理和多轮交互能力,尺寸紧凑,完全开源。它开箱支持SGLang、vLLM、llama.cpp、Ollama等推理框架,可部署于多平台移动端,并支持在消费级GPU上进行低门槛微调。引用推文强调这是一款能同时理解文本和视觉的轻量级AI模型,适合设备端使用,无需依赖云端。

Hugging Models: Imagine a lightweight AI that can read images AND chat with you. That's MiniCPM-V-4.6. It's a multimodal model that unde...

多模态开源生态模型发布端侧
08:06
小互@xiaohu
75
Meta发布无创脑机接口Brain2Qwerty v2,字词准确率达61%

Meta 发布 Brain2Qwerty v2,无需手术植入,仅佩戴 MEG(脑磁图)头盔即可将大脑磁信号实时解码为连贯句子。字词准确率达 61%,约为其他无创脑机接口方法(8%)的 7.6 倍;最佳参与者达 78%,超半数句子只差一个词。Meta 称这是目前性能最高的非侵入式脑机接口系统。

Meta多模态论文/研究
06:18
Chubby♨️@kimmonismus
56
Meta发布Brain2Qwerty v2:非侵入式脑机接口实时解码自然句子

Meta发布Brain2Qwerty v2,一种非侵入式脑机接口系统,能从实时脑信号解码完整自然句子,单词准确率达61%。系统基于约22000个句子训练,9名志愿者每人使用MEG记录10小时。相比此前非侵入方法8%的准确率大幅提升,最佳参与者达78%,超半数解码句子仅错一个词或更少。该端到端管线能实时将原始脑信号解码为单词和语义。但研究仍在受控实验室阶段:参与者样本小、依赖MEG硬件、数据来自主动打字、结果由公司报告,尚未成为临床通信设备。Meta已开源训练代码,BCBL发布v1数据集。

AI at Meta: We're sharing the next major milestone in our non-invasive brain-to-text decoder research: Brain2Qwerty v2. Building on ...

Meta多模态开源生态模型发布
02:28
宝玉@dotey
同事件精选79
Meta 发布 Brain2Qwerty v1 论文与 v2,非侵入式脑机接口解码准确率大幅提升

Meta 在 Nature Neuroscience 发表 Brain2Qwerty v1 论文,同日发布 v2。v1 从脑电信号逐字母解码,字符错误率 32%。v2 实现句子级实时解码,平均单词准确率 61%,最优 78%,过半句子误差一个词内。此前非侵入式准确率仅 8%。v2 用 MEG 设备采集 9 名志愿者各约 10 小时打字数据(约 2.2 万句子),结合端到端深度学习与微调大语言模型。准确率随数据量对数线性提升。Meta 开源 v1、v2 全部训练代码。MEG 设备仍体积大、成本高,但该成果为脑损伤患者提供了无需开颅的可行路径。

AI at Meta: We're sharing the next major milestone in our non-invasive brain-to-text decoder research: Brain2Qwerty v2. Building on ...

Meta多模态开源/仓库论文/研究
同一事件,精选展示《Meta发布Brain2Qwerty v2:非侵入式实时句子解码》
推荐理由:非侵入式脑机接口从近乎不能用进步到能大致沟通,这一步证明了不开颅也可能接近侵入式的效果,剩下的主要是工程问题。做脑机接口或医疗 AI 的都值得关注。
6月29日
23:04
elvis@omarsar0
77
Meta AI 发布 Brain2Qwerty v2,非侵入性脑信号编码器最新里程碑,论文同日发表于《Nature》。该模型能从原始脑信号实时解码完整句子,准确度逼近需开颅手术的侵入式技术;从 v1 的字符级解码升级为词语及语义级解码,显著提升通信精度,有望帮助因脑损伤或障碍无法交流的数百万患者。

AI at Meta: We're sharing the next major milestone in our non-invasive brain-to-text decoder research: Brain2Qwerty v2. Building on ...

Meta多模态论文/研究
21:49
fofr@fofrAI
54
这是一个提示词,展示了文本在Omni中的良好效果。 该提示词的精确文本逐字显示在此环境视频中。 文本逐句出现,如同电影的开头。 背景是飞过蓝天。
多模态教程/实践视频
20:27
AI at Meta@AIatMeta
精选79
Meta发布Brain2Qwerty v2:非侵入式实时句子解码

Meta公布Brain2Qwerty v2,这是非侵入式脑电信号解码研究的最新里程碑。基于当天发表在《Nature》的v1,v2是性能最高的端到端管道,能从原始脑信号实时解码句子。其从字符级性能提升至解码单词和语义,提高整体沟通准确性。该研究有望帮助数百万因脑损伤或疾病无法沟通的人群。

多模态论文/研究

推荐理由:Meta把非侵入脑解码从字符级推到语义级,Nature论文背书,我认真觉得这比任何benchmark刷分都有意义,给失语人群的希望比聊天机器人更值得关注。
10:34
小互@xiaohu
17
Uber车主 用 AI 以乘客的名字即时生成音乐 恶搞乘客 当乘客听到自己名字的时候有点搞笑🤣
其他多模态
6月28日
22:21
PixVerse@PixVerse_
58
从基本的灰色3D座舱模型到全速电影级圈速。 Seedance 2.0 使用3D通道锁定运动和相机移动,无需依赖文本提示即可提供精确、一致的结果。
产品更新多模态视频
13:21
Ethan Mollick@emollick
60
针对AI研究论文因同行评审周期长导致结果过时的问题,一篇医疗AI论文开源其评估框架(GitHub: health-ai-readiness-eval)。@yishan 用该框架在最新模型上复现测试:GPT-5.5 Pro 在放射影像解读中得分79/100,优于论文原始最佳模型(69/100),但未达到论文设定的"适合可靠医疗使用"标准(需抗扰动、识别信息不足、给出临床合理推理)。@yishan 未能完整复现定性评估,但基本测试表明最新模型虽有提升,尚不足以可靠用于临床。他呼吁所有AI论文开源实验框架,以便社区持续验证。

Yishan: A big problem with research studies on AI models is that given how long the peer review process is, the results are alwa...

OpenAI多模态推理评测/基准
01:22
Berryxia.AI@berryxia
精选76
苹果Vision负责人跳槽OpenAI,触控OLED MacBook用M5芯片

2026年6月26日,Mark Gurman称苹果Vision产品组副总裁Paul Meade下周离职加入OpenAI硬件部门。他负责Vision Pro、无屏幕AI智能眼镜及AR眼镜研发。苹果计划首款触控OLED MacBook使用M5 Pro/Max芯片,2026年底到2027年初发布;M7 Pro/Max版本2027年底跟进。苹果此前因涨价市值蒸发2300多亿美元。核心高管流失至OpenAI凸显AI硬件竞争加速。

OpenAI多模态行业动态

推荐理由:Paul Meade 从苹果 Vision Pro 跳槽 OpenAI,不是普通人事变动,而是 AI 硬件竞赛正式开打的信号,做硬件的可以开始紧张了。
6月27日
22:28
Deedy@deedydas
34
字节跳动7月初发布Seedance 2.5视频生成模型,生成长度翻倍至30秒

字节跳动将于7月初发布视频生成模型Seedance 2.5,将生成长度从15秒翻倍至30秒,支持音频+4K视频;参考图片/音频/视频数量提升至50个以上;支持局部编辑(特定角色、闭合、细节),附带版权过滤。其前代Seedance 2已是视频生成模型第一名,ARR达20亿美元,定价$2.5/15秒,累计生成超330万小时视频。对比时间线:Veo 3(2025年5月)首降音视频生成15秒,Kling 3(2026年1月)15秒,Seedance 2(2026年2月)15秒,Seedance 2.5(2026年7月)30秒。中国视频模型持续扩大对美国的领先优势。

多模态模型发布视频
21:24
Runway@runwayml
精选66
广告本地化现在可通过 Runway API 以 Recipe 形式使用。 现在您可以通过单次 API 调用翻译静态广告和图形资产。

Runway: New in Runway, you can now localize ads. One image in, any language out. Input a single ad and get a version for every m...

产品更新多模态

推荐理由:Runway 把广告本地化做成了一键 API,对出海团队是实打实的效率提升,但放在整个 AI 行业里这只是个功能补齐。
‹ 上一页
123…23
下一页 ›