全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「多模态」清除

6月9日周二

05:15Apple Machine Learning Research（RSS）79同事件精选苹果发布第三代 Apple Foundation Models（AFM）同一事件，精选展示《受 DMA 影响，Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》

05:03Hacker News 热门（buzzing.cc 中文翻译）54苹果揭晓基于谷歌 Gemini 模型构建的新 AI 架构

04:21IT之家（RSS）46苹果 iOS 27 基于 Siri AI 新增账单分摊功能

04:02Hacker News 热门（buzzing.cc 中文翻译）56Siri AI（Apple Intelligence）页面获109个Hacker News点赞

03:46Artificial Analysis59MiniMax推出多模态模型M3，1M上下文，多项基准领先

03:46Ars Technica：AI（RSS）53苹果发布"Siri AI"--更"会话式"的新语音助手

03:21IT之家（RSS）51苹果 iOS / iPadOS 27 开发者预览版 Beta 1 发布：全新家长控制、Siri 集成相机等

03:21IT之家（RSS）40苹果 visionOS 27 开发者预览版 Beta 1 发布

03:21IT之家（RSS）53苹果发布 Xcode 27 Beta 与 Core AI 框架，称其为构建 AI 智能体"最佳场所"

03:16Ars Technica：AI（RSS）52Gemini 3.5 和 Antigravity 登陆 Google NotebookLM

03:14Apple：Newsroom（RSS）69精选受 DMA 影响，Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线

03:14Apple：Newsroom（RSS）66同事件精选Apple 推出 Siri AI：由 Apple Intelligence 驱动的更强大、更个性化的个人助理同一事件，精选展示《受 DMA 影响，Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》

03:14Apple：Newsroom（RSS）63同事件精选Apple Intelligence 将强大 AI 能力融入日常体验同一事件，精选展示《受 DMA 影响，Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》

03:09TechCrunch：AI（RSS）73精选苹果刚刚教会你的iPhone补全句子、完善照片和简化工作流程

02:38TechCrunch：AI（RSS）34Apple 用新 Siri in Camera 功能解决分摊账单的烦恼

02:38TechCrunch：AI（RSS）73同事件精选苹果为Siri推出专属应用同一事件，精选展示《受 DMA 影响，Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》

02:38TechCrunch：AI（RSS）65苹果照片应用将新增AI编辑功能

02:21IT之家（RSS）38苹果 macOS 27 将 Siri AI 整合至"聚焦"，按住 Control 点选文件即可提问

02:21IT之家（RSS）65苹果 Siri 集成至 iPhone 相机应用，可识别物体并记录饮食摄入

02:21IT之家（RSS）49苹果升级 iOS 27 版 Home 应用：精简智能家居设备通知、自然语言搜索视频片段

02:17🚨 AI News | TestingCatalog76苹果发布全新Siri AI及专用App

02:17🚨 AI News | TestingCatalog70Apple新Siri AI功能一屏尽览

02:15-Zho-33Siri AI + 空间智能生成一顿智能后，这构图和效果还不如原图呢，这是来搞笑的？？？

02:13Chubby♨️39系统级感知与相机视觉智能

02:08TechCrunch：AI（RSS）68WWDC 2026：Siri AI、iOS 27、Apple Intelligence 等发布汇总

02:08TechCrunch：AI（RSS）56Apple 长期酝酿的 AI Siri 全面重塑终于到来

01:47🚨 AI News | TestingCatalog68Apple Intelligence基于Foundation与Gemini模型

01:43Chubby♨️38Apple Intelligence 四大功能亮点

01:43Chubby♨️52Siri 更新：图像理解与人声拟真

01:38TechCrunch：AI（RSS）82WWDC 2026：Siri、iOS 27、Apple Intelligence 等全部发布内容

01:25Google Gemini54Gemini 3.5 Flash Canvas 再现经典绘图

00:46🚨 AI News | TestingCatalog66OpenAI ChatGPT 新增交互式图表功能

00:19NotebookLM72精选NotebookLM重大升级：智能体能力与高级推理

6月8日周一

23:42Chubby♨️54WWDC 2026：苹果租用谷歌大脑修复Siri

23:06SenseTime56商汤 SenseNova U1 实现文图交错生成

22:46OpenBMB75精选VoxCPM2 技术报告发布

22:20IT之家（RSS）49超越人眼的能力：华为乾崑智驾百公里时速隧道避障视频曝光，车辆提前预判秒切车道

21:46OpenBMB54面壁智能与HuggingFace合作举办Build Small黑客松

19:50Hugging Face：Blog（RSS）74精选Pakistan Notice Helper：一款面向本地安全问题的轻量 AI 工具

19:12公众号：火山引擎28火山方舟Coding Plan与Agent Plan升级，限时2.5折

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月9日

05:15

Apple Machine Learning Research（RSS）

同事件精选79

苹果发布第三代 Apple Foundation Models（AFM）

苹果推出第三代 Apple Foundation Models（AFM）基础模型家族，与 Google 合作定制，包含五个模型，覆盖从设备端到基于 Private Cloud Compute 的服务器端模型。这些模型旨在驱动 Apple Intelligence 功能，包括全新 Siri 和智能工具，以用户为中心深度融合操作系统，隐私为核心设计原则。

Google 多模态模型发布端侧

同一事件，精选展示《受 DMA 影响，Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》

推荐理由：Apple与Google罕见联手推出的第三代基础模型，直接为下一代Siri和系统级AI功能铺路，标志着消费级AI的深度整合，产品经理和iOS开发者必须关注。

05:03

Hacker News 热门（buzzing.cc 中文翻译）

54

苹果揭晓基于谷歌 Gemini 模型构建的新 AI 架构

苹果推出新 AI 架构，核心基于谷歌 Gemini 模型构建。该架构由苹果研发，旨在整合 Gemini 的模型能力至苹果生态系统中，具体细节尚未披露。

Google 产品更新多模态

04:21

IT之家（RSS）

46

苹果 iOS 27 基于 Siri AI 新增账单分摊功能

在 6 月 9 日召开的 2026 年全球开发者大会（WWDC）上，苹果软件工程副总裁演示了基于相机应用中 Siri 增强功能的账单分摊功能。用户将 iPhone 摄像头对准餐厅账单，即可与朋友平分总额，并通过 Apple Cash 集成实现即时付款。Siri 能识别环境中的真实物体并显示相关信息。该视觉智能功能也将登陆 visionOS。

产品更新多模态

04:02

Hacker News 热门（buzzing.cc 中文翻译）

56

Siri AI（Apple Intelligence）页面获109个Hacker News点赞

苹果官网 Apple Intelligence（Siri AI）页面在 Hacker News 上获得 109 个点赞，链接为 www.apple.com/apple-intelligence/。帖子发布于 2026 年 6 月 8 日，来源为 Hacker News 热门（buzzing.cc 中文翻译）。

产品更新多模态语音

03:46

Artificial Analysis@ArtificialAnlys

59

MiniMax推出多模态模型M3，1M上下文，多项基准领先

MiniMax推出首个多模态M系列模型M3，支持图像/视频输入及1M token上下文窗口。在Artificial Analysis Intelligence Index上得55分，超越开源权重的Kimi K2.6和MiMo-V2.5-Pro（均54）。相比前代M2.7，HLE提升9点至37%，GPQA Diamond提升6点至93%，多项基准均有进步。原生多模态MMMU-Pro约80%与GPT-5.5持平。定价$0.30/$1.20/1M tokens（512K内），512K-1M翻倍。权重计划约10天内开源。

多模态开源生态评测/基准

03:46

Ars Technica：AI（RSS）

53

苹果发布"Siri AI"--更"会话式"的新语音助手

苹果宣布推出“Siri AI”，一个更“会话式”的语音助手，新功能将于今年秋季上线。此次更新伴随一个由谷歌驱动的双层AI模型大改造。

产品更新多模态语音

03:21

IT之家（RSS）

51

苹果 iOS / iPadOS 27 开发者预览版 Beta 1 发布：全新家长控制、Siri 集成相机等

6 月 9 日，苹果推送 iOS / iPadOS 27 开发者预览版 Beta 1。App 打开速度最高提升 30%，新照片显示速度最高提升 70%。搜索功能从底层重构。iCloud 支持从安卓和 Windows 设备添加照片到共享相册并全分辨率共享。新增儿童账号与家长控制，13 岁以下默认开启请求和购买前询问。Siri 集成到相机应用，可识别物体并保存，基于第二代设备端模型处理。Safari 自动整合标签页、支持自然语言关注内容通知，系统级 AI 自动校正。Home 应用通过 AI 精简配件通知、识别视频片段生成描述、拼接多摄像头视频并支持自然语言搜索。照片 App 推出空间构图，生成 3D 场景，支持后期放大和移动视角，扩图与杂物移除增强。图乐园新增写实风格。iPhone 11 可升级。

产品更新多模态端侧

03:21

IT之家（RSS）

40

苹果 visionOS 27 开发者预览版 Beta 1 发布

苹果今日向 Vision Pro 用户推送 visionOS 27 开发者预览版 Beta 1 更新（内部版本号：24M5291p）。新版本为海外机型引入 Siri AI 功能，支持通过视觉智能面向场景询问 Siri，并可将全景照片设置为个人环境。因区域节点缓存差异，升级更新可能存在最长半小时的延迟。

产品更新多模态

03:21

IT之家（RSS）

53

苹果发布 Xcode 27 Beta 与 Core AI 框架，称其为构建 AI 智能体"最佳场所"

在 2026 全球开发者大会（WWDC）上，苹果发布 Xcode 27 Beta 并推出 Core AI 框架。新版 Foundation Models 框架支持图像输入，开发者可将图片与文本一并传给设备端模型，处理多模态任务。Xcode 编码助手升级为智能体式编码工作流，已覆盖应用本地化、与模拟设备交互以及测试与调试环节。苹果软件工程高级副总裁 Craig Federighi 称 Xcode 已成为构建智能体 AI 应用的“最佳场所”。

智能体产品更新多模态编码

03:16

Ars Technica：AI（RSS）

52

Gemini 3.5 和 Antigravity 登陆 Google NotebookLM

Google NotebookLM 迎来重大升级，新增 Gemini 3.5 和 Antigravity 功能，但目前仅向 AI Ultra 和企业账户开放。

Google 产品更新多模态

03:14

Apple：Newsroom（RSS）

精选69

受 DMA 影响，Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线

由于欧盟《数字市场法案》（DMA），Apple 无法在 iOS 27 和 iPadOS 27 发布时于欧盟地区推出 Siri AI。该功能在欧盟的上线时间将晚于其他地区，具体时间未公布。

多模态政策/监管语音

关联讨论 5 条X：Kim (@kimmonismus)Apple：Newsroom（RSS）IT之家（RSS）公众号：数字生命卡兹克The Verge：AI（RSS）

推荐理由：苹果首次将 DMA 作为 AI 功能地区延迟的直接理由，并详细披露了与欧盟监管者的分歧，这个案例可能定义了 AI 助手在监管下的权限边界。

03:14

Apple：Newsroom（RSS）

同事件精选66

Apple 推出 Siri AI：由 Apple Intelligence 驱动的更强大、更个性化的个人助理

Apple 发布了 Siri AI，一款由 Apple Intelligence 驱动的个人助理，具备个人上下文、世界知识和屏幕感知能力，能提供更强大、更个性化的交互体验。

智能体产品更新多模态端侧

同一事件，精选展示《受 DMA 影响，Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》

推荐理由：苹果对 Siri 的这次重构不是简单地换个模型，它把个人上下文、屏幕感知和视觉智能实际嵌进了系统，对普通用户来说日常交互方式可能要变。

03:14

Apple：Newsroom（RSS）

同事件精选63

Apple Intelligence 将强大 AI 能力融入日常体验

Apple 发布下一代 Apple Intelligence，将 AI 能力集成到 iPhone、iPad 和 Mac 中，带来更个性化和有帮助的日常体验。

产品更新图像生成多模态

同一事件，精选展示《受 DMA 影响，Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》

推荐理由：苹果这次把 AI 深度植入常用 app，从空间重构图到自动修密码，方向很务实，但秋季才上线，目前只有开发者能尝鲜。

03:09

TechCrunch：AI（RSS）

精选73

苹果刚刚教会你的iPhone补全句子、完善照片和简化工作流程

Apple为Safari、Shortcuts和Password应用添加了AI驱动的新功能，让iPhone能够自动补全句子、完善照片和简化工作流程。

产品更新图像生成多模态

推荐理由：WWDC 2026 的 Apple Intelligence 更新不是颠覆性突破，但 Safari 标签管理、跨应用上下文和 Shortcuts 的 AI 创建让 AI 真正渗透到日常使用中，是所有苹果用户都该看看的实用升级。

02:38

TechCrunch：AI（RSS）

34

Apple 用新 Siri in Camera 功能解决分摊账单的烦恼

苹果软件副总裁 Sebastien Marineau-Mes 介绍，用户只需用 iPhone 相机对准账单，选择自己点的菜品，即可通过 Apple Cash 拆分账单并完成付款。

产品更新多模态

02:38

TechCrunch：AI（RSS）

同事件精选73

苹果为Siri推出专属应用

苹果公司为Siri推出了独立的专属应用程序，标志着该语音助手首次拥有了自己的独立应用入口。

产品更新多模态语音

同一事件，精选展示《受 DMA 影响，Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》

推荐理由：Siri 终于有了自己的 App，聊天记录管理、多模态输入向 ChatGPT 对齐，是 Siri 走向独立 AI 产品的标志，但本质上还是一个 UI 补课，没带来新的智能跃进。

02:38

TechCrunch：AI（RSS）

65

苹果照片应用将新增AI编辑功能

苹果照片应用将新增AI编辑功能，包括空间“Reframe”特性，让用户利用AI调整照片视角。

产品更新图像生成多模态

02:21

IT之家（RSS）

38

苹果 macOS 27 将 Siri AI 整合至"聚焦"，按住 Control 点选文件即可提问

在 WWDC26 上，苹果宣布 macOS 27 将全新 Siri AI 整合进“聚焦”功能。用户按住 Control 键点选图像、文件和文本即可向 Siri 提问，还能随意拖放窗口调整界面大小。Siri 能够调用 Mac 本地文件回答问题，支持同时选中多个文件并通过关键菜单发起提问。

产品更新多模态搜索

02:21

IT之家（RSS）

65

苹果 Siri 集成至 iPhone 相机应用，可识别物体并记录饮食摄入

在 2026 年全球开发者大会（WWDC）上，苹果宣布 Siri 已集成到 iPhone 相机应用中，可识别物体并保存到 Siri 应用。官方展示案例中，用户可在相机中启用 Siri，利用 AI 记录摄入饮食。隐私保护方面，苹果表示通过 Apple Intelligence 第二代设备端模型处理。

产品更新多模态端侧

02:21

IT之家（RSS）

49

苹果升级 iOS 27 版 Home 应用：精简智能家居设备通知、自然语言搜索视频片段

苹果在 2026 年全球开发者大会（WWDC）上宣布升级 iOS 27 版 Home 应用，利用 AI 精简智能家居配件的通知，减少对用户的干扰。Home 应用可识别已连接摄像头的视频片段并生成描述，还能将不同摄像头的相关视频拼接在一起，用户可通过自然语言搜索视频片段。

产品更新多模态搜索

02:17

🚨 AI News | TestingCatalog@testingcatalog

76

WWDC 🔥：苹果宣布推出全新Siri AI，以及专用App、可定制语音、屏幕和视觉理解等功能！ Siri App支持大多数平台，包括VisionOS！

产品更新多模态语音

关联讨论 5 条X：Kim (@kimmonismus)Apple：Newsroom（RSS）IT之家（RSS）公众号：数字生命卡兹克The Verge：AI（RSS）

02:17

🚨 AI News | TestingCatalog@testingcatalog

70

Apple在WWDC宣布推出全新Siri AI，配备独立App、可定制语音、屏幕与视觉理解等功能，Siri App支持包括VisionOS在内的多平台。主推文感叹："大部分Siri AI功能齐聚一屏👀"

🚨 AI News | TestingCatalog: WWDC 🔥: Apple has announced a new Siri AI, along with a dedicated app, customizable voices, screen and visual understan...

产品更新多模态语音

02:15

-Zho-@ZHO_ZHO_ZHO

33

Siri AI + 空间智能生成一顿智能后，这构图和效果还不如原图呢，这是来搞笑的？？？

图像生成多模态现象/趋势

02:13

Chubby♨️@kimmonismus

39

- 系统级感知 - 相机应用中的视觉智能

Chubby♨️: Siri update - image understanding - more conversational - reworked voice-tone / sound. Sounds real human

多模态大佬观点语音

02:08

TechCrunch：AI（RSS）

68

WWDC 2026：Siri AI、iOS 27、Apple Intelligence 等发布汇总

苹果 WWDC 2026 于今日在 Apple Park 开幕，围绕 Siri AI、iOS 27、Apple Intelligence 等发布一系列更新，同期举办开发者活动和演示。本次大会是 CEO Tim Cook 在苹果的最后一次 WWDC 主题演讲。

产品更新多模态语音

02:08

TechCrunch：AI（RSS）

56

Apple 长期酝酿的 AI Siri 全面重塑终于到来

新版“Siri AI”将语音助手转变为功能更丰富的 AI 伴侣，不再局限于简单语音指令，而是能承担更多复杂操作。此次重塑旨在让 Siri 从被动应答进化成主动智能体，标志着 Apple 在 AI 助手领域的重要升级。

产品更新多模态语音

01:47

🚨 AI News | TestingCatalog@testingcatalog

68

WWDC 🔥：新的Apple Intelligence基于Apple Foundation和Gemini模型！让我们看看里面有什么👀

🚨 AI News | TestingCatalog: Apple #WWDC26 has started 🍿

Google 产品更新多模态

01:43

Chubby♨️@kimmonismus

38

Apple Intelligence： - 在应用中的个人理解。 - 网页浏览工具 - 屏幕感知 - 应用内使用

Chubby♨️: Apple Intelligence last. Let the fun begin!

产品更新多模态大佬观点

01:43

Chubby♨️@kimmonismus

52

Siri 更新 - 图像理解 - 对话更自然 - 重制语音语调/声音，听上去像真人

Chubby♨️: Apple Intelligence: -Personal Understand in apps. - Browse tools for web - on screen Awareness - in App usage

产品更新多模态语音

01:38

TechCrunch：AI（RSS）

82

WWDC 2026：Siri、iOS 27、Apple Intelligence 等全部发布内容

苹果 WWDC 2026 于太平洋时间上午 10 点在 Apple Park 开幕，为期一周的大会将发布围绕 Siri、iOS 27、Apple Intelligence 等更新，同时还有开发者活动和演示。本届大会是 CEO Tim Cook 在苹果的最后一次 WWDC。

产品更新多模态语音

关联讨论 5 条X：Kim (@kimmonismus)Apple：Newsroom（RSS）IT之家（RSS）公众号：数字生命卡兹克The Verge：AI（RSS）

01:25

Google Gemini@GeminiApp

54

我们让 Gemini 3.5 Flash 重现经典早期 2000 年代 PC 绘图体验，它一次就做到了。你打算先用 Canvas 构建什么？

Google 产品更新多模态

00:46

🚨 AI News | TestingCatalog@testingcatalog

66

OPENAI 🔥：用户现在可以在 @ChatGPTapp（网页和移动端）中从数据和比较生成交互式图表。

OpenAI 产品更新多模态

00:19

NotebookLM@NotebookLM

精选72

推出更强大的 NotebookLM 🚀 重大升级带来了对话中的智能体能力、更高级的推理以及一系列新的输出格式。处理复杂的多步骤研究问题从未如此简单。现已面向 Google AI Ultra 订阅者推出。

Google 产品更新多模态推理

关联讨论 1 条X：NotebookLM (@NotebookLM)

推荐理由：NotebookLM 这次升级把 agent 能力塞进聊天框，从被动答案变成能拆解多步研究，对深度资料整理的人是真迭代，但仅限 Google AI Ultra 订阅，门槛不低。

6月8日

23:42

Chubby♨️@kimmonismus

54

WWDC 2026：苹果租用谷歌大脑修复Siri

苹果在WWDC 2026承认无法独自构建前沿AI，与Google合作，基于1.2T参数的Gemini模型重建Siri，年费约10亿美元。新版Siri通过Private Cloud Compute运行，谷歌不训练用户数据；Siri成为独立应用，支持聊天、同步历史、Dynamic Island弹出和扩展系统，可起草邮件并获取信息。六个OS beta发布，iOS 27为Snow Leopard清理版，iPhone 11/SE2失去支持；Liquid Glass 2.0透明度滑块；Health+改为健身聚焦；用户或可选AI引擎（Gemini或Claude）。硬件稍后推出。

Google 多模态大佬观点语音

23:06

SenseTime@SenseTime_AI

56

商汤 SenseNova U1 实现文图交错生成

商汤 SenseTime 展示 SenseNova U1 的文图交错生成能力，通过定制香水逐步演示，证明模型不仅能识别图像，还能以图像为思考单元输出生动视觉内容。相关示例、Gallery、HuggingFace 模型、GitHub 代码及 Discord 社区链接已同步开放。

图像生成多模态教程/实践

22:46

OpenBMB@OpenBMB

精选75

VoxCPM2 技术报告发布

面壁智能 OpenBMB 发布 VoxCPM2 技术报告。该模型为最新语音生成模型，拥有 2B 参数，基于超 200 万小时多语言语音数据训练，支持 30 种语言和 9 种中文方言。具备自然语言语音设计、可控及高保真延续性语音克隆能力。技术报告涵盖架构设计、统一序列公式、AudioVAE 高保真语音重建、大规模训练评估，以及零样本和指令跟随 TTS 基准结果。采用 16kHz 语义编码 + 48kHz 波形重建，在公开 TTS 基准上达到 SOTA 或极具竞争力。模型权重、微调代码和推理工具以 Apache 2.0 开源。

多模态开源/仓库模型发布语音

推荐理由：面壁把语音生成压进2B参数，支持30种语言加方言克隆，还附完整技术报告和Apache 2.0开源，做语音产品的可以直接拉代码跑起来了。

22:20

IT之家（RSS）

49

超越人眼的能力：华为乾崑智驾百公里时速隧道避障视频曝光，车辆提前预判秒切车道

近日曝光视频显示，华为乾崑智驾车型在百公里时速进入隧道时，感知系统提前发现桩桶，迅速变道避障。另一视频中，该车高速遇废弃栏杆，从110+公里时速减速至约90+，识别出中间可通行空间。华为终端BG董事长余承东在5月发布会上表示，纯视觉目标是接近人眼，华为多传感器融合路线目标是超越人眼。提醒：辅助驾驶并非自动驾驶，驾驶员为最终责任主体。

多模态端侧行业动态

21:46

OpenBMB@OpenBMB

54

面壁智能与HuggingFace合作举办Build Small黑客松

面壁智能（OpenBMB）与HuggingFace合作举办的Build Small黑客松正式上线，鼓励开发者使用OpenBMB模型构建应用。官方列举四大用例：MiniCPM-V 4.6用于自动化金融文档分析；MiniCPM5-1B轻量端侧模型驱动AI桌面宠物；MiniCPM-o 4.5全模态实时视频分析；VoxCPM2语音克隆。活动设有$10,000 OpenBMB特别奖。

Hugging Face 多模态开源生态行业动态

19:50

Hugging Face：Blog（RSS）

精选74

Pakistan Notice Helper：一款面向本地安全问题的轻量 AI 工具

Pakistan Notice Helper 是一款安全工具，帮助巴基斯坦用户在点击链接、拨打电话、分享 OTP 或支付前识别可疑消息。它接受文本或截图输入，返回风险等级、简短解释、可见警示标志和安全下一步建议。工具支持英文和乌尔都语，乌尔都模式采用从右向左布局并全界面翻译。最终部署选用 Qwen3.5 4B Q8 模型（通过 llama.cpp + CUDA），在 10 个测试用例中通过了所有高风险诈骗和截图场景。此前曾测试 Qwen3.6 27B（质量高但成本高）和 MiniCPM-V 4.6 Q8（速度慢且不稳定），最终选择了精度、速度和成本平衡的 4B 模型。项目受限于 hackathon 的 32B 模型上限规则。

Hugging Face 多模态教程/实践

推荐理由：一个只有4B的小模型，把巴基斯坦本地诈骗文案分析得明明白白，比那些参数大但看不懂乌尔都语的通用模型实用得多。做给特定地区特定问题的小工具，这才是AI落地的真节奏。

19:12

公众号：火山引擎

28

火山方舟Coding Plan与Agent Plan升级，限时2.5折

火山方舟Coding Plan与Agent Plan升级，集成MiniMax M3、DeepSeek V4系列、GLM-5.1等多款三方模型。即日起至2026年8月7日，新购/升级/续费40元、200元档位可享首两月2.5折（9.9元/月、49.9元/月）。MiniMax M3为新一代旗舰，支持100万token上下文窗口及原生多模态理解。Agent Plan为业界首个Agent套餐包，整合字节自研Seed系列模型与Harness工具，免费提供联网搜索和Embedding记忆能力，可配合Claude Code、OpenClaw、TRAE等工具使用。

智能体 DeepSeek 产品更新多模态

1…12 131415 16…50