AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1238 条
全部一手资讯X论文
标签「多模态」清除
6月9日周二
22:34Google DeepMind:Blog(RSS)80同事件精选Google DeepMind 发布 Gemma 4 12B:统一的无编码器多模态模型同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
19:55Hugging Face:Blog(RSS)76精选一个Agent如何通过链式调用两个HuggingFace Space构建3D巴黎画廊
15:55HuggingFace Daily Papers(社区热门论文)61光学推理(Optical Reasoning):将图像作为独立推理媒介,token效率达文本1.96倍
15:26IT之家(RSS)64谷歌 AI Plus 订阅计划降价:月费降至5美元,存储翻倍至400GB
12:55HuggingFace Daily Papers(社区热门论文)73精选OmniGameArena:面向VLM游戏智能体的统一UE5基准与改善动态
10:55HuggingFace Daily Papers(社区热门论文)61SpatialWorld:多模态智能体在真实世界任务中的交互式空间推理基准
10:55HuggingFace Daily Papers(社区热门论文)59潜在空间记忆框架Mirage用于视频世界模型
08:17Simon Willison 博客61WWDC 2026 苹果发布 Siri AI 与 Core AI 库
08:00HuggingFace Daily Papers(社区热门论文)52P3D-Bench:面向参数化3D生成与结构推理的多模态大语言模型基准
08:00HuggingFace Daily Papers(社区热门论文)82精选i1:面向强文生图模型的简单且完全开源配方
07:50公众号:数字生命卡兹克62苹果WWDC 2026:Apple Intelligence新架构与Siri AI发布
07:21IT之家(RSS)67苹果回应"套壳 Gemini"猜测:iOS 27 版 Siri AI AFM 自研打造
07:21IT之家(RSS)59苹果WWDC26主题演讲汇总:iOS 27等系统发布,库克最后一次主讲
06:21IT之家(RSS)38苹果 iOS 27 升级钱包应用:支持 AI 导入票证
05:21IT之家(RSS)61初探苹果 iPadOS 27:应用启动提速 30%、引入全新 Siri AI
05:21IT之家(RSS)61苹果 iOS 27 日历 / 提醒事项新增 AI:支持自然语言创建事件
05:15Apple Machine Learning Research(RSS)79同事件精选苹果发布第三代 Apple Foundation Models(AFM)同一事件,精选展示《受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》
05:03Hacker News 热门(buzzing.cc 中文翻译)54苹果揭晓基于谷歌 Gemini 模型构建的新 AI 架构
04:21IT之家(RSS)46苹果 iOS 27 基于 Siri AI 新增账单分摊功能
04:02Hacker News 热门(buzzing.cc 中文翻译)56Siri AI(Apple Intelligence)页面获109个Hacker News点赞
03:46Ars Technica:AI(RSS)53苹果发布"Siri AI"--更"会话式"的新语音助手
03:21IT之家(RSS)51苹果 iOS / iPadOS 27 开发者预览版 Beta 1 发布:全新家长控制、Siri 集成相机等
03:21IT之家(RSS)40苹果 visionOS 27 开发者预览版 Beta 1 发布
03:21IT之家(RSS)53苹果发布 Xcode 27 Beta 与 Core AI 框架,称其为构建 AI 智能体"最佳场所"
03:16Ars Technica:AI(RSS)52Gemini 3.5 和 Antigravity 登陆 Google NotebookLM
03:14Apple:Newsroom(RSS)69精选受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线
03:14Apple:Newsroom(RSS)66同事件精选Apple 推出 Siri AI:由 Apple Intelligence 驱动的更强大、更个性化的个人助理同一事件,精选展示《受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》
03:14Apple:Newsroom(RSS)63同事件精选Apple Intelligence 将强大 AI 能力融入日常体验同一事件,精选展示《受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》
03:09TechCrunch:AI(RSS)73精选苹果刚刚教会你的iPhone补全句子、完善照片和简化工作流程
02:38TechCrunch:AI(RSS)34Apple 用新 Siri in Camera 功能解决分摊账单的烦恼
02:38TechCrunch:AI(RSS)73同事件精选苹果为Siri推出专属应用同一事件,精选展示《受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》
02:38TechCrunch:AI(RSS)65苹果照片应用将新增AI编辑功能
02:21IT之家(RSS)38苹果 macOS 27 将 Siri AI 整合至"聚焦",按住 Control 点选文件即可提问
02:21IT之家(RSS)65苹果 Siri 集成至 iPhone 相机应用,可识别物体并记录饮食摄入
02:21IT之家(RSS)49苹果升级 iOS 27 版 Home 应用:精简智能家居设备通知、自然语言搜索视频片段
02:08TechCrunch:AI(RSS)68WWDC 2026:Siri AI、iOS 27、Apple Intelligence 等发布汇总
02:08TechCrunch:AI(RSS)56Apple 长期酝酿的 AI Siri 全面重塑终于到来
01:38TechCrunch:AI(RSS)82WWDC 2026:Siri、iOS 27、Apple Intelligence 等全部发布内容
6月8日周一
22:20IT之家(RSS)49超越人眼的能力:华为乾崑智驾百公里时速隧道避障视频曝光,车辆提前预判秒切车道
19:50Hugging Face:Blog(RSS)74精选Pakistan Notice Helper:一款面向本地安全问题的轻量 AI 工具
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月9日
22:34
Google DeepMind:Blog(RSS)
同事件精选80
Google DeepMind 发布 Gemma 4 12B:统一的无编码器多模态模型

Gemma 4 12B 是 Google DeepMind 最新推出的中等规模多模态模型,采用无编码器统一架构,原生支持音频输入。其基准测试性能接近 26B MoE 模型,但内存占用不到一半,仅需 16GB 显存或统一内存即可在消费级笔记本上本地运行。模型内置多 token 预测(MTP)drafter 以降低延迟,基于 Apache 2.0 开源许可发布,已累计超过 1.5 亿次下载。

Google多模态开源/仓库推理
同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
推荐理由:统一无编码器架构让 12B 模型在消费级笔记本上跑出接近 26B 的多模态 Agent 体验,开源 + Apache 2.0,本地部署门槛又压低了。
19:55
Hugging Face:Blog(RSS)
精选76
一个Agent如何通过链式调用两个HuggingFace Space构建3D巴黎画廊

一个编码Agent调用HuggingFace上的两个Space,从零构建了展示巴黎地标3D高斯散点图的交互式画廊。Agent先用ideogram-ai/ideogram4生成每个纪念碑的黑色背景图像,再通过VAST-AI/TripoSplat从单张图像重建3D高斯散点(.ply),自动完成坐标系校正、取景、压缩为.ksplat(体积缩小约3倍),并构建基于Three.js的滚动切换、拖拽旋转查看器,最终部署为静态Space。整个过程无需客户端库,每个Space通过agents.md暴露可调用API。

智能体Hugging FaceMCP/工具多模态

推荐理由:Hugging Face 把 agents.md 做成每个 Space 的标准说明书,agent 能直接读懂并链式调用图像和 3D 模型,这篇用 3D 巴黎画廊 demo 告诉你这事儿已经跑通了,做 AI 工具链的可以立刻照着试。
15:55
HuggingFace Daily Papers(社区热门论文)
61
光学推理(Optical Reasoning):将图像作为独立推理媒介,token效率达文本1.96倍

光学推理(Optical Reasoning)提出将图像作为语言和多模态任务的独立推理媒介,包含基于印刷字体与基于图形两种变体,分别优化视觉布局和图文结构化组织。在数学、科学及交错模态推理基准上,光学推理匹配甚至超越传统文本推理,同时语言任务减少推理token 28.57%,多模态任务减少16%,token效率达到文本推理的1.96倍,证明图像能高效编码推理过程并提供统一的视觉推理画布。

多模态推理论文/研究
15:26
IT之家(RSS)
64
谷歌 AI Plus 订阅计划降价:月费降至5美元,存储翻倍至400GB

谷歌宣布 Google AI Plus 套餐月费从8美元降至5美元,存储空间从200GB翻倍至400GB。该套餐于2026年1月推出,提供 Gemini 3 Pro、Nano Banana Pro 和 Deep Research 等功能,使用额度较 AI Pro 更严格。Google I/O 2026后新增 AI 邮件工具、Daily Brief 智能体(可总结用户当天安排)及视频生成模型 Gemini Omni。现有用户将陆续获得新增存储空间,下期账单反映新价格。

Google产品更新多模态
12:55
HuggingFace Daily Papers(社区热门论文)
精选73
OmniGameArena:面向VLM游戏智能体的统一UE5基准与改善动态

OmniGameArena是一个基于十二个Unreal Engine 5新构建游戏的实时基准,涵盖单人(7个)、PvP(3个)和合作(2个)模式,提供统一动作接口。除冷启动排行榜分数外,还引入Improvement Dynamics Curve (IDC),一种智能体反射评估机制:通过工具调用反射大语言模型自动优化技能提示词,追踪多轮反射中的分数变化以及习得技能在任务变体上的泛化表现。论文报告了12个VLM智能体在冷启动排行榜上的表现,以及4个顶级智能体在IDC下的指标。

智能体多模态论文/研究

推荐理由:在 UE5 里直接测 agent 的自我改进,这个思路让游戏 benchmark 从一次性的刷榜变成动态成长观测,对做多模态 agent 的团队是个新标尺。
10:55
HuggingFace Daily Papers(社区热门论文)
61
SpatialWorld:多模态智能体在真实世界任务中的交互式空间推理基准

SpatialWorld 是为评估多模态智能体在复杂真实任务中的交互式空间理解而设计的统一基准。它整合 8 个异构模拟后端,包含 760 个人工标注任务,覆盖家庭日常、旅行、社交协作等场景。智能体需在仅视觉部分可观测条件下主动收集第一人称证据,并通过统一文本动作接口输出决策。对 15 个先进多模态智能体的评测显示,最强闭源模型 GPT-5 平均任务成功率仅 17.4%,最强开源模型 Qwen-3.5 达 14.1%。分析表明任务成功与执行效率存在脱节,不同领域性能差异显著,主动探索与长程规划仍是瓶颈。

arXiv具身智能多模态论文/研究
10:55
HuggingFace Daily Papers(社区热门论文)
59
潜在空间记忆框架Mirage用于视频世界模型

Mirage提出一种潜在空间记忆框架,用于视频世界模型的3D一致性生成。它通过深度引导反投影将潜在token提升至3D,形成持久缓存,并利用直接潜在空间扭曲合成新视图,避免了像素空间重建的信息损失和重复编码渲染的计算开销。相比显式3D基线,Mirage实现端到端视频生成加速10.57倍、内存占用减少55倍。在WorldScore上达到当前最优性能,在RealEstate10K上展现强重建质量。

多模态视频论文/研究
08:17
Simon Willison 博客
61
WWDC 2026 苹果发布 Siri AI 与 Core AI 库

苹果在 WWDC 2026 推出全新 Siri AI,采用定制的 Gemini 衍生模型运行于 Private Cloud Compute,并利用视觉 LLM 从屏幕提取信息,绕开了已有应用单独集成 Apple Intelligence 的需求。同时发布 Core AI 库,集成 Meta 的 PyTorch 生态,允许开发者在苹果硬件上将 PyTorch 模型转换为 Core AI 程序运行。iOS 27 Developer Beta 已上线,但用户需通过等待列表才能使用新 Siri AI。

多模态大佬观点端侧
08:00
HuggingFace Daily Papers(社区热门论文)
52
P3D-Bench:面向参数化3D生成与结构推理的多模态大语言模型基准

P3D-Bench是用于评估多模态大语言模型参数化3D生成与结构推理的基准。它覆盖Text-to-3D、Image-to-3D和Assembly-3D三个任务族,从可执行性、几何保真度、拓扑、文本约束、多视图语义对齐和部件级结构六维评分。基于400个文本案例、400个图像案例及203个标注装配体对前沿MLLMs和纯文本LLMs的评测发现了三个结论:装配体任务最困难,模型无法将多部件组合成连贯结构;模型能恢复目标物体的全局形状与语义身份,但无法精确复现输入指定的参数化几何;部件级建模普遍薄弱,既无法还原每个部件的几何,也无法输出正确的部件数量。

多模态论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
精选82
i1:面向强文生图模型的简单且完全开源配方

i1 是一个 3B 参数的文本到图像扩散模型,仅使用公开数据集训练。在 GenEval、DPG、PRISM、CVTG-2K 和 LongText 五个基准上,i1 性能与领先模型相当,平均比最佳现有完全开源模型高 29.5 个百分点。研究基于 300 余项控制实验(超 700K TPU v6e 小时),发现等权重混合 curated 数据集是强默认配置、更大文本编码器适配器以极少参数提升性能。i1 的检查点、训练与推理代码及数据处理流程已全部开源。

arXiv图像生成多模态开源生态

推荐理由:i1 是第一个用全公开数据、完全开源代码/权重/数据管线打造的 3B 模型,直接把全开放模型的性能拉到可与闭源竞争,对做文生图研究的同行是个扎实起点。
07:50
公众号:数字生命卡兹克
62
苹果WWDC 2026:Apple Intelligence新架构与Siri AI发布

苹果在WWDC 2026发布Apple Intelligence新架构,核心是与Google Gemini深度合作,基于Gemini开发5个模型,适配端侧及Private Cloud Compute。端侧分两档:AFM 3 Core(3B)和AFM 3 Core Advanced(20B MoE)。新Siri命名为Siri AI,集成系统编排器,具备个人上下文理解、世界知识、App Actions和屏幕感知。iOS、iPadOS等系统更新,Siri首次推出独立App且跨平台同步。APP智能化包括Safari智能标签页分组等;影像升级如Image Playground写实风格、Photos新增Cleanup。开发者工具Xcode可一键本地化App并选择AI模型。

Google多模态端侧行业动态
关联讨论 5 条X:Kim (@kimmonismus)Apple:Newsroom(RSS)IT之家(RSS)The Verge:AI(RSS)X:Testing Catalog (@testingcatalog)
07:21
IT之家(RSS)
67
苹果回应"套壳 Gemini"猜测:iOS 27 版 Siri AI AFM 自研打造

苹果在 2026 年 WWDC 主题演讲后回应,Apple Foundation Models(AFM)并非 Gemini 套壳,而是完全自主控制。AFM 体系包含 5 个模型:端侧 AFM Core(基础 AI)、AFM Core Advanced(原生多模态、稀疏架构)、云端 AFM Cloud(高负载)、AFM Cloud Image(图像生成与编辑)、AFM Cloud Pro(智能体工具与重负载任务)。每个模型针对 Apple Silicon 定制,训练使用专有数据并结合 Gemini 蒸馏优化。用户不接触谷歌代码或 Gemini 智能体。AFM Cloud Pro 采用 Google 云服务器与 NVIDIA GPU 资源,但保持 Private Cloud Compute 认证。

多模态模型发布端侧
07:21
IT之家(RSS)
59
苹果WWDC26主题演讲汇总:iOS 27等系统发布,库克最后一次主讲

6月9日,苹果WWDC26主题演讲举行,蒂姆·库克最后一次以CEO身份主讲。新系统iOS 27、iPadOS 27、macOS 27(Golden Gate)、watchOS、tvOS、visionOS发布。平台优化聚焦响应速度与设计:液态玻璃更新、工具栏与边栏重绘,App启动速度最高提升30%、隔空投送最高提升80%、iPad文件传输最快5倍,搜索重构。可靠性新增儿童账户和暴力内容预警。智能方面推出新一代Apple智能,Siri全面重构为Siri AI,拥有独立App,支持屏幕感知等新功能,中国大陆暂不提供。

产品更新多模态语音
06:21
IT之家(RSS)
38
苹果 iOS 27 升级钱包应用:支持 AI 导入票证

在今天发布的 iOS 27 系统中,苹果升级了 Wallet 应用,新增创建票证功能:用户可通过 iPhone 相机扫描实体票证后借助视觉智能导入,或手动创建数字票证,提供标准、会员、活动三种类型。同时引入 Apple Cash 分摊账单功能,在相机应用的新 Siri 模式中扫描收据后即可选择分摊。另外优化了 Apple Pay 结账页面,调整了订单功能入口,并推出新版 Wallet 应用图标。

产品更新多模态
05:21
IT之家(RSS)
61
初探苹果 iPadOS 27:应用启动提速 30%、引入全新 Siri AI

苹果在 2026 年 WWDC 发布 iPadOS 27,聚焦系统稳定性与速度。应用启动速度最高提升 30%,文件浏览与外接硬盘传输速度最高提升 5 倍。界面延续 Liquid Glass 设计,新增透明度滑块。AI 方面推出独立 Siri AI 应用,定位类似 ChatGPT,支持屏幕上下文理解、开放式提问、连续对话,可在 iOS 27、iPadOS 27、macOS 27 间接续会话,还能按描述生成文本草稿、匹配用户写作风格。开发者测试版已上线,公开测试版 7 月推出,正式版预计 9 月登场。

产品更新多模态
05:21
IT之家(RSS)
61
苹果 iOS 27 日历 / 提醒事项新增 AI:支持自然语言创建事件

在 2026 年 WWDC 上,苹果为 iOS 27 系统的日历与提醒事项加入 AI 功能。用户点按“+”后可直接输入自然语言,如“周四晚上 8 点和女友看电影”,系统自动识别时间、日期和事件内容生成安排;输入“每周”等频率可设重复事件。提醒事项同样支持自然语言创建。日历事件编辑可智能调整重复频率。Visual Intelligence 联动:截图或拍摄活动传单后,系统识别内容并自动加入日历。

产品更新多模态
05:15
Apple Machine Learning Research(RSS)
同事件精选79
苹果发布第三代 Apple Foundation Models(AFM)

苹果推出第三代 Apple Foundation Models(AFM)基础模型家族,与 Google 合作定制,包含五个模型,覆盖从设备端到基于 Private Cloud Compute 的服务器端模型。这些模型旨在驱动 Apple Intelligence 功能,包括全新 Siri 和智能工具,以用户为中心深度融合操作系统,隐私为核心设计原则。

Google多模态模型发布端侧
同一事件,精选展示《受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》
推荐理由:Apple与Google罕见联手推出的第三代基础模型,直接为下一代Siri和系统级AI功能铺路,标志着消费级AI的深度整合,产品经理和iOS开发者必须关注。
05:03
Hacker News 热门(buzzing.cc 中文翻译)
54
苹果揭晓基于谷歌 Gemini 模型构建的新 AI 架构

苹果推出新 AI 架构,核心基于谷歌 Gemini 模型构建。该架构由苹果研发,旨在整合 Gemini 的模型能力至苹果生态系统中,具体细节尚未披露。

Google产品更新多模态
04:21
IT之家(RSS)
46
苹果 iOS 27 基于 Siri AI 新增账单分摊功能

在 6 月 9 日召开的 2026 年全球开发者大会(WWDC)上,苹果软件工程副总裁演示了基于相机应用中 Siri 增强功能的账单分摊功能。用户将 iPhone 摄像头对准餐厅账单,即可与朋友平分总额,并通过 Apple Cash 集成实现即时付款。Siri 能识别环境中的真实物体并显示相关信息。该视觉智能功能也将登陆 visionOS。

产品更新多模态
04:02
Hacker News 热门(buzzing.cc 中文翻译)
56
Siri AI(Apple Intelligence)页面获109个Hacker News点赞

苹果官网 Apple Intelligence(Siri AI)页面在 Hacker News 上获得 109 个点赞,链接为 www.apple.com/apple-intelligence/。帖子发布于 2026 年 6 月 8 日,来源为 Hacker News 热门(buzzing.cc 中文翻译)。

产品更新多模态语音
03:46
Ars Technica:AI(RSS)
53
苹果发布"Siri AI"--更"会话式"的新语音助手

苹果宣布推出“Siri AI”,一个更“会话式”的语音助手,新功能将于今年秋季上线。此次更新伴随一个由谷歌驱动的双层AI模型大改造。

产品更新多模态语音
03:21
IT之家(RSS)
51
苹果 iOS / iPadOS 27 开发者预览版 Beta 1 发布:全新家长控制、Siri 集成相机等

6 月 9 日,苹果推送 iOS / iPadOS 27 开发者预览版 Beta 1。App 打开速度最高提升 30%,新照片显示速度最高提升 70%。搜索功能从底层重构。iCloud 支持从安卓和 Windows 设备添加照片到共享相册并全分辨率共享。新增儿童账号与家长控制,13 岁以下默认开启请求和购买前询问。Siri 集成到相机应用,可识别物体并保存,基于第二代设备端模型处理。Safari 自动整合标签页、支持自然语言关注内容通知,系统级 AI 自动校正。Home 应用通过 AI 精简配件通知、识别视频片段生成描述、拼接多摄像头视频并支持自然语言搜索。照片 App 推出空间构图,生成 3D 场景,支持后期放大和移动视角,扩图与杂物移除增强。图乐园新增写实风格。iPhone 11 可升级。

产品更新多模态端侧
03:21
IT之家(RSS)
40
苹果 visionOS 27 开发者预览版 Beta 1 发布

苹果今日向 Vision Pro 用户推送 visionOS 27 开发者预览版 Beta 1 更新(内部版本号:24M5291p)。新版本为海外机型引入 Siri AI 功能,支持通过视觉智能面向场景询问 Siri,并可将全景照片设置为个人环境。因区域节点缓存差异,升级更新可能存在最长半小时的延迟。

产品更新多模态
03:21
IT之家(RSS)
53
苹果发布 Xcode 27 Beta 与 Core AI 框架,称其为构建 AI 智能体"最佳场所"

在 2026 全球开发者大会(WWDC)上,苹果发布 Xcode 27 Beta 并推出 Core AI 框架。新版 Foundation Models 框架支持图像输入,开发者可将图片与文本一并传给设备端模型,处理多模态任务。Xcode 编码助手升级为智能体式编码工作流,已覆盖应用本地化、与模拟设备交互以及测试与调试环节。苹果软件工程高级副总裁 Craig Federighi 称 Xcode 已成为构建智能体 AI 应用的“最佳场所”。

智能体产品更新多模态编码
03:16
Ars Technica:AI(RSS)
52
Gemini 3.5 和 Antigravity 登陆 Google NotebookLM

Google NotebookLM 迎来重大升级,新增 Gemini 3.5 和 Antigravity 功能,但目前仅向 AI Ultra 和企业账户开放。

Google产品更新多模态
03:14
Apple:Newsroom(RSS)
精选69
受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线

由于欧盟《数字市场法案》(DMA),Apple 无法在 iOS 27 和 iPadOS 27 发布时于欧盟地区推出 Siri AI。该功能在欧盟的上线时间将晚于其他地区,具体时间未公布。

多模态政策/监管语音
关联讨论 5 条X:Kim (@kimmonismus)Apple:Newsroom(RSS)IT之家(RSS)The Verge:AI(RSS)X:Testing Catalog (@testingcatalog)
推荐理由:苹果首次将 DMA 作为 AI 功能地区延迟的直接理由,并详细披露了与欧盟监管者的分歧,这个案例可能定义了 AI 助手在监管下的权限边界。
03:14
Apple:Newsroom(RSS)
同事件精选66
Apple 推出 Siri AI:由 Apple Intelligence 驱动的更强大、更个性化的个人助理

Apple 发布了 Siri AI,一款由 Apple Intelligence 驱动的个人助理,具备个人上下文、世界知识和屏幕感知能力,能提供更强大、更个性化的交互体验。

智能体产品更新多模态端侧
同一事件,精选展示《受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》
推荐理由:苹果对 Siri 的这次重构不是简单地换个模型,它把个人上下文、屏幕感知和视觉智能实际嵌进了系统,对普通用户来说日常交互方式可能要变。
03:14
Apple:Newsroom(RSS)
同事件精选63
Apple Intelligence 将强大 AI 能力融入日常体验

Apple 发布下一代 Apple Intelligence,将 AI 能力集成到 iPhone、iPad 和 Mac 中,带来更个性化和有帮助的日常体验。

产品更新图像生成多模态
同一事件,精选展示《受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》
推荐理由:苹果这次把 AI 深度植入常用 app,从空间重构图到自动修密码,方向很务实,但秋季才上线,目前只有开发者能尝鲜。
03:09
TechCrunch:AI(RSS)
精选73
苹果刚刚教会你的iPhone补全句子、完善照片和简化工作流程

Apple为Safari、Shortcuts和Password应用添加了AI驱动的新功能,让iPhone能够自动补全句子、完善照片和简化工作流程。

产品更新图像生成多模态

推荐理由:WWDC 2026 的 Apple Intelligence 更新不是颠覆性突破,但 Safari 标签管理、跨应用上下文和 Shortcuts 的 AI 创建让 AI 真正渗透到日常使用中,是所有苹果用户都该看看的实用升级。
02:38
TechCrunch:AI(RSS)
34
Apple 用新 Siri in Camera 功能解决分摊账单的烦恼

苹果软件副总裁 Sebastien Marineau-Mes 介绍,用户只需用 iPhone 相机对准账单,选择自己点的菜品,即可通过 Apple Cash 拆分账单并完成付款。

产品更新多模态
02:38
TechCrunch:AI(RSS)
同事件精选73
苹果为Siri推出专属应用

苹果公司为Siri推出了独立的专属应用程序,标志着该语音助手首次拥有了自己的独立应用入口。

产品更新多模态语音
同一事件,精选展示《受 DMA 影响,Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》
推荐理由:Siri 终于有了自己的 App,聊天记录管理、多模态输入向 ChatGPT 对齐,是 Siri 走向独立 AI 产品的标志,但本质上还是一个 UI 补课,没带来新的智能跃进。
02:38
TechCrunch:AI(RSS)
65
苹果照片应用将新增AI编辑功能

苹果照片应用将新增AI编辑功能,包括空间“Reframe”特性,让用户利用AI调整照片视角。

产品更新图像生成多模态
02:21
IT之家(RSS)
38
苹果 macOS 27 将 Siri AI 整合至"聚焦",按住 Control 点选文件即可提问

在 WWDC26 上,苹果宣布 macOS 27 将全新 Siri AI 整合进“聚焦”功能。用户按住 Control 键点选图像、文件和文本即可向 Siri 提问,还能随意拖放窗口调整界面大小。Siri 能够调用 Mac 本地文件回答问题,支持同时选中多个文件并通过关键菜单发起提问。

产品更新多模态搜索
02:21
IT之家(RSS)
65
苹果 Siri 集成至 iPhone 相机应用,可识别物体并记录饮食摄入

在 2026 年全球开发者大会(WWDC)上,苹果宣布 Siri 已集成到 iPhone 相机应用中,可识别物体并保存到 Siri 应用。官方展示案例中,用户可在相机中启用 Siri,利用 AI 记录摄入饮食。隐私保护方面,苹果表示通过 Apple Intelligence 第二代设备端模型处理。

产品更新多模态端侧
02:21
IT之家(RSS)
49
苹果升级 iOS 27 版 Home 应用:精简智能家居设备通知、自然语言搜索视频片段

苹果在 2026 年全球开发者大会(WWDC)上宣布升级 iOS 27 版 Home 应用,利用 AI 精简智能家居配件的通知,减少对用户的干扰。Home 应用可识别已连接摄像头的视频片段并生成描述,还能将不同摄像头的相关视频拼接在一起,用户可通过自然语言搜索视频片段。

产品更新多模态搜索
02:08
TechCrunch:AI(RSS)
68
WWDC 2026:Siri AI、iOS 27、Apple Intelligence 等发布汇总

苹果 WWDC 2026 于今日在 Apple Park 开幕,围绕 Siri AI、iOS 27、Apple Intelligence 等发布一系列更新,同期举办开发者活动和演示。本次大会是 CEO Tim Cook 在苹果的最后一次 WWDC 主题演讲。

产品更新多模态语音
02:08
TechCrunch:AI(RSS)
56
Apple 长期酝酿的 AI Siri 全面重塑终于到来

新版“Siri AI”将语音助手转变为功能更丰富的 AI 伴侣,不再局限于简单语音指令,而是能承担更多复杂操作。此次重塑旨在让 Siri 从被动应答进化成主动智能体,标志着 Apple 在 AI 助手领域的重要升级。

产品更新多模态语音
01:38
TechCrunch:AI(RSS)
82
WWDC 2026:Siri、iOS 27、Apple Intelligence 等全部发布内容

苹果 WWDC 2026 于太平洋时间上午 10 点在 Apple Park 开幕,为期一周的大会将发布围绕 Siri、iOS 27、Apple Intelligence 等更新,同时还有开发者活动和演示。本届大会是 CEO Tim Cook 在苹果的最后一次 WWDC。

产品更新多模态语音
关联讨论 5 条X:Kim (@kimmonismus)Apple:Newsroom(RSS)IT之家(RSS)The Verge:AI(RSS)X:Testing Catalog (@testingcatalog)
6月8日
22:20
IT之家(RSS)
49
超越人眼的能力:华为乾崑智驾百公里时速隧道避障视频曝光,车辆提前预判秒切车道

近日曝光视频显示,华为乾崑智驾车型在百公里时速进入隧道时,感知系统提前发现桩桶,迅速变道避障。另一视频中,该车高速遇废弃栏杆,从110+公里时速减速至约90+,识别出中间可通行空间。华为终端BG董事长余承东在5月发布会上表示,纯视觉目标是接近人眼,华为多传感器融合路线目标是超越人眼。提醒:辅助驾驶并非自动驾驶,驾驶员为最终责任主体。

多模态端侧行业动态
19:50
Hugging Face:Blog(RSS)
精选74
Pakistan Notice Helper:一款面向本地安全问题的轻量 AI 工具

Pakistan Notice Helper 是一款安全工具,帮助巴基斯坦用户在点击链接、拨打电话、分享 OTP 或支付前识别可疑消息。它接受文本或截图输入,返回风险等级、简短解释、可见警示标志和安全下一步建议。工具支持英文和乌尔都语,乌尔都模式采用从右向左布局并全界面翻译。最终部署选用 Qwen3.5 4B Q8 模型(通过 llama.cpp + CUDA),在 10 个测试用例中通过了所有高风险诈骗和截图场景。此前曾测试 Qwen3.6 27B(质量高但成本高)和 MiniCPM-V 4.6 Q8(速度慢且不稳定),最终选择了精度、速度和成本平衡的 4B 模型。项目受限于 hackathon 的 32B 模型上限规则。

Hugging Face多模态教程/实践

推荐理由:一个只有4B的小模型,把巴基斯坦本地诈骗文案分析得明明白白,比那些参数大但看不懂乌尔都语的通用模型实用得多。做给特定地区特定问题的小工具,这才是AI落地的真节奏。
‹ 上一页
1…678910…31
下一页 ›