iOS 27 引入独立 Siri 应用,采用聊天机器人风格,用户可在文本框输入发起 AI 聊天,支持上传图片和文件附件、查看历史对话。该应用默认调用 Siri AI,用户需长按输入框并点击“Ask…”按钮,在弹出的选择窗口中手动切换至 ChatGPT。目前仅支持 Siri AI 和 ChatGPT 两个选项,且关闭并重新打开应用后选择会回到 Siri,设置中暂不支持永久将 ChatGPT 设为默认模型。
iOS 27 引入独立 Siri 应用,采用聊天机器人风格,用户可在文本框输入发起 AI 聊天,支持上传图片和文件附件、查看历史对话。该应用默认调用 Siri AI,用户需长按输入框并点击“Ask…”按钮,在弹出的选择窗口中手动切换至 ChatGPT。目前仅支持 Siri AI 和 ChatGPT 两个选项,且关闭并重新打开应用后选择会回到 Siri,设置中暂不支持永久将 ChatGPT 设为默认模型。
6月25日,交通运输部等五部门印发《“人工智能+交通运输”典型应用场景创新行动方案》。方案提出开展智能驾驶“端到端”大模型研发与测试,面向公路货运、园区运输等场景推进智能测评技术研发与虚实结合测试场建设。依托公路感知设施,利用多模态大模型提升路网全要素感知,开展交通流态势推演与疏导策略自动生成。鼓励采用视觉大模型、智能机器人实现基础设施智能巡检,推动智能列车与运行控制系统研发,探索公路自由流收费“无感通行”新模式。
DomainShuttle 提出一种面向开放域主题驱动文本到视频生成(S2V)的方法,支持域内(高保真保留参考主体特征)和跨域(允许主体无关属性随文本提示灵活变化)两种场景。该方法引入 Domain-MoT 模块,通过解耦视频与参考特征并采用域感知 AdaLN 进行主体特定建模;提出 Video-Reference DualRoPE 方案,将参考图像 token 与视频 token 置于独立 RoPE 空间实现主体级空间建模;设计 Cross-Pair Consistent Loss 提取不受无关特征干扰的内在主体特征。实验表明,DomainShuttle 在多种开放域场景中相比现有方法实现显著提升,兼具高主体保真度与生成灵活性。
PaddleOCR 的 PP-OCRv6(对应 PaddleOCR 3.7)正式上线 HuggingFace,精度进一步提升,并新增 transformers 和 ONNX Runtime 两个推理后端。用户可通过统一 API 在不同后端之间无缝切换,无需大幅修改代码。PP-OCRv6 是工业界广泛使用的开源 OCR 方案,此次上架 HF 并支持多后端,降低了工程接入门槛,尤其利好希望在 transformers 生态中直接使用高性能 OCR 的开发者。
PP-OCRv6 is now on @HuggingFace! 🎉 Not just better accuracy- PaddleOCR 3.7 also adds transformers & ONNX Runtime backen...
人工智能芯片公司凌川科技近日完成数亿元A+轮融资,由啟赋资本领投,新国都、金浦投资、朝晖资本、百度风投等参与。该公司由快手集团与北京市人工智能基金联合发起,前身为快手异构计算与芯片事业部,自研SL200视频智能SOC芯片已在快手部署数万颗、服务7亿用户。其采用全国产3D堆叠技术的下一代芯片已于4月完成流片,针对散热、一致性、可靠性等关键问题做了设计,是韬(τ)定律面向互联网数据中心应用的具体呈现。
语音模型发布中仅8%包含多语言安全分析。RedVox 是一个基于真实语音的多语言安全与公平性基准,覆盖英语、法语、意大利语、西班牙语和德语五种语言。对8个最先进模型的评估显示,即使在非对抗性条件下,漏洞依然存在;在非英语语言中问题更严重,且当请求来自语音输入时风险被放大。通过调查数据贡献者,研究还揭示了语音数据收集中的个人隐私挑战,指出自然语音安全研究面临更广泛的社会技术难题。
流式视频编辑面临背景保持与低延迟两大瓶颈。LiveEdit提出因果逐帧编辑框架,通过三阶段蒸馏将双向基础模型的编辑能力迁移至单向流式编辑器,实现稳定长时编辑。引入面向AR的掩码缓存跨帧复用区域计算,将推理速度提升至12.66 FPS,在流式基线中取得最优视觉质量,适用于交互式与增强现实场景。
Qwen-Image-2.0-RL 后训练流程应用 RLHF 和 on-policy distillation(OPD)提升 Qwen-Image-2.0 扩散模型的视觉质量与指令跟随。通过微调视觉语言模型构建任务特定复合奖励模型,覆盖文生图的对齐、美学、肖像保真度,以及图像编辑的指令准确性与人脸身份保持。基于 GRPO 的 RL 框架引入混合 CFG 策略、组内奖励范围过滤和分类权重校准。最终通过轨迹级速度匹配的 OPD 合并多个教师策略。评测显示,Qwen-Image-2.0-RL 在 Qwen-Image-Bench 总分 57.84(+2.61),文生图 Elo 1193(+78),图像编辑 Elo 1349(+93)。
DanceOPD是一种面向流匹配模型的on-policy生成场蒸馏框架,将每个样本路由至单一能力场,查询低噪声学生诱导状态,以速度MSE作为训练目标,使学生在其自身rollout状态上学习专家能力的组合。该方法可吸收多个能力源(包括无分类器指导等operator定义的速率场),在T2I生成、局部编辑、全局编辑、真实感场吸收及CFG吸收等任务上均提升目标能力,同时保持锚点生成质量不受损。
ViQ 是一种视觉量化表示框架,通过两阶段学习(文本对齐预训练与特征离散化)在离散表示中平衡语义与细节,并支持原生分辨率输入。预训练借助语言模型增强语义监督,离散化阶段采用近端表示学习逐步压缩特征空间,结合位置感知多头量化实现任意分辨率处理。多模态任务上,ViQ 达到与基于连续高维特征的 SOTA 编码器相当的竞争力,同时保持低层重建高精度。采用 ViQ 的量化表示进行多模态训练可实现 20%–70% 的加速,适用于不同大语言模型和训练方案。
视频推理模型假设每帧可靠,在运动模糊、眩光等扰动下准确率下降15–30%p。Robust-TO框架将每帧信任度融入推理各阶段:通过统一接口组织异构视觉工具,每个工具接收子查询和经可靠性-相关性评分筛选的可信帧,返回预测、时间定位和校准可靠性分数。推理时分数指导三层次综合(高/中/低)与置信-成本GRPO奖励,联合优化正确性、可靠性和效率。在八个任务上,Robust-TO清洗输入准确率56.4%,超过最强开源基线10.6%p和Gemini-2.5-Pro(46.2%);五种腐蚀下保持54.3%,高出最强开源基线5.8%p,且准确率下降最小。
传统VLA模型因仅依赖当前观测和语言指令,难以泛化到相机视角或机器人形态变化的新场景。In-Context World Modeling(ICWM)将系统辨识作为上下文适应问题:机器人通过短暂自生成、任务无关交互历史,自主推断系统变量,从而理解当前系统的世界动态。ICWM利用上下文窗口捕获系统运行方式,无需参数更新即可适应新配置。在仿真和真实机器人上的实验表明,ICWM在新相机视角下显著优于标准VLA基线。
EO-WM是一种基于视频扩散Transformer的多光谱地球观测预测模型,将天气作为条件信号,稀疏观测与未观测地表状态视为不确定性来源。模型通过物理信息条件框架区分气候基线、天气异常和累积物理应力信号(如持续高温与干旱胁迫),并引入极端夏季基准和季节性匹配对基准,分别评估极端天气下植被退化预测的严重性感知能力及天气强迫变化下的响应保真度。实验表明,EO-WM在NDVI下降幅度预测上相对误差降低5.63%,方向命中率相对提升7.80%,同时保持标准像素级指标竞争力。模型与基准将开源。
市场调查机构CounterPoint Research报告显示,2026年第一季度全球智能眼镜出货量同比增长83%。其中VR眼镜出货量同比下降17%,AR眼镜同比增长136%,无显示智能眼镜同比增长210%。AR眼镜领域,Birdbath/平面棱镜方案份额从82%降至58%,波导方案从18%升至42%。Birdbath市场中RayNeo以41%份额领先,VITURE以34%紧随其后。波导AR市场中Rokid以41%居首,Meta占38%。无显示智能眼镜方面,Meta全球份额升至接近84%。中国市场由小米(含米家)和阿里巴巴引领。
Google Flow Agent 新增 Google Maps Street View 实景锚定功能,支持根据用户提示中的地名或街道地址,为图片和视频生成提供真实世界细节。用户需启用 Agent 模式并在提示词中包含具体地点。目前该功能仅限美国街景位置可用。
Google Flow 🤝 @GoogleMaps Street View Your agent in Google Flow can now generate images and videos grounded in @GoogleM...
Gradium 发布两款实时语音翻译模型:stt-translate(语音转文本)和 s2s-translate(语音转语音)。两者覆盖英语、法语、德语、西班牙语、葡萄牙语共 5 种语言、20 个语言对,将转录和翻译合并为一步,传统 3 模型级联缩减为 2 模型。stt-translate 在 BLEU 和 MetricX 指标上领先 gemini-3.5-live-translate,BLEU 领先 gpt-realtime-translate,MetricX 可比。s2s-translate 平均延迟 3.0s,优于 gpt-realtime-translate(3.6s),略逊于 gemini-3.5-live-translate(2.9s)。支持从目录选择输出语音或克隆自己的声音,通过单条双工 WebSocket 传输。
Google DeepMind 宣布,computer use 现作为内置工具集成于 Gemini 3.5 Flash,开发者可构建跨浏览器、移动端和桌面的智能体,实现视觉感知、推理与操作。此前该功能仅以独立模型形式存在于 Gemini 2.5。3.5 Flash 已支持函数调用及 Search、Maps 等内置工具,新增的 computer use 可提升持续软件测试和跨专业应用知识工作等长周期企业自动化任务的性能。安全方面采用针对性对抗训练,并可选配两项企业防护系统:要求用户确认敏感操作,以及在检测到间接 prompt 注入时自动停止任务。可通过 Gemini API 和 Gemini Enterprise Agent Platform 使用。
关联讨论 2 条Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)作者从打字提示转向完全用语音与AI智能体交互,发现通过音频能提供更丰富的细节,语音越长越详细,结果越好。这种交互方式还能并行化更多工作,让智能体执行更长时间任务。作者开发了新功能:录制屏幕、截图、追踪鼠标动作、用语音标注解释智能体难以处理的设计和精确功能开发。结论是提示模态越丰富,智能体结果越可靠,虽然消耗更多token成本更高,但可靠性值得。这些模式可存储为可重用技能,效果天差地别。
Genspark 推出 Genspark Design,由 Claude Opus 4.7 驱动。用户可将粗糙提示词转化为可编辑的 UI 原型、海报、视频、HTML 动画和工作代码。设计作为可复用系统,支持保存 Logo、颜色、字体、间距和组件并跨资产应用。核心是分层输出:文本、图像、背景、组件保持分离,用户可直接修改设计本身,无需要求模型重新生成。支持上传 Figma 文件或保存设计,一键生成可交付代码(基于 Genspark Code),无需设计背景即可使用。
🎨 Introducing Genspark Design The next-gen AI for design and creation, powered by Claude Opus 4.7. From rough idea to p...
Krea 2 是一系列基础模型,兼顾审美多样性与创意控制。采用扩散 Transformer(DiT)架构,集成 iREPA、改进 VAE 和 Qwen3-VL,通过预训练、中期训练、SFT、偏好优化和 RL 多阶段流水线训练。构建提示词扩展器和风格参考系统,支持从文本和图像输入进行可控探索。模型权重与推理代码以宽松许可证开源。在 Artificial Analysis 文本到图像排行榜中位列前十,独立实验室模型中排名第二。
关联讨论 1 条X:Krea AI (@krea_ai)Most AI assistants can read text, write code, and automate workflows. #LLMs #AI #Aiassistants #Aigateway #AIModels #Open...
OpenRouter推出统一图像API,整合Google、OpenAI、Black Forest Labs、Recraft、ByteDance、Sourceful、Microsoft、xAI等30+模型。新API提供标准化请求格式,通过/api/v1/images/models端点返回每个模型的分辨率、宽高比、输出数量、输入参考图数量、种子等能力描述;通过/api/v1/images/models/{id}/endpoints端点获取具体服务商的定价与参数支持(如Seedream 4.5每张$0.04、FLUX.2 Pro每百万像素$0.03、GPT-5.4 Image 2按token计费)。OpenAI的GPT 5系列图像模型支持SSE流式预览,启用"stream": true即可边生成边返回预览。新图像模型将仅添加至专用API,建议现有用户切换。
Cola 刚刚上线了最新的 Seed 2.1 Pro 原生多模态模型,号称目前多模态最强模型。相比 2.0 版本,该模型显著增强了 coding 和 Agent 能力。具体评测细节可参考藏师傅的文章。体验地址:colaos.ai。
http://x.com/i/article/2069421203073490944
Mistral AI 推出 OCR 4 模型,专用于从 PDF、Word 文件和 PowerPoint 演示文稿等文档中提取文本。据公司称,该模型在盲测中有 72% 的测试案例表现优于竞争对手。
荣耀产品线总裁方飞在MWC26上海宣布,荣耀将于今年7月发布以人为中心的下一代终端操作系统AgenticOS。该系统具备意图驱动(以意图为中心而非应用)、自然交互(声音、手势、眼神等)、主动智能(Agent内核,主动规划/服务/执行)及天生跨端(一脑调度万端,多设备多Agent协同)四大特性。此外,年初发布的“机器人手机”Robot Phone预计今年下半年上市,搭载行业最小的4DoF云台系统,体积比主流方案缩小70%。
邵猛使用 TRAE Work 测试了字节跳动最新发布的豆包2.1 Pro 模型。官方称豆包2.1 系列在 Coding 和 Agent 能力上显著提升,VLM 能力保持领先,综合能力介于 Claude Opus 4.6 和 4.8 之间。实测中,模型先思考整体规划与实现过程,再读取设计图理解场景和细节,调用最合理的 Skill 规划网页逻辑,分步骤实现后通过本地预览和视觉验证确保效果。最终输出在视觉还原、交互和技术实现上非常细致,包括布局、字体选择、自适应布局,甚至为每个部分配上具有实际意义的图片而非占位符。
📸 MiniCPM-V 4.6 - one of the strongest vision models under 2B params - now runs at ~51 tok/s on iPhone 17 Pro via Apple...
用户将截图丢给 StepFun 的 step-3.7-flash 模型(运行在 Codex 中),2 分多钟生成可用的网页版文章头图生成器,支持修改文案和导出 PNG,总成本仅 $0.06。模型能自行理解参考图并实现完整功能逻辑,但视觉还原度仅六七分,手绘涂鸦风需手动调整。StepFun 同步推出 Startup Program,早期团队可获 API 额度、生态支持及资源对接。
6月23日,部分用户反馈 ChatGPT 网页版和 App 版上线了双向 AI 语音模型 Bidi 1,位于设置模型选择器中,与标准语音和高级语音并列。该模型支持边说话边监听,用户可在对话中途打断并发出新指令,例如要求从1数到10时中途喊停倒数,模型会立即切换执行。OpenAI 尚未官宣,预计本周启动更大范围测试。
FlowR2A通过flow-matching解码器学习奖励条件动作分布,将基于评分方法(密集奖励监督但固定动作词汇)与基于锚点方法(动态生成提案但稀疏监督)统一到单一生成模型中。模型从密集轨迹-奖励对中学习分布,引入细粒度每时间步奖励条件和奖励噪声增强,以平衡硬安全约束与软进度目标。测试时支持通过奖励引导和锚定采样实现可控生成。在NAVSIM v1和v2基准上达到最新最优结果,多模态提案质量显著高于此前方法。
百度开源全新 Unlimited OCR 模型,采用参考滑动窗口注意力(R-SWA)技术。模型 3B 参数、500M 激活,在标准 32K 上下文下可一次前向推理处理数十页文档,无需切页。R-SWA 将原件与已写文字区分:原件全程保留,已写文字仅关注最近 128 个 token,使显存和算力不随页数增长,有别于传统 OCR 逐页清空拼接的方式。
CF-World是一个反事实基准,用于测试文本到图像(T2I)模型在系统性违背现实世界先验规则下生成图像的能力。每个场景分三个递进层级:事实生成、显式反事实生成和隐式反事实生成。评估采用VLM-based评估器CF-Eval,引入两个指标:Prior Resistance Rate(PRR)衡量克服固有先验的能力,Reasoning Retention Rate(RRR)评估无显式视觉线索时的推理依赖生成。实验表明,所有模型在反事实场景中性能急剧下降,原因是T2I模型将世界知识与视觉外观编码为紧密耦合模式,过度依赖训练数据中的频繁视觉共现,在反事实任务中退回至熟悉常识先验。
提出ReMMD框架,包含基准ReMMDBench(500样本、2756张图片、5种单语及2种跨语言设置、多图像帖子、5类真实性标签与8类失真标签)及持久记忆验证器ReMMD-Agent。该Agent将帖子分解为原子点,构建可重用证据集,输出结构化L1/L2/L3预测。在闭源系统、开源LVLMs、MMD-Agent和T2-Agent对比中,ReMMD-Agent搭配GPT-5.2取得最佳五类真实性性能,准确率41.80%,macro-F1 39.12%,成本较MMD-Agent降低17.5%,较T2-Agent降低79.9%。项目已在HuggingFace开源。
火山引擎昨日发布豆包音频生成模型 1.0(Doubao-Seed-Audio 1.0),首次支持文本、音频等多模态参考生成,端到端输出目标音频,长时生成中保持多角色音色一致性。用户可通过单条 Prompt 编排角色对白、情绪语气、背景音乐、环境氛围,直接产出成片级音频。模型一次支持 2 分钟音频创作,可多次延长且保持音色统一;实现零样本多模态生成,支持音色与风格解耦控制。火山方舟已开启 API 邀测,个人用户可免费体验 30 分钟创作额度。该模型即将上线剪映、即梦、番茄等产品。
阿里云宣布距FFA2026大会仅剩2天,全部11个分论坛议程已上线,覆盖7大Data+AI方向:多模态与向量计算、AI智能体、AI平台实践、智能DevOps、Agentic Lake、实时分析与实时数据。同时设汽车AI和具身AI行业专场。Apache Fluss 1.0在大会上首次亮相,具备专为AI智能体设计的实时上下文能力。大会将于6月26-27日在深圳举办。
豆包专业版基于豆包2.1系列大模型上线,面向复杂办公与生产力场景。办公任务模式接入可执行Agent任务的豆包2.1模型,支持操作本地电脑、浏览器、调用Skills技能、定时任务,内置Office办公套件,并可生成带后端数据库的在线应用。免费用户可体验豆包2.1 Turbo版办公任务模式,专业版接入豆包2.1 Pro模型。定价:标准套餐68元/月(连续包月),加强套餐200元/月,高级套餐500元/月。大学生认证后标准套餐38元/月,持续6个月。