广发证券分析师蒲得宇发布研报指出,英特尔代工业务取得关键突破,其2.5D先进封装技术EMIB良率达到90%,已为AI数据中心芯片做好准备。该技术良率与FCBGA相当,但互连密度更高。其高性能版本EMIB-T集成了TSV,当前已支持大于8倍光罩尺寸,能在封装内容纳12个HBM芯片和超过20个桥接。英特尔计划到2028年将EMIB-T扩展至大于12倍光罩尺寸,以容纳超过24个HBM裸片和38个以上桥接,进一步提升封装能力。
微软面向Xbox Insider成员,在ROG Xbox Ally X掌机推出“自动超分”功能预览版。该AI技术类似DLSS/FSR,通过调用锐龙AI Z2 Extreme处理器的NPU,将720P等低分辨率游戏画面实时提升至1080P或更高,性能最高可提升30%,建议在帧率低于60fps的游戏中使用。功能支持DirectX 10及以上游戏,可按游戏单独开关。同时,微软优化了底座连接体验,连接电视时可自动转移画面并支持VRR,并改进了手柄配对、光标导航及震动反馈等交互细节。
苹果2026财年第二财季研发支出达114亿美元,创历史新高,同比增长34%。自2022年约60亿美元起,其研发投入持续陡峭攀升,本季度首次突破百亿美元大关。公司CEO蒂姆·库克表示正大幅增加AI研发投入,资金重点用于产品与服务的全栈AI建设,且研发费用增速远超公司整体增速。然而,与同期Alphabet的170亿美元、Meta的176亿美元研发支出相比,苹果在绝对投入规模上仍存差距,于AI竞争中面临追赶压力。
本次更新增强了模型网关集成,当配置指向兼容网关时,可直接在模型选择器中列出可用模型。新增了 `claude project purge` 命令,用于彻底清理项目状态数据。OAuth登录流程得到优化,支持在浏览器回调失败时手动粘贴授权码,并修复了多种网络环境下的登录问题。安全方面,修复了 `allowManagedDomainsOnly` 等设置可能被忽略的漏洞。此外,还解决了图像粘贴过大导致会话中断、远程会话误报“流空闲超时”、Windows系统下特定文本渲染乱码以及多项工具在特定场景下不可用等数十项错误。
埃隆·马斯克已结束针对OpenAI诉讼案的法庭作证。他指控OpenAI及其联合创始人萨姆·奥尔特曼等人曾以保障AI安全的非营利承诺,获得其3800万美元捐款与支持,随后却转为营利实体谋利。马斯克证称奥尔特曼曾保证组织将保持非营利性质,但承认自己未详细阅读2017年关于结构转型的条款清单。他在质询中强调,目前的营利实体已占据原非营利组织绝大部分价值。奥尔特曼与布罗克曼全程在场旁听。
Anthropic 面向所有 Claude Enterprise 用户开放 Claude Security 公测版。该工具基于 Claude Opus 4.7 模型,企业只需指向 GitHub 仓库即可启动代码安全扫描。它通过理解代码逻辑与数据流进行推理,以发现复杂漏洞,并经过多阶段验证以降低误报率,漏洞按实际可利用性评定严重级别。其前代模型曾在开源代码库中发现数百个隐藏数十年的漏洞。公测版支持周期性扫描、限定扫描目录、结果导出以及实时推送至 Slack 等平台。目前该工具仅支持 GitHub 仓库。
OpenAI计划将AI编程智能体工具Codex从桌面端扩展至移动端,推出配套iPhone应用。该应用定位为“开发智能体指挥中心”,用户可通过手机监控后台运行的自动化任务并接收实时反馈。产品定位从智能体编程转向通用生产力工具,新版Mac应用新增工作类型选项,涵盖工程、财务等10个领域,系统会根据用户选择调整界面。移动应用预计深度集成版本控制系统,支持用户通过语音或触控审批代码修改建议。
微软发布了Windows 11 2026年4月可选更新KB5083631。本次更新引入了全新的Xbox模式,提供全屏游戏界面,可通过Xbox应用或快捷键进入。文件资源管理器获得多项可靠性改进,修复了深色模式下的白色闪烁错误,新增对多种归档格式的支持,并解决了文件夹视图设置无法记忆的问题,性能有所提升。此外,更新还带来了需特定硬件支持的触觉反馈引擎,以及为开发者提供的任务栏AI智能体API。其他改进包括更快的Windows Hello身份验证、更直观的语音输入,并将命令行格式化FAT32卷的大小限制从32GB提升至2TB。
彭博社透露苹果计划推出名为“AirPods Ultra”的新旗舰耳机,定位高于AirPods Pro 3(国行1899元)。其最大亮点是内置红外摄像头,用于配合iOS 27的新版Siri提供环境视觉信息,强化AI交互。交互方式将移除压感柄,改为摄像头识别的手势控制。音频方面预计搭载全新H3芯片,以降低延迟、提升音质并为AI功能提供算力。该产品可能于2026年秋季与iPhone 18系列一同发布。
Opus 4.7 AI系统发布,新版本能识别用户真实身份,例如在案例中了解凯尔西的个人信息。这一变化使得AI对话不再匿名,引发对隐私和数据安全的广泛讨论。该话题在Hacker News社区获得104点关注,显示科技界对AI身份识别技术的高度兴趣。Opus 4.7的升级可能涉及更精准的用户追踪功能,标志着AI在个性化服务与隐私保护之间的新挑战。
针对可验证奖励强化学习可能抑制生成多样性的问题,本文提出负样本投影残差强化学习框架。该方法通过理论分析,将负样本标记的隐藏表示投影到基于奇异值分解的低秩正子空间,并利用投影残差来调制负梯度,从而解耦正负响应间的相似语义分布。在涵盖数学、代码、智能体任务和函数调用的12个基准测试中,ResRL平均表现优于基线方法,尤其在数学推理上较负样本强化学习方法显著提升,实现了推理能力与生成多样性的协同优化。代码已开源。
研究团队构建了覆盖10个临床领域、包含3600多项任务的Gymnasium兼容医疗AI训练环境。分析发现,现有多轮智能体强化学习方法易退化为冗长单轮独白,工具使用频率下降,问题源于稀疏最终奖励与连续临床轨迹的错配。为此,研究提出“轮次截断策略蒸馏”自蒸馏框架,利用梯度冻结的EMA教师模型在每轮对话提供密集的KL正则化。该方法在18项基准测试的10项中取得最佳性能,较非强化学习基线平均提升3.9个百分点,实现了更快早期收敛、可控响应长度和持续的多轮工具使用。
针对大型多模态模型后训练中SFT阶段引发的分布漂移问题,研究团队提出了PRISM三阶段流程。它在监督微调与强化学习验证奖励之间,新增了一个基于在线策略蒸馏的显式分布对齐阶段。该阶段将对齐构建为策略与混合专家判别器之间的黑盒对抗游戏,由感知和推理专家提供解耦的纠正信号。团队使用来自Gemini 3 Flash的11.3万条高保真演示进行对齐。在Qwen3-VL上的实验表明,PRISM能持续提升下游强化学习性能,使4B和8B模型在多个基准上的平均准确率较基线分别提升4.4和6.0个百分点。
BlenderRAG是一个检索增强生成系统,能够从自然语言描述自动生成可执行的Blender代码。该系统基于一个包含500个经专家验证的多模态样本(文本、代码、图像)的数据集,覆盖50种物体类别。在代码生成过程中,系统通过检索语义相似的示例来引导大语言模型,从而将四大前沿模型的代码编译成功率从40.8%显著提升至70.0%,并将语义对齐度(CLIP相似度)从0.41提高到0.77。该方法无需对模型进行微调或使用专用硬件,可立即部署使用。相关数据集和代码已在GitHub开源。
针对自回归大视觉语言模型在生成长序列时出现的“视觉信号稀释”问题,研究团队提出了轻量级可学习模块“持久视觉记忆”。该模块作为前馈网络的并行分支集成到模型中,建立了一个与生成长度无关的检索路径,能直接提供视觉嵌入以维持精确的视觉感知,从而从结构上缓解深度生成固有的信号抑制。在Qwen3-VL模型上的实验表明,该模块以极小的参数开销带来了显著的性能提升,在4B和8B规模上均实现了平均准确率的稳定增长,尤其在需要持续视觉感知的复杂推理任务中表现突出。
针对现有树状检索增强生成方法在应对跨文档多跳查询时面临的分布适应性差、结构隔离和抽象粒度粗糙三大挑战,研究者提出了Ψ-RAG框架。该框架包含两个核心组件:一是通过“合并与坍缩”迭代过程构建、无需先验分布假设的分层抽象树索引;二是配备重组查询和智能体驱动混合检索器的多粒度检索代理。Ψ-RAG支持从词元级问答到文档级摘要的多样化任务,在跨文档多跳问答基准测试中,其平均F1分数显著优于现有先进方法。相关代码已开源。
Meta 发布了用于代码生成与推理的 Code World Model,并对其进行了前沿风险准备情况评估。报告显示,该模型在预设的可能带来灾难性风险的领域测试中,未表现出超越当前 AI 生态系统的额外前沿风险。基于评估结果,Meta 决定以开放权重模型的形式公开发布 CWM。
研究团队提出Odysseus框架,利用强化学习训练视觉语言模型在《超级马里奥大陆》中执行超过100轮的长序列决策。该方法采用改进的PPO算法与轻量级轮次评论家,显著提升了训练稳定性和样本效率。相比从零开始的深度强化学习,预训练视觉语言模型提供了强动作先验,减少了对人工动作工程的需求。实验表明,Odysseus在游戏进度上达到前沿模型的至少3倍,并在游戏内与跨游戏泛化中保持性能提升,同时未损害模型的通用领域能力。该研究为在多模态长序列任务中稳定应用强化学习提供了关键要素与实践指导。
针对大型语言模型红队测试中生成对抗性攻击时面临的训练不稳定与模式崩溃问题,研究团队提出Stable-GFN方法。该方法摒弃了传统生成流网络中的分区函数估计,转而采用基于成对比较的稳定训练目标,并引入鲁棒掩码机制以应对奖励噪声。此外,通过流畅度稳定器防止模型陷入生成无意义文本的局部最优。实验表明,该方法在保持生成流网络最优策略的同时,实现了更稳定的训练过程,其生成的对抗攻击在效果与多样性方面均表现优异。
研究建立了层次决策树与扩散过程在极限状态下的数学对应关系,提出统一的优化原则——全局轨迹分数匹配(GTSM),并证明理想化梯度提升是其渐进最优解。基于该框架,treeflow 在表格数据生成任务中实现了更高保真度与 2 倍计算加速,生成质量达到竞争水平;dsmtree 作为一种新型蒸馏方法,能将层次决策逻辑迁移至神经网络,在多项基准测试中与教师模型性能差距不超过 2%。
本文提出一种将评估机制嵌入工具调用智能体实时执行循环的新方法。通过引入一个专门的评审员智能体,在推理时对主智能体的中间决策轨迹进行即时评估,并生成结构化反馈。这使得主智能体能在单次运行中动态调整其工具选择与参数调用,无需依赖传统的提示调整或模型重训练。该实时干预机制旨在直接纠正错误,提升了工具使用的准确性与可靠性,突破了传统后验评估无法在运行中修正行为的局限。本工作已被ACL 2026的自然语言生成、评估与指标研讨会接收。
针对大型视觉语言模型普遍存在的幻觉问题,研究提出在线自校准框架OSCAR。该方法利用模型自身判别能力高于生成能力的特点,通过蒙特卡洛树搜索和双粒度奖励机制构建偏好数据,并采用直接偏好优化进行迭代训练。实验表明,OSCAR在多个幻觉基准测试中取得最优性能,同时提升了模型的通用多模态能力,避免了传统离线对齐方法中存在的监督-感知失配问题。
研究提出LASE(语言对抗性说话人编码器),以解决多语言语音克隆中因发音文字不同导致的说话人身份漂移问题。现有编码器如WavLM和ECAPA-TDNN在跨文字切换时性能下降。LASE在冻结的WavLM-base-plus模型上增加小型投影头,结合监督对比损失和梯度反转的跨语言分类对抗损失进行训练,使编码消除语言信息的同时保留说话人特征。实验表明,在1118个跨文字语音对上,LASE将身份漂移降至接近零,并扩大与基线的差距2.4-2.7倍。在合成多说话人日记任务中,LASE仅用约百分之一训练数据即达到与ECAPA-TDNN相当的说话人召回率。研究同时发布了模型检查点、语料库和评估代码。
本文针对分布式黑盒共识优化问题,提出轨迹驱动的自设计框架LACMAS。该方法首先设计了具有自适应内部机制的智能体群体动力学,以平衡探索、收敛与局部逃逸。在此基础上,利用大型语言模型根据历史优化轨迹,为智能体的内部行动与外部协作模式提供稀疏的高层指导,并采用分阶段认知调度策略进行资源感知的适应。实验表明,该框架在基准测试和实际任务中,能持续提升解决方案质量、收敛效率与通信效率,为从人工设计转向自设计多智能体优化系统提供了可行路径。
研究团队提出了“部署中学习”(LWD)框架,用于对通用视觉-语言-动作(VLA)策略进行持续的集群规模离线到在线强化学习。该系统从预训练策略出发,利用机器人集群自主运行和人工干预数据,形成部署、经验共享、策略改进与再部署的闭环。为稳定处理异构稀疏奖励数据,LWD结合了用于鲁棒价值估计的分布隐式价值学习(DIVL)和用于基于流的动作生成器中策略提取的伴随匹配Q学习(QAM)。在16台双臂机器人集群的八项真实操作任务(包括语义商品补货与长时程任务)验证中,单一通用策略随经验积累平均成功率提升至95%,长时程任务改进尤为显著。
本文提出生成式语言-图像预训练框架GenLIP,为多模态大语言模型设计了一种极简的视觉Transformer预训练方法。该框架直接使用语言建模目标训练ViT,使其根据视觉token预测语言token,无需构建对比批次或额外文本解码器。其优势在于结构简单、数据和模型规模可扩展性强,并在多项多模态基准测试中取得有竞争力或更优的结果。基于Recap-DataComp-1B中80亿样本训练后,GenLIP在使用更少预训练数据的情况下达到或超越了强基线模型。进一步在多分辨率图像上持续预训练后,模型在OCR和图表理解等细节敏感任务上表现进一步提升。
研究团队提出一种端到端训练框架,联合优化图像重建与生成过程,使分词器能直接受到生成结果的监督。该方法突破了以往分词器与生成模型分两阶段训练的范式,并探索利用视觉基础模型提升一维分词器在自回归建模中的性能。最终模型在无引导的 ImageNet 256×256 图像生成任务中,取得了当前最优的 FID 分数 1.48。
本文提出Map2World,一个创新的3D世界生成框架。它允许用户根据任意形状与尺度的自定义分割地图来生成3D世界,确保了全局尺度一致性与大范围环境的布局灵活性。该方法通过一个细节增强器网络来生成精细场景细节,在融入全局结构信息的同时保持整体场景连贯性。整个流程利用资产生成器的强先验知识,即使在场景生成训练数据有限的情况下,也能实现跨领域的稳健泛化。实验表明,本方法在用户可控性、尺度一致性和内容连贯性上显著优于现有方法。
UniVidX是一个利用视频扩散模型先验的统一多模态视频生成框架。它将像素对齐任务统一为共享多模态空间中的条件生成,核心设计包括:随机条件掩码,实现全向条件生成;解耦门控LoRA,为各模态引入独立适配器以保留骨干网络先验;跨模态自注意力,通过共享键值促进模态间信息交换。该框架在两个领域实例化:UniVid-Intrinsic用于RGB视频及其内在属性图;UniVid-Alpha用于混合RGB视频及其RGBA分层。实验表明,即使在少于1000个视频的小数据集上训练,模型也能在多种任务上达到先进性能,并能稳健地泛化到真实场景。
针对代码奖励模型研究不足且现有模型多局限于功能正确性评分的问题,研究团队构建了Themis-CodeRewardBench基准,用于在5个偏好维度和8种编程语言上评估模型,并分析了50多个现有模型。为改进模型,团队创建了迄今最大的开源代码偏好数据集Themis-CodePreference(含超35万个偏好对),并据此训练了参数规模从6亿到320亿不等的Themis-RM系列多语言代码奖励模型,支持灵活的多标准评分。实验表明,模型具有正向缩放趋势,在多样化偏好训练下展现出强大的跨语言迁移能力,验证了多标准训练对可靠代码奖励建模的重要性。
近期多项进展展现了AI的巨大积极影响。医疗领域,Mayo Clinic的AI能通过常规CT提前最多三年检测胰腺癌,强生利用AI将新药线索生成时间减半。教育方面,哈佛研究显示AI导师使学生学习效果翻倍,泰国培训16万名教师惠及330万学生。农业上,AI能以约88%准确率预测害虫爆发。科研中,AI快速筛查NASA数据,新发现超一万颗系外行星候选。此外,香港推出AI洪水预报系统,Atlassian和Twilio等公司也因AI驱动业绩增长并上调预期。这些案例平衡了AI风险,凸显其创新潜力。
本期IT早报主要内容包括:追觅科技CEO要求全体员工开通社交媒体账号并发布视频;OPPO计划下半年推出效仿苹果风格的四曲面设计手机;iPhone 18 Pro系列或将迎来史上最大相机硬件升级。此外,极越汽车关联主体进入合并重整程序,DeepSeek发布多模态模型技术报告,央视曝光部分充电头功率虚标,宇树发布起售价2.69万元的双臂人形机器人,比亚迪与高德地图达成充电合作,支付宝等17家支付机构牌照获续展,华为鸿蒙新版本占比提升,以及小米大屏旗舰手机预计5月下旬发布。
OpenAI 的 Codex CLI 编码代理最新版本 0.128.0 引入了类似 Ralph 循环的功能。用户可通过设置 `/goal` 指令,让 Codex 持续循环执行任务,直至系统判定目标完成或达到预设的 token 预算上限。该功能主要通过自动注入的 `goals/continuation.md` 和 `goals/budget_limit.md` 提示模板实现,标志着 Codex CLI 在自主任务执行与预算控制方面的能力得到增强。
英国人工智能安全研究所发布了对 OpenAI GPT-5.5 网络安全能力的评估结果。该模型在发现安全漏洞方面的能力与 Claude Mythos 相当,但不同于仍处于预览阶段的 Mythos,GPT-5.5 目前已可公开使用。此次评估是继该研究所先前对 Claude Mythos 进行评估后的又一重要测评。
关联讨论 2 条X:Rohan Paul (@rohanpaul_ai)The Decoder:AI News(RSS)苹果CEO蒂姆·库克在财报电话会议上表示,Mac mini和Mac Studio将在未来数月内持续供不应求,预计需几个月才能达到供需平衡。苹果低估了两款产品的需求,因其作为AI和智能体工具的优秀平台,客户认知速度快于预期。目前部分型号发货延迟已达数月,苹果已停售512GB RAM版Mac Studio,并停止接受某些大内存型号订单,基础款Mac mini在美国官网已显示缺货。
Zig 语言创始人 Andrew Kelley 反驳了“无法识别谁在使用 LLM”的常见误解。他指出,尽管可能未捕获所有由 AI 辅助的拉取请求,但人类错误与 LLM 的幻觉存在本质区别,使得后者易于识别。他进一步比喻道,习惯于使用 AI 代理编程的人带有一种“数字气味”,就像吸烟者进入房间时,不吸烟者能立刻察觉一样。Kelley 澄清自己并非反对使用 LLM,但明确禁止在 Zig 项目中使用 AI 辅助生成的代码。
Midjourney V8.1 版本现已登陆 Discord 平台及其官方网站。本次更新重点提升了图像的清晰度与整体画质,这一改进在风格参考(SREF)和情绪板(Moodboards)功能中效果最为显著,同时所有类型的图像生成质量均有所增强,为用户带来更精细的视觉体验。
随着全球科技巨头与初创企业持续将海量资金投入生成式人工智能和大语言模型的研发竞赛,业界开始出现对资本配置效率的深刻担忧。巨额投资集中于少数头部模型如GPT、Claude和LLaMA的迭代,而基础设施、能源消耗及实际商业应用场景的落地速度引发质疑。部分分析师指出,超过千亿美元的资金涌入可能催生技术泡沫,并挤压其他关键科技领域的创新资源。这种集中趋势正促使投资者重新评估风险与回报的平衡。
文章指出,当前众多企业首席执行官正陷入一种“人工智能精神错乱”状态,表现为对AI技术产生不切实际的过度期待与盲目投资。这种狂热导致企业战略偏离实际需求,大量资源被投入尚未成熟的AI项目,而实际产出与预期存在显著差距。文中引用社区讨论指出,此现象在科技行业尤为普遍,已引发关于AI泡沫与理性应用的担忧。
一项针对年轻群体使用人工智能态度的调查显示,Z世代和千禧一代对AI的厌恶感随使用频率增加而上升。频繁使用者中,超过半数表达了对AI的负面看法,这一比例显著高于低频用户。主要不满集中在AI生成内容缺乏真实性与创造力,以及对其加剧社会不平等和取代人类工作的担忧。尽管AI工具普及率在年轻人中持续增长,但用户满意度并未同步提升,反映出技术应用与情感接受度之间的显著落差。