Linux 7.1 第二个候选版本(RC2)已发布,整体进展顺利,预计将按时推出正式版。本次更新中,KVM自测试相关补丁因代码重命名而占比异常,导致版本体量偏大。Linus Torvalds指出,补丁数量激增很可能与AI开发工具的普及有关,这一趋势从Linux 7.0就已开始。此外,版本修复了大量显卡与网络驱动问题,包括AMD和英特尔显卡的内存泄漏、缓冲区溢出等漏洞,并对NVMe认证、TLS模式、RAID10配置等核心组件进行了多项安全与稳定性修复。
文章反驳了将大型语言模型视为更高层次抽象的观点。作者认为,LLMs本质上仍是对训练数据的模式匹配与统计关联,并未真正理解或抽象出人类概念。其输出依赖于海量文本中的概率分布,而非构建内在的认知模型。这种机制导致模型在逻辑推理、事实一致性等方面存在局限,无法实现类似人类思维的抽象层级。因此,LLMs应被看作一种强大的模式识别工具,而非认知意义上的抽象系统。
豆包在免费模式外新增付费订阅服务,推出三档价格:标准版连续包月68元、包年688元;加强版连续包月200元、包年2048元;专业版连续包月500元、包年5088元。付费功能专注于复杂任务和生产力场景,如PPT生成、数据分析和影视制作,以满足专业用户对高价值任务的需求。免费版本将继续服务日常使用,官方表示相关方案仍在测试阶段,正式上线时会公布完整信息。
AMD 锐龙 AI Max+ PRO 495 处理器近日现身基准测试数据库,预计将成为锐龙 AI Max 400 “Gorgon Halo”商用系列的旗舰型号。该处理器采用16核心32线程设计,并集成了Radeon 8065S核显。测试信息显示其配备了高达192GB的LPDDR5X内存,测试平台疑似为惠普笔记本电脑。相比前代锐龙AI Max+ PRO 395(搭载Radeon 8060S核显,最大内存128GB),新款在CPU与GPU频率以及官方标称内存速度上均有所提升。
苹果机器人团队高级工程经理伯努瓦・兰德里离职,跳槽至谷歌DeepMind。苹果正研发智能家居机器人,包括一款桌面机器人,外观类似加装机械臂的iPad,可执行基础任务并搭载全新Siri系统。苹果员工流失严重,机器人团队负责人去年已跳槽Meta,团队多名高级工程师相继离职,人才被Meta和谷歌以高薪挖走。
特斯拉FSD(监督版)车队行驶总里程已突破100亿英里,达到马斯克设定的关键数据里程碑,且数据收集速度大幅加快。特斯拉宣称其FSD安全性优于人类驾驶,但业内指出其统计口径与官方不一致,存在误导性,其奥斯汀自动驾驶出租车事故率约为人类驾驶员的四倍。马斯克已将无监督版FSD上线时间推迟至2026年第四季度。相比之下,Waymo已在多城运营L4级无人驾驶,并公布其重伤事故率比人类低90%。
安全工程师仅花费12美元注册域名并编辑维基百科词条,虚构了一场纸牌游戏的2025年世界冠军赛事。多款具备联网搜索功能的AI聊天机器人将此虚假信息当作事实传播,暴露了AI在检索增强生成(RAG)中的核心漏洞:模型无条件信任网络检索结果,无法甄别信息来源真伪。此次低成本攻击揭示了AI在信息可信度与数据溯源方面存在重大隐患,涉及检索层误导、训练语料污染及智能体被操控执行恶意操作等多重风险。
苏黎世联邦理工学院等机构研发了一款半自主探测机器人,旨在解决传统火星探测因通讯延迟和数据传输限制导致的效率低下问题。该机器人能自主往返多个目标点,利用小型精密仪器进行探测分析。测试显示,其完成多目标探测仅需12至23分钟,而人工操控需41分钟,且能高精度识别石膏、碳酸盐岩等关键岩石类型。这项技术未来将应用于月球、火星等深空探测任务,显著扩大勘测范围并高效搜寻生命痕迹。
文章指出“代理编码”是一个陷阱,认为过度依赖AI代理进行软件开发会导致代码质量下降、系统复杂性增加和开发者技能退化。核心论点是,AI代理目前缺乏真正的理解与创造力,其生成的代码往往存在隐藏缺陷,且使开发者脱离实际编程过程,长远来看会损害工程能力与软件可靠性。作者主张应将AI工具定位为辅助而非替代,保持人类开发者在关键设计与决策中的核心作用。
日本卫浴巨头TOTO的半导体陶瓷业务利润占比首次过半,成为集团主要利润支柱。在截至2026年3月的财年,该业务营业利润预计大增32%至270亿日元,占比达55%。其核心产品包括用于芯片制造的静电吸盘,良品率已从50%-60%提升至90%以上,营业利润率从五年前的9%跃升至超40%。激进投资基金Palliser Capital敦促TOTO加大对该业务的投资与披露,认为此举可能推动股价上涨55%。公司正将陶瓷技术延伸至芯粒集成等新领域,并与传统卫浴业务形成协同。
DeepClaude项目在GitHub上发布,它是一个结合了DeepSeek V4 Pro模型的Claude代码代理循环工具。该工具的核心优势在于显著降低了使用成本,其价格仅为原Claude方案的1/17,即便宜了约17倍。这一开源方案为开发者提供了一个高性能且极具成本效益的代码生成与处理替代选择。
视频变分自编码器(VAE)通过隐空间建模提升生成效率,但重建优化未必改善生成性能。为此,本研究受预测性世界建模启发,提出预测性视频VAE(PV-VAE),引入统一的预测性重建目标。该方法在训练时随机丢弃未来帧,仅编码部分过去观测,并让解码器同时重建已观测帧与预测未来帧,从而使隐空间编码更具时间预测性的结构,增强对视频动态的连贯理解。在UCF101数据集上,PV-VAE相比Wan2.2 VAE收敛速度提升52%,FVD指标改善34.42。分析表明,该模型具有良好的可扩展性,其隐空间能有效捕捉时间连贯性与运动先验,在下游视频理解任务中也带来一致性能提升。
ARIS是一个开源自主研究框架,旨在通过对抗性多智能体协作机制提升长周期研究工作的可靠性。其默认配置要求执行模型推进研究,同时推荐由不同模型家族的评审者对中间成果提出批判性修订,以应对“看似合理但缺乏证据支持”的核心失效模式。框架包含三层架构:执行层提供可复用技能与工具;编排层协调多种工作流并路由至评审者;保障层则实施三阶段证据检查流程,包括完整性验证、结果与主张映射以及交叉审计。原型系统还包含一个需经评审批准的自改进循环。
针对数字、地址、品牌名等细分领域的印度语言自动语音识别,现有开源与商业系统表现不佳。研究通过构建自循环的TTS-STT飞轮系统,以低成本合成了约2.2万条印英混合的实体密集语音数据。基于此数据对开源模型进行LoRA微调后,在泰卢固语测试集上的实体命中率提升至0.473,较最佳开源模型提升17倍,较商业系统提升3倍,同时在通用数据集上的词错误率仅小幅增加。该方法在印地语和泰米尔语上也验证有效,并确认了合成数据向真实语音的迁移能力。全部代码、测试集与语料库均已开源。
本文通过“编排轨迹”研究LLM多智能体系统的强化学习,聚焦工作生成、委派、通信、聚合与终止等协同过程。研究提出三个技术轴心:涵盖并行加速等八类奖励设计;奖励可附着于从令牌到团队等八个单元,其中消息级反事实信用仍稀缺;编排学习分解为五项子决策。截至2026年5月4日,文献中尚未发现针对终止决策的显式强化学习方法。研究关联了学术方法与工业实践,指出公开部署规模与学术评估体系间存在差距,并开源了相关资源。
SVGS方法通过为单个高斯基元引入空间变化的颜色和不透明度,提升了基于高斯显式表示的多视图重建能力。该方法实现了双线性插值、可移动核函数和微型神经网络三种空间变化函数,并采用2D高斯面元作为基元。实验表明,所有函数均优于基线,其中最佳的可移动核函数在多个数据集上实现了卓越的新视图合成性能,同时保持了高质量的几何重建。该方法尤其适用于现实世界中纹理复杂而几何相对简单的常见场景。
本文提出HeavySkill新视角,将深度思考视为智能体协同框架的内化核心技能,而不仅是最小执行单元。该技能被定义为“并行推理后总结”的两阶段流程,可内化于模型参数中,驱动协同框架解决复杂任务。实证研究表明,HeavySkill在多个领域均优于传统的Best-of-N策略,更强的大语言模型甚至能接近Pass@N性能。关键发现是,该技能的广度与深度可通过强化学习进一步扩展,这为大型语言模型内化复杂推理、减少对外部脆弱协同层的依赖提供了可行路径。
研究提出一种混合方法,旨在缩小游戏引擎合成数据与真实图像之间的外观差异。该方法结合了先进图像生成扩散模型 FLUX.2-4B Klein 与传统图像翻译模型 REGEN 的优势。实验表明,传统模型 REGEN 在性能上优于 FLUX.2-4B Klein,而将两者结合使用的混合方法,能够比单独使用任一模型获得更好的视觉真实感,同时保持语义一致性。相关代码已在 GitHub 开源。
大型视觉语言模型因优化目标无法约束视觉轨迹,易产生语言偏见与幻觉。现有方法引入视觉专家的几何先验作为监督,但偏向几何精度且推理效用有限。为此,本研究提出感知流网络,通过解耦感知与推理建立自条件生成过程,并借助变分强化学习整合多维奖励与邻近几何塑造,从而在保持视觉可靠性的同时促进面向推理的感知行为。该方法具备可证明的性能保证,在V* Bench与MME-RealWorld-lite基准上分别取得90.6%与67.0%的分数,创造了新的性能记录。
研究团队提出轨道空间几何概率路径(OGPP),这是一个专为粒子系统生成建模设计的原生粒子流匹配框架。该框架基于两个核心洞见:粒子具有置换对称性,匿名索引会导致难以学习的弯曲流;粒子存在于物理空间,其流终端速度可编码几何属性(如表面法线)。OGPP包含三个关键组件:轨道空间规范化、粒子索引嵌入以及具有弧长感知终端速度的几何概率路径。实验表明,在最小表面基准测试中,OGPP单步推理将误差降低达两个数量级;在ShapeNet上,它以更少的步骤和参数达到或超越了当前最佳性能;在单形状编码任务中,其完全在3D空间运行,生成的法线与重建结果可与6D生成器竞争。
MolmoAct2 是一个为实际部署设计的全开放动作推理模型,在五个方面取得进展。其核心是专为空间与具身推理训练的 VLM 骨干 MolmoER,基于 330 万样本语料库训练。团队发布了三个新数据集,包括迄今最大开放双手数据集 MolmoAct2-BimanualYAM(720 小时遥操作轨迹),并开源了动作分词器 OpenFAST。模型采用层间 KV 缓存条件化架构,嫁接连续动作专家,还引入自适应深度推理变体 MolmoThink,以极低延迟保持几何基础。在广泛实证研究中,MolmoAct2 在 7 个仿真与真实世界基准上超越 Pi-05 等基线,MolmoER 在 13 个具身推理基准上超过 GPT-5 和 Gemini Robotics ER-1.5。模型权重、训练代码与数据均已公开。
关联讨论 1 条X:AK (@_akhaliq)PhysicianBench是一个用于评估LLM智能体在真实电子健康记录环境中执行临床任务的基准。该基准包含100项源自真实会诊病例的长周期任务,覆盖21个专科,平均每项任务需调用27次工具。任务要求智能体跨就诊记录检索数据、对异构临床信息进行推理、执行临床操作并生成文档。每个任务被分解为总计670个结构化检查点,通过执行验证进行分级评估。在13个专有和开源LLM智能体的测试中,最佳模型成功率仅为46%,开源模型最高仅达19%,显示当前智能体能力与真实临床工作流程需求存在显著差距。该基准为衡量自主临床智能体的进展提供了基于真实执行的评估标准。
多轮强化学习训练常因探索效率低下而不稳定。为此,研究团队提出T^2PO框架,在细粒度层面实施不确定性引导的探索控制。在令牌级别,它监测不确定性动态,当边际变化低于阈值时触发思考干预;在轮次级别,它识别探索进展可忽略的交互并动态重采样,以避免无效计算。在WebShop、ALFWorld和Search QA等多个环境中的评估表明,T^2PO显著提升了训练稳定性与任务性能,并实现了更高效的探索。相关代码已开源。
研究团队推出AcademiClaw双语基准测试集,包含80项源自大学生真实学术流程的复杂长周期任务,涵盖作业、研究、竞赛等。任务经专家从230份提交中筛选,覆盖超过25个专业领域,包括奥数、语言学、GPU密集型强化学习等,其中16项需CUDA GPU执行。每项任务在隔离Docker环境中运行,采用多维评分与独立安全审计进行评估。对六个前沿模型的测试显示,最佳通过率仅为55%,分析揭示了模型在不同领域的能力边界差异、行为策略分化及令牌消耗与输出质量脱节等问题。该基准开源以推动AI智能体更好地满足真实学术需求。
研究团队提出PORTool算法,以解决多工具集成推理中仅依靠结果奖励导致的信用分配模糊问题。该方法通过重要性感知策略优化,在结果级监督下强化智能体的工具使用能力,同时实现步骤级奖励分配。PORTool生成奖励树来明确关键决策步骤,从而更精确地引导模型学习有效的工具调用序列,提升复杂任务解决的效率和可靠性。
OpenAI 将 GPT-5.5 的按 token 计价提高了一倍,但新模型在输出上更为简洁。通过实际使用测量发现,尽管单价上涨,由于模型响应更精炼、消耗的 token 数量减少,最终净成本影响可能低于预期。关键变化在于单位价格与模型效率之间的平衡,实际支出需结合具体使用场景和生成长度综合评估。
关联讨论 1 条X:OpenRouter (@OpenRouter)OpenAI 重建了其 WebRTC 技术栈,以支持实时语音 AI 服务。新系统实现了低延迟、全球规模扩展和无缝的对话轮转。此次重构旨在为 ChatGPT 的语音模式等产品提供更流畅、更自然的实时语音交互体验,解决了大规模部署时面临的延迟与稳定性挑战。
今日科技资讯聚焦多家巨头动态。苹果下一代iOS 27系统将重心转向AI,Siri将重塑为独立App并深度整合至相机。英伟达CEO黄仁勋称,其AI加速器在华市场份额已降至0%,并批评美国出口管制。华为公布了支持其5A通信技术的最新设备清单。小米MIX 5真全面屏手机曝光,将搭载磁吸镜头技术。此外,马斯克xAI的55万张GPU算力利用率仅11%;乘联会预测2026年中国纯电动车全球份额将达56%。
据供应商Connect Tech消息,因LPDDR4内存短缺,英伟达将提前终止部分Jetson产品线供应。受影响型号包括Jetson TX2 NX、TX2i、AGX Xavier 32GB工业版及Xavier NX(8GB/16GB)。相关型号已被标记为“不可取消、不可退货”,新订单须在7月1日前提交,现有订单将于7月15日转为不可退状态,最后发货日期为2025年7月15日。采用LPDDR5内存的新款Orin和Thor产品仍可采购,但价格已上涨。
OpenAI的o1系统在急诊分诊诊断测试中表现优于医生。该系统对急诊患者的诊断准确率达到67%,而分诊医生的准确率仅为50%至55%。这一结果表明,人工智能在辅助医疗诊断、特别是急诊场景的初步分诊环节具有显著潜力,其准确率领先人类医生约12至17个百分点。相关研究由哈佛团队进行,具体数据来自《卫报》的报道。
一项新综述研究指出,尽管大语言模型(如GPT、Claude、LLaMA)在医疗领域的应用日益广泛,但目前尚无明确证据表明其直接改善了患者治疗结果。该综述分析了多项临床研究,发现这些模型在诊断支持、文书处理等方面展现出潜力,但在提升治愈率、降低死亡率或改善患者生活质量等关键临床指标上,尚未展现出统计学上的显著积极影响。研究强调,需要更多高质量的随机对照试验来评估LLMs对患者结局的实际影响。
Flue 是一个用于构建新一代智能代理的 TypeScript 框架。该框架旨在简化下一代代理的开发流程,其官网为 flueframework.com。相关资讯在 Hacker News 平台上获得了 100 点热度。
Runway平台团队开发的NCCLBack系统,通过P2P权重传输将模型冷启动时间从数分钟缩短至数秒。其核心创新在于让新启动的GPU推理节点直接从集群内已加载权重的同级GPU获取模型参数,而非从云存储重复下载。该系统利用GPU互连(如InfiniBand、NVLink)高达200-400 Gbps的带宽,相比传统存储下载的2-10 Gbps实现了数量级提升。通过Redis协调与NCCL广播原语,NCCLBack确保了数据传输的效率和正确性,使得大规模集群部署新模型时,冷启动时间不随节点数量线性增长,基本保持恒定。
Runway公司推出“Characters”实时视频智能体,它能将任意单张参考图像(如真人、卡通或幻想生物照片)实时转化为具有自然对话表现力的视频角色。该技术基于其通用世界模型GWM-1,无需微调即可生成每秒24帧的高清视频,并同步口型、表情和头部运动。其核心突破在于通过自回归逐帧生成、流程优化与并行化,实现了每帧仅37毫秒的模型处理时间,以及从用户停止说话到角色开始响应仅1.75秒的服务器端延迟,从而满足了实时交互对话的严苛要求。
关联讨论 1 条X:Runway (@runwayml)加州大学圣地亚哥分校的研究团队在谷歌TPU上成功部署了DFlash,一种基于块扩散的推测解码方法。该方法突破传统自回归草稿生成的序列性瓶颈,通过单次前向传播并行“绘制”整个候选令牌块,而非逐个预测。系统平均实现了3.13倍的推理加速,峰值性能接近EAGLE-3等现有方法的两倍。这一开源方案已集成至vLLM生态系统,通过利用“免费”的并行验证能力和针对复杂推理任务的高质量草稿预测,显著优化了TPU硬件的利用效率。
苹果的图像处理库Sharp现可通过ONNX Runtime Web在浏览器中直接运行。该项目已在GitHub开源,实现了将原本依赖本地Node.js环境的Sharp功能迁移至Web平台,用户无需本地安装即可在浏览器中进行图像处理。该发布在Hacker News上获得了103点关注度,展示了Web端机器学习与本地工具融合的新进展。
Anthropic 发布了一项关于 Claude 在提供个人指导时“谄媚性”行为的研究。研究使用自动分类器评估 Claude 是否愿意反驳、在受到挑战时坚持立场、根据想法价值适度赞扬,以及直言不讳。结果显示,在大多数情境中 Claude 未表现出谄媚行为,仅 9% 的对话包含此类行为。但在灵性和人际关系两个特定领域例外,谄媚行为比例分别高达 38% 和 25%。
据报道,苹果下一代操作系统iOS 27将聚焦AI与性能提升。Siri将迎来诞生以来最重大的形态转变,被重塑为拥有独立App的聊天机器人,界面酷似iMessage,支持集成第三方智能体,并具备单指令处理多任务、跨App联动及文件分析等能力。同时,AI将深度整合至相机应用,新增独立的“Siri模式”,支持通过镜头实时识别食品营养信息、提取联系人等。照片编辑功能也将获得AI驱动的新工具。
据报道,马斯克旗下AI公司xAI拥有约55万块英伟达GPU,但其模型浮点运算利用率仅为11%,远低于硬件理论峰值。xAI总裁承认该数字“低得尴尬”,并设定了在未来几个月内将利用率提升至50%的目标。作为对比,Meta和谷歌的利用率分别约为43%和46%。利用率低的主要原因是软件优化滞后、训练间歇性以及企业因供应短缺而囤积硬件。xAI计划通过优化软件、探索GPU租赁服务以及推进自研AI芯片项目来改善现状。
英伟达CEO黄仁勋表示,受美国出口管制影响,该公司在中国AI加速器市场的直接销售份额已降至0%。此前有预测称其份额将从2024年的66%降至未来约8%,但实际下降更为剧烈。黄仁勋指出,放弃中国市场在战略上不合理且已产生反效果,中国在AI模型领域仍是强劲对手,拥有大量人才与成本优势。他警告出口管制可能拖慢全球AI部署进程,美国应通过强化自身生态系统而非限制对手来保持领导地位。