本期探讨AI市场究竟是暂时泡沫,还是全球经济的结构性重塑。内容深入分析AI产业链瓶颈与竞争格局,涵盖芯片架构限制、以Nvidia和Grok LPUs为代表的推理生态之争,以及AMD、Intel、TSMC的代工博弈。同时讨论ASIC创业公司现状、数据中心基础设施危机、太空数据中心与主权AI布局等前沿议题,并结合宏观趋势、机器人技术和“总Token产量”等指标,对市场热度与潜在风险进行犀利点评。
本期探讨AI市场究竟是暂时泡沫,还是全球经济的结构性重塑。内容深入分析AI产业链瓶颈与竞争格局,涵盖芯片架构限制、以Nvidia和Grok LPUs为代表的推理生态之争,以及AMD、Intel、TSMC的代工博弈。同时讨论ASIC创业公司现状、数据中心基础设施危机、太空数据中心与主权AI布局等前沿议题,并结合宏观趋势、机器人技术和“总Token产量”等指标,对市场热度与潜在风险进行犀利点评。
在Google I/O大会上,Gemini-3.5-flash模型正式发布,其定价从上一代的$0.5/$3大幅上涨至$1.5/$9。实测显示,其性能介于Gemini-3.0-Pro与Gemini-3.1-Pro之间,但稳定性有所不足。此举被视为Google借鉴Anthropic的产品分层策略,计划用flash-lite、新flash和Pro形成梯队。其中新flash主打在百万级上下文内不设阶梯定价,以承接Pro模型溢出的用户。此次调价也可能旨在配合新发布的Antigravity CLI工具,定位类似Claude Code中的Sonnet模型,从而构建其开发生态。
谷歌宣布推出基于Gemini 3.5模型的全新智能搜索框。该更新将AI Overviews与AI Mode整合为统一的AI搜索体验,支持对文本、图像、文件及视频进行跨模态推理查询。用户可进行多轮对话,搜索将结合上下文提供更个性化、定制化的回答。该新功能已在全球桌面和移动设备端同步上线。
本研究推出了SCICONVBENCH,这是一个用于评估大语言模型在计算科学任务构型阶段进行多轮澄清能力的基准测试。它覆盖流体力学、固体力学、材料科学与偏微分方程四个领域,重点考察模型获取缺失信息(消歧)与识别纠正内部矛盾请求(一致性解决)的能力。研究采用结构化任务本体与量规评估框架,系统测量了模型的澄清行为、对话依托与最终规格保真度。结果表明,前沿模型在一致性解决上表现较好,但在流体力学消歧任务中最佳模型仅解决了52.7%的问题,且模型常进行未基于对话的隐式假设与规格修复。
针对长上下文大语言模型服务中INT2 KV缓存量化精度下降的问题,本文提出OSCAR方法。其核心是通过离线估计注意力实际使用的协方差结构,推导出固定的旋转矩阵和裁剪阈值,使KV缓存量化与下游注意力计算对齐。实验表明,OSCAR显著提升了量化精度:在Qwen3-4B和Qwen3-8B上,其与BF16的差距分别缩小至3.78和1.42个百分点,而朴素旋转方法性能几乎崩溃。该方法在更大模型及128K长上下文测试中表现稳健。在系统层面,OSCAR将KV缓存内存占用降低约8倍,并将大批次吞吐量提升最高达7倍。
Gemini 3.5 Flash ARC-AGI (Verified) ARC-AGI-2: - High: 72.1%, $0.85 - Minimal: 8.9%, $0.11 ARC-AGI-1: - High: 92.5%, $0....
Insane evals for a Flash model! Gemini 3.5 Flash is really good for its size!
谷歌于2026年5月19日发布了Gemini 3.5 Flash模型,这是Gemini系列的最新版本,主打“前沿智能,即刻行动”。该模型强调高效的实时响应与处理能力,适用于需要快速决策的场景。该发布在技术社区Hacker News上获得了116分的关注度,显示出开发者对其性能与应用潜力的浓厚兴趣。不过,目前关于该模型在速度、准确率等具体性能指标上的提升幅度,官方尚未提供详细数据。
Google在I/O大会发布的Gemini 3.5 Flash与Antigravity平台,标志着AI竞争从模型性能转向构建Agent基础设施。Flash以4倍于顶级模型的速度解决了复杂Agent的延迟瓶颈,使24/7自主Agent成为可能;Antigravity则提供桌面端、CLI、SDK等全栈开放底座,目标成为“Agent时代的AWS”。Google将这些能力全量开放,意在降低Agent开发门槛,争夺生态定价权。这宣告了AI行业正从聊天机器人时代,迈入构建数字劳动力生态的新阶段。
Just off stage at #GoogleIO, some highlights from this morning 🧵 Gemini 3.5 Flash is available today for everyone in @a...
Yann LeCun离职Meta后创办AMI,押注基于世界模型的JEPA架构,与主流LLM不同。他批评LLM虽在语言任务有效,但缺乏预测行动后果和规划能力,无法真正理解物理世界且结构上不安全。LeCun倡导在抽象表示空间进行预测的自监督学习,以推动智能泛化。同时,他推进Tapestry项目,通过联邦学习构建去中心化的全球共识模型,应对AI控制集中化问题。
Google 在 I/O 大会上正式发布了最新的 Gemini 3.5 模型系列。该系列模型将前沿的人工智能能力与执行操作的功能相结合,旨在提供更强的综合性能。作为 Google 最新推出的模型,它代表了其在大模型技术上的最新进展。
谷歌在2026年I/O开发者大会上推出了Gemini 3.5 Flash模型。该模型在多项基准测试中性能超越前代,并实现了每秒289 tokens的输出速度,较Claude Opus 4.7和GPT-5.5 xhigh快约4倍。此外,谷歌团队使用Antigravity工具,在12小时内启动93个子智能体,生成26亿tokens,成功构建出一个可运行的操作系统核心,展示了模型的强大能力。
最新基准测试显示,在GLM5架构下,AMD MI355单节点FP8推理成本较NVIDIA B200降低了约40%。这一成果建立在SGLang v0.12针对CUDA与ROCm平台进行的非MTP、MTP及投机解码等多维度优化之上,团队认为性能速度是构建核心壁垒的关键。后续重点将是推动MI355X在生产级推理优化(如FP4)及分布式推理领域追赶CUDA的生态与性能,通过多卡协同提升单卡算力效率,从而进一步降低百万Token的推理成本。
尽管具身化AI及多模态大语言模型在推理任务中表现出潜力,但与人类智能仍存显著差距。现有先进代理常无法完成儿童能轻松解决的基础任务。受韦氏儿童智力量表启发,本研究推出ChildAgentEval——首个基于心理测量学的交互式基准,用于评估多模态大语言模型代理的认知年龄对齐程度。该基准通过系统比较各类交互式代理的推理能力与人类特定年龄发展阶段,揭示了当前AI系统在模拟年龄特异性认知行为上的能力边界。
Gemini 3.5 Flash just showed up in the Google Cloud Console It's coming
搜狐创始人张朝阳在2026搜狐科技年度论坛上指出,AI技术为科普提供了便利,但也带来了新问题。他主张AI时代的科普应注重原理推导和互动体验,避免公众认知停留在浅层“哇哦”状态。张朝阳援引麻省理工学院研究称,过度依赖AI会导致人的主动思维能力萎缩,实验显示使用AI者的脑部活跃度仅为独立完成任务者的一半。他强调,人类必须保持原创思考和动手能力,主动深度思考是不可被替代的核心竞争力。
AMD 董事长兼 CEO 苏姿丰在 AI 开发者日活动中表示,AI 正在经历巨大加速,预计未来五年将有 50 亿人每天使用 AI。她强调,实现这一目标的关键在于多样化应用和模型,而非单一方案。她指出,AI 近期发展显著,不仅大语言模型进步,推理型 AI 也日益普及,企业正积极探索应用。开发者需具备推理、学习与数据处理能力。苏姿丰认为,未来 GPU 将无处不在,AMD 将重点提供完整的端到端计算能力。
本研究针对大型推理模型(LRM)思维链监控不可靠的难题,提出“探测轨迹”方法。该方法通过在生成每个令牌时评估探测器,捕捉模型隐藏表征的演变轨迹。研究发现,结合完整轨迹的预测比基于单一点的静态预测更能准确区分模型未来行为。通过提取波动性、趋势等信号处理特征,模型状态区分度得到显著提升。同时,基于模板的训练数据可替代昂贵的动态生成数据,且采用最大池化操作能实现高达95%的AUROC性能并形成稳定轨迹。在安全与数学等四个数据集上的验证表明,该轨迹特征能编码任务动态,为监控LRM行为提供了有效补充框架。
比利时研究机构Imec于5月12日发布了全球首个专为AI设计的3D CCD内存架构。该方案通过垂直堆叠内存芯片,旨在结合DRAM的高速度与NAND闪存的高存储密度,以解决AI推理中的“内存墙”瓶颈。其核心技术采用IGZO材料,在实验室条件下实现了超过4GHz的电荷传输速度。目前该技术仍处于概念验证阶段,主要面临散热和层数扩展等挑战,离实际量产应用尚有距离。
本文提出零专家自蒸馏适应框架,将训练完成的静态混合专家模型转换为高效动态模型。该方法通过在每个混合专家层注入零输出专家,并利用原始模型作为冻结教师进行两阶段自蒸馏适应,以实现稳定的架构转换。在两个大型开源模型及11个基准测试上的实验表明,该方法能消除超过50%的专家计算量,同时仅带来极小的准确率损失,并显著提升端到端推理速度。
研究人员提出结构化牛顿层级并行(SNLP)框架,解决自回归语言模型中Transformer层顺序执行的延迟瓶颈。该方法将层间隐藏状态演进视为非线性方程,采用廉价的结构化牛顿更新并行求解。训练阶段引入SNLP感知正则化,使模型通过少量迭代近似顺序前向传播,提升层并行兼容性并降低标准困惑度4.7%-23.4%。推理时,SNLP结合层融合与分块分解,在0.5B Nanochat模型上实现2.3倍加速,困惑度改善6.1%。研究同时指出预训练模型效果有限且精确收敛会退化为顺序计算。
5月19日,马斯克发推邀请用户测试Cursor最新发布的Composer 2.5 AI模型。该模型基于月之暗面的Kimi K2.5,并利用部分Colossus 2集群训练,官方称其为“最强”模型,重点提升了长任务稳定性和复杂指令遵循能力。技术上,它采用了基于文本反馈的定向强化学习,并将合成任务规模扩大至前代的25倍以优化编码能力。标准版定价为输入每百万token 0.50美元、输出2.50美元;另有速度更快的fast版本,输入3.00美元、输出15.00美元。
英伟达向Anthropic、OpenAI、SpaceXAI和甲骨文交付首批Vera CPU,标志其专为Agentic AI设计的处理器正式量产。Vera是英伟达首款定制CPU,采用88个自研核心,内存带宽达1.2TB/s,单核性能较前代Grace提升50%,并搭载1.5TB内存。甲骨文计划2026年起部署数十万颗,该芯片将用于独立服务器及Vera Rubin平台,支持高吞吐推理与智能体工作负载。
现有大语言模型智能体的记忆系统多采用提取事实的范式,将对话压缩为原子事实。这会丢失原始细节,限制深度推理,且静态提示词难以适应多变的对话风格。为此,本文提出了TriMem系统,它同时维护三种表示粒度:用于保真存储的原始对话片段、用于高效检索的提取原子事实,以及聚合事实以支持深度推理的合成用户画像。系统进一步利用基于TextGrad的提示词优化技术,通过响应质量反馈迭代优化提示,无需参数更新即可实现持续进化。实验表明,其效果优于强记忆基线。
本研究发现,视觉-语言模型在视觉任务上的性能瓶颈主要源于其视觉感知能力的不足,而非推理能力。为此,研究提出将模型能力解耦为视觉感知、视觉推理和文本推理三个独立的训练阶段,并使用专门数据进行分阶段训练。实验证明,视觉感知需要针对性优化,应优先通过分阶段训练加以巩固,且使用强化学习比基于描述的监督微调更有效。该方法在多个模型上实现了持续性能提升,使模型推理准确率提高了1.5%,推理过程缩短了20.8%。在开放权重的视觉-语言模型中,该方法在WeMath和RealWorldQA等基准上取得了领先成绩,相比基础模型分别取得了5.2%和3.7%的性能提升。
针对扩散大语言模型在混合专家架构下部署于资源受限设备的挑战,TIDE提出了一种无需模型训练的无损推理优化系统。该系统利用块内扩散过程中专家激活的时间稳定性,设计了基于间隔的专家刷新策略,以输入输出感知方式动态更新专家位置。通过将推理调度建模为数学规划问题,TIDE能够求解最优间隔以最小化输入输出流量和CPU计算开销。实验表明,在单GPU-CPU系统中,TIDE在LLaDA2.0-mini和LLaDA2.0-flash模型上分别实现了最高1.4倍和1.5倍的吞吐量提升,为现有基线方法带来显著加速。
LLMEval-Logic 是一个专注于中文逻辑推理的LLM评估基准,其数据来源于真实场景,并通过专家编写、审核及Z3验证器闭环验证以确保题目质量。基准包含两个子集:246项的Base子集(配有1400条评分标准)与190项的Hard子集(含938个多步骤子问题)。对14个前沿LLM的评估表明,当前模型在逻辑推理能力上仍有显著不足:最佳模型在Hard项目上的准确率仅为37.5%,即使结合参考符号,形式化得分最高也仅达60.16%。该基准已开源,旨在为模型逻辑推理能力的评估与提升提供可靠工具。
针对代理型大语言模型推理中的计算瓶颈,研究团队提出Mix-Quant,一种相位感知的量化框架。该框架发现推理流程中预填充阶段虽为算力主要消耗环节,但存在显著量化冗余,而解码阶段对量化更敏感。为此,Mix-Quant采用混合精度策略:对预填充阶段应用高吞吐的NVFP4量化以加速,对解码阶段保持BF16精度以确保输出质量。该方法在多项长上下文和代理任务基准测试中,能有效保持任务性能,同时将预填充阶段速度提升最高3倍。
该研究针对大语言模型智能体技能优化中存在的多目标挑战——即需同时提升任务性能并满足平台字段长度等硬性限制——提出了MOCHA方法。该方法采用切比雪夫标量化以完整覆盖帕累托前沿(包括非凸区域),并结合指数退火策略平衡搜索过程。实验表明,在六项任务中,现有优化器有四项无法提升基线技能,而MOCHA均实现了突破,平均正确率较最强基线提升7.5%,并发现了两倍多的帕累托最优变体。
本研究针对大型视觉语言模型在医疗应用中面临的可信度挑战,指出其视觉归因方法常未能反映模型真实依据的视觉证据。为此,团队开发了因果评估框架,筛选出归因区域对预测具有因果性的样本进行测试。通过对11种归因方法、6个模型及两种输出模式的系统评估,发现现有方法普遍存在识别失效问题。为解决此问题,提出了基于概念的归因方法MedFocus,该方法利用非平衡最优传输定位临床相关区域,并通过定向干预量化其因果效应。实验证明,MedFocus在空间、概念及词元层面均显著优于现有方法,推动了更可靠的医疗视觉归因发展。
针对长上下文与多模态大语言模型中KV缓存内存占用高的瓶颈,本文提出了OScaR压缩框架。研究发现,传统逐通道量化在极端压缩下受限于“令牌范数不平衡”问题。OScaR通过“渠道化旋转”与“全令牌缩放”两项轻量技术,有效缓解了该不平衡带来的量化误差,无需复杂流程。在多种大模型上的实验表明,OScaR在INT2量化下可实现近乎无损的性能,相比基准解码速度提升最高达3.0倍,内存占用减少5.3倍,吞吐量增加4.1倍,为极致KV缓存压缩提供了高效通用方案。
Introducing Composer 2.5, our most powerful model yet. It's more intelligent, better at sustained work on long-running t...
Qwen3.7-Max-Preview在ArenaAI内测中排名第13,为当前版本国产模型最佳。其数学能力(第7)与编程能力(第10)提升显著。实测显示,在前端代码生成任务中,Qwen3.7在空间理解和指令遵循上较前代(Qwen3.6)有巨大进步,能更准确地维持元素轴向与标记。文章同时指出,ArenaAI评分仅供参考,其为Meta新模型Muse Spark给出的高排名(第5)与社区现状不符。