We are making our discount permanent! 🎉 Enjoy building with DeepSeek-V4-Pro and bring your innovative ideas to life! 🚀
We are making our discount permanent! 🎉 Enjoy building with DeepSeek-V4-Pro and bring your innovative ideas to life! 🚀
针对当前自适应计算策略导致的推理冗长与低效问题,本文提出将智能体决策分解为模拟推理、自我调节和反应执行三系统。研究开发了SR²AM模型,其两个版本v0.1-8B和v1.0-30B分别通过提示多模块系统和重建训练推理LLM的结构化计划实现。在多项基准测试中,v1.0-30B以25.8%-95.3%更少的推理token,达到了与更大参数量系统相当的性能。引入强化学习后,模型规划深度提升22.8%,而频率仅增2.0%,表明其学会了更前瞻性的规划。这为构建高效、自适应的智能体提供了新范式。
一位家长分享,孩子的语文老师布置了一项创新作业:要求学生通过向AI提问来完成作文。家长认为,这种形式能有效锻炼学生的提问技巧与AI辅助创作能力。为此,他提前准备了Claude Sonnet 4.6、ChatGPT 5.5、Gemini 3.5 Flash等主流AI模型,供孩子届时根据喜好选择使用。
Qwen 3.7-max beats Opus 4.7 and GPT-5.5 We tested three frontier models on a real agentic task: write a Tetris bot that ...
关联讨论 9 条公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:OpenRouter (@OpenRouter)IT之家(RSS)英伟达CEO黄仁勋在FY2027Q1财报电话会议上表示,基于SRAM的AI推理解码芯片(如LPX)将长期处于利基市场,GPU仍为主流。他指出,LPX专为低延迟和高词元速率设计,但吞吐量和容量较低,适合软件编程中的上下文处理,却在代理式任务中表现有限。其最佳应用场景是高定价、高词元速率的AI服务,而这类服务目前在整体AI市场中占比不足20%,未来可能增至20%,因此潜在客户群体相对较少。
AMD CEO 苏姿丰表示,中国内地市场约占公司营收的20%,是一个极其重要的市场。她预测,由于AI推理和智能体AI的加速发展,过去增长缓慢的CPU市场未来五年将迎来强劲增长,年增长率预计将超过35%。此外,AMD在大中华区拥有超4000名工程师,并在多地布局了AI卓越中心。公司近期也在上海首次举办了AI开发者大会,显示了对中国市场的持续投入与承诺。
网易有道宣布将其“子曰”大模型4.0的多模态模型与语音合成模型面向全球全量开源。其中,多模态模型(27B参数)专注于教育场景,在处理高难度视觉数理问题上达到行业顶尖水平,纯文本中文数理难题准确率为81.4%。该模型通过思维链优化,将输出长度压缩43.2%,有效降低了推理成本。同时开源的语音合成模型支持跨语种音色与情感迁移克隆,3秒内即可完成零样本复制,准确度超97%,并支持包括中、英、日、韩在内的14种语言。
一篇关于多流大型语言模型的新研究论文提出了将提示处理、推理计算以及输入输出过程进行分离与并行化的架构设计。该方法旨在提升大型语言模型在处理复杂任务时的效率与可扩展性,为构建更灵活、高效的AI系统提供了新的技术思路。
DeepSeek V4 Flash has topped the weekly leaderboard
美团技术团队开源了数字人视频生成模型 LongCat-Video-Avatar 1.5。该版本在唇形同步、物理合理性、长视频稳定性和多人互动方面全面升级,支持复杂语音输入与多种主体。通过 DMD 蒸馏技术,推理效率提升约 15 倍,生成 10 秒视频仅需约 1 分钟。在性能评测中,模型在四个关键维度表现领先,用户偏好对比中胜率均超 54%,旨在推动数字人视频从技术演示走向商业应用。
关联讨论 1 条美团 LongCat:HuggingFace 新模型OWC发布雷电5 AI加速器与存储中心Stack AI,该产品可通过高速闪存扩展本机GPU可用工作内存,使本地设备能够运行参数规模超出板载显存容量的AI模型。接口方面配备1个60W输出雷电5上行口、3个雷电5下行口和3个USB-A 10Gbps。产品将于COMPUTEX 2026首次实物展示,并计划在2026年第四季度发售。
当前多模态大语言模型在音视频联合推理中存在局限,因其将连续信号压缩为离散文本,损害了时序定位能力。为此,研究提出LatentOmni框架,构建统一的潜在空间以保留密集的感官信息,并交错执行文本推理与音视频潜态更新。该方法引入特征级监督以对齐推理状态与感官特征,并利用Omni-Sync位置嵌入维持音视频潜态的时序一致性。同时,构建了包含3.5万条轨迹的LatentOmni-Instruct-35K数据集。实验证明,LatentOmni在多个基准测试中取得了开源模型的最佳性能,并优于显式文本链式推理基线。
智谱近期推出GLM-5.1-Highspeed模型,实测输出速度达300+ tokens/s,首token延迟约1秒,相较于标准版GLM-5.1的35 tps和9秒延迟,性能提升约10倍。技术上,智谱联合TileRT团队重构了推理链路,通过将整个推理流程编译为常驻GPU的大kernel,大幅减少CPU调度与数据搬运开销,并优化单卡内的计算、IO分配及多卡间任务协作,显著提升GPU利用效率。该模型单次激活40B参数,高性能运行需依托多卡并行,建议现有用户切换使用以获得更实时的生成体验。
为解决智能体监督微调中存在的“监督空白”问题,即标准流程忽略了分散在多轮交互中回答问题所需的关键证据,本文提出智能体上下文编译方法。该方法将智能体求解问题时产生的长轨迹,转化为整合了原始问题与远距离工具响应的长上下文问答对,以此直接训练模型的长距离推理能力。实验表明,经ACC训练的轻量模型在长依赖任务上性能大幅提升,可比肩更大规模模型,同时保留通用能力,并展现出自适应的注意力重组与专家化特性。
线性注意力通过固定循环状态替代无界缓存,但面临精确编辑压缩记忆的挑战。现有模型如Delta-rule与KDA使用单一标量门同时控制“擦除”与“写入”两个操作。本文提出Gated DeltaNet-2,引入独立的通道级擦除门和写入门,实现了这两个操作的解耦,从而泛化并改进了前代模型。该模型在1.3B参数规模、100B tokens训练下,在语言建模、常识推理等任务中表现优异,尤其在长上下文RULER多键检索基准上优势显著。
针对基于结果的强化学习在处理困难推理问题时因正确样本稀少而效率低下的问题,本文提出子问题课程强化学习框架。该框架从参考推理链中提取可验证子问题,并将最终子问题固定为原始问题,从而将部分解题进展转化为可验证的学习信号。其通过在子问题位置独立归一化奖励并分配优势值,实现了更细粒度的信用分配。实验表明,SCRL显著提升了模型在多个数学推理基准上的性能,有效增强了在复杂问题上的探索与推理能力。
5月22日,智谱向部分企业客户推出了旗舰大模型GLM-5.1的高速版API“GLM-5.1-highspeed”。该版本输出速度达400 tokens/s,刷新了全球大模型API速度上限。关键突破在于,它首次在国产大模型中实现了旗舰级能力与低延迟的结合,打破了“高速模型即轻量模型”的传统。该版本由智谱GLM团队与TileRT团队合作,通过系统级优化确保了速度的生产级稳定性,适用于AI编程、实时语音交互等场景。
同一事件,精选展示《GLM-5.1开源:一个独立工作8小时的模型》智谱发布GLM-5.1高速版,推理速度达400 tokens/s,在顶尖模型中生成速度最快。
同一事件,精选展示《GLM-5.1开源:一个独立工作8小时的模型》本文研究了端到端强化学习训练多智能体大语言模型工作流程的两种策略:Shared-Policy(所有角色更新同一策略)和Isolated-Policy(每个角色拥有独立参数)。实验矩阵覆盖了Eval-Opt、Voting和Orch-Workers三种工作流程,数学与代码任务,以及0.6B、1.7B、4B三种模型规模。研究发现,多智能体强化学习通常能改善基模型性能,但增益取决于工作流程、任务和模型规模的共同作用。Isolated-Policy往往能达到更高峰值准确率,但更容易出现性能悬崖;Shared-Policy训练则会将失败模式重新分配为不同的模式。策略共享并非提供均匀稳定性,而是在不同渠道分配训练压力,是一种具有工作流程和任务条件性权衡的设计选择。
研究团队提出将中立逻辑应用于大语言模型(LLM)以建模认知不确定性。该框架将真、不确定、假视为三个独立维度,允许其值之和大于1。实验在OpenAI GPT模型家族上进行,测试了逻辑悖论等五种语言现象,并对比了三种提示策略。结果发现,中立逻辑方法在35%的评估中自发出现“超真理”状态,能更丰富地表示模型内部状态,有助于识别与量化模型冲突,为构建更透明、可靠的AI系统提供方法。
离散扩散模型在生成结构化分类数据时面临从奖励倾斜分布中高效采样的挑战。扭曲序列蒙特卡洛(SMC)虽能实现渐近精确采样,但其在离散状态空间中估计最优扭曲函数需要昂贵的蒙特卡洛近似,成为推理瓶颈。为此,本文提出对比分布匹配(CDM)框架,通过学习一个参数化扭曲函数来摊销SMC推理的成本。训练时,梯度估计器被重新设计以利用离散扩散模型的闭式前向核。实验表明,评估该扭曲函数带来的额外计算开销低于基础模型单次前向传播的5%。在匹配实际耗时的条件下,CDM性能优于现有基线,并在毒性文本生成、调控DNA序列设计、蛋白质可设计性及扩散大语言模型对齐等多个任务中验证了其有效性。
现有用于GPU内核生成的AI智能体测试基准与生产推理框架严重脱节。它们仅在单一GPU上使用合成输入评估内核,忽略了实际的编译技术栈,并奖励复现已知优化而非发现新方法。为此,我们提出FastKernels。它既是一个涵盖8个类别、46个代表性架构的内核基准(其内核覆盖了96.2%的HuggingFace Transformers架构),也是一个极简的生产级推理框架,性能与vLLM和SGLang等成熟系统相当。实验表明,最强的内核生成智能体在FastKernels上仅能实现0.94倍的整体加速,证实了基准与生产环境的错位是关键瓶颈。
CoSPlay是一个无需Ground-Truth数据且无需训练的代码生成框架,其通过合作自博弈机制联合提升代码与单元测试质量。工作流程为:探索多样化方案并识别潜在失败模式以生成有区分度的单元测试;利用代码-单元测试执行矩阵中的双向通过计数信号,迭代修剪或修复弱代码、刷新或替换不可靠测试,使两个候选池协同演进;最终从最大输出共识簇中选择代码,因为正确代码对相同输入的输出一致。在四个基准测试上,应用于Qwen2.5-7B-Instruct时,将平均BoN从22.1%提升至33.2%,单元测试准确率从14.6%提升至78.3%,性能匹配或超越RLVR模型CURE-7B;应用于CURE-7B时,可进一步将BoN提升5.7%。该方法在不同骨干模型上具备泛化能力,且在可比的token预算下优于无GT数据的TTS基线,性能随预算增加持续提升。
本研究探究了大型推理模型(LRMs)的错误恢复机制。通过在推理步骤中插入算术错误,发现了一个关键现象:即使错误贯穿整个思维链(CoT)而未被语言化纠正,模型在思考结束后仍能输出正确答案。这证明模型内部存在一种“隐藏批判能力”来检测错误并触发纠正。基于特征空间分析,研究者识别出一个可解释的批判向量来表征该行为。跨模型规模和家族的实验表明,利用此向量引导潜在表示,能在不增加训练成本的情况下,提升模型的错误检测能力并增强测试时扩展性能。
视觉几何Transformer是多视图3D重建的有力架构,但其全局注意力机制导致计算成本随输入序列长度二次增长。为此,研究提出一种通用的token选择策略,以限制每个查询交互的key/value token数量。该策略采用两阶段框架:首先在帧间通过多样性策略保留关键帧,然后在选定帧内基于注意力熵进行层级稀疏化以移除冗余token。实验表明,该方法在包含500张图像的场景中能加速超过85%,同时保持甚至提升基线性能,为该类架构提供了更优的速度-精度权衡。
StepAudio 2.5 是一个统一的音频-语言基础模型,能在自动语音识别(ASR)、语音合成(TTS)和实时语音交互三个任务上达到或超越专业系统水平。其核心在于将文本与音频置于共享表示空间,通过数据构建、优化目标和解码约束的差异化设置实现任务专精。该模型的后训练范式以任务定制的强化学习(RLHF)为核心机制,并配合专门的解码策略,将共享主干塑造成三种操作模式:ASR分支提升转录效率;TTS分支实现可控、富有表现力的合成;实时分支则达成低延迟、角色一致的对话。在标准基准测试中,StepAudio 2.5 在三项任务上均取得最优结果,证明单一基础模型能够有效内化语音理解、生成和实时交互的不同部署目标。
现有大语言模型缩放定律多为单调幂律,无法解释灾难性过训练或量化等非单调现象。研究提出Shannon Scaling Law,将LLM训练建模为基于Shannon-Hartley定理的噪声信道信息传输,模型参数映射为信道带宽,训练token映射为信号功率。该框架揭示LLM存在基本容量极限:若无法维持足够信噪比,盲目扩大规模将放大噪声,导致性能从单调改进转为U型退化。在Pythia和OLMo2模型上的实验验证了该定律能准确捕捉性能谷底,并具备外推能力:用不超过6.9B参数、180B token训练的模型,可预测未见过的12B模型在307B token时的表现,池化R²达0.847。
多模态大语言模型在视觉推理中面临纯文本思维链的瓶颈。现有“以图像思考”方法受限于固定工具箱或生成噪声图像。ETCHR是一种与理解模型解耦的、问题条件的感知推理图像编辑器,针对语言端与生成端两个缺陷进行两阶段训练:先通过监督微调进行推理模仿,再使用VLM奖励进行推理增强。该编辑器可免训练方式适配不同开源与闭源多模态大语言模型。在五个任务族上的评估显示,ETCHR分别将通义千问(Qwen3-VL-8B)的平均Pass@1从55.95提升至60.77,Gemini-3.1-Flash-Lite从65.08提升至70.55,以及月之暗面(Kimi K2.5)从76.55提升至81.16。
本期早报聚焦AI Agent的成熟化。Anthropic首次发布Memory与Dreaming基础设施原语,将跨会话记忆工程化,Rakuten部署后首次执行错误率下降97%。通义实验室的Qwen3.7-Max通过35小时极限压力测试,在未知硬件平台上自主优化Kernel,实现1158次工具调用零中断,凸显长程稳定性,将国内大模型竞争焦点从问答分数转向Agent可靠性。与此同时,Every创始人观察到,随着AI自动化普及,能评判执行质量的人类专家价值反而凸显。这些进展共同指向Agent成熟的基础设施、模型基座与人类协作新范式。
在2026年阿里云峰会上,阿里巴巴的Qwen团队发布了其迄今最先进、最全面的智能体模型Qwen3.7-Max。该模型核心特点是具备100万token的超长上下文窗口,并引入扩展思考模式,专为代码编写、调试及多步骤工作流自动化等长周期任务设计。在Artificial Analysis Intelligence Index评测中,该模型获得56.6分,在所有专有模型中排名第五。
Today there is so much math known that mathematicians often have a very narrow speciality. This gives AI potential to co...
该推文探讨了评估AI Token价值的新视角,核心在于Token的“智能含量”与“传输速度”。快速的Token若缺乏深度推理可能造成浪费,而缓慢的Token即使算力廉价也会因延迟影响用户体验。不同应用场景如医疗分诊、代码编写和购物客服对Token需求各异。因此,构建有效的“Token经济学”不应从模型菜单出发,而应从客户对不确定性、延迟和成本的容忍度开始,以具体用例为起点进行反向优化。NVIDIA的Shruti Koparkar强调,这关系到AI应用是规模化扩展还是停滞不前。
Token economics determine whether your AI scales or stalls. The key to optimizing AI tokenomics? Start with the customer...
据The Information报道,微软正向AI公司Anthropic推销其第二代AI芯片Maia 200,强调该芯片在特定推理任务中比NVIDIA芯片更具成本效益。Maia 200专注于高速推理而非训练,双方已有深度合作基础:Anthropic已在Azure承诺300亿美元支出,且Claude已整合进微软Copilot。此次芯片合作旨在深化协同。分析认为,Maia 200无需全面超越NVIDIA,只要能在高量推理中提供更低成本选项,便可能将部分计算需求从GPU转移。