AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「推理」清除
5月23日周六
00:21Yuchen Jin68DeepSeek宣布永久降价75%
00:16HuggingFace Daily Papers(社区热门论文)65通过自我调节的模拟规划实现高效智能体推理
5月22日周五
21:19向阳乔木19语文作业拥抱AI:老师布置提问式写作新任务
19:20Alibaba Cloud79Qwen3.7-Max上线Model Studio享五折优惠
18:19Qwen66前沿模型智能体任务测试:Qwen 3.7-Max 展现显著优势
18:09IT之家(RSS)57英伟达黄仁勋:LPX 等 SRAM AI 芯片将长期属于利基市场
18:09IT之家(RSS)48AMD CEO 苏姿丰:中国内地占公司营收 20%,是非常重要的市场
18:09IT之家(RSS)70精选网易有道"子曰4"多模态模型、语音合成模型全量开源
16:20Alibaba Cloud54Qwen 2026大会:解码核心智能新飞跃
16:09IT之家(RSS)63AMD 苏姿丰:CPU 目前供应紧张,未来 5 年市场年复增长率超 35%
15:56Hacker News 热门(buzzing.cc 中文翻译)61多流大型语言模型:关于提示、推理和I/O并行化/分离的新论文
15:46SiliconFlow63DeepSeek V4 Flash 登顶 OpenRouter 周榜
15:09IT之家(RSS)70美团开源 LongCat-Video-Avatar 1.5:数字人视频从"彩排"走向"真舞台",生成 10 秒视频仅需 1 分钟
15:09IT之家(RSS)35OWC 预告 Stack AI:雷电 5 外接闪存扩充本机 GPU 可用内存
14:08OpenRouter65同事件精选DeepSeek V4 Flash登顶周榜同一事件,精选展示《使用 NVIDIA Blackwell 和 GPU 加速端点构建 DeepSeek V4》
13:19Ethan Mollick40o1-preview发布时被低估,回顾方知其突破性
13:14HuggingFace Daily Papers(社区热门论文)68LatentOmni:通过统一的音视频潜在推理重新思考全模态理解
11:12karminski-牙医71400 TPS!实测智谱 GLM-5.1 以10倍速狂飙
10:14HuggingFace Daily Papers(社区热门论文)63智能体上下文编译:面向长上下文训练的轨迹编制方法
10:14HuggingFace Daily Papers(社区热门论文)70精选Gated DeltaNet-2:解耦线性注意力中的擦除与写入
10:14HuggingFace Daily Papers(社区热门论文)74精选从推理链到可验证子问题:课程强化学习实现LLM推理的信用分配
10:09IT之家(RSS)73同事件精选智谱GLM-5.1高速版发布:刷新全球大模型API速度纪录同一事件,精选展示《GLM-5.1开源:一个独立工作8小时的模型》
09:41公众号:智谱(GLM)63同事件精选智谱推出GLM-5.1高速版同一事件,精选展示《GLM-5.1开源:一个独立工作8小时的模型》
08:00HuggingFace Daily Papers(社区热门论文)49多智能体强化学习何时改善LLM工作流程:工作流程、规模与策略共享的权衡
08:00HuggingFace Daily Papers(社区热门论文)49打破概率的枷锁:中立逻辑作为大语言模型认知不确定性建模的新框架
08:00HuggingFace Daily Papers(社区热门论文)55基于离散扩散模型的摊销序列蒙特卡洛对比分布匹配
08:00HuggingFace Daily Papers(社区热门论文)60FastKernels:面向生产环境的GPU内核生成基准测试
08:00HuggingFace Daily Papers(社区热门论文)60CoSPlay:通过自生成代码与单元测试的测试时合作自博弈
08:00HuggingFace Daily Papers(社区热门论文)63揭示大型推理模型中的隐藏批判机制
08:00HuggingFace Daily Papers(社区热门论文)42视觉几何Transformer的Token选择指南
08:00HuggingFace Daily Papers(社区热门论文)66StepAudio 2.5 技术报告
08:00HuggingFace Daily Papers(社区热门论文)60大语言模型作为噪声信道:从香农视角看模型容量与缩放定律
08:00HuggingFace Daily Papers(社区热门论文)56ETCHR: 通过编辑以明确和利用推理
07:30ginobefun63BestBlogs 早报 · 05-22|Agent 记忆原语、Qwen3.7-Max、自动化与人类专家
06:35MarkTechPost(RSS)59Qwen推出Qwen3.7-Max:配备100万token上下文窗口的推理智能体模型
05:13Ethan Mollick68算力短缺将加剧AI应用分化
05:12Emad39数学专业化深化,AI架起跨领域创新桥梁
02:43Ethan Mollick61GPT-5.2在同行评审中达专家水平
02:26Rohan Paul63AI Token价值评估:智能含量与传输速度
02:26Rohan Paul65微软正向Anthropic推销Maia 200 AI芯片
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月23日
00:21
Yuchen Jin@Yuchenj_UW
68
哇。DeepSeek给出了高达75%的折扣。 要么他们做了重大的推理优化,要么华为芯片就是这么便宜? 更多开源AI模型,更好的token经济。

DeepSeek: We are making our discount permanent! 🎉 Enjoy building with DeepSeek-V4-Pro and bring your innovative ideas to life! 🚀

DeepSeek开源生态推理行业动态
00:16
HuggingFace Daily Papers(社区热门论文)
65
通过自我调节的模拟规划实现高效智能体推理

针对当前自适应计算策略导致的推理冗长与低效问题,本文提出将智能体决策分解为模拟推理、自我调节和反应执行三系统。研究开发了SR²AM模型,其两个版本v0.1-8B和v1.0-30B分别通过提示多模块系统和重建训练推理LLM的结构化计划实现。在多项基准测试中,v1.0-30B以25.8%-95.3%更少的推理token,达到了与更大参数量系统相当的性能。引入强化学习后,模型规划深度提升22.8%,而频率仅增2.0%,表明其学会了更前瞻性的规划。这为构建高效、自适应的智能体提供了新范式。

智能体推理论文/研究部署/工程
5月22日
21:19
向阳乔木@vista8
19
语文作业拥抱AI:老师布置提问式写作新任务

一位家长分享,孩子的语文老师布置了一项创新作业:要求学生通过向AI提问来完成作文。家长认为,这种形式能有效锻炼学生的提问技巧与AI辅助创作能力。为此,他提前准备了Claude Sonnet 4.6、ChatGPT 5.5、Gemini 3.5 Flash等主流AI模型,供孩子届时根据喜好选择使用。

其他推理
19:20
Alibaba Cloud@alibaba_cloud
79
Qwen3.7-Max现已登陆Model Studio,限时五折(5月22日至6月22日)! 100万上下文窗口。专为在长上下文智能体推理中,无缝处理和保留大规模企业数据流而构建。 🚀 立即体验:https://int.alibabacloud.com/m/1000413314/
推理模型发布
关联讨论 9 条公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:OpenRouter (@OpenRouter)IT之家(RSS)
18:19
Qwen@Alibaba_Qwen
66
近期一项针对前沿AI模型在真实智能体任务上的测试显示,Qwen 3.7-Max在效果与成本方面全面领先。该任务要求模型自主编写并迭代优化一个能自我训练的Tetris机器人程序。在10轮自我改进中,Qwen 3.7-Max仅花费1.32美元,便将机器人性能提升了56%。相比之下,Claude Opus 4.7花费12.15美元提升了28%,GPT-5.5花费2.85美元提升了7%。结果表明,在需要长时间自主推理、代码阅读与迭代的复杂智能体循环场景中,Qwen Max具备极强的成本效益比与自我改进能力。

atomic.chat: Qwen 3.7-max beats Opus 4.7 and GPT-5.5 We tested three frontier models on a real agentic task: write a Tetris bot that ...

智能体推理评测/基准
关联讨论 9 条公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:OpenRouter (@OpenRouter)IT之家(RSS)
18:09
IT之家(RSS)
57
英伟达黄仁勋:LPX 等 SRAM AI 芯片将长期属于利基市场

英伟达CEO黄仁勋在FY2027Q1财报电话会议上表示,基于SRAM的AI推理解码芯片(如LPX)将长期处于利基市场,GPU仍为主流。他指出,LPX专为低延迟和高词元速率设计,但吞吐量和容量较低,适合软件编程中的上下文处理,却在代理式任务中表现有限。其最佳应用场景是高定价、高词元速率的AI服务,而这类服务目前在整体AI市场中占比不足20%,未来可能增至20%,因此潜在客户群体相对较少。

大佬观点推理
18:09
IT之家(RSS)
48
AMD CEO 苏姿丰:中国内地占公司营收 20%,是非常重要的市场

AMD CEO 苏姿丰表示,中国内地市场约占公司营收的20%,是一个极其重要的市场。她预测,由于AI推理和智能体AI的加速发展,过去增长缓慢的CPU市场未来五年将迎来强劲增长,年增长率预计将超过35%。此外,AMD在大中华区拥有超4000名工程师,并在多地布局了AI卓越中心。公司近期也在上海首次举办了AI开发者大会,显示了对中国市场的持续投入与承诺。

推理行业动态
18:09
IT之家(RSS)
精选70
网易有道"子曰4"多模态模型、语音合成模型全量开源

网易有道宣布将其“子曰”大模型4.0的多模态模型与语音合成模型面向全球全量开源。其中,多模态模型(27B参数)专注于教育场景,在处理高难度视觉数理问题上达到行业顶尖水平,纯文本中文数理难题准确率为81.4%。该模型通过思维链优化,将输出长度压缩43.2%,有效降低了推理成本。同时开源的语音合成模型支持跨语种音色与情感迁移克隆,3秒内即可完成零样本复制,准确度超97%,并支持包括中、英、日、韩在内的14种语言。

多模态开源生态推理模型发布

推荐理由:有道把垂直教育的多模态模型全量开源,27B参数在视觉数理上做到SOTA,还把思维链压缩了43%,推理成本实打实下降,做教育应用的可以拿来做二次开发;TTS的跨语种情感克隆也实用,3秒克隆14种语言。
16:20
Alibaba Cloud@alibaba_cloud
54
基础模型论坛 | Qwen Conference 2026 解码核心智能的下一次飞跃。加入新加坡金沙会展中心的会议,探索预训练突破、推理逻辑与未来模型路线图。 🚀 立即预约席位:https://click.qwencloud.com/m/20000000190/
推理行业动态
16:09
IT之家(RSS)
63
AMD 苏姿丰:CPU 目前供应紧张,未来 5 年市场年复增长率超 35%
推理行业动态
15:56
Hacker News 热门(buzzing.cc 中文翻译)
61
多流大型语言模型:关于提示、推理和I/O并行化/分离的新论文

一篇关于多流大型语言模型的新研究论文提出了将提示处理、推理计算以及输入输出过程进行分离与并行化的架构设计。该方法旨在提升大型语言模型在处理复杂任务时的效率与可扩展性,为构建更灵活、高效的AI系统提供了新的技术思路。

推理论文/研究部署/工程
15:46
SiliconFlow@SiliconFlowAI
63
@deepseek_ai V4 Flash 刚刚登顶 @OpenRouter 榜首--3.02T tokens,本周增长109%。 如果你还没试过,现在是个好时机。 更多信息⬇️

OpenRouter: DeepSeek V4 Flash has topped the weekly leaderboard

DeepSeek推理行业动态
15:09
IT之家(RSS)
70
美团开源 LongCat-Video-Avatar 1.5:数字人视频从"彩排"走向"真舞台",生成 10 秒视频仅需 1 分钟

美团技术团队开源了数字人视频生成模型 LongCat-Video-Avatar 1.5。该版本在唇形同步、物理合理性、长视频稳定性和多人互动方面全面升级,支持复杂语音输入与多种主体。通过 DMD 蒸馏技术,推理效率提升约 15 倍,生成 10 秒视频仅需约 1 分钟。在性能评测中,模型在四个关键维度表现领先,用户偏好对比中胜率均超 54%,旨在推动数字人视频从技术演示走向商业应用。

开源生态推理模型发布视频
关联讨论 1 条美团 LongCat:HuggingFace 新模型
15:09
IT之家(RSS)
35
OWC 预告 Stack AI:雷电 5 外接闪存扩充本机 GPU 可用内存

OWC发布雷电5 AI加速器与存储中心Stack AI,该产品可通过高速闪存扩展本机GPU可用工作内存,使本地设备能够运行参数规模超出板载显存容量的AI模型。接口方面配备1个60W输出雷电5上行口、3个雷电5下行口和3个USB-A 10Gbps。产品将于COMPUTEX 2026首次实物展示,并计划在2026年第四季度发售。

产品更新推理端侧
14:08
OpenRouter@OpenRouter
同事件精选65
DeepSeek V4 Flash已登顶周排行榜
DeepSeek推理行业动态
同一事件,精选展示《使用 NVIDIA Blackwell 和 GPU 加速端点构建 DeepSeek V4》
推荐理由:OpenRouter 周榜第一的 DeepSeek V4 Flash,跟风 benchmark 不如看真实使用量,开发者在推理任务上明显偏好它,追求性价比的团队可以跟进了。
13:19
Ethan Mollick@emollick
40
有趣的是,整个"草莓"事件(后来证实是o1-preview)在发布时被斥为过度炒作,但事后看来,它其实被严重低估了。 从模型连基础数学都不会,到18个月内解决未解数学问题,这是一条清晰的进化路径。
OpenAI大佬观点推理
13:14
HuggingFace Daily Papers(社区热门论文)
68
LatentOmni:通过统一的音视频潜在推理重新思考全模态理解

当前多模态大语言模型在音视频联合推理中存在局限,因其将连续信号压缩为离散文本,损害了时序定位能力。为此,研究提出LatentOmni框架,构建统一的潜在空间以保留密集的感官信息,并交错执行文本推理与音视频潜态更新。该方法引入特征级监督以对齐推理状态与感官特征,并利用Omni-Sync位置嵌入维持音视频潜态的时序一致性。同时,构建了包含3.5万条轨迹的LatentOmni-Instruct-35K数据集。实验证明,LatentOmni在多个基准测试中取得了开源模型的最佳性能,并优于显式文本链式推理基线。

多模态推理论文/研究
11:12
karminski-牙医@karminski3
71
400 TPS!实测智谱 GLM-5.1 以10倍速狂飙

智谱近期推出GLM-5.1-Highspeed模型,实测输出速度达300+ tokens/s,首token延迟约1秒,相较于标准版GLM-5.1的35 tps和9秒延迟,性能提升约10倍。技术上,智谱联合TileRT团队重构了推理链路,通过将整个推理流程编译为常驻GPU的大kernel,大幅减少CPU调度与数据搬运开销,并优化单卡内的计算、IO分配及多卡间任务协作,显著提升GPU利用效率。该模型单次激活40B参数,高性能运行需依托多卡并行,建议现有用户切换使用以获得更实时的生成体验。

推理模型发布
10:14
HuggingFace Daily Papers(社区热门论文)
63
智能体上下文编译:面向长上下文训练的轨迹编制方法

为解决智能体监督微调中存在的“监督空白”问题,即标准流程忽略了分散在多轮交互中回答问题所需的关键证据,本文提出智能体上下文编译方法。该方法将智能体求解问题时产生的长轨迹,转化为整合了原始问题与远距离工具响应的长上下文问答对,以此直接训练模型的长距离推理能力。实验表明,经ACC训练的轻量模型在长依赖任务上性能大幅提升,可比肩更大规模模型,同时保留通用能力,并展现出自适应的注意力重组与专家化特性。

推理数据/训练论文/研究
10:14
HuggingFace Daily Papers(社区热门论文)
精选70
Gated DeltaNet-2:解耦线性注意力中的擦除与写入

线性注意力通过固定循环状态替代无界缓存,但面临精确编辑压缩记忆的挑战。现有模型如Delta-rule与KDA使用单一标量门同时控制“擦除”与“写入”两个操作。本文提出Gated DeltaNet-2,引入独立的通道级擦除门和写入门,实现了这两个操作的解耦,从而泛化并改进了前代模型。该模型在1.3B参数规模、100B tokens训练下,在语言建模、常识推理等任务中表现优异,尤其在长上下文RULER多键检索基准上优势显著。

推理论文/研究

推荐理由:把线性注意力里擦除和写入的解耦,像给模型装了独立刹车和油门,在长上下文检索上直接拉开差距,做架构的值得细读。
10:14
HuggingFace Daily Papers(社区热门论文)
精选74
从推理链到可验证子问题:课程强化学习实现LLM推理的信用分配

针对基于结果的强化学习在处理困难推理问题时因正确样本稀少而效率低下的问题,本文提出子问题课程强化学习框架。该框架从参考推理链中提取可验证子问题,并将最终子问题固定为原始问题,从而将部分解题进展转化为可验证的学习信号。其通过在子问题位置独立归一化奖励并分配优势值,实现了更细粒度的信用分配。实验表明,SCRL显著提升了模型在多个数学推理基准上的性能,有效增强了在复杂问题上的探索与推理能力。

arXiv推理数据/训练论文/研究

推荐理由:SCRL 将推理链解构为可验证子问题课程,让 RL 在超难数学题上获得细粒度信用分配,AIME 提点显著,做推理 RL 的团队值得复现。
10:09
IT之家(RSS)
同事件精选73
智谱GLM-5.1高速版发布:刷新全球大模型API速度纪录

5月22日,智谱向部分企业客户推出了旗舰大模型GLM-5.1的高速版API“GLM-5.1-highspeed”。该版本输出速度达400 tokens/s,刷新了全球大模型API速度上限。关键突破在于,它首次在国产大模型中实现了旗舰级能力与低延迟的结合,打破了“高速模型即轻量模型”的传统。该版本由智谱GLM团队与TileRT团队合作,通过系统级优化确保了速度的生产级稳定性,适用于AI编程、实时语音交互等场景。

推理模型发布部署/工程
同一事件,精选展示《GLM-5.1开源:一个独立工作8小时的模型》
推荐理由:智谱把旗舰模型拉到 400 tokens/s,还保持全尺寸能力,不是那种为快阉割的小模型。做实时交互、AI 编程的可以认真看看,延迟敏感场景的选型参数要重写了。
09:41
公众号:智谱(GLM)
同事件精选63
智谱推出GLM-5.1高速版

智谱发布GLM-5.1高速版,推理速度达400 tokens/s,在顶尖模型中生成速度最快。

推理模型发布部署/工程
同一事件,精选展示《GLM-5.1开源:一个独立工作8小时的模型》
推荐理由:智谱把GLM-5.1做到了400 tokens/s,虽然发布已半个月,但这是国产模型在推理速度上的新标杆,做实时应用的可以看看。
08:00
HuggingFace Daily Papers(社区热门论文)
49
多智能体强化学习何时改善LLM工作流程:工作流程、规模与策略共享的权衡

本文研究了端到端强化学习训练多智能体大语言模型工作流程的两种策略:Shared-Policy(所有角色更新同一策略)和Isolated-Policy(每个角色拥有独立参数)。实验矩阵覆盖了Eval-Opt、Voting和Orch-Workers三种工作流程,数学与代码任务,以及0.6B、1.7B、4B三种模型规模。研究发现,多智能体强化学习通常能改善基模型性能,但增益取决于工作流程、任务和模型规模的共同作用。Isolated-Policy往往能达到更高峰值准确率,但更容易出现性能悬崖;Shared-Policy训练则会将失败模式重新分配为不同的模式。策略共享并非提供均匀稳定性,而是在不同渠道分配训练压力,是一种具有工作流程和任务条件性权衡的设计选择。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
打破概率的枷锁:中立逻辑作为大语言模型认知不确定性建模的新框架

研究团队提出将中立逻辑应用于大语言模型(LLM)以建模认知不确定性。该框架将真、不确定、假视为三个独立维度,允许其值之和大于1。实验在OpenAI GPT模型家族上进行,测试了逻辑悖论等五种语言现象,并对比了三种提示策略。结果发现,中立逻辑方法在35%的评估中自发出现“超真理”状态,能更丰富地表示模型内部状态,有助于识别与量化模型冲突,为构建更透明、可靠的AI系统提供方法。

OpenAI推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
基于离散扩散模型的摊销序列蒙特卡洛对比分布匹配

离散扩散模型在生成结构化分类数据时面临从奖励倾斜分布中高效采样的挑战。扭曲序列蒙特卡洛(SMC)虽能实现渐近精确采样,但其在离散状态空间中估计最优扭曲函数需要昂贵的蒙特卡洛近似,成为推理瓶颈。为此,本文提出对比分布匹配(CDM)框架,通过学习一个参数化扭曲函数来摊销SMC推理的成本。训练时,梯度估计器被重新设计以利用离散扩散模型的闭式前向核。实验表明,评估该扭曲函数带来的额外计算开销低于基础模型单次前向传播的5%。在匹配实际耗时的条件下,CDM性能优于现有基线,并在毒性文本生成、调控DNA序列设计、蛋白质可设计性及扩散大语言模型对齐等多个任务中验证了其有效性。

arXiv安全/对齐推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
60
FastKernels:面向生产环境的GPU内核生成基准测试

现有用于GPU内核生成的AI智能体测试基准与生产推理框架严重脱节。它们仅在单一GPU上使用合成输入评估内核,忽略了实际的编译技术栈,并奖励复现已知优化而非发现新方法。为此,我们提出FastKernels。它既是一个涵盖8个类别、46个代表性架构的内核基准(其内核覆盖了96.2%的HuggingFace Transformers架构),也是一个极简的生产级推理框架,性能与vLLM和SGLang等成熟系统相当。实验表明,最强的内核生成智能体在FastKernels上仅能实现0.94倍的整体加速,证实了基准与生产环境的错位是关键瓶颈。

开源生态推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
60
CoSPlay:通过自生成代码与单元测试的测试时合作自博弈

CoSPlay是一个无需Ground-Truth数据且无需训练的代码生成框架,其通过合作自博弈机制联合提升代码与单元测试质量。工作流程为:探索多样化方案并识别潜在失败模式以生成有区分度的单元测试;利用代码-单元测试执行矩阵中的双向通过计数信号,迭代修剪或修复弱代码、刷新或替换不可靠测试,使两个候选池协同演进;最终从最大输出共识簇中选择代码,因为正确代码对相同输入的输出一致。在四个基准测试上,应用于Qwen2.5-7B-Instruct时,将平均BoN从22.1%提升至33.2%,单元测试准确率从14.6%提升至78.3%,性能匹配或超越RLVR模型CURE-7B;应用于CURE-7B时,可进一步将BoN提升5.7%。该方法在不同骨干模型上具备泛化能力,且在可比的token预算下优于无GT数据的TTS基线,性能随预算增加持续提升。

推理编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
63
揭示大型推理模型中的隐藏批判机制

本研究探究了大型推理模型(LRMs)的错误恢复机制。通过在推理步骤中插入算术错误,发现了一个关键现象:即使错误贯穿整个思维链(CoT)而未被语言化纠正,模型在思考结束后仍能输出正确答案。这证明模型内部存在一种“隐藏批判能力”来检测错误并触发纠正。基于特征空间分析,研究者识别出一个可解释的批判向量来表征该行为。跨模型规模和家族的实验表明,利用此向量引导潜在表示,能在不增加训练成本的情况下,提升模型的错误检测能力并增强测试时扩展性能。

推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
42
视觉几何Transformer的Token选择指南

视觉几何Transformer是多视图3D重建的有力架构,但其全局注意力机制导致计算成本随输入序列长度二次增长。为此,研究提出一种通用的token选择策略,以限制每个查询交互的key/value token数量。该策略采用两阶段框架:首先在帧间通过多样性策略保留关键帧,然后在选定帧内基于注意力熵进行层级稀疏化以移除冗余token。实验表明,该方法在包含500张图像的场景中能加速超过85%,同时保持甚至提升基线性能,为该类架构提供了更优的速度-精度权衡。

推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
66
StepAudio 2.5 技术报告

StepAudio 2.5 是一个统一的音频-语言基础模型,能在自动语音识别(ASR)、语音合成(TTS)和实时语音交互三个任务上达到或超越专业系统水平。其核心在于将文本与音频置于共享表示空间,通过数据构建、优化目标和解码约束的差异化设置实现任务专精。该模型的后训练范式以任务定制的强化学习(RLHF)为核心机制,并配合专门的解码策略,将共享主干塑造成三种操作模式:ASR分支提升转录效率;TTS分支实现可控、富有表现力的合成;实时分支则达成低延迟、角色一致的对话。在标准基准测试中,StepAudio 2.5 在三项任务上均取得最优结果,证明单一基础模型能够有效内化语音理解、生成和实时交互的不同部署目标。

多模态推理论文/研究语音
08:00
HuggingFace Daily Papers(社区热门论文)
60
大语言模型作为噪声信道:从香农视角看模型容量与缩放定律

现有大语言模型缩放定律多为单调幂律,无法解释灾难性过训练或量化等非单调现象。研究提出Shannon Scaling Law,将LLM训练建模为基于Shannon-Hartley定理的噪声信道信息传输,模型参数映射为信道带宽,训练token映射为信号功率。该框架揭示LLM存在基本容量极限:若无法维持足够信噪比,盲目扩大规模将放大噪声,导致性能从单调改进转为U型退化。在Pythia和OLMo2模型上的实验验证了该定律能准确捕捉性能谷底,并具备外推能力:用不超过6.9B参数、180B token训练的模型,可预测未见过的12B模型在307B token时的表现,池化R²达0.847。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
ETCHR: 通过编辑以明确和利用推理

多模态大语言模型在视觉推理中面临纯文本思维链的瓶颈。现有“以图像思考”方法受限于固定工具箱或生成噪声图像。ETCHR是一种与理解模型解耦的、问题条件的感知推理图像编辑器,针对语言端与生成端两个缺陷进行两阶段训练:先通过监督微调进行推理模仿,再使用VLM奖励进行推理增强。该编辑器可免训练方式适配不同开源与闭源多模态大语言模型。在五个任务族上的评估显示,ETCHR分别将通义千问(Qwen3-VL-8B)的平均Pass@1从55.95提升至60.77,Gemini-3.1-Flash-Lite从65.08提升至70.55,以及月之暗面(Kimi K2.5)从76.55提升至81.16。

多模态推理论文/研究
07:30
ginobefun@hongming731
63
BestBlogs 早报 · 05-22|Agent 记忆原语、Qwen3.7-Max、自动化与人类专家

本期早报聚焦AI Agent的成熟化。Anthropic首次发布Memory与Dreaming基础设施原语,将跨会话记忆工程化,Rakuten部署后首次执行错误率下降97%。通义实验室的Qwen3.7-Max通过35小时极限压力测试,在未知硬件平台上自主优化Kernel,实现1158次工具调用零中断,凸显长程稳定性,将国内大模型竞争焦点从问答分数转向Agent可靠性。与此同时,Every创始人观察到,随着AI自动化普及,能评判执行质量的人类专家价值反而凸显。这些进展共同指向Agent成熟的基础设施、模型基座与人类协作新范式。

智能体AnthropicOpenAI推理
06:35
MarkTechPost(RSS)
59
Qwen推出Qwen3.7-Max:配备100万token上下文窗口的推理智能体模型

在2026年阿里云峰会上,阿里巴巴的Qwen团队发布了其迄今最先进、最全面的智能体模型Qwen3.7-Max。该模型核心特点是具备100万token的超长上下文窗口,并引入扩展思考模式,专为代码编写、调试及多步骤工作流自动化等长周期任务设计。在Artificial Analysis Intelligence Index评测中,该模型获得56.6分,在所有专有模型中排名第五。

智能体推理模型发布编码
05:13
Ethan Mollick@emollick
68
我们目前算力相当短缺,这将导致复杂智能体工作流的算力成本变得非常高昂,即使单轮聊天机器人的成本在下降。因此,最富有的公司和最紧迫的用例将使用AI智能体,而其他人将只能使用聊天机器人?
大佬观点推理
05:12
Emad@EMostaque
39
当前数学知识总量庞大,导致研究者往往深耕于极其狭窄的专业领域,形成知识壁垒。这为AI创造了独特价值:AI能够跨越人类专家间的知识鸿沟,连接不同数学分支乃至跨学科领域,从而发现少数人类个体难以企及的解决方案。推文以物理学为例指出,对时空代数等专业工具的深度掌握能揭示如光速有限等深刻见解,这正体现了专精的价值,而AI有望系统性地实现这种跨领域的知识整合与创新。

Jay Cummings: Today there is so much math known that mathematicians often have a very narrow speciality. This gives AI potential to co...

大佬观点推理
02:43
Ethan Mollick@emollick
61
似乎GPT-5.2在同行评审中达到了专家水平:45位科学家花费469小时,评估了人类与AI对82篇论文的评审。 "令人惊讶的是,当前的AI评审甚至能与《自然》官方同行评审中的顶级评审人相媲美……"尽管并非没有弱点。
OpenAI推理论文/研究
02:26
Rohan Paul@rohanpaul_ai
63
AI Token价值评估:智能含量与传输速度

该推文探讨了评估AI Token价值的新视角,核心在于Token的“智能含量”与“传输速度”。快速的Token若缺乏深度推理可能造成浪费,而缓慢的Token即使算力廉价也会因延迟影响用户体验。不同应用场景如医疗分诊、代码编写和购物客服对Token需求各异。因此,构建有效的“Token经济学”不应从模型菜单出发,而应从客户对不确定性、延迟和成本的容忍度开始,以具体用例为起点进行反向优化。NVIDIA的Shruti Koparkar强调,这关系到AI应用是规模化扩展还是停滞不前。

NVIDIA: Token economics determine whether your AI scales or stalls. The key to optimizing AI tokenomics? Start with the customer...

推理现象/趋势
02:26
Rohan Paul@rohanpaul_ai
65
微软正向Anthropic推销Maia 200 AI芯片

据The Information报道,微软正向AI公司Anthropic推销其第二代AI芯片Maia 200,强调该芯片在特定推理任务中比NVIDIA芯片更具成本效益。Maia 200专注于高速推理而非训练,双方已有深度合作基础:Anthropic已在Azure承诺300亿美元支出,且Claude已整合进微软Copilot。此次芯片合作旨在深化协同。分析认为,Maia 200无需全面超越NVIDIA,只要能在高量推理中提供更低成本选项,便可能将部分计算需求从GPU转移。

AnthropicMicrosoft推理行业动态
‹ 上一页
1…2728293031…50
下一页 ›