AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 12 条
全部一手资讯X论文
标签「arXiv」清除
6月29日周一
19:10公众号:小红书技术(dots.llm)72精选小红书 RedKnot 推理引擎:将 KV Cache 按注意力头拆解实现长文本加速
6月25日周四
09:00公众号:蚂蚁百灵(Ling)51Ling Team 提出 UFP4:FP4 预训练中 E1M2/INT4 配合 RHT 优于 E2M1
6月24日周三
11:54Qwen:Blog Retrieval(API)81精选Qwen-AgentWorld:面向通用智能体的语言世界模型
6月19日周五
02:47Hugging Face:Blog(RSS)75精选MosaicLeaks: 你的研究智能体能保守秘密吗?
6月16日周二
09:59Berkeley RDI:Blog(AI 安全与评测)83精选伯克利RDI发布Agents' Last Exam基准
6月13日周六
17:54公众号:龙猫LongCat(美团)54WBench:面向交互式视频世界模型的首个系统性多轮评测基准
6月7日周日
02:11公众号:阶跃星辰(Step)71精选阶跃首席科学家张祥雨合著论文 ResNet 获 CVPR 2026 「时间检验奖」
5月28日周四
17:47公众号:通义实验室(千问)54通义实验室发布Qwen-Image-Bench:56项细粒度创作评测基准
5月23日周六
00:16Hugging Face:Blog(RSS)50专业化胜过规模:Dharma 发布 DharmaOCR,3B 专用模型在 OCR 基准上超越商业前沿 API
8月4日周一
00:00字节 Seed:Research Papers(网页内嵌数据)Seed Diffusion:支持高速推理的大规模扩散语言模型
3月14日周五
00:00字节 Seed:Research Papers(网页内嵌数据)深度学习揭示整数和分数量子反常霍尔态
9月9日周五
01:00Lilian Weng:Lil'Log(RSS)33神经正切核背后的数学原理
没有更多了
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月29日
19:10
公众号:小红书技术(dots.llm)
精选72
小红书 RedKnot 推理引擎:将 KV Cache 按注意力头拆解实现长文本加速

RedKnot 将 KV Cache 沿注意力头维度拆解,通过头分类稀疏(局部头占 83.4%–96.8%)、稀疏 FFN 和 SegPagedAttention 三个机制统一算法与存储粒度。在 8 卡 H800 上,TTFT 最高加速 1.6–3.54×,单卡并发提升 4.7–7.8×,预填充 FLOPs 削减 67%–79.5%。DeepSeek-V4-Flash 上 128K 上下文 TTFT 加速达 5.16×,KV 传输最多省 6.3×。精度通常不低于稠密 F1 的 95%。

arXivGitHub产品更新推理

推荐理由:小红书把 KV Cache 从 token 级拆成按头分家,这个思路让长文本推理的 TTFT 和并发都有数量级提升,开源出来对做推理引擎的同学是个福音。
6月25日
09:00
公众号:蚂蚁百灵(Ling)
51
Ling Team 提出 UFP4:FP4 预训练中 E1M2/INT4 配合 RHT 优于 E2M1

Ling Team 在 arxiv 发表论文,重新思考 FP4 预训练中的格式选择。研究发现,主流 E2M1 格式存在先天 Shrinkage Bias,导致数值量化时左右 rounding bin 不对称,该 bias 在训练中累积拖慢收敛。相比之下,E1M2/INT4 这类 uniform 格式在配合 Random Hadamard Transform(RHT)后,更高的 bucket 利用率能转化为实际量化质量收益,收敛表现优于 E2M1。团队提出 UFP4 方案:在 E1M2/INT4 下为三种 GEMM 操作数启用 RHT,并将 SR 用于 dy 量化。研究认为,细粒度量化与 RHT 引入后,FP4 训练已转向“局部分辨率主导”,uniform 4-bit 格式的价值应被重新评估。

arXiv数据/训练论文/研究
6月24日
11:54
Qwen:Blog Retrieval(API)
精选81
Qwen-AgentWorld:面向通用智能体的语言世界模型

Qwen 团队发布 Qwen-AgentWorld,一个以环境建模为训练目标的原生语言世界模型,在单个模型中模拟 MCP、Search、Terminal、SWE 及 GUI 域(Web、OS、Android)共七个域。模型使用超 1000 万条真实交互轨迹训练,在 AgentWorldBench 上以 Qwen-AgentWorld-397B-A17B 版本达最高模拟质量,超越 GPT-5.4、Claude Opus 4.8 和 Gemini 3.1 Pro。同时发布评测基准 AgentWorldBench。该模型可作为解耦环境模拟器用于智能体 RL 训练,也可作为统一智能体基础模型,经 LWM 预热后无需智能体 RL 微调即可迁移。模型和基准已开源在 Hugging Face 和 ModelScope。

智能体arXivHugging FaceMCP/工具
关联讨论 5 条X:通义千问 / Qwen (@Alibaba_Qwen)Hacker News 热门(buzzing.cc 中文翻译)X:Berry Xia (@berryxia)HuggingFace Daily Papers(社区热门论文)公众号:通义实验室(千问)
推荐理由:Qwen把世界模型做成了一个可开源的通用产品,覆盖七域,做agent RL的可以直接拿它仿真训练,可控性甚至超过真实环境,做agent的团队应该认真看看。
6月19日
02:47
Hugging Face:Blog(RSS)
精选75
MosaicLeaks: 你的研究智能体能保守秘密吗?

深度研究智能体在结合私有本地文档与外部网页检索时存在隐私泄露风险。MosaicLeaks 提出包含 1,001 条多跳研究链的新任务,每条链交错混合本地与公共子问题。测试发现智能体频繁泄露私有信息,单纯优化任务性能反而加剧泄露。基于此,研究提出隐私感知深度研究(PA-DR)强化学习训练方法,将严格链成功率从 48.7% 提升至 58.7%,同时将答案/全面信息泄露率从 34.0% 降至 9.9%。

智能体arXiv安全/对齐论文/研究

推荐理由:这篇论文揭示了深度研究agent的多跳查询会像马赛克一样拼凑出私密信息,单纯提示减少泄露几乎没用,而隐私感知训练把泄露率从34%降到9.9%,且不损伤任务表现,做企业级agent产品的团队要重视。
6月16日
09:59
Berkeley RDI:Blog(AI 安全与评测)
精选83
伯克利RDI发布Agents' Last Exam基准

2026年6月,伯克利RDI发布Agents’ Last Exam(ALE)基准,包含1,500余项源于真实工作的任务,覆盖55个非体力职业。对Fable 5、GPT-5.5、Composer 2.5等前沿智能体的测评显示:在最困难层级成功率均为0%;整体任务表现接近,但单任务成本差异巨大(Fable 5约$15.70,GPT-5.5约$3.80,Composer 2.5约$1.33)。CLI子集ALE-CLI最佳通过率仅25.2%。主要失败模式是智能体未验证输出即宣称完成。数据集、代码及CLI子集已开源。

智能体arXivHugging Face开源生态

推荐理由:在Fable 5发布后,Berkeley的ALE基准首次大规模量化了agent在专业任务上的真实水平,最难任务0%成功率的结果值得所有押注agent落地的团队冷静下来。
6月13日
17:54
公众号:龙猫LongCat(美团)
54
WBench:面向交互式视频世界模型的首个系统性多轮评测基准

美团 LongCat 团队推出 WBench,首个面向交互式视频世界模型的系统性多轮评测基准。包含 289 个测试案例、1058 个交互轮次,覆盖导航、主体动作、事件编辑、视角切换四种交互方式,从视频质量、设定遵循度、交互遵循度、一致性、物理真实性五维度评测 20 个前沿模型(包括 Kling 3.0、HY-World 1.5、Genie 3 等)。核心发现:无全能模型,导航能力与画质无关;多轮交互后所有模型性能下降,导航平均分下降 33 点;开源模型 HY-World 1.5 导航能力突出;视角切换最难(平均分 30.7)。WBench 已开源。

arXivGitHub开源生态视频
6月7日
02:11
公众号:阶跃星辰(Step)
精选71
阶跃首席科学家张祥雨合著论文 ResNet 获 CVPR 2026 「时间检验奖」

CVPR 2026 将 Longuet-Higgins Prize「时间检验奖」授予 2015 年发表的《Deep Residual Learning for Image Recognition》(ResNet)。该论文由何恺明、张祥雨、任少卿、孙剑完成,提出的残差学习思想解决了深层神经网络训练难题,已成为现代深度学习基础结构。同获该奖的还有 YOLO v1。ResNet 全球引用量超 32 万次,是 21 世纪被引最多论文。阶跃算法团队正热招大模型技术人才。

arXiv行业动态
关联讨论 1 条公众号:阶跃星辰(Step)
推荐理由:ResNet拿下CVPR时间检验奖,32万引用是真的硬通货。虽然论文是2015年的,但残差连接至今仍是每个大模型的地基,这个奖实至名归,也提醒我们基础研究才是长期主义的底气。
5月28日
17:47
公众号:通义实验室(千问)
54
通义实验室发布Qwen-Image-Bench:56项细粒度创作评测基准

通义实验室推出文生图评测基准Qwen-Image-Bench,由专业艺术家团队开发,将创作能力解构为5大核心支柱、17大场景及56项可量化维度。配套开源自动化评估模型Q-Judger,与资深人类艺术家评估相关性达Spearsman 0.92。评测使用1000条中英文分层Prompt,每条覆盖至少4项考点。结果显示,当前T2I模型在文字准确性、信息可视化、跨语言生成等子领域差距明显,世界知识与逻辑推理能力是跻身第一梯队的分水岭。完整数据集与Q-Judger已开源。

arXivHugging Face图像生成多模态
5月23日
00:16
Hugging Face:Blog(RSS)
50
专业化胜过规模:Dharma 发布 DharmaOCR,3B 专用模型在 OCR 基准上超越商业前沿 API

4月,Dharma 发布 DharmaOCR——一对 3B 参数专用小语言模型,用于结构化 OCR,同时开源基准与论文。在巴西葡萄牙语 OCR 基准上,该 3B 专用模型通过全微调实现综合得分 0.911,超过所有测试的商业前沿 API(Claude Opus 4.6 0.833、Gemini 3.1 Pro 0.820、GPT-5.4 0.750)。每百万页成本仅为 Claude Opus 4.6 的约 1/52,质量与成本均占据 Pareto 前沿。结果表明:当训练数据与部署任务充分对齐时,参数规模不再是决定性变量,专业化微调能以极低代价实现更高性能。

arXivHugging Face数据/训练现象/趋势
8月4日
00:00
字节 Seed:Research Papers(网页内嵌数据)
Seed Diffusion:支持高速推理的大规模扩散语言模型

字节跳动Seed团队发布扩散语言模型Seed Diffusion,采用非自回归的扩散架构替代传统GPT类模型,通过去噪扩散机制并行生成文本,突破逐token解码的速度瓶颈。该模型在保持大规模参数能力的同时显著提升推理效率,在文本生成任务中实现生成质量与计算速度的平衡,为大规模语言模型提供了自回归范式之外的高性能替代方案。

arXiv推理论文/研究
3月14日
00:00
字节 Seed:Research Papers(网页内嵌数据)
深度学习揭示整数和分数量子反常霍尔态

针对扭曲MoTe₂体系,研究者采用深度学习框架表达多体波函数,精准识别出整数/分数量子反常霍尔态及Z₂拓扑绝缘体。相比传统方法,该方案在计算效率与精度上显著提升,可处理更大规模系统并区分竞争相(如分数量子反常霍尔态与电荷密度波),理论预测与实验观测高度吻合。

arXiv论文/研究
9月9日
01:00
Lilian Weng:Lil'Log(RSS)
33
神经正切核背后的数学原理

神经正切核是一种用于解释神经网络在梯度下降训练过程中演化行为的核方法。它深入阐释了为何宽度足够的神经网络能够一致收敛至经验损失函数的全局最小值,即使在参数量远超训练样本数的过参数化情况下亦是如此。研究进一步探讨了在神经网络具有无限宽度的设定下,通过刻画神经正切核来证明其在不同初始化条件下能够确定性收敛的理论依据。

arXiv教程/实践数据/训练