AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态论文 · 2849 条
全部一手资讯X论文
7月2日周四
00:07AK49LiteResearcher:可扩展深度研究智能体RL训练框架
7月1日周三
23:40The Decoder:AI News(RSS)48Meta 发布非侵入式脑机接口 Brain2Qwerty v2,词错误率降至 39%
23:27Epoch AI28Epoch AI新增13项评测基准,7项纳入ECI
23:22Jim Fan71Jim Fan团队推出ASPIRE:机器人自我进化的技能库系统
23:03IT之家(RSS)57OpenAI 推出 GeneBench-Pro 基准测试,评估 AI 模型生物学计算能力
22:28HuggingFace Daily Papers(社区热门论文)39Goku:面向指令视频编辑的百万级通用数据集与基准
22:03IT之家(RSS)45理想汽车登台 ISCA 2026,马赫 M100 芯片论文入选
21:06AK18Orca:世界在你心中
20:28HuggingFace Daily Papers(社区热门论文)51FlexiSLM: 一种动态可控帧率的语音语言模型
20:28HuggingFace Daily Papers(社区热门论文)44QVal:低成本评估长周期LLM智能体密集监督信号的测试平台
17:28HuggingFace Daily Papers(社区热门论文)43MuSViT:乐谱表示的基础视觉模型
17:28HuggingFace Daily Papers(社区热门论文)48DataEvolver:面向文本丰富图像生成的自进化多智能体数据构建框架
16:28HuggingFace Daily Papers(社区热门论文)51GEAR: 引导式端到端自回归图像合成
15:32Rohan Paul68美芯片限制意外加速中国开源AI生态发展
14:28HuggingFace Daily Papers(社区热门论文)62基于元认知反馈的强化学习实现大语言模型忠实不确定性表达
14:28HuggingFace Daily Papers(社区热门论文)40多块扩散语言模型
14:00Greg Brockman56OpenAI 推 GeneBench-Pro 基准,GPT-5.6 Sol 显著进步
13:28HuggingFace Daily Papers(社区热门论文)49TerraDiT-Ω: 基于任意地理空间基元的卫星图像合成统一空间控制框架
11:28HuggingFace Daily Papers(社区热门论文)38MemLearner:为视频世界模型学习查询上下文记忆
11:28HuggingFace Daily Papers(社区热门论文)44小米发布 Xiaomi-GUI-0 多模态 GUI 智能体
11:28HuggingFace Daily Papers(社区热门论文)42BlockPilot:基于实例自适应策略学习的扩散投机解码方法
09:08Hacker News 热门(buzzing.cc 中文翻译)68Meta AI 发布 Brain2Qwerty v2:无需手术的脑电波解码系统
06:59AI Notkilleveryoneism Memes ⏸️76精选AI 用 prover-verifier LLM 循环攻克 9 个未解数学难题
06:05elvis46MCP服务器五大模式论文发布
06:04Anthropic:Transformer Circuits(可解释性研究)51Anthropic 提出回合平均稀疏自编码器 (Turn-Averaged SAE)
05:20Chubby♨️24Wistar研究所DNA注射方案在小鼠模型中实现长效减重与血糖控制
04:06Ars Technica:AI(RSS)60AI浏览器可被引诱进入护拦失效的幻境
01:37OpenAI58OpenAI 推出 GeneBench-Pro 生物基准测试
01:27HuggingFace Daily Papers(社区热门论文)48SWE-Together: Evaluating Coding Agents in Interactive User Sessions
01:20Jim Fan53Jim Fan 团队发布 ASPIRE:机器人技能库自我进化、持续累积
01:03OpenAI:官网动态(RSS · 排除企业/客户案例)70精选OpenAI 发布 GeneBench-Pro:计算生物学研究级基准测试
01:02Microsoft Research39微软SkillOpt:将智能体技能编辑转为训练
00:36AK31OSWorld2.0 评测长程真实世界任务
6月30日周二
22:34SemiAnalysis63JetSpec:因果并行树草稿投机解码方法
22:26HuggingFace Daily Papers(社区热门论文)51一步梯度延迟并非大规模异步流水线并行LLM预训练的障碍
20:26HuggingFace Daily Papers(社区热门论文)43ILLUME-X:面向自由形式交错图文生成的统一多模态模型
20:02IT之家(RSS)50Meta 公布 Brain2Qwerty v2 非侵入式脑机接口新研究:AI 从脑磁信号中"读心",准确率最高达 78%
18:26HuggingFace Daily Papers(社区热门论文)47BeyondArena:超越IID的表格数据统一整体基准
16:26HuggingFace Daily Papers(社区热门论文)53纳米科技分子优化(NMO)基准测试
16:07Hacker News 热门(buzzing.cc 中文翻译)17科学家发现液态水中两种结构的分子级证据
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月2日
00:07
AK@_akhaliq
49
LiteResearcher 用于深度研究智能体的可扩展智能体RL训练框架
智能体数据/训练论文/研究
7月1日
23:40
The Decoder:AI News(RSS)
48
Meta 发布非侵入式脑机接口 Brain2Qwerty v2,词错误率降至 39%

Meta FAIR 团队发布 Brain2Qwerty v2,从非侵入性 MEG 脑信号重建完整句子。九名志愿者输入 22000 句,平均词错误率 39%,最佳参与者 22%。v2 采用异步连续信号窗口,无需击键时间戳。模型使用三个 AI 构建块,包括基于 Qwen3 微调的语言模型将噪声信号转为连贯句子。字符错误率 31%,高于 v1 N-gram 模型的 26%,但词错误率和语义准确率更优。当前与植入式系统(词错误率 <2%)仍有差距,但数据量增加后精度持续提升。

Meta论文/研究
23:27
Epoch AI@EpochAIResearch
28
我们最近开始在评测中枢跟踪13项新基准。其中7项已被纳入Epoch能力指数(ECI)。
数据/训练评测/基准
23:22
Jim Fan@DrJimFan
71
继EMPIRE后,Jim Fan团队发布ASPIRE,为机器人构建可自我进化、无限累积的技能库。编码智能体观察仿真和真实机器人的多模态感官轨迹,对控制程序进行进化搜索,将最佳策略蒸馏进不断扩展的库中。ASPIRE无需梯度下降或端到端策略,而是通过传递"技能知识"绕过sim2real和跨本体迁移难题,相比从头训练实现约10倍迁移学习token缩减。已在150+任务和90+技能上验证,计划开源全栈。

Jim Fan: Today, we give robots a /skills library that self-evolves and compounds indefinitely! Introducing ASPIRE: a robot solvin...

智能体具身智能开源/仓库论文/研究
23:03
IT之家(RSS)
57
OpenAI 推出 GeneBench-Pro 基准测试,评估 AI 模型生物学计算能力

OpenAI 发布 GeneBench-Pro 基准测试,评估 AI 模型在生物学计算中的真实研究能力。测试让模型面对模糊、不完整甚至带干扰的数据环境,自主完成数据探索、方法选择和策略修正。GeneBench-Pro 覆盖基因组学、定量生物学和转化医学等方向,共 129 道题,分布于 10 个大领域和 21 个子领域。为避免长流程评分偏差,OpenAI 采用合成数据构建题目。目前已在 Hugging Face 开源 10 道示例题并提供交互界面,后续将开放 50 道题给 Artificial Analysis 进行第三方独立评测。

OpenAI数据/训练评测/基准
22:28
HuggingFace Daily Papers(社区热门论文)
39
Goku:面向指令视频编辑的百万级通用数据集与基准

Goku是一个包含200万高质量视频编辑对的百万级数据集,首次将基于指令的视频编辑从单一外观扩展至多任务和结构操控(如主体运动控制)。研究者设计了分解式数据合成流水线与渐进式过滤系统以解决复杂编辑的数据合成难题。基于该数据集训练的Goku-Edit模型采用MLLM作为文本编码器,并采用解耦双分支架构:专用掩码分支处理结构控制,主分支负责外观渲染。配套基准Goku-Bench包含1000个人工验证测试用例和7项新增编辑指标,Goku-Edit的指令遵循能力较其他开源模型提升高达+8%。

数据/训练论文/研究
22:03
IT之家(RSS)
45
理想汽车登台 ISCA 2026,马赫 M100 芯片论文入选

理想汽车近日在 ISCA 2026 发表题为《马赫 M100:面向通用 AI 计算的编排式数据流架构》的演讲,成为自 2020 年该会议工业分区设立以来首家入选的中国车企。马赫 M100 是全球首款基于数据流架构的大算力端侧推理芯片,采用 5nm 车规级工艺,单芯片算力 1280TOPS,算力利用率达 82%;双 SoC、双 MCU、双供电完全冗余架构满足 ASIL-D 最高功能安全等级。该芯片已随全新理想 L9 及 L8 量产上车,全链路自主完成。

端侧论文/研究
21:06
AK@_akhaliq
18
Orca 世界在你心中
其他论文/研究
20:28
HuggingFace Daily Papers(社区热门论文)
51
FlexiSLM: 一种动态可控帧率的语音语言模型

FlexiSLM是首个支持动态可控帧率的语音语言模型。它利用动态帧率表示,在高质量操作点上超越了固定帧率的7B模型Qwen2.5-Omni和Kimi-Audio。FlexiSLM可精确控制帧率至4.0 Hz;在6.25 Hz下推理时间相比12.5 Hz减半,同时保持强语音质量。

论文/研究语音
20:28
HuggingFace Daily Papers(社区热门论文)
44
QVal:低成本评估长周期LLM智能体密集监督信号的测试平台

QVal提出一种无需训练的测试平台,通过Q对齐度量直接评估密集监督信号质量,判断动作排序是否匹配强参考策略的Q值。QVal-v1.0在4个环境、7类方法族、6个开放权重模型骨干上对21种密集监督方法进行了超过1200次评估实验,发现简单提示基线一致优于近年文献中的密集监督方法,且性能按方法族显著聚类。该平台易于扩展至新环境和新方法。

智能体推理论文/研究评测/基准
17:28
HuggingFace Daily Papers(社区热门论文)
43
MuSViT:乐谱表示的基础视觉模型

MuSViT是首个专为乐谱表示设计的基础视觉模型,采用ViT编码器并通过掩码自编码器在IMSLP的970万页乐谱上预训练,使用两阶段课程(先合成排版乐谱,再训练完整IMSLP语料库)。在四个下游任务(全页与谱行级乐谱识别、音乐符号检测、难度分类)上,线性探测(冻结编码器)中MuSViT持续优于通用视觉编码器,微调则改进多数任务的特化SOTA方法。嵌入-转录一致性分析表明,MuSViT直接在表示空间中编码符号化的音乐结构,而其他编码器的嵌入与乐谱内容不相关。

多模态论文/研究
17:28
HuggingFace Daily Papers(社区热门论文)
48
DataEvolver:面向文本丰富图像生成的自进化多智能体数据构建框架

DataEvolver提出自进化多智能体框架,将数据构建视为反馈驱动的策略进化。它包含检索器、验证器、评论家和生成器,利用被拒样本的失败信号指导下一轮构建。在PixArt-alpha上以0.75M规模测试,DataEvolver在TextScenesHQ上OCR-F1比最强基线提升85.3%,在LongTextBench上提升35.3%,且收益可迁移至Show-o2。

图像生成多模态论文/研究
16:28
HuggingFace Daily Papers(社区热门论文)
51
GEAR: 引导式端到端自回归图像合成

GEAR联合训练向量量化(VQ)分词器与自回归(AR)生成器,通过表示对齐实现端到端学习。为解决VQ索引不可微导致梯度无法回传问题,采用双读出机制:硬one-hot分支用于next-token预测训练AR模型,可微分软分支传递对齐损失指导分词器更新,使AR引导分词器生成更易预测的索引分布。相比LlamaGen-REPA,在ImageNet gFID收敛速度最高提升10倍,并泛化至VQVAE、LFQ、IBQ等量化器及文生图任务。

arXiv图像生成论文/研究
15:32
Rohan Paul@rohanpaul_ai
68
一项研究通过分析政策文件、开源模型发布、GitHub活跃度、论文及美国专利发现:美国加强出口管制后,中国开发者在开源大语言模型项目上的活跃度远超美国开发者,美国政策非但未遏制中国AI发展,反而加速了其开源生态建设。Perplexity CEO Aravind Srinivas 补充称,中国建设数据中心速度更快,电力、许可、人力、劳动力、专业知识均不构成障碍。

Rohan Paul: Opinion from a former Meta PM. And this is from Aravind Srinivas of Perplexity "China can build data centers a lot faste...

开源生态政策/监管论文/研究
14:28
HuggingFace Daily Papers(社区热门论文)
62
基于元认知反馈的强化学习实现大语言模型忠实不确定性表达

大语言模型在元认知能力上存在系统性缺陷(高置信度幻觉、无法识别知识边界等)。研究者提出两种新机制:基于元认知反馈的强化学习(RLMF)——根据模型自我判断质量调整完成排名;以及元认知数据选择——利用自我判断识别高价值训练样本。应用于忠实校准任务,先校准模型置信度分数,再映射为自然语言不确定性。实验表明RLMF达到可泛化的SOTA性能,相较标准RL提升高达63%,同时增强模型评估自身能力边界的能力。

安全/对齐数据/训练论文/研究
14:28
HuggingFace Daily Papers(社区热门论文)
40
多块扩散语言模型

MBD-LMs通过多块教师强制(MultiTF)后训练块扩散语言模型(BD-LMs)得到。MultiTF结合教师强制与扩散强制,在干净前缀上训练有界噪声组,采用随机噪声调度器匹配多块扩散推理状态。基于Block Buffer的优化解码实现前缀缓存复用和输入形状静态化,将更高并行度转为实际加速。MBD-LLaDA2-Mini的TPF从3.47提升至6.19,准确率从79.95%提升至81.03%;结合DMax后TPF

推理数据/训练论文/研究
14:00
Greg Brockman@gdb
56
OpenAI 推出研究级基准 GeneBench-Pro,用于测试 AI 智能体在真实计算生物学中处理复杂、需要高度判断的分析能力。每个问题需要人类专家约 20-40 小时完成。Greg Brockman 表示,GPT-5.6 Sol 在该基准上实现了重大进步。

OpenAI: We're introducing GeneBench-Pro, a research-level benchmark for a harder kind of AI progress: how well agents can naviga...

智能体OpenAI论文/研究
13:28
HuggingFace Daily Papers(社区热门论文)
49
TerraDiT-Ω: 基于任意地理空间基元的卫星图像合成统一空间控制框架

TerraDiT-Ω是一个统一空间控制框架,可直接利用任意地理空间基元(多边形、折线、边界框、点)进行卫星图像生成。它联合使用精确和粗略标注,适应不同标注预算,适用于城市规划等设计任务。提出Geometry-Aware Local Attention机制,将几何线索注入注意力空间。在所有格式上优于密集和稀疏控制基线。该框架支持可控数据增强,提升土地覆盖分割、目标检测、道路图提取、场景分类等下游性能。代码、数据、权重已开源。

arXivGitHub图像生成数据/训练
11:28
HuggingFace Daily Papers(社区热门论文)
38
MemLearner:为视频世界模型学习查询上下文记忆

视频世界模型在长时段生成中缺乏记忆,导致场景不一致。MemLearner 提出基于学习的自适应上下文查询方法,利用 query tokens 桥接上下文与预测 token,并借助视频生成模型自身的预训练视觉先验进行上下文查询,无需从头训练额外模块。团队收集了带场景遮挡和动态物体的长视频数据集,辅以相机位姿标注,并采用多数据集训练策略同时利用标注渲染视频和无标注真实视频。实验表明,MemLearner 在场景一致性和记忆方面显著优于以往视频世界模型,尤其在遮挡和动态场景下。

arXiv视频论文/研究
11:28
HuggingFace Daily Papers(社区热门论文)
44
小米发布 Xiaomi-GUI-0 多模态 GUI 智能体

小米提出 Xiaomi-GUI-0,一个面向真实移动环境的原生多模态 GUI 智能体。模型在真实设备闭环中训练和评估,采用物理设备为主、沙箱辅助的混合基础设施。训练数据涵盖高频头部任务、长尾意图泛化及反思与记忆增强样本,并通过错误驱动数据飞轮将失败轨迹转化为修正动作、反思解释和恢复示范。训练采用监督微调、step-level 强化学习和 agentic 强化学习三阶段渐进流程。在内部基准 RealMobile 上成功率达 72.0%,在 AndroidWorld 上达 78.9%,同时显著提升了真实任务中的执行稳定性和异常状态识别能力。

智能体论文/研究
11:28
HuggingFace Daily Papers(社区热门论文)
42
BlockPilot:基于实例自适应策略学习的扩散投机解码方法

针对扩散投机解码中固定推理块大小且假设最优解码策略对所有输入统一的问题,BlockPilot 提出一种样本自适应策略,利用预填充层的表示首次预测每个样本的最优块大小,将选择问题转化为低维结构化决策空间的轻量策略学习。该方法即插即用、开销极低,在 Qwen3-4B 模型、温度 T=1 条件下,实现接受长度 5.92 和 4.20 倍加速,无需牺牲生成质量。

arXiv推理论文/研究
09:08
Hacker News 热门(buzzing.cc 中文翻译)
68
Meta AI 发布 Brain2Qwerty v2:无需手术的脑电波解码系统

Meta AI 推出 Brain2Qwerty v2,一种无需手术植入即可实时从脑电波解码句子的非侵入式系统。基于脑磁图(MEG)设备记录 9 名志愿者各 10 小时的打字脑活动,训练约 22,000 个句子,采用端到端深度学习并微调大语言模型。词准确率达 61%,最佳参与者达 78%,远超其他非侵入方法的 8%。解码精度随数据量对数线性提升,有望进一步缩小与手术方法的差距。Meta 已开源 v1 和 v2 训练代码,合作方 BCBL 开放 v1 数据集。

Meta开源/仓库数据/训练论文/研究
06:59
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
精选76
AI Safety Memes 推文指出,AI 刚刚解决了 9 个未解决的数学问题,但全球没有记者报道。引用 @WeinsteinOmri 的推文称,采用"prover-verifier"LLM 循环的方法,成功解决了理论计算机科学中 9 个重大开放问题,其中包括一个困扰其长达 2 年的难题。该研究由哥伦比亚大学合作者完成,并计划将这一方法扩展到所有科学领域。

Omri Weinstein: Even @OpenAI's recent Erdős breakthrough didn't convince me that LLMs can do general math research. This changed my mind...

安全/对齐推理论文/研究

推荐理由:如果属实,这将是 AI 首次批量解决实质性开放数学问题,但消息仅来自推文声明,未见论文或代码,现在兴奋还太早。
06:05
elvis@omarsar0
46
MCP服务器五大模式论文发布

Elvis Saravia(DAIR.AI)推荐一篇关于MCP服务器架构模式的论文。该论文基于15个独立开发的MCP服务器,归纳出5种常见模式:暴露资源、编排工具、管理会话、聚合代理及适配领域工作流。这一分类有助于开发者明确服务器设计方向,避免重复造轮。论文地址:https://arxiv.org/abs/2606.30317。

MCP/工具论文/研究
06:04
Anthropic:Transformer Circuits(可解释性研究)
51
Anthropic 提出回合平均稀疏自编码器 (Turn-Averaged SAE)

Anthropic 对每个对话回合所有 token 的残差流取平均后训练 SAE,大幅减少需解析的特征数量。实验使用 Qwen-2.5-7B-Instruct 和 LMSYS-Chat-1M 数据集,回合平均特征更关注模型行为的高层特性(如错误答案),每 token SAE 侧重数值推理等细节。Sonnet 4.6 评测显示:回合平均 SAE 在从 10 个回合中唯一识别目标(区分度)为 74%,低于每 token SAE 的 95%;但在全面描述回合(覆盖度)上以 77% 胜出。该方法可外推至训练平均长度 150 倍长的回合。

Anthropic安全/对齐论文/研究
05:20
Chubby♨️@kimmonismus
24
Wistar研究所DNA注射方案在小鼠模型中实现长效减重与血糖控制

Wistar研究所开发基于质粒DNA加电穿孔的单次注射方法,在小鼠模型中产生长达传统GLP-1药物(如Ozempic、Wegovy)10倍的体重减轻与血糖控制效果。pLincretins构建体一次注射可让可检测的incretin持续长达70天。与司美格鲁肽的头对头比较显示,DNA构建体组在观察结束后仍维持代谢改善,而司美格鲁肽组停药后体重反弹。研究还借助AI辅助结构建模设计pSynCretin分子,旨在同时激活GLP-1和GIP受体。

其他论文/研究
04:06
Ars Technica:AI(RSS)
60
AI浏览器可被引诱进入护拦失效的幻境

安全公司LayerX研究员Roy Paz发布概念验证攻击BioShocking:通过诱导AI浏览器接受“正确即错误”(如2+2=5)的规则,使其进入幻境,安全护栏失效。攻击者可执行从私有仓库提取代码、从内置密码管理器窃取凭据等危险操作。该攻击在ChatGPT Atlas、Comet、Fellou、Genspark、Sigma及Claude Chrome插件上均有效,六款AI智能体均未识别出违规。与传统聊天机器人越狱相比,AI浏览器因合并控制平面与数据平面,潜在危害更大。目前该攻击缺乏隐蔽性,属演示性质。

智能体安全/对齐
01:37
OpenAI@OpenAI
58
我们正在引入GeneBench-Pro,一个研究级基准测试,用于衡量一种更难的AI进步:智能体在混乱的生物数据中导航、选择正确分析路径、并做出真实计算研究所需的判断决策的能力。
智能体OpenAI数据/训练论文/研究
01:27
HuggingFace Daily Papers(社区热门论文)
48
SWE-Together: Evaluating Coding Agents in Interactive User Sessions

现有编码智能体基准多为静态,仅凭最终代码评判。SWE-Together 从 11,260 条真实用户-智能体编码会话中筛选出 109 个仓库级任务,构建多轮交互基准。研究团队利用基于 LLM 的用户模拟器保留原始用户意图,并在智能体需要时提供反馈。评估同时衡量最终仓库正确性和交互中的纠正反馈次数。实验表明,更强智能体成功率更高且所需干预更少,预示用户体验提升。

编码论文/研究评测/基准
01:20
Jim Fan@DrJimFan
53
Jim Fan 团队发布 ASPIRE:机器人技能库自我进化、持续累积

Jim Fan 团队推出 ASPIRE,一种让机器人通过进化搜索自动扩充技能库的持续学习系统。编码智能体观察仿真与真实机器人的多模态感知痕迹,对控制程序进行进化搜索,将最佳知识蒸馏到不断扩展的技能库中,使机器人解决第 100 个任务时不再像第 1 个那样从零开始。ASPIRE 实现约 10 倍“迁移学习 token”的削减,支持 sim2real 及单臂到双臂硬件的跨实体迁移。项目展示了 150+ 任务和 90+ 技能,将开源完整代码栈。

具身智能论文/研究
01:03
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选70
OpenAI 发布 GeneBench-Pro:计算生物学研究级基准测试

OpenAI 发布 GeneBench-Pro,用于评估 AI 智能体在计算生物学中处理模糊性和做出判断性分析的能力。该基准包含 129 个问题,覆盖统计遗传学、群体遗传学等 10 个领域 21 个子领域。每个问题提供真实混乱的数据集和实验背景,要求模型探索数据、选择分析路径并迭代实验。采用合成数据构建,已知完整因果结构。82 个问题已由外部领域专家审核确认其现实性。

OpenAI推理论文/研究

推荐理由:OpenAI 的新基准揭示了一个信号,GPT-5.6 在需要科学判断的模糊任务上进步神速,从不足 5% 到接近 30%,且单题成本仅几美元,这对 AI for Science 的落地想象空间影响不小。
01:02
Microsoft Research@MSFTResearch
39
AI 智能体常常失败,因为它们的指令(即技能)被手动修改,且无法保证改进。了解 SkillOpt 如何将技能编辑转变为训练过程,在不改变模型权重的情况下使智能体行为更可靠:https://msft.it/6012vsvEs
智能体Microsoft论文/研究
00:36
AK@_akhaliq
31
OSWorld2.0 对计算机使用智能体在长程真实世界任务上进行评测
智能体论文/研究评测/基准
6月30日
22:34
SemiAnalysis@SemiAnalysis_
63
JetSpec 是一种投机解码方法,通过因果并行树草稿联合优化草稿成本与质量,采用并行草稿树和树因果验证。在 MATH-500 上实现 9.64x 端到端加速,开放聊天场景达 4.58x 加速,且保持无损。结合 CUDA graph 与内核优化,单块 B200 可实现约 1000 TPS。SemiAnalysis 期待其与推理引擎 vLLM/SGLang 的深度集成。

Hao AI Lab: Introducing JetSpec: we find speculative decoding can push LLM generation latency to extreme by co-optimizing drafting c...

推理论文/研究部署/工程
22:26
HuggingFace Daily Papers(社区热门论文)
51
一步梯度延迟并非大规模异步流水线并行LLM预训练的障碍

异步流水线并行消除同步气泡,但梯度陈旧问题限制其应用。PipeDream-2BW调度保证恒定一步延迟,但业界认为该陈旧性下优化不稳定。本文通过实证分析推翻此假设,发现AdamW在一步延迟下退化,而Muon等优化器鲁棒性强。研究进一步提出优化器无关的误差反馈修正以缓解延迟影响。在10B参数模型上的实验表明,所提策略可缩小异步与同步训练的性能差距,展示大规模异步流水线并行的实用潜力。

数据/训练论文/研究部署/工程
20:26
HuggingFace Daily Papers(社区热门论文)
43
ILLUME-X:面向自由形式交错图文生成的统一多模态模型

ILLUME-X是一个统一多模态模型,能够自主生成高质量、自由形式的交错文本-图像序列。它通过三项核心组件实现:面向交错图文生成的扩展训练数据管道、基于自适应目标的渐进训练策略(适用于自由长度的多模态token序列),以及用于评估交错图文序列的客观综合方法ILScore。ILLUME-X在风格迁移、图像分解和故事讲述等多个交错图文生成任务上优于此前统一模型。

图像生成多模态论文/研究
20:02
IT之家(RSS)
50
Meta 公布 Brain2Qwerty v2 非侵入式脑机接口新研究:AI 从脑磁信号中"读心",准确率最高达 78%

Meta 推出 Brain2Qwerty v2 非侵入式脑机接口研究,利用脑磁图(MEG)设备记录脑部磁场信号,通过 AI 模型还原自然语言。模型基于 9 名志愿者约 10 小时、22000 句子数据训练,并利用上下文补全噪声信号。实验显示平均单词识别准确率约 61%,最佳受试者达 78%,超半数测试句子错误不超过 1 个单词。目前仍需大型实验室级 MEG 设备,距离实用化有差距。Meta 已在 GitHub 开源训练代码,v2 数据集待论文接收后开放。

Meta论文/研究
18:26
HuggingFace Daily Papers(社区热门论文)
47
BeyondArena:超越IID的表格数据统一整体基准

BeyondArena是首个统一的表格数据整体基准,支持IID、时序、分组等任务,覆盖不同样本量、特征维度及含文本或高基数特征的数据集。配合Data Foundry框架,在11个模型与142个数据集上的评测显示:现有表格基础模型在中小规模IID数据上表现优秀,但传统树模型和深度学习模型在非IID、大规模、高维数据集上仍占主导。该基准旨在引导模型研究应对表格数据中最具挑战性的场景。

数据/训练论文/研究评测/基准
16:26
HuggingFace Daily Papers(社区热门论文)
53
纳米科技分子优化(NMO)基准测试

生成分子设计受限于药物性质代理基准和制药数据集预训练,难以迁移到结构不同的领域。为此提出纳米科技分子优化(NMO)基准测试,以量子模拟替代代理oracle,引入科学实用性优先的严格协议。NMO任务施加硬结构约束和崎岖适应度景观,先进优化方法反不及简单方法。新基线方法通过新型表示和领域无关预训练消除制药数据偏差,在物理性质上超越现有SOTA,并揭示未知结构基元。

数据/训练论文/研究
16:07
Hacker News 热门(buzzing.cc 中文翻译)
17
科学家发现液态水中两种结构的分子级证据

一项6月25日发表于《自然·物理学》的研究,通过分子动力学模拟和无监督深度学习,为液态水的“二态模型”提供了分子级证据。研究使用自动编码器分析水分子局部构型,在不预设条件下识别出两种微观结构:密度更高、更无序的结构A与密度更低、更有序的结构B。两种结构在宽温压范围内(包括近室温)均存在。该结果支持水在深过冷区存在液-液相变和第二临界点的假说,有助于解释水在4°C密度最大等反常现象。

其他论文/研究
‹ 上一页
1234…50
下一页 ›