Meta FAIR 团队发布 Brain2Qwerty v2,从非侵入性 MEG 脑信号重建完整句子。九名志愿者输入 22000 句,平均词错误率 39%,最佳参与者 22%。v2 采用异步连续信号窗口,无需击键时间戳。模型使用三个 AI 构建块,包括基于 Qwen3 微调的语言模型将噪声信号转为连贯句子。字符错误率 31%,高于 v1 N-gram 模型的 26%,但词错误率和语义准确率更优。当前与植入式系统(词错误率 <2%)仍有差距,但数据量增加后精度持续提升。
Today, we give robots a /skills library that self-evolves and compounds indefinitely! Introducing ASPIRE: a robot solvin...
OpenAI 发布 GeneBench-Pro 基准测试,评估 AI 模型在生物学计算中的真实研究能力。测试让模型面对模糊、不完整甚至带干扰的数据环境,自主完成数据探索、方法选择和策略修正。GeneBench-Pro 覆盖基因组学、定量生物学和转化医学等方向,共 129 道题,分布于 10 个大领域和 21 个子领域。为避免长流程评分偏差,OpenAI 采用合成数据构建题目。目前已在 Hugging Face 开源 10 道示例题并提供交互界面,后续将开放 50 道题给 Artificial Analysis 进行第三方独立评测。
Goku是一个包含200万高质量视频编辑对的百万级数据集,首次将基于指令的视频编辑从单一外观扩展至多任务和结构操控(如主体运动控制)。研究者设计了分解式数据合成流水线与渐进式过滤系统以解决复杂编辑的数据合成难题。基于该数据集训练的Goku-Edit模型采用MLLM作为文本编码器,并采用解耦双分支架构:专用掩码分支处理结构控制,主分支负责外观渲染。配套基准Goku-Bench包含1000个人工验证测试用例和7项新增编辑指标,Goku-Edit的指令遵循能力较其他开源模型提升高达+8%。
理想汽车近日在 ISCA 2026 发表题为《马赫 M100:面向通用 AI 计算的编排式数据流架构》的演讲,成为自 2020 年该会议工业分区设立以来首家入选的中国车企。马赫 M100 是全球首款基于数据流架构的大算力端侧推理芯片,采用 5nm 车规级工艺,单芯片算力 1280TOPS,算力利用率达 82%;双 SoC、双 MCU、双供电完全冗余架构满足 ASIL-D 最高功能安全等级。该芯片已随全新理想 L9 及 L8 量产上车,全链路自主完成。
FlexiSLM是首个支持动态可控帧率的语音语言模型。它利用动态帧率表示,在高质量操作点上超越了固定帧率的7B模型Qwen2.5-Omni和Kimi-Audio。FlexiSLM可精确控制帧率至4.0 Hz;在6.25 Hz下推理时间相比12.5 Hz减半,同时保持强语音质量。
QVal提出一种无需训练的测试平台,通过Q对齐度量直接评估密集监督信号质量,判断动作排序是否匹配强参考策略的Q值。QVal-v1.0在4个环境、7类方法族、6个开放权重模型骨干上对21种密集监督方法进行了超过1200次评估实验,发现简单提示基线一致优于近年文献中的密集监督方法,且性能按方法族显著聚类。该平台易于扩展至新环境和新方法。
MuSViT是首个专为乐谱表示设计的基础视觉模型,采用ViT编码器并通过掩码自编码器在IMSLP的970万页乐谱上预训练,使用两阶段课程(先合成排版乐谱,再训练完整IMSLP语料库)。在四个下游任务(全页与谱行级乐谱识别、音乐符号检测、难度分类)上,线性探测(冻结编码器)中MuSViT持续优于通用视觉编码器,微调则改进多数任务的特化SOTA方法。嵌入-转录一致性分析表明,MuSViT直接在表示空间中编码符号化的音乐结构,而其他编码器的嵌入与乐谱内容不相关。
DataEvolver提出自进化多智能体框架,将数据构建视为反馈驱动的策略进化。它包含检索器、验证器、评论家和生成器,利用被拒样本的失败信号指导下一轮构建。在PixArt-alpha上以0.75M规模测试,DataEvolver在TextScenesHQ上OCR-F1比最强基线提升85.3%,在LongTextBench上提升35.3%,且收益可迁移至Show-o2。
GEAR联合训练向量量化(VQ)分词器与自回归(AR)生成器,通过表示对齐实现端到端学习。为解决VQ索引不可微导致梯度无法回传问题,采用双读出机制:硬one-hot分支用于next-token预测训练AR模型,可微分软分支传递对齐损失指导分词器更新,使AR引导分词器生成更易预测的索引分布。相比LlamaGen-REPA,在ImageNet gFID收敛速度最高提升10倍,并泛化至VQVAE、LFQ、IBQ等量化器及文生图任务。
Opinion from a former Meta PM. And this is from Aravind Srinivas of Perplexity "China can build data centers a lot faste...
大语言模型在元认知能力上存在系统性缺陷(高置信度幻觉、无法识别知识边界等)。研究者提出两种新机制:基于元认知反馈的强化学习(RLMF)——根据模型自我判断质量调整完成排名;以及元认知数据选择——利用自我判断识别高价值训练样本。应用于忠实校准任务,先校准模型置信度分数,再映射为自然语言不确定性。实验表明RLMF达到可泛化的SOTA性能,相较标准RL提升高达63%,同时增强模型评估自身能力边界的能力。
MBD-LMs通过多块教师强制(MultiTF)后训练块扩散语言模型(BD-LMs)得到。MultiTF结合教师强制与扩散强制,在干净前缀上训练有界噪声组,采用随机噪声调度器匹配多块扩散推理状态。基于Block Buffer的优化解码实现前缀缓存复用和输入形状静态化,将更高并行度转为实际加速。MBD-LLaDA2-Mini的TPF从3.47提升至6.19,准确率从79.95%提升至81.03%;结合DMax后TPF
We're introducing GeneBench-Pro, a research-level benchmark for a harder kind of AI progress: how well agents can naviga...
TerraDiT-Ω是一个统一空间控制框架,可直接利用任意地理空间基元(多边形、折线、边界框、点)进行卫星图像生成。它联合使用精确和粗略标注,适应不同标注预算,适用于城市规划等设计任务。提出Geometry-Aware Local Attention机制,将几何线索注入注意力空间。在所有格式上优于密集和稀疏控制基线。该框架支持可控数据增强,提升土地覆盖分割、目标检测、道路图提取、场景分类等下游性能。代码、数据、权重已开源。
视频世界模型在长时段生成中缺乏记忆,导致场景不一致。MemLearner 提出基于学习的自适应上下文查询方法,利用 query tokens 桥接上下文与预测 token,并借助视频生成模型自身的预训练视觉先验进行上下文查询,无需从头训练额外模块。团队收集了带场景遮挡和动态物体的长视频数据集,辅以相机位姿标注,并采用多数据集训练策略同时利用标注渲染视频和无标注真实视频。实验表明,MemLearner 在场景一致性和记忆方面显著优于以往视频世界模型,尤其在遮挡和动态场景下。
小米提出 Xiaomi-GUI-0,一个面向真实移动环境的原生多模态 GUI 智能体。模型在真实设备闭环中训练和评估,采用物理设备为主、沙箱辅助的混合基础设施。训练数据涵盖高频头部任务、长尾意图泛化及反思与记忆增强样本,并通过错误驱动数据飞轮将失败轨迹转化为修正动作、反思解释和恢复示范。训练采用监督微调、step-level 强化学习和 agentic 强化学习三阶段渐进流程。在内部基准 RealMobile 上成功率达 72.0%,在 AndroidWorld 上达 78.9%,同时显著提升了真实任务中的执行稳定性和异常状态识别能力。
针对扩散投机解码中固定推理块大小且假设最优解码策略对所有输入统一的问题,BlockPilot 提出一种样本自适应策略,利用预填充层的表示首次预测每个样本的最优块大小,将选择问题转化为低维结构化决策空间的轻量策略学习。该方法即插即用、开销极低,在 Qwen3-4B 模型、温度 T=1 条件下,实现接受长度 5.92 和 4.20 倍加速,无需牺牲生成质量。
Meta AI 推出 Brain2Qwerty v2,一种无需手术植入即可实时从脑电波解码句子的非侵入式系统。基于脑磁图(MEG)设备记录 9 名志愿者各 10 小时的打字脑活动,训练约 22,000 个句子,采用端到端深度学习并微调大语言模型。词准确率达 61%,最佳参与者达 78%,远超其他非侵入方法的 8%。解码精度随数据量对数线性提升,有望进一步缩小与手术方法的差距。Meta 已开源 v1 和 v2 训练代码,合作方 BCBL 开放 v1 数据集。
Even @OpenAI's recent Erdős breakthrough didn't convince me that LLMs can do general math research. This changed my mind...
Elvis Saravia(DAIR.AI)推荐一篇关于MCP服务器架构模式的论文。该论文基于15个独立开发的MCP服务器,归纳出5种常见模式:暴露资源、编排工具、管理会话、聚合代理及适配领域工作流。这一分类有助于开发者明确服务器设计方向,避免重复造轮。论文地址:https://arxiv.org/abs/2606.30317。
Anthropic 对每个对话回合所有 token 的残差流取平均后训练 SAE,大幅减少需解析的特征数量。实验使用 Qwen-2.5-7B-Instruct 和 LMSYS-Chat-1M 数据集,回合平均特征更关注模型行为的高层特性(如错误答案),每 token SAE 侧重数值推理等细节。Sonnet 4.6 评测显示:回合平均 SAE 在从 10 个回合中唯一识别目标(区分度)为 74%,低于每 token SAE 的 95%;但在全面描述回合(覆盖度)上以 77% 胜出。该方法可外推至训练平均长度 150 倍长的回合。
Wistar研究所开发基于质粒DNA加电穿孔的单次注射方法,在小鼠模型中产生长达传统GLP-1药物(如Ozempic、Wegovy)10倍的体重减轻与血糖控制效果。pLincretins构建体一次注射可让可检测的incretin持续长达70天。与司美格鲁肽的头对头比较显示,DNA构建体组在观察结束后仍维持代谢改善,而司美格鲁肽组停药后体重反弹。研究还借助AI辅助结构建模设计pSynCretin分子,旨在同时激活GLP-1和GIP受体。
安全公司LayerX研究员Roy Paz发布概念验证攻击BioShocking:通过诱导AI浏览器接受“正确即错误”(如2+2=5)的规则,使其进入幻境,安全护栏失效。攻击者可执行从私有仓库提取代码、从内置密码管理器窃取凭据等危险操作。该攻击在ChatGPT Atlas、Comet、Fellou、Genspark、Sigma及Claude Chrome插件上均有效,六款AI智能体均未识别出违规。与传统聊天机器人越狱相比,AI浏览器因合并控制平面与数据平面,潜在危害更大。目前该攻击缺乏隐蔽性,属演示性质。
现有编码智能体基准多为静态,仅凭最终代码评判。SWE-Together 从 11,260 条真实用户-智能体编码会话中筛选出 109 个仓库级任务,构建多轮交互基准。研究团队利用基于 LLM 的用户模拟器保留原始用户意图,并在智能体需要时提供反馈。评估同时衡量最终仓库正确性和交互中的纠正反馈次数。实验表明,更强智能体成功率更高且所需干预更少,预示用户体验提升。
Jim Fan 团队推出 ASPIRE,一种让机器人通过进化搜索自动扩充技能库的持续学习系统。编码智能体观察仿真与真实机器人的多模态感知痕迹,对控制程序进行进化搜索,将最佳知识蒸馏到不断扩展的技能库中,使机器人解决第 100 个任务时不再像第 1 个那样从零开始。ASPIRE 实现约 10 倍“迁移学习 token”的削减,支持 sim2real 及单臂到双臂硬件的跨实体迁移。项目展示了 150+ 任务和 90+ 技能,将开源完整代码栈。
OpenAI 发布 GeneBench-Pro,用于评估 AI 智能体在计算生物学中处理模糊性和做出判断性分析的能力。该基准包含 129 个问题,覆盖统计遗传学、群体遗传学等 10 个领域 21 个子领域。每个问题提供真实混乱的数据集和实验背景,要求模型探索数据、选择分析路径并迭代实验。采用合成数据构建,已知完整因果结构。82 个问题已由外部领域专家审核确认其现实性。
Introducing JetSpec: we find speculative decoding can push LLM generation latency to extreme by co-optimizing drafting c...
异步流水线并行消除同步气泡,但梯度陈旧问题限制其应用。PipeDream-2BW调度保证恒定一步延迟,但业界认为该陈旧性下优化不稳定。本文通过实证分析推翻此假设,发现AdamW在一步延迟下退化,而Muon等优化器鲁棒性强。研究进一步提出优化器无关的误差反馈修正以缓解延迟影响。在10B参数模型上的实验表明,所提策略可缩小异步与同步训练的性能差距,展示大规模异步流水线并行的实用潜力。
ILLUME-X是一个统一多模态模型,能够自主生成高质量、自由形式的交错文本-图像序列。它通过三项核心组件实现:面向交错图文生成的扩展训练数据管道、基于自适应目标的渐进训练策略(适用于自由长度的多模态token序列),以及用于评估交错图文序列的客观综合方法ILScore。ILLUME-X在风格迁移、图像分解和故事讲述等多个交错图文生成任务上优于此前统一模型。
Meta 推出 Brain2Qwerty v2 非侵入式脑机接口研究,利用脑磁图(MEG)设备记录脑部磁场信号,通过 AI 模型还原自然语言。模型基于 9 名志愿者约 10 小时、22000 句子数据训练,并利用上下文补全噪声信号。实验显示平均单词识别准确率约 61%,最佳受试者达 78%,超半数测试句子错误不超过 1 个单词。目前仍需大型实验室级 MEG 设备,距离实用化有差距。Meta 已在 GitHub 开源训练代码,v2 数据集待论文接收后开放。
BeyondArena是首个统一的表格数据整体基准,支持IID、时序、分组等任务,覆盖不同样本量、特征维度及含文本或高基数特征的数据集。配合Data Foundry框架,在11个模型与142个数据集上的评测显示:现有表格基础模型在中小规模IID数据上表现优秀,但传统树模型和深度学习模型在非IID、大规模、高维数据集上仍占主导。该基准旨在引导模型研究应对表格数据中最具挑战性的场景。
生成分子设计受限于药物性质代理基准和制药数据集预训练,难以迁移到结构不同的领域。为此提出纳米科技分子优化(NMO)基准测试,以量子模拟替代代理oracle,引入科学实用性优先的严格协议。NMO任务施加硬结构约束和崎岖适应度景观,先进优化方法反不及简单方法。新基线方法通过新型表示和领域无关预训练消除制药数据偏差,在物理性质上超越现有SOTA,并揭示未知结构基元。
一项6月25日发表于《自然·物理学》的研究,通过分子动力学模拟和无监督深度学习,为液态水的“二态模型”提供了分子级证据。研究使用自动编码器分析水分子局部构型,在不预设条件下识别出两种微观结构:密度更高、更无序的结构A与密度更低、更有序的结构B。两种结构在宽温压范围内(包括近室温)均存在。该结果支持水在深过冷区存在液-液相变和第二临界点的假说,有助于解释水在4°C密度最大等反常现象。