论文提出Grouped Query Experts,在分组查询注意力(GQA)基础上让每个token仅路由到少数query头专家。长上下文时prefill速度提升约1.7-1.8倍。250M参数模型经30B tokens训练,最佳版本准确率56.04(baseline 55.86),仅使用16个query注意力计算中的9个。表明GQA内可实现稀疏注意力且不损质量,但需强学习信号和一个始终打开的共享头。
论文提出Grouped Query Experts,在分组查询注意力(GQA)基础上让每个token仅路由到少数query头专家。长上下文时prefill速度提升约1.7-1.8倍。250M参数模型经30B tokens训练,最佳版本准确率56.04(baseline 55.86),仅使用16个query注意力计算中的9个。表明GQA内可实现稀疏注意力且不损质量,但需强学习信号和一个始终打开的共享头。
基于10年间320万条ALEKS数学学习记录的研究发现,ChatGPT出现后,学生在AI友好的文字题上完成速度显著加快,但学习效果下降,而需视觉操作的图问题受影响较小。高中和大学生用时减少,低年级变化不大;监考下时间缩短消失,说明加速非源于能力提升。后续监考保留题显示,学生对AI友好题型的正确率下降约25%,表明通过AI快速完成作业未转化为持久知识。
BINEVAL 是一种新型 LLM-as-Judge 评估方法,解决整体评分隐藏推理与天花板效应。它将每个评估标准分解为原子的是/否问题,对每个输出独立回答,再汇总为校准的多维分数。每个问题级判定均可检查,用于精确定位低分原因,并直接作为提示改进信号。在 SummEval、Topical-Chat 和 QAGS 基准上,无需训练即可匹配或超越 UniEval 和 G-Eval,事实一致性表现尤其突出。论文: https://arxiv.org/abs/2606.27226
DeepSeek 提出 DSpark,一种半并行推测解码系统,使 DeepSeek-V4 在相同吞吐量下每用户生成速度提升约 60% 至 85%。核心创新在于选择性验证:草稿模型并行生成多个候选 token,再由一个小型马尔可夫头根据前一个 token 微调每个猜测,弥补纯并行推测后段 token 组合质量下降的缺陷。置信度调度器基于接受概率和 GPU 负载,动态决定每个请求需验证的 token 数量,避免无效计算。
论文提出RiVER方法,让LLM从没有已知标准答案的问题中学习编码行为。RiVER使模型编写多个程序,在相同隐藏测试上运行,奖励表现较优者。关键是对每个测试用例内的程序排序,给最优者额外权重,其他有效程序也获得较小分级反馈,避免因原始分数数值差异扭曲训练。在12个AtCoder Heuristic Contest任务上,RiVER同时提升了基于分数的竞赛表现和常规通过/失败编码基准测试。arXiv:2606.27369。
该论文测试老年人日常言语能否成为有效的认知监测双胞胎,结论基本可行。AI通过学习个体随时间变化的说话方式(节奏、停顿、主题、风格习惯),捕捉临床快照易漏掉的小模式——认知衰退往往在语言中早于明显症状出现。个性化模型能检测出与思维能力相关的细微言语变化,而普通GPT回答大多错过这些信号。研究显示,日常对话可成为一种低负担的长期认知健康追踪方式。
Herculaneum fused scroll read in full. https://scrollprize.org/firstscroll
同一事件,精选展示《赫库兰尼姆古卷首次被完整虚拟解读》MIT 论文分析 10 万+ GitHub 开发者使用三代 AI 编码工具的效果:自动补全使提交量增 40%,交互式智能体增 140%,自主智能体增 180%,但项目数仅增 50%,实际发布仅增 30%。应用市场同样出现新应用激增但总使用量未升。核心原因:软件开发存在弱环节——人类仍需决定功能、审查代码、测试、集成与发布。替代弹性估算仅 0.25,即 AI 能力大幅提升时,只有少量人类工作可被替代。
Nobody is using vibe coded apps 🤔🤔 App releases have jumped hard, but the demand signals are moving the wrong way. -- ...
本期周刊涵盖多项AI动态:OpenAI新论文展示智能体可执行大部分办公室工作的首个版本;NYT称OpenAI倾向于2027年IPO;OpenAI新研究发现基于真实人类场景的RL训练使模型在未来任务中更安全、有用;MIT研究显示代码量激增300%但产出仅增长30%;Qwen发布Qwen-AgentWorld,一个35B参数开放权重世界模型,可学习终端、浏览器、Android设备、代码仓库、搜索系统、OS工具及MCP服务器对AI智能体操作的响应。
Generative AI design of the best burger for its taste, nutrition, and for the environment https://www.nature.com/article...
清华自然语言处理实验室(THUNLP)与面壁智能OpenBMB发布论文,重新审视混合LLM架构中高效注意力(如SWA、Mamba-2、GDN)的实际作用。研究发现:高效注意力设计对短上下文Loss影响极小,但长上下文LongPPL差异显著;全注意力承担检索功能,限制其感受野会大幅提升LongPPL,而限制高效注意力几乎无影响。大窗口SWA导致模型懒惰,延迟检索能力形成。简单方法——对小窗口SWA混合架构的全注意力层仅用NoPE(SWA-128-NoPE),即可用极小短上下文代价显著提升长上下文性能。论文认为瓶颈在于全注意力的检索能力能否被有效激活。
研究人员构建了更严格的FINSABER测试框架,在约20年、多只股票、防挑结果条件下评估FinMem、FinAgent等LLM交易智能体。结果显示,LLM策略在狭窄测试中看似不错,但面对买入持有、规则交易、预测模型和强化学习等简单基线时,在长期公平测试中通常失败。LLM在市场上涨时过于谨慎,下跌时过于冒险,表明理解金融文本不等于能可靠把握市场时机。论文指出,当前LLM可能无法在长期跑赢简单市场策略。
新论文"LLMs Do Not Always Need Readable Language"提出BabelTele压缩写作风格,让LLM间通信混合缩写、符号、多语言片段及非传统结构,替代人类自然语言的长文本。即使失去人类可读性,模型仍能回答、记忆并在智能体间传递信息。最强结果:BabelTele保持约99.5%语义保真度,同时将文本压缩至原始长度的27.9%。
IBM 发布世界首个次纳米节点芯片技术突破——0.7nm(7埃)工艺,采用 3D "纳米堆栈" 晶体管架构实现垂直堆叠交错。该技术可在指甲盖大小的芯片上集成近 1000 亿个晶体管,密度约为 2021 年 2nm 芯片的两倍。相比前代,性能可提升 50% 或能效提升 70%,SRAM 缩放达 40% 以适配 AI 工作负载。IBM 强调目前仍为研究阶段,量产最早可能在未来 5 年内实现。
The world's first sub-1 nanometer node chip is here. Delivering 70% greater energy efficiency, this breakthrough powers ...
Meta 发布新研究 Autodata,提出 Agentic Self-Instruct 方法。该方法将 AI 智能体视为数据科学家,通过智能体规划与工具使用,替代传统手工调优后固定的合成数据流水线。该智能体自身可通过元优化持续改进,从而生成更强训练数据。实验在计算机科学、法律推理、数学对象推理三个领域均超越经典合成数据方法,且元优化带来更大提升。论文见 arxiv。
Sky Computing Lab推出JetSpec,一种通过因果并行树草稿(causal parallel tree drafting)联合优化草稿成本与质量的推测解码方法,可将LLM生成延迟推向极致。在MATH-500上达到最高9.64x端到端加速,开放式聊天达4.58x,且保持无损。结合CUDA graph和kernel优化,在单B200上实现约1000 TPS。
OpenAI 发布内部论文,显示 Codex 已成为公司主力 AI,产出 99.8% 内部输出 tokens,而一年前这一比例低于 10%。除工程部门外,法务、财务、招聘、支持及业务团队使用量快速增长。自 Aug-25 以来,非开发者个人使用增长 137 倍,组织使用增长 189 倍。重度用户日均运行约 71 小时代理任务,28.6% 的用户管理 5 个以上并发 agent,25.6% 的个体提交过超过 8 小时人工等价的任务。OpenAI 称,Agent 正使工作更复杂、更长期、更跨职能。
Work at OpenAI is being transformed by agents, in every department. Across our entire company, people are using Codex to...
同一事件,精选展示《OpenAI内部报告:智能体Codex如何改变工作》Meta提出Autodata,将合成数据生成视为智能体数据科学家的任务。核心方法“Agentic Self-Instruct”让AI智能体生成并元优化合成训练与评估数据。循环流程:生成示例→弱模型与强模型分别尝试→判断结果→修订配方直至示例处于有用区间。论文强调难度不是美德,示例应针对弱模型的学习点。关键结果:在法律任务上,4B模型训练后超越了更大的397B基线。
一项基于172B token的研究测试了LLM在文档问答场景中的虚构答案频率。关键发现:最佳模型在32K上下文下虚构率1.19%;强模型通常为5%-7%;中等模型对不存在事实的虚构率达25%。当上下文扩展至200K时,所有模型至少虚构10%。更长上下文显著加剧幻觉。研究表明,幻觉不仅是检索失败,模型即便能正确找到事实,也易在事实缺失时过度作答。
Codex usage at OpenAI gives us a preview of what agentic work may look like in the future. In a new paper, the OpenAI Ec...
Stanford、MIT、Harvard与Anthropic联合论文从训练层面解释大模型能力更强的原因:大模型遗忘更少,额外容量保护了弱学习信号。常见任务优先占据神经元,罕见任务在出现足够次数前被覆盖。小模型可能短暂捕捉罕见信号,但随后被常见任务更新覆盖。实验使用OLMo模型(4M到4B参数),结果显示大模型更好掌握低频任务,保留更多任务特征,梯度干扰更小。
Elvis Saravia 推荐一篇试图明确“智能体”定义的论文。Eric Xing 及其同事从哲学与科幻视角出发,分析智能体架构的五维度:目标、身份、决策、自我调节和学习。论文指出,真正“智体性”需这些维度以特定方式组合,从而区分自动化与智能体。论文地址:arxiv.org/abs/2606.23991。
该论文认为当前AI主要建立在网络数学而非知识理论上。人脑以极低功耗做出快速自适应决策,而前沿AI依赖巨大算力。生物智能高效是因为围绕目标、上下文和决策组织意义。论文将心智活动分为物理认知、情绪认知、心智认知和智能,其中智能指在情境仍有效时做出有用决策。提出的“合成智能”将使用结构化语义知识(信息与目的绑定),而非仅依赖语法、统计或神经网络权重。通过不对称信息解析模型展示如何将知识组织成决策图,以捕食者-猎物为例,每个状态仅包含少数可能动作。
面壁智能 OpenBMB 联合清华NLP、哈工大、东北大学提出元认知框架 Know More, Know Clearer,应对 LLM 因认知错位导致的幻觉。框架包含三项:结构性衰减定律(准确率随不确定性指数衰减);Know More(CGKE)将知识空间分为掌握/混淆/缺失三区针对性增强;Know Clearer(CDKC)基于 GRPO 对齐置信度,使平均 ECE 从 60.41 降至 24.34。在 11 个 QA 基准上,CDKC 将 Llama-3.1-8B 从 30.91% 提升至 55.50%(+24.59 点),Qwen2.5-7B 从 25.76% 提升至 48.29%(+22.53 点)。自知识基准上 CBS 达 73.43%、CAE 达 68.18%,正确决策率 63.37%,边界识别 79.07%,达到最佳平衡。
Should FP4 training still default to E2M1?🤔 With fine-grained scaling + RHT, the bottleneck may shift from dynamic rang...