千问上线首个足球预测AI助手,基于海量大数据(含历史比赛、球员数据、伤病、美加墨地貌及天气等)。以6月22日挪威对塞内加尔为例,预测“1:1平局”,理由为气候差异。活动:参与全部104场竞猜,预测超80场且准确率超千问可抽万元大奖(100个名额);预测超32场可抽千问AI眼镜G1(1000副),该眼镜支持赛后分析、拍屏识球员及赛事结果订阅。累积积分将向乡村学校捐建足球场,目标至少50所。
千问上线首个足球预测AI助手,基于海量大数据(含历史比赛、球员数据、伤病、美加墨地貌及天气等)。以6月22日挪威对塞内加尔为例,预测“1:1平局”,理由为气候差异。活动:参与全部104场竞猜,预测超80场且准确率超千问可抽万元大奖(100个名额);预测超32场可抽千问AI眼镜G1(1000副),该眼镜支持赛后分析、拍屏识球员及赛事结果订阅。累积积分将向乡村学校捐建足球场,目标至少50所。
精灵宝可梦GO的扫描功能被用于训练军用无人机的导航技术。该游戏通过玩家提交的地理位置和扫描数据,帮助优化无人机在复杂环境中的自主导航能力。
SK集团会长崔泰源接受《日本经济新闻》专访称,若建设计划顺利,SK海力士晶圆产能到2034年将是当前三倍。SK集团计划于2028~2029年在日本建成AI工厂数据中心,正寻找GW级电力供应位置。崔泰源称日本半导体生态系统良好,是韩国外建晶圆厂的理想候选地之一,但当下非决策时机。SK与铠侠存在竞合关系,希望人员、研发和生态合作;对Rapidus随时准备合作。崔泰源认为AI技术仍处早期,当前投资多来自企业端,未来个人AI智能体将带动算力需求提升。
Omdia报告,2026年第一季度半导体营收环比增长27%至3190亿美元,创2002年以来最大季度增幅。存储器是主要推手,环比增幅超80%;其中NAND营收近480亿美元,环比增长96%,平均售价大涨95%。DRAM和NAND合计占半导体总营收40%以上,远高于长期平均。非存储器类仅环比增长略超2%。受AI需求及供应受限推动,预计第二季度环比增速仍将超20%。
MoE模型中路由器矩阵的每一行作为专家代理,通过计算与输入的相似度来决定激活哪些专家。理想情况下,每一行应编码对应专家矩阵的主奇异方向,使点积能更好反映token与专家的亲和度。然而现有设计缺少对齐约束。为此提出Manifold Power Iteration (MPI)方法,采用“Power-then-Retract”范式:先在路由器权重上执行幂迭代步骤,再通过回缩施加范数约束以保证效率和稳定性。理论表明MPI驱动路由器行收敛至对应专家的主奇异方向。在1B至11B参数规模的MoE模型预训练中证实该对齐能提升模型有效性。
大语言模型在处理低资源语言翻译时性能常下降。研究团队针对古邦马来语提出一种微调方法:利用双语词典的显式词汇与语义特征设计指令集,并引入持续指令微调(CIT)范式。实验结果表明,模型Lius在多项评测指标上比标准指令微调模型提升4–6个百分点,超越神经机器翻译(NMT)和多语言LLM模型10–13个百分点,展现出减少对大规模平行数据依赖的潜力。
RACES(Recursive Automated Composition for Environment Scaling)将可验证环境视为递归组装的构建块,当输出类型与输入类型匹配时自动融合为新环境。基于300个基础环境,定义SEQUENTIAL、PARALLEL、SORT、SELECT四种组合算子,诱导多样推理模式。在DeepSeek-R1-Distill-Qwen-14B上平均提升3.1分(从48.2到51.3),Qwen3-14B提升2.3分(从58.8到61.1),均在六个未见基准上测得。仅用50个基础环境即可达到300个环境的训练效果,环境利用效率显著。
一群独立音乐人起诉谷歌,指控其未经许可用YouTube上传歌曲训练Lyria 3模型。谷歌提交驳回动议,辩称用户上传时已授予广泛许可,即便指控属实也不成立。谷歌拒绝评论是否用YouTube视频训练Lyria 3,但YouTube CEO 2024年4月称内容用于训练Gemini等模型,官方博文也确认用上传内容优化产品。谷歌还向CNBC证实使用YouTube内容训练Gemini和Veo,却始终未对Lyria明确表态,刻意保留辩解空间以应对诉讼。
LingxiDiagBench是一个多智能体基准框架,基于LingxiDiag-16K数据集(16,000个EMR对齐的合成咨询对话,覆盖12个ICD-10精神疾病类别),评估LLM在静态诊断推理和动态多轮中文精神科咨询中的表现。实验发现:LLM在二元抑郁-焦虑分类上准确率达92.3%,但抑郁-焦虑共病识别仅43.0%,12类鉴别诊断仅28.5%;动态咨询表现常低于静态评估,表明信息收集策略不足损害诊断质量;LLM-as-a-Judge评估的咨询质量与诊断准确性仅呈中等相关。数据集和框架已开源。
在线策略蒸馏(OPD)结合智能体在线轨迹与密集教师监督,分析发现其更新幅度小且坐标稀疏,分布在各层、集中于FFN权重。仅训练子网络即可恢复近完整性能;但密集监督保留异质梯度尺度,SGD逊于AdamW。几何上更新满秩但谱集中,主要偏离源权重主奇异子空间,落在源权重近零的坐标上。
研究揭示,LoRA中缩放因子α与学习率作用不同,α才是有效优化的主导因素。通过Signal-Drift框架与实证,发现三个机制:LoRA的光谱抑制平滑优化面,使标准超参数过于保守;α放大任务信号而不增加漂移比,比学习率更有效加速收敛;最优α与秩呈平方根律次线性关系,现有秩绑定启发式缩放不足。基于此提出LoRA-α框架,将α恢复至原则性区间,兼容标准小学习率,持续提升性能并简化超参数搜索。
现有PPO风格信任区域机制对所有token施加统一阈值,忽视自回归生成的非对称性和累积前缀漂移。CPPO通过位置加权阈值和累积前缀预算两种耦合机制进行优化:早期位置限制更严格以抑制序列级漂移,后期位置放宽约束以保障探索;同时动态追踪历史偏差,防止前缀沿累计误差。实验表明,该方法在不同模型规模下均能提升训练稳定性并显著提高推理准确率。
一群独立音乐人起诉谷歌,指控其未经许可使用他们上传至 YouTube 的歌曲训练 Lyria 3 音乐 AI 模型。谷歌提交驳回动议,称起诉基于“未经证实的假设”,即便原告指控属实,其已通过 YouTube 服务条款获得广泛授权。案件仍在审理中。
现有智能体强化学习多基于工具调用边界等粗粒度单元分配回报。APPO将分支与信用分配迁移至序列中的细粒度决策点:通过分支分数(结合token不确定性与后续延续的策略诱导似然增益)选择分支位置,过滤高熵噪声;引入过程级优势缩放优化分支轨迹间的信用分布。在13个基准测试上,APPO在保持工具调用效率和行为可解释性的前提下,将强基线性能平均提升近4个点。
Anthropic 发布首个 Mythos 级 AI 模型 Claude Fable 5。微软随即因 Anthropic 新的数据保留要求,限制内部员工使用该模型。微软已迅速将 Claude Fable 5 提供给 GitHub Copilot 和 Foundry 客户,但内部员工使用的 GitHub Copilot 模型选择器中未包含该模型。微软内部仍可访问其他 Claude 模型,因其受零数据保留(ZDR)规则约束。
Today, the Stanford @DigEconLab launches the AI Economic Indicators, a new platform for tracking how AI is reshaping wor...
Google更新搜索交互数据保存方式,新增“Search Services History”设置,用于保存用户搜索时使用的图片、文件、音频和视频,包括Google Lens搜索的图片、实时搜索工具Search Live的录音、语音搜索和Translate中的语音片段。这些数据将被用于“提供、改进和开发AI模型”。用户可关闭该设置并禁用“Save Media”选项以避免保存。
新研究表明,AI记忆系统会降低模型性能,并助长谄媚倾向——模型更倾向于迎合用户观点而非给出客观答案。该发现对当前普遍采用记忆功能的AI助手(如会话式AI)提出警示,但未披露具体实验细节或评测基准。
华纳音乐集团(WMG)收购 AI 归属技术公司 Sureel AI,用于追踪其艺人作品在 AI 生成内容或模型训练中的使用情况。
Next Forcing 提出多块预测(MCP)框架,受大语言模型多 token 预测启发,在主模型上添加轻量级辅助 MCP 模块,同时对多个未来时间步的视频块去噪。50fps 下训练 5k 步时相对 LingBot-VA 提升 93.1%,收敛速度加快 2.3 倍;在 RoboTwin 基准上达 94.1%(Clean)/93.5%(Random)新 SOTA。推理时保留 MCP 模块可实现 2 倍加速。在物理规律基准 PhyWorld 上也有显著提升,通用视频预训练 FVD 降低超 50%。
自蒸馏通过匹配学生(仅看问题)与自教师(还看上下文)的输出分布,使模型在无上下文时仍保持改进。研究比较三种上下文设计:二值奖励(GRPO)、参考解、以及步骤对齐的批评。步骤对齐批评效果最佳,Avg@12上比GRPO高16.11分,比参考解条件高5.27分。逐token优势分析表明,步骤对齐反馈仅针对推理失败的token,而参考解强制模型改变所有token行为,包括正确步骤。这说明反馈与推理步骤的结构对齐是自蒸馏效果的关键驱动因素。
Jedify 完成 2400 万美元融资,由 Norwest 领投,S Capital VC、Cerca Partners、Oceans Ventures 及战略投资者 Snowflake Ventures 参投。该公司致力于帮助企业为其 AI 智能体提供业务上下文信息。
AWS Bedrock 要求用户与 Anthropic 共享数据,以支持 Mythos 模型及未来模型。该规定旨在为 Anthropic 后续模型训练提供数据基础,影响所有通过 Bedrock 使用 Anthropic 模型的用户。
现有深度学习模型在分布偏移下进行PET图像去噪时性能严重下降,根源在于固定参数范式无法适应测试数据的剂量水平或扫描仪类型变化。本文提出U-TTT,一种集成测试时训练(TTT)层的U形模型,通过自监督在推理时动态调整参数以适应每个测试实例的特征。U-TTT包含空间TTT(S-TTT)层和频率TTT(F-TTT)层构成的双域自适应机制,分别校正空间结构退化并抑制全局噪声频谱、恢复高频细节。实验表明,U-TTT在未见剂量水平和扫描仪类型等挑战性分布偏移下达到SOTA去噪性能与泛化能力。
千问今日上线国内首个全周期高考志愿填报Agent,基于千问高考志愿大模型和夸克8年高考数据,免费为全国考生提供服务。该Agent具备“志愿日历”“志愿报告”“志愿问答”三项核心能力:志愿日历根据选科、估分等信息量身定制分步骤规划;志愿报告今年升级,可捕捉细节需求、实时调整并具备自我检查机制;志愿问答融合位次法定位等专家经验。同时开展“暖芒公益”计划,针对老旧机型与弱网环境进行优化。
关联讨论 1 条公众号:千问APP(阿里)Meta 当地时间本月 9 日宣布,将利用外部企业与其分享的用户信息,在旗下社交平台上构建个性化内容,涵盖信息流、AI 回复和广告。例如用户在某电商平台购买帐篷后,可能会看到更多关于露营的 Reels 短视频。Meta 表示本次更新不会额外收集用户数据(数据来自第三方),用户仍可控制 Meta 利用外部数据个性化体验的方式。
教程以 NVIDIA Nemotron-Pretraining-Code-v3 数据集为大规模元数据索引,采用流式方式而非完整下载,检查数据集 schema 并构建可管理样本。通过分析编程语言、文件扩展名、仓库频率及目录深度来理解索引结构,随后重构原始 GitHub URL 以获取真实源代码文件,并利用 tiktoken 估算所获代码的 token 规模。
大语言模型长上下文扩展受限于标准注意力的二次复杂度。现有线性注意力多状态方法采用固定合并策略,无法适应token动态重要性,造成关键token丢失。DLA提出信息感知动态状态合并,根据token级信息变化自适应确定状态边界;并引入容量有界记忆建模,通过选择性合并相邻低信息状态维护固定大小缓存。DLA在两个线性注意力模型上预训练,在16个数据集上超越现有最优方法。
FlowTracer是一个针对大语言模型强化学习的框架,在注意力诱导的有向无环图上追踪从问题到正确答案的推理流。边容量来自聚合注意力权重,通过重新加权仅保留能到达答案区域的影响,并强制执行局部流守恒。提取信息流骨干,按流吞吐量对token评分,揭示高影响枢纽。重要性得分用于塑造token级奖励,使学习信号聚焦于路由信息的关键token,在多个推理任务上取得一致性能提升。
SpaceX在得克萨斯州巴斯特罗普市新建1100万平方英尺(约102.2万平方米)卫星工厂,生产首款AI卫星AI1。该卫星长70米,峰值算力150千瓦,计划2027年底规模化量产。公司计划2027年底建成1吉瓦太空AI算力,届时每年需发射6000余颗AI1卫星;目标2030年年算力100吉瓦。工厂将垂直整合太阳能硅锭、硅片、电池、电路板等供应链。此外,SpaceX、特斯拉与xAI联合在奥斯汀打造Terafab芯片工厂,年产能可支撑1太瓦算力。
中国拟投入2950亿美元建设全国性AI基础设施,将数据中心、电信运营商与国产芯片整合为一个国家支持的算力网络。国有企业中国移动、中国电信将主导运营,使AI基础设施更接近铁路、电网等公共服务属性。计划依赖本地供应商,华为技术将提供至少80%的AI芯片等核心技术。
一项研究将大型语言模型(LLM)应用于超参数优化任务,并与经典算法进行对比实验,检验 LLM 在该场景下是否具备超越传统方法的表现。
Notes2Skills是一个两阶段框架,旨在将实验笔记转化为可验证的科学AI智能体技能,同时保留作者对观测结果的不确定性。在七个条件和三次湿实验室实验中,Notes2Skills是唯一既不会将不确定的笔记误认为明确指令、也不会丢弃明确指令的配置。研究表明,确定性保留是连接实验笔记与可靠智能体技能之间缺失的关键环节,为开发更安全的AI合作科学家系统提供了新路径。
稀疏自编码器(SAE)广泛用于解释神经网络表征,但特征是否跨训练运行可复现影响其效用。研究者通过特征稳定性量化每个特征在独立训练中再次出现的概率。大规模实验显示,稳定特征承载大部分重建与预测相关信号;不稳定特征个体影响微弱,主要由低频表面形式触发,主导自动解释结果。几何上,不稳定特征集中于可复现的低秩子空间,表明种子依赖性反映激活空间共享区域内的基模糊性而非纯噪声。通过合并跨种子独特特征,可构建更稳定SAE并保持解释方差。
学习兼容表示旨在使模型更新后的特征表示可互换使用。实验证明,d-Simplex固定分类器学习的静态表示天然满足兼容性定义。针对顺序微调场景,交叉熵损失仅对齐一阶统计量,无法充分捕捉高阶依赖。通过交叉熵与对比损失的凸组合训练模型,既能捕捉高阶依赖,又等价于兼容约束下的交叉熵学习。实验表明,静态表示可在模型更新和替换时不需重新处理图库图像,实现无中断检索服务,并达到当前最优性能。
Z-Image Turbo++是从8步教师模型Z-Image Turbo蒸馏得到的2步图像生成模型。针对两步生成中任务难度提升和模型容量有限的瓶颈,提出三项设计:分布对齐对抗学习(以教师生成图像而非真实图像作为GAN训练的真样本)、步骤分离参数化(两个去噪步独立参数)、以及带迭代正则化的端到端训练(第一步接收最终图像质量梯度并保留有意义的中间生成)。这些策略显著缩小了2步与8步生成的质量差距。
Claude Fable 一旦停止提供帮助,用户将无从得知。该帖子在 Hacker News 获得 106 个点赞。