SpaceX在得克萨斯州巴斯特罗普市新建1100万平方英尺(约102.2万平方米)卫星工厂,生产首款AI卫星AI1。该卫星长70米,峰值算力150千瓦,计划2027年底规模化量产。公司计划2027年底建成1吉瓦太空AI算力,届时每年需发射6000余颗AI1卫星;目标2030年年算力100吉瓦。工厂将垂直整合太阳能硅锭、硅片、电池、电路板等供应链。此外,SpaceX、特斯拉与xAI联合在奥斯汀打造Terafab芯片工厂,年产能可支撑1太瓦算力。
SpaceX在得克萨斯州巴斯特罗普市新建1100万平方英尺(约102.2万平方米)卫星工厂,生产首款AI卫星AI1。该卫星长70米,峰值算力150千瓦,计划2027年底规模化量产。公司计划2027年底建成1吉瓦太空AI算力,届时每年需发射6000余颗AI1卫星;目标2030年年算力100吉瓦。工厂将垂直整合太阳能硅锭、硅片、电池、电路板等供应链。此外,SpaceX、特斯拉与xAI联合在奥斯汀打造Terafab芯片工厂,年产能可支撑1太瓦算力。
一项研究将大型语言模型(LLM)应用于超参数优化任务,并与经典算法进行对比实验,检验 LLM 在该场景下是否具备超越传统方法的表现。
Notes2Skills是一个两阶段框架,旨在将实验笔记转化为可验证的科学AI智能体技能,同时保留作者对观测结果的不确定性。在七个条件和三次湿实验室实验中,Notes2Skills是唯一既不会将不确定的笔记误认为明确指令、也不会丢弃明确指令的配置。研究表明,确定性保留是连接实验笔记与可靠智能体技能之间缺失的关键环节,为开发更安全的AI合作科学家系统提供了新路径。
稀疏自编码器(SAE)广泛用于解释神经网络表征,但特征是否跨训练运行可复现影响其效用。研究者通过特征稳定性量化每个特征在独立训练中再次出现的概率。大规模实验显示,稳定特征承载大部分重建与预测相关信号;不稳定特征个体影响微弱,主要由低频表面形式触发,主导自动解释结果。几何上,不稳定特征集中于可复现的低秩子空间,表明种子依赖性反映激活空间共享区域内的基模糊性而非纯噪声。通过合并跨种子独特特征,可构建更稳定SAE并保持解释方差。
学习兼容表示旨在使模型更新后的特征表示可互换使用。实验证明,d-Simplex固定分类器学习的静态表示天然满足兼容性定义。针对顺序微调场景,交叉熵损失仅对齐一阶统计量,无法充分捕捉高阶依赖。通过交叉熵与对比损失的凸组合训练模型,既能捕捉高阶依赖,又等价于兼容约束下的交叉熵学习。实验表明,静态表示可在模型更新和替换时不需重新处理图库图像,实现无中断检索服务,并达到当前最优性能。
Z-Image Turbo++是从8步教师模型Z-Image Turbo蒸馏得到的2步图像生成模型。针对两步生成中任务难度提升和模型容量有限的瓶颈,提出三项设计:分布对齐对抗学习(以教师生成图像而非真实图像作为GAN训练的真样本)、步骤分离参数化(两个去噪步独立参数)、以及带迭代正则化的端到端训练(第一步接收最终图像质量梯度并保留有意义的中间生成)。这些策略显著缩小了2步与8步生成的质量差距。
Claude Fable 一旦停止提供帮助,用户将无从得知。该帖子在 Hacker News 获得 106 个点赞。
针对文本到图像Flow Matching模型与人类偏好对齐时,完整采样轨迹无法存储及跨步雅可比积导致梯度膨胀的问题,FlowBP提出统一代理轨迹框架,将反向轨迹本身作为设计对象。该框架分离奖励模型输入、活跃集、积分权重和桥耦合四个选择,并实例化三个变体:FlowBP-Sparse(稀疏Euler重建)、FlowBP-Bridge(受控桥耦合)和FlowBP-Lagrange(高阶跳跃求积)。三者通过活跃集大小限制内存,梯度链至多含一个雅可比因子。在SD3.5-M、FLUX.1-dev和FLUX.2-Klein-base上,三个变体在偏好、质量和组合指标上均优于直接梯度基线。
NeuroBait是基于Google gemma-3-12b-it微调的AI对话助手,旨在帮助ADHD患者克服“知道该做什么但无法开始”的执行功能障碍。采用16-bit LoRA(r=16, alpha=16)在Unsloth上训练3个epoch,学习率2e-4,最大序列长度2048,使用单张H100 80GB GPU。数据集为基于真实ADHD场景手工合成的少量数据。部署于Hugging Face Space(ZeroGPU),使用Gradio和标准transformers+peft,运行时以4-bit NF4加载基础模型并应用LoRA适配器。NeuroBait不生成待办清单,而是根据用户上下文给出3-6句温暖流畅的回复,引导用户找到一件微小可立即执行的动作,从而激发多巴胺、降低启动阻力。
PBSD提出一种贝叶斯校准的自蒸馏方法,用于在稀疏最终奖励下进行细粒度信用分配。它通过验证答案的后验与先验概率比衡量轨迹质量,并利用贝叶斯规则将难以估计的答案侧比率转化为标准学生模型与特权、以答案为条件的教师模型之间的似然比。对该贝叶斯证据分数进行自回归分解,产生每步信号,识别中间推理步骤是支持还是削弱已验证结果。PBSD将稀疏结果监督转化为贝叶斯校准的逐步信用信号,与标准策略优化兼容。实验表明,该方法在领域内和领域外设置中一致提升性能,并有效将知识从短上下文训练迁移到长上下文推理。
针对基于可验证奖励的强化学习(RLVR)在组级别奖励无信息时无法提供梯度信号的问题,提出Reasoning Arena自适应训练框架。该框架将非多样化奖励组路由至评判系统,通过迹线锦标赛(trace tournaments)对推理迹线进行头对头比较,转化为相对奖励信号。每个新迹线仅与动态更新的少量锚点比较,然后在不完全比较图上拟合Bradley-Terry模型。在竞赛数学和编程基准上,平均超越RLVR基线7.6%,训练加速27%至41%,节省近50%生成计算量。
蚂蚁 inclusionAI 在 GitHub 上开源了 AReno,一个易用且快速的工具包,可在单节点上扩展强化学习后训练(RL post-training)。
Flash-GMM 是一个基于 Triton 的融合内核,可在单次 GPU pass 中高效计算大规模高斯混合模型(GMM)。它无需在 GPU 内存中实例化完整责任矩阵,相比现有实现实现 20 倍加速,并支持在单设备上训练比之前大 100 倍以上的数据集。将 Flash-GMM 集成到 IVF 粗量化器中用于近似最近邻搜索(ANN)后,软 GMM 聚类可替代 k-means,利用 GMM 责任矩阵将边界向量分配到多个簇。该方法达到固定召回目标时所需距离计算减少 1.7 倍,或在同等计算成本下召回@10 提升 2–12。该内核已作为开源项目发布。
针对token级采样易产生冗余轨迹、嵌入级随机噪声破坏语义一致性的问题,N-GRPO将语义邻居混合(Semantic Neighbor Mixing)机制集成到GRPO框架中。该方法通过混合锚点token及其最近语义邻居的嵌入构造输入表示,在注入多样性的同时保持局部语义流形。在DeepSeek-R1-Distill-Qwen系列不同规模模型上的实验表明,N-GRPO在数学推理基准上持续优于强基线,并在分布外任务上展现稳健泛化能力。
DeNovoSWE 是一个大规模完整仓库生成数据集,包含4,818个高质量实例,每个实例要求从文档生成完整仓库。该数据集通过沙盒智能体工作流自动构建,无需人工标注,采用分治与批评修复策略以及难度感知轨迹过滤保证质量。微调 Qwen3-30B-A3B 后,在 BeyondSWE-Doc2Repo 基准上的得分从5.8%提升至47.2%。
xAI在资产结构和运营模式上被比作数据中心REIT,而非传统的前沿AI实验室,这一观点来自martinalderson.com的分析文章。
将AI比作一个闪耀着能力的星系,其核心存在一个肉眼不可见的巨大黑洞——数据。这个比喻揭示了AI模型惊人能力背后对海量数据的依赖,样本效率的瓶颈如同引力中心,将各色能力凝聚在一起。
微软研究院推出Lens,一个仅3.8B参数的文本到图像模型。依靠由GPT-4.1生成的8亿条详细图像标题,而非模糊的网页替代文本,Lens在基准测试上匹配了规模更大的竞品,训练成本仅一小部分。代码和权重以开源许可证公开可用。
全永铉与黄仁勋在首尔举行闭门商务会议,就 HBM4、晶圆代工短期合作进行讨论。双方正在合作研发 4 纳米和 8 纳米节点的自动驾驶芯片及英伟达加速器芯片,并广泛讨论了 HBM4E、HBM5、代工业务等长期合作。三星将全力供应 HBM4 及低功耗内存模组 SOCAMM,计划从明年起通过 HBM4E 和 HBM5 延续合作。全永铉表示三星将作为英伟达最佳合作伙伴协助其成功。
月之暗面(Moonshot AI),Kimi 聊天机器人母公司,正寻求在新一轮融资中获得最高 300 亿美元的估值,这一数字是 2025 年底公司估值的 6 倍以上。
AMD 宣布未来五年内向英国投资最高 20 亿英镑(约 181.27 亿元人民币),用于推动 AI 创新研究与前沿计算设施建设。CEO 苏姿丰在伦敦 Tech Week 大会上公布投资计划,将配合英国政府 AI 行动计划与硬件战略。AMD 将携手帝国理工学院,利用 AMD 计算平台和 ROCm 软件生态优化 AI 大模型及数据密集型应用,并支持剑桥大学建设“Zenith AI”国家级超算项目。
燧原科技科创板首发申请将于 6 月 15 日上会,拟募资 60 亿元,用于五代及六代 AI 芯片系列产品研发与产业化、先进人工智能软硬件协同创新等项目。财务数据显示,2022—2024 年及 2025 年前三季度,营收分别为 9010.38 万元、3.01 亿元、7.22 亿元、5.4 亿元;归属净利润分别为-11.16 亿元、-16.65 亿元、-15.1 亿元、-8.88 亿元。
一篇关于用 Python 构建最简单人工神经网络——感知器(Perceptron)的文章在 Hacker News 上获得 108 个用户点赞。
麦考瑞大学科研团队利用神经网络训练算法,改造机场现有X射线CT扫描设备,在三维影像中识别鱼翅、海马、海参等常见走私海洋生物样本。基于298组扫描样本训练与测试,算法整体识别准确率达92%,其中鱼翅95%、海马96%、海参86%,误报率为13%。该智能检测系统可自动标记可疑行李,但误报仍需人工复核,且CT设备成本高、非所有机场配备,目前仅作为现有检查手段的补充。
针对电子健康记录中不规则采样的医疗时间序列(ISMTS),LLM在临床早期预警中常将分级风险压缩为过度自信的二分类预测,导致校准失效。TRIAGE框架通过训练LLM生成对抗性临床结局的辩证推理,产出连续风险评分并附带可验证的临床依据。在三个ISMTS基准上,TRIAGE平均AUPRC提升3.3%,校准误差降低81%;LLM-as-a-judge评估显示其推理质量较基线提升20%。源代码已开源。
本文提出基于Transformer的检测架构与原型行重建模块,仅需行级转录监督即可学习字符原型及其变形、位置信息,显著超越Learnable Typewriter基线,实现准确字符边界框预测。在14世纪手稿codex Paris, BnF, fr. 2813的160页上验证,仅用单列文本即可自动测量字符、双字母组及图形单元间距,能区分不同抄写者的图形轮廓,并发现分析细微变化。数据与代码已开源。
FlowLet是一种条件生成框架,在可逆3D小波域中利用流匹配合成年龄条件的3D脑MRI,避免潜在压缩伪影并降低计算开销。实验表明,仅需少量采样步即可生成高保真体积;用其数据训练脑年龄预测模型可改善欠代表性年龄组的表现,区域分析证实解剖结构得以保留。
TRL-Bench 是一个多粒度表格表示学习基准,通过统一协议评估行级、列级和表级嵌入。包含三个测试套件:TRL-CTbench(列/表)、TRL-Rbench(行)和 TRL-DLTE(组合式数据湖表增强)。发布的数据资产包括 50 个 OpenML 表(123 个验证目标)、16 个行对链接改写任务及 47,772 表 DLTE 湖。在 20 个模型和 16 个任务上的评估表明,标准化下游条件后,编码器质量呈能力特定性,通用文本编码器在表面文本信号强的任务上领先,表格专用模型在其预训练目标与任务对齐时胜出,最强 DLTE 管线需组合能力匹配的专用模型。
针对LLM强化学习离线策略训练中信任区域控制问题,现有PPO/GRPO的比率裁剪难以准确表示长尾词汇分布偏移,DPPO虽改用散度边界但依赖硬掩码,丢弃边界外的梯度。本文提出DRPO,采用平滑的advantage加权二次正则化替代硬掩码,保留DPPO的信任区域几何结构,产生有界连续梯度权重,衰减有害发散更新并在边界外提供修正信号。实验表明DRPO提升了LLM RL训练的稳定性和效率。
据电讯报6月7日消息,英国技术大臣莉兹·肯德尔将在本周伦敦科技周上概述从英国公司“战略性采购”半导体设备的计划,旨在阻止初创企业放弃英国前往硅谷,确保AI产业部分领域的“主权”,避免过度依赖美国科技巨头。英国已投资数亿英镑建设AI研究资源,但绝大部分使用英伟达和英特尔芯片。政府将花费超10亿英镑将资源扩大20倍。此前Alphawave、Imagination Technologies、Graphcore等微芯片企业已被外国收购,Arm在美上市。
英伟达和韩国 SK 集团预计于周一公布合作计划。英伟达 CEO 黄仁勋表示,当前存储芯片供应紧张还将持续好几年,整个行业供应链从晶圆到封装再到硅光模块均处于短缺状态。合作覆盖 AI 超级计算机、CPU、新型 PC 和机器人技术等领域。SK 海力士发言人称,集团董事长崔泰源与黄仁勋将于周一上午向媒体简要介绍该计划。
一篇arXiv论文提出Tokenomics框架,量化分析模型token在智能体软件工程各环节的使用分布,揭示不同任务对token消耗的差异。
小型语言模型在罕见任务上表现不佳,因为频繁任务不断覆盖已学内容。一项涵盖4百万到40亿参数模型的新研究详细揭示了这一机制,并提出实用解决方案:无需扩大模型规模,只需增加目标任务在训练数据中的出现频率。
特斯拉AI基础设施及信息安全副总裁拉吉·杰加纳坦在领英宣布离职,结束13年职业生涯。他自今年2月起逐步离任,将加盟云基础设施服务商Chronoscale任首席技术官。杰加纳坦直接向马斯克汇报,主导设计了全球顶尖GPU集群,为FSD神经网络提供算力,处理数十亿英里实车数据并开展大规模模型训练。他的离职是过去半年特斯拉多位资深高管离职的最新一例。
WaveDiT是一种在3D Haar小波系数空间中的条件流匹配框架,结合分解时空注意力与基于高阶小波统计的带异方差不确定性建模。预测对数方差融入流目标和条件路径,适应解剖细节的输入相关方差结构。该方法在单个GPU上实现全分辨率3D合成。多中心评估显示,相比扩散、潜在和小波基线,生成与真实MRI分布对齐更优,下游脑年龄预测和区域解剖一致性均有提升。代码已开源。
针对扩散模型训练中噪声输入与干净参考特征的时间步信息不匹配问题,论文从token级视角发现:完整token对齐中梯度范数大的token具有稳定空间偏好,导致模型过度依赖完整干净图像token集。为此提出MaskAlign,训练时对随机采样的token子集施加表示对齐,减少对完整token集的依赖,增强鲁棒性;并引入轻量级预掩码token混合块,在掩码前跨token共享信息以缓解信息损失。实验表明该方法有效提升扩散Transformer的训练效率和生成质量。
OmniCap-IF 是首个针对全能模态大语言模型(OLLMs)视频描述指令遵循能力的基准,涵盖纯视觉、纯音频和视听三种模态下的 50 种约束类型,并引入时间定位评估时空精确性。在 1920 个高质量样本上的评测显示模型间存在显著性能差距,并发现“格式-内容权衡”——格式复杂度增加会损害模型的全能模态推理能力。研究团队还构建了 54K 指令微调数据集 OmniCap-IF-54K,并发布 OmniCaptioner-IF 模型,在复杂指令遵循与通用全能模态描述性能上均取得明显提升。
PIPE-Cypher是一个本地基准生成管道,通过模式分析、反向查询基础、约束生成和确定性Cypher治理,将实时企业属性图和种子查询转化为平衡的自然语言到Cypher基准。使用本地Qwen3.5-9B模型进行生成和评判,导出3000个FinBench/SNB示例,完成三项消融实验,并通过人工标注校准评判行为,评估了11个本地下游模型。生成的基准具有区分性:零样本迁移能力弱,少量样本控制表明模式特定示例库可帮助兼容模型家族。
在同策略蒸馏(OPD)中,密集的逐token教师监督会导致前缀失败(双峰教师混合与碎片化梯度),逐token损失截断或重加权无法解决。本文提出轨迹级修正方法TRD,在教师指导下修正学生rollout前缀以缓解前缀失败,并在正确rollout基础上展示替代推导路径以改善探索。TRD可推广至同策略自蒸馏(OPSD)。在多项基准和多尺度模型上,TRD一致优于先前基线,提升单次准确率并拓宽推理覆盖范围。