After chat and code, analytics is the biggest opportunity in AI and it's still completely untapped with our current tool...
针对文本到图像Flow Matching模型与人类偏好对齐时,完整采样轨迹无法存储及跨步雅可比积导致梯度膨胀的问题,FlowBP提出统一代理轨迹框架,将反向轨迹本身作为设计对象。该框架分离奖励模型输入、活跃集、积分权重和桥耦合四个选择,并实例化三个变体:FlowBP-Sparse(稀疏Euler重建)、FlowBP-Bridge(受控桥耦合)和FlowBP-Lagrange(高阶跳跃求积)。三者通过活跃集大小限制内存,梯度链至多含一个雅可比因子。在SD3.5-M、FLUX.1-dev和FLUX.2-Klein-base上,三个变体在偏好、质量和组合指标上均优于直接梯度基线。
苹果Siri由自研基础模型驱动,但该模型通过Google Gemini蒸馏训练而来。Gemini本身不直接驱动Siri,仅在Apple iCloud上提供额外定制支持,且不接入Google搜索,世界知识由苹果自有服务提供。
http://x.com/i/article/2064329494736011265
Google Colab CLI and Skills are out. Full Colab runtimes from your terminal. - GPU/TPU provisioning (colab --gpu A100) -...
NeuroBait是基于Google gemma-3-12b-it微调的AI对话助手,旨在帮助ADHD患者克服“知道该做什么但无法开始”的执行功能障碍。采用16-bit LoRA(r=16, alpha=16)在Unsloth上训练3个epoch,学习率2e-4,最大序列长度2048,使用单张H100 80GB GPU。数据集为基于真实ADHD场景手工合成的少量数据。部署于Hugging Face Space(ZeroGPU),使用Gradio和标准transformers+peft,运行时以4-bit NF4加载基础模型并应用LoRA适配器。NeuroBait不生成待办清单,而是根据用户上下文给出3-6句温暖流畅的回复,引导用户找到一件微小可立即执行的动作,从而激发多巴胺、降低启动阻力。
DeepSeek 发布招聘,寻找 IDC 设计与规划工程师,负责数据中心全生命周期建设(选址、布局、施工图纸、支撑基础设施)。该职位是新建设施早期技术工作的核心角色,对候选人不设最低经验要求,另有 7 年以上高级岗。岗位描述将建设规模从 MW 级扩展到 GW 级。这意味着 DeepSeek 将像 OpenAI 一样自建数据中心。
运营者 Vista 复盘自己三年间 X 账号从 100 关注增长至 11 万的全过程。基于全量 X 帖子,使用 Codex 进行数据分析,得出一些甚至自己都未意识到的结论。分享被视为最好的学习方式,完整 PPT 置于评论区。
PBSD提出一种贝叶斯校准的自蒸馏方法,用于在稀疏最终奖励下进行细粒度信用分配。它通过验证答案的后验与先验概率比衡量轨迹质量,并利用贝叶斯规则将难以估计的答案侧比率转化为标准学生模型与特权、以答案为条件的教师模型之间的似然比。对该贝叶斯证据分数进行自回归分解,产生每步信号,识别中间推理步骤是支持还是削弱已验证结果。PBSD将稀疏结果监督转化为贝叶斯校准的逐步信用信号,与标准策略优化兼容。实验表明,该方法在领域内和领域外设置中一致提升性能,并有效将知识从短上下文训练迁移到长上下文推理。
针对基于可验证奖励的强化学习(RLVR)在组级别奖励无信息时无法提供梯度信号的问题,提出Reasoning Arena自适应训练框架。该框架将非多样化奖励组路由至评判系统,通过迹线锦标赛(trace tournaments)对推理迹线进行头对头比较,转化为相对奖励信号。每个新迹线仅与动态更新的少量锚点比较,然后在不完全比较图上拟合Bradley-Terry模型。在竞赛数学和编程基准上,平均超越RLVR基线7.6%,训练加速27%至41%,节省近50%生成计算量。
蚂蚁 inclusionAI 在 GitHub 上开源了 AReno,一个易用且快速的工具包,可在单节点上扩展强化学习后训练(RL post-training)。
Nathan Lambert 批评 AI 领域过度关注持续学习与样本效率,认为这如同专注于弥补弱点而非最大化优势。人类大脑虽是存在性证明,但未必是 AI 最佳路径。前沿实验室实际加速推进现有开发树,对进步有利,但对安全与地缘政治影响复杂。他引用 @dwarkesh_sp 的观点:数据是进步主要驱动力,开源与后来者可通过从公开 API 蒸馏数据快速追赶前沿,而超参数、训练技巧等难以复制。他认为未来已来,AGI 研究应拥抱未知、规模化资源,而非等待不确定的科学突破。
New blog post: on the million-x sample efficiency gap between AIs and humans, and whether it matters: "The reason it is ...
Flash-GMM 是一个基于 Triton 的融合内核,可在单次 GPU pass 中高效计算大规模高斯混合模型(GMM)。它无需在 GPU 内存中实例化完整责任矩阵,相比现有实现实现 20 倍加速,并支持在单设备上训练比之前大 100 倍以上的数据集。将 Flash-GMM 集成到 IVF 粗量化器中用于近似最近邻搜索(ANN)后,软 GMM 聚类可替代 k-means,利用 GMM 责任矩阵将边界向量分配到多个簇。该方法达到固定召回目标时所需距离计算减少 1.7 倍,或在同等计算成本下召回@10 提升 2–12。该内核已作为开源项目发布。
针对token级采样易产生冗余轨迹、嵌入级随机噪声破坏语义一致性的问题,N-GRPO将语义邻居混合(Semantic Neighbor Mixing)机制集成到GRPO框架中。该方法通过混合锚点token及其最近语义邻居的嵌入构造输入表示,在注入多样性的同时保持局部语义流形。在DeepSeek-R1-Distill-Qwen系列不同规模模型上的实验表明,N-GRPO在数学推理基准上持续优于强基线,并在分布外任务上展现稳健泛化能力。
DeNovoSWE 是一个大规模完整仓库生成数据集,包含4,818个高质量实例,每个实例要求从文档生成完整仓库。该数据集通过沙盒智能体工作流自动构建,无需人工标注,采用分治与批评修复策略以及难度感知轨迹过滤保证质量。微调 Qwen3-30B-A3B 后,在 BeyondSWE-Doc2Repo 基准上的得分从5.8%提升至47.2%。
Anthropic 研究发现,AI 智能体在代码任务表现出色,但在生物数据库检索中容易失败。以埃博拉序列任务为例,Claude Sonnet 4 三次运行分别返回 106、15 和 5 条序列,而预期为 266 条。缺失序列导致科学结论严重偏移:智能体推断疫情回溯至 1922 年,人工筛选结果却指向 2014 年初。问题根源在于生物数据库分散、网站规则隐蔽、脚本脆弱。引入可重复检索工具后,智能体准确性和一致性大幅提升。Anthropic 呼吁建设更友好的基础设施。
New Science Blog: Why has AI advanced faster in coding than in biology? To agents, bio databases are like cities built b...
xAI在资产结构和运营模式上被比作数据中心REIT,而非传统的前沿AI实验室,这一观点来自martinalderson.com的分析文章。
将AI比作一个闪耀着能力的星系,其核心存在一个肉眼不可见的巨大黑洞——数据。这个比喻揭示了AI模型惊人能力背后对海量数据的依赖,样本效率的瓶颈如同引力中心,将各色能力凝聚在一起。
微软研究院推出Lens,一个仅3.8B参数的文本到图像模型。依靠由GPT-4.1生成的8亿条详细图像标题,而非模糊的网页替代文本,Lens在基准测试上匹配了规模更大的竞品,训练成本仅一小部分。代码和权重以开源许可证公开可用。
全永铉与黄仁勋在首尔举行闭门商务会议,就 HBM4、晶圆代工短期合作进行讨论。双方正在合作研发 4 纳米和 8 纳米节点的自动驾驶芯片及英伟达加速器芯片,并广泛讨论了 HBM4E、HBM5、代工业务等长期合作。三星将全力供应 HBM4 及低功耗内存模组 SOCAMM,计划从明年起通过 HBM4E 和 HBM5 延续合作。全永铉表示三星将作为英伟达最佳合作伙伴协助其成功。
月之暗面(Moonshot AI),Kimi 聊天机器人母公司,正寻求在新一轮融资中获得最高 300 亿美元的估值,这一数字是 2025 年底公司估值的 6 倍以上。
AMD 宣布未来五年内向英国投资最高 20 亿英镑(约 181.27 亿元人民币),用于推动 AI 创新研究与前沿计算设施建设。CEO 苏姿丰在伦敦 Tech Week 大会上公布投资计划,将配合英国政府 AI 行动计划与硬件战略。AMD 将携手帝国理工学院,利用 AMD 计算平台和 ROCm 软件生态优化 AI 大模型及数据密集型应用,并支持剑桥大学建设“Zenith AI”国家级超算项目。
燧原科技科创板首发申请将于 6 月 15 日上会,拟募资 60 亿元,用于五代及六代 AI 芯片系列产品研发与产业化、先进人工智能软硬件协同创新等项目。财务数据显示,2022—2024 年及 2025 年前三季度,营收分别为 9010.38 万元、3.01 亿元、7.22 亿元、5.4 亿元;归属净利润分别为-11.16 亿元、-16.65 亿元、-15.1 亿元、-8.88 亿元。
一篇关于用 Python 构建最简单人工神经网络——感知器(Perceptron)的文章在 Hacker News 上获得 108 个用户点赞。
该论文指出,更大模型能学到罕见技能,是因为训练中遗忘更少,其额外容量保护了弱学习信号。核心机制:常见任务先抢占神经元,罕见任务在出现频率足够形成稳定知识前就被覆盖。小模型可能短暂捕捉到罕见信号,但随即被下一波常见任务更新覆盖。实验使用OLMo语言模型(4M–4B参数)验证:大模型在低频任务上表现更优,保留更多任务特征,且常见任务更新对罕见任务的梯度干扰更小。作者强调,问题不仅在于小模型能否表征任务,更在于训练中罕见任务能否在众多常见任务反复冲击下持续存在。
麦考瑞大学科研团队利用神经网络训练算法,改造机场现有X射线CT扫描设备,在三维影像中识别鱼翅、海马、海参等常见走私海洋生物样本。基于298组扫描样本训练与测试,算法整体识别准确率达92%,其中鱼翅95%、海马96%、海参86%,误报率为13%。该智能检测系统可自动标记可疑行李,但误报仍需人工复核,且CT设备成本高、非所有机场配备,目前仅作为现有检查手段的补充。
针对电子健康记录中不规则采样的医疗时间序列(ISMTS),LLM在临床早期预警中常将分级风险压缩为过度自信的二分类预测,导致校准失效。TRIAGE框架通过训练LLM生成对抗性临床结局的辩证推理,产出连续风险评分并附带可验证的临床依据。在三个ISMTS基准上,TRIAGE平均AUPRC提升3.3%,校准误差降低81%;LLM-as-a-judge评估显示其推理质量较基线提升20%。源代码已开源。
本文提出基于Transformer的检测架构与原型行重建模块,仅需行级转录监督即可学习字符原型及其变形、位置信息,显著超越Learnable Typewriter基线,实现准确字符边界框预测。在14世纪手稿codex Paris, BnF, fr. 2813的160页上验证,仅用单列文本即可自动测量字符、双字母组及图形单元间距,能区分不同抄写者的图形轮廓,并发现分析细微变化。数据与代码已开源。
FlowLet是一种条件生成框架,在可逆3D小波域中利用流匹配合成年龄条件的3D脑MRI,避免潜在压缩伪影并降低计算开销。实验表明,仅需少量采样步即可生成高保真体积;用其数据训练脑年龄预测模型可改善欠代表性年龄组的表现,区域分析证实解剖结构得以保留。
TRL-Bench 是一个多粒度表格表示学习基准,通过统一协议评估行级、列级和表级嵌入。包含三个测试套件:TRL-CTbench(列/表)、TRL-Rbench(行)和 TRL-DLTE(组合式数据湖表增强)。发布的数据资产包括 50 个 OpenML 表(123 个验证目标)、16 个行对链接改写任务及 47,772 表 DLTE 湖。在 20 个模型和 16 个任务上的评估表明,标准化下游条件后,编码器质量呈能力特定性,通用文本编码器在表面文本信号强的任务上领先,表格专用模型在其预训练目标与任务对齐时胜出,最强 DLTE 管线需组合能力匹配的专用模型。
针对LLM强化学习离线策略训练中信任区域控制问题,现有PPO/GRPO的比率裁剪难以准确表示长尾词汇分布偏移,DPPO虽改用散度边界但依赖硬掩码,丢弃边界外的梯度。本文提出DRPO,采用平滑的advantage加权二次正则化替代硬掩码,保留DPPO的信任区域几何结构,产生有界连续梯度权重,衰减有害发散更新并在边界外提供修正信号。实验表明DRPO提升了LLM RL训练的稳定性和效率。
Google提出一种AI记忆压缩技术,可将1000万个文档的向量存储从31GB内存压缩至仅4GB,且搜索速度超过目前最常用的FAISS方法。该技术使本地运行大语言模型并结合个人数据变得更加可行。
http://x.com/i/article/2060717603987791878
论文指出,更好的推理模型更依赖可验证的训练证据,而非原始数据规模。推理数据的关键不是简单问答对,而是提供答案、步骤、工具操作或完整尝试好坏判断的反馈信号。每个训练样本应描述为包含任务、模型行为、检查信号和元数据的记录。研究者按检查方式分类:数学和代码用精确规则、智能体工具用环境检查,无精确检查器时用人类或模型判断。常见误区包括:长推理链可能虚假、更难样例对部分模型无效、更大数据集仍可能缺失关键覆盖。智能体数据应保留失败动作、重试、恢复、状态差异和终端检查等“混乱”信息,因为学习信号常在其中。
据电讯报6月7日消息,英国技术大臣莉兹·肯德尔将在本周伦敦科技周上概述从英国公司“战略性采购”半导体设备的计划,旨在阻止初创企业放弃英国前往硅谷,确保AI产业部分领域的“主权”,避免过度依赖美国科技巨头。英国已投资数亿英镑建设AI研究资源,但绝大部分使用英伟达和英特尔芯片。政府将花费超10亿英镑将资源扩大20倍。此前Alphawave、Imagination Technologies、Graphcore等微芯片企业已被外国收购,Arm在美上市。