DRDD 模型将扩散过程解耦为两个独立阶段:先进行随机噪声扩散以实现领域协调和流形提升,再通过确定性残差扩散在固定噪声域内学习核心语义映射。该设计保留了扩散过程对特征分布的隐式对齐能力,显著简化了跨任务统一映射的学习。噪声扩散阶段仅在未配对的目标域图像上训练,极大提升了数据效率。理论与实验表明,DRDD 与主流扩散模型兼容,即使在配对数据有限时也能实现稳健的统一翻译。代码已在 GitHub 开源。
DRDD 模型将扩散过程解耦为两个独立阶段:先进行随机噪声扩散以实现领域协调和流形提升,再通过确定性残差扩散在固定噪声域内学习核心语义映射。该设计保留了扩散过程对特征分布的隐式对齐能力,显著简化了跨任务统一映射的学习。噪声扩散阶段仅在未配对的目标域图像上训练,极大提升了数据效率。理论与实验表明,DRDD 与主流扩散模型兼容,即使在配对数据有限时也能实现稳健的统一翻译。代码已在 GitHub 开源。
Trajectory 联合 UC Berkeley Sky Lab 和 Anyscale 发布了一个面向强化学习实验持续学习的并发多 LoRA 训练栈。该系统将每个 RL 实验映射到一个专属的 LoRA 适配器,并在常热引擎上运行,相比单租户基线,报告实现了 2.81 倍的端到端实验吞吐量提升,且没有奖励回归问题。代码已在 NovaSky-AI/SkyRL 开源。
AI 技术的快速发展在科技从业者中引发了普遍的职业焦虑与心理危机。文章指出,许多专业人士担心自身技能被自动化取代,从而产生强烈的不安全感、抑郁情绪及身份认同危机。这种焦虑不仅源于对失业的恐惧,也涉及工作意义感的丧失、人际关系的变化以及对未来的迷茫。面对冲击,个体反应不一,但整体而言,这已演变为一场需严肃对待的行业心理挑战。
LandingAI 黑客松项目「ArthaNethra」展示了从 PDF 到金融知识图谱的流程:上传后通过 ADE 提取为结构化 Markdown,超过 15MB 的文档异步处理。提取后按文档类型路由归一化:发票/贷款/合同采用确定性解析(无 LLM);10-K/MD&A 使用 Claude Haiku 结合正则。实体和关系分别存入 Weaviate 和 Neo4j(500 词分块,100 词重叠,all-mpnet-base-v2 向量化),图谱包含 10 类实体和 26 种规范关系,并通过别名映射进行同义词归一化。最后结合规则与 LLM 进行风险检测。
http://x.com/i/article/2060438013273108480
在可控C_n对称任务上,等变先验对样本复杂度的理论增益因子|G|首次作为标度律测量。错误群控制比无约束更差(成对联合CI [+0.79, +3.26]排除零);带测试时轨道平均的数据增强基线在每epoch验证曲线上与等变模型完全一致。相对交换率beta_diff=1.28与理论值1.0在符号和数量级一致(单层CI [+0.92, +2.05]),但保守双层bootstrap区间包含零。最可靠结论:错误群约束有害。
前沿大语言模型在LiveCodeBench上已饱和,易分题Pass@1超99%,平均超90%。新提出的BenchEvolver框架以解决方案为中心,通过结构化变换自动进化已有编码问题的参考解,再从进化后解推导题目与测试用例,从而可扩展构造更高质量、多样、困难且结果可验证的任务。应用于LiveCodeBench和SciCode后,进化任务难度显著提升。整理出的LiveCodeBench-Plus含91道题,前沿模型Pass@1仅27.5%–62.6%,恢复了强编码模型间的清晰区分。进化任务对生成模型自身也有挑战性,可用于自我提升。基于进化任务的强化学习在gpt-oss-20b上使LCB v6 Hard和LCB-Pro Easy的Pass@1分别提升+8.7和+8.3,超出仅用原始任务训练的增益70.7%和34.8%。
OmniOPD是一种无需教师token级logits的在线策略蒸馏框架。它通过蒙特卡洛展开在多token块上以连续语义相似度近似教师偏好,并用峰值熵调度器仅在高不确定性推理分叉处施加监督,同时以Dirichlet-Multinomial贝叶斯先验和基模型KL锚点防止策略坍塌。在数学基准上,OmniOPD相比标准OPD提升高达28.64%;与Claude-4.5-Haiku和Gemini-2.5-Flash等黑箱教师配合时,额外相对提升9.54%,令学生模型超越自我探索强化学习。
针对On-Policy蒸馏(OPD)在师生模型分布差异较大时训练不稳定的问题,本文提出置信区间On-Policy蒸馏(TrOPD)方法。该方法核心是采用置信区间On-Policy学习,仅在教师提供可靠监督的区域进行蒸馏;结合异常值估计策略处理不可靠区域;并通过离线引导鼓励向可靠区域探索。实验表明,TrOPD在数学推理、代码生成及通用基准测试上均优于包括OPD、EOPD和REOPD在内的现有OPD基线。
τ_0-World Model (τ_0-WM) 是一个统一的视频-动作世界模型,旨在机器人执行动作前预测并评估其未来后果。模型基于共享的视频扩散主干网络构建,提供两个接口:一个联合预测未来视觉潜在表示与连续动作块的视频动作模型,以及一个能将动作序列展开为多视角未来并预测任务进度分数的动作条件视频模拟器。τ_0-WM 使用约27,300小时的多元数据训练,包括真实机器人遥操作、UMI风格交互、自我中心人类视频等。推理时,模型通过测试时计算采样动作候选,并利用去噪一致性和基于模拟器的修正来筛选低质量动作,在长时程和精细机器人操控任务上表现出优于相关基准的性能。
HakushoBench是一个日语图表与表格视觉问答基准测试,由33份日本政府白皮书构建而成,包含2053张图像和人工标注的问答对,涵盖超过10种图像类型,旨在评估视觉语言模型对复杂文档的深度理解能力。实验表明,当前开源模型在此基准上仍面临挑战,最佳开源模型的准确率仅为58.6%,而开源与闭源专有模型之间存在34.9分的性能差距。该数据集与代码已开源。
安永(Ernst & Young)发布的一份网络安全报告被指出充满模型幻觉。该报告经由 gptzero.me 调查,被批评为内容臆想。此事在 Hacker News 上获得 159 点热度。
软银宣布在法国投资750亿欧元,旨在打造欧洲规模最大的AI算力设施。该计划旨在利用当地稳定廉价的核电。项目分阶段推进,第一阶段投资450亿欧元,目标是到2031年在法国北部-加来海峡大区建成3.1GW容量,随后再增加2GW,最终形成5GW的AI综合体。敦刻尔克是核心选址,施耐德电气预计参与建设AI基础设施及机器人制造中心。融资是潜在挑战,行业估算显示1GW的AI基础设施成本约为500亿美元,因此软银可能需要依赖大量项目债务和外部合作伙伴。
由于运行和使用AI工具的成本持续飙升,美国企业正开始对人工智能的使用实施配给制。企业通过限制使用量、设置分层级审批流程等方式控制开支,以应对AI费用增长过快的问题。这种从广泛采用转向精细化管理的策略,标志着企业在AI应用上从追求速度转向注重成本效益。
一项涵盖208,000名参与者、2600万条回复的大规模研究显示,使语言模型转变为有用聊天机器人的训练过程,会削弱其复制人类行为的能力。这种效应随着每一代新模型而加剧。即使采用为模型提供人口统计数据的热门角色扮演技巧,对个体预测也几乎没有带来实际益处。
日本AI数据中心热潮正推动企业从传统空气冷却转向液冷技术,主要原因是AI GPU机架的散热需求激增。当前冷却已占数据中心用电量的30%至40%,且GPU发热量在5年内翻了一倍多。传统风冷因空气载热能力有限,面临噪声大、能耗高及物理空间限制。液冷技术通过将金属冷板直接贴合芯片,利用液体流道高效导热,能更高效地移除热量并提升芯片温度稳定性。其主要挑战在于安装成本较高且需专门的服务器机架设计。日本的Fuji Electric、Nidec、Mitsubishi Heavy等公司正积极开发相关系统。
http://x.com/i/article/2059811469081141248
AI训练数据初创公司Shift宣布将免费提供家政清洁服务,以此收集真实家庭环境中的操作数据,用于训练未来的家政服务机器人。Shift通过让人类执行清洁任务并记录动作数据,为机器人学习复杂家庭任务提供高质量训练素材。
推文转述一个传闻:有投资人声称Anthropic的Claude模型通过知识蒸馏(Distillation)使用了Kimi和Qwen的成果。作者对此表示质疑,最初怀疑是Cursor工具所为,但对方坚持是Claude的行为。推文提到目前似乎有更多证据支持这一说法,但整体语境表达了对传闻真实性的怀疑和事件本身的“魔幻”感。文中并未提供任何关于蒸馏过程、模型参数或性能提升的具体证据或数字。
AgentTrove是目前最大的开源智能体交互轨迹集合,包含1.7M行数据,采用ShareGPT风格布局。该Python教程展示了如何在不下载完整数据的情况下流式处理该数据集,具体步骤包括规范化智能体轮次、提取命令、分析轨迹,并将成功的轨迹导出为干净的SFT微调数据集。
针对标准精确匹配奖励不适用胸部X光报告生成的问题,提出SDR方法。将报告分割为句子,用冻结的句子Transformer嵌入为无序集合,以生成与参考嵌入间的集合到集合距离作为连续、置换不变的奖励。在Qwen3-VL-2B/4B和Gemma3-4B上通过GRPO后训练,BERTScore、RadGraph F1和CheXbert F1分别相对提升6.80%、7.82%和4.45%。同一距离用于测试时best-of-N选择,在Mistral-Small、Gemini-2.5 Flash-Lite和GPT-4o-mini上BERTScore平均相对提升16.4%。作为流式信号,可在生成中修剪低分候选,减少超过50%的生成token且保持质量。代码已公开。
半监督噪声自适应(SSNA)提出利用简单分布(如高斯分布)构造的合成噪声领域作为源域,在半监督设置下(仅少量目标样本有标签)提升目标域的泛化。基于该问题,建立了刻画噪声领域影响的目标域泛化界,并提出噪声自适应框架(NAF)。实验表明NAF有效利用噪声领域收紧目标域的泛化界,提升性能。代码已开源。
本研究提出了置信度自适应SwiGLU,这是面向Mixture-of-Experts模型的一种SwiGLU变体。该方法根据token级的路由置信度动态调整专家门控的锐度,通过将SiLU门控的锐度系数参数化为路由器对数几率的可学习函数,使每个门控单元能在平滑的广泛激活与尖锐的选择性门控之间自适应插值。在FineWeb-Edu数据集上针对不同规模的MoE Transformer模型评估表明,κ-SwiGLU在引入极少量额外参数和微小计算开销的前提下,提升了模型的平均CORE性能。
NVIDIA 发布 X-Token 技术,通过解决 GOLD 方法中的两个结构性缺陷,将 Llama-3.2-1B 模型在 GSM8k 基准上的准确率从 2.56 提升至 15.54。
一位经济学家提出,历史上重大的技术革命往往伴随能源利用方式的剧变,而互联网和移动互联网并未如此。AI则不同,它直接消耗能源,导致新能源、旧能源及元素周期表中的多种元素价格暴涨。这种从比特世界深入到原子世界的深刻改变,预示着一次极为重大的技术变革。当一个风口大到足以撬动能源、存储和元素市场时,这要么是史上最大的泡沫,要么是奇点将至的信号。
根据麦肯锡报告,近五分之一的欧洲职业现已要求AI相关技能,这一比例是2023年的三倍多。增长最快的技能是AI流畅度,即在实际工作中应用、提示、管理和核查AI系统的能力。该技能的需求从2023年覆盖的190万员工跃升至2025年的940万,增长了5倍。相比之下,技术性AI技能需求仅增长1.7倍,表明欧洲对AI用户的需求远大于工程师。当前75%的需求集中在计算机、管理和商业金融领域,但已开始向物流、人力资源、合规及技术工种扩散。
Demand for AI-related skills is growing across the European workforce. MGI research shows the share of occupations requi...
AI训练数据初创公司Shift宣布将为纽约人提供免费家庭清洁服务,并计划扩展至伦敦等城市。作为交换,Shift要求拍摄其清洁人员工作的视频,记录洗碗、擦柜台、扫地、拖地等所有家务劳动。这些视频数据正被机器人公司竞相收集,用于训练机器完成家务,最终目的是销售家用服务机器人。
1/ Introducing GPIC: a Giant Permissive Image Corpus and benchmark for visual generation! 🚀100M VLM-captioned image-tex...
一家初创公司正采用一种新方式为机器人训练收集数据:支付费用,让人类佩戴头戴摄像头,上门执行清洁任务,从而获取第一人称视角的操作数据。
这是一场关于AI架构的辩论。Transformer阵营指出,其凭借简单、硬件友好、可扩展的优势主导当下,核心是基于键值存储的记忆与注意力机制,并强调任何替代架构必须能在扩展性上与之匹敌,且需达到约10倍优势才能颠覆现有技术栈。Post-Transformer阵营则认为,当前大语言模型的推理更像是后置的文本步骤,真正的突破在于实现模型内部的“潜在推理”与持续学习能力,并指出长上下文不等于真正记忆,未来可能是混合架构。辩论还提到,当前公开基准测试易被优化,而困惑度(Perplexity)仍是评估前沿模型的有效指标。最后指出,尽管Transformer仍占主导,但前沿正在拓宽,并列举了Pathway的BDH、Sakana AI的CTMs和Liquid AI的LFMs等新兴架构作为例证。
AI训练数据初创公司Shift宣布了一项独特的服务:为用户免费提供房屋清洁。条件是,公司会录制清洁工清洁、吸尘、除尘、整理和清洗的全过程,并将这些视频数据用于训练机器人。Shift解释称,由此生成的训练数据价值足以支付整个服务的成本。其宣传语称:“你获得一尘不染的公寓。我们获得训练数据。每个人都赢。”
美国公司 Shift 在纽约市提供免费公寓清洁服务,作为交换,专业清洁人员需全程佩戴设备录制第一视角画面。这些视频将被用于制作数据集,授权给机器人和人工智能训练,以学习人类完成日常任务的操作数据。Shift 声称,所有画面会在使用前进行匿名化处理,模糊所有可识别个人信息,且录像仅用于训练,不会公开分享或出售。目前服务范围限于纽约,未来计划扩展至全球并提供上门维修、跑腿等更多免费服务。
推文强烈建议用户下载X平台的所有帖子进行备份,以防被算法误封后丢失历史数据。同时,可利用Codex或CC(可能指Claude)等工具分析这些内容,帮助自己总结出未曾意识到的个人方法论。推文指明了操作路径:需在X网页端通过“更多->设置和隐私->你的账号->下载你的数据的存档”提交申请,通常次日可下载,且过期需重新申请。
微软提出SkillOpt方法,旨在改进AI智能体技能的优化过程。其核心思想是将一个独立的技能文档视为优化对象,而非直接修改底层大语言模型。该方法让智能体尝试任务,分析成功与失败案例,然后由一个更强的优化器模型对技能文档进行小幅编辑。编辑只会在提升验证集表现时被接受,从而确保技能的稳定改进。在6个基准测试、7个目标模型和3种智能体设置(包括直接聊天、Codex和Claude Code)的共52个测试案例中,SkillOpt均达到最佳或并列最佳。在GPT-5.5上,它将直接聊天的平均准确度提升了23.5点。最终产出的技能文件可读、可移植且可复用,部署时无需重新训练模型。
加州大学伯克利分校的 UCCL 团队发布了 mKernel,该工具将节点内 NVLink 通信、节点间 RDMA 通信以及密集计算融合成一个持久化 CUDA 内核。
Hexo Labs 开源了 SIA,这是一个遵循 MIT 许可证的自我改进循环。其中的反馈智能体会读取每次执行的轨迹,然后重写运行框架或触发对 gpt-oss-120b 模型的 LoRA 权重更新。结合这两种调整方式,在 LawBench、TriMul GPU 内核以及 scRNA-seq 去噪任务上,效果均优于仅迭代框架。
FaceMind团队用100种语言和四大核心任务实验发现,在语义不变的前提下,使用预训练语料中出现频率更高的词汇(高频表达)来撰写提示词或进行微调,可以显著提升大语言模型的表现。这被总结为Adam’s Law(文本频率定律),它为数据工程补上了“频率”这一新维度。原理在于高频表达能让模型在它最熟悉的概率空间内工作,从而优化输出质量。
http://x.com/i/article/2044264645683539968
研究表明,可通过训练数据投毒为微调大语言模型的主流分发格式LoRA适配器植入后门,同时保持基线任务性能。在通义千问(Qwen)2.5 1.5B提示注入分类器上,少量投毒样本即可触发一个保持清洁准确率的饱和后门。该后门在Token特征层面而非结构模式层面泛化。研究表征了攻击在模型规模、LoRA rank和触发字符串上的特性,并评估了两种互补的检测方法:一种是基于探针电池统计量的行为检测器;另一种是无需运行模型的权重级统计量(归一化Frobenius范数的跨模块标准差)。因果定位将后门定位于中后层MLP模块的down_proj投影。