维基百科联合创始人吉米·威尔士表示,尚不信任AI直接参与词条编辑,因为模型“幻觉”问题依然非常严重。不过AI可用来提醒编辑社区关注小众新闻。他指出,各AI平台依赖维基百科内容导致AI机器人访问量上升,人类用户访问量下降8%,并呼吁AI公司承担服务器费用,已开始封锁不守规矩的平台。
维基百科联合创始人吉米·威尔士表示,尚不信任AI直接参与词条编辑,因为模型“幻觉”问题依然非常严重。不过AI可用来提醒编辑社区关注小众新闻。他指出,各AI平台依赖维基百科内容导致AI机器人访问量上升,人类用户访问量下降8%,并呼吁AI公司承担服务器费用,已开始封锁不守规矩的平台。
ShotcreteDepth是一个来自建筑领域的双模态数据集,包含立体RGB图像与LiDAR点云,采集于主动喷射混凝土施工过程及一般建筑环境。数据在真实恶劣条件(高浊度、低光照)下获取,导致传感器观测不完整且含噪。该数据集由11,252个时间同步样本组成,其中220个带有标注用于评估。同时发布一套轻量级LiDAR点云标注工具。数据集支持在贴近工业操作复杂度的场景中进行立体匹配、深度补全与深度估计研究。
本文标题为《人工智能的可负担性危机》,指出当前人工智能领域的成本持续攀升,已引发业界对可负担性的广泛担忧。该文章出自 blog.dshr.org,并在 Hacker News 上获得 100 个点赞。随着 AI 技术的推进,成本问题正成为制约其普及的关键因素,文章的核心观点围绕这一危机展开讨论。尽管原文未提供具体数据,但标题本身已点明了 AI 成本持续上升所带来的紧迫挑战。
在ChaosNLI数据集(每项100个标注)上微调NLI模型,发现所需标注人数因评估指标而异:熵相关(识别分歧项)需约20-50个标注者收敛,KL散度(分布匹配)约10个标注者即饱和(达全量效果的87%-95%)。软标签的熵相关r=0.643(p<0.001),优于五种标签平滑强度下的r≈0.45-0.49,因平滑无法区分模糊样本与明确样本。该优势在DeBERTa、RoBERTa、非NLI预训练基线及内容安全跨域评估中均成立。结论:标注预算应依据目标评估指标制定。
据 ISC 高性能大会最新 TOP500 排名,英伟达技术为全球 500 台最快超算中的 400 多台提供支持,占比 81%。其中英伟达 GPU 用于 238 台,网络连接技术用于 376 台(多数依赖 NVIDIA Quantum InfiniBand,其余用以太网)。26 台顶级超算采用英伟达 Grace CPU(增加 8 台),Grace CPU 出货量接近 250 万个。Green500 最节能超算排名中,前八名全部搭载英伟达 GPU,前十名中九台用英伟达技术。榜首是法国图卢兹大学的 NVIDIA Grace Hopper 系统 KAIROS,每瓦 73.3 gigaflops。
在今日FORCE大会媒体沟通环节,火山引擎总裁谭待回应称暂无单独拆分上市计划,字节现阶段重心聚焦豆包大模型、Seedance视频生成及企业AI原生架构落地。截至2026年6月,豆包大模型日均tokens调用量达180万亿,较发布时增长超1500倍。同日火山引擎发布豆包大模型2.1系列:Pro旗舰模型每百万tokens输入6元、输出30元、缓存命中1.2元;Turbo模型能力相近,价格减半。
Tmax是当前最强的开源终端智能体RL训练配方。仅9B参数即在下游基准Terminal-Bench 2.0上达到27%准确率,超越此前更大模型。研究团队利用难度控制、角色和验证器多样化策略生成数据,并开源了比此前任何已发布终端智能体数据集大2.5倍以上的数据集。基于该数据,使用简单的结果驱动RL训练开放权重模型。代码、数据和模型均已开源。
训练开放模型实现可靠手机操控面临真实设备慢、难重置,模拟环境不逼真的问题。PhoneBuddy提出结合真实应用与模拟环境PhoneWorld的训练方案:先共享监督微调,再对比真实RL与混合RL。在150项真实手机评估中,成功率从SFT的36.67%提升至混合RL的45.33%;在AndroidWorld上从60.3%升至83.2%。结果表明,模拟训练是真实RL的互补来源,优势在应用/小程序任务,跨应用工作流仍是开放挑战。
CLI-Universe是一个原则性合成引擎,通过多维能力分类树采样并基于真实技术材料进行证据引导深度研究,生成候选终端智能体任务。候选任务经Docker实例化后,通过rubric-gated测试构造、hint-conditional过滤和严格fail-to-pass检查等多阶段可执行验证流水线,约三分之二的候选被丢弃,仅保留真实、可验证且有难度的任务。基于此构建的6,000条轨迹数据集CLI-Universe-6K,微调Qwen3-32B后在Terminal-Bench 2.0上达到33.4%准确率,创下开源数据训练的32B及以下参数模型新SOTA,并超越多个参数规模大一个数量级的模型。
现代语言模型(Transformer、循环、记忆变体)默认在深度上均匀分配参数。固定预算下的实验表明,早期层分配更多容量、后期层更少容量可改善困惑度,反向分配则有害。基于此提出锥形语言模型(TLM)架构原则:对MLP宽度通过平滑余弦调度进行单调锥形缩减。在三种模型规模和四种架构(Transformer、Gated Attention、Hope-attention、Titans)上,TLM一致优于均匀宽度基线,提升困惑度和下游基准性能,且不增加参数或计算成本。
UniverSat是一种基于Vision Transformer的骨干网络,采用通用补丁编码器(Universal Patch Encoder),将来自任意空间、光谱和时间分辨率以及光学和非光学传感器的补丁映射到共享嵌入空间,使用共享权重。这使得单个模型能够在异构多模态数据集上通过自监督训练,生成鲁棒的传感器无关空间特征。在GeoBench、PANGEABench和SpectralEarth等标准地球观测基准的分类和分割任务中,取得了强劲结果。代码和模型已开源。
EnterpriseClawBench 是一个从专有真实工作会话档案构建的企业智能体基准,产出 852 个可复现任务,配有恢复的夹具、重写的提示词、角色类、技能子类、硬规则和语义评估细则。因含企业内部内容,不公开基准数据。在 EnterpriseClawBench 上,最佳配置(Codex with GPT-5.5)仅达 0.663。结果表明企业智能体评估必须报告多种维度(如 harness-模型组合、产物交付、视觉质量、成本、运行时和技能迁移行为),而非单一分数。代码已公开。
英国石油公司、Circle K、马拉松石油、7-11、沃尔玛及艾伯森等多家加油站运营商在加州遭车主集体诉讼,指控其使用Kalibrate公司的AI定价系统收集竞品数据,串通抬高油价,违反加州反垄断法《卡特赖特法案》及今年1月1日生效的《325号议会法案》。诉状称,大量使用该AI系统的区域油价每加仑最高上涨30美分,加州车主每年多承担1.34亿美元,部分地区油价达7美元/加仑。被告在加州经营超1700座加油站。
在线策略蒸馏异步训练中,轨迹生成与学习器更新解耦引入陈旧策略数据;KL方向决定影响:教师加权正向KL鲁棒,学生加权反向KL脆弱。异步RL稳定方法无效,反向计算当前学生信号更优。有限教师分数缓存导致稀疏采样反向KL估计器的偏差-方差权衡,多采样蒙特卡洛可降低方差。基于此,开源AsyncOPD全异步管道在严格同步训练基础上实现1.6至3.8倍吞吐量提升,精度相当。
Lite Any Stereo V2 (LAS2) 是专为零样本立体匹配设计的超高速模型系列。它采用仅2D的成本聚合框架,针对实际推理延迟而非理论MACs进行优化。训练采用三阶段策略:合成监督、自蒸馏和真实世界知识蒸馏,并通过伪标签过滤和误差钳制操作提升伪标签可靠性。LAS2包含多个前馈变体和一个迭代变体。其中LAS2-H在零样本整体性能上优于迭代方法Fast-FoundationStereo,且在H200和Orin上推理速度分别快1.8倍和2.7倍。项目页面、演示和代码已公开。
针对艺术字高度定制化的字体、纹理与布局导致的识别困难,研究构建了2M规模的合成数据集WATER-S,包含两部分:由升级渲染管线SynthWordArt生成的高精度可控数据,以及结合Qwen3-VL挖掘提示词与Z-Image图像合成生成的多样化真实感数据。同时提出WATERec模型,采用支持任意形状输入的视觉编码器与自回归解码器,突破了固定模板限制。在WordArt-Bench上达到90.40%准确率,大幅超越通用视觉语言模型和OCR专用模型。代码与数据已开源。
Meta 暂停名为“模型能力计划(MCI)”的 AI 训练项目,该项目记录员工键盘敲击和鼠标操作轨迹。此前,通过该计划收集的员工私人对话、绩效数据及语音转文字记录被意外开放给全体员工。公司发言人称已设置隐私防护机制、未发现违规调取数据,但将暂停项目并展开全面调查。此外,今年 3 月一款 AI 智能体在无指令下擅自操作引发安全漏洞,本月有黑客利用 Meta 旗下 AI 客服聊天机器人劫持大量 Instagram 账号。
Anthropic与Micron达成AI基础设施协议,包括四部分:共同设计AI内存架构、Micron多年期数据中心产品供货合同、在Micron内部署Claude、以及Micron参与Anthropic H轮融资。双方将研究不同AI负载下的内存系统行为,以提升性能与能效;Micron将供应HBM、DRAM和SSD。Anthropic联合创始人Tom Brown称内存对训练和运行Claude至关重要。Micron已内部使用Claude进行编程、制造及工程流程自动化。批评者认为此类投资-采购循环加剧泡沫风险,Micron股价一年内涨幅超1000%。
SpaceX 与开源 AI 初创企业 Reflection AI 签署算力合作协议,最高价值 63 亿美元。Reflection 将立即获得英伟达 GB300 AI 芯片使用权,自 2026 年 7 月 1 日至 2029 年底每月支付 1.5 亿美元。合约生效满三个月后任一方可提前 90 天终止。SpaceX 此前已与 Anthropic、谷歌和 Cursor 达成合作,马斯克旗下公司正收购 Cursor。Reflection 专注于开源模型,正与美国能源部“创世纪计划”合作并参与五角大楼 AI 计划。
美光科技与 Anthropic 宣布战略合作,将共同研究 HBM、DRAM 及 SSD 在 AI 训练和推理中的应用,优化性能与能效。双方签署长期内存和存储供应协议,为 Anthropic 算力扩张提供支持。美光已在内部部署 Claude 模型用于代码编写和工程设计。此外,美光参与了 Anthropic 的 H 轮融资,深化下一代 AI 基础设施合作。
百度智能云「图云」推出充电站智慧选址产品,基于时空智选大模型,整合覆盖全国98%公共充电站动静态数据、人地大数据(常驻人口、客流热力、交通热力、用户画像等)及电网数据。提供从城市宏观大屏到点位级评估报告的全链路工具,对候选点位输出0-10分综合评分,从充电需求、交通条件、竞争情况、商业配套多维度量化打分并解释评分依据。已落地试点,旨在助力充电运营商精准布局、供电企业科学审批、政府优化基建规划。
一个个人项目通过微调仅 600M 参数的 Qwen 3:0.6B 模型,将其作为家庭问题分类器。基线测试中,仅靠提示词的原始模型在 131 条测试中仅正确分类 13 条(约 10%)。使用 Unsloth 框架和 QLoRA 微调后,准确率提升至 79%。进一步将分类标签改为无语义重叠的两字符不透明 ID(如 hvac 改为固定代码),准确率升至约 92%。训练数据集约 850 条,按 70/15/15 分割。项目同时使用 Qwen 3:4B 作为通用问答模型。
郭明錤6月22日称,谷歌将在TPU v9基础上升级推理优化版,代号或为“Triggerfish”,由联发科独家接单。该芯片旨在缓解“CPU墙”与“内存墙”,片内SRAM缓存为原版2~3倍,片外DRAM升级至HBM4E。预计2027年底投产、2028年底放量,生命周期出货100~200万颗,单价高出约三成。此外引入“simulation die”,可能用于本地TPU管理、训推切换等。
程序性记忆可帮助LLM智能体在重复工作中产生可复用技能,但其迁移能力尚不明确。AFTER基准包含382个真实企业任务,覆盖6种职业角色和22个程序性技能,评估跨任务、跨角色、跨模型的技能迁移。实验表明,单轮优化使整体性能提升3.7–6.7个百分点;基于多模型执行轨迹演化的技能在跨模型测试中达到73.1%准确率,优于所有单模型轨迹。部分技能可广泛泛化,另一些则专化于特定角色流程,迁移后效果下降。这些结果为生产级智能体平台构建和部署程序性记忆系统提供了实践指导。
同策略蒸馏平等对待所有学生生成输出。实验发现,仅用错误输出训练效果优于仅用正确输出,因错误输出保留模型能力边界附近的探索性推理。为此,ReNIO利用学生-教师概率比识别导致错误推理轨迹的关键token,聚合为归一化样本权重,无需观测最终答案正确性即可自动赋予负轨迹更高权重。在数学推理和代码生成任务上,ReNIO同时提升同策略蒸馏和同策略自蒸馏,对Qwen3-1.7B最高提升8.90%,对R1-Distill-Qwen-7B最高提升10.00%。代码已开源。
联邦学习(FL)中的潜扩散模型(LDM)面临恶意客户端未经授权分发或转售全局模型的风险。现有基于VAE的水印方法无法追踪具体违规客户端,且可通过替换解码器轻易移除。为此提出FedOT框架,设计分块水印:第一部分用于所有权验证,第二部分用于客户端身份识别;同时引入潜向量变换(LVT),修改VAE原始潜分布以强化VAE与U-Net潜空间连接,使任何替换VAE去除水印的尝试都会导致图像质量严重下降,令模型不可用。实验表明FedOT在所有权验证和可追溯性上均取得优异性能。
一篇文章通过亚马逊搜索“100000 whys”后出现的约150本儿童书籍封面拼图指出,这些封面高度雷同——如几乎所有顶部封面左上角都有一只咆哮的恐龙,以及反复出现的红白火箭、金毛犬、狮子等图案——正是AI生成内容的典型产物。作者认为LLM写作的独特之处不在于个体风格与人类不同,而在于它们面对几乎任何普通提示词都会调用同一套复杂手法,导致输出呈现准确定性相似。这种模糊信号在随意场景中可凭直觉识别,且随着内容生产成本远低于消费成本,这种直觉愈发重要。
VLA模型部署受执行效率制约,现有工作多聚焦单步推理延迟,未充分探索内在策略效率。PolicyTrim提出基于强化学习的后训练框架,通过动态探索策略奖励更长可执行动作块长度,并设计冗余感知奖励减少冗余物理步。在三个基准与三个VLA模型上,动作块利用率提升3倍,物理执行步减少51.4%,端到端部署速度提升5.83倍,任务成功率未受影响。
前OpenAI员工Thomas Dimson和Joey Flynn创建了In the Weights网站。该网站向Grok、Gemini、多个GPT版本(包括GPT-5.4 Mini)、Claude、Llama等模型提问“Who is [姓名]?”,聚类描述后生成强度分数,以衡量一个人被AI模型“记住”的程度。测试显示作者得分641(前6%),榜首Macaulay Culkin得分988。网站还会列出返回结果的模型并标注潜在幻觉,例如GPT-5.4 Mini对Anthony Ha的描述。该工具意在替代传统Google vanity search,因为流量正转向大语言模型。
《大西洋月刊》记者Alex Reisner发现四个用于训练AI模型的音乐数据集,并使其可公开搜索。其中两个数据集规模巨大,分别包含1200万首和900万首曲目;另外两个各超过10万首。这些数据集已被下载数千次,谷歌与Stability已在研究论文中确认使用。部分数据来源(如Free Music Archive)供个人免费使用,但商业应用需获许可。三个数据集以YouTube或Spotify链接列表形式分发,AI开发者使用自动化工具绕过登录和广告下载实际音频,此举违反平台服务条款。用户可访问《大西洋月刊》AI Watchdog网站搜索相关歌曲、书籍等训练素材。
2022-2023年Meta的Llama架构还是干净的重复Transformer模块,如今LLM已复杂:多种注意力变体(查询分组、压缩、稀疏、线性、滑动窗口等)、混合专家从FFN扩张到注意力块和残差流、视觉/音频编码器从外挂变为融合、多GPU推理引入通信操作。Seb Raschka的架构图库可对比Llama 3与Nemotron 3 Ultra。PyTorch的FlexAttention通过Triton模板生成可组合注意力核。Andrej Karpathy加入Anthropic,强调架构可组合性与智能体自动研究循环的重要性。
Data2Story是牛津和斯坦福研究人员基于Claude Code构建的技能,通过Detective、Analyst、Editor、Designer、Programmer、Auditor、Inspector七个专用AI智能体,将CSV文件自动生成包含研究背景、统计图表和可追溯来源的交互式在线文章。核心“检查员”面板为每个声明和图表提供结构化证据,93%的可见陈述可溯源(人类文章基线为25%)。在53位读者对18个数据集的评测中,AI文章在视觉设计、叙事节奏、数据透明度、可验证性和洞察力五个类别均胜出,74%的读者更偏好AI版本。但人类在编辑视角、创意设计和密集图形方面仍保持优势。项目已开源。
本教程使用TimeCopilot构建端到端预测工作流。安装TimeCopilot等库后,加载AirPassengers数据集及合成季节序列(注入三处异常)。配置统计模型(AutoARIMA、AutoETS、SeasonalNaive、Theta)、Prophet和基础模型(Chronos,根据GPU选用amazon/chronos-bolt-small或tiny,可选TimesFM)。通过滚动交叉验证和RMSE等指标评选最优模型,生成概率预测与预测区间,可视化未来趋势并检测异常值。可选LLM智能体自动选择模型并输出分析响应。
GLM-5.2(MIT开源,753B参数,约40B活跃)在AA Intelligence Index上仅比GPT-5.5低4分、比Claude Fable 5低9分,但其幻觉率仅28%,远低于GPT-5.5的86%和DeepSeek V4 Pro(1.6T参数,49B活跃)的94%。后者在AA-Omniscience基准上仅6%的问题会承认不知道。实际代码测试中,GLM-5.2用12秒和800个推理token识别出技术悖论,而DeepSeek V4 Pro耗费3分26秒和近10倍推理token后仍给出错误答案。模型规模增长正导致幻觉率飙升而非智力提升。
同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》6月19日,x86生态系统咨询小组(EAG)发布ACE规范1.15,通过原生矩阵乘法引擎和低精度格式增强x86 AI性能。ACE在AVX向量指令基础上新增图块寄存器状态,并纳入AVX10下的格式转换指令。支持INT8、INT32、FP32、BF16、FP16、E8M0、FP8及MX联盟定义的多类MX格式。部署上,AMD Zen 6将引入新AI数据类型,Zen 7配备新矩阵引擎与AI数据格式扩展。英特尔与AMD于2024年联合成立EAG。
OpenBioRQ 是一个包含 12,553 个未解决生物医学研究问题的智能体基准测试,覆盖 12 个领域。问题无固定答案密钥,迫使模型通过多步工具调用自主验证证据,从而评估其真实性及弃权能力。当前智能体极少捏造引用(超 99% 可解析),但约 15.9% 的链接指向无关论文。难度锚定在三个开源模型都无法回答的问题上;在最难子集中同系列模型仅解决约 17%,而前沿智能体(Gemini-3-Pro、Opus-4.7、GPT-5.5)表现跨度达 29-60%。困难问题中出现“智能体崩溃”——模型停止使用工具。引入冻结的每问题检查表后,评分者间一致性从 Spearman 0.35 提升至 0.82。
论文以九个确定性生成器推理任务为测试床,证明可验证搜索无法作为可学习的CoT进行蒸馏。Cryptarithm任务中,即使backbone规模从3B到671B、采用多种CoT设计、基于可验证奖励的强化学习和自训练,蒸馏后准确率始终为0.01–0.07,而搜索求解器回答71%实例。模型能正确计算97–100%的算术步骤并将正确密码排在候选前八(71%),但无法前向推导。干预实验揭示密码键后,同一实例准确率从0.03提升至0.57。只有移除搜索、预计算组合核心为目录,让模型仅做回忆加验证,才能学会该任务(Private LB 0.92)。结论:蒸馏学到的是记忆和验证,而非搜索。
BioMatrix采用单一解码器架构,通过统一token化方案将分子序列(SMILES/SELFIES)、分子结构、蛋白质序列、蛋白质结构和自然语言映射到共享离散token空间,所有模态均以下一个token预测目标生成。模型基于Qwen3(1.7B和4B),在3044亿tokens上预训练。在80项下游任务中,BioMatrix在77项上达到最优或竞争力水平。
智能的一种定义是样本效率,但近年AI进步主要靠扩充数据分布和增加算力。强化学习本质是合成数据生成——投入大量算力通过验证器筛选“好”数据,再训练模型预测正确输出。这一过程需要每个领域和技能的海量人类专家示例,数据行业年收入已达数十亿美元。近日Epoch报告,开源模型仅落后前沿闭源模型4个月,原因在于数据可从公开API蒸馏,而超参数等不易复制。人类一生接触约2亿token,前沿模型训练在数十到数百T token之间,相差近百万倍——机器人、自动驾驶等领域同样存在巨大效率差距。
GitHub 内部开发了 Qubot,一个由 Copilot 驱动的数据分析智能体。员工可以用自然语言直接提问公司数据,无需编写 SQL 或使用 BI 工具。团队在构建过程中积累了关于设计、集成和用户体验的经验。