6月11日,IDC报告显示2025年中国零售信贷智能风控解决方案市场规模达74.23亿元,同比增长13.5%。百度智能云在决策工具及服务市场位居第一,收入翻倍,服务客户数同比增长近100%,覆盖超800家金融机构。其推出首个可商用自我演进超级智能体“伐谋”,涵盖挖掘、模型、策略三大模块;与中信百信银行合作“AlphaMo”项目实现特征挖掘效率提升320%,风险区分度提升10%。另推出反代理投诉、资质预测、涉农评分等产品,依托千帆大模型与胜算数据平台推动决策工具向自主决策演进。
6月11日,IDC报告显示2025年中国零售信贷智能风控解决方案市场规模达74.23亿元,同比增长13.5%。百度智能云在决策工具及服务市场位居第一,收入翻倍,服务客户数同比增长近100%,覆盖超800家金融机构。其推出首个可商用自我演进超级智能体“伐谋”,涵盖挖掘、模型、策略三大模块;与中信百信银行合作“AlphaMo”项目实现特征挖掘效率提升320%,风险区分度提升10%。另推出反代理投诉、资质预测、涉农评分等产品,依托千帆大模型与胜算数据平台推动决策工具向自主决策演进。
构建了一个端到端空间图学习流程,使用city2graph从OpenStreetMap收集城市POI和街道网络数据,并以合成回退保障可靠性。工程化空间特征后,构造多个邻近图族并比较各自对同一城市环境的表征能力。随后将异质图和同质图转换为PyTorch Geometric格式,训练GraphSAGE模型从空间结构预测POI类别。
RL4IL是一种强化学习引导的模仿学习方法,通过近端策略优化对广度优先搜索候选集排序,并利用软交叉注意力融合头部聚合
多模态大语言模型(MLLM)能描述图像间的属性差异用于类别预测,但现有视觉编码器仅依赖标量类标签监督。SAGA框架采用组相对策略优化(GRPO)奖励冻结MLLM对编码器token的正确预测,迫使编码器编码具体匹配或差异属性,替代均匀标量监督。结合辅助注意力蒸馏损失与度量学习损失,推理时丢弃MLLM,部署成本与基线一致。在CUB-200-2011、Cars-196、FGVC-Aircraft和iNaturalist Aves的零样本图像检索中,SAGA将Recall@1提升3到6个百分点。
混合语言模型结合全注意力与高效注意力模块(如SWA),但高效模块对模型能力的影响不明确。系统分析从缩放、机制和架构三角度揭示:高效设计主要影响长上下文能力涌现速度,充分训练后不同架构性能可比;长距离检索由全注意力承载,高效注意力塑造其优化轨迹,解释“大窗口懒惰”现象;对小窗口SWA混合的全注意力层仅应用NoPE可显著提升长上下文性能,短上下文影响极小。
CODA-BENCH 是首个同时评估代码智能体在代码与数据两方面能力的基准测试,专为数据密集型环境设计。该基准基于 Kaggle 生态系统搭建,包含数百个数据集,共 1009 个任务,覆盖 31 个社区。每个任务环境平均拥有 980 个文件,模拟真实的数据规模与噪声。对现有高级智能体的评估显示,即使表现最佳的系统也难以有效整合数据发现与代码执行,成功率仅为 61.1%,暴露了当前智能体在处理数据密集型任务时的能力缺口。
🚀 Introducing Gemini-SQL2, our breakthrough text-to-SQL capability powered by Gemini 3.1 Pro! We've achieved state-of-t...
6月12日,名为 Maxproof 的论文在 arXiv 上发布,并在 Hacker News 上获得 100 点热度。
derivation of Policy Gradient.
沐曦股份董事会通过议案,拟发行H股并在香港联交所主板上市,初始发行规模不超过发行后总股本的5%,另设不超过15%的超额配售权。募集资金将用于新一代通用GPU研发、MXMACA软件生态建设、产业链投资等。该公司于2025年12月在科创板上市,2025年营收16.44亿元同比增121.26%,GPU累计销量超5.5万颗;2026年一季度营收5.62亿元同比增75.37%。新一代训推一体GPU曦云C600已量产销售。
该教程使用MONAI框架在Medical Segmentation Decathlon Task09数据集上搭建了端到端的三维医学图像分割流程。处理对象为脾脏的CT容积扫描,依次应用方向对齐、体素间距归一化、强度窗值调整、前景裁剪和基于补丁的采样等医学影像变换,最后训练一个3D UNet模型用于分割。
Avataar AI 推出蒸馏视频生成模型,专为印度的大规模应用打造,定价为每生成一秒视频 0.005 美元。该模型主打更廉价、更快速且具有文化意识,旨在适应印度本地需求。
科学实验室的机器人操作需要VLA模型,但现有模型多训练于家居场景,缺少实验室专用数据和多形态机器人支持。研究者构建仿真数据引擎RoboGenesis,从原子技能组合生成结构化演示;并提出LabVLA模型,采用两阶段训练:先用FAST动作token预训练使Qwen3-VL-4B-Instruct骨干具备动作感知能力,再通过流匹配后训练附加知识隔离的DiT动作专家。在LabUtopia基准上,LabVLA在分布内和分布外设置下均取得所有基线中最高的平均成功率。
WEAVER是一种多视图世界模型架构,通过流匹配损失训练预测未来潜变量和奖励值,满足保真度、一致性和效率三个要求。在机器人操作任务上,WEAVER在政策评估中与真实成功率的相关系数ρ=0.870,在π₀.₅基础模型基础上实现政策改进成功率提升38%,测试时规划成功率提升14%,且速度比先前世界模型快5–10倍。在分布外场景下表现也优于先前世界模型。代码、模型和视频已开源。
消息称,谷歌正与三星晶圆代工部门洽谈生产其自研 TPU 芯片。目前谷歌第七代 Ironwood TPU 超 60% HBM 由三星提供。内部人士透露,谷歌推进代号“冰鱼”的 TPU v10,其计算引擎仍由台积电代工,而内存 I/O Die 可能交由三星 2nm 工艺生产。TPU 性能与英伟达 H100 相当,成本降低约 80%。双方尚未签署正式协议。
FASTMIX是一个自动化数据混合发现框架,只需训练单个代理模型,即可通过梯度下降联合优化混合系数和模型参数。该方法将混合选择重新表述为双层优化问题,将混合系数嵌入可微的迭代优化目标中,交替更新模型参数和混合比例。在预训练和后训练场景中,FASTMIX均优于基线方法,同时大幅降低搜索成本。
ViT-Up提出隐式特征上采样框架,利用中间ViT隐藏状态构建逐层查询,替代外部图像引导,可在任意连续坐标预测特征并保持与骨干特征空间对齐。在密集预测和语义对应任务上,ViT-Up一致优于现有图像引导上采样方法:在DINOv3-S+骨干上,Cityscapes提升+2.07 mIoU,SPair-71k提升+4.17 PCK@0.10;在DINOv3-B骨干上,提升分别达+3.36 mIoU和+8.09 PCK@0.10,表明ViT-Up随骨干容量增长性能更优。
AdaSR 是一个自适应流式推理框架,使大语言模型在输入持续到达时边接收边思考,并在流结束后进行最终推敲。它引入分层相对策略优化(HRPO),将策略优化分解为流式推理和深度推理两阶段,提供更细粒度的优势分配,取代传统单一序列级奖励。HRPO 综合格式、准确性和自适应思考奖励,确保推理协议有效、保持最终性能并鼓励延迟感知的计算分配。实验表明,相比监督微调基线,AdaSR 在推理准确性、计算效率和流式延迟间取得更优平衡。代码已开源。
ClinHallu是一个面向医疗多模态大语言模型(MLLM)的阶段性幻觉诊断基准。该基准包含7031个经过验证的实例,每个实例都带有结构化的推理追踪,分解为视觉识别、知识召回和推理整合三个阶段。通过阶段替换干预,可测量修正特定阶段对最终答案的影响。实验表明,追踪监督微调能减少阶段性的模型幻觉。ClinHallu为诊断和缓解医疗MLLM中的推理故障提供了细粒度的测试平台,并已公开提供。
将GRPO直接用于GUI定位时,单视图采样会导致困难实例全失败、简单实例全成功,无法产生有效相对优势。VISTA提出GRPO训练框架,从同一GUI实例的多个目标保留视图中构建对比组——每个视图通过裁剪保持目标元素可见并精确重映射边界框。VISTA还引入自验证交叉视图锚点,使用优势加权损失优化Oracle答案,不纳入群组基线。在五个GUI定位基准和多种Qwen骨干上,VISTA一致提升精度:ScreenSpot-Pro上,Qwen3-VL 4B/8B/30B-A3B从55.5/52.7/53.7提升至63.4/65.8/67.0。鲁棒性分析显示更高最差视图准确率和更低预测翻转率。
针对视频-音频问答中跨模态关联薄弱、长程时序连接不足的问题,提出自动数据引擎,包含实体锚定视频脚本化(生成摘要、主实体列表和片段描述)和线索引导QA生成两个机制。基于该流程构建指令微调数据集OmniVideo-100K及人工测试集OmniVideo-Test。在VITA-1.5、Qwen2.5-Omni-7B和Qwen3-Omni-30B上微调后,OmniVideo-Test性能最高提升20.59%,在Daily-Omni、JointAVBench等基准上最多提升12.64%。
该论文提出SIA框架,让AI自动循环改进:一个观察者AI监控任务代理的表现,然后修改其外部设置(提示词、工具、重试规则、输出解析)或通过LoRA权重更新训练模型本身,模型主体不变,仅适配器从任务反馈中学习。在三个任务上测试:中文法律罪名分类(LawBench达70.1%)、GPU内核速度调优(生成代码优于此前最佳)、单细胞RNA降噪(得分0.289)。综合版本在所有任务上超越仅修改设置的方案,表明权重更新能帮助模型学到提示和工具无法发现的模式。
现代LLM训练管线日益依赖其他模型生成数据、过滤语料、评判输出,形成递归依赖,但完整依赖结构分散在不同公共工件中,复杂度和递归深度远超人工追踪能力。本文提出ModSleuth,一个能从公共工件递归重建LLM依赖图并附源证据的智能体系统。对4个LLM发布的分析,恢复1060个源验证依赖,构建了大规模依赖图,揭示了多跳许可证义务、训练-评估耦合、发布版本与训练版本不一致及文档不一致等问题。ModSleuth及依赖图已开源。
#4: fart fishing Buried in Dolci is a cluster of very specific fan fiction, where characters fart in ponds, causing fish...
APEX 是一个网络原生、仅解码器的 Transformer 模型,专用于企业无线接入点(AP)遥测的预测与异常检测。它在约 4,500 个生产无线网络的 10 通道多元遥测数据上预训练,涵盖约 10 万条 AP 时间序列、每 AP 34 个指标。提供两个版本:APEX-Large(269M 参数,云部署)和 APEX-Edge(10.5M 参数,边缘部署)。在 192 步(4 天)的 DHCP 退化基准上,APEX-Large 比最强基础模型基线 Toto 降低 MAE 18%,比 SARIMA 降低 38%,异常检测 F1 达 0.93;APEX-Edge 可在 AP 级边缘硬件上实现亚秒级、保护隐私的推理。结果表明网络原生预训练是主动无线运维的实用基础。
Have you debugged your training data? You might not like what you find. Introducing predictive data debugging: reveal an...
杰夫·贝佐斯旗下AI公司Prometheus在成立仅7个月、尚无任何产品交付的情况下,以410亿美元估值完成120亿美元融资(最初估值62亿美元)。该公司定位为“人工通用工程师”,目标是将设计到制造的循环压缩10倍以上。但物理经济无法像互联网数据那样抓取,缺乏制造业训练数据。为此,Prometheus计划斥资1000亿美元收购传统工业企业,通过获取工厂生成的数据构建护城河。
关联讨论 2 条X:Rohan Paul (@rohanpaul_ai)TechCrunch:AI(RSS)Xebia全球CTO Niels Zeilemaker指出,为组织引入AI智能体加速流程必须从数据基础着手——让数据可供AI消费。Agentic AI的规模取决于数据强度,忽视这一点将无法推进。
ART(Art-based Reinforcement Training)是一种参数高效微调方法,通过仅优化冻结多模态大语言模型的原始视觉输入(像素阵列)来注入信息,无需修改预编译计算图,从而可在 vLLM 等高性能推理引擎上以软提示方式运行。ART 支持任意微调目标,优化后的视觉输入可被风格化为计算艺术作品。在开源 Qwen 架构的不同规模模型上,ART 在数学和结构化工具使用基准测试中达到了与 LoRA 相当的准确率。
阿里云宣布推出ApsaraDB Enterprise Agents,即内置于数据库中的AI原生智能体,可自主执行分析、治理、数据准备等运维任务,无需人工干预;具备企业级安全能力(细粒度访问控制、数据脱敏、token管控),并能自我学习适应。相关活动将于2026年6月24日10:00(UTC+8)线上举办,时长30分钟。
千问上线首个足球预测AI助手,基于海量大数据(含历史比赛、球员数据、伤病、美加墨地貌及天气等)。以6月22日挪威对塞内加尔为例,预测“1:1平局”,理由为气候差异。活动:参与全部104场竞猜,预测超80场且准确率超千问可抽万元大奖(100个名额);预测超32场可抽千问AI眼镜G1(1000副),该眼镜支持赛后分析、拍屏识球员及赛事结果订阅。累积积分将向乡村学校捐建足球场,目标至少50所。
精灵宝可梦GO的扫描功能被用于训练军用无人机的导航技术。该游戏通过玩家提交的地理位置和扫描数据,帮助优化无人机在复杂环境中的自主导航能力。
SK集团会长崔泰源接受《日本经济新闻》专访称,若建设计划顺利,SK海力士晶圆产能到2034年将是当前三倍。SK集团计划于2028~2029年在日本建成AI工厂数据中心,正寻找GW级电力供应位置。崔泰源称日本半导体生态系统良好,是韩国外建晶圆厂的理想候选地之一,但当下非决策时机。SK与铠侠存在竞合关系,希望人员、研发和生态合作;对Rapidus随时准备合作。崔泰源认为AI技术仍处早期,当前投资多来自企业端,未来个人AI智能体将带动算力需求提升。