开发者已在 Codex CLI 中成功运行 Gemma 4 作为本地模型,实现无需云端连接的离线代码辅助功能。该技术方案将谷歌开源大模型与命令行编程工具集成,允许用户在本地环境直接调用 AI 完成代码生成与编辑任务,为注重数据隐私和低延迟需求的开发场景提供了替代方案。
软银正联合日本钢铁巨头、汽车制造商及银行等工业精英,共同构建日本自主的 AI 基础模型,旨在降低对美国和中国技术的依赖。这一跨行业协作通过整合本土产业资源打造替代方案,以应对当前由美中主导的全球 AI 格局,标志着日本寻求 AI 技术主权的重要尝试。
OpenAI 在伦敦启用新办公地点,办公空间规划容纳超过 500 名员工。这一容量是其目前在伦敦约 200 人团队规模的两倍以上,标志着该公司在英国业务的显著扩张,新办公室将为 OpenAI 在欧洲市场的进一步增长提供基础设施支持。
彭博社记者Mark Gurman披露,苹果正在研发一款完全舍弃显示屏的智能眼镜,转而将其定位为纯AI可穿戴设备。与传统AR眼镜不同,该设备不配备视觉显示功能,而是专注于人工智能交互能力。此举显示苹果正积极布局AI硬件赛道,寻求在可穿戴设备领域的创新突破。目前具体发布时间尚未公布。
Anthropic 为 Claude 推出 Word 插件,补全了其在 Microsoft Office 生态的布局。此前,Claude 已支持 Excel 和 PowerPoint,此次新增 Word 后,用户可在文档编辑、数据处理及演示制作全流程中调用该 AI 助手,实现三大主流 Office 应用的完整覆盖。
苹果在生成式AI竞赛中虽被贴上"输家"标签,却可能凭借隐私优先策略与设备端计算能力构建意外护城河。不同于依赖云端的竞争对手,苹果通过Apple Intelligence将AI处理留在本地,利用其超过20亿活跃设备的生态系统优势,以低硬件成本实现AI功能普及。这种"边缘计算"模式不仅规避了数据隐私风险,更可能重塑AI部署的经济模型,使苹果在AI应用落地层面实现差异化胜出。
AMD 凭借 ROCm 开源平台采取"循序渐进"策略挑战 NVIDIA CUDA 的垄断地位,通过逐步完善编译器、库及硬件支持,为 AI 与高性能计算领域构建替代生态。
Claudraband 是专为高级用户设计的 Claude Code 增强工具,针对专业开发者优化,已开源至 GitHub。
正式发布 v2.1.104 版本。当前发布说明中未提供具体的更新内容、变更日志或技术细节,未包含功能改进、问题修复等相关信息。建议查阅版本控制系统的提交历史或联系维护者以获取完整的版本变更详情。
科技公司估值现已回落至 AI 热潮前水平。Apollo Academy 分析指出,市场对科技板块的估值已回归至人工智能爆发前的理性区间。
研究人员针对大语言模型在异构任务中的记忆提取难题,提出基于聚类的自进化策略CluE,并发布涵盖18个数据集的BEHEMOTH基准测试。该基准覆盖个性化、问题解决和智能体任务,采用下游效用驱动指标评估。实验表明,传统静态提示无法跨任务通用,现有自进化框架在异构场景下性能衰减,而CluE通过分簇独立分析与跨簇综合优化,实现9.04%的相对性能提升,有效解决了异构任务中的记忆提取挑战。
针对社交媒体点赞数、公共租赁自行车数量等整数标签预测场景,研究提出直接采用离散分布建模以避免传统回归将离散分布连续化的缺陷。为满足神经网络反向传播需求,团队评估了多种参数连续的离散分布方案,在表格学习、序列预测和图像生成任务中发现,Bitwise分布(将整数按比特分解并施加伯努利分布)与离散拉普拉斯分布变体(围绕连续均值的指数衰减尾部分布)整体性能最优。
研究团队推出80亿参数视听语言模型OmniScript,专攻长电影视频理解与新提出的视频到剧本(V2S)任务。该模型通过思维链监督微调与分段奖励强化学习训练,可生成包含角色动作、对话及音频提示的时序化分层剧本。实验显示,尽管参数规模较小,OmniScript在时间定位与语义准确性上不仅超越更大规模开源模型,更达到与Gemini 3-Pro相当的水平。
研究团队发布 TIPSv2 图像-文本编码器模型家族,针对密集 Patch 表示与文本嵌入对齐难题提出多项改进。核心创新包括 iBOT++ 训练目标(让未掩码 token 直接参与损失计算)、Patch 级蒸馏技术(学生模型对齐能力竟超越教师模型)、优化指数移动平均机制及多粒度合成 Caption 采样策略。在涵盖 9 项任务和 20 个数据集的综合评测中,TIPSv2 性能与近期主流视觉编码器相当或更优。
研究团队推出Re2Pix分层视频预测框架,将预测任务分解为语义表示预测与表示引导的视觉合成两阶段。该方法先在冻结视觉基础模型的特征空间中预测未来场景结构,再基于这些表示通过潜在扩散模型渲染真实帧。针对训练与推理时的表示不匹配问题,引入嵌套dropout和混合监督两种条件策略。在自动驾驶等复杂动态环境基准测试中,该语义优先设计显著提升了时间语义一致性、感知质量和训练效率。
研究人员提出 Byte-Level Distillation(BLD)基线方法,通过字节级接口解决跨分词器蒸馏(CTD)难题。该方法将教师模型输出分布转换为字节级概率,并为学生模型附加轻量级字节解码头进行知识迁移。在1B至8B参数模型的多项蒸馏任务中,这一简单方案的性能与复杂方法相当,并在多个基准上实现超越。研究表明字节级别可作为跨分词器知识迁移的自然基础,但CTD仍是待解决的开放问题。
研究团队提出 ArcDeck 多智能体框架,将论文转幻灯片任务重新定义为结构化叙事重建问题。与直接总结原文的现有方法不同,ArcDeck 通过解析输入构建话语树和全局承诺文档来显式建模论文逻辑流,并指导多智能体迭代优化演示大纲,最终渲染视觉布局。团队同时发布 ArcBench 基准测试集。实验表明,显式话语建模与角色特定智能体协调能显著提升生成演示的叙事流畅度和逻辑连贯性。
研究人员提出人类中心区域适应新范式,设计GG-EZ方法优化多模态视觉语言模型的区域文化适应性。该方法通过区域数据过滤与模型合并,在三类架构(大视觉语言模型、文生图扩散模型、视觉语言嵌入模型)上验证,以东南亚为案例实现文化相关性提升5-15%,同时保持98%以上全球泛化性能甚至偶尔超越原模型。研究确立了人类中心区域对齐作为多模态模型区域应用的基础范式。
本文提出一种利用预训练生成模型实现HDR视频生成的方法,无需重新设计模型架构。核心发现是,对数编码可将HDR图像映射至与模型潜在空间自然对齐的分布,仅需轻量级微调即可适配,无需重新训练编码器。此外,基于相机模拟退化的训练策略使模型能从学习先验中推断缺失的高动态范围细节。实验表明,该方法在多样场景和复杂光照条件下均能生成高质量HDR视频,证明通过合适的表示对齐即可有效处理HDR内容。
开源框架SemaClaw针对AI工程范式从提示词工程向Harness工程(构建可控、可审计的生产级基础设施)的关键转变,推出面向通用个人AI代理的解决方案。该框架采用基于DAG的两阶段混合智能体团队编排方法,集成PermissionBridge行为安全系统与三层上下文管理架构,并配备可自动构建个人知识库的agentic wiki技能,旨在实现人机交互从离散任务执行向持续上下文感知协作的跨越。
研究人员对Google Gemini 2.5 Flash和Flash Lite在视频场景理解中的内部推理轨迹(思维流)进行基准测试,基于100小时视频提出内容丰富度、思维-最终输出覆盖率和主导实体分析三项指标。实验发现,增加思考长度带来的质量提升在最初几百个token后迅速趋于平缓,Flash Lite在质量与token消耗间达到最佳平衡。研究还揭示,当推理预算受限时,模型会在最终输出中添加未经推理的内容,产生"压缩步骤幻觉";Flash倾向于讨论推理过程,而Flash Lite更专注于场景描述。
针对大语言模型在低资源语言中安全漏洞显著的问题,研究者提出LASA(语言无关语义对齐)方法。该方法基于模型中间层"语义瓶颈"的发现——此处表示几何由共享语义而非语言身份主导——将安全对齐直接锚定于语言无关的语义空间。实验表明,LASA使LLaMA-3.1-8B-Instruct的平均攻击成功率从24.7%降至2.8%,Qwen2.5与Qwen3系列模型(7B-32B)的ASR稳定在3-4%。
研究团队推出3DTV前馈网络,实现实时稀疏视角插值与视图合成。该方法结合轻量级几何与深度学习,通过Delaunay三元组选择确保角度覆盖,并引入姿态感知深度模块估计多尺度深度金字塔,支持高效特征重投影与遮挡感知混合。与需要场景特定优化的方法不同,3DTV无需再训练即可前馈运行,在挑战性多视角视频数据集上质量与效率均衡,性能优于现有实时基线,适用于AR/VR、远程呈现等低延迟交互场景。
大型视觉语言模型存在"语义固着"现象:即使提示指定替代规则,仍固守默认语义解释。研究提出VLM-Fix基准(四种抽象策略游戏),评估14个模型发现准确率显著偏向标准规则。实验表明,中性别名提示可缩小逆向规则差距,语义负载别名则扩大差距;单规则训练损害相反规则迁移,联合规则训练改善广泛迁移。后期层激活干预可部分恢复性能,表明该错误可在模型后期表征中编辑。
针对触觉定位任务,本文提出通过密集跨模态特征交互学习局部视觉-触觉对齐的模型,生成触觉显著性图实现触摸条件材料分割。为克服现有数据集特写镜头单一、多样性不足的限制,研究引入野外多材料场景图像及材料多样性配对策略,将触觉样本与视觉多样但触觉一致的图像对齐以增强上下文定位能力。此外构建了两个新的触觉材料分割数据集用于定量评估,实验结果表明该方法显著优于现有视觉-触觉方法。
研究团队提出一种判别式多模态奖励模型,可在单次前向传播中同时评分多个候选回复,突破传统方法需多次推理的局限。该设计通过分隔符连接多回复实现直接比较推理,带来N倍速度提升与FLOPs降低。基于4B视觉语言架构,该模型在六个基准测试中达到SOTA,包括新构建的MR^2Bench-Image(覆盖8个模型)和MR^2Bench-Video(基于94K众包判断的19个模型视频基准)。应用于GRPO强化学习时,其在训练稳定性和开放式生成质量上显著优于单回复奖励模型基线。
研究团队发布LARY基准,统一评估潜在动作表示在高层语义动作与低层机器人控制上的性能。该基准整合100万段视频(1000小时)涵盖151个动作类别,以及62万图像对和59.5万条运动轨迹。实验表明,未经动作监督训练的通用视觉基础模型持续优于专门的具身潜在动作模型,且潜在视觉空间比像素空间更适配物理动作空间。这证实通用视觉表示已内在编码物理控制所需的行动知识,语义级抽象是比像素级重建更有效的视觉-动作映射路径。
研究团队推出RoMem时序知识图谱模块,采用连续相位旋转机制替代传统离散时间标签。预训练语义速度门为不同关系分配波动率分数,使"总统"等易变关系快速旋转而"出生地"等持久事实保持稳定,通过几何阴影遮蔽过时信息而非直接删除。该方法在ICEWS05-15数据集取得72.6 MRR的SOTA成绩,应用于智能体记忆时在MultiTQ时序推理任务实现2-3倍MRR提升,并在LoCoMo、DMR-MSC及FinTMMBench基准测试中展现零退化与零样本泛化能力。
本文提出Distortion Graph(DG)任务,将图像对表示为基于区域的结构化拓扑,以图结构编码失真类型、严重程度及质量评分。工作贡献包括区域级数据集PandaSet、多难度基准PandaBench及高效架构Panda。实验表明,当前多模态大语言模型难以处理区域级失真,而基于PandaSet训练或DG提示可有效激发区域级理解能力,为细粒度结构化图像质量评估提供新方向。
研究团队提出了一种基于长期运动嵌入的高效运动生成方法,通过从大规模轨迹数据中学习高度压缩的运动表示,实现64倍时间压缩。该方法直接在运动潜空间上操作,而非合成完整视频,效率提升数个数量级。团队训练了条件流匹配模型,支持通过文本提示或空间戳记指定生成目标。实验表明,生成的运动分布在性能上超越了最先进的视频模型和专用任务方法,可生成长时间、真实的运动序列。
针对移动GUI智能体忽视用户隐私个性化需求的问题,研究者提出轨迹诱导偏好优化框架TIPO。该方法通过偏好强度加权突出关键隐私步骤,并采用填充门控抑制对齐噪声,有效解决了隐私优先与效用优先用户间轨迹结构异质性导致的优化不稳定难题。在Privacy Preference Dataset上的测试显示,TIPO在保持任务可执行性的同时,实现65.60%成功率、46.22合规性得分和66.67%隐私区分度,显著优于现有优化方法。相关代码与数据集已开源。
针对大语言模型强化学习中采样多样性降低、策略重复生成相似错误的问题,本文提出MEDS(记忆增强动态奖励塑形)框架。该方法通过存储中间模型表示捕捉历史rollout特征,利用密度聚类识别高频错误模式,并对重复错误施加更重惩罚,从而在鼓励探索的同时减少重复犯错。在五个数据集和三个基础模型上的实验表明,MEDS较基线平均性能显著提升,pass@1和pass@128最高分别提升4.13和4.37点,有效增强了采样多样性。
SHARE 系列是首个专为社会科学与人文学科(SSH)全量预训练的因果语言模型,在 SSH Cloze 基准测试中,其文本建模性能接近使用 100 倍 token 的通用模型 Phi-4。同期发布的 MIRROR 用户界面采用零文本生成设计,支持 SSH 学者批判性审阅文本输入,在不违背学科原则与规范的前提下释放 AI 能力。
针对生成式模型带来的虚假信息风险,研究人员提出多比特图像水印方案ADD(Add, Dot, Decode),采用"添加-点积-解码"两阶段机制嵌入可溯源信息。在MS-COCO基准48比特水印测试中,ADD达成100%解码准确率,面对各类图像失真时性能衰减控制在2%以内,远优于现有方法14%的平均降幅。该方法嵌入效率提升2倍,解码速度提升7.4倍,并提供理论分析支撑其有效性。
OmniShow 是一个面向人与物体交互视频生成(HOIVG)的端到端框架,支持文本、图像、音频和姿态等多模态条件输入。该方法提出统一通道级条件注入(Unified Channel-wise Conditioning)和门控局部上下文注意力(Gated Local-Context Attention)机制,在可控性与生成质量之间取得平衡,并采用解耦后联合训练策略(Decoupled-Then-Joint Training)解决数据稀缺问题。研究团队还建立了 HOIVG-Bench 基准测试。实验表明,OmniShow 在多种多模态条件下均达到行业领先的生成效果。
一项综述系统梳理了2024年至2026年初发表的47种大语言模型强化学习信用分配(CA)方法,按粒度(token、step、turn等)与方法论(蒙特卡洛、时序差分等)建立二维分类体系。研究区分了单条思维链推理(500-3万token)与多轮智能体交互(10万-100万token,100+轮)两种范式,并发布结构化论文清单、报告检查表及基准测试协议三项资源。分析指出,从推理到智能体化的转变正推动信用分配技术从过程奖励模型转向反事实分析、非对称critic等全新方法。
带可验证奖励的强化学习(RLVR)在扩展大语言模型能力时面临高昂计算成本。新研究提出低秩轨迹非线性外推框架NExt,通过实证发现RLVR训练中模型rank-1子空间呈非线性演化,且在LoRA训练中对原始参数的主导作用持续增强。该方法提取多步骤参数差的rank-1子空间训练预测器,实现参数更新轨迹的非线性外推,可减少约37.5%的计算开销,且兼容多种RLVR算法与任务。相关代码已开源。
MedSSR 框架通过知识增强数据合成与半监督强化学习提升医学推理能力。该方法利用罕见疾病知识合成分布可控的推理问题,并基于策略模型生成伪标签,实现"自监督 RL+监督 RL"的两阶段训练,无需依赖昂贵的推理痕迹蒸馏。在 Qwen 和 LLaMA 上的实验表明,该方法在十个医疗基准测试中均优于现有方法,在罕见病任务上准确率提升高达 5.93%。
CocoaBench 基准测试针对统一数字智能体发布,通过人工设计的长程任务评估其灵活组合视觉、搜索与编程能力的实战表现。该基准采用自动评估函数确保跨架构评测的可靠性,同步推出的 CocoaAgent 提供轻量级脚手架以实现模型间的公平对比。测试结果显示,当前最优系统成功率仅为 45.1%,表明现有智能体在推理规划、工具使用及视觉定位等关键环节仍有显著提升空间。
研究团队利用物理模拟器生成随机场景与合成问答数据,通过强化学习训练大语言模型,使其掌握物理推理能力。该方法实现了零样本从模拟到现实的迁移,仅在合成数据上训练即可让模型在国际物理奥林匹克(IPhO)问题上提升 5-10 个百分点的准确率。这一突破证明物理模拟器可作为可扩展的数据来源,帮助模型超越互联网问答数据的限制,获得深度物理推理技能。