研究团队发布Tadabur大规模古兰经音频数据集,收录逾1400小时朗诵音频,涵盖600余位不同朗诵者在多样化录音条件下的演绎。该数据集在朗诵风格、声音特征方面具有显著差异性,大幅扩展了现有古兰经语音数据的规模与变异性,旨在为相关研究提供全面资源并推动标准化基准建立。
研究团队提出ToolsRL框架,通过工具监督强化学习提升多模态大语言模型的视觉推理能力。该框架采用课程学习策略,第一阶段利用工具特定奖励训练基础工具操作(包括放大、旋转、翻转、绘制点线等),第二阶段结合准确性奖励进行端到端优化。这种分离式训练避免了异构任务间的优化冲突,使模型先掌握工具调用能力再应用于复杂视觉推理。实验表明,该方法能高效习得可解释的视觉工具使用技能,显著提升复杂视觉推理任务表现。
研究团队提出ReImagine方法,采用图像优先策略解决人体视频生成中外观、运动与视角联合建模的难题。该方法将外观建模与时间一致性解耦,通过预训练图像主干学习高质量外观作为视频合成先验,结合SMPL-X运动引导与免训练的时间细化阶段,实现姿态和视角可控的高质量视频生成。团队同时发布了规范人体数据集与组合式人体图像合成辅助模型,代码与数据均已开源。
研究团队推出CreativeGame多智能体系统,实现HTML5游戏的迭代式生成与进化。该系统通过程序化信号奖励、谱系范围记忆、运行时验证及机制引导规划四者耦合,将游戏机制作为可规划、追踪的显式对象而非事后描述。系统已积累71个存储谱系、88个保存节点及774条全局机制档案,代码量达6181行。真实4代演化案例表明,机制级创新可在后期版本中涌现,支持通过显式机制变化观察渐进演化过程。
MMCORE 是一个统一的多模态图像生成与编辑框架,通过预训练视觉语言模型(VLM)预测语义视觉嵌入,并将其作为条件信号引导扩散模型。该设计无需深度融合自回归与扩散模型或从头训练,显著降低计算成本的同时保持高保真合成。框架支持文本到图像生成与交错图像生成,在空间推理和视觉定位等复杂场景中展现出强大的多模态理解能力,在多项文本到图像及单/多图像编辑基准测试中均优于现有最先进基线。
研究团队提出RDP LoRA方法,将大语言模型隐藏状态演化建模为高维几何轨迹,利用Ramer-Douglas-Peucker算法无训练地识别表征路径关键断点,并直接作为层选择信号。在Qwen3-8B-Base的LoRA微调实验中,仅需适配13个RDP选择的层,便在MMLU-Math上达到81.67%准确率,显著优于全层适配的79.32%和随机选择的75.56%,证明几何轨迹分析可优化参数高效微调中的层选择决策。
CityRAG 是一种新型视频生成模型,通过利用大规模地理注册数据作为上下文,将生成内容锚定到真实物理场景。该模型采用时间未对齐的训练数据,学会从瞬态属性中语义解耦底层场景,从而在保持复杂运动和外观变化先验的同时,实现真实世界重建。实验表明,该系统可生成数分钟长的连贯视频序列,在数千帧内保持天气和光照条件的一致性,支持闭环导航和复杂轨迹重建真实地理环境。
一项针对15个LLM在8个任务上的大规模轨迹分析表明,零样本问题解决能力仅能部分解释优化效果差异。研究发现,优秀的LLM优化器表现为局部优化器,能在语义空间中持续产生渐进式改进并保持搜索局部化;而较弱模型则呈现大幅语义漂移,虽有偶发突破但易陷入停滞。解决方案的新颖性并非性能预测指标,仅当搜索围绕高性能区域充分局部化时才具价值。该研究为LLM优化系统的设计与训练提供了基于轨迹分析的实践指导。
研究团队推出名为Skala的深度学习交换关联泛函,在GMTKN55主族化学基准测试中实现2.8 kcal/mol的误差,精度超越现有混合泛函,同时保持半局域DFT的低计算成本。该方法通过从数据中学习电子结构的非局域表示,绕过昂贵的手工特征工程,打破了传统密度泛函理论中精度与效率的权衡。基于大规模波函数方法高精度参考数据训练,证明现代深度学习可实现随数据集扩展而系统改进的神经网络交换关联模型,推动第一性原理模拟向更高预测能力发展。
本文提出HP-Edit图像编辑人类偏好后训练框架,发布涵盖8类真实任务的RealPref-50K数据集。通过预训练视觉大语言模型和少量偏好数据构建HP-Scorer评估器,用于高效扩展偏好数据集并作为奖励函数优化扩散模型。同步推出RealPref-Bench基准。实验表明,该方法显著提升Qwen-Image-Edit-2509等模型编辑质量,使输出更贴合人类偏好。
研究团队提出ShadowPEFT,一种集中式参数高效微调框架,通过深度共享的影子模块实现层级别细化。该方法在每个Transformer层维护并行影子状态并反复演化,将适应机制从分布式权重扰动(如LoRA)转向集中式层空间优化。影子模块与主干解耦,支持跨深度复用、独立预训练及分离部署,适用于边缘计算。实验表明,在同等可训练参数预算下,ShadowPEFT在生成与理解任务上达到或超越LoRA与DoRA性能。
AnyRecon框架通过视频扩散模型实现任意无序稀疏输入的3D重建。该方法构建持久全局场景记忆以支持长距离条件,移除时间压缩保持大视角变化下的帧级对应,并引入几何感知条件策略耦合生成与重建过程。结合4步扩散蒸馏和上下文窗口稀疏注意力降低计算复杂度,解决了传统方法仅依赖1-2帧导致的局限性,在非规则输入、大视角间隙和长轨迹场景下实现稳健可扩展的重建。
SmartPhotoCrafter是一种无需显式人工指令的自动摄影图像编辑方法,通过Image Critic模块识别图像缺陷,Photographic Artist模块执行针对性增强。该方法采用三阶段训练:基础预训练建立审美能力,推理引导的多编辑监督融入语义指导,协调式强化学习联合优化两模块。实验表明,该方法在自动摄影增强任务中优于现有生成模型,在保持照片级真实感的同时对色调指令具有更高敏感度。
研究团队发布 PlayEval 基准测试与 Play@k 指标,基于43个多语言GUI应用评估大模型生成能力。实验显示10个先进代码LLM的Play@3接近零,暴露逻辑正确性短板。提出的多代理框架PlayCoder通过闭环生成、评估与修复,将开源及闭源模型的Exec@3提升至38.1%、Play@3达20.3%,并能发现传统指标遗漏的静默逻辑错误。
LoopCTR提出一种循环扩展范式,通过递归重用共享模型层将训练计算与参数增长解耦,采用三明治架构结合超连接残差与混合专家,并在各循环深度实施过程监督。该方法实现"训练多循环、推理零循环"策略,单次前向传播即可超越所有基线。实验在三个公开基准及工业数据集上达到SOTA性能,Oracle分析揭示0.02-0.04 AUC的优化空间,且少循环训练模型展现出更高的自适应推理潜力。
现有AI代理仅支持单用户任务自动化,缺乏跨用户协作基础设施。ClawNet首创人机共生代理范式,为每位用户配置永久绑定的专属代理系统,以人类为网络节点实现多用户协作。该框架通过分层身份架构(全局Manager Agent与上下文Identity Agents分离)、范围授权及行动级问责三大治理机制,经由中央编排器强制执行身份绑定与授权验证,确保跨用户代理协作的安全性与全程可审计。
CoInteract框架基于Diffusion Transformer架构,支持以人物参考图像、产品图像、文本及语音为条件生成视频。其引入Human-Aware Mixture-of-Experts模块,通过空间监督路由将token分配至区域专家,以极小参数开销提升手部与面部的结构稳定性;并采用Spatially-Structured Co-Generation双流训练范式,联合建模RGB外观与HOI结构流以注入交互几何先验,避免手物穿透。训练时结构流正则化共享权重,推理时移除该分支实现零额外开销。实验表明,该方法在结构保真度、逻辑一致性与物理合理性上显著优于现有方案。
研究团队提出Chat2Workflow基准测试,用于评估大语言模型从自然语言直接生成可执行可视化工作流的能力。该基准基于真实业务场景构建,所生成的工作流可直接部署至Dify、Coze等工业平台。实验表明,当前SOTA模型虽能理解高层意图,但在复杂需求下难以生成稳定可执行的流程;团队提出的代理框架虽将错误解决率提升5.34%,但距离工业级自动化仍有显著差距。代码已开源。
TEMPO框架通过期望最大化算法形式化测试时训练过程,交替进行策略优化与周期性critic重新校准,解决了现有方法中自我奖励信号漂移导致的性能瓶颈和多样性崩溃问题。该方法在OLMO3和Qwen3模型家族上验证,使OLMO3-7B在AIME 2024上的准确率从33.0%提升至51.1%,Qwen3-14B从42.3%提升至65.8%,同时保持高生成多样性,实现了测试时计算的有效扩展。
研究团队提出SimpleTES框架,通过并行探索、反馈驱动优化与局部选择策略,系统性地扩展评估驱动的科学发现循环。该方法在涵盖六个领域的21个科学问题中,使用gpt-oss模型发现多项最优解:将LASSO算法提速超2倍,设计量子电路路由策略降低门开销24.5%,并发现超越已知最佳结果的Erdos最小重叠新构造。基于成功轨迹的后训练使模型不仅能提升已知问题求解效率,还能泛化至全新问题。
Tstars-Tryon 1.0 是一款商业级虚拟试衣系统,能够在极端姿势、光照变化和动态模糊等复杂场景下保持高成功率,生成保留服装纹理与材质细节的高保真图像。系统支持多达6张参考图的多图合成,覆盖8个时尚品类,并针对推理速度进行优化实现近实时生成。该技术已在淘宝App大规模部署,服务数百万用户并处理数千万次请求,同时团队发布了综合基准数据集以支持后续研究。
OpenAI 推出 Codex Transformation Partners 计划,联合埃森哲、普华永道、印孚瑟斯等全球咨询与科技服务商,协助企业在软件开发生命周期内部署并规模化应用 Codex。该合作旨在通过专业服务体系,将 AI 编程工具从试点阶段推向全面生产环境,加速全球企业软件开发流程的智能化转型。
中国汽车技术研究中心发布2027版C-NCAP新规程,聚焦新能源与智能化安全。新版增加侧面柱碰、电池刮底测试,以及加速踏板防误踩、自动紧急转向等测评项目,并纳入三轮车、夜间等中国特色交通场景。同步亮相的还有中国自研碰撞假人(集成97项专利,已服务30余家车企)和1.55吨自主壁障(较旧版增重0.15吨),打破国外垄断。C-NCAP实施20年来已完成近两千次碰撞试验。
OpenAI广告合作伙伴StackAdapt正基于"提示词相关性"出售ChatGPT广告位。据Adweek披露的泄露文件显示,该程序化广告平台已制定详细投放策略,允许广告主根据用户输入的提示词内容匹配相关广告,将广告展示与对话查询意图直接关联。这一模式标志着ChatGPT商业化进入精准定向新阶段。
亚马逊与AI企业Anthropic达成十年深度合作协议。Anthropic承诺未来十年向AWS采购超1000亿美元算力资源,亚马逊则在此前80亿美元投资基础上追加至多250亿美元(其中50亿美元立即支付,剩余200亿美元视商业里程碑达成情况投入)。双方还将联合开发Trainium芯片,AWS将向Anthropic提供5GW多世代芯片算力容量。
Kimi发布供应商验证器(Vendor Verifier),用于独立验证第三方AI推理提供商的输出准确性。该工具通过标准化测试方法,检测不同API供应商在模型推理质量上的一致性与可靠性,解决大模型服务中可能出现的输出偏差或性能波动问题。用户可借此评估各推理服务商的实际表现,确保获取符合预期的AI能力。目前该技术方案已在Kimi官网公开详细实现文档。
Claude Code v2.1.116 优化性能与终端体验。大型会话 `/resume` 速度提升最高67%,MCP 启动加快且资源列表延迟加载。改进 VS Code、Cursor 和 Windsurf 的全屏滚动,修复 Kitty 键盘协议下快捷键失效及 Devanagari 等印度语系渲染错位问题。安全方面修复 sandbox auto-allow 绕过危险路径检查的问题。同时改进 `/config` 搜索、`/doctor` 响应逻辑及插件依赖自动安装。
一篇题为《对人工智能的抵制正在增强》的文章于2026年4月20日发布,在Hacker News上获得141个赞。文章指出针对人工智能技术的抵制运动正在增强,反映了公众对AI发展的担忧情绪持续升温。该文来自stephvee.ca,在科技社区引发广泛讨论,显示出技术从业者对AI伦理和社会影响议题的高度关注。
一位开发者在向ChatGPT、Claude、Perplexity和Gemini发送提示后,通过分析Nginx服务器日志追踪这些AI工具的爬虫访问行为,对比AI直接流量与传统引荐流量的差异。该实验展示了主流AI助手抓取网站内容时的真实流量特征和日志记录模式,为网站管理员识别AI爬虫流量提供了实际观察案例。
GitHub 宣布调整 Copilot Individual 个人版订阅计划,旨在确保现有用户获得更稳定、可预测的服务体验。官方表示此次变更将提升产品可靠性,但未披露具体调整内容、生效时间及定价变化等细节,完整信息有待官方进一步公布。
llm-openrouter 发布 0.6 版本,新增 `llm openrouter refresh` 命令,可立即刷新可用模型列表而无需等待缓存过期。该功能旨在让用户第一时间体验 OpenRouter 平台上的新模型,如 Moonshot AI 刚上线的 Kimi 2.6。作者使用该模型生成了一个包含 HTML 和 JavaScript 交互界面的鹈鹕骑自行车动画,展示了新模型的代码生成能力。
音乐流媒体平台Deezer最新数据显示,其平台每日上传的歌曲中高达44%由人工智能生成。这一比例揭示了AI音乐创作在流媒体分发领域的渗透率已接近半数,反映出生成式AI技术对传统音乐产业的冲击正加速显现。该统计数据来自Deezer官方披露,凸显了AI生成内容在音乐平台中的快速增长态势。
Google 正加倍投入 AI 编程领域,组建精英团队以缩小与 Anthropic 的编程能力差距。公司联合创始人 Sergey Brin 再次亲自挂帅,领导开发能够自我改进的 AI 模型。该团队押注于可自主优化代码的系统,通过模型自我迭代技术维持 Google 的 AI 竞争力,应对当前激烈的市场格局。
Google Cloud提出ReasoningBank智能体记忆框架,突破传统方法仅记录动作轨迹或成功经验的局限,从成败经验中提炼可泛化的高层推理策略。该框架通过LLM-as-judge自评估构建检索-提取-整合闭环,特别利用失败案例生成预防性策略,并创新提出Memory-aware Test-Time Scaling技术将测试时计算转化为高质量记忆。在网页浏览与软件工程基准测试中,该系统显著提升任务成功率并减少执行步骤。
猛士汽车4月20日举行春季焕新发布会,宣布与华为乾崑在产品、渠道、生态三方面全面升级合作。产品端计划未来2年投放4款全新车型,首款车型将于4月24日北京车展首发亮相,融合顶级越野性能与华为乾崑智能技术。渠道方面,001号武汉旗舰店已落成,采用双品牌标识设计并提供改装工坊等服务。生态层面,猛士联合10余家头部文旅集团,首批10家智能越野基地已试点运营,计划2027年扩张至100家,提供越野体验、驾驶培训、补能保障等全链条服务。
名为"Banned by Anthropic"的网站近日在Hacker News平台获得100个点数关注。该项目以粗野主义风格Logo为标识,通过bannedbyanthropic.com域名运营,主题聚焦AI公司Anthropic的账户封禁情况。目前公开信息有限,具体收录案例数量与详细功能尚未披露。
Atlassian 已默认开启数据收集功能,将用户数据用于训练人工智能模型。这一政策变更意味着用户交互数据将自动纳入 AI 训练流程,除非用户主动选择退出。该消息于 2026 年 4 月 20 日发布后在 Hacker News 获得 104 个赞,引发关于企业数据隐私和默认权限设置的讨论。
Adobe 正推出全新企业代理平台以应对来自 AI 原生竞争对手的日益加剧的压力,防止人工智能颠覆其传统软件商业模式。这一战略举措旨在保护其核心业务免受生成式 AI 冲击。与此同时,这家软件巨头正在物色下一任首席执行官。
鸿蒙智行全新一代问界M9将于4月22日开启预订,新车行业首发双百万像素全彩智慧投影大灯、一镜双投影院及手握祥云创新门把手等配置,并搭载6激光雷达与C柱侧向摄像头。车身尺寸全面升级至5285×2026×1845mm,轴距达3125mm,较现款明显增大,同时推出大漠金棕、赛里木青、沧海银蓝三款全新配色。
iOS 27将终止支持iPhone 11/Pro/Max及iPhone SE 2,iPhone 12仍可升级。新系统聚焦稳定性与AI功能,新增主屏幕撤销/重做快捷开关、液态玻璃效果精细调节滑块,以及集成于灵动岛、带发光效果的Siri新界面。Visual Intelligence将支持扫描食品营养标签和识别印刷品联系方式,钱包应用与Safari浏览器也将迎来改进。