AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态论文 · 45 条
全部一手资讯X论文
标签「端侧」清除
7月2日周四
22:33Berryxia.AI48GenRecon:结合生成式先验的多视角3D重建方法
17:31HuggingFace Daily Papers(社区热门论文)34轻量级IIoT入侵检测模型跨域泛化失败研究
7月1日周三
22:03IT之家(RSS)45理想汽车登台 ISCA 2026,马赫 M100 芯片论文入选
6月29日周一
08:00HuggingFace Daily Papers(社区热门论文)51紧凑型语言模型在RAG系统中实现设备端推理,无需GPU
6月26日周五
00:00Google Research:Blog(网页)55精选冻结多token预测加速Pixel上的Gemini Nano模型
6月18日周四
08:00HuggingFace Daily Papers(社区热门论文)42MobileForge:无标注自适应移动GUI智能体
6月12日周五
01:59HuggingFace Daily Papers(社区热门论文)61APEX:用于无线边缘运维的网络原生时间序列基础模型
6月11日周四
16:58HuggingFace Daily Papers(社区热门论文)54时间序列基础模型嵌入用于剩余使用寿命估计
6月9日周二
22:26IT之家(RSS)55美国工程师研发"光忆阻器",解决自动驾驶强光失明问题
6月8日周一
08:00HuggingFace Daily Papers(社区热门论文)42iOSWorld:面向个人化智能手机智能体的基准
6月5日周五
04:25Google Research:Blog(网页)79精选Google Research 发布被动心率监测系统 PHRM
6月4日周四
00:42HuggingFace Daily Papers(社区热门论文)76精选Ultralytics YOLO26:统一实时端到端视觉模型
6月2日周二
08:00HuggingFace Daily Papers(社区热门论文)63SEAOTTER:面向云机器人的传感器嵌入式自编码器与一次性转码压缩框架
5月29日周五
16:30HuggingFace Daily Papers(社区热门论文)68当云端智能体遇见设备端智能体:来自混合多智能体系统的启示
11:35公众号:面壁智能(MiniCPM)61精选面壁智能联合清华、OpenBMB开源最大中文预训练合成数据集及千万级SFT数据集,公开MiniCPM5-1B核心数据
11:29HuggingFace Daily Papers(社区热门论文)61UI-KOBE:面向轻量级图谱引导 GUI 智能体的知识导向行为探索
11:29HuggingFace Daily Papers(社区热门论文)69PhoneWorld:可扩展的手机使用智能体环境
5月28日周四
08:00HuggingFace Daily Papers(社区热门论文)64内存主导但非带宽受限:批量1大语言模型解码在物理AI推理中的差距
01:34Google Research:Blog(网页)70精选通过零信任聚合实现的隐私分析
5月27日周三
12:19HuggingFace Daily Papers(社区热门论文)67MobileMoE:扩展设备端混合专家系统
5月26日周二
18:28X.PIN67华为AI芯片:绕过制程限制的扩展路径
12:11IT之家(RSS)62小米汽车发布 Xiaomi Auto World Model 世界模型全新框架:重建 + 生成一体化,主流基准测试全面 SOTA
5月25日周一
19:28Rohan Paul75华为发布突破性芯片设计方法"LogicFolding"
13:11IT之家(RSS)77精选华为何庭波"韬定律"论文发布,逻辑折叠技术提升芯片性能
5月23日周六
08:27Rohan Paul64谷歌新研究:AI学习生理模式提升可穿戴设备价值
5月22日周五
12:14HuggingFace Daily Papers(社区热门论文)48SceneAligner:基于3D重建的平面图定位方法
5月20日周三
09:55IT之家(RSS)62微信AI团队模式识别中心论文首获ICASSP最佳工业论文奖
5月19日周二
08:00HuggingFace Daily Papers(社区热门论文)52极简视觉惯性里程计方案
5月18日周一
08:00HuggingFace Daily Papers(社区热门论文)64Stable Audio 3
5月15日周五
08:41IT之家(RSS)53Anthropic 最强 AI Mythos 辅助,专家发现苹果 macOS 26.4.1 提权漏洞
5月14日周四
04:44HuggingFace Daily Papers(社区热门论文)42EgoForce:基于前臂引导的单目头戴相机三维手部姿态重建
5月12日周二
15:44HuggingFace Daily Papers(社区热门论文)59DECO:面向终端设备的稀疏混合专家模型,实现媲美稠密模型的性能
5月10日周日
08:00HuggingFace Daily Papers(社区热门论文)51MemPrivacy:面向边缘云智能代理的隐私保护型个性化内存管理方案
5月9日周六
08:00HuggingFace Daily Papers(社区热门论文)60PAAC:一种隐私感知的智能体端云协作框架
5月8日周五
08:00HuggingFace Daily Papers(社区热门论文)62FAAST:一种仅需前向传播的快速权重关联适应方法,用于测试时监督适应
01:30Apple Machine Learning Research(RSS)69精选实用学习型图像压缩的关键要素
5月7日周四
14:16IT之家(RSS)57全球首发,三星 Galaxy Watch 手表实现提前预测晕厥
08:00HuggingFace Daily Papers(社区热门论文)51X-OmniClaw技术报告:一个用于多模态理解与交互的统一移动智能体
08:00HuggingFace Daily Papers(社区热门论文)61LiVeAction:一种轻量级、通用且非对称的神经编解码器设计
4月28日周二
20:36HuggingFace Daily Papers(社区热门论文)47医学基础模型嵌入中量子核相对于经典崩溃的优势
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月2日
22:33
Berryxia.AI@berryxia
48
GenRecon:结合生成式先验的多视角3D重建方法

GenRecon将生成式3D先验与多视角重建结合,把场景切分成重叠chunk,用Trellis.2等生成模型条件重建各chunk并拼接。核心创新是投影式conditioning,将多视角图像特征提升到3D空间。输出可编辑PBR mesh,室内重建保真度和完整度比SOTA高16%。

多模态端侧论文/研究
17:31
HuggingFace Daily Papers(社区热门论文)
34
轻量级IIoT入侵检测模型跨域泛化失败研究

四种轻量级架构在一个IIoT数据集上训练后,不经重新训练直接在另两个结构不同的IIoT数据集上评估,仅使用三者共有的特征。可解释性分析显示,两个最优模型主要依赖粗粒度端口类别特征,其中最具影响力的类别在源域攻击流量出现频率是目标域的96至435倍,表明粗化端口分辨率只是转移而非消除已知捷径。自然不平衡分布下,评价协议可能反转对哪个目标域更具挑战的判断。对抗鲁棒性与跨网络泛化无关,有限目标域数据适应的恢复效果因架构而异。建议部署就绪性应在真实类别分布下通过跨网络评估。

端侧论文/研究部署/工程
7月1日
22:03
IT之家(RSS)
45
理想汽车登台 ISCA 2026,马赫 M100 芯片论文入选

理想汽车近日在 ISCA 2026 发表题为《马赫 M100:面向通用 AI 计算的编排式数据流架构》的演讲,成为自 2020 年该会议工业分区设立以来首家入选的中国车企。马赫 M100 是全球首款基于数据流架构的大算力端侧推理芯片,采用 5nm 车规级工艺,单芯片算力 1280TOPS,算力利用率达 82%;双 SoC、双 MCU、双供电完全冗余架构满足 ASIL-D 最高功能安全等级。该芯片已随全新理想 L9 及 L8 量产上车,全链路自主完成。

端侧论文/研究
6月29日
08:00
HuggingFace Daily Papers(社区热门论文)
51
紧凑型语言模型在RAG系统中实现设备端推理,无需GPU

一项研究评估了小型语言模型在检索增强生成(RAG)系统中的生成性能。实验采用开源与专有数据集,覆盖多种学科与问题类型。结果表明,配备小语言模型的RAG系统可在设备端直接运行,且无需任何GPU硬件,在合理时间内完成推理。实验代码及补充材料已通过GitHub仓库公开。

检索增强端侧论文/研究
6月26日
00:00
Google Research:Blog(网页)
精选55
冻结多token预测加速Pixel上的Gemini Nano模型

Google Research提出一种新架构,在已冻结的Gemini Nano v3模型上改造Multi-Token Prediction(MTP),以加速Pixel 9和10系列上的设备端推理。该方法基于EAGLE框架和CALM,无需单独训练占用内存的草稿模型,通过“晚期退出”策略实现加速。AI通知摘要和校对功能因此生成文本速度显著提升、能耗降低,开发者无需为每个新任务微调独立模型。

Google推理端侧论文/研究

推荐理由:谷歌这篇技术博客值得端侧开发者细读,他们把多令牌预测硬是装进了已部署的 Nano 模型,Pixel 上生成加速五成,还省了 130MB 内存,零拷贝架构的想法挺巧,但没法直接复现,主要是开脑洞用的。
6月18日
08:00
HuggingFace Daily Papers(社区热门论文)
42
MobileForge:无标注自适应移动GUI智能体

MobileForge由MobileGym和层次化反馈引导策略优化(HiFPO)组成,在真实移动应用中自动生成任务和评估rollout,将轨迹结果、步骤级过程反馈及纠正提示转化为提示上下文的步骤级GRPO更新。使用自动生成的无标注数据,MobileForge将Qwen3-VL-8B适配到AndroidWorld达67.2% Pass@3,接近闭数据专用模型GUI-Owl-1.5-8B的69.0%。进一步适配的ForgeOwl-8B在AndroidWorld上达77.6% Pass@3,并在域外MobileWorld GUI-only任务上取得41.0%成功率,成为当前最强的开源数据移动GUI智能体。代码、数据和模型将开源。

智能体端侧论文/研究
6月12日
01:59
HuggingFace Daily Papers(社区热门论文)
61
APEX:用于无线边缘运维的网络原生时间序列基础模型

APEX 是一个网络原生、仅解码器的 Transformer 模型,专用于企业无线接入点(AP)遥测的预测与异常检测。它在约 4,500 个生产无线网络的 10 通道多元遥测数据上预训练,涵盖约 10 万条 AP 时间序列、每 AP 34 个指标。提供两个版本:APEX-Large(269M 参数,云部署)和 APEX-Edge(10.5M 参数,边缘部署)。在 192 步(4 天)的 DHCP 退化基准上,APEX-Large 比最强基础模型基线 Toto 降低 MAE 18%,比 SARIMA 降低 38%,异常检测 F1 达 0.93;APEX-Edge 可在 AP 级边缘硬件上实现亚秒级、保护隐私的推理。结果表明网络原生预训练是主动无线运维的实用基础。

数据/训练端侧论文/研究
6月11日
16:58
HuggingFace Daily Papers(社区热门论文)
54
时间序列基础模型嵌入用于剩余使用寿命估计

提出一种轻量学习方法:使用冻结的预训练时间序列基础模型 Chronos-2 提取上下文窗口特征,结合小型回归神经网络进行多元传感器流的剩余使用寿命(RUL)预测。在两种设备类型的真实工业数据上,Chronos-2 嵌入特征在相同预处理和评估协议下,一致优于循环、卷积、Transformer 和梯度提升基线。研究还发现更长的上下文窗口显著提升预测性能,表明时间序列基础模型为工业 RUL 估计提供了实用且数据高效的替代方案。

端侧论文/研究
6月9日
22:26
IT之家(RSS)
55
美国工程师研发"光忆阻器",解决自动驾驶强光失明问题

美国宾夕法尼亚州立大学研发出光忆阻器,模拟人眼适应机制,解决自动驾驶汽车在光线剧烈变化时失去感知的问题。该器件将氧化钛与塑料PEDOT:PSS结合,通过类似“出汗”和膨胀自动调节感光,数秒完成强光到暗光切换(人眼需20-30分钟)。4×4阵列与AI神经网络测试,在极亮背景中识别暗光字母“F”,7轮训练后准确率达95%。已申请临时专利,未来可用于工厂机器人和视障人士人工视觉设备。

端侧论文/研究
6月8日
08:00
HuggingFace Daily Papers(社区热门论文)
42
iOSWorld:面向个人化智能手机智能体的基准

iOSWorld 是首个基于持久用户身份构建的原生 iOS 模拟器基准,包含 26 个新开发的互联应用及 133 个任务,分为单应用(27 个)、多应用(60 个,跨 2–8 个应用)和记忆与个性化(46 个,需从个人数据推断模式)三类。在纯视觉和特权视觉+XML 设置下评估前沿及开源模型,最佳准确率 52%(多应用仅 37%);特权 XML 使前沿模型提升最多 26 个百分点,小模型未受益。基准已开源发布。

智能体端侧论文/研究
6月5日
04:25
Google Research:Blog(网页)
精选79
Google Research 发布被动心率监测系统 PHRM

Google Research 开发了一种被动心率监测系统(PHRM),利用智能手机前置摄像头在日常使用中(人脸解锁后数秒内)捕捉面部视频,通过深度学习估算心率,平均绝对百分比误差(MAPE)低于10%(对比心电图金标准),满足各肤色人群的行业精度标准。系统将全天心率测量整合为每日静息心率(RHR),平均绝对误差(MAE)低于5 bpm(对比可穿戴设备)。研究同时发布了迄今最大规模的公开智能手机视频数据集及预训练模型PHRM-mini,合格研究人员可申请访问。

Google数据/训练端侧论文/研究

推荐理由:Google 这项发表在 Nature 上的研究,把手机前置摄像头变成了被动心率仪,而且专门解决了深肤色人群精度差的老问题,虽然离产品还远,但方向很对,穿戴设备的护城河可能又浅了一点。
6月4日
00:42
HuggingFace Daily Papers(社区热门论文)
精选76
Ultralytics YOLO26:统一实时端到端视觉模型

Ultralytics YOLO26 采用双头设计实现原生无 NMS 的端到端推理,彻底移除 DFL,获得更轻检测头与无约束回归范围。训练结合混合 Muon-SGD 优化器 MuSGD、转向推理头的 Progressive Loss 及保证小物体正样本的 STAL 标签分配。支持检测、实例分割、姿态估计、定向检测和分类,提供 5 种尺度(n/s/m/l/x)及开放词汇扩展 YOLOE-26。全部尺度在 COCO 上达 40.9–57.5 mAP,T4 TensorRT 延迟 1.7–11.8 ms;YOLOE-26x 在 LVIS minival 文本提示下达 40.6 AP。代码已开源。

开源生态端侧论文/研究部署/工程

推荐理由:这次YOLO26把NMS和DFL都拿掉了,还把大模型训练的Muon优化器改成MuSGD,在COCO上的速度精度平衡比上一代强不少,做实时检测的应该拿来跑一跑。
6月2日
08:00
HuggingFace Daily Papers(社区热门论文)
63
SEAOTTER:面向云机器人的传感器嵌入式自编码器与一次性转码压缩框架

SEAOTTER提出一种结合学习型潜在空间与标准JPEG格式的压缩框架,用于云机器人系统。相比AVIF,在200:1压缩比下编码速度快7倍、解码快3.5倍,ImageNet top-1准确率提升8%,同时保持与JPEG基础设施的兼容性。框架通过可学习的JPEG色彩与量化变换,提升全局、密集及视觉语言感知任务的精度,并支持通用与任务感知的转码流水线。代码已开源。

具身智能端侧论文/研究
5月29日
16:30
HuggingFace Daily Papers(社区热门论文)
68
当云端智能体遇见设备端智能体:来自混合多智能体系统的启示

智能体AI推理的设计空间横跨两个极端:云端大语言模型性能强大但成本高,设备端小语言模型更经济。混合多智能体系统结合设备端与云端模型,为平衡提供了可能,但也引入了任务准确性、经济成本与设备能耗三者紧密关联的复杂权衡。由于缺乏通用设计原则,此类混合方案多是基于特定领域做出的临时决策。本研究通过改造两种代表性的多智能体架构以适配混合推理,系统探讨了不同设计选择如何影响系统在性能、成本与能耗的Pareto前沿上的取舍。结果表明,小语言模型确实能从大语言模型的辅助中获益,但最优架构高度依赖具体任务,且更多的前沿计算并不总能带来更好的性能。

智能体端侧论文/研究部署/工程
11:35
公众号:面壁智能(MiniCPM)
精选61
面壁智能联合清华、OpenBMB开源最大中文预训练合成数据集及千万级SFT数据集,公开MiniCPM5-1B核心数据

面壁智能联合清华大学、OpenBMB发布并开源两大数据集:Ultra-FineWeb-L3(超600B Tokens,中文200B+,为当前最大中文预训练合成数据集)和UltraData-SFT-2605(国内首个千万级同时含深思考与非思考标注的SFT数据集)。两者基于UltraData数据分级治理体系构建,在MiniCPM5-1B训练流程中得到完全验证,覆盖预训练退火到后训练SFT全链路。已上线UltraData网站与HuggingFace,免费开放。

Hugging Face开源/仓库数据/训练端侧
关联讨论 1 条X:面壁智能 OpenBMB (@OpenBMB)
推荐理由:填补了中文大规模合成数据空白,三年前还在用英文数据做中文模型的日子可以翻篇了,做端侧模型的可以直接拿这份数据跑一版 MiniCPM5-1B 级别的效果。
11:29
HuggingFace Daily Papers(社区热门论文)
61
UI-KOBE:面向轻量级图谱引导 GUI 智能体的知识导向行为探索

为解决轻量级移动端GUI智能体在端到端规划上的不足,本文提出UI-KOBE框架。该框架通过自主探索移动应用,构建包含UI状态节点与转换边的应用知识图谱。运行时,轻量级智能体可利用该图谱作为外部引导,结合用户任务与当前屏幕截图,在多种候选动作中进行选择。此方法减轻了轻量级模型进行端到端规划的负担,使其能更有效地执行任务,并兼顾效率、可解释性与隐私保护。

智能体端侧论文/研究
11:29
HuggingFace Daily Papers(社区热门论文)
69
PhoneWorld:可扩展的手机使用智能体环境

PhoneWorld 提出了一种可重用流程,能将真实的手机 GUI 轨迹和截图转化为可控的智能体环境、可执行任务及自动验证器。该系统覆盖了 16 个领域的 34 款应用。实验表明,在固定训练预算下,用 PhoneWorld 数据替代部分基准数据,可同步提升四个评测基准的得分。研究还发现,增加 PhoneWorld 监督数据或扩大应用覆盖范围能进一步提升性能,这标志着从构建单一基准转向规模化供应智能体环境的范式转变。

智能体端侧论文/研究
5月28日
08:00
HuggingFace Daily Papers(社区热门论文)
64
内存主导但非带宽受限:批量1大语言模型解码在物理AI推理中的差距

研究表明,物理AI系统中的批量1大语言模型解码是内存主导的,但更快的内存并不带来比例性的延迟收益。通过对三款7-8B级别的GQA Transformer模型在四款NVIDIA GPU上的测量发现,例如在Qwen-2.5-7B(上下文长度2048)场景下,L4能达到其内存地板的81%,而H100仅为27%。CUDA Graphs优化在H100上将解码延迟提升1.259倍,在L4上仅为1.028倍。部署方面,常见的量化路径未能完全兑现预期的4倍权重流量削减,例如AutoAWQ+Marlin在bf16基线62.32 ms/step上优化至45.24 ms/step,而GPTQ+ExLlamaV2能达到17.36 ms/step。

推理端侧论文/研究部署/工程
01:34
Google Research:Blog(网页)
精选70
通过零信任聚合实现的隐私分析

Google Research 推出了一种新的隐私分析解决方案。该方案结合了一种新的密码学安全聚合协议与可信执行环境(TEE)的透明性,旨在实现前沿的隐私与安全保证。其核心是基于零信任原则,通过密码学与硬件保护的结合,确保系统仅能获取群体的匿名化聚合洞察。

Google安全/对齐端侧论文/研究

推荐理由:Google 的隐私聚合新方案把多轮交互砍成一次提交,对做设备端联邦分析的人来说是工程上的一大步,而且结合 TEE 做双层防护,这个思路值得抄。
5月27日
12:19
HuggingFace Daily Papers(社区热门论文)
67
MobileMoE:扩展设备端混合专家系统

MobileMoE是一系列面向设备端部署的大语言模型,采用混合专家架构,其活动参数规模为0.3-0.9B,总参数量为1.3-5.3B。该研究在移动设备内存与算力约束下,确定了“中等稀疏度结合细粒度共享专家”的最优架构设计。通过涵盖预训练、中期训练、指令微调与量化感知训练的四阶段流程,MobileMoE在14个基准测试中,以2-4倍更少的推理FLOPs达到或超越了领先的设备端密集模型性能,并以最多60%更少的参数量匹配或超过了先进的OLMoE-1B-7B模型。在商用智能手机上,其预填充和解码速度分别比密集基线MobileLLM-Pro快1.8-3.8倍和2.2-3.4倍。

推理端侧论文/研究
5月26日
18:28
X.PIN@thexpin
67
华为AI芯片:绕过制程限制的扩展路径

华为将不依赖更小制程节点,通过封装与架构创新来扩展其昇腾AI芯片。根据何庭波的论文,华为计划在2025年至2030年间,通过Chiplets、2.5D扇出封装和3D堆叠技术,推进其昇腾SuperPoD系列,具体产品包括2025年的910C、2026年的950及后续的990。约2030年,Ascend 990将引入LogicFolding技术,目标是到2035年实现100倍的集成度跃升。

端侧论文/研究部署/工程
12:11
IT之家(RSS)
62
小米汽车发布 Xiaomi Auto World Model 世界模型全新框架:重建 + 生成一体化,主流基准测试全面 SOTA

小米汽车发布 Xiaomi Auto World Model 框架,首次将三维重建与视频生成深度耦合,打破行业独立拆分的技术路线。该框架在 Waymo、nuScenes 等主流基准测试中全面取得 SOTA,并已在合成数据生成(已交付超10万 clips 数据)、仿真测试、辅助驾驶学堂三大场景落地。

多模态数据/训练端侧视频
5月25日
19:28
Rohan Paul@rohanpaul_ai
75
华为发布突破性芯片设计方法"LogicFolding"

华为提出了“τ缩放”和“LogicFolding”两种新方法,旨在不依赖最先进光刻工具的前提下,缩小与台积电的性能差距。其核心思想是将衡量芯片进步的指标从晶体管尺寸转向信号传输延迟(τ)。LogicFolding作为具体实现,通过垂直堆叠逻辑电路层并采用混合键合,将需要通信的电路紧邻放置,从而缩短关键线路、降低电阻和寄生电电容,提升信号速度。华为表示,其下一代麒麟手机芯片将是对τ缩放规律的首次全面测试。

Rohan Paul: 🇨🇳 Huawei reveals a new chip design breakthrough under US sanctions pressure. A design approach meant to close the gap...

端侧论文/研究
关联讨论 1 条IT之家(RSS)
13:11
IT之家(RSS)
精选77
华为何庭波"韬定律"论文发布,逻辑折叠技术提升芯片性能

华为何庭波在ISCAS 2026上提出“韬定律”,并介绍逻辑折叠(LogicFolding)技术。该技术通过三维空间拓扑重组提升芯片性能,不依赖新光刻工艺。在麒麟2026芯片测试中,晶体管密度从155 MTr/mm²提升至238 MTr/mm²,性能核心能效提高41%,最大时钟频率提升近13%。论文显示,麒麟2027芯片已进入Silicon状态,后续规划包括麒麟2028、2029。AI芯片方面,昇腾990计划在2030年左右引入逻辑折叠,硬件集成预计到2035年提高超过100倍。

推理端侧论文/研究
关联讨论 1 条IT之家(RSS)
推荐理由:华为用‘逻辑折叠’替代光刻进步,在不依赖新工艺下实现代际性能提升,这是中国芯片行业的一个技术转折,做硬件和AI推理的值得仔细看看。
5月23日
08:27
Rohan Paul@rohanpaul_ai
64
谷歌新研究:AI学习生理模式提升可穿戴设备价值

谷歌研究院提出基础模型SensorFM,通过学习超过500万人产生的逾1万亿分钟可穿戴设备传感器数据,掌握了人类生理活动的一般性模式。该模型超越了将数据压缩为简单指标的传统方法,能够从数据中提取出有意义的结构并将其复用于多种健康预测任务。实验显示,模型规模和数据量越大性能越强,且其学习到的数据表征在35项预测任务中的34项上,均优于基于工程特征的基线方法。

Google数据/训练端侧论文/研究
5月22日
12:14
HuggingFace Daily Papers(社区热门论文)
48
SceneAligner:基于3D重建的平面图定位方法

SceneAligner是一种基于3D重建的平面图定位方法。针对现有技术对环境规模和地图格式的限制,该方法从无约束图像集合重建重力对齐的3D场景,并投影为2D密度图作为平面图代理。通过2D相似变换实现与输入平面图的对齐。为克服密度图与建筑平面图之间的视觉差异,引入跨模态学习机制,利用2D基础模型进行语义对齐,同时保持结构一致性。实验结果显示,该方法在多种场景中显著优于先前方法,特别是在极稀疏输入(如仅单张图像)时仍能有效工作。代码和数据将公开,以促进进一步研究。

多模态端侧论文/研究
5月20日
09:55
IT之家(RSS)
62
微信AI团队模式识别中心论文首获ICASSP最佳工业论文奖

2026年5月,微信AI团队模式识别中心的论文《Less Redundancy: Boosting Practicality of Vision Language Model in Walking Assistants》在西班牙巴塞罗那举办的ICASSP 2026上荣获最佳工业论文奖。这是该奖项自2016年设立以来首次颁给中国企业团队。论文提出的WalkVLM-LR模型专为视障人士行走辅助设计,其核心创新在于减少输出与时间冗余,优化了视觉语言模型的提醒时机。目前模型延迟控制在百毫秒量级,实时性较为可用,但距离实际落地应用仍需进一步优化。

多模态端侧论文/研究
5月19日
08:00
HuggingFace Daily Papers(社区热门论文)
52
极简视觉惯性里程计方案

传统视觉惯性里程计依赖高像素相机,资源消耗大。本研究提出了一种极简方案,仅需四个向下感知的光电二极管(通过光学Gabor掩膜提取速度信息)与一个IMU,即可为差速驱动机器人提供鲁棒的平面运动估计。通过物理仿真器联合优化掩膜参数与时序卷积网络,该模型能从四个光电二极管的测量中解算速度,并结合IMU的角速度输出连续轨迹。原型传感器在多样化的室内外地形验证中,无需真实场景微调即可紧密跟踪参考真值,证明了极简传感方案能够实现高效、精准的平面里程计。

具身智能端侧论文/研究
5月18日
08:00
HuggingFace Daily Papers(社区热门论文)
64
Stable Audio 3

Stability AI 发布了名为 Stable Audio 3 的快速潜在扩散模型家族,包含小、中、大三个版本,专注于可变长度音频的生成与编辑。该模型能够生成数分钟长的音频,并支持修复功能,可对音频进行针对性编辑或续写短录音。其核心是新型语义声学自编码器,能将音频映射至紧凑潜在空间,在保证高保真度的同时鼓励语义结构形成。通过对抗性后训练,模型在加速推理、减少步骤数的同时提升了音频质量和提示词遵循度。该模型基于授权及 Creative Commons 数据训练,在 H200 GPU 上生成音频耗时不足 2 秒,在 MacBook Pro M4 上仅需数秒。目前,官方已开源可在消费级硬件运行的小型和中型模型权重及其训练推理流程。

arXiv多模态端侧论文/研究
5月15日
08:41
IT之家(RSS)
53
Anthropic 最强 AI Mythos 辅助,专家发现苹果 macOS 26.4.1 提权漏洞

安全研究人员借助Anthropic的AI模型Claude Mythos,在苹果macOS 26.4.1系统中发现并构建了一条权限提升利用链。他们从一个普通本地账户出发,结合两个漏洞,最终获得了最高权限的root shell,并成功绕过了Apple Silicon设备上的内存完整性强制(MIE)硬件安全机制。整个研究过程耗时约5天,运行于启用MIE的Apple M5硬件上。研究人员已向苹果通报此发现,具体漏洞细节因仍在审查中而未公开。

Anthropic安全/对齐端侧论文/研究
5月14日
04:44
HuggingFace Daily Papers(社区热门论文)
42
EgoForce:基于前臂引导的单目头戴相机三维手部姿态重建

本文提出EgoForce框架,通过单个头戴式摄像头从用户视角重建手部的绝对三维姿态与形状。该框架解决了单目RGB方法的深度尺度模糊问题,并能泛化应用于鱼眼、透视等多种摄像头模型。其核心创新在于结合了可微分前臂表征以稳定手部姿态、统一的臂-手Transformer模型从单视图预测几何信息,以及一个光线空间闭式求解器来实现跨设备的绝对三维姿态恢复。在三个第一人称基准测试上的实验表明,EgoForce实现了最先进的三维精度,在HOT3D数据集上将相机空间MPJPE误差降低了最高28%,并在不同摄像头配置下保持了一致的性能。

端侧论文/研究
5月12日
15:44
HuggingFace Daily Papers(社区热门论文)
59
DECO:面向终端设备的稀疏混合专家模型,实现媲美稠密模型的性能

为克服混合专家模型参数量大导致的存储与访存瓶颈,研究团队提出稀疏MoE架构DECO,以适配终端设备对高性能、低计算成本和小存储开销的需求。DECO采用基于可学习专家级缩放的ReLU可微分灵活路由,自适应平衡路由专家与共享专家的贡献,并引入NormSiLU激活函数提升路由稳定性与稀疏度。实验表明,在总参数量和训练数据量相同的情况下,DECO仅激活20%的专家即可匹配稠密Transformer性能,且超越现有MoE基线;其专用加速内核在真实硬件上实现了相比稠密推理3.00倍的加速。代码与模型将开源。

开源/仓库推理端侧论文/研究
5月10日
08:00
HuggingFace Daily Papers(社区热门论文)
51
MemPrivacy:面向边缘云智能代理的隐私保护型个性化内存管理方案

针对边缘云智能代理的隐私保护需求,本研究提出MemPrivacy方案。该系统在边缘设备端识别并替换隐私敏感信息为结构化占位符,再上传云端处理,仅在本地恢复原始数据,从而将隐私保护与语义保留解耦。基于包含200名用户、5.2万余实例的评估数据集MemPrivacy-Bench及四级隐私分类法,实验表明,该系统在隐私信息提取任务上显著优于GPT-5.2等通用模型,并在多种记忆系统中将效用损失控制在1.6%以内,实现了隐私保护与记忆效用的有效平衡。

智能体安全/对齐端侧论文/研究
5月9日
08:00
HuggingFace Daily Papers(社区热门论文)
60
PAAC:一种隐私感知的智能体端云协作框架

研究团队提出隐私感知智能体框架PAAC,以解决LLM智能体在云端推理与设备端隐私保护间的矛盾。该框架将规划器与执行器的分解与端云边界对齐:云端智能体仅对保留敏感信息推理角色但隐藏具体内容的类型化占位符进行推理;设备端智能体则负责识别敏感信息,并将执行结果提炼为关键发现。在严格隐私设置下的三项智能体基准测试中,PAAC在隐私与准确性的帕累托前沿上表现最优,平均准确率提升15-36%,平均信息泄露减少2-6倍。该框架在涵盖数学、科学与金融等10个领域的另外17个基准测试中也表现出一致的改进。

智能体安全/对齐端侧论文/研究
5月8日
08:00
HuggingFace Daily Papers(社区热门论文)
62
FAAST:一种仅需前向传播的快速权重关联适应方法,用于测试时监督适应

FAAST提出了一种仅需前向传播的关联适应方法,通过解析方式将标注样本单次编译为快速权重,无需依赖记忆或上下文。该方法实现了恒定时间推理,并将任务适应与预训练表征解耦。在图像分类和语言建模基准测试中,FAAST性能匹配或超过基于反向传播的适应方法,同时将适应时间减少90%以上;与基于记忆/上下文的适应方法相比性能相当,但内存使用量最高可节省95%。这为监督任务适应提供了一个高效、可扩展的解决方案,尤其适用于资源受限的模型。

arXiv数据/训练端侧论文/研究
01:30
Apple Machine Learning Research(RSS)
精选69
实用学习型图像压缩的关键要素

学习型编解码器相比传统硬编码方法的显著优势在于能直接针对人类视觉系统进行优化,但目前尚未出现兼具感知质量与实用性的图像编解码方案。本研究通过全面分析关键建模选择,旨在填补这一空白,探索在感知质量与运行效率间的联合优化方案,并在消融实验中引入了若干新技术。研究进一步采用性能感知的神经架构优化方法,为构建真正实用化的学习型图像压缩系统提供了系统性的设计指南与实验基准。

端侧论文/研究

推荐理由:Apple 这篇调研把感知质量和运行效率同时拉进实做框架,做 codec 或端侧推理的人值得认真读一下。
5月7日
14:16
IT之家(RSS)
57
全球首发,三星 Galaxy Watch 手表实现提前预测晕厥

三星与韩国中央大学光明医院的联合临床研究证实,Galaxy Watch 6能高精度预测血管迷走性晕厥。该研究对132名疑似患者进行评估,利用手表的光电容积脉搏波描记法传感器和AI算法分析心率变异性数据,建立的模型可提前5分钟预测晕厥事件,准确率达84.6%。该成果已发表于《European Heart Journal – Digital Health》,是全球首次证明商用智能手表具备此潜力,提前预警有助于患者采取安全措施,减少摔倒导致的继发性损伤。

端侧论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
X-OmniClaw技术报告:一个用于多模态理解与交互的统一移动智能体

本文介绍了X-OmniClaw,这是一个为安卓系统设计的统一移动智能体,旨在通过多模态理解与交互处理复杂任务。其架构整合了感知、记忆与行动三大模块:Omni Perception提供统一的多模态输入管道,整合UI状态、视觉上下文与语音,并分解为结构化意图表示;Omni Memory融合运行时工作记忆与本地数据提炼的长期个人记忆,以增强个性化与上下文感知;Omni Action采用结合XML元数据与视觉感知的混合落地策略,通过行为克隆与轨迹回放捕获用户导航技能,实现精确的直接访问执行。多场景演示表明,该系统能有效提升交互效率与任务可靠性,为下一代移动原生个人助手提供了实用蓝图。

智能体arXiv多模态端侧
08:00
HuggingFace Daily Papers(社区热门论文)
61
LiVeAction:一种轻量级、通用且非对称的神经编解码器设计

现代传感器生成丰富数据,但可穿戴或遥感设备受带宽和功耗限制。标准编解码器如JPEG为人类感知设计,不适用于机器任务和非传统模态;通用压缩方案未利用信号冗余,性能次优;生成神经编解码器参数多、数据需求大且模态特定,难以实用。为此,研究团队提出LiVeAction,一种轻量级、通用且非对称神经编解码器架构。其关键创新包括:采用类似FFT结构并缩减神经网络分析变换的规模和深度,以降低编码器复杂度;使用基于方差的码率惩罚替代对抗性和感知损失,以支持任意信号模态并简化训练。相比最先进生成分词器,LiVeAction在码率-失真性能上更优,且可实际部署于低功耗传感器。相关代码、实验和Python库已开源。

多模态开源/仓库端侧论文/研究
4月28日
20:36
HuggingFace Daily Papers(社区热门论文)
47
医学基础模型嵌入中量子核相对于经典崩溃的优势

本研究在无噪声模拟中,使用量子支持向量机(QSVM)对MIMIC-CXR胸部X光片进行二元保险分类,基于MedSigLIP-448、RAD-DINO和ViT-patch32等医学基础模型的冻结嵌入。通过两层公平比较框架,第一层未调优QSVM与未调优线性SVM对比,QSVM在所有18个测试配置中赢得少数类F1分数(17个p<0.001),在q=11时平均F1达0.343,经典核仅0.050。第二层未调优QSVM与C-调优RBF SVM对比,QSVM赢得所有七个配置。特征谱分析显示量子核有效秩在q=11达69.80,远超线性核,全量子比特扫描揭示架构依赖浓度起始。代码已开源。

端侧论文/研究
‹ 上一页
12
下一页 ›