People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...
People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...
Andrej Karpathy指出,当前AI发展的核心瓶颈并非模型能力,而是低带宽的文本交互方式。他建议在向大模型提问时要求“以HTML格式构建回答”,并在浏览器中查看结果。由于人类大脑约三分之一皮层专司视觉处理,HTML提供的丰富视觉呈现能带来远超Markdown的阅读效率与理解深度。他认为人机交互正从Markdown向HTML演进,虽然后者消耗更多token,但用少量成本换取人类时间效率是值得的交易。最终,给人消费的内容应优先采用HTML格式,而AI代理间则可用Markdown或JSON沟通。
This works really well btw, at the end of your query ask your LLM to "structure your response as HTML", then view the ge...
作者认为,AI的人机交互界面正从当前的Markdown默认输出向更丰富的HTML格式演进,后者能提供更好的图形、布局和交互性。长远看,由扩散神经网络直接生成的交互式神经视频或模拟将是终极输出形式,但其如何与精确的传统软件结合仍是开放问题。在输入侧,仅靠音频、文本或视频并不足够,需整合如手势指点等更自然的交互方式。总体而言,在迈向脑机接口之前,人机输入输出的融合仍有大量工作要做。现阶段的一个实用建议是尝试让大语言模型以HTML格式结构化其回复。
http://x.com/i/article/2052796100608974848
🫨Google is creating a new Omni model with good video editing. Veo4? The original is on the left. Edited right. The new ...
Tesla FSD通过跳过图像信号处理器,直接处理传感器记录的原始光子计数数据,而非传统相机处理后的人眼可见RGB图像。光子计数保留了完整的光强信息,神经网络据此重建出细节清晰的场景。这使得FSD在夜间或强眩光等极端视觉条件下,能超越人眼感知,从一片白茫茫中识别出路、树、车辆等关键信息,实现更优的视觉感知能力。
The human-perceived RGB is image 1 and the Tesla AI photon count reconstruction is image 2. This is why Tesla FSD can se...
本周Huggingface排行榜上,MACE论文暂时位列第一。该研究采用混合专家(MoE)架构,实现了根据音乐生成舞蹈视频的任务。这一技术进展被认为将显著提升类似抖音平台上AI舞蹈视频的真实感与表现力。
大疆发布全新AI超幅扫拖机器人ROMO 2系列,包含ROMO P2和ROMO A2两款型号,起售价5499元。该系列搭载36000Pa聚能吸力系统,并采用雷达自适应超幅外摆机械臂,单次外摆较上代多覆盖4.5厘米边角。其智能避障2.0系统融合多类传感器,可识别并规避细至2毫米的线缆及透明障碍物。机器人具备8.5厘米双层越障能力,基站支持进阶高温自清洁与十重抑菌除臭系统。产品即日起开启预约,将于6月11日正式发售。
阿里发布基于千问大模型构建的全新AI店小蜜,这是电商行业首个具备售前售后全链路服务能力的客服agent。接入后,商家平均转人工率下降45%,“AI+人”协同转化效果首次超越纯人工客服超10%。其日均对话量近千万,服务商家超百万。核心升级包括:AI能回答超80%问题并主动导购,提升平均询单转化率至10%;覆盖超30个场景,回复速度提升50%,准确率超90%;可自动处理复杂售后流程,平均退款挽单成功率超20%。
在Google I/O期间,Gemini移动应用中发现了即将推出的Gemini Omni视频模型的新证据。该模型被描述为“我们的新视频模型”,功能包括混剪视频、在聊天中直接编辑以及使用模板等。分析指出,这可能是基于Gemini的真正“Omni”模型,而非Veo。早期测试显示,该模型会快速消耗使用额度,且网络和移动端应用都将新增一个“使用情况”标签页来追踪用量。
AI技术正重新激活AR 3D拆解教学领域。利用Cursor中的Claude opus模型,可快速生成手表、冰箱等物体的AR拆解教学演示,实现部件3D可视化与步骤标注,流程已跑通且成本低。该方案未来可广泛应用于硬核设备拆解及生物细胞等科普教学。对于精度要求不高的展示,可直接利用Apple官方免费3D模型库或KhronosGroup等开源资源快速搭建,JigSpace则是成熟的教学互动应用范例。这预示着科普教学方式将迎来新的变革。
看大家昨天都因为这个项目卧槽了一天! 朋友们都开始整活儿,其实对于精度要求不高只是展示3D的就是可以直接使用开源的一些3D库就可以拿来使用。 我最早接触和了解这玩意还是Apple的 Reality Composer,官方也提供了对应的3D ...
Mureka正被企业用以替换Suno,一场AI音乐领域的迁移正在发生。背后涉及功能、成本或合规等方面的理由。
特斯拉利用AI视觉系统预测碰撞,可在检测到不可避免的碰撞时提前70毫秒弹出安全气囊,以降低乘员受伤风险。公司CEO埃隆·马斯克表示,该功能由特斯拉视觉系统驱动,能大幅减少伤亡概率,并将在所有新车型上作为免费标配功能提供。
Thinking Machines Lab发布interaction models研究预览。该模型从零训练,原生处理音频、视频和文本,采用多流微回合设计实现实时响应,无需外部脚手架。研究预览展示了全新的交互能力,并在智能性与响应性上取得综合SOTA表现。
本研究评估多模态大语言模型(LLM)作为临床评分自动评估器的表现,以画钟测试(CDT)图像评分任务为例。在两个公开数据集上,使用Shulman评分标准,比较三大前沿LLM家族(如GPT-5)与监督深度学习模型。零样本LLM在容差一致性上具有竞争力,但全微调视觉变换器在绝对校准上更优。所有LLM均表现出显著“趋中倾向偏差”:预测分数系统性向量表中间压缩,高估低分、低估高分,严重影响认知障碍筛查的关键极端分数。消融实验证明,提供全量表示例或去除临床术语均无法消除该偏差。研究将LLM评估者偏见研究扩展至临床领域,强调在高风险筛查工作流中部署前需进行校准意识评估和事后校准。
本文发布BEACON大规模多模态数据集,旨在通过竞技游戏《Valorant》的高认知与操作负荷场景,为连续身份验证提供细粒度行为信号。该数据集包含约430GB同步多模态数据,涵盖28名玩家79次会话、总计102.51小时的实战记录,采集了高频鼠标动态、击键事件、网络数据包、屏幕录像、硬件元数据及游戏配置上下文。BEACON利用战术射击游戏固有的高精度操作与认知压力,为行为生物识别的鲁棒性提供了严格测试环境,支持连续认证、行为画像、用户漂移及多模态表征学习的研究。数据集与代码已开源。
低光图像增强面临噪声、伪影和颜色失真等挑战。现有基于Retinex的深度学习方法主要依赖单模态RGB信息,性能有限。本文提出M2Retinexformer,一个新型多模态框架,在Retinexformer基础上扩展,融合深度线索、亮度先验和语义特征,采用渐进式细化流程。深度提供光照不变的几何上下文,亮度特征显式指导亮度分布,语义特征增强场景理解。多模态信息在多尺度提取,通过交叉注意力机制融合,自适应门控根据辅助线索可靠性动态平衡光照引导的自注意力和交叉注意力。在LOL、SID、SMID和SDSD基准测试上的评估表明,其性能整体优于Retinexformer及近期其他先进方法。代码与预训练权重已开源。
针对现有表格基础模型依赖冻结预训练嵌入处理文本、图像等非结构化模态导致信息丢失的问题,研究团队推出了包含40个数据集的MulTaBench基准。该基准专注于模态间提供互补预测信息的任务,避免以往基准中模态简单共现带来的高方差问题。实验表明,针对具体任务调整嵌入能显著提升模型性能,且这一收益在文本与图像模态、多种表格学习器及不同模型规模上均具普适性。作为迄今规模最大的图像-表格基准,MulTaBench覆盖医疗、电商等高影响领域,旨在推动融合联合建模与目标感知表征的新架构研究,为开发新一代多模态表格基础模型奠定基础。
SleepWalk 是一个用于评估单场景3D世界中指令接地轨迹预测能力的基准。它基于文本描述生成可导航3D环境,要求模型根据视觉观察和语言指令,预测符合场景几何、避免碰撞且能终止于可操作位置的轨迹。该基准涵盖多样环境,并将任务按时空难度分为三级,以分析组合复杂性增加时的接地能力。在2,472个场景上对三个前沿视觉语言模型的测试显示,它们在遮挡、交互约束及多步指令下存在系统性空间推理缺陷,任务难度增加时性能显著下降。SleepWalk为推进接地的多模态推理与具身智能体研究提供了关键基准。
Urban-ImageNet是一个用于城市空间感知的大规模多模态数据集与评估基准,包含从2019年至2025年间在中国24个城市的61个地点从微博收集的超过200万张图像及配对文本。它提供1K、10K和100K规模的受控子集及完整语料库,基于HUSIC层次分类框架定义了10个类别,以区分激活与非激活公共空间、内外环境、住宿、消费、人像及非空间内容。基准支持城市场景语义分类、跨模态图文检索和实例分割三项任务。实验显示,模型在有监督场景分类上表现良好,但在跨模态检索和实例分割上更具挑战性;多尺度研究探讨了训练数据从1K增至100K时性能的变化,为AI系统感知城市空间提供了统一评估工具。
本文针对多模态深度搜索代理提出两项改进。首先,设计了一个以图像库引用协议为核心的视觉原生代理框架,将工具返回的图像注册为可寻址引用,使中间视觉证据能被后续工具复用。其次,在此基础上构建了策略上数据演化框架,通过运行闭环数据生成器,依据被训练策略的推演结果进行多轮自我优化,使每轮数据都针对当前策略的待学习需求。该框架能同时生成多样化的监督微调数据和策略感知的强化学习数据。在8个基准测试中,该方法显著提升了不同规模代理模型的性能,分析证实图像库重用对需迭代视觉细化的复杂任务尤其有效。
Fun interactive science app ideas | Part 3 Played around with generating 3D biological structures and made an app to exp...
Gemini API 的文件搜索功能现已升级为多模态版本。此次更新允许开发者上传并搜索图像、PDF、PPT 和 Word 等多种格式的文件,突破了此前仅支持文本文件的限制。该功能基于检索增强生成技术,能同时处理文本和视觉信息,从上传的文档中提取关键内容以生成更准确的回答。这一变化旨在帮助开发者更高效地构建能理解和分析复杂多模态数据的应用程序。
央视调查发现,部分电商平台评论区出现未标注的AI生成“买家秀”图片。这些图片效果精美,但与实物相差甚远,误导消费者判断商品质量。商家利用AI工具快速生成模特穿搭图,用于商品详情页和评论区,而平台审核机制不完善,未能有效识别和标注此类AI生成内容。此举涉嫌违反《电子商务法》和《消费者权益保护法》中关于真实披露信息、禁止虚假宣传的规定,侵犯了消费者的知情权和选择权。
GPT-Image-2能够根据选中的文章段落直接生成视觉化的解释,极大地改善了阅读体验,使其不再枯燥。这一功能展示了AI在将文本内容转化为直观图像方面的应用潜力,为理解和消化复杂信息提供了新的辅助工具。
强化微调(RFT)相比监督微调更抗遗忘,但在视觉持续学习任务中仍有显著遗忘。通过分析发现,瓶颈在于“轨迹级漂移无意识”:即相同任务奖励下,不同轨迹的KL散度差异大,与遗忘强相关。为此,提出保留感知策略优化(RaPO)方法,通过轨迹级奖励塑形来缓解遗忘。该方法包含保留奖励和跨任务优势归一化(CTAN)两个核心组件,分别将漂移转化为奖励信号和跨任务稳定优化。实验证明,RaPO在五种视觉持续学习场景中显著减少了遗忘,同时保持了模型可塑性,性能领先。
自回归视频扩散模型因历史帧键值缓存冗余,面临注意力复杂度高、内存开销大的问题。本文提出Forcing-KV混合压缩方法,基于注意力头功能分化的实证研究,将头划分为静态头(关注块间过渡与帧内保真度)和动态头(控制帧间运动一致性),并分别采用结构化静态剪枝和基于分段相似性的动态剪枝。在保持输出质量的同时,该方法在单张NVIDIA H200 GPU上实现超过29帧/秒的生成速度,缓存内存降低30%,在480P分辨率下对LongLive和Self Forcing分别加速1.35倍和1.50倍,在1080P分辨率下更可达2.82倍加速。
研究团队推出CAFE基准,专门评估提示型分割模型的概念忠实性。该基准通过属性级反事实操作,构建了包含2,146个测试样本的数据集,涵盖表面模仿、上下文冲突和本体冲突三类误导性语义线索。对多种模型的评估揭示了一个系统性差距:模型即使面对误导性提示也常能生成精确掩码,这表明强大的掩码预测能力并不等同于忠实的概念语义基础。CAFE为诊断模型是否基于概念而非视觉捷径进行分割提供了受控的评估标准。
研究团队推出细粒度模态迁移基准SeePhys Pro,通过为每个问题提供四种视觉元素递增的变体,评估模型在关键信息从文本转向图像时推理能力的保持情况。评估发现,前沿模型的性能随视觉化程度增加而下降,视觉变量定位是主要瓶颈。基于此,研究构建多模态RLVR训练语料库并采用盲训练诊断,发现即使掩码所有训练图像,强化学习仍能提升验证集性能。控制实验表明,此类提升可能源于残留的文本与分布线索,而非有效的视觉证据。研究强调,评估多模态推理需关注模态迁移下的鲁棒性,并诊断改进是否依赖于关键视觉证据。
研究提出一种基于全局保留的KV缓存淘汰方法,以应对长上下文推理中的内存与计算瓶颈。该方法通过轻量级保留门为缓存条目分配效用分数,并利用共享的最终评分投影在所有层和注意力头间校准分数,使不同层、头和模态的token能在统一缓存容量下直接竞争。理论分析表明,优先保留有用token能减少注意力稀释。在多种长上下文语言、视觉-语言推理及多轮对话基准测试中,该方法在显著减少KV内存的同时,性能达到甚至超越了全缓存推理水平,表明学习型全局KV淘汰可成为一种提升推理能力的机制。
针对多模态大语言模型对齐中奖励模型不可靠的问题,本研究提出DeltaRubric方法。它将偏好评估重构为“规划-执行”流程:模型先作为“分歧规划器”生成针对具体实例的中立验证检查表,再转为“检查表验证器”依据图像和问题执行检查,输出基于事实的判断。该方法被构建为多角色强化学习问题,以联合优化规划与验证能力。在Qwen3-VL模型上的实验表明,DeltaRubric在VL-RewardBench上将基础模型的整体准确率显著提升了超过18分,大幅优于无检查表基线,证明结构化、可验证的评估步骤能产生更可靠、泛化性更强的多模态奖励模型。
针对多模态大语言模型在图像模糊、压缩伪影等现实视觉退化下推理性能下降的问题,研究团队提出ROMA强化学习微调框架。该框架通过双前向传播、令牌级代理KL惩罚、基于干净图像优势的辅助策略梯度损失及正确性条件正则化四项核心技术,在避免损害清晰图像性能的前提下,有效提升了模型对视觉退化的鲁棒性。在Qwen3-VL模型上的实验表明,该方法在多个基准测试中对已见和未见退化的鲁棒性均显著优于GRPO方法。
Grok iOS应用推出Imagine Agent模式,用户可通过移动端优化的原生界面,执行复杂工作流以生成图像和视频。SpaceXAI在此领域被认为领先于其他竞争者。同时,移动端的Skills功能也即将上线。推文还提及了对下一代Imagine v2版本的期待。
Early look at Imagine Agent Mode on Grok app for iOS! Users will be able to use Imagine Agent via a mobile optimised nat...
SK海力士回应“员工人均奖金610万元”传闻,称今明年度业绩未定,奖金规模无法预测。中国汽车工业协会辟谣“8家新能源车企因锁电被约谈”为不实信息。DeepSeek大范围开放“识图模式”,具备文物识别、逻辑题解答、截图转代码等多模态能力。此外,iPhone 18 Pro系列被曝灵动岛将缩小25%;张汝京指出全球超80%半导体需求来自成熟制程;比亚迪腾势N9闪充版等新车公布预售及发布信息。