印度工人佩戴头戴摄像头采集第一人称手部动作数据,用于训练人形机器人掌握抓取、折叠等物理技能。这揭示了当前机器人热潮仍依赖廉价人类劳动获取 embodied data。与语言模型不同,机器人需从人类动作中学习握持角度、力度调整等微观物理细节。该模式将人类劳动双重商品化:既是生产工作,又成为训练AI的数据基础设施。在具身数据采集成本降低前,机器人行业将持续依赖工人劳动作为"物理智能"的廉价来源。
Indian factory workers wear head-mounted cameras to capture data for training robotics AI models. This image captures a ...
研究通过贪婪剪枝方法(逐个删除对模型似然度影响最小的token)评估LLM推理token的功能重要性。发现符号数学token比语法叙述更能经受剪枝,表明模型内部存在重要性排序。重要性具有动态性,早期可丢弃的token可能在上下文减少后变得关键。注意力模式可预测剪枝分数,说明功能重要性在模型内部可见。该发现有助于使chain-of-thought更可解释,而非仅仅缩短长度。
Do all reasoning tokens matter equally? We study the functional importance of reasoning tokens implicitly encoded in LLM...
http://x.com/i/article/2041355504526692352
FP4硬件虽已普及,但4-bit attention长期存在质量瓶颈,阻碍端到端FP4部署。研究团队提出Attn-QAT,首次系统研究attention机制的量化感知训练。该方法使FP4 attention质量达到BF16水平,同时在RTX 5090上实现比SageAttention3高1.1-1.5倍的吞吐量,在B200上较FlashAttention-4提速1.39倍。
作者宣布《Reinforcement Learning from Human Feedback》已完成写作,进入最终制作阶段,预计1-2个月内出版。该书聚焦LLM的核心强化学习方法、直觉与实现,同时涵盖后训练技术及RLHF领域的未解决问题。作者强调,这是记录RLHF领域组织的权威著作,尽管该方向常被AI其他进展掩盖,但其在人机交互中的核心地位使其值得深入探讨,而非追逐易过时的动态话题。
BIRD might be the most egregious backronym I've seen in AI recently
Platform Engineer - Benchmark Lead ARC Prize Foundation is hiring a senior engineer to build our benchmark platform * Ex...
Meta Harnesses是由斯坦福与DSPy作者提出的自动化框架生成技术,通过自动生成单文件Python程序(harness)来优化特定任务的提示词、检索与编排逻辑,实现无需人工干预的持续迭代。相比Autoresearch,其抽象层级更高,适用于结果可验证的特定领域任务(如数学推理、编程),能自动将问题分类并制定差异化策略,但在需要统一方法论的任务上存在局限。
推文以原子弹研发为例,阐述极端泛化的本质:科学仅用47年、约9个关键实验便实现从放射性观察到核武器的突破。这种进步不依赖大数据,而源于符号压缩——将少量刻意收集的数据点提炼为单页纸可承载的因果符号规则。核心观点在于,通过逆向推导数据背后的因果逻辑,人类能够将极简信息转化为重塑现实的完整方案,展现符号推理在突破认知边界中的决定性作用。
Here is a quick start script including the setup, technical details, and a candid look at where Kinetic excels versus it...
Fine-Tuning Gemma 2B on PubMedQA: Building a Medical Q&A Assistant with LoRA, Keras Kinetic, and Cloud TPU https://kuanh...
Gemma 4 and what makes an open model succeed Hint: it's not benchmark scores. https://www.interconnects.ai/p/gemma-4-and...
Keras 社区发布 Kinetic 库,开发者通过装饰器即可将函数部署至云端 TPU/GPU 运行,定位类似 Modal 但新增 TPU 支持。该工具自动完成代码打包、Cloud Build 容器构建(支持缓存)、GKE 集群调度及结果返回,实现日志实时流式传输,使远程执行体验如同本地运行。
开发者澄清该测试并非让大模型模拟数据库,而是要求其从零编写代码实现高性能向量数据库,重点考验体系结构、数据库、索引性能调优及 Agent 等编程能力。评测框架 vector-db-bench 已开源,详细测评视频即将发布。
@karminski3 你这只是在测试recall和记忆力啊 agi真正需要的是推理能力,思考能力,原创能力,解决问题的能力 现在还没有人可以超过claude
Introducing EgoVerse: an ecosystem for robot learning from egocentric human data. Built and tested by 4 research labs + ...
We are partnering with @nvidia to power our frontier model training and platforms delivering customizable AI. https://th...
Ten years ago, AlphaGo's legendary match in Seoul heralded the start of the modern era in AI. Its famous 'Move 37' signa...
Train Beyond Language. We bet on the visual world as the critical next step alongside and beyond language modeling. So, ...
研究团队提出EgoScale方法,基于20,000小时第一人称人类视频预训练GR00T N1.5,仅用4小时机器人数据即可掌握组装模型车、操作注射器等高灵巧度任务,性能较从头训练提升54%。研究发现人类视频量与动作预测损失呈对数线性缩放关系(R²=0.998)。该方法利用22-DoF手部与人类的运动学相似性,无需复杂迁移算法即可重定向动作。策略可跨硬件迁移至Unitree G1(7-DoF),性能提升30%以上,且仅需单个示教即可学习新任务。
关联讨论 1 条X:Jim Fan (@DrJimFan)We have been training with TPUs in academia for two years now (huge thanks to Google TRC!). Works like Cambrian-1, Cambr...
!!️ Representations matter for generation! But turns out our understanding of how representations help generation was wr...
here are the most important points from today's ilya sutskever podcast: - superintelligence in 5-20 years - current scal...