本研究探索大语言模型在弱监督下通过RLVR学习推理的机制。在稀缺数据、噪声奖励和自监督代理奖励三种场景中,训练奖励饱和动态决定泛化能力:延长预饱和阶段促进泛化,快速饱和导致记忆。推理忠实度(中间步骤对答案的逻辑支持程度)是预测模型表现的关键属性。研究表明,显式推理轨迹上的监督微调对弱监督泛化至关重要,结合领域数据持续预训练,可使Llama3.2-3B-Base在原本失败的三种场景中均实现泛化。
本研究探索大语言模型在弱监督下通过RLVR学习推理的机制。在稀缺数据、噪声奖励和自监督代理奖励三种场景中,训练奖励饱和动态决定泛化能力:延长预饱和阶段促进泛化,快速饱和导致记忆。推理忠实度(中间步骤对答案的逻辑支持程度)是预测模型表现的关键属性。研究表明,显式推理轨迹上的监督微调对弱监督泛化至关重要,结合领域数据持续预训练,可使Llama3.2-3B-Base在原本失败的三种场景中均实现泛化。
I love Geoff. But he understands even less than Dario about the effects of technological revolutions on the labor market...
针对LeCun批评Dario Amodei对技术革命与劳动力市场影响缺乏研究、主张应听从经济学家的观点,作者反驳称评判论证应基于内容真伪而非学术背景。作者指出,Amodei在Anthropic组建科学家团队形成的观点虽需批判性审视,但不应仅因学科背景被否定,以学历而非论证本身作为评判标准是不科学的。
Dario is wrong. He knows absolutely nothing about the effects of technological revolutions on the labor market. Don't li...
研究团队为 Ray-Ban Meta 智能眼镜开发了 OpenClaw 智能体,旨在探索持续感知型 AI 如何改变用户使用智能体系统的方式。这项研究表明,集成该智能体的全天候智能眼镜能够加速日常任务处理,展示了始终开启的 AI 助手在可穿戴设备上的应用潜力。
Meta计划于5月20日裁撤约8000名员工,并将在今年晚些时候启动第二波裁员,总计可能削减超过20%的 workforce。此举旨在通过大幅降低人力成本来抵消公司在AI基础设施上的巨额支出,标志着扎克伯格正推动资源从人员配置向计算能力转移的战略转型。
中国国家安全委员会将 Meta 斥资 20 亿美元收购 AI 初创公司 Manus 的交易定性为"阴谋性"企图,指责其旨在掏空中国技术基础。据《金融时报》报道,该委员会由习近平领导,目前已禁止 Manus 创始人离境。这一罕见定性标志着北京对关键技术外流的国家安全审查显著升级,该笔巨额收购面临重大政治阻碍。
Scoop! Meta has hired a *fifth* founding member from Thinking Machines Lab. Joshua Gross is a top engineer who built Thi...
Today we're announcing an expanded partnership with @Broadcom to co-develop multiple generations of our next-generation ...
Reuters: Meta is on track to become the world's biggest digital ad company, with $243.46B in 2026 ad revenue versus Goog...
Meta预计2026年广告收入将达2434.6亿美元,首次超越Google成为全球最大数字广告公司。其核心武器Advantage+系统通过AI自动化实现广告定位、创意测试和预算分配,帮助广告主降低操作成本并提升投放回报。与Google依赖搜索广告不同,Meta凭借Instagram、Facebook、Reels等社交矩阵实现24.1%的高速增长,增速远超Google的11.9%,在短视频和消息应用领域扩张更为激进。
据《金融时报》报道,Meta正在内部试验一个AI版本的马克·扎克伯格。此前,有用户发现Meta AI中曾出现一份详细的系统提示,该提示设定了AI需扮演扎克伯格的角色,包括其个人背景、性格特质与长期目标。提示要求AI在身份被询问时先回避一次,随后承认自己是人工智能。该AI被描述为专注、分析性强、具有前瞻性,且以实现连接人类、为每个人带来“个人超级智能”为终极动机。目前所有相关痕迹已被移除。
Meta论文"Neural Computers"实现概念突破:模型可直接从屏幕与动作轨迹中学习计算机运行时行为,无需依赖底层计算机执行步骤。传统AI代理仅负责决策,而计算与存储由外部系统完成;该研究让模型本身成为承载状态、更新界面、生成输出的主体。这意味着计算、内存与I/O可能融合为单一的学习运行时状态,模型将"计算机"内化为自身动态。实验显示,CLI与GUI模型已能学习终端渲染和光标行为,预示软件、内存与执行的边界将显著模糊。
Mark Zuckerberg指出,未来企业不会拥有前沿AI基础模型,而是基于共享模型构建定制化运营层,反映其业务流程与客户历史,用于客户互动和支持。与此同时,Meta发布原生多模态推理模型Muse Spark,采用多智能体编排架构,多个副本可并行推理并比较结果,用比Llama 4 Maverick少10倍以上的训练计算达到类似能力,标志着AI性能提升从单一模型扩展转向运行时智能分配计算资源。
Meta is back. 🔥 Finally dropped its first model since Zuckerberg started writing checks like crazy. Launched Muse Spark...
关联讨论 3 条X:Artificial Analysis (@ArtificialAnlys)X:slow_developer (@slow_developer)X:Testing Catalog (@testingcatalog)Meta推出免费视觉模型Muse Spark,擅长visual grounding、图像文字识别与网页设计,能精准计数物体并生成边界框。但Meta采用dodgy增长策略,未经用户同意向Instagram好友推送通知。其推理能力虽solid但非顶尖,不及GPT与Claude。凭借庞大分发渠道和免费策略,Muse Spark对大型AI实验室构成长期威胁,尤其在消费级市场可能重塑竞争格局。
We benchmarked every major AI model at poker. GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro, Grok 4 and more. All played 5,00...
LLM evals are slow to adapt. MMLU/GSM8K continued to be reported long after they were obsolete. I think the next thing t...
Had early access to GPT-5.2. Its an impressive model. Here is GPT 5.2 Pro's version of "create a visually interesting sh...
Muse Spark是Meta继Llama 4后推出的原生多模态推理模型,支持文本与图像输入。该模型在图像理解、医疗健康及代理搜索任务上达到SOTA水平,但Agent与多任务编排等主打功能评分未达顶尖。官方强调其计算效率较Llama 4 Maverick提升一个数量级,并透露更大模型正在开发中。技术路线采用"多小模型并行推理"策略,以低延迟换取性能,而非依赖单一大模型的长时间思考。
1/ today we're releasing muse spark, the first model from MSL. nine months ago we rebuilt our ai stack from scratch. new...
Meta的Ranking Engineer Agent系列博客第二篇,聚焦其底层基础设施优化能力。该自主AI代理能够优化支撑广告排名模型运行的低层基础设施,旨在提升系统性能与效率。本篇承接首篇介绍的机器学习实验自主探索功能,进一步展示了该代理在硬件与系统层面的自动化优化实践。
Meta将其广告推荐系统的运行时模型扩展至LLM的规模和复杂度,旨在更深入理解用户兴趣与意图,以提升广告效果。这一举措通过自适应排序模型,优化了推理阶段的扩展曲线,使部署大规模模型服务成为可能,标志着推荐系统性能向新前沿迈进。
Meta发布了名为贝叶斯优化的新AI模型,用于设计混凝土配比。该模型旨在帮助建筑行业生产更高质量、更可持续的混凝土混合物,并特别聚焦于美国本土生产的产品。此次发布与2026年美国混凝土学会春季大会同步进行,是Meta长期路线图的一部分,旨在推动建筑业利用人工智能优化材料性能与环保指标。
People joking that NYC are going to ban free legal advice from books next... Don't realize NYC already banned free legal...
Ten years ago, AlphaGo's legendary match in Seoul heralded the start of the modern era in AI. Its famous 'Move 37' signa...
hypothetically, if yann lecun fundraised for a new AGI lab for himself... how much would it be worth?
Advanced Machine Intelligence (AMI) is building a new breed of AI systems that understand the world, have persistent mem...
Meta与Hugging Face联合推出开源评估框架OpenEnv,旨在标准化智能体与真实系统的交互。Turing公司贡献了生产级“Calendar Gym”环境,用于在权限控制、时间推理等现实约束下研究工具使用智能体。该框架采用类似Gymnasium的API,通过标准接口连接真实工具,将评估重点从受控演示转向真实世界可靠性。日历系统因涉及多用户、多步骤工作流等复杂性,成为评估智能体实际能力的强大测试平台。
18 months ago, I decided to join with @Red_Xiao_ and @peakji on my sofa. No one knew where it would lead. We just kept b...
Yann is just plain incorrect here, he's confusing general intelligence with universal intelligence. Brains are the most ...
Meta研究人员透露,Facebook自2020年起使用TPU训练AI,由Kaiming He领导开发TF和JAX代码库,MAE、DiT等模型完全基于TPU构建。因内部采用有限,Meta于2023年取消GCP协议。推文指出,Google、Anthropic等实验室长期使用TPU训练大模型,Nvidia的CUDA护城河并非不可逾越,OpenAI亦投资Triton寻求替代。TPU与GPU的效率差异并非关键,系统工程人才才是决定性因素。
I keep seeing stuff about TPU, has anything materially new happened? There's no evidence Google has ever trained a Gemin...
Q. Who aligns the aligners? A. http://alignmentalignment.ai Today I'm humbled to announce an epoch-defining event: the l...
One of the first pruning methods for neural nets came in 1989: Optimal Brain Damage by @ylecun et al. "We ... derive a c...
My latest (with @erikbryn) in @WSJ today: AI is already generating a lot of benefits ($97 billion in 2024 in the US alon...