微软联合上海交通大学等机构发布SkillOpt框架,旨在通过机器学习流程系统性地优化AI智能体的技能。该框架引入独立的优化器模型,通过harness闭环流程对技能进行编辑,且每次编辑必须在验证集上带来分数提升才被接受。框架设置了每步4到8个编辑操作的学习率预算,使核心修改控制在1到4个。实验表明,优化后的技能可使GPT-5.5的对话准确率提升23.5分。
微软联合上海交通大学等机构发布SkillOpt框架,旨在通过机器学习流程系统性地优化AI智能体的技能。该框架引入独立的优化器模型,通过harness闭环流程对技能进行编辑,且每次编辑必须在验证集上带来分数提升才被接受。框架设置了每步4到8个编辑操作的学习率预算,使核心修改控制在1到4个。实验表明,优化后的技能可使GPT-5.5的对话准确率提升23.5分。
Curious about the secret sauce behind our trillion-scale agentic foundation model? Here it comes!🥳 Last year, we releas...
关联讨论 4 条蚂蚁 inclusionAI:HuggingFace 新模型HuggingFace Daily Papers(社区热门论文)公众号:蚂蚁百灵(Ling)X:蚂蚁百灵 (@AntLingAGI)文章的核心论点是 Google 凭借其分发优势,在 AI 分发竞赛中占据了有利位置。目前 Gemini 拥有 9 亿用户,这主要归功于向 Android 用户进行的默认应用替换,以及向 Google 搜索用户推送的 AI 概览。其大语言模型 token 用量在 12 个月内从 480 万亿增长至 3.2 千万亿。为支撑此规模,Google 计划今年投入 1900 亿美元用于基础设施。Google 的关键优势在于能够利用庞大的 Android 设备基础,通过其搜索和 AI 模式免费向用户推广 Gemini。这一策略的部分成本优势源于自研的 TPU 芯片,使其在推理和训练上更独立,并能基于自身盈利补贴免费 AI 服务。尽管游戏远未结束,但 Google 的开局位置非常出色。
Curious about the secret sauce behind our trillion-scale agentic foundation model? Here it comes!🥳 Last year, we releas...
同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》商汤开源了SenseNova-U1(8B dense + A3B MoE)的完整训练代码库。这是一个统一的框架,支持文本到图像、图像编辑、交错生成、文本与视觉理解等多种多模态任务的训练。其设计注重实用性与大规模训练,采用混合并行、流式可恢复数据管道、环境变量配置、解耦模块化设计,并支持从1×8 GPU扩展到多节点集群的规模。代码库以Apache-2.0协议开源。
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》用户让Codex分析自己过去3年在X上的约3.4G发帖数据,总结出几点规律:最爆内容为编程/产品/创业、资源推荐合集、学习方法论类;爆款公式是“真实工具+明确场景+三步内路径”;发帖时间上,周五至周日、及每日三个时段(下午5-11点、上午10-下午1点、凌晨0-2点)数据更好,周一最差;内容形式上,带媒体和链接、篇幅在101-180字的表现更优。
有朋友问:什么样的内容在 X 上受欢迎,如何做 X 的运营增长? 我先让 Codex 把自己三年的 X 数据分析一遍,看有什么发现。
推文指出,当前用于推动AI能力发展的困难问题过于集中于数学领域(如Erdős问题)。虽然数学易于验证,但其成果对日常生活的直接影响不够明确。作者呼吁需要为包括工程、经济、物理、生物等在内的更多领域建立困难问题库,并配套制定相应的评估方法,以让AI智能体处理更复杂、答案更不明确的任务。
Klaviyo的AI工程师Amish Regmi(前亚马逊推理基础设施与智能体系统构建者)撰文,批判了笼统的“AI发展是指数级”的说法。他指出,这种说法常缺乏可验证的具体数据,如指数的基数、翻倍时间以及具体所指哪条技术曲线。文章通过分析数据,区分了真正陡峭的指数增长与单纯快速提升或指标失效的情况,其结论是,未来的转型将由不同技术或能力曲线之间“不匹配的斜率”所主导。
本文肯定了对Transformer当前学习能力及局限性的分析框架,并指出对抗性世界模型是逼近现实本质的关键功能之一。作者认为,单纯增加参数和算力以扩展一个低效范式,将被能主动假设与验证真理的简洁方案所超越,尽管规模化可能因人类智能本身有限而意外通向AGI。引用推文补充了强化学习(RL)作为从干预中学习的范式,比监督学习更强大,而世界建模与RL的结合有望实现对反事实的学习。
Very well written blog. I think of RL as learning from interventions, and it kinda explains why it's more powerful as a ...
谷歌研究院提出基础模型SensorFM,通过学习超过500万人产生的逾1万亿分钟可穿戴设备传感器数据,掌握了人类生理活动的一般性模式。该模型超越了将数据压缩为简单指标的传统方法,能够从数据中提取出有意义的结构并将其复用于多种健康预测任务。实验显示,模型规模和数据量越大性能越强,且其学习到的数据表征在35项预测任务中的34项上,均优于基于工程特征的基线方法。
Meta正利用内部工程师的工作痕迹——如代码编写、工具使用和问题解决步骤——来训练其编程AI。CEO扎克伯格认为,让AI观察“聪明人”执行任务(行为克隆),比使用外部承包商代码样本更有效。同时,Meta正裁员约8000人,并计划让约7000名员工转向AI相关岗位。此举反映科技行业新趋势:公司正将人类专业知识直接转化为训练数据,AI不再只是工具,而是能吸收并压缩员工工作模式的系统。
LEAKED AUDIO: In an all-hands meeting on April 30, Mark Zuckerberg tells employees that he's training AI on them ahead o...
近日,Meta CEO扎克伯格的内部音频泄露,他承认公司秘密收集员工键盘、鼠标和屏幕数据,用于训练Llama等AI模型,因Meta员工智力高可提升模型能力。然而,数据收集约20天后,Meta裁员8000人,引发“企业食人主义”批评:员工在不知情下训练可能取代自己的AI,资本剥削从时间升级到智慧。这损害了员工信任,揭示了AI时代高效但冷酷的用人逻辑——员工越优秀,其价值被快速榨取并抛弃的风险越高。
LEAKED AUDIO: In an all-hands meeting on April 30, Mark Zuckerberg tells employees that he's training AI on them ahead o...
Holy: Leaked audio from a Meta all-hands on April 30: Zuckerberg told employees the company is using them to train AI mo...
Midjourney创始人暗示他们被Google的 TPU坑了 白白浪费了一年时间… 如果回到过去他会选择英伟达的GPU🤣 “这大概让我们的研究进度,比起一开始就完全采用 Nvidia 技术栈,落后了差不多一年。并不算特别理想。如果我能回到过去,我会从第一天开始就全部使用 Nvidia 的方案。”
@bubbleboi it probably put our research a year behind where it could have been if we were pure Nvidia stack, not totally...
作者探索利用Fireworks AI Agent,通过自然语言交互自动化完成大语言模型的微调流程。他以Qwen小模型为例,调整其输出风格以优化PaperWiki项目的扩展效率。这一方法灵感源于@karpathy关于LLM知识库的推文,强调微调是让模型更“懂”数据的关键步骤。核心观点是自动化微调可推动构建可递归自我改进的AI系统,最终目标是打造一个能自我优化、用于知识发现和端到端自动化研究的强大工具。
http://x.com/i/article/2056851733582880768
本文探讨了通过微调,将个人知识库(如LLM Wiki)的内容从依赖上下文窗口,转变为固化到模型自身权重中的方法。关键在于利用如Fireworks Agent这样的自主AI代理,仅需提供自然语言目标,它就能自动完成从数据准备、训练到部署的完整微调流程。这标志着模型自我改进的闭环成为可能:当训练成为AI工作流中一个可调用的步骤时,模型能主动将反复使用的模式(如特定写作风格或决策逻辑)学习并内化到权重中,从而实现使用与优化的持续迭代。
LEAKED AUDIO: In an all-hands meeting on April 30, Mark Zuckerberg tells employees that he's training AI on them ahead o...
Cursor发布迄今最强模型Composer 2.5,仍基于Kimi K2.5。模型已与SpaceXAI合作,使用Colossus 2算力开始训练,并计划合作训练一个规模大10倍的全新模型。Composer 2.5在长任务推进、复杂指令遵循及协作自然度方面均有显著提升。关键创新包括:采用定向文本反馈强化学习解决长任务信用分配问题、使用25倍于前代的合成数据进行训练,以及通过Muon优化器与分布式正交化技术优化基础设施层。此外,模型还专门针对沟通风格和投入度校准等协作“软”维度进行了优化。
Introducing Composer 2.5, our most powerful model yet. It's more intelligent, better at sustained work on long-running t...
SemiAnalysis在播客中探讨了本次AI周期是否真正不同于以往技术周期。团队基于分析认为,AI带来的回报是真实的,且呈现为与其他周期不同的结构性趋势。为验证此观点,他们在内部追踪了9个实际工作流程(包括公司研究、财报总结等)中的token消耗成本与人工劳动成本对比,通过具体数据表明AI的效率与经济价值。研究认为这一趋势已显现出区别于历史技术迭代的独特性与持续性。
Meta提出AIRA系统,通过分离策略与实现的双代理架构,实现神经架构的自主发现。AIRA-Compose负责宏观架构搜索,AIRA-Design专注低级机制实现。该系统在24小时计算预算内,于350M、1B和3B规模上找到超越Llama 3.2的架构。其核心方法论表明,在复杂任务中分离规划代理与实现代理能提升效能,此思路同样适用于流水线组装、查询规划等其他AI代理场景。
xAI算法开源后,专家岚叔@LufzzLiz深入研究了xai-org/x-algorithm仓库源码,使用Opus-4.7创建了带有明确源码出处的完整wiki。这与引用推文所指出的现状形成对比:市面上95%的分析是AI批量生产的同质化废话,缺乏对源码的真正理解。岚叔的工作提供了有价值的算法拆解,GitHub仓库和在线阅读地址已公开。
xAI 算法开源后,解读内容铺天盖地。 我敢说一句颠覆多数人认知的实话: 市面上 95% 的分析,是 AI 批量生产的同质化废话, 连源码文件名都没翻过一次。 「多互动」「多发帖」「账号要垂直」 这种谁都会说的话,说了等于没说。 真正藏在 ...
伊利诺伊大学与清华大学等机构的研究发现,LLM智能体虽能从经验中学习,但其通过LLM将原始经历压缩成书面教训的记忆重写机制会损害记忆可靠性。在网页购物、模拟世界及ARC风格谜题等任务测试中,反复重写记忆会导致错误分组、规则过度泛化或过拟合,使智能体遗忘细节或混淆任务类型。例如,GPT-4在无记忆时可100%解决小型ARC-AGI问题集,而建立记忆并流式更新后,性能降至约54%。研究主张智能体记忆系统应重视原始经历作为关键证据,而非自动将所有经验重写为摘要,保留原始证据并选择性摘要效果更佳。