Nathan Lambert回应外界建议——他的《RLHF: Reinforcement Learning from Human Feedback》若改名“后训练”书籍会更畅销。Lambert承认内容本质正是后训练,但改名需重构3至15个月,因精力有限未做。他认为RLHF远未解决,值得独立成篇;该书侧重数学与直觉,后训练更偏数据与系统。他坚持原题以避免不诚实,并宣布“RLHF后训练书籍”即将出版。
斯坦福CS336课程要求学生从零实现完整LLM流水线,覆盖分词、Transformer架构、GPU优化、数据清洗、scaling laws、对齐技术等核心环节。五个作业打穿全链路,强调手搓比调包更能获得系统直觉,例如用Triton实现FlashAttention比看论文印象深。课程无需前期深度背景,每周投入约十五小时,三个月即可建立对LLM底层理解的系统性认知。知识获取伴随挫败,但执行力是拉开差距的关键。
http://x.com/i/article/2069024565901119488
Generative AI design of the best burger for its taste, nutrition, and for the environment https://www.nature.com/article...
商汤开源 SenseNova U1 完整训练代码,提供可检查、可修改、可重建的完整训练栈。同步发布 smoke-test 数据集,覆盖 t2i、it2i、多图输入、交错生成、多模态理解、视频理解、纯语言续写 7 种任务类型。用户可基于该 schema 用自有数据微调 U1,或验证数据格式及端到端测试 pipeline。数据集已上架 HuggingFace,代码托管于 GitHub。
在深圳举办的Flink Forward Asia 2026上,阿里云研究员、开放数据平台负责人Feng Wang指出,AI时代模型与数据共同决定Agent质量与效率。Apache Flink演进为Agentic Streaming for AI,与Agentic Lake协同,构建AI原生数据平台。下一代智能体建立在统一、实时的AI原生数据基础设施之上。
在2026年深圳Flink Forward Asia大会上,阿里云CTO兼国际业务总裁李飞飞分享了对AI未来的看法:随着智能体时代兴起,“数据引力”(Data Gravity)将成为主导概念。AI不仅要处理复杂工作,更需在企业实际工作流中创造切实价值,解决复杂企业挑战并交付真实业务成果。
GLM 5.2 以 34.29% 得分在 PostTrainBench 上排名第一。该基准测试 AI 智能体能否实际训练改进原始 LLM:智能体拿到 4 个小基座模型、1 块 H100 GPU 和 10 小时,需自主选择训练数据、编写训练代码、运行微调、修复失败并提交改进后模型。GLM 5.2 作为控制训练流程的智能体,评测其能否在限定条件下提升 4 个较弱 LLM。当前官方指令模型得分 51.14%,显示智能体后训练流程与更成熟的人工调优仍有差距。
这算是冷知识吗?问豆包 AI 10 个问题竟然会消耗 500 毫升的矿泉水? 原来 AI 的算力竟然还是需要消耗水的,每年竟然要消耗 230 亿立方米的水,而且还是淡水。Oh my god! 我原来以为只是消耗电。
something has definitely shifted in the past few weeks. seeing a huge uptick in large enterprises wanting to secure comp...
Meta 发布新研究 Autodata,提出 Agentic Self-Instruct 方法。该方法将 AI 智能体视为数据科学家,通过智能体规划与工具使用,替代传统手工调优后固定的合成数据流水线。该智能体自身可通过元优化持续改进,从而生成更强训练数据。实验在计算机科学、法律推理、数学对象推理三个领域均超越经典合成数据方法,且元优化带来更大提升。论文见 arxiv。
Fairgen 推出“AI Chief Insights Officer”,其核心产品 Fairgen Twin 基于每月 10 万次真实访谈为每位消费者构建 1:1 数字孪生。用户可筛选特定人群,在 20 分钟内完成定价、概念、广告测试并生成完整分析报告,替代传统 5 千至 20 万美元的研究。数据来源包括访谈、调查、交易、报告和面板数据,而非通用角色。系统通过 6 维质量门控(逻辑、忠实度、语调、合理性、参与度、数值一致性)确保输出质量。欧莱雅、T-Mobile 等品牌已使用四年,现正式向公众开放。
We've built the first AI Chief Insights Officer. Every brand has optimized for visibility. SEO, GEO, paid media. billion...
Today we're announcing our $320M Series A at a $2.3B valuation, led by @khoslaventures , with @generalcatalyst, @JeffBez...
Rohan Paul 引用 @TangriKunal 指出,机构知识长期依赖文档索引,但文档只是判断的产出物,判断本身存在于资深员工交付前修改的差异(diffs)中,而多数企业丢弃了这些印记。Farsight 将此过程定义为“系统 of Judgment”,即通过软件保存真实工作中的编辑,将重复决策转化为可衡量规则。Paul 认为企业 AI 的下一个护城河不是存储的知识,而是存储的判断——AI 需要学习初稿与终稿之间的差距,因为那里藏着企业的好标准。
"Capture your institutional knowledge" has meant the same thing for 30 years: index the documents, search over them. But...
Apple has drastically increased prices due to rising costs. The fully loaded 16-inch MacBook Pro now costs $9999. Via Ma...
Meta提出Autodata,将合成数据生成视为智能体数据科学家的任务。核心方法“Agentic Self-Instruct”让AI智能体生成并元优化合成训练与评估数据。循环流程:生成示例→弱模型与强模型分别尝试→判断结果→修订配方直至示例处于有用区间。论文强调难度不是美德,示例应针对弱模型的学习点。关键结果:在法律任务上,4B模型训练后超越了更大的397B基线。
Anthropic's letter accusing Alibaba of distillation.
The idea that distilling from Opus 4.8 lets you reach Mythos is very encouraging. It would mean that some GLM 5.3 would ...
Stanford、MIT、Harvard与Anthropic联合论文从训练层面解释大模型能力更强的原因:大模型遗忘更少,额外容量保护了弱学习信号。常见任务优先占据神经元,罕见任务在出现足够次数前被覆盖。小模型可能短暂捕捉罕见信号,但随后被常见任务更新覆盖。实验使用OLMo模型(4M到4B参数),结果显示大模型更好掌握低频任务,保留更多任务特征,梯度干扰更小。
Anthropic 指控阿里千问用 25000 个伪装账号来蒸馏 Claude 这个数量比之前指控 DeepSeek、MiniMax 和 Kimi 加起来好像都多 懂了,都传出去:Qwen 3.8 值得期待 😂 Anthropic 的蒸馏账号报告,也是一种 Benchmark。。。
BREAKING: Anthropic accuses Alibaba of using nearly 25,000 fraudulent accounts to extract Claude AI model capabilities.
距开幕1天,阿里云正式公布Flink Forward Asia 2026主论坛议程。大会聚焦实时数据智能,展现从Agent-native到AI-native的阿里云演进路径,并覆盖汽车、具身AI等产业场景。会议将于6月26-27日在深圳华侨城洲际酒店举行,所有演讲均以中文进行。席位有限,需提前报名。
Did you know? Pangram learns the difference between Claude, ChatGPT, and Gemini in its internal representations, even wi...
Anthropic 致信美国参议院银行委员会和白宫,指控阿里通义千问(Qwen)关联方在 4 月 22 日至 6 月 5 日通过约 25,000 个虚假账号与 Claude 产生超 2880 万次交互,实施蒸馏攻击,目标锁定软件工程和 Agent 推理能力。此前 2 月 Anthropic 曾点名 DeepSeek、MiniMax、Moonshot AI 三家共 1600 万次交互。同时美国商务部以国家安全为由限制其 Fable 5 和 Mythos 5 模型对外国人提供。国会两党计划在国防授权法中提出修正案,对非法获取美国 AI 模型输出的中国公司实施制裁。Anthropic 估值 9650 亿美元,已秘密提交 IPO 申请。
Anthropic claims: Alibaba continues to distill Claude on a large scale to train Qwen. Via Bloomberg Anthropic is accusin...
Anthropic 向美国白宫提交申请,指控阿里巴巴通过创建近 25,000 个假账户,在 2026 年 4 月 22 日至 6 月 5 日期间与 Claude 进行了约 2,880 万次对话,以提取模型能力用于知识蒸馏(即用竞争对手模型的输出来训练自己的模型)。Anthropic 已在中国屏蔽 Claude,但阿里巴巴仍找到了绕过方法。推文同时质疑 Anthropic 自身训练数据的来源。
BREAKING: Anthropic accuses Alibaba of using nearly 25,000 fraudulent accounts to extract Claude AI model capabilities.
Anthropic通过Bloomberg指控,与阿里巴巴相关的运营方利用近25,000个欺诈账户非法访问Claude,在4月至6月期间生成了2880万次Claude交互,目标聚焦于软件工程和智能体推理能力。Anthropic称这是“对抗性蒸馏”模式的一部分,中国企业实验室据称以极低成本从美国前沿模型获取输出以训练竞品系统。该指控矛头直指Qwen系列模型的训练来源。
swyx 在 Data+AI Summit 上采访了 Databricks 联合创始人 Matei Zaharia 和 Reynold Xin。访谈亮点包括:Databricks 为何击败 Snowflake;行业正纷纷构建“元 harness”(共享智能体框架);LTAP 与 Lakebase 重新思考操作型与分析型数据库划分,解决 HTAP 愿景;Omnigent 为编码智能体和自定义智能体提供统一框架;智能体安全需要上下文策略与支出控制;MosaicML 与 DBRX 的后续;在 1750 亿美元大公司中维持研究/创业文化;以及在智能体云竞赛中数据库、操作系统与网络的重要性。核心观点:未来软件只需让数据就绪,智能体置于其上。
Why the Frontier Ecosystem must be Open - Matei Zaharia and Reynold Xin, Databricks https://www.latent.space/p/databrick...
AI 生成假设的速度已超过湿实验室验证能力。Tetsuwan 构建了浏览器端云生物学平台:研究者上传或描述实验协议,添加样本、体积、浓度、处理条件、仪器设置等变量,ResearchOS 将其转化为可编辑的实验规范,再编译为机器人可执行脚本(PDL/VDL 语言捕获流程与变量上下文,Ariadne 转为机器人指令)。用户可远程审查与模拟,随后云实验室自动执行,无需进入物理实验室。平台经两年试点验证,今年晚些时候将上线首项服务,聚焦蛋白质设计功能筛选。
Automating the lab bench is the best thing we can do for AI in biology. Most experiments are still run by hand. Every bi...
Should FP4 training still default to E2M1?🤔 With fine-grained scaling + RHT, the bottleneck may shift from dynamic rang...
微软新论文Next-Latent Prediction (NextLat) 提出一种自监督学习方法,在常规token预测基础上增加预测下一隐藏状态的任务,迫使Transformer学习紧凑的内部世界模型。该方法在地图式世界建模、数学推理、图规划、故事预测等任务上表现更优,生成速度通过自推测解码最高提升3.3x,且无需改变Transformer架构或减慢正常推理。
Next-token prediction is myopic. What if transformers learn to predict their own next latent state? 🌠 We present Next-L...
VibeThinker是一个仅3B参数的推理模型,采用SFT+GRPO训练,在推理基准上与Opus 4.5几乎持平。在AIME26上达94.3,LiveCodeBench v6上80.2 Pass@1,近期未见过的LeetCode竞赛中接受率达96.1%,匹配或超越DeepSeek V3.2等大数个量级的旗舰系统。模型基于Qwen2.5-Coder 3B,经过硬样本筛选、多解监督训练、数学/代码/STEM可验证奖励强化学习、自蒸馏、指令聚焦RL及测试时答案检查方法CLR训练而成。
阿里云宣布距FFA2026大会仅剩2天,全部11个分论坛议程已上线,覆盖7大Data+AI方向:多模态与向量计算、AI智能体、AI平台实践、智能DevOps、Agentic Lake、实时分析与实时数据。同时设汽车AI和具身AI行业专场。Apache Fluss 1.0在大会上首次亮相,具备专为AI智能体设计的实时上下文能力。大会将于6月26-27日在深圳举办。