本书是构建自主AI系统的全栈实践参考。前半部分涵盖LLM基础(Transformer、GPU系统、SFT/LoRA/MoE训练、模型压缩、推理优化)及对齐与推理层(RLHF、PPO/DPO/GRPO、奖励建模、链式推理与测试时扩展)。后半部分专注智能体AI:智能体训练与轨迹RL、RAG与Agentic RAG、记忆系统、设计模式、MCP与A2A协议、多智能体架构,以及开发框架、UI设计、评估与生产部署。每章配理论基础、实现指南、代码示例和原始文献。
本书是构建自主AI系统的全栈实践参考。前半部分涵盖LLM基础(Transformer、GPU系统、SFT/LoRA/MoE训练、模型压缩、推理优化)及对齐与推理层(RLHF、PPO/DPO/GRPO、奖励建模、链式推理与测试时扩展)。后半部分专注智能体AI:智能体训练与轨迹RL、RAG与Agentic RAG、记忆系统、设计模式、MCP与A2A协议、多智能体架构,以及开发框架、UI设计、评估与生产部署。每章配理论基础、实现指南、代码示例和原始文献。
LLM 虽大幅降低自建成本,但未归零。以年薪 $200k 的工程师为例,团队花至少2周用 Claude 自建 Jira 替代品后,每月还需2小时维护,需37个月才能收回月费 $400 的购买成本。而像 Salesforce 每座 $500/月、50 座共 $25k/月,足以雇佣 1.5 名全职工程师自建,使自建更接近合理决策。因此存在一个“可行区域”:当软件足够复杂、LLM 重构不易且定价不过高时,购买仍优于自建。
大语言模型默认无状态,构建智能体需借助记忆机制。七种记忆类型包括:工作记忆(上下文窗口内临时存储提示词、消息、工具输出)、语义记忆(长期存储用户偏好、事实)、情节记忆(记录过去事件与任务结果用于经验学习)、程序记忆(存储技能、工作流与行为规则)、外部/检索记忆(通过向量数据库在推理时拉取信息,即RAG)、参数记忆(嵌入模型权重中的世界知识与推理模式)、前瞻记忆(记忆未来意图与计划目标)。每种记忆对应不同时间尺度与实现方式,组合使用可构建更强的自主智能体系统。
UC Berkeley分析美国一所大型公立研究型大学超50万份成绩发现,自ChatGPT推出以来,写作和编程任务多的课程A等级比例跃升13个百分点,平均GPA上升0.12分。成绩涨幅主要来自家庭作业而非考试,口头展示类作业成绩未受影响,表明AI替代学生完成作业而非改善学习。研究建议重新设计作业格式。OpenAI CEO Sam Altman警告若不调整教育体系,批判性思维可能萎缩。挪威已在小学全面禁用AI。
拜耳与Thoughtworks合作开发了云端平台PRINCE,利用Agentic RAG和Text-to-SQL整合数十年临床前安全研究报告。该系统从关键词搜索演进为能回答复杂问题并起草监管文档的智能研究助手。架构通过上下文工程控制信息路由,通过驾驭工程实现编排、错误恢复与可观测性。系统以透明度、可解释性和人工参与为核心信任机制,显著提升数据可访问性与研究效率,同时确保治理与合规。
OpenAI CEO Sam Altman 继续押注大语言模型的规模扩展,批评一代研究者过于自信地认为 scaling 行不通。在斯坦福回应 Yann LeCun 等批评者时,Altman 表示有些人将身份与立场绑定,即便数据证明他们错了也不愿放手。他指出 LLMs 已在某些领域超越人类智能,如 OpenAI 模型推翻了一个长期困扰数学家的猜想。但对于需要高判断力的长期复杂任务,LLMs 仍远不如人类。Anthropic CEO Dario Amodei 近期也表达了类似看法。
一篇文章通过亚马逊搜索“100000 whys”后出现的约150本儿童书籍封面拼图指出,这些封面高度雷同——如几乎所有顶部封面左上角都有一只咆哮的恐龙,以及反复出现的红白火箭、金毛犬、狮子等图案——正是AI生成内容的典型产物。作者认为LLM写作的独特之处不在于个体风格与人类不同,而在于它们面对几乎任何普通提示词都会调用同一套复杂手法,导致输出呈现准确定性相似。这种模糊信号在随意场景中可凭直觉识别,且随着内容生产成本远低于消费成本,这种直觉愈发重要。
随着实现速度加快,审查AI生成代码成为新瓶颈。作者发现,即便遵循分阶段、小变更等良好实践,审查自己未亲手思考过的代码仍带来认知过载。他经常拒绝AI编码助手生成的全部代码并从头重写,理由包括:无法用自己的话解释其思路、diff大于问题本身、在未证明必要性前就引入抽象、本地能运行但让系统更难推理、信任输出超过理解。作者主张必须人工审查与AI审查结合,强调AI仍需优秀工程师引导才能产出可持续的解决方案。
腾讯元宝推出父亲节主题活动,用户可选择爸爸年轻时照片与自己的照片,输入提示词(如“帮我生成一张和爸爸的合影,将图2的我融合到图1爸爸的照片中,我想穿越回__年前,和他一起_____;保留爸爸照片的背景、动作及五官;人物姿态自然协调,整体光线与色调保持一致”),元宝即可生成合影。活动旨在让用户“回到过去”看到爸爸的青春模样。
一位读者发现自己下意识更偏爱2022年及之前出版的书籍,尤其对不熟悉作者的近期作品会降低权重。他确信那些书中的每个字都经过人工输入、检查、编辑和校对,这种人力投入赋予书籍独特的价值感。尽管他经常使用大语言模型完成编程工作并认可其产出质量,但仍难以摆脱对人工创作努力的看重。他意识到这种心态可能类似前人担忧新技术“拉低社会水平”,但认为人类最终会适应并接纳这一新工具。
Signal总裁Meredith Whittaker在接受Bloomberg采访时警告,ChatGPT、Claude等AI聊天机器人“不是你的朋友、有意识的生物或有感知的对话者”。她坦言自己会用AI工具“格式化文档”,但不会向它们提问,因为不想让思考过程被“平均已有内容”的系统答案取代。针对微软AI CEO Mustafa Suleyman预测用户可让Copilot处理全部圣诞购物,Whittaker指出,这需要Copilot监听家庭群聊、获取信用卡、浏览器、Signal、代发消息、家庭地址和日历等权限,相当于在Signal中“开了一个后门”。
旧金山营销公司 Qontour(原 Prompt Digital)盗用了 John Koenig 的畅销书《The Dictionary of Obscure Sorrows》全部文本,将其发布在新域名网站上,但把书中原本由 Koenig 等人创作的拼贴插图替换为 DALL‑E 2 生成的 AI 图像,并添加了“Submit A Sorrow”功能——用户描述感受后,OpenAI 的 GPT‑4 会自动生成新词、词源和定义。Koenig 本人否认参与,称对此毫不知情。Qontour 在页尾标注自己是“粉丝”,并声明不拥有网站素材的任何权利。
《大西洋月刊》记者Alex Reisner发现四个用于训练AI模型的音乐数据集,并使其可公开搜索。其中两个数据集规模巨大,分别包含1200万首和900万首曲目;另外两个各超过10万首。这些数据集已被下载数千次,谷歌与Stability已在研究论文中确认使用。部分数据来源(如Free Music Archive)供个人免费使用,但商业应用需获许可。三个数据集以YouTube或Spotify链接列表形式分发,AI开发者使用自动化工具绕过登录和广告下载实际音频,此举违反平台服务条款。用户可访问《大西洋月刊》AI Watchdog网站搜索相关歌曲、书籍等训练素材。
美国白宫以国家安全为由,命令Anthropic限制AI模型Fable 5和Mythos出口,导致两款模型暂停向美国境外用户及境内外国公民提供服务。此前Anthropic仅向约150家受审查企业和政府机构开放Mythos。触发禁令的两个事件:Anthropic向一家被怀疑与中国有关联的韩国电信公司(普遍报道为SK电信)提供Mythos访问权限;亚马逊CEO称其研究人员找到了绕过Fable 5安全措施的方法,Anthropic否认“越狱”说法。文章回顾了1990年代美国政府试图阻止PGP加密软件传播、以及后来通过《瓦森纳协定》限制间谍软件出口但屡屡失败的案例,指出历史表明出口管制成效有限。
2022-2023年Meta的Llama架构还是干净的重复Transformer模块,如今LLM已复杂:多种注意力变体(查询分组、压缩、稀疏、线性、滑动窗口等)、混合专家从FFN扩张到注意力块和残差流、视觉/音频编码器从外挂变为融合、多GPU推理引入通信操作。Seb Raschka的架构图库可对比Llama 3与Nemotron 3 Ultra。PyTorch的FlexAttention通过Triton模板生成可组合注意力核。Andrej Karpathy加入Anthropic,强调架构可组合性与智能体自动研究循环的重要性。
《幻兽帕鲁》开发商 Pocketpair 发行与传播负责人约翰·伯克利表示,玩家对生成式 AI 的反感是游戏公司不使用它的充分理由。伯克利确认 Pocketpair 完全没有使用生成式 AI,并称内部有足够多的美术人员愿意亲自完成工作,让 AI 接手而裁掉他们没有意义。他还指出,Steam 已开始在一定程度上限制生成式 AI,未来开发者可能需主动声明游戏“100% 由人类制作”。
Take-Two 在 2025 年 4 月裁撤了整个 AI 研究团队,该团队长期从事传统 AI 研究而非生成式 AI。前负责人卢克·迪肯博士接受采访时表示,生成式 AI 当前热度被严重夸大,泡沫一旦破裂,外界可能连同传统 AI 研究一并抛弃。他认为业界有道德责任妥善管理生成式 AI,但完全拒绝也不是正确答案。迪肯警告,公众缺乏细致判断来区分传统 AI 与生成式 AI,大语言模型已进入幻灭低谷期。
高通 CEO 安蒙认为,AI 智能体将改变应用和设备使用方式。他设想的入口之一是内置摄像头和显示屏的智能眼镜,用户告诉数字助理需求,AI 智能体即可协调多个应用完成流程。安蒙指出应用不会消失但会变化,智能体将成为新应用。苹果 Siri、三星 Bixby 等数字助理能力持续提升。未来手机和新设备将围绕 AI 智能体重新设计。高通正参与 40 多种 AI 设备设计,包括智能首饰、带摄像头的耳机、智能胸针和手表。安蒙最看好智能眼镜,预计其规模最终可与智能手机相当——去年全球智能手机出货超 12 亿部。
纽约大学金融学教授达摩达兰6月20日警告,AI行业泡沫破裂冲击可能比2000年互联网泡沫更严重。AI需巨额资金建设数据中心等实体基础设施,且大量投资靠举债,市场调整时损失将向社会扩散。他怀疑AI商业模式能否实现规模效应,因每次使用均消耗更多算力,成本类似Spotify按次付费而非Netflix分摊模式。DeepSeek等中国竞争对手可能继续压低价格,当前利润率已不高。即便最乐观情景成真,若AI直接取代完整岗位,一半白领可能失业,社会代价极其惊人。
纽约大学金融教授Aswath Damodaran在播客中警告,AI行业若发生回调,冲击可能比2000年互联网泡沫破裂更痛苦。他指出AI需巨额物理基础设施投资且多依赖债务融资,损失将波及社会。Damodaran质疑AI商业模式能否规模化,因AI每次使用都消耗算力,规模经济弱于Netflix、更像Spotify;中国Deepseek等对手带来价格侵蚀,利润率本已很低。他还警告,若AI实现替代整个岗位的愿景,将导致一半白领失业,带来巨大社会成本。科技巨头因重注AI进入不熟悉的资本密集型领域,苹果的谨慎态度在他看来更明智。
本教程使用TimeCopilot构建端到端预测工作流。安装TimeCopilot等库后,加载AirPassengers数据集及合成季节序列(注入三处异常)。配置统计模型(AutoARIMA、AutoETS、SeasonalNaive、Theta)、Prophet和基础模型(Chronos,根据GPU选用amazon/chronos-bolt-small或tiny,可选TimesFM)。通过滚动交叉验证和RMSE等指标评选最优模型,生成概率预测与预测区间,可视化未来趋势并检测异常值。可选LLM智能体自动选择模型并输出分析响应。
GLM-5.2(MIT开源,753B参数,约40B活跃)在AA Intelligence Index上仅比GPT-5.5低4分、比Claude Fable 5低9分,但其幻觉率仅28%,远低于GPT-5.5的86%和DeepSeek V4 Pro(1.6T参数,49B活跃)的94%。后者在AA-Omniscience基准上仅6%的问题会承认不知道。实际代码测试中,GLM-5.2用12秒和800个推理token识别出技术悖论,而DeepSeek V4 Pro耗费3分26秒和近10倍推理token后仍给出错误答案。模型规模增长正导致幻觉率飙升而非智力提升。
同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》6月19日,x86生态系统咨询小组(EAG)发布ACE规范1.15,通过原生矩阵乘法引擎和低精度格式增强x86 AI性能。ACE在AVX向量指令基础上新增图块寄存器状态,并纳入AVX10下的格式转换指令。支持INT8、INT32、FP32、BF16、FP16、E8M0、FP8及MX联盟定义的多类MX格式。部署上,AMD Zen 6将引入新AI数据类型,Zen 7配备新矩阵引擎与AI数据格式扩展。英特尔与AMD于2024年联合成立EAG。
Google Docs 中出现的 Gemini 弹窗可通过两种方式关闭。一是点击文档顶部菜单栏的 Gemini,在下拉菜单中选择 “bottom bar preferences” 并关闭底部栏。二是通过 Gmail 设置:点击齿轮图标进入 “See all settings”,找到 “Google Workspace smart features” 并管理开关,关闭 Workspace 智能功能(包括 Docs 中的 Gemini 弹窗)。该方法可统一禁用多个 AI 功能,避免逐一关闭。
MCP 相较于 skills/CLI 的关键优势在于,它能将认证流程隔离在 Agent 的上下文窗口之外,甚至完全脱离 Agent 框架。其理想形态可能仅仅是作为 API 的认证网关——即便如此也是一项胜利。
上周五,白宫以国家安全为由命令Anthropic限制其AI模型Fable和Mythos向美国境外及境内外国公民出口。Anthropic接到通知后约90分钟内限制访问,两个模型已有一周无法使用。此前Mythos仅对约150家审查过的公司开放。触发禁令的两个事件:Anthropic给予一家疑似与中国有关联的韩国电信Mythos访问权;亚马逊CEO报告发现绕过Fable 5安全措施的方法。历史表明类似出口管制效果参差不齐。目前僵局可能因保持美国竞争力而解除。
OpenRouter 是托管在 Cloudflare 边缘的 LLM 网关,无需管理基础设施,收取 5.5% 平台费(前 100 万次请求免费),支持 70+ 提供商和自动故障转移。LiteLLM 是自部署代理(Docker/PostgreSQL/Redis),数据不离开内网,免费开源,但需承担基础设施成本(生产部署约数百美元/月)。当模型月支出超过约 $3,600(基础设施 $200/月)或 $9,100(基础设施 $500/月)时自托管更划算。LiteLLM 提供六种路由策略和自定义 Python 路由;OpenRouter 具备 SOC 2、GDPR 认证和零数据保留选项。两者可串联使用。
OpenRouter是托管路由网络,买credits后通过一个API路由至70+供应商,自动故障转移,无需自有密钥;覆盖300+模型(含20+免费),按用量收费(零加成+5.5%平台费,首100万免费),支持零数据保留和欧盟路由。Portkey是AI控制平面(2026年被Palo Alto收购),置于用户密钥之上,增加治理、提示管理、护栏和可观测性;提供1600+ LLM统一API,按日志计费(Developer免费,Production $49/月),支持HIPAA、SSO、私有部署。两者均可组合使用。
最新研究表明,过度依赖AI工具会导致医生和软件工程师技能退化。波兰一项针对内镜医生的研究发现,在使用AI辅助后,无AI支持时腺瘤检出率从28.4%降至22.4%。美国医疗工作者调查显示,70%的护士和77%的医生担忧因依赖AI而丧失技能。Anthropic对52名软件工程师开展了随机对照试验,考察AI对编码能力的影响。研究人员指出,AI驱动的“技能去化”已在医学和计算机科学领域出现,但目前尚无成熟的应对方案。
智能的一种定义是样本效率,但近年AI进步主要靠扩充数据分布和增加算力。强化学习本质是合成数据生成——投入大量算力通过验证器筛选“好”数据,再训练模型预测正确输出。这一过程需要每个领域和技能的海量人类专家示例,数据行业年收入已达数十亿美元。近日Epoch报告,开源模型仅落后前沿闭源模型4个月,原因在于数据可从公开API蒸馏,而超参数等不易复制。人类一生接触约2亿token,前沿模型训练在数十到数百T token之间,相差近百万倍——机器人、自动驾驶等领域同样存在巨大效率差距。
GitHub 内部开发了 Qubot,一个由 Copilot 驱动的数据分析智能体。员工可以用自然语言直接提问公司数据,无需编写 SQL 或使用 BI 工具。团队在构建过程中积累了关于设计、集成和用户体验的经验。
LLM在作为医疗助手时,评估与部署场景下的性能存在显著差距——Bean等人(2025)发现准确率相差61个百分点。这一差距并非源于基准测试设计缺陷,而是因为评估协议中嵌入的隐含假设在部署时不再成立。研究提出将假设分为任务假设和结果假设两类,用以诊断差距成因并明确弥合路径:需将假设显式化、检验哪些假设在部署中成立,并据此更新评估协议。
一位前OpenAI机器人研究员用不到€5,000搭建了一套桌面机器人操控实验平台,包括UFACTORY xArm Lite 6工业级机械臂、Intel RealSense D405腕部摄像头、Logitech C920桌面摄像头和3Dconnexion SpaceMouse无线遥操作设备。整套系统置于办公桌旁,通过自研Python软件栈控制。作者计划在未来数月开展独立研究,并以公开研究日志形式记录实验过程、失败与经验,不预设产出论文或开源代码。
近期行政命令、国会提案及对Anthropic最先进模型的境外访问限制,可能开启新一轮AI监管。开源软件已支撑全球90%以上软件并创造8万亿美元经济价值,在教育、创新和竞争三方面持续赋能。Anthropic与OpenAI的封闭模型加剧市场集中,开源(尤其开放权重)是初创公司、教育机构和企业获得替代方案的唯一平衡力量。开源透明性使其更安全,更多工程师可剔除不需要的模型行为或修复漏洞。以中国竞争为由监管开源将适得其反,美国初创公司正依赖包括中国在内的开源模型提升效率。
Artificial Analysis 推出的 AA-Briefcase 基准测试将 AI 模型置于包含数千份 Slack 消息、邮件、会议记录等碎片化源文件的多周知识工作项目中。表现最好的 Claude Fable 5 通过率最高,但仅在 3% 的任务中完全达标;91 个任务中有 31 个没有任何模型达到 50% 通过率。弱模型因遗漏相关文件或输出无效结果而失败,强模型则因无法跨来源拼接信息而遗漏细节。任务单价差距超过 800 倍,从 DeepSeek V4 Flash 的约 0.04 美元到 Claude Fable 5 的超过 31 美元。
6月17日,智谱开源新旗舰GLM-5.2,在FrontierSWE编程测试中得分74.4,超OpenAI GPT-5.5,仅落后Claude Opus 4.8约1个百分点。有网友提问中国大模型何时达到Anthropic Fable水平,马斯克回复可能2027年Q1。智谱联合创始人唐杰回应不需那么久。马斯克补充,跑分赶上相对容易,但以实用性衡量,2027年Q1达到已非常出色。Anthropic Fable 5于6月9日发布,可处理5000万行代码迁移等任务,发布数日后遭管制。
Humanize PPT v0.9 是一款专为演讲场景设计的PPT Skill,核心通过AST(Audience, State, Transfer)逻辑重新编排大纲,将页面渲染外包给下游Skill。渲染前先输出4张真实预览页,并将图片、视频素材的占位与生成prompt写入大纲。新增质检环节自动修复常见渲染问题,并支持演讲模式:按S键在独立窗口显示演讲稿备注,按ESC键打开全局索引快速跳页。项目已开源至github.com/LearnPrompt/humanize-ppt,由卡尔 & yc星辰开发。
RTK获得60k GitHub星标,宣称能“削减60–90%模型token用量,支付1/10的价格”,但实际API账单并未同比例下降——它仅裁剪Bash原始输出,忽略文件读取、仓库上下文、系统提示词和模型内部推理token。公开issues指出终端输出会被静默截断或丢失,且AI智能体无法感知压缩,导致关键信息缺失。RTK从未公布任务成功率(如SWE-bench类基准),其节省量更像营销指标。从架构看,rtk引入脆弱的外部依赖,解析git、cargo、npm、grep等CLI工具的stdout/stderr格式,一旦工具更新格式便可能静默失败。本质上这是CLI原生可实现的feature,而非独立产品,将其放入生产agent关键路径存在高风险。
Meta前首席AI科学家杨立昆受访时称,马斯克创办的xAI“某种程度上已经失败”:难以招到顶尖AI人才,除马斯克外所有联合创始人已离职。xAI近日将数据中心出租给Anthropic等对手,杨立昆认为此举反映其弱势处境,需出租才能收回成本。他不看好xAI前景,认为其无法参与最前沿竞争。同时他称赞SpaceX“做得非常出色”,并表示自己拥有一辆特斯拉,FSD并非真正完全自动驾驶,但确实有用。
Agent Builder 正式上市(GA)。基于 Elasticsearch 的持久化内存层将记忆分为情景、语义、程序三类,分别存入独立索引,各设不同写速率与过期规则。召回采用 BM25 与 Jina v5 稠密向量的 RRF 融合,再经交叉编码器重排序。在 168 道 QA 题评估中,R@10 平均 0.89,零跨租户泄漏。该层可通过支持 MCP 协议的客户端访问,不绑定特定运行时,已开源至 GitHub。