AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 502 条
全部一手资讯X论文
今天7月3日 周五
08:19Anthropic:Newsroom(网页)64同事件精选Claude Fable 5 网络安全分类器与越狱严重性框架详解同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
05:50Runway:News(网页)51借用夜晚:将闲置推理GPU回收用于研究
02:37LMSYS:Blog(Chatbot Arena 团队)59精选Agent辅助的SGLang开发:初步探索
7月2日周四
18:31公众号:千问APP(阿里)62精选千问团队朱达:C端Agent Harness的"多快好省"工程哲学与主动服务探索
06:42Dwarkesh Patel:Podcast & Blog(RSS)54关于AI重大问题的获奖征文
04:35Tomer Tunguz 博客(VC 分析)60精选构建AI智能体应优先设计路由
01:39Meta Engineering Blog(RSS)71精选Meta 大规模 AI 存储蓝图
7月1日周三
22:20Cloudflare Blog49内容独立日一周年:构建智能体互联网的商业模型
07:34Tomer Tunguz 博客(VC 分析)482026 年 CIO 的选择很明确
07:08Ethan Mollick:One Useful Thing(RSS)73聊天机器人的黄昏
05:25Suno:Blog(网页)40Dream Relic:用 Suno 为超现实影像配乐
01:28Claude:Blog(网页)72精选Claude Code 入门:智能体循环
01:03OpenAI:官网动态(RSS · 排除企业/客户案例)41OpenAI 发布 Genebench-Pro 基准测试:10个案例研究详解
00:42Dwarkesh Patel:Podcast & Blog(RSS)61精选Grant Sanderson 谈 AI 与数学的未来
00:13OpenAI:官网动态(RSS · 排除企业/客户案例)62精选OpenAI Signals 数据揭示 ChatGPT 全球采用趋势
6月30日周二
23:29Hugging Face:Blog(RSS)49专业化为何不可避免
14:27Google Blog:AI(RSS)54英国职场AI采用率翻倍,仅15%"AI先锋"获得晋升加薪优势
04:34Tomer Tunguz 博客(VC 分析)58精选Anthropic:当AI成本超过工程师薪酬
6月29日周一
23:55Google Blog:AI(RSS)39问AI专家:全栈AI到底是什么?
22:43Gary Marcus:The Road to AI We Can Trust(RSS)6Gary Marcus 宣布离线度假,附 AI 生成自行车事故趣图
18:10公众号:蚂蚁百灵(Ling)51如何优雅地给 MLA 加上 QK-Norm?
01:26Nathan Lambert:Interconnects(RSS)60精选Artifacts 22:Zyphra、Cohere 和 Poolside 正在扩展生态系统广度
6月28日周日
23:42Gary Marcus:The Road to AI We Can Trust(RSS)45中国追赶
04:41Gary Marcus:The Road to AI We Can Trust(RSS)48本月生成式AI失去了魔力
03:25Hugging Face:Blog(RSS)62精选一条命令在HF Jobs上启动vLLM服务器
6月27日周六
18:41OpenRouter:Announcements(RSS)502026年6月值得关注的开放权重模型
01:33Tomer Tunguz 博客(VC 分析)52应用层公司:护城河是赢得的,并非与生俱来
6月26日周五
23:51Dwarkesh Patel:Podcast & Blog(RSS)61精选下一个重大突破:AI在工作中学习
15:30公众号:千问APP(阿里)31当千问抵达1400万人的高考季
07:35Meta Engineering Blog(RSS)54Meta 隐私感知基础设施的资产分类:混合模式将 LLM 蒸馏为确定性规则
07:01GitHub Blog51跨模型与任务的 GitHub Copilot agentic harness 性能与效率评估
04:32Tomer Tunguz 博客(VC 分析)47Sail Research 构建集群感知编排,加速异步推理
00:34Gary Marcus:The Road to AI We Can Trust(RSS)43Generative AI FizzleTM:生成式AI泡沫正在缓慢消退
00:16Hugging Face:Blog(RSS)65精选OLMo Hybrid vs Transformer:混合模型在实义词上优势明显,但重复短语上几无优势
00:00Suno:Blog(网页)32Matt Steffanina:舞者也可用 Suno 拥有自己的音乐
00:00Suno:Blog(网页)36Eric Christian 谈如何使用 Suno 听到旋律中的管弦效果
6月25日周四
15:30公众号:面壁智能(MiniCPM)45面壁智能亮相MBBF:李大海称端侧智能是AI走向物理世界必经之路
04:07OpenRouter:Announcements(RSS)68精选OpenRouter 零数据留存(ZDR)实践:97 款新模型,流量占比近半
02:35Claude:Blog(网页)60同事件精选Anthropic 推出 Claude Tag,构建人机协作团队同一事件,精选展示《Anthropic 推出 Claude Tag:在 Slack 中通过 @Claude 协作》
00:15Hugging Face:Blog(RSS)66精选NVIDIA NeMo AutoModel:一行代码加速Transformer MoE模型微调
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月3日
08:19
Anthropic:Newsroom(网页)
同事件精选64
Claude Fable 5 网络安全分类器与越狱严重性框架详解

Anthropic 重新部署 Claude Fable 5 并向全球用户开放,同步披露了内置安全分类器设计。分类器将网络安全使用场景分为四类:禁止使用(勒索软件/物理破坏等)、高风险双重用途、低风险双重用途及良性使用。前两类直接拦截;低风险类别部分监控,仅在安全边际内选择性拦截。此外,Anthropic 与 Glasswing 合作提出 AI 越狱严重性框架初稿,并已启动 HackerOne 项目收集越狱案例。

Anthropic安全/对齐
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
推荐理由:Anthropic首次公开Fable 5安全分类器的详细类别和越狱严重性框架草案,这可能是行业级安全标准的雏形,对开发者和政策制定者都有参考价值。
05:50
Runway:News(网页)
51
借用夜晚:将闲置推理GPU回收用于研究

Runway 开发了名为 deckard 的容量控制器,在生产推理集群与研究集群间动态重分配 GPU。生产流量在北美工作日上午 9 点 ET 达峰,晚 8 点 ET 跌至不足一半。控制器基于预计算的时间窗口(如工作日 8:30–12:30 ET 高峰子窗口)提前扩容和回收,每次集群间转移耗时 20–60 分钟。利用排队论(Erlang‑C、Little's Law)确定目标利用率,避免接近 85% 后的队列发散(90% 利用率下等待时间约为服务时间的 10 倍)。此方案使夜间闲置 GPU 回归研究、白天排队等待缩短。

推理教程/实践部署/工程
02:37
LMSYS:Blog(Chatbot Arena 团队)
精选59
Agent辅助的SGLang开发:初步探索

SGLang团队将LLM服务、分布式运行时、GPU内核、扩散管道等工作流编码为可执行的SKILL.md文件、脚本、基准合约和审查循环。现有技能包括:SGLang .claude/skills(CUDA调试、内核集成、性能分析等)、SGLang diffusion .claude/skills(扩散模型添加与调优)、BBuf/AI-Infra-Auto-Driven-SKILLS(跨框架SOTA循环)、KDA(MLSys 2026 FlashInfer内核竞赛获胜方案)以及BBuf/KDA-Pilot(已合并三个SGLang集成PR)。Profile证据是性能工作的核心,长期优化转向Loop Engineering——SGLang SOTA Performance Loop将追求SOTA分解为公平基准测试、差距决策、性能分析、补丁和再验证,Humanize/RLCR添加外部审查,Codex Goal以更低协调开销运行相同循环。评审重要性提升,开发者需定义问题、选择证据、设计工作流并判断结果是否可用于生产。

推理教程/实践部署/工程

推荐理由:这不是一篇普通的开发经验总结,而是 SGLang 团队把调试、基准测试和性能调优等重复劳动变成可执行 agent 技能的实操手册,对于做推理框架和复杂工程的人非常值得一看。
7月2日
18:31
公众号:千问APP(阿里)
精选62
千问团队朱达:C端Agent Harness的"多快好省"工程哲学与主动服务探索

千问团队2026年1月上线通用复杂任务Agent(千问App胶囊入口),总结“多快好省”方法论:支持信息搜集、研究分析等任务;执行时间降至初始1/3;通过搜索范式与上下文管理优化交付质量;Token消耗仅为海外产品1/10。团队探索从被动响应转向主动服务,构建User Memory、Environment、Task System、Assistant四大组件,指出“情商”是主动服务最难环节。朱达提出Agent工程从Prompt Engineering演进至Harness Engineering,下一站是A IWare Engineering,强调“低功耗,够用就行”。

智能体大佬观点部署/工程

推荐理由:千问C端团队分享的Agent工程实践很务实,从“多快好省”到AIWare Engineering的演进思路,对正在做复杂任务Agent的团队是一个有价值的参考系。
06:42
Dwarkesh Patel:Podcast & Blog(RSS)
54
关于AI重大问题的获奖征文

Dwarkesh Patel举办的AI征文比赛评选出三位获奖者。第一名Jassi Pannu主张OpenAI基金会应投入数十亿美元终结空气传播疾病,利用AI加速自主生物学发现,可带来超1万亿美元年GDP增长并消除灾难性流行病风险。第二名Ege Erdil建议AI供应链外的国家通过强产权、低资本税和开放监管政策抓住增长机会。第三名Michael Li类比香港地铁商业模式,提出AI实验室可通过收购互补性资产盈利。

大佬观点现象/趋势
04:35
Tomer Tunguz 博客(VC 分析)
精选60
构建AI智能体应优先设计路由

构建AI智能体时,应优先设计路由(router)而非选择模型。路由决定每个请求由哪层模型处理。正确路由可使70-80%流量运行在免费本地模型或异步推理上,将AI开销降低90%+。Brian Armstrong指出Coinbase通过更好的默认设置、路由和缓存,在token使用量增长的同时将AI支出减半。路由分三层:技能分类器、路由器、模型选择器。本地计算近乎零成本,异步批量推理比实时推理便宜两个数量级。大多数工作无需秒级返回。同步预测器标记复杂任务,夜间批量评估器更新路由权重。技能蒸馏后,非编码类任务中70-80%智能体流量可由本地模型处理。

大佬观点部署/工程

推荐理由:Tunguz 把代理架构的设计重心从模型选择拉回到路由上,三层分类器-路由器-选择器的划分很清晰,做 AI 应用的团队可以参考,但其中的新东西不多。
01:39
Meta Engineering Blog(RSS)
精选71
Meta 大规模 AI 存储蓝图

Meta 运营数百 EB 级存储集群,基于 Tectonic 分层存储层构建 BLOB 存储架构,以应对两大挑战:最大化 GPU 利用率与研究迭代速度。传统 BLOB 架构的多层元数据查询可导致数百毫秒延迟,使 GPU 因 I/O 等待停顿。新架构将训练栈逐步迁移到 BLOB 存储接口上,利用闪存提供可预测的低 pMax 延迟,避免单 GPU 慢速拖慢整批任务。同时,统一的数据湖访问支持地理分布 GPU 间的数据高速注入与跨区移动,提升研究效率。

Meta数据/训练现象/趋势部署/工程

推荐理由:Meta的存储架构复盘给出了一条明确路径,从重写元数据到分层缓存,他们把GPU利用率和研究者迭代速度同时提升了一个档次,做AI训练平台的值得细读。
7月1日
22:20
Cloudflare Blog
49
内容独立日一周年:构建智能体互联网的商业模型

内容独立日宣布一年后,一个付费内容的动态市场已正式形成。自主AI智能体的兴起正在颠覆传统搜索推荐模式,构建可持续的网络经济需要一套全新基础设施来支撑。

智能体搜索现象/趋势
07:34
Tomer Tunguz 博客(VC 分析)
48
2026 年 CIO 的选择很明确

对 87 家上市 SaaS 及平台公司的分析显示,2026 年只有基础设施与开发工具(一年涨幅 68.5%)和安全(一年涨幅 17.6%)两个板块增长为正,其余三个板块均下跌。市场正在买入 AI 基础设施,卖出按席位定价的应用层。

大佬观点现象/趋势
07:08
Ethan Mollick:One Useful Thing(RSS)
73
聊天机器人的黄昏

前沿AI模型能力加速提升,美国实验室发布速度加快,但政府干预已限制访问Claude Fable和GPT-5.6。Epoch测试发现Opus 4.7自主运行14小时即可完成需2-17周人工的软件工程,token成本$251。中国开源模型落后前沿6-12个月,但性能也快速提升,在AA-Briefcase测试中呈独立指数曲线。使用方式正从聊天机器人转向智能体,OpenAI内部四分之一员工每周同时运行至少四个智能体。Claude Code用户数据显示,领域经验比职业属性更决定使用效果,专家正用智能体替代此前非专家的聊天机器人使用模式。

智能体AnthropicOpenAI大佬观点
关联讨论 25 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)The Verge:AI(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Anthropic (@AnthropicAI)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)
05:25
Suno:Blog(网页)
40
Dream Relic:用 Suno 为超现实影像配乐

AI 视觉艺术家 Dream Relic(Broc Vaughn)通过 Suno 的 Create 功能,将多年来积累的歌词转化为配乐歌曲,为其超现实、怀旧风格的影像世界赋予声音。他在 TikTok 和 Hooks 上发布的一首 Suno 生成曲目获得数百条评论,甚至有人表示“讨厌 AI 音乐但这是例外”。这一反响促使他更认真对待音乐创作——此前他曾与唱片公司和制作人合作但效果不佳。Dream Relic 正筹备发布全长专辑,并在 TikTok、Hooks、Spotify 等平台上线多首作品。

其他语音
01:28
Claude:Blog(网页)
精选72
Claude Code 入门:智能体循环

Claude Code 团队将智能体循环定义为 agent 重复工作直到满足停止条件的过程,并划分出四种主要类型:turn-based 循环(用户提示触发,Claude 自行判断完成或需更多上下文)、goal-based 循环(通过 /goal 命令设定可验证完成标准与最大轮次)、time-based 循环(通过 /loop 按时间间隔重复执行,可用 /schedule 移至云端)、以及 proactive 循环(基于事件或计划自动运行,无人实时参与)。文章还介绍了如何编写 SKILL.md 文件将人工验证步骤编码,让 Claude 进行端到端自检,减少 turn-based 循环中的手动操作。

智能体AnthropicMCP/工具教程/实践

推荐理由:Anthropic把agentic loops从模糊概念变成四种可复制的模式,附带SKILL.md和命令示例,Claude Code用户读完就能设计更自主的编码流程。
01:03
OpenAI:官网动态(RSS · 排除企业/客户案例)
41
OpenAI 发布 Genebench-Pro 基准测试:10个案例研究详解

OpenAI 推出 GeneBench-Pro 生物医学基准测试,包含 10 个案例研究。每个案例提供原始提示词、数据集和支持材料,覆盖体细胞肿瘤学(结构变异指导的肿瘤治疗获益-风险决策)、功能基因组学(CRISPR 靶点验证:lncRNA 转录本或基因组位点)和统计遗传学(连锁遗传位点中蛋白质药物靶点优先排序)等方向,要求模型输出 JSON 格式分析结果。

OpenAI教程/实践评测/基准
00:42
Dwarkesh Patel:Podcast & Blog(RSS)
精选61
Grant Sanderson 谈 AI 与数学的未来

3Blue1Brown 创办人 Grant Sanderson 正在制作记录 AI 在数学领域进展的新项目。他在与 Dwarkesh Patel 的对谈中指出,AI 在 IMO 获金牌并不等于 AGI,只是又一个被攻克的基准。即使 AI 未来解决千禧年大奖难题,仍可能存在大量人类任务无法被自动化。对话还探讨了概念突破验证周期可长达一个世纪、Riemann 假设的 AI 证明能否被人类理解、AI 能否在已有文献间发现隐藏联系,以及现实经济任务难以套用强化学习环境等话题。

大佬观点推理现象/趋势

推荐理由:这次对谈没有停留在AI刷数学题的喜报上,而是追问了‘验证循环’和‘定义生成’两个终极难题。Grant Sanderson的视角让人重新思考AI的进展究竟缺什么,数学家未来的角色会是什么。
00:13
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选62
OpenAI Signals 数据揭示 ChatGPT 全球采用趋势

OpenAI Signals 数据显示,用户注册六个月后日均消息量增加50%,尝试任务种类翻倍。自2023年7月以来,各大洲活跃用户均大幅增长,非洲和亚洲增速最快,低人类发展指数国家增长尤为显著。用户群体更加多元化,女性名字用户已占全球多数,巴西、哥伦比亚、波兰和纳米比亚等国女性用户显著多于男性。非英语用户占活跃用户半数以上,领先语言为西班牙语、葡萄牙语和阿拉伯语;乌兹别克语、哈萨克语和缅甸语用户占比增长百分比最大。

OpenAI现象/趋势

推荐理由:OpenAI 首次公开用户行为数据,显示使用深度和广度随时间增长、非洲与亚洲增速最快,对做全球化产品的同行是个重要信号。
6月30日
23:29
Hugging Face:Blog(RSS)
49
专业化为何不可避免

Dharma AI 团队引述 Goldfeder、Wyder、LeCun 和 Shwartz-Ziv 于 2026 年发表的论文,从优化理论、生物学和竞争市场论证专业化的必然性。Wolpert-Macready 无免费午餐定理表明,通用优化算法在所有问题上平均表现相同,实际优势来自专门适配;有限资源下,集中资源于有限任务集的系统必然优于平均分配的通用系统。生物学中的特化权衡与市场竞争也指向同一结论:最大化适应性在于精确拟合特定环境,而非追求通用性。

数据/训练现象/趋势
14:27
Google Blog:AI(RSS)
54
英国职场AI采用率翻倍,仅15%"AI先锋"获得晋升加薪优势

Google UK与Public First研究发现,英国职场AI采用率一年内从34%升至73%,但呈不均衡曲线。仅15%的“AI Trailblazers”(深度用户)晋升概率高84%、绩效高88%、加薪概率高55%,每周节省近8小时。其余85%仍处于旁观、实验或实践阶段。阻碍因素包括:一次即弃的提示词习惯、搜索框思维、缺乏明确使用许可。Public First推出AI技能测验,Google的“AI Works for Britain”计划支持2030年前培训1000万工人AI技能的目标。

Google现象/趋势
04:34
Tomer Tunguz 博客(VC 分析)
精选58
Anthropic:当AI成本超过工程师薪酬

Anthropic在算力上的支出达到每位工程师每年51.5万美元,是其完全薪资(22.4万美元)的2.3倍。相比之下,顶尖1%软件公司的算力支出为8.9万美元,中位数仅为1.37万美元。三个2029年情景预测了这一差距的缩小路径。

Anthropic大佬观点数据/训练

推荐理由:Tomer Tunguz 用数据把 AI 公司的烧钱速度拆得很细,Anthropic 每个工程师年算力成本 51.5 万美元,是工资的 2.3 倍,这个数字对重新理解 SaaS 毛利率很有冲击力。
6月29日
23:55
Google Blog:AI(RSS)
39
问AI专家:全栈AI到底是什么?

一位Google专家解释了全栈AI方法的含义,并指出这一方法长期以来一直是Google AI工作的基础。

Google教程/实践部署/工程
22:43
Gary Marcus:The Road to AI We Can Trust(RSS)
6
Gary Marcus 宣布离线度假,附 AI 生成自行车事故趣图

Gary Marcus 在最新帖子中宣布即将离线度假,并分享了一张 Oren Etzioni 发送的 AI 生成自行车事故图片(源自真实的 REI 广告),同时提及了“The Klarna Effect”彩蛋。

其他
18:10
公众号:蚂蚁百灵(Ling)
51
如何优雅地给 MLA 加上 QK-Norm?

DeepSeek 的 MLA 通过只缓存低维潜向量压缩 KV Cache,但 QK-Norm 需归一化高维 Key,若缓存归一化结果则打破低维优势。文章提出数学等效变换:将 QK-Norm 中动态逆 RMS 标量和静态仿射权重合并到 Query 侧,推理时每个 token 只需额外缓存一个逆 RMS 标量,即可严格等价实现 QK-Norm,不牺牲显存效率。在 400M/1B 模型训练 100B tokens 实验中,QK-Normed MLA 相比 QK-clipping loss 更低(1B 模型 gap ~0.02),训练更稳定且收敛更快。

DeepSeek推理教程/实践数据/训练
01:26
Nathan Lambert:Interconnects(RSS)
精选60
Artifacts 22:Zyphra、Cohere 和 Poolside 正在扩展生态系统广度

开源模型生态正变得更多元,参与者从少数中国公司扩展到全球各类组织。纯模型制造商包括 DeepSeek、智谱、MiniMax、Poolside、Arcee、Zyphra 及主权 AI 玩家 Cohere、Sovereign、Mistral、Trillion Labs;科技巨头如阿里 Qwen、Google Gemma 和 NVIDIA 各有不同动机;产品公司如 JetBrains、Zed、Krea、Photoroom 则训练高度专业的小模型。NVIDIA 发布 Nemotron-3-Ultra-550B-A55B-BF16,采用 LatentMoE 架构并改用 OpenMDW 许可证。Cohere 以 Apache 2.0 开源其旗舰模型 Command A+(05-2026-bf16),这是一款 218B-A25B MoE 模型,具备多模态、多语言和智能体能力。

开源生态模型发布现象/趋势

推荐理由:这篇文章把开源模型玩家拆成三类,清晰解释了不同动机,Cohere 转向 Apache 2.0 和 NVIDIA 采用 OpenMDW 是许可层面的重要信号,关注开源的值得一读。
6月28日
23:42
Gary Marcus:The Road to AI We Can Trust(RSS)
45
中国追赶

美国AI产业受中国追赶引发价格战,token价格趋近于零,利润微薄,Anthropic和OpenAI的万亿IPO难以实现,数据中心巨额投资难回收。当前范式有三个根本缺陷:暴力训练全互联网成本高昂且效率低下;系统不可靠,长期无法维持溢价;基础方法易复制,导致价格战与负利润率。另有人认为,整个AI竞赛方向可能被误解,美国不应只追求最便宜的LLM,而应开发更适合科学与医学的AI新形态。

大佬观点现象/趋势
04:41
Gary Marcus:The Road to AI We Can Trust(RSS)
48
本月生成式AI失去了魔力

OpenAI倾向于推迟IPO至明年,因估值不及预期且零售投资者兴趣不足。SpaceX一周跌11.74%,Nvidia近一月跌超8%,Oracle跌22%,CoreWeave跌4%,Microsoft跌10%,SoftBank跌12%,Cerebras跌32%。美国AI政策混乱遭广泛批评,中国模型快速崛起。作者认为大语言模型正商品化。

OpenAI大佬观点现象/趋势行业动态
03:25
Hugging Face:Blog(RSS)
精选62
一条命令在HF Jobs上启动vLLM服务器

HuggingFace Jobs 支持一条命令启动 vLLM 服务器,用于测试、评估或批量生成。使用 hf jobs run 命令,指定官方 vllm/vllm-openai 镜像、GPU flavor(如 a10g-large)、暴露端口 8000 并设置超时。服务器启动后可通过 OpenAI 兼容 API 访问,每次请求需携带 HF token 作为 bearer token(仅限有读权限的用户)。示例部署了 Qwen/Qwen3-4B(多 GPU 需 --tensor-parallel-size)。a10g-large 价格为 $1.50/小时,按分钟计费,可通过 hf jobs cancel 停止。

Hugging Face教程/实践部署/工程

推荐理由:这是一条命令在HF上启动vLLM的完整教程,适合快速测试模型的开发者,但方案完全绑定Hugging Face平台,通用性有限。
6月27日
18:41
OpenRouter:Announcements(RSS)
50
2026年6月值得关注的开放权重模型

一批来自中美新玩家的开放权重模型已发布。截至2026年6月,有四个最值得关注的开放权重模型,并给出了各自的最佳使用场景。

开源生态评测/基准
01:33
Tomer Tunguz 博客(VC 分析)
52
应用层公司:护城河是赢得的,并非与生俱来

应用层公司创立时通常没有护城河。护城河分两种:先发护城河(技术差异、专有数据集、新颖架构,多见于基础设施层)和滞后护城河(规模经济、品牌、渠道关系,需长期积累)。Salesforce 凭借销售能力、品牌和十年先发优势胜过技术更好的 Siebel;Snowflake 以存储计算分离架构赢得先发护城河,再建设滞后护城河。基于 7 Powers 框架,规模经济、品牌和转换成本天然是滞后的。应用层创业公司可以坦诚回答:我们正在建造护城河。

大佬观点现象/趋势
6月26日
23:51
Dwarkesh Patel:Podcast & Blog(RSS)
精选61
下一个重大突破:AI在工作中学习

AI实验室的研究赌注是:在数千个多样化RL环境中训练模型完成数百万可验证任务,就能构建AGI。这种训练会培养出能连续数周处理开放任务、应对错误和歧义的问题解决技能。虽然模型训练时的样本效率仅为人类的百万分之一,但训练成本是一次性的,可摊销到数十亿次用户会话中;真正重要的是模型在单个会话内的智能和样本效率,而这随着RL训练正在提升。持续学习或许不再必要——如果上下文内的学习能力足够强、时间跨度足够长,就无需将经验蒸馏回权重。Transformer架构创新已能大幅扩展上下文存储,未来可能实现任意大的上下文窗口。论文还指出,一个领域不仅需要可验证性,还需要可碾压性——能在确定性、可重播的模拟器中并行运行大量rollout。

大佬观点推理数据/训练

推荐理由:RLVR 范式能否通向 AGI?Dwarkesh 指出关键瓶颈在于样本效率和 grindability,他提出的 OPSD 和 dreaming 方案重新定义了「学习中」的边界,虽然离落地尚远,但值得每一个关心 AI 下一步的人细读。
15:30
公众号:千问APP(阿里)
31
当千问抵达1400万人的高考季

高考季期间,阿里旗下AI助手千问与约1400万用户交流高考相关问题,包括生成志愿报告、专业对比、院校推荐等。多位考生、家长和教师分享了使用经历:千问根据模考位次提供冲、稳、保志愿清单及近三年投档数据;细致对比专业课程、就业趋势及考研难度;甚至能识别用户情绪并给予鼓励。该工具帮助家庭缓解信息不对称和焦虑,在人生重大抉择中提供透明参考。

其他
07:35
Meta Engineering Blog(RSS)
54
Meta 隐私感知基础设施的资产分类:混合模式将 LLM 蒸馏为确定性规则

Meta 在 Privacy-Aware Infrastructure (PAI) 的资产分类中采用混合模式:先构建含代码、血缘、语义标注的上下文证据,再调用 LLM 处理歧义、冷启动和新颖资产;人工审核标签与模型推荐严格隔离。LLM 不直接做生产决策,其稳定行为被蒸馏为版本化确定性规则用于生产执行,LLM 角色随规则积累逐步缩小。核心原则:上下文比提示词更重要、解耦评估与优化、将稳定行为规则化。

Meta教程/实践部署/工程
07:01
GitHub Blog
51
跨模型与任务的 GitHub Copilot agentic harness 性能与效率评估

GitHub Copilot agentic harness 在多个基准测试中表现强劲,同时具备领先的 token 效率,并支持在 20 多个模型间灵活选择。

GitHub编码评测/基准
04:32
Tomer Tunguz 博客(VC 分析)
47
Sail Research 构建集群感知编排,加速异步推理

推理市场是软件中最大的市场。AI工作负载正从同步聊天转向异步、多轮智能体,运行时长可达数小时。Sail Research 为此构建了集群感知(fleet‑aware)编排系统,以最大化每美元推理支出的吞吐量。

推理现象/趋势
00:34
Gary Marcus:The Road to AI We Can Trust(RSS)
43
Generative AI FizzleTM:生成式AI泡沫正在缓慢消退

Gary Marcus 昨日提出新术语 Generative AI Fizzle™,认为生成式AI行业估值过高,投资者对 hype 与利润的落差失去热情。LLM 已商品化,价格战激烈,提供商盈利艰难。昨日一款新的中国开源模型发布,可能进一步冲击美国 LLM 公司。多数 AI 股票本月显著下跌,泡沫可能不会突然破裂,而是缓慢消退。

大佬观点现象/趋势行业动态
00:16
Hugging Face:Blog(RSS)
精选65
OLMo Hybrid vs Transformer:混合模型在实义词上优势明显,但重复短语上几无优势

通过对比7B参数的OLMo 3(Transformer)与OLMo Hybrid(混合架构),实验发现混合模型在大多数token上预测损失更低:对名词、动词、形容词等实义词优势明显(loss gap约0.04),功能词上gap约0.02,且在需上下文推理的代词指代上更好。但在重复出现的n-gram和闭合括号(如})上,混合模型的优势几乎消失,Transformer凭借注意力机制更擅长从输入中直接检索精确信息。

Hugging Face开源生态推理论文/研究

推荐理由:OLMo 团队的 token 级别分析让人看清混合模型到底强在哪里,优势在名词动词等意义词,但在重复 token 上接近消失,这份洞察对做模型架构的人很有启发性。
00:00
Suno:Blog(网页)
32
Matt Steffanina:舞者也可用 Suno 拥有自己的音乐

洛杉矶舞者兼 DJ Matt Steffanina 在 Suno 博客访谈中分享创作历程。他自学街舞,拥有超 3000 万粉丝和 50 亿观看量,曾为 Taylor Swift、Jason Derulo 编舞,并创办线上舞蹈教学平台 DNCR Academy。过去他靠他人音乐积累数十亿播放却未拥有资产;现在借助 Suno 在数分钟内将音乐创意变为现实。他认为 Suno 和 Hooks 让创作回归趣味,鼓励舞者自己创作音乐。

其他大佬观点
00:00
Suno:Blog(网页)
36
Eric Christian 谈如何使用 Suno 听到旋律中的管弦效果

纽约钢琴家兼作曲家 Eric Christian 在访谈中分享了他将 Suno 整合进创作流程的方式。他把刚写好的循环旋律输入 Suno,几秒内就能听到完整的管弦乐效果,而传统管弦乐模拟需要数小时。尽管他的作品均为钢琴独奏曲,但他一直以交响化视角构思音乐。至今他已售出超过 10 万份乐谱,用户遍布 200 个国家。他坚信音乐的基础在于纸上的记谱而非录音,Suno 让他在不依赖大型管弦乐团的前提下快速判定旋律是否真正成立。

大佬观点
6月25日
15:30
公众号:面壁智能(MiniCPM)
45
面壁智能亮相MBBF:李大海称端侧智能是AI走向物理世界必经之路

面壁智能联合创始人兼CEO李大海在MBBF Top Talk Summit上指出,端侧智能是AI迈向物理世界的必经之路,未来2至3年将迎来能力跃升与场景迁移两大重构。端侧智能需满足实时响应、隐私安全、离线可用三大约束,搭载面壁量产级多模态模型的智能座舱已实现不依赖云端的“感知-记忆-推理-执行”闭环。他强调端云协同是规模化落地的关键,近期推出的MiniCPM5-1B模型以两百分之一参数规模逼近两年前GPT-4o水平,证明小模型可承载高密度智能。

大佬观点端侧
04:07
OpenRouter:Announcements(RSS)
精选68
OpenRouter 零数据留存(ZDR)实践:97 款新模型,流量占比近半

OpenRouter 的零数据留存(ZDR)保证用户提示词和模型响应不被存储,元数据一般安全。自 1 月以来新增 97 款支持 ZDR 的模型,月度 token 量增长 4.3 倍,约占全部路由流量一半。ZDR 在三个层面执行:账户级(整个供应商开启)、护栏级(按 API Key 或组织成员限定)、单次请求级(传参数仅路由至 ZDR 端点)。企业用户可灵活选择控制粒度,避免锁定单一供应商。

教程/实践数据/训练

推荐理由:ZDR 远不止“不存数据”这么简单,提示、响应、缓存的区分很多人没搞清楚。OpenRouter 的三层执行算是把自由度给足了,做合规服务的人可以仔细看看。
02:35
Claude:Blog(网页)
同事件精选60
Anthropic 推出 Claude Tag,构建人机协作团队

Anthropic 推出 Claude Tag,支持多用户与同一 AI 智能体在同一工作空间协作。智能体具备持久记忆、独立于人类的凭证及广泛信息访问权限。经验:工作公开化并给予智能体广泛上下文,通过工作区级安全边界让信息对人和 AI 均可用;为每位成员(含 AI)分配明确角色与相应工具。用户可通过 @Claude 私信进行敏感交互,对话保持私密。该方法已在 Slack 等团队协作工具中实践,旨在使人类与智能体高效协作完成共享目标。

智能体Anthropic教程/实践
同一事件,精选展示《Anthropic 推出 Claude Tag:在 Slack 中通过 @Claude 协作》
推荐理由:Anthropic 内部总结的四个教训——公开透明、明确角色、设北极星、逐步信任,对正在探索人机协作团队的管理者来说,比产品手册更实用。
00:15
Hugging Face:Blog(RSS)
精选66
NVIDIA NeMo AutoModel:一行代码加速Transformer MoE模型微调

NVIDIA NeMo AutoModel 是基于 Transformers v5 的开源库,添加 Expert Parallelism、DeepEP 融合 all-to-all 调度和 TransformerEngine 内核。在 MoE 模型微调中,相比原生 v5,训练吞吐量提升 3.4–3.7 倍,GPU 内存减少 29–32%,仅需改动一行 import。在 16 节点 128 张 H100 上全微调 Nemotron 3 Ultra 550B A55B 时,v5 因内存不足无法运行,而 AutoModel 凭借 EP=64 专家并行使训练可行。单节点 30B MoE 模型(如 Qwen3-30B-A3B)同样获得可量化的性能优势。

开源/仓库教程/实践数据/训练

推荐理由:英伟达的 NeMo AutoModel 把 MoE 模型微调速度提高了三倍多,内存省了近三分之一,代码只需改一行 import,做训练的可以立刻升级。
‹ 上一页
123…13
下一页 ›