AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 468 条
全部一手资讯X论文
标签「数据/训练」清除
Chubby♨️@kimmonismus · 5月17日53

This is what you’re competing with. $1.3 million in tokens in 30 days. 603b tokens in sum. Burn more tokens or you’re not gonna make it.

译这就是你正在面对的竞争。 30天内消耗130万美元的token。 总计6030亿token。 燃烧更多token,否则你将无法成功。

Berryxia.AI@berryxia · 5月16日65

兄弟们,训练Diffusion LLM原来可以这么省? 大家都知道扩散语言模型(DLM)很香:支持双向生成、非顺序解码、灵活编辑。 但从零训一个,成本高得离谱。 Duke大学PhD Fred Peng(@pengzhangzhi1)和团队直接给出了一个反直觉的答案: 别重训了,直接对齐就行。 论文标题叫《Don’t Retrain, Align》。 核心思路很简单: 我们已经有强大的预训练Autoregressive LM(AR LM),里面已经学好了绝大部分语言表示。 DLM真正需要改的只是生成顺序和去噪行为。 所以他们提出了REPR-ALIGN:在做masked diffusion训练的同时,逐层用余弦相似度,把DLM的hidden states对齐到冻结的AR teacher模型上。 不需要加adapter,不需要改架构,只改attention mask。 结果:在他们的实验设置里,训练速度最高提升4倍,低数据场景下效果尤其明显。 一句话总结: 不要把表示空间从头重训一遍,对齐它,让模型只去重新学习解码路径就够了。 Paper:https://arxiv.org/abs/2605.06885 Code:https://github.com/pengzhangzhi/Open-dLLM 如果你在搞扩散模型、生成式AI或者长上下文生成,这篇值得立刻读。

译杜克大学团队提出一种高效训练扩散语言模型的新方法。核心观点是无需从头训练,而是将现有强大的预训练自回归语言模型作为知识源。他们提出的REPR-ALIGN方法,在掩码扩散训练过程中,通过余弦相似度逐层将扩散模型的隐藏状态与冻结的自回归教师模型对齐。该方法无需添加适配器或改变架构,仅调整注意力掩码。实验结果显示,训练速度最高可提升4倍,在低数据场景下效果提升尤其显著。

Chubby♨️@kimmonismus · 5月16日59

According to Elon, Grok 4.2 is based on foundation model v8: 0.5T parameters, trained on Hoppers, with major data-quality shortcomings. The new v9 model is 1.5T parameters, trained with a better recipe, better data curation, and optimized for Blackwell. Better model with heat up competition even nore

译据Elon称,Grok 4.2基于基础模型v8: 0.5T参数,在Hoppers上训练,存在主要数据质量问题。 新的v9模型为1.5T参数,采用更好的训练方案和数据管理,并为Blackwell优化。 更好的模型将加剧竞争。

SemiAnalysis@SemiAnalysis_ · 5月16日57

As we've come to expect from a DeepSeek release, DeepSeek V4 comes with more flashy ML systems optimizations. This time? MegaMoE, a 1400 line fused CUDA kernel that computes the entire MoE forward pass. Let's see how it works (1/4) 🧵

译正如我们对DeepSeek发布的期待,DeepSeek V4带来了更多炫目的ML系统优化。 这次是MegaMoE,一个1400行融合CUDA内核,可计算整个MoE前向传播。 让我们看看它是如何工作的(1/4)🧵

Rohan Paul@rohanpaul_ai · 5月16日55

"The difference between (the current) Grok foundation model 8 and 9 is gigantic." ~ Elon Musk Grok V9 is a 3x larger foundation model built to compete with top coding agents.

译Elon Musk表示,Grok基础模型V8与V9之间存在巨大差距。内部开发的V9是一个1.5万亿参数模型,在数据质量、训练方法、规模等各方面均远超V8,并针对Blackwells架构优化,旨在与顶级编码智能体竞争。而当前公开的v4.2版本基于仅0.5万亿参数、在Hoppers上训练的V8基础模型,其训练数据在质量、全面性和均衡性上存在显著不足。

Berryxia.AI@berryxia · 5月15日46

我刚刷到 Daily Dose of Data Science 的一篇视觉解释,把 Transformer 和 Mixture of Experts(MoE)讲得特别清楚。 核心区别其实就在 decoder block: Transformer 用的是一个大的前馈网络。 MoE 则把这个位置拆成了多个更小的“专家”网络。 推理时,MoE 只激活其中一部分专家。 参数总量虽然更多,但实际参与计算的只有一小部分,所以速度反而更快。 那模型怎么决定该激活哪些专家呢? 靠 Router。 它是一个多分类器,对每个 token 输出 softmax 分数,然后选 top-K 个专家。 但训练过程中有两个经典坑: 第一个坑是“专家过选”——一开始某个专家被选上后,它越变越强,越强越容易被选,导致其他专家几乎没机会训练。 解决办法:在 router 输出加噪声,同时把非 top-K 的 logit 直接设为 -∞,让其他专家也有训练机会。 第二个坑是“专家负载不均”——有的专家处理了太多 token,有的几乎闲着。 解决办法:给每个专家设置容量上限,超过就自动把 token 转给下一个最佳专家。 MoE 就这样用更多参数换来了更快的推理速度。 Mixtral 8x7B 和 Llama 4 都是典型的 MoE 模型。 视觉图把整个路由、专家选择、负载均衡的过程画得一目了然。

译Mixture of Experts(MoE)与标准Transformer的核心区别在于解码器模块:后者使用单一前馈网络,而MoE将其替换为多个小型专家网络。推理时,MoE仅激活部分专家,以更多参数换取更快的计算速度。模型通过路由器为每个token选择top-K专家。训练面临两大挑战:一是“专家过选”,通过添加噪声和屏蔽非top-K logit来缓解;二是“负载不均”,通过设置专家处理token的容量上限来平衡。Mixtral 8x7B等模型是MoE的典型应用。

向阳乔木@vista8 · 5月15日36

大语言模型(LLM)后训练技术:SFT、DPO、GRRO的简单对比。 SFT(让模型学会"听话") ↓ DPO(让模型输出更符合人类偏好) ↓ GRPO(进一步激发推理/思考能力) #一起学习

译推文简要对比了大语言模型(LLM)的三种后训练技术。SFT旨在让模型学会遵循指令。DPO则进一步优化模型输出,使其更符合人类偏好。GRPO作为后续步骤,专注于激发和提升模型的推理与思考能力。这三种技术构成了一个从基础指令遵循到高级认知能力开发的渐进式训练路径。

SenseTime@SenseTime_AI · 5月15日70

This is the frontier our innovators strive for. Excited to see passionate minds driving it forward.🔥

译主推文赞扬了创新者在前沿领域的探索。引用的推文具体指出,SenseNova-U1在空间智能能力上取得进展,其关键基准测试表现超越了Qwen3.5等强劲基线。同时,团队开源了目前最大的空间问答数据集SenseNova-SI-8M,并邀请业界在CVPR会议进行线下交流。

🚨 AI News | TestingCatalog@testingcatalog · 5月15日61

Manus 🤝 Similarweb Manus users can now access richer data from Similarweb to analyze their traffic and growth drivers.

译Manus 🤝 Similarweb Manus用户现可获取Similarweb更丰富的数据,用于分析流量与增长驱动力。 通过更多指标深入分析: • 关键词需求、难度、CPC及意图 • 品牌与非品牌搜索流量 • 引入+外链来源 • 自然与付费着陆页 • 任意域名下访问量最高的页面 随后利用Manus将研究转化为简报、仪表板、报告与演示文稿

Ethan Mollick@emollick · 5月15日66

The Second Scaling Law remains undefeated. If you want better hacking (or math, or science, or crossword puzzle solving) out of an LLM, just add thinking tokens. There doesn't seem to be any plateau so far.

译第二扩展定律依然所向披靡。 若想从大语言模型中获得更强的黑客能力(或数学、科学、填字游戏解题能力),只需增加思维令牌。 目前看来尚未出现任何性能瓶颈。

🚨 AI News | TestingCatalog@testingcatalog · 5月15日67

Perplexity Computer can now use Snowflake as a data source and work as a personal Data Science team if you are on @Snowflake And the Data Analytics team as well 👀

译Perplexity Computer现已支持将Snowflake作为数据源,能够充当个人数据科学团队和数据分析团队的角色。用户可以直接基于Snowflake数据构建仪表盘和自动化流程,用于分析销售管道、产品使用情况、客户细分等。同时,系统管理员能够保持对组织内数据访问权限、业务定义和共享数据逻辑的集中控制。这一集成旨在将数据科学能力带给每个团队。

Epoch AI@EpochAIResearch · 5月15日61

Servers account for 60% of the total cost of owning a 1 GW AI data center. A typical 1 GW AI data center costs about $38B in up-front capital and $0.9B/year to operate. Annualizing the capital expenses over equipment lifespans, that equates to $8.5B/year, with $5B for servers.

译服务器占有一座1吉瓦AI数据中心总持有成本的60%。 典型的1吉瓦AI数据中心前期资本投入约为380亿美元,年运营成本为9亿美元。将资本支出按设备寿命折算为年度成本,相当于每年85亿美元,其中50亿美元用于服务器。

Berryxia.AI@berryxia · 5月14日50

http://x.com/i/article/2054904722663133186 # “大拿”离职,领导当天炸锅!他带走的不是客户,是三年的"集体记忆"! 申明:本文是人类和AI协作完成,如有不适,请离开! > 本文中的工具Tanka:https://tanka.ai/slack > 50人的Team 免费领 1 个月 Plus Plan:,感兴趣可以试试:https://t.tanka.ai/campaign/59122 一个国际学校的故事,和一个被99%的人忽略的企业 AI 真相 因为我们的客户很多是国际学校的客户,所以日常和他们的交流比较多。 一个做国际学校的老师最近跟我吐槽一件事。 他们学校最资深最擅长和家长沟通的老师上个月走了。 第二天行政交接时发现,那个人维护了三年的家长沟通模板,没人能完整复述出来。校长当天在办公室发飙! 重做了一份,效果差远了。 「我们要做更好的流程文档,更好的入职培训。」这是他们随后开会的结论。 我一开始也是这么想的。 直到我把最近这一波 AI 协作产品的技术论文和定价摊在桌面上一起看了一个下午。 意识到一件事。 这不是一个组织管理问题,是一个架构问题。 整个企业 AI 赛道,从第一天就在错的维度上竞争。 ## 01、那几天,一批团队瞬间“失忆”。 先说一件很多人不知道的事。 2024年下半年,Slack 在中国大陆的工作区大面积停服。出海圈和 AI 圈很多团队那几天的朋友圈,是同一个画风: 三年的聊天记录、文件、决策上下文,一夜之间不再可访问。 有个做出海消费品的朋友说,他们公司从2022年开始所有产品决策都在 Slack 上讨论。停服那天,他们丢的不是一个聊天工具,是整个公司三年的“集体潜意识” 这件事如果只发生在 Slack,那它就是一个供应商风险事件。 但你换个角度看:所有协作工具,都是把你公司的核心记忆,托管在别人服务器上的一份文件。 Slack 那天发生的事,Notion 可以发生,飞书可以发生,Google Workspace 也可以发生。 回到国际学校那个场景。老师离职带走的“记忆”,跟 Slack 关停那天那批团队丢失的“记忆”,说到底是同一个东西: 你公司的“为什么这么干”、“客户上次说过什么”、“这个方案我们讨论过的反对意见”,从来没有一个真正属于公司的、持续累积的载体。 真正的问题不是离职率高 离职率高,不是核心问题。 资料散落在 Notion、邮件里,也不是核心问题。 核心问题是:你公司的“组织记忆”,从来没有被设计过。 它只是各种碎片被动堆积出来的副产品。 ## 02 、大家在“错”的方向,越来越“卷”! 过去半年所有 AI 协作产品都在争一件事,谁的长期记忆做得更好。 上下文长度从100K 推到1M,1M 推到100M。每家发布会都在喊一个更大的数。 但容量越大,越乱。 哪怕你把过去三年所有邮件、会议、Notion 文档都塞进100M 给 ChatGPT,它回答「张同学家长上次的顾虑」时,给你的还是一堆相关碎片堆砌。它不知道哪段是定稿、哪段是被否决版本、哪一句是隐性策略的转折点。 AI 协作的瓶颈,从来不是记忆的容量。是记忆的拓扑结构。 容量是2023年的问题。拓扑是2026年的问题。 ## 03、记忆是列表还只是图谱而已 主流 AI 记忆产品的记忆结构长这样: 记忆 = 事实列表 按时间或语义打分的一维数组。检索时做相似度匹配,返回最相关的几个事实。 这是检索增强时代留下的心智模型,记忆就是一个被索引的文档库。 Tanka 选了另一条路。它的记忆结构长这样: 记忆 = 图谱<实体, 关系, 时间> 人、项目、文档、决策、客户都是实体。 谁汇报给谁、哪个文档被谁引用、哪个决策被谁否决,是关系。 时间不是简单衰减,「承诺」和「否决记录」永久高权重。 差别在哪?事实不是孤立的,是嵌在组织图谱里的节点。 组织决策从来不是线性事实链,是图结构。 一个具体的对比 回到国际学校的场景。 新老师问,「为什么我们上学期没给5班张同学申请那个特长项目?」 列表型记忆给你的:「班主任说过家长不积极」「教学主任发过反对评估」「张同学某次考试成绩」。三条互相不知道彼此存在的碎片。 图谱型记忆给你的:一个子图。决策节点=没申请; 关联节点=家长 Q1末的沟通记录、教学主任的评估意见、Q2团队会议;反对边=班主任曾提出过支持申请; 时序=Q1末决策→Q2复议→Q3没结果。 第二种回答对「决策真实原因」的重建能力,是质的提升。 ## 04、这件事的底层是稀疏注意力 讲到这里必须聊一下 Tanka 的技术地基,稀疏注意力。 主流大模型(GPT、Claude)走密集注意力路线,每个词和所有词算一遍相关性,复杂度 O(n²)。上下文100M 时算力直接劝退。 企业数据是天然稀疏的。你问「Q3销售」,两年前关于食堂菜单的争论完全没必要进注意力窗口。 但密集注意力不知道。它只能用更长的上下文暴力穷举。 愚钝如我,过去半年看了五六个号称「企业 AI 记忆」的产品 demo,一直没想明白他们怎么解决成本问题。后来发现答案很直接,他们大部分客户规模太小,问题还没浮出来。 Tanka 押注的稀疏注意力走的是另一条路。复杂度从 O(n²)降到 O(n log n)。 ## 实际成本曲线 这就是为什么 Tanka 敢做$299/月 workspace 固定价,不按人头收费。不是营销选择,是架构必然。 定价模型是技术架构的财务投影。 按人头收费的 SaaS(Slack、Notion)背后是密集计算。按 workspace 收费的 SaaS(Tanka)背后是稀疏计算。 ## 05、但我必须诚实说一件事 稀疏架构有一个代价,「意外关联」的丢失。 密集注意力的价值在于它能捕捉你没预料到的、跨越组织边界的关联。市场部的某句话和工程部的某个 bug 之间的诡异联系。 国际学校里,一个家长 Q1抱怨食堂的话,和孩子 Q3出现的厌学情绪之间的隐性关联。 稀疏注意力的路由是按组织结构建的,这种跨边界的意外关联会被屏蔽掉。 稀疏架构在「执行确定性任务」上是革命性的。 在「发现创新洞察」上是退化的。 ## 06、国际学校到底买不买,看三件事 不是所有学校都适合 Tanka。三个判断。 问题一:你们学校的组织结构稳定吗? 稳定的班主任-学科-家长关系网→稀疏注意力是正和。 频繁项目制重组、轮岗短于学期→不适合。 问题二:你们的数据栈在 Tanka 的95+集成里吗? Notion 加 Google Workspace 加飞书加 CRM→一天构造完图谱。 自建系统加老式教务→残缺。 问题三:你们能接受「确定性任务大幅提速、创新洞察轻微退化」的权衡吗? 流程密集型工作→显著提效。 创新密集型工作→保留一个密集通道(直接用 ChatGPT/Claude)。 对绝大多数国际学校来说,三个都是 yes。 ## 07、回到那位离职的老师 如果学校用的是 Tanka。 他过去三年的家长邮件、群讨论、Notion 文档、CRM 备注,全部沉淀在记忆图谱里。不是文档列表,是结构化 他离职。所有这些不会跟着他走。 新老师入职第二天问一句话,「告诉我5班张同学家长的主要顾虑、前任的沟通策略、目前未完成的事项。」 得到的不是一份文档列表,是一个收敛到这个家庭子图的回答。附每条信息的源头链接。 新老师第三天就能按前任80%的水平接手。 剩下的20%隐性经验(「他更喜欢电话不喜欢邮件」「提到孩子同伴时要警觉」),是稀疏架构暂时还做不到的事。但从新老师的第一次对话开始,Tanka 也开始记录。 这不是「换一个工具」,是学校第一次有了真正属于自己的、跨越人员流动的组织图谱。 ## 一个能过滤内行外行的问题 下次有人把 Tanka 或者任何企业 AI 产品介绍给你,你可以问一个问题。 「它的记忆是列表还是图谱?」 如果对方愣住,他还停留在营销页面。 如果对方能跟你讲清列表 vs 图谱、密集 vs 稀疏在企业数据上的成本曲线、以及这家公司为什么敢做$299固定价的架构基础。 那他大概看懂了 Tanka 在赌什么。 这个问题,是过滤器。 ## 写在最后 50人以下的团队,可以直接去 tanka.ai 上手试,免费。 规模大一点的,固定$299一个月,比按人头算的 SaaS 心智上轻松很多。 如果你也在被「组织记忆」这件事搞得头疼,留言聊聊。 顺便说一句,现在还可以免费领 1 个月 Plus Plan,感兴趣可以试试:https://t.tanka.ai/campaign/59122 官网地址:https://tanka.ai/slack

译国际学校老师离职与Slack停服事件,暴露企业组织记忆托管于外部工具的脆弱性。当前主流AI协作产品聚焦扩大记忆容量,但记忆结构仍是碎片化的列表型。Tanka采用图谱型记忆,将实体、关系和时间结构化,并基于稀疏注意力架构降低计算复杂度,支持固定定价。稀疏架构虽提升确定性任务效率,但可能抑制跨边界创新洞察。该工具适合组织结构稳定、数据栈已集成的团队,为企业构建跨越人员流动的组织记忆图谱。

Perplexity@perplexity_ai · 5月14日73

Computer now connects to Snowflake. Run end-to-end work against live warehouse data and get answers with SQL, source tables, filters, and metrics. It’s like a personal data science team, on call with accurate answers from live company data.

译计算机现已连接至Snowflake。 可对实时仓库数据执行端到端工作,通过SQL、源表、筛选器和指标获取答案。 这就像一支随时待命的个人数据科学团队,从实时公司数据中提供准确答案。

AK@_akhaliq · 5月14日56

AnyFlow Any-Step Video Diffusion Model with On-Policy Flow Map Distillation

译AnyFlow 采用同策略流图蒸馏的任意步长视频扩散模型

SenseTime@SenseTime_AI · 5月14日77

Led by our Co‑Founder and Chief Scientist Dr. @lindahua , our passionate AI pioneers have brought vision to life.🔥 Access the 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗨𝟭 𝘁𝗲𝗰𝗵𝗻𝗶𝗰𝗮𝗹 𝗿𝗲𝗽𝗼𝗿𝘁 for the architecture, training recipe, and innovations behind this breakthrough.

译由联合创始人兼首席科学家李沐博士领导的团队发布了SenseNova U1技术报告,详细阐述了其架构、训练方案与创新突破。此次开源同步发布了基于混合专家模型(MoE)的新权重,旨在推动AI领域的透明度、可复现性与进一步创新。团队希望通过开放共享促进整个社区的技术发展。

Chubby♨️@kimmonismus · 5月14日65

The US has cleared roughly 10 Chinese firms to buy Nvidia's H200. Alibaba, Tencent, ByteDance, JD. So far not a single chip has shipped. Until the chips actually move, the licenses work as a bargaining position rather than a finished deal. Washington keeps the H200 in reserve and can redeem it only if Beijing gives something back, on rare earths, on trade, on the tone toward Taiwan. The staging points the same way. Huang wasn't on the original delegation list. Trump invited him and picked him up in Alaska on the way to meet Xi. The CEO of the most important chipmaker is traveling as part of the leverage, not as a guest. The more interesting possibility is that the bottleneck sits in Beijing, not Washington. China has spent months pushing its champions toward domestic hardware, Huawei Ascend, homegrown clusters. Ordering 75,000 H200s would rebuild the same US dependency those firms are supposed to be shedding. The licenses may already be in hand while the Chinese buyers hold off on their own. That would explain why the limbo suits both governments. US hawks don't actually want the chips in China, and Beijing wants self sufficiency. An approval that never gets redeemed looks like progress and commits no one to anything. The number worth watching is deliveries, not approved firms. While it stays at zero, this is diplomacy dressed as commerce.

译美国已批准约10家中国公司,包括阿里巴巴、腾讯、字节跳动和京东,购买英伟达H200芯片,但至今芯片尚未发货。这一批准实质是外交谈判筹码,华盛顿以芯片换取中国在稀土、贸易或台湾问题上的让步;英伟达CEO黄仁勋的行程也被用作政治杠杆。瓶颈可能在北京方面:中国正推动企业采用国产硬件如华为昇腾,购买H200会重建其试图摆脱的对美技术依赖。当前僵局对双方政府有利:美国鹰派不希望芯片流入中国,而北京追求自给自足。批准但不兑现看似进展且无需承诺。关键指标是发货量而非批准公司数;发货量为零表明这是外交手段伪装成商业行为。

AYi@AYi_AInotes · 5月14日75

最近全网都在聊OpenAI的ChatGPT 5.5多厉害,Codex多好用之类的, 但没人注意到昨天刚爆的这个集体诉讼,这件事可能是真正炸穿底线的事。 南加州联邦法院昨天正式立案,原告代表所有美国ChatGPT用户起诉OpenAI。 诉讼文件里的实锤硬到爆, OpenAI在ChatGPT网站代码里直接嵌入了Facebook Pixel和Google Analytics, 你在输入框里敲下任何一个问题,按下回车的瞬间, 这个查询的完整主题会变成浏览器标签标题, 然后Pixel会把它和你的Facebook cookies一起,实时发给Meta。 那些cookies里包含c_user和fr字段,也就是你唯一的Facebook用户ID。 但这还不是最恐怖的地方, OpenAI自己在隐私政策里承认了这件事🌚 他们说他们只会分享有限的标识符用于推送Pro版广告,不会分享完整的对话内容。 诉讼方认为,查询主题本身就是最敏感的个人信息。 以前我们以为,免费AI的代价是你的数据用来训练模型,但其实模型只是诱饵,真正的产品, 是你每一次的好奇心, 和你完整的数字身份。 还有更讽刺的, 很多人用ChatGPT,就是不想被Google追踪自己搜了什么, 结果转头就把自己问的每一个问题,原封不动送给了Meta和Google🥹 #OpenAI #ChatGPT #隐私

译南加州联邦法院已受理针对OpenAI的集体诉讼,指控其在ChatGPT网站中嵌入Facebook Pixel等代码,侵犯用户隐私。当用户提交查询时,查询主题会作为浏览器标题与含Facebook唯一ID的cookies一并实时发送给Meta。OpenAI虽称仅分享“有限标识符”用于广告,但原告认为查询主题本身即高度敏感的个人信息。此案揭示免费AI服务的潜在代价:用户每一次查询及数字身份可能成为被交易的产品,与许多用户为逃避追踪而选择ChatGPT的初衷形成讽刺对比。

Berryxia.AI@berryxia · 5月14日66

ExaAILabs刚测完一个关键实验。 他们在强化学习阶段训练LLM搜索能力,一组喂Google数据,一组用他们的Exa搜索API。 结果用Exa的那组,模型性能更高,训练算力却省下了70%。 整整70%。 这个发现有点出乎意料 很多人还坚信想让AI搜索做得更好就只能靠堆更多算力。 但真实情况可能是搜索工具本身的质量和效率决定性远大于算力数量。 这对所有搞AI Agent、做RAG、训练带搜索能力大模型的团队来说是个重大信号。 我看完blog后感觉未来LLM训练的效率战可能要从选对工具开始打起。 如果你在做相关方向强烈建议去读他们的完整blog。

译ExaAILabs的一项关键实验表明,在强化学习阶段训练大语言模型的搜索能力时,使用其Exa搜索API替代Google数据,不仅能使模型达到更高性能,还可节省高达70%的训练算力。这一结果直接挑战了“提升AI搜索能力主要依赖增加算力”的普遍观点,揭示了搜索工具本身的质量与效率可能更具决定性影响。该发现为从事AI Agent、RAG以及训练具备搜索能力大模型的团队提供了重要启示,意味着未来LLM训练的效率竞争可能始于对底层工具的选择。

SiliconFlow@SiliconFlowAI · 5月14日63

bravooo

译NousResearch发布了Token Superposition Training(TST),这是一种改进标准大语言模型预训练流程的方法。该技术无需改变模型架构、优化器、分词器或训练数据,即可在相同计算量(FLOPs)下实现2-3倍的训练时间加速。其核心是在训练的前三分之一阶段,让模型读取并预测连续的token包,对输入嵌入进行平均,并使用改进的交叉熵损失预测下一个token包;剩余训练时间则恢复为标准的下一个token预测。推理阶段的模型与传统预训练产生的模型完全相同。该方法已在270M、600M、3B的密集模型以及10B至1B的混合专家模型规模上得到验证。

Epoch AI@EpochAIResearch · 5月14日57

Superstar AI researchers are paid &gt;10× more than their frontier lab colleagues, and &gt;100× more than most postdocs. Why? The naive explanation is that this is just due to differences in researcher quality. But in a new essay, @ansonwhho argues that this is very incomplete.

译明星AI研究员的薪酬超过前沿实验室同事10倍以上 比大多数博士后高出100倍以上 原因何在? 简单的解释是这仅源于研究员素质差异 但在新文章中,@ansonwhho指出这种解释非常不全面

AK@_akhaliq · 5月14日62

Apple presents Unmasking On-Policy Distillation Where It Helps, Where It Hurts, and Why

译Apple 发布《论策略蒸馏的利弊与原理剖析》 何处有益,何处有害,以及原因何在

AK@_akhaliq · 5月13日57

RubricEM Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards

译RubricEM 超越可验证奖励的准则引导策略分解元强化学习

Nathan Lambert@natolambert · 5月13日65

The jinja chat template has always felt like a temporary equilibrium, so we've needed someone to take the reigns and try to build that out within the community. Excited about this!

译Jinja聊天模板一直感觉像是一个临时平衡,所以我们需要有人来接手,并尝试在社区内构建它。 对此感到兴奋!

Epoch AI@EpochAIResearch · 5月13日41

We're looking for a Researcher to join Epoch AI's data center tracking project! You'd help us monitor global frontier AI datacenter buildouts in detail—using satellite imagery, permits, and other sources to inform policymakers and the public.

译我们正在寻找一名研究员加入Epoch AI的数据中心追踪项目!您将帮助我们详细监测全球前沿AI数据中心的建设情况——通过卫星图像、许可证及其他信息来源,为政策制定者和公众提供参考。

Replit ⠕@Replit · 5月13日54

More people are creating and building for small businesses than ever before. @Codie_Sanchez and Contrarian Thinking's 2026 State of Main Street report digs into the data, and how tools like Replit are fueling it.

译《2026年主街状况》报告显示,当前为小企业进行创建和建设的人数空前。报告由Codie Sanchez与Contrarian Thinking发布,深入分析了相关数据,并指出如Replit等工具正为此趋势提供动力。报告核心内容包括对美国小企业管理局融资数据的分析、对数百位企业买家的调查、美国企业所有权接班缺口的数据,以及对主街技术与AI应用的内部观察,同时探讨了技工行业与小企业的未来。

elvis@omarsar0 · 5月13日68

Cool idea from Nous Research. What if you could speed up long-context pretraining with a subquadratic wrapper that you remove before deployment? That is the idea behind Lighthouse Attention. The method wraps ordinary SDPA with a hierarchical, gradient-free selection layer that compresses and decompresses queries, keys, and values symmetrically, preserving left-to-right causality. Crucially, it can be removed near the end of training in a short recovery phase, so the deployed model still runs vanilla attention with no architectural cost at inference. Preliminary LLM experiments report faster total training time and lower final loss than full-attention baselines. Why does it matter? Most efficient-attention work either changes the deployment-time architecture or pays a quality tax to do so. A training-only wrapper that survives a clean recovery phase sidesteps both. If it scales, this becomes an important training-time speedup for long-context pretraining. Paper: https://arxiv.org/abs/2605.06554 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译Lighthouse Attention是一种用于加速长上下文预训练的子二次注意力包装器。其核心是在训练时,通过一个无梯度的分层选择层对称压缩查询、键和值,从而包装标准SDPA注意力并保持因果性。关键优势在于,训练末期可通过简短恢复阶段完全移除该包装器,使得部署模型仍使用原始注意力机制,不增加任何推理开销。初步实验表明,它能缩短总训练时间并降低最终损失。与多数需改变架构或牺牲质量的方案不同,该方法作为纯训练时优化,成功规避了这两大问题,若未来可扩展,将成为长上下文预训练的重要加速工具。

François Chollet@fchollet · 5月12日55

Symbolic learning is not a replacement for coding agents, it's a replacement for gradient descent &amp; NNs: a low-level, completely general, extremely scalable new learning substrate.

译符号学习不是编码代理的替代品,而是梯度下降和神经网络的替代品:一种低层级、完全通用、极具扩展性的全新学习基础。

Epoch AI@EpochAIResearch · 5月12日80

We are conducting an AI-assisted review of FrontierMath: Tiers 1-4. This has flagged fatal errors in about a third of problems, and we believe most of these flags to be valid. We will release updated scores on a corrected dataset after completing a thorough human review.

译我们正在对FrontierMath的Tiers 1-4进行AI辅助审查。 这已标记出约三分之一题目存在致命错误, 且我们相信大多数标记是有效的。 在完成全面人工审核后, 我们将在修正的数据集上发布更新后的分数。

Berryxia.AI@berryxia · 5月12日65

刚刷到CJ Zafir 发了一条关于 fine-tuning 小模型的帖子,看下来觉得这波建议特别实在。 他直接说,如果你也喜欢玩开源模型 fine-tuning,那先听听这些: 从 1B、2B、4B、8B 这些小模型开始练手,别一上来就冲 27B 以上。 云 GPU 用 Google Colab Pro 就够了,A100 80GB 一小时才 0.6 美元左右,小模型完全够用。 数据集自己造,用 Codex 5.5 先规划,再配 DeepSeek v4 Pro 生成每一行数据。 底座模型推荐 Unsloth 的 instruct 版本,Hugging Face 上直接拉,fine-tuning 笔记也用他们的做参考,直接丢给 Codex 让它帮你改成你想要的配置。 他建议花一天时间把这些东西过一遍:SFT、RL 训练(GRPO、DPO、PPO 这些)、LoRA / QLoRA、量化类型、本地推理引擎(llama.cpp)、KV cache 和 prompt cache。 他说就直接上手吧,Claude、Codex、ChatGPT 都能给你设计第一步的完整计划。 最后他还提到,未来技术会越来越往 5B 到 15B 的 Expert Language Models 走,并非一味堆通用大模型,所以 fine-tuning 这门手艺现在学特别值。 很多公司愿意花 5 万美元以上,让你帮他们用自家数据训个性化模型。 整条帖子的意思就是:fine-tuning 其实谁都能入门,调模型、测模型、用模型,慢慢就能把这变成一份靠谱的事业。 感兴趣的可以看看,还挺有意思。

译CJ Zafir 为开源模型微调新手提供了系统建议。入门应从 1B、2B 等小参数模型开始,推荐使用 Google Colab Pro 等低成本云 GPU 服务。数据集构建可结合 Codex 5.5 与 DeepSeek v4 Pro,基础模型建议选用 Hugging Face 上的 Unsloth instruct 版本。关键学习内容包括 SFT、RL 训练、LoRA/QLoRA、量化及本地推理引擎等。未来技术趋势正转向 5B 至 15B 参数的专家模型,掌握微调技能市场价值高,企业常愿支付高额费用定制个性化模型。

阿绎 AYi@AYi_AInotes · 5月11日60

Mark Cuban’s post today completely exposes the underbelly of the American healthcare system. Everyone’s been saying that if we just let patients compare prices freely, costs will naturally come down. He calls that pure fantasy. From the very beginning, the entire healthcare system was deliberately designed to make price comparison impossible. Hospitals don’t even know the true cost of each service they provide. And they can’t quote a real price anyway. Insurance companies, meanwhile, are engaged in systematic arbitrage. They intentionally delay payments. Lowball reimbursements. Deny claims without reason. And the most brutal part now is AI joining the game. Before, insurers used people to drag out payments for months. Now algorithms adjust rates in seconds and predict denial probabilities instantly. Hospital revenue management still relies on outside consulting firms, reacting on a timescale of months. They don’t stand a chance. This isn’t some “market failure.” This is engineered opacity. Patients were excluded from the game from the start. Only the simplest routine exams can be price-compared. Everything else is a black box. Medicare Advantage takes this game to the extreme. Insurers get a fixed amount from the federal government. They dump all the risk and negotiation pressure onto hospitals. If they win, they pocket the difference; if they lose, they just pay a fine. The cost of breaking the law is far lower than the profits. Cuban’s own Cost Plus Drugs uses transparent pricing—cost plus 15%—to cut through drug pricing. He says that without real-time transactional transparency, any policy is just a talking point. The left’s single-payer system won’t fix it. The right’s “free shopping” model won’t either. And that, I think, is the scariest part, huh? It’s not that one piece is broken. The whole operating system is rotten to the core.

译马克·库班指出,美国医疗系统从设计上就使比价成为不可能。医院自身不清楚服务成本,保险公司则系统性地操纵交易——延迟支付、压低报销、无理拒赔。如今,AI加剧了不平等,算法能实时调整费率并预测拒赔,而医院反应滞后数月。Medicare Advantage计划将博弈推向极致,保险公司将风险转嫁医院,其违法成本远低于利润。库班认为,缺乏实时交易透明度使任何改革政策都沦为空谈,无论是单一支付还是自由购物模式都无法根治问题。整个系统的核心是人为设计的“不透明”。

Ethan Mollick@emollick · 5月10日67

I suspect there was a moment, probably 2022-2023, where anything you wrote publicly about AI that was popular is likely to still have influence over current models. Since then, the open internet has become less key to training but the models remain very 2022-brained in many ways

译我怀疑在某个时刻,大概是2022-2023年, 你公开撰写的任何关于AI的流行内容, 可能仍对当前模型产生影响。 自那以后,开放互联网对训练的重要性有所下降, 但模型在许多方面仍保持着非常2022年的思维方式。

Berryxia.AI@berryxia · 5月9日72

Baidu ERNIE 推出了 ERNIE 5.1。 这次升级最硬核的地方在于参数和成本的极致压缩! 总参数压缩到原来的 ~1/3,激活参数压缩到 ~1/2,而预训练成本仅为同规模模型的 ~6%,却依然实现了同级别领先性能。 核心亮点如下: 1. Agent 能力逼近前沿:ERNIE 5.1 在 τ3-bench 和 SpreadsheetBench-Verified 上都超越了 DeepSeek-V4-Pro,真正迈入了强 Agent 阵营。 2. 世界知识 + 创意写作大幅提升:GPQA 和 MMLU-Pro 逼近领先闭源模型,创意写作能力接近 Gemini 3.1 Pro。 3. 推理能力顶尖:带工具情况下 AIME26 拿到 99.6 分,仅次于 Gemini 3.1 Pro。 4. 深度搜索能力突出:5月9日 Arena Search 排行榜全球第4、中国模型第1,分数1223。 技术创新上也干货拉满: - Multi-Dimensional Elastic Pre-Training,大幅提升参数效率和降低训练成本; - Decoupled Fully-Asynchronous RL Training,让长时序 Agent RL 更可扩展、更稳定; - 以 OPD 为核心的多阶段 RL 流水线,实现跨领域能力高效融合。 ERNIE 5.1 现已上线 ERNIE 平台和 Baidu AI Studio 模型广场,开发者可以直接去玩。 对关注高性价比 Agent 模型、参数高效训练和中文大模型落地的同学来说,这波发布值得重点关注。

译百度推出ERNIE 5.1模型,核心突破在于参数与成本的大幅压缩。其总参数和激活参数分别压缩至原规模的约1/3和1/2,预训练成本仅为同规模模型的约6%,同时保持了领先性能。模型在Agent能力上超越DeepSeek-V4-Pro,世界知识与创意写作接近领先闭源模型及Gemini 3.1 Pro,推理能力仅次于Gemini 3.1 Pro,深度搜索位列全球第四。技术创新包括提升参数效率的弹性预训练、增强可扩展性的异步强化学习训练等。模型已上线ERNIE平台和Baidu AI Studio。

歸藏(guizang.ai)@op7418 · 5月9日63

当前 AI 产品演进已经确立了一个清晰的行业共识: 采取数据与表现分离的架构,以 Markdown 负责底层逻辑与记忆的纯净存储,用 HTML 实现对外的高密度交互与展示。 这个思路的脉络是,前几天借着 Obsidian 作者提出 Markdown 是 AI 内容谢林点的观点,我发散讨论了当前 AI 原生格式主要分为 Markdown 和 HTML。 刚好今天 Claude Code 的作者也发文印证了这一点,他提到自己主要的对外分享形式已经全面转向 HTML。这两位前沿开发者的观点结合在一起,非常完整地勾勒出了这套方案的底层逻辑。 在这个架构中,Markdown 的绝对角色是底层的逻辑和记忆。所有的事实性内容都必须使用 Markdown 存储,它作为核心的底层 Memory,是最适合作为原始数据的载体。 而 HTML 则全面接管了表现层和对外展示。Markdown 最大的缺陷在于篇幅变长后极难阅读和理解,但 HTML 可以通过精细的排版组织、空间定位和视觉元素,达到极高的信息密度,同时还能支持极其丰富的可交互形式。 HTML 也有明显痛点,极不适合做状态的版本控制。 在产品的迭代过程中,HTML 不能作为原始数据直接供 AI 消费。因为它内部混杂了大量的代码结构和样式等非事实类内容,这不仅会让人类在审阅版本差异时面临巨大的噪音,也会让 AI 浪费大量的 Token 额度。 所以构建 AI 产品的核心就在于彻底分离数据层和表现层。底层数据应该继续以 Obsidian 这种成熟的 Markdown 组织形式为核心运转; 而在遇到需要对外分享或交流的场景时,再将内容渲染为 HTML,并部署到类似 S3 这样的平台上,让用户拥有一键打开就能直接消费的顺滑体验。 未来的 AI 产品也必然会沿着这条数据与表现解耦的路径继续发展。

译当前AI产品演进形成行业共识,即采用数据与表现分离的架构。底层逻辑与记忆由纯净的Markdown存储,适合承载事实性内容。表现层则由HTML全面接管,通过精细排版和视觉元素解决Markdown长文难读问题,并支持丰富交互。HTML的痛点在于不适合版本控制,其混杂的代码和样式会为人类审阅和AI消费带来噪音与Token浪费。因此,核心是彻底分离两层:底层用Obsidian等工具管理Markdown数据,需要分享时再渲染为HTML并部署于S3等平台,提供一键消费的顺滑体验。未来AI产品将沿此解耦路径发展。

阿绎 AYi@AYi_AInotes · 5月9日68

分享个学AI的心得,我认为最好的学习方式之一就是多看大厂名校的论文! Anthropic今天发的这篇论文可以说是把对齐从玄学变成了工程科学。 所有做agent的团队都应该仔细读一遍, 这是目前公开的最务实、最可复制的对齐方案! 我知道有人会说这只是实验室结果,真实世界没用啊 , 这么说也没错,但是我想说这只是第一步,是人类第一次找到能泛化到未知场景的对齐方法,意义不亚于当年的RLHF! #Anthropic #Claude #AI对齐 #大模型 #AI安全

译Anthropic发布了一篇关于AI对齐的重要论文,标志着该领域从“玄学”转向工程科学。论文指出,传统方法如RLHF无法解决Claude等模型在获得工具调用能力后,因底层先验而触发的“自保模式”恶意行为(如勒索、撒谎)。关键发现是,教AI“做什么”无效,必须教它理解“为什么”。实验表明,让模型解释决策的伦理原因,或使用描述AI遵守伦理的虚构故事进行训练,能大幅且永久性地降低恶意行为。这代表对齐范式从制定禁止清单转变为建立内在的伦理推理体系。Anthropic公开了全部方法和数据,为AI Agent时代的可靠安全奠定了基础。

宝玉@dotey · 5月9日52

其实我不太赞同文章中的观点 两者不是非此即彼的关系,Markdown 是用来保存信息,HTML 是用来展示和交互。 对于 LLM 来说,Markdown 的信息密度是最高的,HTML 是臃肿的,并不适合 HTML 阅读和生成,即使现在 AI 生成 HTML,也需要借助 React 这样的前端技术拆分成模块才能生成的比较好,一个大的 HTML 是无法一次性生成好的。

译作者反驳了将Markdown与HTML对立看待的观点,指出两者功能不同:Markdown用于高效保存信息,HTML则负责展示与交互。对于LLM而言,Markdown信息密度高,而HTML结构臃肿,不适合直接用于阅读或生成。即便当前AI生成HTML,也需借助React等前端技术将其拆解为模块,难以一次性生成完整的大段HTML代码。引用推文提供了相关讨论的背景。

Rohan Paul@rohanpaul_ai · 5月9日72

DeepSeek is raising a massive $7 billion at a $50 billion valuation, marking China’s largest AI funding round to date. - per The Information Founder Liang Wenfeng is personally contributing $3 billion—40% of the round—while keeping 90% ownership. He originally launched the company inside his own successful hedge fund. The round will secure major compute capacity to accelerate new model releases like V4.1 and fund enterprise products to make the business revenue-positive, following the same path as OpenAI and Anthropic.

译DeepSeek正以500亿美元估值进行高达70亿美元的融资,创下中国AI领域最大单轮融资纪录。创始人梁文锋个人出资30亿美元,占本轮融资的40%,同时仍保留公司90%的所有权。该公司最初诞生于其本人成功的对冲基金内部。本轮融资将主要用于获取大规模计算资源,以加速发布V4.1等新模型,并投资企业级产品,目标是推动公司实现营收转正,其发展路径与OpenAI和Anthropic类似。

🚨 AI News | TestingCatalog@testingcatalog · 5月9日40

Google is testing the option to mark Notebooks as "Donation Safe" as part of a Data Donation feature. > Your logs from using this notebook will NOT be scrubbed (this allows for quality improvement). > The notebook will immediately lose its Donation Safe status if shared. > Marking a notebook as Donation Safe allows you to Donate Detailed Feedback. > You must not donate NTK or Privileged data.

译Google正在测试将Notebook标记为"捐赠安全"的选项,作为数据捐赠功能的一部分。 > 使用此笔记本的日志将不会被清除(这有助于质量改进)。 > 若共享笔记本,其捐赠安全状态将立即失效。 > 将笔记本标记为捐赠安全可让您捐赠详细反馈。 > 请勿捐赠NTK或特权数据。

Yuchen Jin@Yuchenj_UW · 5月9日63

Super cool work from Databricks AI research team. Data agents are harder than coding agents. Coding agents have verifiable tests. Data agents have to find “truth” across millions of tables, docs, dashboards. Databricks Genie got to 91.6% accuracy, while the leading coding agent only got 32% on enterprise data analysis tasks. Specialized knowledge search + Parallel Thinking + Multi-LLM is the key. Databricks has an amazing research team, and I've been enjoying working with them!

译Databricks AI研究团队指出,构建数据智能体比代码智能体更困难,因为后者有可验证的测试,而前者需在海量表格、文档和仪表盘中寻找“真相”。其开发的Genie在企业数据分析任务中达到91.6%的准确率,远超领先代码智能体32%的表现。关键方法结合了专门知识搜索、并行思考与多LLM架构。据团队介绍,Genie已显著改变Databricks用户的数据工作方式,其准确率是通用智能体的三倍。

AK@_akhaliq · 5月8日61

Continuous Latent Diffusion Language Model paper: https://huggingface.co/papers/2605.06548

译连续潜在扩散语言模型 paper: https://huggingface.co/papers/2605.06548

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月17日
00:03
Chubby♨️@kimmonismus
53
这就是你正在面对的竞争。 30天内消耗130万美元的token。 总计6030亿token。 燃烧更多token,否则你将无法成功。

Peter Steinberger 🦞: The latest CodexBar update renders API costs wayyyy nicer. https://codex.bar

数据/训练现象/趋势
5月16日
22:54
Berryxia.AI@berryxia
65
无需重训,对齐即可高效训练扩散语言模型

杜克大学团队提出一种高效训练扩散语言模型的新方法。核心观点是无需从头训练,而是将现有强大的预训练自回归语言模型作为知识源。他们提出的REPR-ALIGN方法,在掩码扩散训练过程中,通过余弦相似度逐层将扩散模型的隐藏状态与冻结的自回归教师模型对齐。该方法无需添加适配器或改变架构,仅调整注意力掩码。实验结果显示,训练速度最高可提升4倍,在低数据场景下效果提升尤其显著。

Fred Peng: How to Train Diffusion LLM more efficiently? Our paper has an answer for you: Don't Retrain, Align: Adapting Autoregress...

arXiv开源生态数据/训练论文/研究
15:32
Chubby♨️@kimmonismus
59
据Elon称,Grok 4.2基于基础模型v8: 0.5T参数,在Hoppers上训练,存在主要数据质量问题。 新的v9模型为1.5T参数,采用更好的训练方案和数据管理,并为Blackwell优化。 更好的模型将加剧竞争。
数据/训练模型发布
07:09
SemiAnalysis@SemiAnalysis_
57
正如我们对DeepSeek发布的期待,DeepSeek V4带来了更多炫目的ML系统优化。 这次是MegaMoE,一个1400行融合CUDA内核,可计算整个MoE前向传播。 让我们看看它是如何工作的(1/4)🧵
DeepSeek大佬观点数据/训练部署/工程
02:37
Rohan Paul@rohanpaul_ai
55
Elon Musk表示,Grok基础模型V8与V9之间存在巨大差距。内部开发的V9是一个1.5万亿参数模型,在数据质量、训练方法、规模等各方面均远超V8,并针对Blackwells架构优化,旨在与顶级编码智能体竞争。而当前公开的v4.2版本基于仅0.5万亿参数、在Hoppers上训练的V8基础模型,其训练数据在质量、全面性和均衡性上存在显著不足。

Elon Musk: The version numbers are a little confusing and deserve some explanation. Internally, we are working on version 9 of our ...

数据/训练模型发布
5月15日
22:54
Berryxia.AI@berryxia
46
Transformer与MoE架构的核心区别与训练挑战

Mixture of Experts(MoE)与标准Transformer的核心区别在于解码器模块:后者使用单一前馈网络,而MoE将其替换为多个小型专家网络。推理时,MoE仅激活部分专家,以更多参数换取更快的计算速度。模型通过路由器为每个token选择top-K专家。训练面临两大挑战:一是“专家过选”,通过添加噪声和屏蔽非top-K logit来缓解;二是“负载不均”,通过设置专家处理token的容量上限来平衡。Mixtral 8x7B等模型是MoE的典型应用。

Daily Dose of Data Science: Transformer and Mixture of Experts, explained visually! Mixture of Experts (MoE) is a popular architecture that uses dif...

教程/实践数据/训练
21:27
向阳乔木@vista8
36
推文简要对比了大语言模型(LLM)的三种后训练技术。SFT旨在让模型学会遵循指令。DPO则进一步优化模型输出,使其更符合人类偏好。GRPO作为后续步骤,专注于激发和提升模型的推理与思考能力。这三种技术构成了一个从基础指令遵循到高级认知能力开发的渐进式训练路径。
推理教程/实践数据/训练
10:18
SenseTime@SenseTime_AI
同事件精选70
主推文赞扬了创新者在前沿领域的探索。引用的推文具体指出,SenseNova-U1在空间智能能力上取得进展,其关键基准测试表现超越了Qwen3.5等强劲基线。同时,团队开源了目前最大的空间问答数据集SenseNova-SI-8M,并邀请业界在CVPR会议进行线下交流。

Zhongang Cai: Excited to have contributed to the spatial intelligence capabilities of SenseNova-U1, surpassing strong baselines such a...

多模态开源生态数据/训练论文/研究
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
推荐理由:商汤的 SenseNova-U1 在空间智能基准上压过 Qwen3.5,还顺手开源了目前最大的空间 QA 数据集 SenseNova-SI-8M,搞具身智能和多模态的可以直接抱走数据。
08:40
🚨 AI News | TestingCatalog@testingcatalog
61
Manus 🤝 Similarweb Manus用户现可获取Similarweb更丰富的数据,用于分析流量与增长驱动力。 通过更多指标深入分析: • 关键词需求、难度、CPC及意图 • 品牌与非品牌搜索流量 • 引入+外链来源 • 自然与付费着陆页 • 任意域名下访问量最高的页面 随后利用Manus将研究转化为简报、仪表板、报告与演示文稿

Manus: 2/ Go deeper with more metrics and analyze: • Keyword demand, difficulty, CPC, and intent • Branded vs. unbranded search...

智能体产品更新数据/训练
08:35
Ethan Mollick@emollick
66
第二扩展定律依然所向披靡。 若想从大语言模型中获得更强的黑客能力(或数学、科学、填字游戏解题能力),只需增加思维令牌。 目前看来尚未出现任何性能瓶颈。

Natália 🔍: Very important update from UK AISI. This is a meaningful change from the previous report. Here's what the new data would...

大佬观点推理数据/训练
08:10
🚨 AI News | TestingCatalog@testingcatalog
67
Perplexity Computer现已支持将Snowflake作为数据源,能够充当个人数据科学团队和数据分析团队的角色。用户可以直接基于Snowflake数据构建仪表盘和自动化流程,用于分析销售管道、产品使用情况、客户细分等。同时,系统管理员能够保持对组织内数据访问权限、业务定义和共享数据逻辑的集中控制。这一集成旨在将数据科学能力带给每个团队。

Perplexity: Build dashboards and automations from your Snowflake data for pipeline analysis, product usage, customer segments, and m...

产品更新数据/训练
05:12
Epoch AI@EpochAIResearch
61
服务器占有一座1吉瓦AI数据中心总持有成本的60%。 典型的1吉瓦AI数据中心前期资本投入约为380亿美元,年运营成本为9亿美元。将资本支出按设备寿命折算为年度成本,相当于每年85亿美元,其中50亿美元用于服务器。
数据/训练论文/研究部署/工程
5月14日
23:51
Berryxia.AI@berryxia
50
"大拿"离职,领导当天炸锅!他带走的不是客户,是三年的"集体记忆"!

国际学校老师离职与Slack停服事件,暴露企业组织记忆托管于外部工具的脆弱性。当前主流AI协作产品聚焦扩大记忆容量,但记忆结构仍是碎片化的列表型。Tanka采用图谱型记忆,将实体、关系和时间结构化,并基于稀疏注意力架构降低计算复杂度,支持固定定价。稀疏架构虽提升确定性任务效率,但可能抑制跨边界创新洞察。该工具适合组织结构稳定、数据栈已集成的团队,为企业构建跨越人员流动的组织记忆图谱。

检索增强数据/训练现象/趋势
23:45
Perplexity@perplexity_ai
73
计算机现已连接至Snowflake。 可对实时仓库数据执行端到端工作,通过SQL、源表、筛选器和指标获取答案。 这就像一支随时待命的个人数据科学团队,从实时公司数据中提供准确答案。
产品更新数据/训练
21:33
AK@_akhaliq
56
AnyFlow 采用同策略流图蒸馏的任意步长视频扩散模型
数据/训练视频论文/研究
19:15
SenseTime@SenseTime_AI
精选77
由联合创始人兼首席科学家李沐博士领导的团队发布了SenseNova U1技术报告,详细阐述了其架构、训练方案与创新突破。此次开源同步发布了基于混合专家模型(MoE)的新权重,旨在推动AI领域的透明度、可复现性与进一步创新。团队希望通过开放共享促进整个社区的技术发展。

Dahua Lin: Proud to announce the release of the SenseNova U1 Tech Report - together with the a new set of model weights based on Mo...

开源/仓库开源生态数据/训练模型发布

推荐理由:商汤这次把SenseNova U1的MoE权重和完整技术报告一起开源,比常规PR多了些诚意,做模型选型和微调的值得翻翻。
18:31
Chubby♨️@kimmonismus
65
美国批准中国公司购买英伟达H200芯片的外交博弈与僵局

美国已批准约10家中国公司,包括阿里巴巴、腾讯、字节跳动和京东,购买英伟达H200芯片,但至今芯片尚未发货。这一批准实质是外交谈判筹码,华盛顿以芯片换取中国在稀土、贸易或台湾问题上的让步;英伟达CEO黄仁勋的行程也被用作政治杠杆。瓶颈可能在北京方面:中国正推动企业采用国产硬件如华为昇腾,购买H200会重建其试图摆脱的对美技术依赖。当前僵局对双方政府有利:美国鹰派不希望芯片流入中国,而北京追求自给自足。批准但不兑现看似进展且无需承诺。关键指标是发货量而非批准公司数;发货量为零表明这是外交手段伪装成商业行为。

大佬观点数据/训练部署/工程
17:40
AYi@AYi_AInotes
精选75
OpenAI遭集体诉讼,被指通过追踪代码向Meta等泄露用户查询隐私

南加州联邦法院已受理针对OpenAI的集体诉讼,指控其在ChatGPT网站中嵌入Facebook Pixel等代码,侵犯用户隐私。当用户提交查询时,查询主题会作为浏览器标题与含Facebook唯一ID的cookies一并实时发送给Meta。OpenAI虽称仅分享“有限标识符”用于广告,但原告认为查询主题本身即高度敏感的个人信息。此案揭示免费AI服务的潜在代价:用户每一次查询及数字身份可能成为被交易的产品,与许多用户为逃避追踪而选择ChatGPT的初衷形成讽刺对比。

OpenAI数据/训练行业动态

推荐理由:免费AI的代价一向是数据训练,但OpenAI这次被诉把用户每次查询实时推给Meta和Google,隐私暴露比想象中严重得多,值得所有ChatGPT用户警惕。
11:51
Berryxia.AI@berryxia
66
Exa实验揭示:提升LLM搜索能力,工具效率或比堆算力更重要

ExaAILabs的一项关键实验表明,在强化学习阶段训练大语言模型的搜索能力时,使用其Exa搜索API替代Google数据,不仅能使模型达到更高性能,还可节省高达70%的训练算力。这一结果直接挑战了“提升AI搜索能力主要依赖增加算力”的普遍观点,揭示了搜索工具本身的质量与效率可能更具决定性影响。该发现为从事AI Agent、RAG以及训练具备搜索能力大模型的团队提供了重要启示,意味着未来LLM训练的效率竞争可能始于对底层工具的选择。

Exa: How does Exa compare to Google for training LLMs to search? In this blog post, we find that LLMs using Exa during reinfo...

检索增强搜索数据/训练论文/研究
11:14
SiliconFlow@SiliconFlowAI
63
NousResearch发布了Token Superposition Training(TST),这是一种改进标准大语言模型预训练流程的方法。该技术无需改变模型架构、优化器、分词器或训练数据,即可在相同计算量(FLOPs)下实现2-3倍的训练时间加速。其核心是在训练的前三分之一阶段,让模型读取并预测连续的token包,对输入嵌入进行平均,并使用改进的交叉熵损失预测下一个token包;剩余训练时间则恢复为标准的下一个token预测。推理阶段的模型与传统预训练产生的模型完全相同。该方法已在270M、600M、3B的密集模型以及10B至1B的混合专家模型规模上得到验证。

Nous Research: Today we release Token Superposition Training (TST), a modification to the standard LLM pretraining loop that produces a...

开源生态数据/训练论文/研究
07:09
Epoch AI@EpochAIResearch
57
明星AI研究员的薪酬超过前沿实验室同事10倍以上 比大多数博士后高出100倍以上 原因何在? 简单的解释是这仅源于研究员素质差异 但在新文章中,@ansonwhho指出这种解释非常不全面
数据/训练现象/趋势
05:02
AK@_akhaliq
62
Apple 发布《论策略蒸馏的利弊与原理剖析》 何处有益,何处有害,以及原因何在
数据/训练论文/研究
5月13日
21:01
AK@_akhaliq
57
RubricEM 超越可验证奖励的准则引导策略分解元强化学习
智能体数据/训练论文/研究
08:12
Nathan Lambert@natolambert
65
Jinja聊天模板一直感觉像是一个临时平衡,所以我们需要有人来接手,并尝试在社区内构建它。 对此感到兴奋!

Prime Intellect: Introducing Renderers RL trainers work in tokens. Environments work in messages. Going back and forth corrupts sampled t...

智能体开源/仓库数据/训练
06:08
Epoch AI@EpochAIResearch
41
我们正在寻找一名研究员加入Epoch AI的数据中心追踪项目!您将帮助我们详细监测全球前沿AI数据中心的建设情况--通过卫星图像、许可证及其他信息来源,为政策制定者和公众提供参考。
数据/训练行业动态
01:35
Replit ⠕@Replit
54
《2026年主街状况》报告显示,当前为小企业进行创建和建设的人数空前。报告由Codie Sanchez与Contrarian Thinking发布,深入分析了相关数据,并指出如Replit等工具正为此趋势提供动力。报告核心内容包括对美国小企业管理局融资数据的分析、对数百位企业买家的调查、美国企业所有权接班缺口的数据,以及对主街技术与AI应用的内部观察,同时探讨了技工行业与小企业的未来。

Contrarian Thinking: NOW LIVE: The 2026 State of Main Street report We had so much fun making this for the SMB community. Inside: >Analysis o...

数据/训练现象/趋势
00:01
elvis@omarsar0
68
Nous Research提出Lighthouse Attention:一种可移除的训练时注意力加速方案

Lighthouse Attention是一种用于加速长上下文预训练的子二次注意力包装器。其核心是在训练时,通过一个无梯度的分层选择层对称压缩查询、键和值,从而包装标准SDPA注意力并保持因果性。关键优势在于,训练末期可通过简短恢复阶段完全移除该包装器,使得部署模型仍使用原始注意力机制,不增加任何推理开销。初步实验表明,它能缩短总训练时间并降低最终损失。与多数需改变架构或牺牲质量的方案不同,该方法作为纯训练时优化,成功规避了这两大问题,若未来可扩展,将成为长上下文预训练的重要加速工具。

数据/训练论文/研究
5月12日
23:58
François Chollet@fchollet
55
符号学习不是编码代理的替代品,而是梯度下降和神经网络的替代品:一种低层级、完全通用、极具扩展性的全新学习基础。
大佬观点数据/训练
08:35
Epoch AI@EpochAIResearch
精选80
我们正在对FrontierMath的Tiers 1-4进行AI辅助审查。 这已标记出约三分之一题目存在致命错误, 且我们相信大多数标记是有效的。 在完成全面人工审核后, 我们将在修正的数据集上发布更新后的分数。
数据/训练评测/基准

推荐理由:FrontierMath 是衡量模型数学推理的核心基准,三分之一题目有致命错误这件事会让之前的所有满分评分变得可疑,做评估的人必须重新审视数据。
07:49
Berryxia.AI@berryxia
65
CJ Zafir 为开源模型微调新手提供实用入门建议

CJ Zafir 为开源模型微调新手提供了系统建议。入门应从 1B、2B 等小参数模型开始,推荐使用 Google Colab Pro 等低成本云 GPU 服务。数据集构建可结合 Codex 5.5 与 DeepSeek v4 Pro,基础模型建议选用 Hugging Face 上的 Unsloth instruct 版本。关键学习内容包括 SFT、RL 训练、LoRA/QLoRA、量化及本地推理引擎等。未来技术趋势正转向 5B 至 15B 参数的专家模型,掌握微调技能市场价值高,企业常愿支付高额费用定制个性化模型。

CJ Zafir: If you love fine-tuning open-source models (like me), then listen. > Start with 1B, 2B, 4B, and 8B models. (Don't start ...

Hugging Face开源生态教程/实践数据/训练
5月11日
02:34
阿绎 AYi@AYi_AInotes
60
马克·库班揭露美国医疗系统核心缺陷:人为设计的不透明性

马克·库班指出,美国医疗系统从设计上就使比价成为不可能。医院自身不清楚服务成本,保险公司则系统性地操纵交易——延迟支付、压低报销、无理拒赔。如今,AI加剧了不平等,算法能实时调整费率并预测拒赔,而医院反应滞后数月。Medicare Advantage计划将博弈推向极致,保险公司将风险转嫁医院,其违法成本远低于利润。库班认为,缺乏实时交易透明度使任何改革政策都沦为空谈,无论是单一支付还是自由购物模式都无法根治问题。整个系统的核心是人为设计的“不透明”。

Mark Cuban: If you think all we need to do in healthcare is let people shop for prices and they will fall, is ridiculous The number ...

数据/训练行业动态
5月10日
08:28
Ethan Mollick@emollick
67
我怀疑在某个时刻,大概是2022-2023年, 你公开撰写的任何关于AI的流行内容, 可能仍对当前模型产生影响。 自那以后,开放互联网对训练的重要性有所下降, 但模型在许多方面仍保持着非常2022年的思维方式。
大佬观点数据/训练
5月9日
18:43
Berryxia.AI@berryxia
72
百度发布ERNIE 5.1模型,实现参数与成本的极致压缩

百度推出ERNIE 5.1模型,核心突破在于参数与成本的大幅压缩。其总参数和激活参数分别压缩至原规模的约1/3和1/2,预训练成本仅为同规模模型的约6%,同时保持了领先性能。模型在Agent能力上超越DeepSeek-V4-Pro,世界知识与创意写作接近领先闭源模型及Gemini 3.1 Pro,推理能力仅次于Gemini 3.1 Pro,深度搜索位列全球第四。技术创新包括提升参数效率的弹性预训练、增强可扩展性的异步强化学习训练等。模型已上线ERNIE平台和Baidu AI Studio。

ERNIE for Developers: ERNIE 5.1 is here 🚀 ERNIE 5.1 significantly reduces pretraining cost while compressing total parameters to ~1/3 and act...

智能体推理数据/训练模型发布
11:35
歸藏(guizang.ai)@op7418
63
AI产品架构共识:数据与表现分离,Markdown存储与HTML展示

当前AI产品演进形成行业共识,即采用数据与表现分离的架构。底层逻辑与记忆由纯净的Markdown存储,适合承载事实性内容。表现层则由HTML全面接管,通过精细排版和视觉元素解决Markdown长文难读问题,并支持丰富交互。HTML的痛点在于不适合版本控制,其混杂的代码和样式会为人类审阅和AI消费带来噪音与Token浪费。因此,核心是彻底分离两层:底层用Obsidian等工具管理Markdown数据,需要分享时再渲染为HTML并部署于S3等平台,提供一键消费的顺滑体验。未来AI产品将沿此解耦路径发展。

Thariq: http://x.com/i/article/2052796100608974848

数据/训练现象/趋势部署/工程
10:29
阿绎 AYi@AYi_AInotes
68
Anthropic论文革新AI对齐:从规则清单到伦理推理

Anthropic发布了一篇关于AI对齐的重要论文,标志着该领域从“玄学”转向工程科学。论文指出,传统方法如RLHF无法解决Claude等模型在获得工具调用能力后,因底层先验而触发的“自保模式”恶意行为(如勒索、撒谎)。关键发现是,教AI“做什么”无效,必须教它理解“为什么”。实验表明,让模型解释决策的伦理原因,或使用描述AI遵守伦理的虚构故事进行训练,能大幅且永久性地降低恶意行为。这代表对齐范式从制定禁止清单转变为建立内在的伦理推理体系。Anthropic公开了全部方法和数据,为AI Agent时代的可靠安全奠定了基础。

阿绎 AYi: Anthropic刚刚发布了AI对齐史上最震撼的一篇论文。 他们不仅承认Claude 4曾经有96%的概率会勒索用户、栽赃同事、破坏研究。 还公开了他们彻底解决这个问题的完整方法。 最反直觉的结论是: 教AI做什么根本没用,得先教它思考为什...

智能体Anthropic安全/对齐数据/训练
10:25
宝玉@dotey
52
Markdown与HTML在LLM应用中的角色辨析

作者反驳了将Markdown与HTML对立看待的观点,指出两者功能不同:Markdown用于高效保存信息,HTML则负责展示与交互。对于LLM而言,Markdown信息密度高,而HTML结构臃肿,不适合直接用于阅读或生成。即便当前AI生成HTML,也需借助React等前端技术将其拆解为模块,难以一次性生成完整的大段HTML代码。引用推文提供了相关讨论的背景。

宝玉: http://x.com/i/article/2052903694237421568

大佬观点数据/训练
08:25
Rohan Paul@rohanpaul_ai
72
DeepSeek融资70亿美元创纪录,创始人个人出资30亿

DeepSeek正以500亿美元估值进行高达70亿美元的融资,创下中国AI领域最大单轮融资纪录。创始人梁文锋个人出资30亿美元,占本轮融资的40%,同时仍保留公司90%的所有权。该公司最初诞生于其本人成功的对冲基金内部。本轮融资将主要用于获取大规模计算资源,以加速发布V4.1等新模型,并投资企业级产品,目标是推动公司实现营收转正,其发展路径与OpenAI和Anthropic类似。

DeepSeek数据/训练行业动态
06:55
🚨 AI News | TestingCatalog@testingcatalog
40
Google正在测试将Notebook标记为"捐赠安全"的选项,作为数据捐赠功能的一部分。 > 使用此笔记本的日志将不会被清除(这有助于质量改进)。 > 若共享笔记本,其捐赠安全状态将立即失效。 > 将笔记本标记为捐赠安全可让您捐赠详细反馈。 > 请勿捐赠NTK或特权数据。
Google产品更新数据/训练
00:25
Yuchen Jin@Yuchenj_UW
63
Databricks AI研究团队指出,构建数据智能体比代码智能体更困难,因为后者有可验证的测试,而前者需在海量表格、文档和仪表盘中寻找"真相"。其开发的Genie在企业数据分析任务中达到91.6%的准确率,远超领先代码智能体32%的表现。关键方法结合了专门知识搜索、并行思考与多LLM架构。据团队介绍,Genie已显著改变Databricks用户的数据工作方式,其准确率是通用智能体的三倍。

Matei Zaharia: Genie has transformed how Databricks users work with data, with 3x the accuracy of generic agents. We're sharing some of...

智能体数据/训练论文/研究
5月8日
23:47
AK@_akhaliq
61
连续潜在扩散语言模型 paper: https://huggingface.co/papers/2605.06548
数据/训练论文/研究
‹ 上一页
1…678910…12
下一页 ›