AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 468 条
全部一手资讯X论文
标签「数据/训练」清除
Chubby♨️@kimmonismus · 6月1日68

For two years the whole conversation was about context window size. Meanwhile the actual problem never moved: agents don't remember anything between sessions. We kept patching it with RAG and manual context injection and calling that memory. HydraDB is going at the layer everyone routed around. One API, sessions that persist, knowledge that compounds across agents. The tell in the $6.5M is who raised it: not a frontier lab. They had the compute to solve persistence and spent it on scaling, so memory became a startup's whole thesis instead of a line item in theirs. Fantastic!

译该推文指出AI领域过度关注上下文窗口大小,而真正的核心问题——AI智能体跨会话记忆缺失——却被忽视。HydraDB 获得 $6.5M 融资,旨在构建一个图原生的上下文基础设施,专为智能体提供持久化会话、可累积知识与行为可观测性。其核心是将内存、NVMe 和对象存储组合为单一的图层,目标实现比现有方案快、成本降低 1000 倍、且高精确度的上下文交付,为智能体赋予“大脑”。

Rohan Paul@rohanpaul_ai · 6月1日60

Better AI agent systems scale by remembering useful feedback, not by spending more compute. The simple mistake is to count tokens, calls, or dollars as if they were all evidence. The authors say those numbers miss the real issue, because 2 runs can spend the same budget while only 1 gets feedback that is correct, new, relevant, and remembered. An agent harness is not just a wrapper around a model; it is a feedback machine that decides what to test, what to trust, what to store, and what to ignore. Their answer is Effective Feedback Compute, or EFC, a score that counts feedback only when it teaches the agent something useful and changes later decisions. They also divide EFC by task demand, because a small lookup task and a messy software-repair task need different amounts of helpful feedback before the agent has enough to solve them. They tested this on synthetic tasks, code tasks with executable tests, real benchmark traces, held-out settings, and a new prospective batch, then compared EFC with raw compute and a strong agent-scaling baseline. The main result is that task-normalized EFC predicted failures much better than raw compute, and in 1 matched-budget test, better feedback raised success from 0.27 to 0.90 while cost and tool calls stayed fixed. ---- Link – arxiv. org/abs/2605.29682 Title: "Scaling Laws for Agent Harnesses via Effective Feedback Compute"

译当前AI智能体的扩展方法常错误地将计算资源消耗等同于学习证据。新研究指出,两次运行消耗相同预算,但反馈的有效性可能天差地别。为此,研究提出了“有效反馈计算”(EFC)指标,仅统计那些正确、新颖、相关且被记住、并能改变后续决策的反馈。研究还结合任务需求对EFC进行归一化。实验表明,任务归一化的EFC比原始计算指标更能预测失败。在一项匹配预算测试中,采用更好反馈的方法将任务成功率从0.27提升至0.90,而成本和工具调用次数保持不变。 链接:arxiv.org/abs/2605.29682 标题:"Scaling Laws for Agent Harnesses via Effective Feedback Compute"

OpenBMB@OpenBMB · 6月1日78

🏆 Big news! UltraData just hit #1 AND #2 on HuggingFace Trending worldwide! 🎉 Released by OpenBMB × @TsinghuaNLP × Modelbest — two massive open-source datasets now free for everyone: 🔥 Ultra-FineWeb-L3 (web pretraining synthetic data) → 600B+ tokens (400B+ English, 200B+ Chinese) → Largest open-source Chinese pretraining synthetic dataset to date → Built to maximize learnability per token 🔥 UltraData-SFT-2605 (post-training SFT data) → China's first open-source 15M+ SFT dataset with both thinking & non-thinking annotations → Covers math, code, knowledge & instruction-following → Fully traceable data pipeline 🧱 Both built on the UltraData L0–L4 five-tier data management framework, validated end-to-end on MiniCPM5-1B training. Free to download now 👇 https://huggingface.co/datasets/openbmb/Ultra-FineWeb-L3 https://huggingface.co/datasets/openbmb/UltraData-SFT-2605 #OpenSource #LLM #AI #HuggingFace #MiniCPM #UltraData

译OpenBMB联合清华NLP与Modelbest发布两个开源数据集:Ultra-FineWeb-L3(预训练合成数据)包含600B+ tokens(超400B英文、200B+中文),是迄今最大开源中文预训练合成数据集;UltraData-SFT-2605(后训练SFT数据)包含15M+样本,是中国首个开源且包含思考与非思考标注的大规模SFT数据集,覆盖数学、代码、知识和指令遵循。两者均基于UltraData L0-L4框架构建,并在MiniCPM5-1B训练中完成验证。数据集已在HuggingFace免费开放。

Rohan Paul@rohanpaul_ai · 6月1日73

Jensen Huang talks about Vera Rubin at NVIDIA GTC Taipei 2026 today. ---- From 'NVIDIA' YT channel (link in comment)

译黄仁勋今天在NVIDIA GTC台北2026上谈论了Vera Rubin。

Rohan Paul@rohanpaul_ai · 6月1日65

A study reveals how huge paychecks from tech giants are pulling top AI researchers away from universities. The top 1% of AI scientists in industry now earn around $2 mn a year. Researchers who move to these private companies stop writing public papers and instead file 530% more patents to keep their work secret. This study tracked 42,000 AI researchers --- nber. org/system/files/working_papers/w34964/w34964.pdf

译一项研究揭示,科技巨头的巨额薪酬正将顶尖AI研究人员从高校吸引走。 工业界前1%的AI科学家现在年薪约200万美元。 转投这些私营公司的研究人员不再发表公开论文,而是提交多530%的专利以保密其工作。 这项研究追踪了42,000名AI研究人员。

Rohan Paul@rohanpaul_ai · 6月1日64

Students finish AI-friendly math problems faster, but they seem to learn less from them. The researchers studied 3.2 million ALEKS math learning records across 10 years to see what changed after ChatGPT became available. Finishing faster is not automatically learning more efficiently, because math practice builds knowledge through the friction of choosing a representation, testing a step, making an error, and correcting it. When a chatbot supplies the path, the student may still submit the answer, but the mind has skipped the work that turns exposure into memory. They compare word problems, which students can easily paste into an AI chatbot, with graph problems, which are harder to hand off because they require visual work inside the platform. After ChatGPT, high school and college students spent much less time on the AI-friendly word problems, while younger students showed smaller or no change. This time drop disappeared when tests were proctored, which suggests the faster work was not just students getting better or the platform changing. The learning cost showed up later: on proctored retention questions, students became about 25% less likely to answer AI-friendly items correctly, even though they looked better on non-proctored items where AI could still help. ---- Paper Link – arxiv. org/abs/2605.21629 Paper Title: "Faster Completion, Less Learning: Generative AI Reduced Study Time on Math Problems and the Knowledge They Build"

译研究分析了跨越10年的320万条ALEKS数学学习记录,发现自ChatGPT可用后,学生完成“AI友好”数学题(如单词题)的速度显著变快,但这并非意味着学得更好。研究指出,数学练习通过选择方法、试错和修正的过程构建知识,而当AI直接提供路径时,学生可能跳过了这个关键心智过程。关键证据是,在有监考的测试中,学生答对这类AI友好题目的可能性下降了约25%,表明更快的完成速度是以牺牲知识保留为代价的。论文链接:arxiv.org/abs/2605.21629。

Rohan Paul@rohanpaul_ai · 6月1日45

New paper from MIT, Stanford, New York Univ, Princeton. AI can make people feel more efficient even when they are not actually becoming much more efficient. that people often use AI for simple tasks because it feels like it saves time and effort, but the measured benefit is often tiny, missing, or even negative. The biggest point is the feedback loop: once people use AI, they become more likely to use it again, even for easy tasks where doing it themselves would often be just as fast or faster. i.e. AI dependence can grow from a mistaken feeling of convenience, not just from real productivity gains. Across three preregistered studies with 2,691 participants, people used AI for basic arithmetic, spelling, recall, and short rewriting at higher rates than they predicted, especially on easy tasks. They also expected AI to save 55.7 seconds on average, when the measured saving was only 7.5 seconds. For simple work, the hidden cost is not intelligence but interface friction: writing the prompt, waiting, reading, checking, and deciding whether the answer is acceptable. Once that loop begins, it can feel like effort has been outsourced, even when effort has only been rearranged. Here’s the key part: the study suggests that AI use can train its own justification. After using AI on just two tasks, participants became more likely to use it again, even when independent completion was faster. The danger is not dramatic dependence, but quiet recalibration. A person who asks AI for a trivial answer today may not become less capable tomorrow, but they may become less accurate at judging when their own mind is already the faster tool. ---- Paper Link – arxiv. org/abs/2605.22687 Paper Title: "The efficiency-gain illusion: People underestimate the rate of AI use and overestimate its benefits on simple tasks"

译MIT、斯坦福等高校联合研究发现,人们普遍存在“效率增益错觉”,即高估AI在简单任务(如算术、拼写)上带来的效率提升。在包含2691名参与者的三项研究中,人们实际使用AI完成这些简单任务的频率高于其自我预期。参与者预期AI平均能节省55.7秒,但实测仅节省了7.5秒。研究指出,使用AI存在界面摩擦(如编写提示词、等待、核对)等隐形成本,并会引发“自我证成”循环:一旦开始使用,即使独立完成更快,人们也可能因惯性而继续依赖AI,从而悄然低估自身的独立判断力。

Rohan Paul@rohanpaul_ai · 6月1日72

Jensen Huang thinks Dario Amodei's prediction of $1T in AI revenue by 2030 is too conservative. "I believe Dario and Anthropic are going to do way better than that. Way better than that. And the reason for that is the one part that he hasn't considered: I believe every single enterprise software company will also be a value-added reseller of Anthropic's tokens. And they’re going to get this logarithmic expansion. Their go-to-market is going to expand tremendously this year." --- From @theallinpod YT channel (link in comment)

译Jensen Huang认为Dario Amodei预测的2030年AI收入达$1T的预期过于保守。他指出,Anthropic的token将成为众多企业软件公司的增值服务,其市场将因此实现对数级扩张。有观点补充认为,当各实验室的模型能力趋同时,真正的优势可能源于独特的私有数据输入。这类数据(如特殊工作流、医疗记录等)能为AI系统带来难以复制的差异化和提升,未来或成为并购的关键标的。

Rohan Paul@rohanpaul_ai · 5月31日64

Chamath: AI advantage may come less from models than from private inputs. "When labs can build similar models, the real win comes from one unique ingredient in order to monetize it well. Here is a basic thing about machine learning that is worth knowing: if you take 1,000 of the same inputs and give them to Facebook, Microsoft, Google, and Amazon, they will all come up with the same machine learning model. But if you have one extra thing, one little ingredient that all of those other companies do not have, your output can be markedly different. It is like giving two great chefs three ingredients, but giving the third chef one extra ingredient. That person has the ability to do something very special. Right now, we are in a world where everybody is crawling the open web. We are going to move to a world where, as everybody gets sophisticated enough and information is widely available, somebody is going to say, “You know what? This site, I am not going to allow anybody else to access. It is only for me, only for my models.” Those models will become better. So we have to let that play out a little bit. It is going to be a really interesting arms race. The next wave of M&A, for example, could be companies like Google, Microsoft, and Facebook looking at these companies and saying, “Can they be viable inputs to my large language models or to my other machine learning and AI models?” --- A company with unique workflows, transactions, medical records, industrial logs, legal archives, design files, or user behavior can turn boring private data into a compounding advantage. Some startups may never become great public companies on their own, yet still become valuable because they own a data stream that makes a larger AI system sharper, more differentiated, or harder to copy. That turns acquisition strategy upside down: the buyer may not be purchasing revenue, brand, or even software, but a private ingredient for intelligence. ---- From "iConnections" YouTube channel, (link in comment)

译Chamath认为,当各大实验室能构建相似模型时,真正的竞争优势将来自独特的“私有数据输入”。他以厨师比喻:若给三位厨师相同食材,其中一位若多一味独特食材,便能做出非凡菜品。当前大家都依赖公开网络数据,但未来数据所有者可能将独家数据用于训练自己的模型,从而建立优势。这将引发一场围绕私有数据的“军备竞赛”,并可能改变大型科技公司的收购逻辑——未来的并购可能旨在获取能提升其大语言模型性能的独特数据流,而非仅仅购买收入或品牌。

meng shao@shao__meng · 5月31日46

如何从 PDF 构建金融知识图谱? LandingAI 黑客松项目「ArthaNethra」,展示了从 PDF 到可查询、可溯源、可推理的知识图谱的完整流程: 上传 → ADE 提取 → 归一化 → 双库索引 → 风险检测 · Upload:文档进入 /api/v1/ingest,分配 ID、存储路径 · Extract:LandingAI ADE → 结构化 Markdown,>15MB 走异步任务 + 指数退避 · Normalize:按文档类型路由解析器,发票/贷款/合同:确定性解析,无 LLM;10-K/MD&A:Claude Haiku + 正则,必要时 Sonnet · Index:实体入 Weaviate,关系入 Neo4j,500 词分块、100 词重叠;all-mpnet-base-v2 向量化 · Risk Detect:规则 + LLM 异常检测,4 条阈值规则 + 图模式异常扫描 知识图谱设计 10 类实体:Company、Subsidiary、Loan、Invoice、Metric、Clause、Instrument、Vendor、Person、Location 26 种规范关系,分四类: · 金融:HAS_LOAN、FINANCED_BY、OWNS、GUARANTEES 等 · 运营:SUPPLIES_TO、PARTNERS_WITH 等 · 治理:REGULATED_BY、WORKS_FOR 等 · 交叉引用:MENTIONED_IN、REFERENCES 等 同义词归一化层:40+ 别名映射到 26 种规范类型(如 OWNER_OF / PARENT_COMPANY → OWNS),避免图谱碎片化。 每条实体/关系都带 citation 元数据(文档、页码、章节) 双库架构 · Weaviate:语义相似,「找关于 covenant 违约的文档」 · Neo4j:多跳遍历,「Company X 到 Vendor Y 经过哪些子公司和贷款的路径」

译LandingAI 黑客松项目「ArthaNethra」展示了从 PDF 到金融知识图谱的流程:上传后通过 ADE 提取为结构化 Markdown,超过 15MB 的文档异步处理。提取后按文档类型路由归一化:发票/贷款/合同采用确定性解析(无 LLM);10-K/MD&A 使用 Claude Haiku 结合正则。实体和关系分别存入 Weaviate 和 Neo4j(500 词分块,100 词重叠,all-mpnet-base-v2 向量化),图谱包含 10 类实体和 26 种规范关系,并通过别名映射进行同义词归一化。最后结合规则与 LLM 进行风险检测。

ginobefun@hongming731 · 5月31日15

http://x.com/i/article/2060868832512864256

译我们刚刚发布了Claude 4.7 Sonnet和Claude Opus 4。

Rohan Paul@rohanpaul_ai · 5月31日76

FT: SoftBank just pledged €75B to build Europe’s largest AI computing facility in France, turning cheap, stable nuclear-heavy power into the raw fuel for training and running bigger AI systems. The plan starts with €45B for 3.1GW of capacity in Hauts-de-France by 2031, then adds another 2GW, creating a 5GW AI complex roughly comparable to the power draw of a major city. Dunkirk is the anchor site, with Schneider Electric expected to help build an AI infrastructure and robotics manufacturing hub around the project. The weak point is financing, because industry estimates put 1GW of AI infrastructure near $50B, meaning SoftBank will probably need heavy project debt and outside partners. --- ft .com/content/1022f9bd-5b6d-44a5-9303-c8b05b8c6463?syn-25a6b1a6=1

译软银宣布在法国投资750亿欧元,旨在打造欧洲规模最大的AI算力设施。该计划旨在利用当地稳定廉价的核电。项目分阶段推进,第一阶段投资450亿欧元,目标是到2031年在法国北部-加来海峡大区建成3.1GW容量,随后再增加2GW,最终形成5GW的AI综合体。敦刻尔克是核心选址,施耐德电气预计参与建设AI基础设施及机器人制造中心。融资是潜在挑战,行业估算显示1GW的AI基础设施成本约为500亿美元,因此软银可能需要依赖大量项目债务和外部合作伙伴。

Rohan Paul@rohanpaul_ai · 5月30日47

Japan’s AI data center boom is pushing companies toward liquid cooling, because hot GPU racks are now outgrowing the limits of air-conditioned server rooms. Cooling already uses 30% to 40% of data center electricity, and GPU heat has more than doubled in 5 years, so Japan’s Fuji Electric, Nidec, Mitsubishi Heavy, and others are chasing systems that move heat through liquid instead of air. The weak point of normal air cooling is that air carries heat poorly, so the system needs a lot of fan power, large airflow paths, cold aisles, hot aisles, and big chillers to keep the room temperature under control. Liquid cooling changes the target: instead of trying to cool the whole room first, it puts a cold metal plate directly on the GPU or CPU. Cold liquid flows through tiny channels inside that plate, the chip’s heat passes into the plate, the plate passes it into the liquid, and the warmed liquid is pumped away. The big difference is heat density: a powerful AI rack can produce so much heat in such a small space that blowing more air becomes noisy, power-hungry, and physically limited. Liquid can carry much more heat through a much smaller path, so it can remove heat from AI GPUs faster, with less fan work, less room cooling, and more stable chip temperatures. The main downside is that liquid systems cost more to install, need leak-safe connectors, and must be designed into the server rack instead of added casually later.

译日本AI数据中心热潮正推动企业从传统空气冷却转向液冷技术,主要原因是AI GPU机架的散热需求激增。当前冷却已占数据中心用电量的30%至40%,且GPU发热量在5年内翻了一倍多。传统风冷因空气载热能力有限,面临噪声大、能耗高及物理空间限制。液冷技术通过将金属冷板直接贴合芯片,利用液体流道高效导热,能更高效地移除热量并提升芯片温度稳定性。其主要挑战在于安装成本较高且需专门的服务器机架设计。日本的Fuji Electric、Nidec、Mitsubishi Heavy等公司正积极开发相关系统。

歸藏(guizang.ai)@op7418 · 5月30日20

我在想藏师傅的这种东西是不是绝佳的前端训练数据可以造非常多

译我在想藏师傅的这种东西是不是绝佳的前端训练数据可以造非常多 [引用 @op7418]:http://x.com/i/article/2059811469081141248

Orange AI@oran_ge · 5月30日37

Anthropic 蒸馏中国模型这回事,我第一次听到是在线下,从投资人的嘴里听到的 那时候他们说的是 Claude 蒸馏了 Kimi 我说你确定不是 Cursor 蒸馏了 Kimi 吗? 他非常肯定地说,是 Claude 不光蒸馏了 Kimi,还蒸馏了 Qwen 现在似乎证据越来越多了 这魔幻的世界已经难辨真假 我怀疑这事儿全部的责任都在 @CuiMao

译推文转述一个传闻:有投资人声称Anthropic的Claude模型通过知识蒸馏(Distillation)使用了Kimi和Qwen的成果。作者对此表示质疑,最初怀疑是Cursor工具所为,但对方坚持是Claude的行为。推文提到目前似乎有更多证据支持这一说法,但整体语境表达了对传闻真实性的怀疑和事件本身的“魔幻”感。文中并未提供任何关于蒸馏过程、模型参数或性能提升的具体证据或数字。

Orange AI@oran_ge · 5月30日65

最近听到的最大的暴论来自经济学家 我以为我已经很暴论了,没想到… 他们能把暴论说得这么有道理: 一般来说,重大的技术革命,往往伴随着能源利用方式的剧变。 注意:互联网和移动互联网是没有的! 而 AI 直接消耗能源,新能源,旧能源以及元素周期表里的各种元素都开始纷纷暴涨受到影响。 要知道比特世界改变容易,原子世界改变很难。 这种深刻的改变预示着这是一次极为重大的技术变革。 当这个风口大到,连能源、存储、元素都跟着一起上涨。 这要么就是史上最大的泡沫, 要么就是奇点要到了。

译一位经济学家提出,历史上重大的技术革命往往伴随能源利用方式的剧变,而互联网和移动互联网并未如此。AI则不同,它直接消耗能源,导致新能源、旧能源及元素周期表中的多种元素价格暴涨。这种从比特世界深入到原子世界的深刻改变,预示着一次极为重大的技术变革。当一个风口大到足以撬动能源、存储和元素市场时,这要么是史上最大的泡沫,要么是奇点将至的信号。

Rohan Paul@rohanpaul_ai · 5月30日68

McKinsey report: AI skills are getting hotter across Europe’s job market. Nearly 1 in 5 European occupations now ask for AI-related skills, more than 3x the share seen in 2023. The fastest-growing skill is not model building, but AI fluency, which means knowing how to prompt, manage, check, and apply AI systems inside real jobs. Demand for AI fluency grew 5x, from work covering 1.9M employees in 2023 to 9.4M in 2025. Demand for technical AI skills grew only 1.7x, which means Europe needs far more AI users than AI engineers. The demand is still concentrated, with 75% coming from computer, management, and business-finance roles, but it is spreading into logistics, HR, compliance, and skilled trades.

译根据麦肯锡报告,近五分之一的欧洲职业现已要求AI相关技能,这一比例是2023年的三倍多。增长最快的技能是AI流畅度,即在实际工作中应用、提示、管理和核查AI系统的能力。该技能的需求从2023年覆盖的190万员工跃升至2025年的940万,增长了5倍。相比之下,技术性AI技能需求仅增长1.7倍,表明欧洲对AI用户的需求远大于工程师。当前75%的需求集中在计算机、管理和商业金融领域,但已开始向物流、人力资源、合规及技术工种扩散。

SemiAnalysis@SemiAnalysis_ · 5月30日60

AI Dark Output: The Visible Cost of Invisible Output Why AI's increasing output is going to be one of the hardest economic measurement problems in history. AI "Dark Output" could end up being the majority of economic activity, but a challenge to measure. https://newsletter.semianalysis.com/p/ai-dark-output-the-visible-cost-of

译AI 暗产出:隐形产出的显性成本 为什么 AI 日益增长的产出将成为史上最棘手的经济衡量难题之一。 AI“暗产出”可能最终占据经济活动的大部分,但衡量起来却是个挑战。 https://newsletter.semianalysis.com/p/ai-dark-output-the-visible-cost-of

Fei-Fei Li@drfeifei · 5月30日83

I’m very excited by this new benchmark dataset for visual generation that is suitable for the modern era of large scale generative models!🤩

译我对这个适用于大规模生成模型新时代的视觉生成基准数据集感到非常兴奋!🤩

Rohan Paul@rohanpaul_ai · 5月29日52

This is probably the most entertaining way to understand one of AI’s hardest AI debates. Transformer vs Post-Transformer, argued by leading researchers, inside a real physical boxing ring. Both technically deep and genuinely entertaining. I was glued for the entire 1 hour 20 minutes. So many super cool points to learn. 🥊 Transformers - Transformers still own the present because they work at scale. They are simple, trainable, hardware-friendly, and already power the strongest AI systems we use today. - The Transformer is basically a memory machine. It stores information as keys and values, then uses attention to pull back the most useful parts when answering. - The real Transformer advantage is not just “attention.” The bigger advantage is that it fits modern hardware extremely well, so it can process huge batches of tokens fast. - Scaling is still the brutal rule. If you give Transformers more compute, more data, and more parameters, they usually keep getting better. Any Post-Transformer architecture has to scale just as well, or better. - It is not enough to look clever on small tests, because the real question is whether it improves faster than Transformers when scaled up. - A replacement cannot be slightly better. Because the whole AI stack is already built around Transformers, the next architecture may need to be around 10x better to force everyone to switch. - Transformers are powerful, but they may be brute force. A human does not need to read the entire internet many times to become smart, but current LLMs need enormous data and compute. 🥊 Post-Transformer - Post-Transformer people are not saying Transformers are bad. They are saying Transformers may be the best current tool, not the final form of machine intelligence. - The biggest Post-Transformer target is native reasoning and continual learning. Today’s LLM reasoning often feels like text-based step-by-step work added on top, instead of thinking happening naturally inside the model. - Latent reasoning is one possible next step. That means the model reasons inside its own hidden internal space, instead of writing every thought out as words. - Continual learning is still a major weakness. Humans keep learning from experience, but most Transformer-based models are trained, frozen, and then only adapt inside the prompt. - Long context is not the same as real memory. A model can read a huge prompt, but that is different from building a life history, learning from mistakes, and updating beliefs over time. - The future may be hybrid, not a clean replacement. Transformers may stay as 1 building block while newer systems add better memory, better reasoning, and better learning loops. - The most interesting possibility is that Transformers may help discover their own successor. AI agents are already getting better at research and coding, so the next architecture may come from AI-assisted architecture search. ------- - Benchmarks are a problem. Many public benchmarks are easy to game, so they may show leaderboard strength without proving deeper intelligence. - Perplexity is still probably a great metric to evaluate frontier models,, because it tests prediction quality. --- Overall, Transformers continue to dominate, but the frontier is clearly widening. Pathway’s BDH (Dragon Hatchling — brain-inspired reasoning architecture), Sakana AI’s CTMs (Continuous Thought Machines — models that think over time), and Liquid AI’s LFMs (Liquid Foundation Models — efficient multimodal foundation models) - all of these show how the frontier is expanding. --- From “Pathway (pathway[.]com)” Youtube channel (link in comment) @zuzanna_pathway

译这是一场关于AI架构的辩论。Transformer阵营指出,其凭借简单、硬件友好、可扩展的优势主导当下,核心是基于键值存储的记忆与注意力机制,并强调任何替代架构必须能在扩展性上与之匹敌,且需达到约10倍优势才能颠覆现有技术栈。Post-Transformer阵营则认为,当前大语言模型的推理更像是后置的文本步骤,真正的突破在于实现模型内部的“潜在推理”与持续学习能力,并指出长上下文不等于真正记忆,未来可能是混合架构。辩论还提到,当前公开基准测试易被优化,而困惑度(Perplexity)仍是评估前沿模型的有效指标。最后指出,尽管Transformer仍占主导,但前沿正在拓宽,并列举了Pathway的BDH、Sakana AI的CTMs和Liquid AI的LFMs等新兴架构作为例证。

向阳乔木@vista8 · 5月29日65

强烈建议下载你的 X 所有帖子,一方面备份,万一被 X 傻逼算法误封,还有历史数据。 另一方面 Codex 或 CC 能帮你总结经验,一些自己都意识不到的方法论。 X 提供全量数据下载,只有在网页端有入口: 更多->设置和隐私->你的账号->下载你的数据的存档。 提交申请,第二天下载,过期还需要再次申请

译推文强烈建议用户下载X平台的所有帖子进行备份,以防被算法误封后丢失历史数据。同时,可利用Codex或CC(可能指Claude)等工具分析这些内容,帮助自己总结出未曾意识到的个人方法论。推文指明了操作路径:需在X网页端通过“更多->设置和隐私->你的账号->下载你的数据的存档”提交申请,通常次日可下载,且过期需重新申请。

Rohan Paul@rohanpaul_ai · 5月29日60

The problem is that agent skills are usually hand-written, made once by an LLM, or revised in loose ways that can easily make them worse. SkillOpt from Microsoft, argues that agent skills should be trained like small external programs, it teaches AI agents better task habits by editing a reusable skill document, not the model itself. The paper’s core idea is to treat the skill document like the thing being trained, while the main AI model stays frozen and unchanged. SkillOpt watches the agent try tasks, studies what worked and failed, then asks a stronger optimizer model to suggest small edits to the skill. It only accepts an edit when the new skill improves on a held-out check set, so the skill does not drift just because an edit sounds good. The authors tested this across 6 benchmarks, 7 target models, and 3 agent settings, including direct chat, Codex, and Claude Code. SkillOpt was best or tied on all 52 tested cases, and on GPT-5.5 it raised average accuracy by 23.5 points in direct chat. The final result is a small readable skill file that can improve agents across tasks and settings without retraining the model. The best part is that the optimizer is used during training, but deployment only needs the final skill file. That makes the artifact inspectable, portable, and cheap to reuse, which is exactly what most prompt-engineering systems lack. ---- Link – arxiv. org/abs/2605.23904 Title: "SkillOpt: Executive Strategy for Self-Evolving Agent Skills"

译微软提出SkillOpt方法,旨在改进AI智能体技能的优化过程。其核心思想是将一个独立的技能文档视为优化对象,而非直接修改底层大语言模型。该方法让智能体尝试任务,分析成功与失败案例,然后由一个更强的优化器模型对技能文档进行小幅编辑。编辑只会在提升验证集表现时被接受,从而确保技能的稳定改进。在6个基准测试、7个目标模型和3种智能体设置(包括直接聊天、Codex和Claude Code)的共52个测试案例中,SkillOpt均达到最佳或并列最佳。在GPT-5.5上,它将直接聊天的平均准确度提升了23.5点。最终产出的技能文件可读、可移植且可复用,部署时无需重新训练模型。

Berryxia.AI@berryxia · 5月29日75

别特么给AI拽“高级词汇”“冷门词”了!! 大家还在拼命把Prompt写得文雅、专业、结构严密,以为这样模型就会更听话、输出更准,结果正好相反。 FaceMind团队用100种语言、四大核心任务的实验直接证明:语义完全不变的前提下,用预训练语料里出现频率更高的表达方式,不管是Prompting还是Fine-tuning,模型表现都会显著提升。 这就是Adam’s Law——文本频率定律。 它把当前数据工程的“质量-规模-难度”铁三角,直接补上了缺失的第四维度:频率。 高频表达不是“简化”,而是让模型在它最熟悉的概率空间里干活,效果直接起飞。 下次写Prompt的时候,别再追求多高级、多优雅了,先问自己一句:这句话模型在训练语料里见过多少次?

译FaceMind团队用100种语言和四大核心任务实验发现,在语义不变的前提下,使用预训练语料中出现频率更高的词汇(高频表达)来撰写提示词或进行微调,可以显著提升大语言模型的表现。这被总结为Adam’s Law(文本频率定律),它为数据工程补上了“频率”这一新维度。原理在于高频表达能让模型在它最熟悉的概率空间内工作,从而优化输出质量。

ginobefun@hongming731 · 5月29日38

PostHog 真的很适合独立开发者。 上周我给 BestBlogs Pro 早报做了一轮 A/B 实验,本来只是想看不同推荐策略对阅读行为的影响,结果从埋点、路径追踪、实验分组到 AI 总结分析,PostHog 基本把产品实验需要的关键链路都串起来了。 这轮 high_engagement 组效果最明显:早报查看率、文章点击率、页面停留时长、Top 3 点击占比都优于 control。 更重要的是,它不只是告诉你哪个组更好,还能帮你把实验差异、样本偏差、下一步方案整理出来。对于一个人做产品的人来说,这种反馈速度很重要。

译PostHog 被认为很适合独立开发者。以 BestBlogs Pro 早报的 A/B 实验为例,它帮助串联了从埋点到分析的完整实验链路。结果表明,high_engagement 组在查看率、点击率、停留时长和 Top 3 点击占比等指标上均优于对照组。该工具不仅能显示优胜组,还能分析实验差异与样本偏差并提供下一步建议,其快速反馈对独自做产品的人很重要。

Berryxia.AI@berryxia · 5月29日59

http://x.com/i/article/2044264645683539968 # 「马嘉祺」和Anthropic让全网知道的技术问题,这家初创公司的CEO在洗澡的时候就解决了。 大家还在拼命把Prompt写得文雅、专业、结构严密,以为这样模型就会更听话、输出更准。结果正好相反。 从一个二次元AI弹幕产品里冒出来的FaceMind研究,直接用100种语言、四大核心任务的实验证明:语义不变的前提下,用预训练语料里出现频率更高的表达方式,不管是Prompting还是Fine-tuning,模型表现都会显著提升。 这就是Adam's Law(文本频率定律)。后面详细展开说。 它把当前数据工程的“质量-规模-难度”铁三角直接补上了缺失的第四维度——频率。 Anthropic的Claude Opus 4.7用新分词器间接验证了这一点,DeepSeek、Qwen、GPT-4o、o1这些模型在实际使用中也默默吃这一套。 高频表达不是“简化”,而是让模型在它最熟悉的概率空间里干活,效果直接起飞。 ## 在展会上遇到一个让人上头的二次元小产品 今年4月份去参加 Let‘s Vision 展会,在一堆 XR 眼镜和空间计算的展台中间,我被一个画风完全不一样的摊位吸引了,屏幕上跑着游戏,旁边飘着一层二次元角色的 AI 弹幕,角色还在根据游戏画面实时吐槽。 这个产品叫叠叠社(Danmaku Chan)。 简单说就是一个「AI 二次元伴侣」。它会以弹幕的形式悬浮在你的屏幕上层,不管你在刷网页、看视频还是打游戏,都会有一个二次元角色在旁边陪着你,根据你屏幕上的内容实时做出反应、发弹幕、跟你互动。 你可以自定义角色的性格和人设,它的回应是上下文感知的——它「看得懂」你屏幕上在发生什么。 我当时还挺好奇的,就跟摊位上的小姐姐聊了一阵。然后脸皮厚的香鱼直接坐下来玩了半小时的鬼泣。 怎么说呢,打鬼泣的时候旁边一直有个二次元角色在弹幕里给你加油助威、吐槽你被 boss 打飞、你打出连击的时候还会发「好帅!」,这种体验确实挺上头的。 AI 的反应速度和准确度也比我预想的好不少,不像是那种答非所问的套壳聊天机器人。 后来我查了一下,叠叠社背后的公司叫 FaceMind Corporation(上海脸谱心智智能科技),创始人是 Adam 博士(Hongyuan Adam Lu),港中文博士毕业,曾在微软亚洲研究院负责模型预训练,拿过 EACL Outstanding Paper Award 一作,还当过 ACL、EMNLP 这些 NLP 顶会的领域主席。 这个学术背景,做一个二次元弹幕产品? 我当时就觉得这团队有点意思。 ## 叠叠社背后的秘密:一条被忽视的语言规律 回去之后我就去查了这个团队,然后发现了一个比产品本身更有意思的东西。 叠叠社的 AI 对话之所以反应又快又准,跟一项 FaceMind 自己做的基础研究有很深的关系。 Adam 博士联合香港中文大学发了一篇论文,提出了一个叫 Adam’s Law 的发现——文本频率定律(Textual Frequency Law)。 核心观点一句话就能说清楚:语义不变的前提下,你用预训练语料里出现频率更高的那种说法,模型在 Prompting 和 Fine-tuning 上的表现就会显著提升。 这篇论文并不是第一次触碰这个问题。 其实早在 2025 年,脸谱心智就已经在顶级学术会议 EMNLP 主会上作为第一作者、第一机构发表了名为 SLoW 的先驱性论文,首次系统性揭示了大模型的低频 token 退化现象,并提出了轻量级的词典 Prompting 方案——无需额外训练,插入一个词典就能显著缓解问题。 2026 年 4 月 2 日,Adam's Law(文本频率定律)作为后续深化研究正式公开预印版,随后被顶级学术会议 ACL 2026 收录。 叠叠社在角色对话的训练和 Prompt 设计中,就应用了这套理论。同样是让 AI 角色对屏幕内容做反应,用更「常见」的表达方式去组织指令和训练数据,模型的理解力和反应质量就是比用精雕细琢的文案好。 你可以把它想象成跟一个在中国生活了二十年的外国人聊天——你用成语他可能愣半天,但换成日常口语,他立马就明白了。你说的是同一个意思,但他的反应完全不一样。 这就解释了为什么叠叠社的角色互动感觉比同类产品「灵」很多——不是模型本身更强,而是跟模型「说话」的方式更对路。 我觉得这个发现比产品本身还有意思,于是把论文翻出来完整读了一遍。 读完之后我发现,这个东西的影响范围,远不止一个二次元弹幕应用。 学术先行,工业验证——像 DiT 之于 Sora 在聊 Prompt 工程和数据工程之前,我想先说一个最近才在业界引发讨论的背景。 2026 年 5 月 9 日,一场因「马嘉祺」掀起的技术讨论,让「大模型低频 token 退化」这个学术圈早已在研究的话题,第一次被大众视野广泛关注。 但如果你去追源头,会发现这件事其实已经有了明确的先行者和跟随验证者。 脸谱心智是最早的研究者:2025 年 EMNLP 主会论文(SLoW)发现问题、提出方案; 2026 年 4 月 Adam's Law 进一步量化规律,被 ACL 2026 收录。 Anthropic 是最早的生产级验证者:2026 年 4 月下旬,Claude Opus 4.7 正式上线,官方迁移指南写明:「Claude Opus 4.7 uses a new tokenizer, contributing to its improved performance.」 业界普遍解读为 Anthropic 缩减或重组了低频退化 token——与脸谱心智的减法策略高度一致,时间比脸谱心智晚了将近一年。 这让人想到 DiT(扩散 Transformer)与 Sora 的关系,学术界率先提出架构,工业界在商业产品中完成大规模生产级验证。 脸谱心智之于 Anthropic,就是这样的关系。 ## 你精心打磨的 Prompt,模型可能根本不领情 过去两年,AI 行业在一件事上砸了天文数字的钱:让数据变得更「好」。更干净的标注,更严格的筛选,更复杂的去重管线。 Prompt 工程师们则在另一端较劲,打磨措辞、设计思维链、雕琢每一个指令的语法结构。 所有人都在追求同一件事:说得更「准确」,写得更「高级」。 但 Adam‘s Law 用横跨 100 种语言、覆盖四大核心任务的实验,证明了一件让人有点不舒服的事实:大语言模型的表现,和你说的话「对不对」关系没那么大,和你说的话「常不常见」关系大得多。 这个发现之所以让人不舒服,是因为它直接动摇了 AI 工程界几乎所有人默认的一个前提。 ## 行业正在优化的三个维度,和一个被集体忽略的。 当前大模型训练的主流思路,围绕三个核心变量旋转: 维度核心逻辑代表工作数据质量垃圾进垃圾出,高质量标注才有好模型LIMA、Alpaca数据规模越多越好,Scaling Law 说了算Chinchilla、LLaMA训练难度从易到难,课程学习提升泛化能力Curriculum Learning 这三个维度各有各的道理,也各有各的研究山头。它们构成了今天数据工程的「铁三角」。 但问题来了:如果你已经有了高质量、大规模、按难度排好序的数据,模型的表现就到顶了吗? Adam‘s Law 的回答是:远没有。 核心论点:数据工程存在被集体忽视的第四个维度:文本频率。质量、规模、难度构成的「铁三角」并不完整。 ## 「常见」不等于「简单」,这是最关键的区分。 读到这里,你很可能在想:这不就是说大白话吗?用简单的句子,降低 Flesch-Kincaid 可读性等级? 这恰恰是最容易掉进去的思维陷阱。 论文做了一个很硬的验证:他们计算了文本频率和多种传统复杂度指标之间的相关性,包括句法树深度、Flesch-Kincaid 可读性等级等。结果是,Pearson 相关系数接近 0。 换个说法:一句话可以语法复杂、用词专业,但同时是高频的,因为这种表达方式在互联网上大量出现。反过来,一句话可以很短很简单,但用了一个罕见的搭配,在模型眼里它就是「生僻」的。 回到叠叠社的例子。你给 AI 角色设定一条指令:「当用户在游戏中遭遇挫败性事件时,以富有同理心的方式进行情感支持。」这句话语法没毛病,意思很清楚,但它的表达方式在互联网上几乎不会出现。 换成「用户打游戏被打死了,安慰一下他」,意思完全一样,但这种说法模型在训练时见过无数次,理解起来毫无压力。 频率是一个独立于「难度」「质量」「长度」之外的全新维度。它描述的不是文本好不好,而是模型见过多少次。 ## 四大任务,100 种语言:数据说了什么? 理论再漂亮,得拿实验说话。Adam‘s Law 的验证覆盖面在 NLP 领域算得上少见的全面。 先看数学推理。研究团队在 GSM8K 数据集上测了三个模型,同一道数学题,同一个意思的 Prompt,只是换了一种更高频的表达方式: 题目没变,数字没变,逻辑关系没变,仅仅是换了一种说法,准确率平均涨了 8 个百分点。不是微调,不是换模型,就是改了几个词。 再看机器翻译。这组实验的规模更吓人,在 DeepSeek-V3 上测了 100 种语言到英语的翻译,99/100 种语言对在 BLEU 指标上获得提升,100/100 在 chrF 指标上全部提升,最高单语言对 BLEU 涨了超过 5 个点。在机器翻译领域,1 个 BLEU 点的提升就算有统计显著性了,5 个点是很大的跳跃。 更有意思的是频率-性能相关分析。 在老挝语、缅甸语、卡比尔语等语言上,频率和翻译质量的 Pearson 相关系数达到了 1.0——完美正相关。频率排序和翻译质量排序完全一致,频率越高翻译越好,没有例外。 常识推理和 Agent 工具调用的方向也一样,高频文本分区的表现一致地优于低频分区。三个模型,四个任务,100 种语言,箭头全都指向同一个方向。 ## 最反直觉的是:原始标注数据不是最优数据 如果前面的实验只是让人惊讶,接下来这个发现就是直接挑战信仰了。 在微调实验中,研究团队做了一件很「冒犯」的事:他们把原始标注数据(ground truth)用高频表达改写了一遍,然后用改写版数据去训练模型。 发现:高频改写版数据训练出的模型,效果超过了用原始标注数据训练的模型。在 Kabuverdianu 语言对上,改写版 BLEU 为 5.25,原始数据 BLEU 为 4.68,相对提升 +12.17%。「原始数据就是最好的数据」这个行业默认假设,被实验数据打了脸。 你想想看,每个做微调的团队,花大量时间和金钱标注数据、清洗数据、筛选数据。他们从来没有想过,把这些数据「翻译」成模型更熟悉的表达方式,效果可能更好。就像一个老师备课备了半天高级教案,结果发现,用学生最熟悉的语言讲一遍,他们学得更快。 那怎么知道哪种表达频率更高呢?尤其是面对 GPT-4、DeepSeek 这些闭源模型,你根本看不到它们的训练数据。 论文提出了一个叫 TFD(Textual Frequency Distillation,文本频率蒸馏) 的方法:让模型去续写故事。故事续写是个开放式任务,模型不会被特定提示引导,而是自然地用它最「顺手」的词汇和句式来写。 收集这些输出,统计里面不同表达的出现频率,就能反推模型内部的频率偏好。你不需要知道它读过什么书,只需要让它自由聊五分钟,从用词习惯就能猜个八九不离十。 ## 把频率变成课表:一个排序就值 30% 的提升 有了频率估算工具,下一步自然是把它塞进训练流程里。 论文提出的做法叫 CTFT(Curriculum Textual Frequency Training)—按文本的句子频率从低到高排列训练数据,让模型先学「生僻」的表达,再学「常见」的。 这借鉴了课程学习的思路,但排序的维度从「难度」换成了「频率」。 为什么是从低频到高频,而不是反过来?你可以这样理解:先让模型接触那些它不太「熟」的表达方式,强迫它建立更稳健的语义理解; 然后用高频数据收束能力,让它在最熟悉的概率空间里巩固。就像学外语,先啃生词再大量阅读日常文章,比一直泡在简单材料里进步快得多。 效果?在 Pangasinan 语言对上,CTFT 带来了 +29.96% 的 BLEU 提升。 论文实验的全部 8/8 个评估指标上,CTFT 都拿到了最优。 就改了个训练数据的排列顺序。 ## 不只是实验碰巧,背后有数学上的必然 到这里你可能会问:这是不是只是某些数据集上的巧合? 论文在附录中给了完整的理论证明。 核心逻辑是这样的:大语言模型靠最大似然估计训练,模型在预训练阶段读了海量文本,学的是词与词之间的条件概率分布。 一个表达方式在训练语料中出现越多,模型对它的概率估计就越准确,置信度就越高。你用高频表达跟它说话,等于在它最熟练的概率空间里操作,输出自然更稳、更可靠。 论文从 Zipf 定律出发,证明了高频句子在交叉熵损失函数中产生更低的负对数似然损失。翻译成人话:模型处理高频文本的时候,内部表示更精确,犯错的空间更小。 有意思的是,人脑也有类似的特性。 神经语言学研究(Desai et al., 2020; Alexandrov et al., 2011)发现,高频词汇在人类大脑中激发更强的神经响应,反应更快,理解更准。人脑如此,用海量文本喂出来的语言模型也如此。 「说模型听得懂的话」,不是修辞,是神经网络层面的物理现实。 Anthropic 的跟进,让这件事有了工业级背书 就在 Adam's Law 发表后不到一个月,一件事给这套理论加了一个意想不到的注脚。 2026 年 4 月下旬,Anthropic 发布 Claude Opus 4.7,官方迁移说明写道:「Claude Opus 4.7 uses a new tokenizer, contributing to its improved performance.」社区开发者实测发现,同样文本在新版中 token 消耗增加约 1.20–1.47 倍(英文/代码),而 CJK 字符仅增加约 1.01 倍。 业界普遍解读是:Anthropic 缩减或重组了词表,剔除了低频、容易退化的 token,与脸谱心智从 2025 年 EMNLP 开始倡导的「减法策略」方向完全一致,时间比脸谱心智晚了将近一年。 学术先行一年,工业落地验证。 就像 DiT 架构和 Sora 的关系——研究者先在论文里验证路线,商业公司用产品规模证明其价值。 ## 从一个弹幕产品到数据工程的第四维度 回过头来看叠叠社这个产品,就会觉得有意思。 一个港中文博士、微软亚研院出来的 NLP 研究者,做了一个二次元弹幕伴侣。 乍一看画风不搭,但仔细想想,这恰恰是 Adam‘s Law 最好的试验场——实时互动场景对模型的反应速度和理解准确度要求极高,你打游戏被 boss 秒了,AI 角色得在半秒内给出一句贴切的吐槽,而不是两秒后蹦出一句文不对题的客套话。 高频表达在这种场景里的优势被放到了最大:同样的安慰、吐槽、欢呼,用模型最熟悉的说法来组织,反应就是更快、更准、更有人味。 而论文的影响范围远不止于此。 如果文本频率确实是影响 LLM 表现的基础性变量,那么当前整个数据工程的工作流都需要被重新审视。 数据清洗时,要不要把低频表达替换成高频同义表达? 数据排序时,频率维度是否应该和难度维度一起考虑?Prompt 优化时,是不是应该先查一下这个表达在互联网上有多常见? 这些问题,在 Adam‘s Law 之前,几乎没人想过要问。 而当 Anthropic 用 Claude Opus 4.7 的 tokenizer 改造间接证明了这条路线的正确性,学术圈的先行探索也就有了最好的工业级注脚。 「数据质量」「数据规模」「训练难度」,这三个词你在每一篇 AI 论文的 Related Work 里都能看到。但「文本频率」?在这篇论文之前,它甚至不在大多数研究者的词汇表里。 在 Let‘s Vision 展会上玩了半小时鬼泣之后,我以为自己只是发现了一个有趣的二次元产品。结果顺藤摸瓜,摸到了一篇可能改变大模型数据工程范式的论文。 所以下次写 Prompt 的时候,别急着堆术语、秀复杂句式。 先问自己一个问题:这句话,是我想说的方式,还是模型最熟的方式? 大模型不挑你说得好不好。它只挑你说得熟悉不熟悉。 你说它熟的话,它就给你靠谱的答案。你说它没怎么见过的话,它也只能用它没什么把握的概率去猜。 跟人打交道是这样,跟模型打交道也是这样。 叠叠社:nijigen.com.cn · 论文:arxiv.org/abs/2604.02176 · 代码:GitHub

译脸谱心智(FaceMind)的研究发现,在保持语义不变的前提下,使用大模型预训练语料中出现频率更高的表达方式,能显著提升模型表现。该规律被命名为Adam’s Law(文本频率定律)。核心实验显示:在数学推理任务中,仅换用高频表述可使准确率平均提升;在机器翻译任务中,使用DeepSeek-V3测试100种语言到英语的翻译,绝大多数语言对在BLEU指标上获得提升。该研究指出现有数据工程忽视了“文本频率”这一维度。Anthropic的Claude Opus 4.7使用新分词器,被业界视为对低频token退化问题的间接验证。

Ethan Mollick@emollick · 5月29日50

How lucky are you to have been born when and where you are? Had Opus 4.8 in Claude Code whip up a new visualization of all humans who ever lived. In addition to being neat, it is an interesting test of combining research, code, design and stats for an AI. https://veil-of-history.netlify.app/

译你有多幸运,能生在现在这个时代和地方? 让Claude Code里的Opus 4.8快速制作了一个新可视化,展示了所有曾经存在过的人类。这不仅很酷,也是对AI结合研究、代码、设计和统计能力的一次有趣测试。 https://veil-of-history.netlify.app/

swyx@swyx · 5月29日45

hear me out: 2016, but nobody pays anything because data

译AI服务商 shift 推出纽约免费清洁服务。用户预约后,经过审核的 shift 操作员将佩戴设备上门清洁,用户无需付费。作为交换,清洁过程会被记录,这些关于人类执行日常任务的行为数据将用于训练机器人技术,其价值资助了免费服务。录音中的个人信息会被匿名化处理。该模式旨在让AI变革具体化,未来计划扩展至水管工、维修和跑腿等全球服务。

Rohan Paul@rohanpaul_ai · 5月29日60

In 2025, peer-reviewed journals published 147,000 citations to studies that don't exist !! Researchers went through 2.5 million papers and found citations tied to non-existent studies, authors, and journals. AI made them up. Nobody caught the problem. Now they are sitting in the scientific record for good. The scary part is not how many there are. It is how fast this is growing. In 2023, it was 1 in 2,828 papers. By early 2026, it is 1 in 277. That curve does not magically flatten. --- arxiv .org/pdf/2605.07723

译研究人员审查250万篇论文发现,2025年同行评议期刊中出现了14.7万次指向不存在研究的引用,这些虚假的研究、作者和期刊由AI生成,且未被察觉,已永久留在科学记录中。问题增长迅速:2023年每2828篇论文中约1篇含此类引用,到2026年初已升至每277篇约1篇。完整研究见arxiv论文2605.07723。

Epoch AI@EpochAIResearch · 5月29日40

We've added narrations to our long-form content on the Epoch AI website, including reports, Gradient Updates, and topic overviews. Look for the play button.

译我们已在Epoch AI网站的长篇内容中添加了旁白功能,包括报告、Gradient Updates和主题概述。 请留意播放按钮。

Epoch AI@EpochAIResearch · 5月29日68

Hyperscaler capital expenditures came in on trend in Q1 2026, continuing the trajectory that projects them spending $770 billion this year and over a trillion dollars in 2027.

译超大规模厂商的资本支出在2026年第一季度符合趋势,延续了预计今年支出7700亿美元、2027年超过一万亿美元的轨迹。

Rohan Paul@rohanpaul_ai · 5月29日81

Big release - Open Source Recursive Self Improvement from @hexoai Shows AI agent can improve both how it works and what it internally knows after seeing its own task results. i.e. by repeatedly training on its own task feedback, not by relying on a human to hand-code every strategy. Most agents today are frozen workers: you can give them better prompts, better tools, better retry rules, and better code, but the actual model usually stays the same. SIA (Self Improving AI framework) changes the outer workflow, called the harness, and also changes the model’s weights, which are the internal settings that store learned patterns. which means task feedback changes the model’s internal parameters, pushing it toward domain knowledge. The paper reports a 56.6% gain on LawBench, 91.9% runtime reduction on GPU kernels, and 502% improvement on single-cell RNA denoising over baseline.

译hexoai开源了SIA(自我改进AI)框架。该框架展示了AI智能体不仅能优化其外部工作流(harness),还能通过任务反馈直接更新自身的模型权重,从而在领域知识和能力上实现自主提升,而非仅依赖人类提供的提示或工具改进。论文报告显示,SIA在LawBench基准上性能提升56.6%,在GPU kernels运行上耗时减少91.9%,在单细胞RNA去噪任务中相比基线提升502%。

AK@_akhaliq · 5月28日48

ProRL Effective Reinforcement Learning for Proactive Recommendation via Rectified Policy Gradient Estimation

译ProRL 通过修正策略梯度估计实现主动推荐的有效强化学习

Rohan Paul@rohanpaul_ai · 5月28日71

Image diffusion Transformers train poorly because their layers pass information in a fixed, outdated way. Now they can train much faster by changing how layers share information. With this paper, the same image quality arrived with 8.75x fewer training iterations. The surprise is not that Diffusion Transformers had an inefficiency, but where it was hiding. Researchers have spent years refining attention, conditioning, tokenization, objectives, and autoencoders, while leaving the residual stream mostly untouched because it looked like plumbing rather than intelligence. In a standard residual stack, every layer keeps adding its output to the running stream, which sounds harmless until the stream’s magnitude swells, gradients fade backward, and neighboring blocks begin saying nearly the same thing. That is bad for any Transformer, but it is especially awkward for diffusion, because denoising is not one fixed task repeated at every step. The authors found 3 signs that this old setup hurts the model: signals get too large going forward, learning signals fade going backward, and nearby blocks often produce almost the same features. Their fix is Diffusion-Adaptive Routing, a replacement that lets each layer choose which earlier layer outputs to use, and the choice changes with the denoising timestep. The big deal is that the paper does not add a new image dataset, loss, tokenizer, or attention trick, but instead questions the old residual connection that most models kept copying from language Transformers. ---- Link – arxiv. org/abs/2605.20708 Title: "Rethinking Cross-Layer Information Routing in Diffusion Transformers"

译传统Diffusion Transformers因层间信息传递方式固化导致训练效率低下。研究团队提出Diffusion-Adaptive Routing方法,允许每层动态选择使用哪些早期层的输出,且该选择随去噪时间步调整。该方法未引入新的数据集、损失函数或注意力机制,仅通过优化残差连接,使得相同图像质量所需的训练迭代次数减少8.75倍。

Ethan Mollick@emollick · 5月28日55

There is a lot being written about the stylistic tells of AI writing (em-dashes, etc.) but this paper looks at AI narrative tells Fascinating differences between AI & human narrative, and asking AI to write in different styles doesn't do much to change it https://arxiv.org/abs/2604.03136

译关于AI写作的风格特征(如破折号等)已有大量讨论,但这篇论文关注的是AI叙事特征 AI与人类叙事之间存在引人入胜的差异,要求AI以不同风格写作并不能显著改变这一点 https://arxiv.org/abs/2604.03136

meng shao@shao__meng · 5月28日60

AI 应用层还没死,但要避开「Yellow Brick Road」! @joeschmidtiv (a16z) 这篇文章指出:AI 应用层仍有巨大机会,但机会不在模型实验室正在全力押注的「通用智能体」路径上,而在垂直、复杂、系统级的「工作流深处」。 创始人、求职者普遍焦虑:OpenAI、Anthropic 会不会把应用层全部吃掉? Schmidt 认为这种焦虑「对了一半」: · 对的部分:实验室确实会吞掉大量横向、通用、低复杂度的应用表面 · 错的部分:「应用层」不是铁板一块,不能一概而论 他用《绿野仙踪》做比喻: · 黄砖路(Yellow Brick Road) = 实验室正在走的路 · Oz 的其他地方 = 创业公司该去的地方 什么是「黄砖路」?为什么危险? 黄砖路指:拿最强模型 + 现成连接器(Slack、Salesforce、GitHub 等)+ 简单 Agent 编排 → 做一个通用 AI 同事。 问题在于,这正是 Cowork、Codex、Claude Code 在做的事。 如果你做的是同样的连接器、同样的浅层编排、没有子 Agent 和深度配置、也没有分发——你是在跟实验室正面竞争,大概率是死路。 黄砖路上的问题(代码生成、写作、图像等)有一个共同特征:产品质量随模型 raw capability 线性提升,每多投一美元预训练/后训练,产品就更好。这类问题天然适合实验室。 「Oz 其他地方」的机会在哪里? 机会在复杂、垂直、多步骤、多角色的问题上,价值不只来自模型能力,更来自让输出可信、合规、可运营的一整套脚手架。 典型特征: · 跨系统 Gather context,再经多个人类审批节点 · 涉及 legacy 系统 · 需要确定性结果,不能容忍模糊 · 与真实商业结果绑定(成交、核保、合规审查) 实验室自己也承认搞不定全部——所以才会砸重金做 forward-deployed joint ventures(派驻式联合项目),帮企业定制配置。如果「下一个模型版本就能解决」,他们不会投这笔钱。 为什么实验室最终也「吞不掉」Oz 其他地方? 1. 数据与学习飞轮 · 大量行业知识不在训练集里:未写下的规范、潜规则、从业者脑中的经验 · 两层飞轮: · 跨客户:同类问题的模式识别 · 单客户:该机构特有的例外与决策逻辑 · 横向工具难以设计合适的 UX 来捕获这些知识;垂直玩家可以围绕工作流定制界面 2. 模型变异性管理 · 实验室只能推自家模型;应用公司可以跨厂商选模型——不同子任务用最合适的(开源微调、竞品 API 等) · 还替客户做脏活:每次模型升级重跑 eval、针对 edge case 重调 prompt、平滑迁移 · 客户得到的是「全市场最优智能 + 升级连续性」,而非「请自行迁移到我们的新模型」 3. 成本优化 · 全走 Opus 4.7 = 负毛利 · 垂直公司按子任务路由:前沿模型做难题、中端做 bulk、自研/微调小模型做窄任务 · 实验室定的是「$X 能买到的最低智能」;应用公司卖的是「完成该工作流所需的最低 dollar cost」 4. 治理(Governance) · 成为客户在该垂直领域跑 AI 的控制平面:权限、审计、agent 能做什么、实际做了什么 · 吸收监管复杂度(HIPAA、SEC/FINRA、律师协会规则等) · 横向玩家无法同时成为「一百个垂直领域」的合规伙伴 核心 trade-off:实验室必须 everywhere for everyone → 无法 great at one thing。 三个自检框架:你在不在「Oz 其他地方」? 测试 | 黄砖路(危险)| Oz 其他地方(机会) · 工具与步骤测试 | 一步、一个工具、结果可容错(如搜 Google Drive) | 多步、多工具、输出需过 partner/法庭/监管 · 系统 vs 工具测试 | 客户已有工作流上的「智能插件」;实验室出竞品客户可换掉你 | 客户通过你的系统跑工作;你是 orchestration layer · 对冲基金/P&L 测试 | 客户为 generic capability 付费(Claude seat 可替代)| 客户为 workflow-specific outcome 付费(成交、核保、合规) 最终判断:两条路都会出大赢家 · 黄砖路:实验室赢——拥有模型 + 横向工具的分发 · Oz 其他地方:应用公司赢——若拥有 system of work(工作执行面、数据捕获、治理) 模型层是可替换的(fungible);工作系统不可替代。 新一代 enterprise software 会建在路上之外——应用公司成为整合并交付各类新模型的层,而客户依赖的是那套系统。

译a16z 合伙人指出,AI应用层仍有巨大机会,但机会不在模型实验室押注的“黄砖路”上。这条路径指用最强模型加简单编排做通用AI工具,与实验室正面竞争胜算极低。真正的机会在“Oz的其他地方”——复杂、垂直、多步骤的工作流。其价值不仅来自模型,更来自确保输出可信、合规、可运营的系统脚手架。应用公司相比实验室的优势在于:能构建专属的数据学习飞轮、跨模型管理与优化成本,并吸收监管复杂度。核心结论:模型层可替换,但深度集成的工作系统不可替代。

SemiAnalysis@SemiAnalysis_ · 5月28日55

GPUs are leaving performance on the table. Closing the gap between theoretical peak and real-world throughput is nearly impossible when hand-tuning CUDA kernels at scale. So why are hand-written CUDA kernels losing to auto-generated ones? Mohamed Abdelfattah at Makora has a solution: https://youtu.be/ukzACWrk0W0?si=whrH_WsHltmF_J7B

译GPU性能仍有提升空间。 在大规模手动调整CUDA内核时,几乎不可能弥合理论峰值与实际吞吐量之间的差距。 那么,为什么手写CUDA内核会输给自动生成的版本? Makora的Mohamed Abdelfattah有一个解决方案:https://youtu.be/ukzACWrk0W0?si=whrH_WsHltmF_J7B

Emad@EMostaque · 5月28日59

Train with autoregression & convert weights to diffusion for inference.

译训练时使用自回归,推理时将权重转换为扩散模型。

Nathan Lambert@natolambert · 5月28日51

The most likely way continual learning manifests in the coming few years is through products used directly for knowledge work. Sort of how cursor can continually train their models with real-world data and RL, Claude, Copilot, and co will see if they can for knowledge work. I was chatting with Ronak a few weeks ago when this was crystalizing for me, so it's fun to see a startup in that area.

译创业公司Trajectory宣布成立,并获得Conviction、Bessemer、Radical Ventures、Jeff Dean及李飞飞等投资的1500万美元融资。该公司旨在构建持续学习平台,利用产品使用数据中的信号,帮助企业对大规模智能体模型进行持续后训练,使其性能超越前沿模型。目前,Trajectory已与Harvey、Decagon AI、Mercor、Rogo AI等AI原生公司建立合作,部分已进入生产环境。团队成员来自DeepMind、OpenAI、Apple、Meta Superintelligence等顶级机构。其理念是AI产品将通过每一次用户交互(如修正、重试、编辑)持续变得更智能。

Berryxia.AI@berryxia · 5月27日55

Minmax 最近沉寂了挺久~ 昨天看到应该是M3蓄势待发了 刚刚留意到MiniMax AI的动态。 他们六个月前在12月23日开源了M2模型。 这半年里,社区把他们的几个核心系统直接拿去用了:CISPO(裁剪重要性采样权重策略优化)、Forge RL System(锻造强化学习系统),还有Self-Evolution(自我进化)。 几乎每一版模型上线,都冲上Hugging Face榜首。 现在他们把M2背后的所有工作系统性整理成论文,挂到了arXiv上。 不是简单发个权重,而是把当时的设计思路、训练细节、系统架构全摊开。 这步其实挺关键。 开源社区最缺的往往不是新模型,而是能看懂为什么它能跑通的完整路径。 MiniMax Head of DevRel Ryan Lee在帖子里说,现在是时候翻开新的一章。 M3已经在路上了,MSA论文也快发布。 他们没有停在刷榜,而是把过去半年踩过的坑、验证过的方案沉淀下来,让后来人少走弯路。 这才是真正推动开源生态往前滚的做法。 兄弟们, 你们觉得开源大模型的下一阶段,是继续卷参数和榜单,还是像MiniMax这样把系统和方法论也彻底公开? M3如果把这些积累再往前推一步,你们最期待它在哪个方向有突破?

译MiniMax 在开源 M2 模型半年后,系统性发布了其背后所有工作的论文,详细阐述了设计思路、训练细节与系统架构。此前,其开源系统 CISPO、Forge RL System 和 Self-Evolution 已被社区广泛采用,且多版模型发布后曾登顶 HuggingFace 排行榜。与此同时,MiniMax 官方宣布已为下一代模型 M3 做好准备,并且 MSA 论文也即将发布。

Rohan Paul@rohanpaul_ai · 5月27日64

Micron, the memory-maker for AI, just became a $1T company because AI’s next shortage is memory, not models. 12 months ago, it was worth just $70 billion. GPUs get most of the attention, but HBM has become the part that keeps them useful. AI agents are making memory the new bottleneck of AI, because the smartest systems are useless when data cannot reach the chips fast enough. High-bandwidth memory, or HBM, sits close to the accelerator and feeds it data at extreme speed, which is why it has become one of the quiet constraints behind AI growth. The old semiconductor story was about who had the best logic chip. The new one is about whether the whole machine can keep its data flowing fast enough for agentic AI, large models, and inference-heavy workloads. UBS research also raised Micron’s target from $535 to $1,625 because long-term supply deals with partly fixed pricing could make memory earnings less cyclical than before. --- cnbc. com/amp/2026/05/26/micron-stock-trillion-market-cap.html

译美光市值已突破1万亿美元,一年前其市值还仅为700亿美元。这一飞跃的核心驱动力是AI发展对高带宽内存(HBM)的迫切需求。尽管GPU备受关注,但HBM已成为确保GPU持续高效工作的关键部件。随着AI智能体的兴起,无法快速将数据送达芯片已成为新的系统瓶颈,使得内存成为AI增长背后的关键约束。行业的焦点正从单一的逻辑芯片性能,转向整体数据流能否跟上AI推理和智能体工作负载的需求。此外,瑞银将其目标价从535美元大幅上调至1625美元,认为其长期供应协议可能平滑盈利的周期性波动。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月1日
22:39
Chubby♨️@kimmonismus
68
HydraDB:解决AI智能体跨会话记忆的图原生基础设施

该推文指出AI领域过度关注上下文窗口大小,而真正的核心问题——AI智能体跨会话记忆缺失——却被忽视。HydraDB 获得 $6.5M 融资,旨在构建一个图原生的上下文基础设施,专为智能体提供持久化会话、可累积知识与行为可观测性。其核心是将内存、NVMe 和对象存储组合为单一的图层,目标实现比现有方案快、成本降低 1000 倍、且高精确度的上下文交付,为智能体赋予“大脑”。

Nishkarsh: Introducing HydraDB. The graph native context infrastructure for agents. Purpose built to deliver precise context & obse...

智能体产品更新数据/训练
22:39
Rohan Paul@rohanpaul_ai
60
更好的AI智能体系统通过记住有用的反馈来扩展,而非消耗更多算力

当前AI智能体的扩展方法常错误地将计算资源消耗等同于学习证据。新研究指出,两次运行消耗相同预算,但反馈的有效性可能天差地别。为此,研究提出了“有效反馈计算”(EFC)指标,仅统计那些正确、新颖、相关且被记住、并能改变后续决策的反馈。研究还结合任务需求对EFC进行归一化。实验表明,任务归一化的EFC比原始计算指标更能预测失败。在一项匹配预算测试中,采用更好反馈的方法将任务成功率从0.27提升至0.90,而成本和工具调用次数保持不变。 链接:arxiv.org/abs/2605.29682 标题:"Scaling Laws for Agent Harnesses via Effective Feedback Compute"

智能体arXiv数据/训练论文/研究
21:12
OpenBMB@OpenBMB
同事件精选78
OpenBMB发布UltraData两大开源数据集,登顶HuggingFace趋势榜

OpenBMB联合清华NLP与Modelbest发布两个开源数据集:Ultra-FineWeb-L3(预训练合成数据)包含600B+ tokens(超400B英文、200B+中文),是迄今最大开源中文预训练合成数据集;UltraData-SFT-2605(后训练SFT数据)包含15M+样本,是中国首个开源且包含思考与非思考标注的大规模SFT数据集,覆盖数学、代码、知识和指令遵循。两者均基于UltraData L0-L4框架构建,并在MiniCPM5-1B训练中完成验证。数据集已在HuggingFace免费开放。

Hugging Face开源/仓库数据/训练
同一事件,精选展示《面壁智能联合清华、OpenBMB开源最大中文预训练合成数据集及千万级SFT数据集,公开MiniCPM5-1B核心数据》
推荐理由:面壁开源了两个王炸数据集,预训练的 600B+ token 中文合成数据史上最大,SFT 那边 1500 万条带思考链的指令更是头一回见,做中文基础模型的可以无脑下载了。
16:38
Rohan Paul@rohanpaul_ai
73
黄仁勋今天在NVIDIA GTC台北2026上谈论了Vera Rubin。
产品更新数据/训练
09:03
Rohan Paul@rohanpaul_ai
65
一项研究揭示,科技巨头的巨额薪酬正将顶尖AI研究人员从高校吸引走。 工业界前1%的AI科学家现在年薪约200万美元。 转投这些私营公司的研究人员不再发表公开论文,而是提交多530%的专利以保密其工作。 这项研究追踪了42,000名AI研究人员。
大佬观点数据/训练现象/趋势
08:33
Rohan Paul@rohanpaul_ai
64
学生完成AI友好型数学题更快,但学到的似乎更少

研究分析了跨越10年的320万条ALEKS数学学习记录,发现自ChatGPT可用后,学生完成“AI友好”数学题(如单词题)的速度显著变快,但这并非意味着学得更好。研究指出,数学练习通过选择方法、试错和修正的过程构建知识,而当AI直接提供路径时,学生可能跳过了这个关键心智过程。关键证据是,在有监考的测试中,学生答对这类AI友好题目的可能性下降了约25%,表明更快的完成速度是以牺牲知识保留为代价的。论文链接:arxiv.org/abs/2605.21629。

教程/实践数据/训练
05:53
Rohan Paul@rohanpaul_ai
45
效率增益错觉:人们低估AI使用率并高估其在简单任务上的收益

MIT、斯坦福等高校联合研究发现,人们普遍存在“效率增益错觉”,即高估AI在简单任务(如算术、拼写)上带来的效率提升。在包含2691名参与者的三项研究中,人们实际使用AI完成这些简单任务的频率高于其自我预期。参与者预期AI平均能节省55.7秒,但实测仅节省了7.5秒。研究指出,使用AI存在界面摩擦(如编写提示词、等待、核对)等隐形成本,并会引发“自我证成”循环:一旦开始使用,即使独立完成更快,人们也可能因惯性而继续依赖AI,从而悄然低估自身的独立判断力。

数据/训练论文/研究
03:53
Rohan Paul@rohanpaul_ai
72
黄仁勋看好Anthropic token市场将大幅扩张

Jensen Huang认为Dario Amodei预测的2030年AI收入达$1T的预期过于保守。他指出,Anthropic的token将成为众多企业软件公司的增值服务,其市场将因此实现对数级扩张。有观点补充认为,当各实验室的模型能力趋同时,真正的优势可能源于独特的私有数据输入。这类数据(如特殊工作流、医疗记录等)能为AI系统带来难以复制的差异化和提升,未来或成为并购的关键标的。

Rohan Paul: Chamath: AI advantage may come less from models than from private inputs. "When labs can build similar models, the real ...

Anthropic大佬观点数据/训练
5月31日
23:49
Rohan Paul@rohanpaul_ai
64
Chamath:AI优势可能更多来自私有数据而非模型

Chamath认为,当各大实验室能构建相似模型时,真正的竞争优势将来自独特的“私有数据输入”。他以厨师比喻:若给三位厨师相同食材,其中一位若多一味独特食材,便能做出非凡菜品。当前大家都依赖公开网络数据,但未来数据所有者可能将独家数据用于训练自己的模型,从而建立优势。这将引发一场围绕私有数据的“军备竞赛”,并可能改变大型科技公司的收购逻辑——未来的并购可能旨在获取能提升其大语言模型性能的独特数据流,而非仅仅购买收入或品牌。

大佬观点数据/训练现象/趋势
08:45
meng shao@shao__meng
46
如何从 PDF 构建金融知识图谱?

LandingAI 黑客松项目「ArthaNethra」展示了从 PDF 到金融知识图谱的流程:上传后通过 ADE 提取为结构化 Markdown,超过 15MB 的文档异步处理。提取后按文档类型路由归一化:发票/贷款/合同采用确定性解析(无 LLM);10-K/MD&A 使用 Claude Haiku 结合正则。实体和关系分别存入 Weaviate 和 Neo4j(500 词分块,100 词重叠,all-mpnet-base-v2 向量化),图谱包含 10 类实体和 26 种规范关系,并通过别名映射进行同义词归一化。最后结合规则与 LLM 进行风险检测。

LandingAI: http://x.com/i/article/2060438013273108480

检索增强教程/实践数据/训练
07:45
ginobefun@hongming731
15
我们刚刚发布了Claude 4.7 Sonnet和Claude Opus 4。
大佬观点数据/训练
04:17
Rohan Paul@rohanpaul_ai
76
软银在法国投资750亿欧元建设欧洲最大AI算力设施

软银宣布在法国投资750亿欧元,旨在打造欧洲规模最大的AI算力设施。该计划旨在利用当地稳定廉价的核电。项目分阶段推进,第一阶段投资450亿欧元,目标是到2031年在法国北部-加来海峡大区建成3.1GW容量,随后再增加2GW,最终形成5GW的AI综合体。敦刻尔克是核心选址,施耐德电气预计参与建设AI基础设施及机器人制造中心。融资是潜在挑战,行业估算显示1GW的AI基础设施成本约为500亿美元,因此软银可能需要依赖大量项目债务和外部合作伙伴。

数据/训练行业动态部署/工程
5月30日
15:46
Rohan Paul@rohanpaul_ai
47
日本AI数据中心热潮正推动液冷技术普及

日本AI数据中心热潮正推动企业从传统空气冷却转向液冷技术,主要原因是AI GPU机架的散热需求激增。当前冷却已占数据中心用电量的30%至40%,且GPU发热量在5年内翻了一倍多。传统风冷因空气载热能力有限,面临噪声大、能耗高及物理空间限制。液冷技术通过将金属冷板直接贴合芯片,利用液体流道高效导热,能更高效地移除热量并提升芯片温度稳定性。其主要挑战在于安装成本较高且需专门的服务器机架设计。日本的Fuji Electric、Nidec、Mitsubishi Heavy等公司正积极开发相关系统。

数据/训练现象/趋势部署/工程
12:42
歸藏(guizang.ai)@op7418
20
我在想藏师傅的这种东西是不是绝佳的前端训练数据可以造非常多 【引用 @op7418】:http://x.com/i/article/2059811469081141248

歸藏(guizang.ai): http://x.com/i/article/2059811469081141248

大佬观点数据/训练
09:01
Orange AI@oran_ge
37
Anthropic被指蒸馏Kimi与Qwen,传闻魔幻难辨真假

推文转述一个传闻:有投资人声称Anthropic的Claude模型通过知识蒸馏(Distillation)使用了Kimi和Qwen的成果。作者对此表示质疑,最初怀疑是Cursor工具所为,但对方坚持是Claude的行为。推文提到目前似乎有更多证据支持这一说法,但整体语境表达了对传闻真实性的怀疑和事件本身的“魔幻”感。文中并未提供任何关于蒸馏过程、模型参数或性能提升的具体证据或数字。

Anthropic数据/训练行业动态
07:31
Orange AI@oran_ge
65
AI能源风暴:是泡沫还是奇点?

一位经济学家提出,历史上重大的技术革命往往伴随能源利用方式的剧变,而互联网和移动互联网并未如此。AI则不同,它直接消耗能源,导致新能源、旧能源及元素周期表中的多种元素价格暴涨。这种从比特世界深入到原子世界的深刻改变,预示着一次极为重大的技术变革。当一个风口大到足以撬动能源、存储和元素市场时,这要么是史上最大的泡沫,要么是奇点将至的信号。

数据/训练现象/趋势
06:16
Rohan Paul@rohanpaul_ai
68
麦肯锡报告:AI技能在欧洲就业市场持续升温

根据麦肯锡报告,近五分之一的欧洲职业现已要求AI相关技能,这一比例是2023年的三倍多。增长最快的技能是AI流畅度,即在实际工作中应用、提示、管理和核查AI系统的能力。该技能的需求从2023年覆盖的190万员工跃升至2025年的940万,增长了5倍。相比之下,技术性AI技能需求仅增长1.7倍,表明欧洲对AI用户的需求远大于工程师。当前75%的需求集中在计算机、管理和商业金融领域,但已开始向物流、人力资源、合规及技术工种扩散。

McKinsey Global Institute: Demand for AI-related skills is growing across the European workforce. MGI research shows the share of occupations requi...

数据/训练行业动态
04:48
SemiAnalysis@SemiAnalysis_
60
AI 暗产出:隐形产出的显性成本 为什么 AI 日益增长的产出将成为史上最棘手的经济衡量难题之一。 AI"暗产出"可能最终占据经济活动的大部分,但衡量起来却是个挑战。 https://newsletter.semianalysis.com/p/ai-dark-output-the-visible-cost-of
数据/训练现象/趋势
01:14
Fei-Fei Li@drfeifei
精选83
我对这个适用于大规模生成模型新时代的视觉生成基准数据集感到非常兴奋!🤩

Keshigeyan Chandrasegaran: 1/ Introducing GPIC: a Giant Permissive Image Corpus and benchmark for visual generation! 🚀100M VLM-captioned image-tex...

Hugging Face图像生成数据/训练论文/研究

推荐理由:李飞飞都来站台,这个数据集不简单。完全允许商业用途是关键,对做视觉生成的团队来说,终于有了一个不用再为版权头疼的超级训练库。
5月29日
22:15
Rohan Paul@rohanpaul_ai
52
在真实拳击场辩论:Transformer 架构与后继者的未来

这是一场关于AI架构的辩论。Transformer阵营指出,其凭借简单、硬件友好、可扩展的优势主导当下,核心是基于键值存储的记忆与注意力机制,并强调任何替代架构必须能在扩展性上与之匹敌,且需达到约10倍优势才能颠覆现有技术栈。Post-Transformer阵营则认为,当前大语言模型的推理更像是后置的文本步骤,真正的突破在于实现模型内部的“潜在推理”与持续学习能力,并指出长上下文不等于真正记忆,未来可能是混合架构。辩论还提到,当前公开基准测试易被优化,而困惑度(Perplexity)仍是评估前沿模型的有效指标。最后指出,尽管Transformer仍占主导,但前沿正在拓宽,并列举了Pathway的BDH、Sakana AI的CTMs和Liquid AI的LFMs等新兴架构作为例证。

推理数据/训练现象/趋势
18:10
向阳乔木@vista8
65
建议备份X帖子并借助AI总结经验

推文强烈建议用户下载X平台的所有帖子进行备份,以防被算法误封后丢失历史数据。同时,可利用Codex或CC(可能指Claude)等工具分析这些内容,帮助自己总结出未曾意识到的个人方法论。推文指明了操作路径:需在X网页端通过“更多->设置和隐私->你的账号->下载你的数据的存档”提交申请,通常次日可下载,且过期需重新申请。

教程/实践数据/训练
17:15
Rohan Paul@rohanpaul_ai
60
SkillOpt:实现智能体技能自我进化的执行策略

微软提出SkillOpt方法,旨在改进AI智能体技能的优化过程。其核心思想是将一个独立的技能文档视为优化对象,而非直接修改底层大语言模型。该方法让智能体尝试任务,分析成功与失败案例,然后由一个更强的优化器模型对技能文档进行小幅编辑。编辑只会在提升验证集表现时被接受,从而确保技能的稳定改进。在6个基准测试、7个目标模型和3种智能体设置(包括直接聊天、Codex和Claude Code)的共52个测试案例中,SkillOpt均达到最佳或并列最佳。在GPT-5.5上,它将直接聊天的平均准确度提升了23.5点。最终产出的技能文件可读、可移植且可复用,部署时无需重新训练模型。

智能体Microsoft数据/训练论文/研究
12:34
Berryxia.AI@berryxia
精选75
Adam's Law:用高频词写Prompt效果更好

FaceMind团队用100种语言和四大核心任务实验发现,在语义不变的前提下,使用预训练语料中出现频率更高的词汇(高频表达)来撰写提示词或进行微调,可以显著提升大语言模型的表现。这被总结为Adam’s Law(文本频率定律),它为数据工程补上了“频率”这一新维度。原理在于高频表达能让模型在它最熟悉的概率空间内工作,从而优化输出质量。

Berryxia.AI: http://x.com/i/article/2044264645683539968

教程/实践数据/训练

推荐理由:别再给AI拽高级词汇了,FaceMind团队用实验证明,高频表达能让模型表现更好。这个发现简单反直觉,但能立刻改变你写Prompt的习惯,下次先想想这话模型见过几次。
11:42
ginobefun@hongming731
38
PostHog 真的很适合独立开发者

PostHog 被认为很适合独立开发者。以 BestBlogs Pro 早报的 A/B 实验为例,它帮助串联了从埋点到分析的完整实验链路。结果表明,high_engagement 组在查看率、点击率、停留时长和 Top 3 点击占比等指标上均优于对照组。该工具不仅能显示优胜组,还能分析实验差异与样本偏差并提供下一步建议,其快速反馈对独自做产品的人很重要。

教程/实践数据/训练
11:34
Berryxia.AI@berryxia
59
文本频率定律的发现与验证

脸谱心智(FaceMind)的研究发现,在保持语义不变的前提下,使用大模型预训练语料中出现频率更高的表达方式,能显著提升模型表现。该规律被命名为Adam’s Law(文本频率定律)。核心实验显示:在数学推理任务中,仅换用高频表述可使准确率平均提升;在机器翻译任务中,使用DeepSeek-V3测试100种语言到英语的翻译,绝大多数语言对在BLEU指标上获得提升。该研究指出现有数据工程忽视了“文本频率”这一维度。Anthropic的Claude Opus 4.7使用新分词器,被业界视为对低频token退化问题的间接验证。

AnthropicDeepSeek数据/训练论文/研究
09:12
Ethan Mollick@emollick
50
你有多幸运,能生在现在这个时代和地方? 让Claude Code里的Opus 4.8快速制作了一个新可视化,展示了所有曾经存在过的人类。这不仅很酷,也是对AI结合研究、代码、设计和统计能力的一次有趣测试。 https://veil-of-history.netlify.app/
Anthropic教程/实践数据/训练编码
08:38
swyx@swyx
45
AI服务商 shift 推出纽约免费清洁服务。用户预约后,经过审核的 shift 操作员将佩戴设备上门清洁,用户无需付费。作为交换,清洁过程会被记录,这些关于人类执行日常任务的行为数据将用于训练机器人技术,其价值资助了免费服务。录音中的个人信息会被匿名化处理。该模式旨在让AI变革具体化,未来计划扩展至水管工、维修和跑腿等全球服务。

shift: Today, we're launching shift. We're starting by cleaning your apartment in New York City, for free. Here's how it works....

产品更新具身智能数据/训练
06:14
Rohan Paul@rohanpaul_ai
60
学术论文现14.7万次虚假引用,AI生成问题激增

研究人员审查250万篇论文发现,2025年同行评议期刊中出现了14.7万次指向不存在研究的引用,这些虚假的研究、作者和期刊由AI生成,且未被察觉,已永久留在科学记录中。问题增长迅速:2023年每2828篇论文中约1篇含此类引用,到2026年初已升至每277篇约1篇。完整研究见arxiv论文2605.07723。

arXiv数据/训练现象/趋势
04:36
Epoch AI@EpochAIResearch
40
我们已在Epoch AI网站的长篇内容中添加了旁白功能,包括报告、Gradient Updates和主题概述。 请留意播放按钮。
产品更新数据/训练
03:36
Epoch AI@EpochAIResearch
68
超大规模厂商的资本支出在2026年第一季度符合趋势,延续了预计今年支出7700亿美元、2027年超过一万亿美元的轨迹。

Epoch AI: Driven by investments in AI, hyperscaler capital expenditures have grown 70% per year since the release of GPT-4, nearin...

数据/训练行业动态部署/工程
02:44
Rohan Paul@rohanpaul_ai
精选81
hexoai开源SIA框架:AI智能体实现递归自我改进

hexoai开源了SIA(自我改进AI)框架。该框架展示了AI智能体不仅能优化其外部工作流(harness),还能通过任务反馈直接更新自身的模型权重,从而在领域知识和能力上实现自主提升,而非仅依赖人类提供的提示或工具改进。论文报告显示,SIA在LawBench基准上性能提升56.6%,在GPU kernels运行上耗时减少91.9%,在单细胞RNA去噪任务中相比基线提升502%。

Kunal Bhatia: Superintelligence will be built on Self Improvement. Today @hexoai, we're excited to release 'SIA' - an open-source Self...

智能体数据/训练论文/研究

推荐理由:不再只是给AI换提示词,SIA框架连模型自己的权重都更新了,在三个任务里分别提升了56%、502%和91%加速,开源出来会让整个Agent开发范式重新思考。
5月28日
23:43
AK@_akhaliq
48
ProRL 通过修正策略梯度估计实现主动推荐的有效强化学习
数据/训练论文/研究
19:11
Rohan Paul@rohanpaul_ai
71
Diffusion Transformers训练提速8.75倍:革新残差连接机制

传统Diffusion Transformers因层间信息传递方式固化导致训练效率低下。研究团队提出Diffusion-Adaptive Routing方法,允许每层动态选择使用哪些早期层的输出,且该选择随去噪时间步调整。该方法未引入新的数据集、损失函数或注意力机制,仅通过优化残差连接,使得相同图像质量所需的训练迭代次数减少8.75倍。

arXiv图像生成数据/训练论文/研究
12:36
Ethan Mollick@emollick
55
关于AI写作的风格特征(如破折号等)已有大量讨论,但这篇论文关注的是AI叙事特征 AI与人类叙事之间存在引人入胜的差异,要求AI以不同风格写作并不能显著改变这一点 https://arxiv.org/abs/2604.03136
arXiv数据/训练论文/研究
08:32
meng shao@shao__meng
60
AI应用层的机会不在「通用智能体」,而在「工作流深处」

a16z 合伙人指出,AI应用层仍有巨大机会,但机会不在模型实验室押注的“黄砖路”上。这条路径指用最强模型加简单编排做通用AI工具,与实验室正面竞争胜算极低。真正的机会在“Oz的其他地方”——复杂、垂直、多步骤的工作流。其价值不仅来自模型,更来自确保输出可信、合规、可运营的系统脚手架。应用公司相比实验室的优势在于:能构建专属的数据学习飞轮、跨模型管理与优化成本,并吸收监管复杂度。核心结论:模型层可替换,但深度集成的工作系统不可替代。

Joe Schmidt IV: http://x.com/i/article/2059491657683443712

智能体大佬观点数据/训练
07:09
SemiAnalysis@SemiAnalysis_
55
GPU性能仍有提升空间。 在大规模手动调整CUDA内核时,几乎不可能弥合理论峰值与实际吞吐量之间的差距。 那么,为什么手写CUDA内核会输给自动生成的版本? Makora的Mohamed Abdelfattah有一个解决方案:https://youtu.be/ukzACWrk0W0?si=whrH_WsHltmF_J7B
教程/实践数据/训练部署/工程
05:27
Emad@EMostaque
59
训练时使用自回归,推理时将权重转换为扩散模型。

David: Most researchers agree that autoregression is best when memory bandwidth is cheap and diffusion is best when FLOPS are c...

大佬观点开源生态数据/训练
00:59
Nathan Lambert@natolambert
51
创业公司Trajectory宣布成立,并获得Conviction、Bessemer、Radical Ventures、Jeff Dean及李飞飞等投资的1500万美元融资。该公司旨在构建持续学习平台,利用产品使用数据中的信号,帮助企业对大规模智能体模型进行持续后训练,使其性能超越前沿模型。目前,Trajectory已与Harvey、Decagon AI、Mercor、Rogo AI等AI原生公司建立合作,部分已进入生产环境。团队成员来自DeepMind、OpenAI、Apple、Meta Superintelligence等顶级机构。其理念是AI产品将通过每一次用户交互(如修正、重试、编辑)持续变得更智能。

Ronak Malde: Today, @MichaelElabd, @QuantumArjun, and I are excited to announce Trajectory. We are a research lab and product company...

智能体数据/训练行业动态
5月27日
20:27
Berryxia.AI@berryxia
55
MiniMax 发布 M2 论文,预告 M3 与 MSA 研究即将发布

MiniMax 在开源 M2 模型半年后,系统性发布了其背后所有工作的论文,详细阐述了设计思路、训练细节与系统架构。此前,其开源系统 CISPO、Forge RL System 和 Self-Evolution 已被社区广泛采用,且多版模型发布后曾登顶 HuggingFace 排行榜。与此同时,MiniMax 官方宣布已为下一代模型 M3 做好准备,并且 MSA 论文也即将发布。

RyanLee: Recently, we took time to consolidate all of the work behind M2 and published it here: our M2 paper on arXiv It's been j...

开源生态数据/训练论文/研究
15:35
Rohan Paul@rohanpaul_ai
64
美光:AI内存制造商市值破万亿,因AI的下一个短缺是内存而非模型

美光市值已突破1万亿美元,一年前其市值还仅为700亿美元。这一飞跃的核心驱动力是AI发展对高带宽内存(HBM)的迫切需求。尽管GPU备受关注,但HBM已成为确保GPU持续高效工作的关键部件。随着AI智能体的兴起,无法快速将数据送达芯片已成为新的系统瓶颈,使得内存成为AI增长背后的关键约束。行业的焦点正从单一的逻辑芯片性能,转向整体数据流能否跟上AI推理和智能体工作负载的需求。此外,瑞银将其目标价从535美元大幅上调至1625美元,认为其长期供应协议可能平滑盈利的周期性波动。

数据/训练现象/趋势
‹ 上一页
1…45678…12
下一页 ›