AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 796 条
全部一手资讯X论文
标签「开源生态」清除
Alibaba Cloud@alibaba_cloud · 5月25日31

Qwen Conference 2026 | Livestream Live Singapore stage, global audience. Wherever you are, be part of the moment—stream the keynotes live: 🎤 Tech Leader Keynotes 💻 Full-Stack AI 💡 Global Insights ✨ Biz Innovation 🚀 Secure your livestream access: https://x.com/i/broadcasts/1vJpPrMXaZbJE

译Qwen Conference 2026 | 直播进行中 新加坡舞台,全球观众。无论您身在何处,共同见证这一刻——收看主题演讲直播: 🎤 技术领袖主题演讲 💻 全栈 AI 💡 全球洞察 ✨ 商业创新 🚀 获取直播观看权限:https://x.com/i/broadcasts/1vJpPrMXaZbJE

AYi@AYi_AInotes · 5月25日66

很多人经常问怎么像我一样高产似母猪,怎么快速涨粉之类的问题,除了个人努力熬夜创作,AI工具的加持肯定还是必不可少的🤖 昨天开源了我的AI选题工作流和prompt,今天继续分享我的自媒体AI工作流, 很多铁汁跟我说看了这篇文章终于不用每天早上起来想今天写什么了,特别有用,那今天再分享下Codex的定时功能怎么用在我的自媒体工作流里,真的蛮好用的,墙裂推荐哈哈 昨天这篇用Agent帮我刷小红书、推特的文章核心在讲怎么把每天手动刷3-4小时的活,变成了20分钟的二次筛选,产能提升3倍以上, 也有很多人问我筛完之后有了选题之后,还要自己从0搭结构,找数据,写日报写周报? 我现在是用Codex的定时任务功能来解决, 每天早上8点,它会自动把筛选出来的选题整理成一篇结构完整的行业日报, 有总结,有数据,有案例,有金句,还有行动建议,Prompt一次写好,后续几乎零维护。 整套工作流完美闭环: Agent搜集信息 → Codex结构化产出 → 我只做最终判断和润色。 所以我觉得AI博主真正的瓶颈其实并不是AI不够强,关键是你没把AI放对位置, 把AI放在帮你写,它写得一般没法看, 但是把AI放在帮你筛+帮你搭结构,这个时候你才能真正起飞。 每月20刀,换每天多出来3小时,性价比高到爆炸哈哈 #AI #自媒体 #工作流

译作者开源了一套自媒体AI工作流,核心是利用AI智能体自动搜集小红书、推特等平台信息,将每日3-4小时手动筛选缩减至20分钟,产能提升3倍以上。其后续使用Codex的定时任务功能,每天早上自动将筛选出的选题,依据预设提示词(Prompt)整理成包含总结、数据、案例、金句和行动建议的结构完整行业日报。整套流程为“Agent搜集信息 → Codex结构化产出 → 作者最终判断润色”,实现近乎零维护。作者强调,AI辅助的关键在于用对位置,让AI负责筛选与搭建结构而非直接代写,并认为每月花费20美元来换取每天约3小时的时间是高性价比的。

Chubby♨️@kimmonismus · 5月25日71

Google DeepMind's AlphaProof Nexus autonomously solved 9 open Erdős problems, some unsolved for 56 years, at a cost of a few hundred dollars per problem. It also proved 44 open OEIS conjectures, resolved a 15-year-old question in algebraic geometry, and discovered a novel algorithmic parameter in optimization theory that humans hadn't found. The core mechanism combines LLM reasoning (Gemini 3.1 Pro hype?!) with Lean formal verification. The AI generates proof attempts, Lean's compiler checks every logical step automatically. No human review needed to confirm correctness. The most surprising finding: a basic agent that simply alternates LLM generation with compiler feedback replicated all 9 Erdős successes. The full-featured system with evolutionary search and reinforcement learning only provided meaningful advantages on the hardest problems. This shows a more recent broader trend: as foundation models improve, simple agentic loops are catching up to complex specialized architectures . What sets this apart from OpenAI's informal proof approach: formal verification acts as an automatic filter. The failure analysis showed the AI frequently hallucinated lemmas it claimed were established results, and often disguised the core difficulty by rephrasing it as a helper lemma. Informal proofs would let these errors pass. Lean catches them immediately. The agent also detected misformalizations in existing mathematical literature, correcting ambiguities in problem statements before solving the corrected versions. It served as both a solver and a diagnostic tool. Current limitations are real. Successes cluster in combinatorics, number theory, and optimization where Lean's math library is mature. Problems requiring substantial new theory remain out of reach. Most Erdős problems still weren't solved tho.

译Google DeepMind的AlphaProof Nexus系统自主解决了9个开放的Erdős问题(部分问题存在56年),每个问题的成本约几百美元。它还证明了44个OEIS猜想,解决了一个15年的代数几何问题,并在优化理论中发现了新算法参数。其核心机制是将大语言模型的推理能力与Lean形式化验证系统结合,Lean自动检查每一步逻辑,无需人工复核。研究发现,一个仅交替使用大语言模型生成与编译器反馈的基础智能体,便能复现全部9个Erdős问题的成功。该系统还能检测并修正现有数学文献中的表述错误。其局限在于成功案例集中于Lean数学库成熟的领域(如组合、数论),仍无法解决需要全新理论的大问题。

Nathan Lambert@natolambert · 5月25日64

Something that's squashed in this is that other things impact the evolution of AI than just the few labs with mega compute. There are many social dynamics, policy, diffusion, etc and there's a substantial unaddressed opportunity for impact here. Open science/models one way.

译当前AI进步常被归因于少数算力雄厚的实验室。推文指出,社会动态、政策、技术扩散(diffusion)等其他因素同样深刻影响AI演进,且此领域存在未被充分重视的影响力机遇。开放科学与开放模型是应对方向之一。文中引用观点指出,通往AGI的预训练工作高度集中于OpenAI、Google、Meta等巨头,算力差距的残酷现实是,AGI关键路径上的问题现需巨大算力门槛。

Chubby♨️@kimmonismus · 5月25日77

A coordinated supply chain attack called "TrapDoor" just hit npm, PyPI, and Crates. io simultaneously, 34 malicious packages targeting crypto, AI, and security developers to steal wallets, SSH keys, and cloud credentials. New: attackers are also submitting pull requests to popular open-source repos, injecting manipulated CLAUDE.md and .cursorrules config files. When a developer clones the repo and works with Claude Code or Cursor, the AI agent reads those files as trusted instructions, and could execute malicious commands without the developer realizing it. Using AI assistants as the attack surface is new.

译一场名为“TrapDoor”的协调供应链攻击同时袭击了npm、PyPI和Crates.io,涉及34个恶意包,旨在窃取加密货币、AI和安全开发者的钱包、SSH密钥和云凭证。攻击的新手段是向流行开源项目提交Pull Request,注入被操纵的`CLAUDE.md`和`.cursorrules`配置文件。当开发者克隆仓库并使用Claude Code或Cursor等AI助手时,AI智能体会将这些文件当作可信指令执行,可能在开发者不知情下运行恶意命令。这是首次将AI助手作为攻击面。

Berryxia.AI@berryxia · 5月25日48

当初美国最后悔没有封杀的中国这家公司,没有之一。 中国古话说得好:拳怕少壮啊! 一个中国小团队,面对美国GPU全面禁运,却没有选择“堆算力”,而是花了两年时间,发明了一堆连OpenAI都没想到的黑科技。 他们把KV Cache压缩到原来的1/10,让1M上下文只需要5.48GB显存。 他们把MoE玩到极致,把训练成本砍掉40-50%。 他们甚至发明了“Engram”模块,用LPDDR内存直接换算力…… 而这一切,不是为了今天卖几个coding plan,而是为了悄悄打造一个10万亿美元的AI硬件新生态,顺便让自己估值冲到1T美元。 他们叫DeepSeek。 故事得从2024年开始讲。 那时全世界都在卷dense模型、卷多模态、卷语音视频。 DeepSeek却反其道而行:他们死磕Mixture of Experts(MoE),一个公认极难训稳的架构。 他们从第一性原理出发,发明了GRPO算法,取代了行业通用的PPO。 他们提出RLVR(Reinforcement Learning from Verified Rewards),让模型真正学会“用正确答案奖励自己”。 他们搞出Multi Token Prediction做推测解码,把训练信号密度直接拉满。 更狠的是,他们把注意力机制彻底重构: - MLA(V2时期)→ KV Cache直接砍90% - DSA/CSA/HCA(V3/V4)→ 长上下文下计算量几乎不增长 - mHC(Manifold-Constrained Hyper-Connections)(2025.12)→ 让27B模型在BIG-Bench Hard上直接+7.2分,训练开销却只多了6.7% 最骚的是Engram(2026 Q1): Transformer本来没有原生的“知识查找”机制,只能靠暴力计算模拟检索。 DeepSeek直接把经典N-gram升级成O(1)哈希查找,用内存换算力—LPDDR一查就行,比再跑一遍Transformer层便宜太多了。 这些创新加在一起,产生了核聚变般的效果: 用KV Cache计算器测1M上下文: - DeepSeek V4 Pro → 仅需5.48GB HBM - GLM5(已抄MLA+DSA)→ 60GB - Qwen3-235B → 89GB 差距大到离谱。 这意味着什么? 1️⃣意味着长时序Agent终于能经济地跑了,KV Cache可以轻松offload到SSD,重新计算成本暴降。 2️⃣意味着中国本来就丰富的NAND(YMTC)和LPDDR(CXMT)突然成了AI基础设施的战略级资源。 3️⃣意味着HBM这个最稀缺、最难造的资源,需求被大幅缓解,连GPU/ASIC的压力都跟着降低。 DeepSeek的CEO梁文峰,看的从来不是今天卖订阅的几亿美元。 他看的是:用算法创新,把中国记忆体、ASIC、CPU、网络芯片全部盘活,让整个硬件生态不再被CUDA和HBM卡脖子。 他们甚至开源了TileLang,让内核代码一次编写、多硬件运行,直接打破CUDA护城河。 这才是真正的“英雄之旅”: - 面对资源短缺,他们没有抱怨,而是把短缺变成了创新燃料。 - 他们不急着赚钱,而是先把地基打成别人抄都抄不完的壁垒。 - 他们把开源当武器,把“AGI for everyone”写进了战略。 而现在,整个行业都在吃他们两年前埋下的果实: ZAI的GLM抄了MLA+DSA,Moonshot的Kimi也承认架构基于DeepSeek…… DeepSeek今天做的,明天就会变成全行业的标配。 你今晚就可以感受到这个长局的威力。 打开DeepSeek官网,试试他们的V4 Pro——1M上下文长持缓存价格不到Sonnet 4.6的3%,还能挂好几个小时。 这不是营销,这是他们用真实技术堆出来的降维打击。 整个框架100%开源,论文、代码思路、架构细节全在arXiv上。 Big Tech靠封锁和闭源赚快钱,DeepSeek却在用开源+算法,把整个AI硬件的未来重新洗牌。 而你,现在已经知道了。

译DeepSeek面对GPU禁运,通过算法创新实现突围。核心成果包括:将KV Cache压缩至1/10,使1M上下文仅需5.48GB HBM;将MoE训练成本降低40-50%。其推出的Engram模块可利用LPDDR内存以O(1)查找换取算力。技术突破还涵盖MLA(KV Cache削减90%)、DSA/CSA/HCA等注意力机制重构,以及GRPO算法。效果显著:在1M上下文显存需求对比中,其V4 Pro(5.48GB)远低于GLM5(60GB)和Qwen3-235B(89GB)。该战略旨在盘活中国NAND与LPDDR资源,降低对HBM依赖,并已开源TileLang以打破CUDA壁垒。其V4 Pro模型1M上下文长缓存价格不足Sonnet 4.6的3%。

向阳乔木@vista8 · 5月24日45

周末了,做点娱乐向的产品,设计了个播放器,用来分享Suno生成的音乐。 同时支持电脑和移动端,但后台管理还不完善,都是Skill下载音乐上传。 先听听今天生成的歌:https://music.qiaomu.ai/ 开源地址:https://github.com/joeseesun/qiaomu-music-player-web

译作者分享了一个周末娱乐项目:一个用AI工具开发的Suno音乐生成播放器。该播放器已在线运行,支持电脑和移动端,但后台管理功能尚不完善,目前通过Skill进行音乐下载与上传。项目已开源。引用中补充了该播放器是使用ChatGPT内置的Codex工具在躺卧状态下完成开发的。

Rohan Paul@rohanpaul_ai · 5月24日51

Somebody just ran one trillion param model (Kimi K2.5) on a single RTX 3060 12GB GPU at over 4 tokens/sec and 768GB of second-hand Intel Optane memory. What happened is that a sparse model met an unusual memory tier that could hold its enormous body while the GPU handled the most time-sensitive organs. i.e. the bulk of the sparse expert weights live in a larger, cheaper memory tier and are pulled into the computation as needed. This worked because Kimi K2.5 is a Mixture-of-Experts model, so it has 1T total parameters but activates only 32B per token. The RTX 3060’s 12GB VRAM holds latency-sensitive parts like routing, attention, dense layers, and shared experts. The huge expert weights sit in Optane PMem, configured as RAM, while 192GB DDR4 ECC acts as cache. He is using 6 Optane PMem (DCPMM) sticks. This retired memory format was made to bridge DRAM and SSD performance. The 768GB Optane configuration, using 6x128GB modules, does beat the best NVMe SSDs on latency by a wide margin, but remains 2x to 3x slower than DRAM. llama.cpp handled hybrid GPU/CPU inference, with tensor placement tuned through flags like override-tensor. The result was roughly 4 tokens/sec, which is slow for chat but impressive for a local 1T-parameter model on cheap retired enterprise hardware. The DDR4 acted as cache, the Optane acted as a giant memory pool, and llama.cpp pushed routing and other critical tensors onto the 12GB GPU.

译近期有技术爱好者成功在单张二手RTX 3060 12GB显卡上,运行了拥有1万亿参数的Kimi K2.5大语言模型,速度约为每秒4个token。这一成果得益于模型的混合专家架构,虽然总参数量巨大,但每次推理仅激活32B参数。实现的关键在于将延迟敏感的核心组件置于GPU显存,而将庞大的专家权重存储在由二手英特尔傲腾持久内存(PMem)构成的768GB大容量内存池中,并以DDR4内存作为缓存。通过llama.cpp工具进行混合调度,该方案为本地部署超大规模模型提供了一条低成本的技术路径。

Rohan Paul@rohanpaul_ai · 5月24日62

Great article here on DeepSeek. Their real story is not cheaper chatbots, but architecture that turns hardware scarcity into strategy. DeepSeek is not trying to sell coding seats, it is trying to make Chinese memory, accelerators, and systems useful for frontier AI. Every recent DeepSeek move attacks a bottleneck that makes frontier models dependent on elite HBM-heavy GPU stacks: MoE activates only parts of a model, DSA reduces long-context attention cost, and V4-Pro’s official card says CSA/HCA cuts 1M-token single-token inference FLOPs to 27% and KV cache to 10% of V3.2. Engram, a separate research line, pushes the same logic from another side: let static knowledge live in scalable lookup memory, then fetch it predictably from host memory instead of forcing every fact through dense computation. That sounds like engineering detail until you see the business consequence. If models need less HBM and less brute-force compute, then second-best chips, abundant LPDDR, NAND, and customized ASICs become less second-best. Reuters has already reported a permanent 75% DeepSeek V4-Pro price cut, while noting Huawei Ascend supply constraints and expected supernode availability, which is exactly the kind of feedback loop that they wanted. DeepSeek is not only optimizing models for benchmarks, it is optimizing AI for a different industrial base. The prize is not the app layer. The prize is making scarcity programmable.

译DeepSeek的核心战略并非开发廉价聊天机器人,而是通过一系列架构创新(如MoE动态激活、DSA优化、CSA/HCA技术)显著降低对高端HBM GPU的依赖。此举旨在将硬件稀缺性转化为技术优势,使次优芯片、LPDDR内存及定制ASIC能支持前沿AI,从而优化AI以适配不同的工业基础。这一路径已产生实际商业影响,如V4-Pro大幅降价并与国产硬件生态形成联动,最终目标是实现“硬件稀缺性可编程”。

宝玉@dotey · 5月24日52

http://x.com/i/article/2058418354415644672 # DeepSeek 的 10 万亿美元大战略【译】 作者:GDP (@bookwormengr) 标题:DeepSeek's 10 trillion USD grand strategy 你有没有想过,DeepSeek 到底打算怎么赚钱,而且是赚大钱? 他们没有像智谱(GLM)、月之暗面(MoonShot)和 MiniMax 那样推出有竞争力的编程订阅计划。他们没有多模态、语音或视频模型。时至今日,他们甚至连一个评测框架(Harness,用于测试和评估模型性能的基准测试工具)都没有(虽然最近听说他们开始招人做了)。而且,DeepSeek 还长期致力于开源,乐此不疲地分享自己的“独家秘方”。这难道是疯了吗?还是纯粹在烧钱?那些正准备给他们投资 100 亿美元的投资人们,难道是在把钱往水里扔吗? 不,在我看来,恰恰相反!!! 在这里,我想聊聊我对他们至今所作所为的观察,以及他们似乎正在践行的战略。DeepSeek 创始人梁文锋的眼光显然盯着一个大得多的终极奖杯——他们不仅自己能冲击 1 万亿美元的市值,还能顺便帮中国催生出一个高达 10 万亿美元的产业巨兽! ## 重新审视 DeepSeek 的“英雄之旅” DeepSeek 总是逆风而行,他们不屑于去卷那种“比别人好一点点”的微调模型,也不急着去卖当下的应用(比如各种编程套餐)。我在 2025 年 1 月 27 日发过一条疯传的推文,谈到了我所看到的景象,而现在的剧情正变得越来越精彩。 - 当大家都在死磕稠密模型(Dense Models,所有参数都参与计算的传统大模型结构)时,DeepSeek 却迎难而上,选择了极难训练的混合专家模型(MoE, Mixture of Experts)。 - 他们从“第一性原理”(First Principles)出发,发明了全新的 GRPO 算法,取代了在强化学习(RL, Reinforcement Learning)中虽然占据统治地位、但实现成本极高的 PPO 算法。 - 他们摸索出了基于验证奖励的强化学习(RLVR, Reinforcement Learning from Verified Rewards),并将其作为提升模型推理能力的杀手锏。 - 他们通过“多 Token 预测”(MTP, Multi-Token Prediction)提出了一种绝妙的投机解码(Speculative Decoding,一种通过预判后续单词来加速大模型生成速度的技术)策略,同时还让训练信号变得更加密集。 - 他们完美打造了“零气泡”(Zero-Bubble)流水线并行技术,把有限的 GPU 资源压榨到了极致。 - 他们开源了专家负载均衡器(Expert Load Balancer),让所有人都能轻松部署混合专家模型。特别是通过“宽专家并行”(Wide Expert Parallel)策略,模型可以在大批次下运行,使得服务成本大幅降低。 - 他们发明了 MLA、DSA、CSA 和 HCA 等一系列魔改注意力机制的技术,极大地缩减了 KV 缓存(KV Cache,大模型推理时用于存储历史对话记忆的显存空间)的需求,让计算需求在面对无限拉长的上下文时几乎保持恒定。 - 他们发明了 Engram(印迹模块),实现了用内存换算力的神奇操作。 - 他们发明了 mHC(修正超连接),解决了模型体量暴增时的训练稳定性难题。这个创新清单还能一直列下去…… 在英雄之旅这个最经典的叙事结构里,主角一开始并不知道自己的终极使命是什么。他是在一路上摸爬滚打,逐渐领悟了伟大的天命,然后排除万难去完成它。在这个过程中,他会遇到无数的冷嘲热讽,但他选择无视;他会遇到不怀好意的对手;他本身也有致命的弱点或短板——但他最终战胜了自我,达成了使命。他直面那些看似无法逾越的难关,却总能巧妙地结盟、精明地整合宝贵的资源。这就是为什么观众会不自觉地为英雄摇旗呐喊。这也是为什么 DeepSeek 在赢得全球无数粉丝狂热追捧和尊敬的同时,也招来了不少争议。 接下来我将为你详细拆解,DeepSeek 在这条路上已经走得足够远,并且已经窥见了他们的终极宿命:他们的格局根本不是卖什么编程订阅,而是去撬动一个价值 10 万亿美元的中国 AI 硬件生态圈,并以此顺理成章地让自己斩获 1 万亿美元的市值。在这个过程中,他们甚至还会顺手帮一把西方硬件生态中的一众新玩家。 欢迎大家探讨与指正。 ## 先来算一笔好玩的 KV 缓存账: 来看看知名半导体分析机构 @SemiAnalysis_ 发布的这条非常及时的推文: 我们先来做点有趣的 KV 缓存数学题。别担心,如果你讨厌数学,我们也只是用最近发布的 KV 缓存计算器,来看看 DeepSeek V4 Pro 到底能省下多少 KV 缓存,并把它跟最新的智谱 GLM 和阿里通义千问(Qwen)模型做个对比。 我以 100 万(1M)上下文长度为例进行计算,假设 KV 精度为 8 位(8-bit),索引器精度为 16 位(16-bit)。你自己也可以去这个网站上玩玩: https://kvcache.ai/tools/kv-cache-calculator/ 在 100 万上下文深度下: 1. DeepSeek V4 居然只需要 5.48 GB 的高带宽内存(HBM, High Bandwidth Memory,一种常用于顶尖 AI 显卡的高速显存)。 1. GLM5 需要 60 GB 的 HBM。 1. Qwen3-235B-A22B 则需要高达 89 GB 的显存! 请注意,这还是在以下前提下: 1. DeepSeek 是一个拥有 **1.6 万亿(1.6T)**参数的巨无霸模型。 1. GLM5 大约是 7000 亿(700B)参数,而且它已经借鉴了 DeepSeek 的 MLA 和 DSA 技术,只是还没用上最新的压缩注意力机制。 1. Qwen3-235B-A22B 只有 2350 亿参数,使用的是相对传统的 GQA(分组查询注意力机制)。 DeepSeek 在缓解显存压力方面做出了奠基性的贡献。如果这项创新被行业广泛采纳,将让那些需要处理超长任务的长程 AI 智能体(Long-horizon Agents)成本低到难以置信,从而彻底解锁下一代崭新的应用场景。 ## 疯狂背后的精密章法: 能够在完全不牺牲模型质量的前提下,把 KV 缓存压缩得如此之小,正是他们敢把长时缓存(Long-held Cache)价格压到白菜价的底气所在——其价格甚至不到 Anthropic 旗下 Claude Sonnet 4.6 缓存命中价格的 3%,而且他们还能帮你免费保留好几个小时! 对于长程任务来说,由于缓存体量极小,将其“转存”(Offloading)到固态硬盘(SSD)并在需要时重新加载,就变得极为划算。这就大大降低了对 HBM 的依赖。要知道,HBM 目前全球严重短缺,而且从中国 AI 硬件产业的角度来看,这也是制造难度极高的核心痛点。更绝的是,DeepSeek 还开发了一套能从 SSD 中以极高速度重新加载 KV 缓存的技术,具体细节都在他们的论文里:https://arxiv.org/pdf/2602.21548 ## 谁是这场“KV 缓存压缩战”的直接受益者? 谁在大量供应 SSD?别忘了长江存储(YMTC)正在崛起为全球 3D NAND 闪存巨头。闪存技术(NAND)让 DeepSeek 能够直接读取缓存,从而避免了每次都重新计算 KV 的巨大算力浪费。反过来,DeepSeek 正在为 NAND 闪存和固态硬盘创造一个无比庞大的新市场——这不仅让长江存储受益,也让整个产业链所有玩家跟着大赚。 ## 然而,格局绝不仅仅局限于 NAND 和 SSD: 低功耗内存(LPDDR)同样蕴藏着巨大的潜力,可以用作存放模型权重(Weights)的“大后方”,并在需要时源源不断地“流式传输”到 HBM 中,从而进一步减轻 HBM 的容量压力。你可以参考这篇博客:https://www.lmsys.org/blog/2025-09-25-gb200-part-2/ 。下面我用一张图来解释这套方案是如何运作的: 虽然 DeepSeek 并没有专门针对这一方案做特殊开发,但他们那拥有庞大专家数量、并且支持 4 位(4-bit)权重的混合专家模型架构,完美契合了这套方案,使得其实施起来易如反掌。 这种创新配合上他们那堪称逆天的无损超紧凑 KV 缓存技术,让系统对 HBM 的吞吐和容量需求出现了断崖式下跌。 中国谁在做 LPDDR?长鑫存储(CXMT)。目前他们在 LPDDR 的速度上仅落后国际顶尖水平半代,在容量密度上仅落后一代。差距非常小!这意味着在不久的将来,除了管够的 NAND 闪存,中国本土生态还将迎来铺天盖地的 LPDDR 内存。那这能缓解算力芯片的压力吗?答案是:绝对能。请接着往下看…… ## 聪明地玩转存储,还能顺手给 GPU 和 ASIC 减负 道理很容易理解:用 NAND 闪存来存放 KV 缓存,不仅能延长缓存的保存时间、减轻 HBM 的压力,还能免去重复计算的烦恼,这等于变相给 GPU 和 ASIC(专用集成电路,即各类定制化 AI 算力芯片)的计算单元松了绑。那么,除了作为模型权重的“即时流式传送带”之外,LPDDR 还能以其他方式帮上忙吗?答案同样是:可以。 LPDDR 可以用来存储海量的“Engram”(印迹模块)。DeepSeek 在他们的论文(https://arxiv.org/pdf/2601.07372)中指出,虽然混合专家模型架构可以通过条件计算(Conditional Computation)来扩充模型的容量,但传统的 Transformer 架构缺乏一种天然的知识检索机制,只能笨拙地通过高昂的“计算”去模拟“检索”。为此,他们引入了 Engram 模块,将经典的 N-gram 嵌入技术升级为基于哈希、时间复杂度为 $O(1)$ 的瞬间查找,创造了一个他们称之为“条件内存”(Conditional Memory)的全新稀疏维度。这极大地省下了计算量,但代价是需要巨大的内存空间来存放这个庞大的嵌入表。这是一次经典的“用空间(存储)换时间(计算)”,其高明之处在于,读取“存储”的成本远比进行计算要便宜得多(在 LPDDR 里查一下,可比让大模型整整跑一轮前向传播省钱太多了)。在大规模部署时,这是一笔划算到家了的买卖。这就是他们如何通过狂砸内存来省下算力的秘密!!! 这种取舍简直太值了:由于缺乏极紫外光刻机(EUV),无法在单个芯粒(Chiplet)上做到同等的晶体管密度,中国的 GPU 和 ASIC 在纯粹的原始浮点运算能力(FLOPs)上,注定会长期落后于西方顶尖显卡。同时,国内在先进封装技术上也处于追赶状态。因此,如果能利用国内产能充足、成本低廉的 NAND 和 LPDDR 内存来弥补算力的劣势,这种“扬长避短”的打法简直是绝配。 ## 盘点 DeepSeek 的一盘大棋: 纵观这些令人眼花缭乱的创新和他们做出的种种抉择(至今不做多模态、不做语音模型,至于视频生成?那是什么东西?),DeepSeek 的野心显然不是眼前那区区几亿美元的蝇头小利。他们正在极有耐心地下一盘 10 万亿美元的大棋,目的是亲手扶持起一套独立于西方之外的“备选硬件生态”。 这不仅让中国的存储芯片厂商在全球 AI 硬件舞台上跃升为主力军,更从根本上降低了大模型训练和推理的资源门槛。当运行 AI 模型的成本降下来后,原本性能稍逊的国产 GPU/ASIC 芯片以及网络交换芯片也将全部变成“够用、好用”的切实选项。而且,这些开源创新也将反哺西方的开源社区,并给西方那些试图挑战英伟达的芯片初创企业带来一线生机。 所有的蛛丝马迹都对上了。让我们来逐一细数他们抛出的那些震撼行业的创新: 1. 在 DeepSeek V2 中引入混合专家模型(MoE)和 MLA:MoE 让训练一个极度聪明的模型减少了 40% 到 50% 的算力消耗;而多头潜在注意力机制(MLA, Multi-head Latent Attention)更是把 KV 缓存直接砍掉了 90%,使得将缓存转存到 SSD 变得极为高效。这些理念最早在他们 2024 年 5 月的论文(https://arxiv.org/pdf/2405.04434)中提出。正是凭借这些绝活,他们后来才能仅仅用 2048 张被阉割过的 H800 GPU,就硬生生训练出了媲美顶级闭源模型的 DeepSeek V3。 1. DSA(密集跳跃注意力机制):在论文(https://arxiv.org/pdf/2512.02556)中推出,旨在削减长上下文场景下的计算量,同时缓解 HBM 的带宽压力。它确保了计算量不会随着上下文的拉长而发生爆炸式增长。看看下面的图表——DeepSeek-v3.2 的处理时间在上下文拉长时依然稳如泰山。 1. mHC(修正超连接):在 2025 年 12 月的论文(https://arxiv.org/pdf/2512.24880)中首次亮相。mHC 是 DeepSeek 在宏观架构上的一大创新,它彻底颠覆了大模型各层之间传统的信号传输方式。过去大家都在用自 ResNet 时代流传下来的标准残差连接($x + F(x)$),而 mHC 则把这条残差流扩展成了多条并行的“信息高速公路”,并允许模型自主学习如何进行混合。最为关键的是,它通过数学手段(将混合矩阵通过 Sinkhorn-Knopp 投影约束在 Birkhoff 多胞形上)强制让这些混合矩阵满足双随机性,从而在数学上完美确保了信号强度在穿过任意深度的网络层时都不会衰减。 - 这彻底解决了此前困扰无约束超连接(Hyper-Connections,最早由字节跳动发明)的灾难性不稳定难题——此前在 270 亿(27B)参数规模下,信号放大系数会疯狂飙升到 3000 倍,导致整个训练彻底崩盘。 - 而它的计算成本却微乎其微:由于它完全没有改变注意力层或前馈网络(FFN, Feed-Forward Network)层的原始浮点运算量,仅仅改变了输出在各层之间的路由方式,因此它只增加了区区 6.7% 的实际训练时间开销。 - 然而它带来的性能提升却极为震撼:在同等模型大小和几乎完全相同的算力预算下,27B 规模的模型在 mHC 的加持下,在复杂的 BIG-Bench Hard 推理测试中暴涨了 7.2 分,DROP 评测提升 3.2 分,GSM8K 数学测试提升 2.8 分,MMLU 综合学科知识提升 1.4 分。 简而言之,mHC 通过给网络赋予一套更丰富、更有表现力的跨层信息路由拓扑结构,在几乎不需要额外多花一丁点算力的情况下,让单位参数发挥出了显著更高的“智商”。 1. CSA 与 HSA:在 2026 年 4 月发布的 DeepSeek V4 Pro 技术文档(https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf)中亮相。它们通过对 KV Token 进行深度压缩,把本来就已经很小的 KV 缓存需求又砍掉了 90%!同时大幅降低了所需的浮点运算量,一举帮 HBM 和 GPU/ASIC 彻底解套。 1. 论文(https://arxiv.org/pdf/2601.07372)于 2026 年第一季度推出,正如前面所说,它在某种意义上实现了“用内存(LPDDR)换算力”。下面的详细图表展示了在总体参数预算完全一致的情况下,Engram 带来的巨大性能跃升。 1. 将计算与通信的重叠压榨到极致:诸如“双路径”(Dual Path)这样的底层魔改,表面上看是为了绕过硬件资源的封锁而被迫进行的闪转腾挪。但 DeepSeek 更进一步,甚至开始反过来对芯片硬件厂商的 ASIC 架构设计指点迷津,告诉他们如何设计芯片才能避免浪费哪怕一丝一毫宝贵的硅片资源。以下截图正是出自 DeepSeek V4 Pro 的官方文档: 1. 对 TileLang 的重度投入:这明确无误地表明,他们的目光早已超越了自家算力紧缺的困境,而是致力于让整个中国硬件生态具备与西方掰手腕的竞争力。有了 TileLang(一种用于编写高性能算力内核的开源编程语言),工程师只需要编写一次算力内核代码,就能在任何适配了 TileLang 后端的不同硬件平台上无缝跑起来。我预计国内其他 AI 实验室很快也会纷纷加入这个阵营——这将合力帮助中国硬件厂商从侧面解围,绕开英伟达坚不可摧的“CUDA 壁垒”(CUDA Moat,英伟达苦心经营数十年的专用并行计算架构生态,是其最宽的护城河)。同时,这也能顺便解放 AMD 等西方的其他硬件厂商。 注:国内许多 AI 硬件平台本身也提供 CUDA 兼容性或 CUDA 编译转换层。其中,摩尔线程、沐曦、壁仞和天数智芯是通过转换层实现与 CUDA 兼容度最高的几家中国芯片公司,理论上它们不需要 TileLang 的协助。 ## 大规模强化学习与自动化科学研究: 随着计算需求的断崖式下降,以及可供选择的本土硬件变得越来越多,DeepSeek 终于能够放开手脚,去挑战那些此前让人望而却步的宏大训练计划——尤其是强化学习阶段的后训练(Post-training)。强化学习需要生成海量的思考轨迹(Trajectories),动辄就会产生数万亿的 Token,这在过去烧钱速度极其恐怖。此外,要训练出支持 100 万上下文的模型,你就必须生成同样长度的思考轨迹。只有让模型在这种超长轨迹中经受锤炼,才能真正解锁解决复杂长程任务的能力。 不仅如此,硬件选择的多元化将让 DeepSeek 拥有富余的算力去冲击“自动化人工智能研究”(RSI, Research on Silicon Intelligence,即让 AI 充当科学家,自己设计并执行算法实验的自主进化技术)。这种让 AI 左右互搏、自主进化的模式伴随着大量的试错,耗资极度高昂。但如果想要彻底探寻整个算法设计的未知空间,RSI 是必经之路。在通往通用人工智能(AGI)乃至超级人工智能(ASI)的道路上,DeepSeek 必须先点亮 RSI 这颗科技树。 ## DeepSeek 今日的试金石,行业明天的教科书: 如今,DeepSeek 围绕混合专家模型、MLA、DSA 的一连串疯狂创新,早已被中国乃至全球的各大 AI 实验室奉为圭臬并争相抄作业。 比如,打造了 GLM 系列模型的智谱 AI 已经用上了 MLA 和 DSA;月之暗面(Kimi)也大方承认自家的最新架构正是基于 DeepSeek 的演进。作为礼尚往来,DeepSeek 在大规模训练中也采用了 Muon 优化器,而该优化器在超大规模训练中的威力,正是被 Kimi 团队首先发掘并证明的。 (注: - 混合专家模型(MoE)架构最早由顶尖学者在 2017 年的经典论文(https://arxiv.org/pdf/1701.06538)中提出,而 DeepSeek 的功劳在于成功将其推向了前所未有的庞大规模,并融入了大量自研的独门绝技。* - Muon(基于牛顿 - 舒尔茨动量正交化)优化器由机器学习研究员 Keller Jordan 于 2024 年底发明,而 Kimi 团队则是全球第一个将其应用到超大规模模型训练中的吃螃蟹者。)* ## 说了这么多,那到底怎么赚大钱呢? 我们可以看看 OpenAI 一个非常有趣的经典案例。OpenAI 曾与 AMD 以及 Cerebras(一家挑战英伟达的晶圆级超大芯片初创公司)达成协议:随着 OpenAI 采购并消耗这两家公司的芯片达到特定里程碑,OpenAI 就能以极低的价格获得这两家公司的股票认股权证(Warrants)或期权。这对于 AMD 和 Cerebras 来说是一笔双赢的绝妙交易——有了 OpenAI 这头吞噬算力的巨兽深度绑定,它们在长跑中胜出的概率大增。 根据 AMD 官方发布的新闻稿(https://www.amd.com/en/newsroom/press-releases/2025-10-6-amd-and-openai-announce-strategic-partnership-to-d.html):“作为协议的一部分,为了深度绑定双方的战略利益,AMD 已向 OpenAI 授予了高达 1.6 亿股 AMD 普通股的认股权证。这些股权将随着特定里程碑的达成而逐步解锁。第一阶段将在初始部署达到 1 吉瓦(GW)算力中心时解锁,随后的份额将随着采购规模扩大至 6 吉瓦而陆续解锁……” 我大胆预测,DeepSeek 目前正在与国内一众存储、ASIC 算力芯片、CPU 以及网络协议栈厂商签署类似的对赌与利益绑定协议。通过深度联合调优,DeepSeek 将帮助这些本土硬件在运行全球最顶尖的 AI 核心工作负载时,真正做到平替、甚至超越西方硬件。 眼下,西方(包括其东亚盟友)所有 AI 概念股的总市值早已突破了 10 万亿美元。通过这种“用技术换股权、用生态扶持分蛋糕”的精妙商业模式,DeepSeek 不仅能在中国复制出一个同样体量惊人的超级硬件产业,还能在其中切下最肥美的一块蛋糕,进而将自己送入 1 万亿美元市值的超级俱乐部。 这不仅能让他们赚到比卖什么订阅软件多得多的真金白银,还能顺便实现他们口中“让通用人工智能惠及每一个人”的宏伟愿景。梁文锋作为传奇量化大师詹姆斯·西蒙斯(Jim Simons)的铁杆粉丝,绝对是一位顶级聪明的资本家,他绝不可能漏掉这盘大棋! 只要你回过头把 DeepSeek 至今为止所有的反常举动串联起来,这就是唯一能完美解释一切的底层逻辑…… 关于这些底层技术创新的详细拆解长文将在本周末发布,感兴趣的朋友欢迎关注我的 Substack 专栏:https://polymath707.substack.com/ ...

译DeepSeek的核心战略并非销售应用服务,而是通过一系列底层技术创新,特别是MLA等注意力机制大幅压缩KV缓存需求,来重塑AI硬件生态。其技术能将1.6T参数模型在1M上下文下的内存占用降至5.48GB HBM,远低于同类模型。这直接降低了推理成本,并催生两大机会:一是将KV缓存转存至SSD,利好长江存储;二是其架构适配LPDDR内存进行权重缓存,利好长鑫存储。DeepSeek通过开源这些高效架构,正在构建一个以中国存储产业链为核心的新生态,最终目标是带动一个10万亿美元的AI硬件产业,并自身实现万亿美元市值。

OpenClaw🦞@openclaw · 5月24日64

OpenClaw 2026.5.22 is live ⚡ Gateway/model startup paths got leaner 🧠 /models drops to ~5ms 🔒 npm packages ship locked deps 🪟 Windows install/update paths hardened Less waiting, fewer surprises. https://github.com/openclaw/openclaw/releases/tag/v2026.5.22

译OpenClaw 2026.5.22 已上线 ⚡ Gateway/模型启动路径更精简 🧠 /models 响应时间降至约5毫秒 🔒 npm包现提供锁定依赖项 🪟 Windows安装/更新路径更安全 等待更少,意外更少。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.22

Greg Brockman@gdb · 5月24日49

under appreciated that codex is open source

译低估了Codex是开源的这一事实

Berryxia.AI@berryxia · 5月24日26

这几个好用的工具,你肯定还有不知道的。 记得回来报个信儿~😄 不废话,看图👇🏻。

meng shao@shao__meng · 5月23日50

Mixpanel 创始人 @Suhail 提出了一个对于美国 AI 公司们很实现的问题: 当中国在浮点运算层面的算力实现独立后,他们的开源贡献会逐渐迁移到一套美国 "用不了、也不能用" 的技术栈上。这对美国不利,因为美国当前的 AI 研究和基础设施本身就高度封闭。 这里特别想 @DarioAmodei ,这盛世如你所愿? 背后的原因,也不用赘述了,Nvidia + CUDA 这套本来最顺滑的训练推理路径,硬生生被卡住,倒逼出了国产方案,现在基于国产方案的开源模型越来越主流之后,未来还会不会支持 Nvidia + CUDA,不好说。。

译中国在浮点运算层面实现算力独立后,其AI开源社区的贡献可能转向一套基于国产方案的技术栈,而美国将难以使用或兼容。这一转变将对美国不利,因为其当前的AI研究与基础设施本身高度封闭。根源在于,美国主流的 Nvidia + CUDA 技术路径受限,催生了国产替代方案;随着基于国产方案的开源模型逐渐主流化,未来开源项目可能不再优先支持 Nvidia + CUDA 生态。

Chubby♨️@kimmonismus · 5月23日63

DeepSeek is moving ahead with a $10.29 billion financing round. Good news: Liang Wenfeng, however, remains focused on building open-source AI models rather than chasing short-term commercialization. Via Bloomberg

译DeepSeek正在进行一轮102.9亿美元的融资。 好消息是:梁文锋依然专注于构建开源AI模型,而非追逐短期商业化。 Via Bloomberg

Rohan Paul@rohanpaul_ai · 5月23日78

Bloomberg: DeepSeek prioritizes AGI over commercialization in funding talks They are pushing forward with $10.29 billion financing round, with Liang Wenfeng committing to continue developing open-source AI models rather than pursuing short-term commercialization goals --- bloomberg. com/news/articles/2026-05-22/deepseek-founder-declares-agi-goal-as-10-billion-round-advances

译Bloomberg:DeepSeek在融资谈判中优先考虑AGI而非商业化 他们正推进102.9亿美元的融资轮,梁文锋承诺继续开发开源AI模型,而非追求短期商业化目标

Chubby♨️@kimmonismus · 5月23日59

Let that sink in for a moment. DeepSeek v4 pro 75% discount. Permanent! In: $0.43 Out: $0.87 If you read the DeepSeek v4 tech paper you know that this model is insanely good when it comes to efficiency. Only 27% compute and only 10% cache compares to v3.2. SemiAnalysis wrote a great article. DeepSeek is now all about cost / token efficiency.

译让我们稍作思考。 DeepSeek v4 pro 降价75%。永久有效! 输入:$0.43 输出:$0.87 如果你读过 DeepSeek v4 的技术论文,就会知道这个模型在效率方面表现惊人。 相比 v3.2,它仅需 27% 的算力和 10% 的缓存。SemiAnalysis 写了一篇很好的文章。 DeepSeek 现在专注于成本/token 效率。

Yuchen Jin@Yuchenj_UW · 5月23日68

Wow. A massive 75% discount from DeepSeek. Either they’ve done some serious inference optimizations, or Huawei chips are just that much cheaper? More open-source AI models, better token economy.

译哇。DeepSeek给出了高达75%的折扣。 要么他们做了重大的推理优化,要么华为芯片就是这么便宜? 更多开源AI模型,更好的token经济。

Nathan Lambert@natolambert · 5月22日42

The title of "open-source champion" for any country is earned by working with the community rather than mandated by raising money

译任何国家的“开源冠军”头衔,都是通过与社区合作赢得的,而非靠融资强加。

AYi@AYi_AInotes · 5月22日76

Damn,这个必须卧槽一下了,Karpathy 的 CLAUDE.md 只有 65 行, 居然能把 AI 编程准确率从 65% 拉到 94%, 以22 万星标登顶 GitHub 趋势榜,而且绝大多数开发者还没读过, 里面没有一行奇技淫巧,4 条规则全是同一个方向: → 先想清楚再写代码 陈述假设,不确定就问,杜绝猜测 → 从最简方案入手 只写能解决问题的最少代码,不加任何多余抽象 → 像手术一样精准修改 不碰与需求无关的代码,每行改动都对应明确要求 → 以目标驱动执行 写第一行代码前,把模糊指令转化为可验证的成功标准 65 行,4 条规则,每一条都在对抗开发者“先写再说”的本能, 本质上是把慢下来这件事变成硬规则, 趁别人还没保存,赶紧先存好 👇

译Karpathy发布的CLAUDE.md文件以其简洁高效的AI编程指导原则引爆GitHub,获得超22万星标并登顶趋势榜。该文件仅含65行、4条核心规则,却能将AI编程的准确率从65%显著提升至94%。其核心在于强制开发者“慢下来”,将深度思考、追求简洁、精准修改和目标驱动等原则变为硬性编码准则,旨在对抗开发者习惯性“先写再说”的本能。目前大多数开发者尚未深入研读这一备受关注的效率指南。

Alibaba Cloud@alibaba_cloud · 5月22日38

Powering regional tech ecosystems. Meet HappyHorse and Qwen at the Toronto Tech Week.

译多伦多科技周开幕活动上,Beever AI将重点展示三款产品:开源平台Beever Atlas,可将Slack、Teams等团队对话转化为可搜索的“活记忆”;企业级大模型训练平台Votii MAGIC将进行全球商用发布,支持本地化构建领域专属AI,并已用于训练首个完全预训练的粤语大模型;现场还将提供基于阿里云的HappyHorse AI视频生成互动体验。活动汇集了加拿大银行、政府、投资机构及学术界代表,旨在赋能区域技术生态。(173字)

小互@xiaohu · 5月22日71

网易有道今天开源了 Confucius4 双模型: 一个做数学视觉推理,一个做语音克隆 有的公司在卷参数规模,有道这次卷的是工程精度和落地成本 开源直接放的是完整权重,不是只给 API 诚意满满 多模态:http://huggingface.co/netease-youdao/Confucius4 语音:http://github.com/netease-youdao/Confucius4-TTS

译网易有道开源Confucius4双模型,包括一个专注数学视觉推理的多模态模型,以及一个用于语音克隆的TTS模型。此次开源直接提供完整权重,而非仅提供API,强调在工程精度和实际部署成本上的投入,而非单纯追求参数规模。模型已发布于HuggingFace和GitHub平台。

Sundar Pichai@sundarpichai · 5月22日72

Really enjoyed this conversation with @MatthewBerman at I/O 👇

译谷歌CEO Sundar Pichai在I/O大会上与MatthewBerman进行了深入对话,全面探讨了当前人工智能发展的多个核心方面。Pichai重点关注了AI代理如何可能取代部分互联网功能,并改变用户的信息获取方式,甚至威胁原始互联网的形态。对话还深入讨论了开源AI模型面临的商业模式困境、中美在AI领域的激烈竞争格局,以及网络安全威胁,包括AI可能引发的攻击和谷歌的应对策略。此外,Pichai指出谷歌正面临巨大的AI算力需求,计算资源已成为主要瓶颈,并探讨了发布强大AI模型的阈值判断问题。他强调了谷歌致力于开发低成本、高效率的AI模型的原因,以应对资源挑战。整体而言,这次对话覆盖了AGI竞赛、AI代理、信息饮食等关键议题,深入分析了AI发展的挑战、机遇和未来趋势。

Berryxia.AI@berryxia · 5月21日64

兄弟们,MemOS 2.0 开源项目又更新了! Github 已经斩获9.3K Star ⭐️~ 这次直接把“AI记忆”从高级剪贴板升级成了真·执行即学习。 以前很多记忆方案,就是把聊天记录存下来,加个语义检索,看起来有记忆,实际上还是RAG那一套。 这次MemOS Local Plugin 2.0最狠的功能,叫“执行即学习”。 它不只记你说过什么,而是当Agent帮你完成任务的时候,把整个执行过程拆成可学习的单元。 哪一步找到了关键线索,哪一步只是低效试探,哪次反思带来了后续成功。 这些经验会自动分层提炼: 最底层是原始轨迹,往上是通用套路,再往上是长期世界模型,最上层变成肌肉记忆的技能。 双重反馈机制自动评分,有用的反复强化,低效的慢慢淡忘。 以前用OpenClaw写工具,第一轮磨出来的代码风格、命名习惯、错误处理方式,换个对话或者过两天基本就丢了,又得从头讲一遍。 现在2.0上线后,第二天新任务,它自己就把上一轮我们一起磨出来的那套写法直接用上了。 这已经不是“记住上下文”了,而是Agent在帮你干活的同时,自动在复盘、提炼、进化。 越用越懂你,越用越像你的专属助手。 这次还支持Hermes和OpenClaw无缝迁移,一行命令就能装,Memory Viewer把整条记忆链路看得清清楚楚。 还是有点意思给Hermes 和OpenClaw 都可以整起来 地址见评论区~~~

译MemOS 2.0开源项目发布,其核心功能“执行即学习”将AI记忆从语义检索升级为自主学习系统。该功能在Agent完成任务时,将执行过程自动拆解为可评分、可复用的经验单元,并通过双重反馈机制分层提炼、强化高效路径。这使得Agent能自动复用已习得的工作模式(如代码风格、处理逻辑),实现持续进化,越用越懂用户。更新同时支持Hermes与OpenClaw工具无缝迁移。

Tencent Hy@TencentHunyuan · 5月21日74

🚀 Introduce Hy-MT2: New Open-Source Multilingual Translation Model We proudly launch our new Hy-MT2 translation model and the Tencent Hy Translation mini-program! Hy-MT2 is a powerful multilingual model supporting seamless translation across 33 languages — and it's fully open-source! It's 7B and 30B-A3B models achieve state-of-the-art performance among all open-source models on various translation tasks, surpassing models with dozens of times more parameters. The lightweight 1.8B model even outperforms mainstream commercial APIs like Microsoft and so on. Powered by Tencent AngelSlim 1.25-bit extreme quantization, it needs just 440MB storage and enables effortless local inference on mainstream mobile chips — with 1.5x faster speed vs. Hy-MT1.5. Open-source AI translation just got way smarter, faster, and more accessible! 🌏 Project Page: https://aistudio.tencent.com/llm/zh?tabIndex=0 Hugging Face: https://huggingface.co/collections/tencent/hy-mt2 Modelscope: https://modelscope.cn/collections/Tencent-Hunyuan/Hy-MT2 Github: https://github.com/Tencent-Hunyuan/Hy-MT2

译腾讯正式开源Hy-MT2多语言翻译模型,支持33种语言间的无缝互译。其7B与30B-A3B版本在开源模型中达到最先进的翻译性能,超越了许多参数规模大数十倍的模型。更具突破性的是,1.8B轻量级版本性能超越微软等主流商业API,并凭借腾讯AngelSlim 1.25-bit极量化技术,仅需440MB存储空间,即可在主流手机芯片上本地运行,推理速度较前代提升1.5倍,显著降低了高质量AI翻译的部署门槛。

Rohan Paul@rohanpaul_ai · 5月21日69

Another good news for local-LLM from atomic[.]chat, that runs 100% offline on your computer. They just showed MTP (Multi-Token Prediction) pushing local Qwen models from 51 to 117 tokens/s on dense 27B. And an MoE 35B-A3B model rose from 218 to 267 tokens/s on 2x RTX 5090. Instead of generating and checking one token at a time, MTP (Multi-Token Prediction) drafts multiple future tokens and verifies them together, so the GPU does less repeated work for every word it prints. And this makes local LLMs much faster when the draft tokens are accepted often enough. For many local LLM runs, the limit is not pure compute, but memory bandwidth: how fast the GPU can keep feeding weights into computation. A local GPU generating text often spends most of its time pulling model weights from VRAM again and again for each token, so if MTP lets the model check several drafted tokens in one forward pass, it reduces how often the same giant weight matrix has to be reread. The most interesting claim in their test is ~80% draft acceptance with zero accuracy loss and only ~1GB extra VRAM, because speculative decoding often becomes useful only when the draft tokens are accepted often enough. So we get this strong local AI result because it improves generation speed without changing the model’s answers, but the dense model is the real winner because memory bandwidth was its main bottleneck. Their GitHub repo is fully open source.

译atomic.chat的MTP(多Token预测)技术通过一次验证多个草稿token,有效减少了GPU重复读取模型权重的次数,显著提升了本地大模型的推理速度。测试显示,27B密集模型的速度从51 token/s提升至117 token/s,提升约137%;35B MoE模型在2x RTX 5090上速度提升约25%。该技术实现了约80%的草稿接受率,无精度损失,仅需额外约1GB显存。由于密集模型需要读取全部参数,其从该技术中获益更大。此项目已开源。

OpenClaw🦞@openclaw · 5月21日66

OpenClaw 2026.5.19 🦞 📱 Android Talk Mode goes realtime 🍎 Mac Settings feel much cleaner 🔐 xAI login works headless 🧵 Telegram topics behave better Big release. Smaller tweet. https://github.com/openclaw/openclaw/releases/tag/v2026.5.19

译OpenClaw 2026.5.19 🦞 📱 Android Talk Mode 实现实时化 🍎 Mac 设置界面更清爽 🔐 xAI 登录支持无头模式 🧵 Telegram 话题功能更稳定 大版本更新,简短公告。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.19

Rohan Paul@rohanpaul_ai · 5月21日67

Velobase just open-sourced Velobase Harness, an AI SaaS framework. Shows why the product was not the real moat, it's the infrastructure that convert users into revenue. The Velobase Harness is built around the missing layer between a working app and a paid business. Includes server-side ad attribution, usage-based credits, multi-currency billing, double-entry affiliate ledgers, refund clawbacks, USDT cashouts, A/B email campaigns, dual-provider failover, PostHog analytics, payments, and 11 BullMQ workers.

译Velobase宣布开源其AI SaaS框架Velobase Harness。该项目强调,在AI应用时代,产品本身并非真正的护城河,将用户转化为收入的基础设施才是关键。Velobase自身从应用无人问津发展到实现八位数ARR的经历,印证了这一观点。该框架旨在补全从可用应用到盈利业务之间的缺失环节,提供包括支付计费、用户归因、分析与A/B测试在内的全套后端服务。

Berryxia.AI@berryxia · 5月20日70

记得上次使用Draw Things 这个开源生图软件还是在去年展会给现场客户做Demo演示的时候! 平时压根不会用,因为有着些许的鸡肋。 但是,也有优势,比如可以在iPad就可以挂开源模型生图。(质量嘛,忽略) 直到今天看到这个新闻,喔觉得事情有点不一样了~ Draw Things里一个纯属意外的发现,直接把本地生成速度干上天了。 Z-Image-Fun-Lora-Distill本来是为Z-Image Base训的2步/4步/8步版本。 结果有人拿它配Z Image Turbo一试,效果直接炸裂。 原来需要8-9步才能出的图,现在3-4步就够了。 本地生成时间大幅缩短,画质和细节还稳得一批。 以前觉得本地出图慢是天花板,现在这个组合直接把天花板又顶高了一截。 详细配置和LoRA下载链接在原帖评论区,已经有人实测放出来了。 对每天用Draw Things本地生成、或者玩Z Image Turbo的兄弟,这波意外发现太实用了。

译在开源生图软件Draw Things中,一项意外发现显著提升了本地AI生图速度。将原为Z-Image Base训练的Z-Image-Fun-Lora-Distill与Z Image Turbo搭配使用后,原本需要8-9步的生成过程可缩减至3-4步,大幅缩短了本地生成时间,同时保持了画质与细节的稳定。这一组合有效突破了此前本地生图速度较慢的限制。

Alibaba Cloud@alibaba_cloud · 5月20日51

Qwen Conference 2026 is coming! Join us at Sands Expo Singapore on May 26. Featuring our keynotes on full-stack AI breakthroughs, 3 parallel forums, and a 1,000 m² exhibition with 7+ models and 6+ Agent tools. Register now: https://click.qwencloud.com/m/20000000142/

译Qwen Conference 2026即将举行! 5月26日,新加坡金沙会展中心。 主讲全栈AI突破,设3个平行论坛, 1000平方米展区展示7+模型与6+ Agent工具。 立即注册:https://click.qwencloud.com/m/20000000142/

向阳乔木@vista8 · 5月20日76

让抖音、小红书、微信公众号支持截图上传。 搞好这个以后,有动力同步 X 内容过去了,虽然一些平台有点垃圾。

译开源油猴脚本实现小红书、抖音、微信公众号的截图粘贴自动上传,并支持YouTube字幕复制、倍速调节及内容导出至NotebookLM、ChatGPT等工具。主推文作者表示,该工具增强了将X平台内容同步至国内平台的意愿,尽管部分平台体验欠佳。

向阳乔木@vista8 · 5月20日69

完成了第一项工作,开源自己常用的油猴脚本。 1. 小红书、抖音、微信贴图,截图粘贴自动上传。 2. Youtube字幕复制,倍速调节,复制字幕给NotebookLM、ChatGPT处理。 3. 小宇宙网页版倍速调整 开源地址:https://github.com/joeseesun/qiaomu-userscripts

译作者开源了自己常用的油猴脚本,主要功能包括小红书、抖音等平台的截图自动上传,以及YouTube字幕复制与倍速调节,方便与NotebookLM、ChatGPT等工具配合使用,同时支持小宇宙网页版调速。这是其个人工作清单的一项,作者感叹不上班后的日程(如测试AI产品、体验谷歌新模型等)反而更满,但核心在于所有事务都是自主选择并乐在其中。

Alibaba Cloud@alibaba_cloud · 5月20日56

Qwen Conference 2026 is coming! Join us at Sands Expo Singapore on May 26. Full-stack AI breakthroughs, 3 parallel forums, and a 1,000 m² exhibition featuring 7+ models and 6+ Agent tools. Register now: https://click.qwencloud.com/m/20000000142/

译Qwen Conference 2026即将到来! 5月26日,新加坡金沙会展中心,全栈AI突破、3场平行论坛、1000平方米展区,展示7+模型与6+ Agent工具。 立即注册:https://click.qwencloud.com/m/20000000142/

Rohan Paul@rohanpaul_ai · 5月20日73

Chinese AI labs are increasingly releasing very serious open source work. SenseNova U1 just dropped on HuggingFace: native multimodal modeling, MoT architecture (38B-Active 3B MoE) It attacks the hardest part of image generation: readable, structured, consistent image-text output. The most interesting part of SenseNova U1 is it treats multimodal generation as one native modeling problem, not a chain of separate vision, language, and image modules. That means less handoff between modules, less information loss, and better consistency when creating dense visual content like infographics, guides, posters, comics, and image-text workflows. ComfyUI support, fast A3B inference, and absolutely brilliant for dense visuals like infographics, posters, comics, and guides.

译商汤科技SenseNova U1已开源发布。其核心创新在于原生多模态统一建模,将视觉、语言与图像生成视为一个统一问题,而非分立模块的链式处理,从而减少了信息损失。该模型采用MoT架构(38B-Active 3B MoE),在生成信息图、海报、漫画等结构复杂的密集图文内容时能保持高度一致性。详细的技术报告披露了其包括近无损视觉接口、联合训练策略在内的完整构建方案,为行业提供了前沿参考。

Berryxia.AI@berryxia · 5月20日38

烟花老师的社群运营的非常好,有一群国内的大咖大佬们 。 社群氛围好,交流的深度也有。 期待烟花老师的AI架构师的技术,给我们更多精彩和好的项目吧~ 如果你还不了解烟花,直接follow 看看他的项目和内容。 一个字: 非常干。 Fo就完了啊!

译推文推荐了AI架构师“烟花老师”,其社群运营出色,汇聚了众多研发、产品与创业领域的高质量成员,交流氛围与深度俱佳。他在X(原Twitter)平台比在国内其他自媒体平台获得了更积极的反馈与传播。作为近40个垂直AI免费社群的联创,其开源项目fireworks-tech-graph在X平台传播下获得了近7k star的关注。整体展现了其作为优质信息源与社区构建者的价值。

Nathan Lambert@natolambert · 5月20日66

For a long time, academic researchers being at the cutting edge of new technologies has been a great social equilibrium. Neutral, unbiased technologists have been the people to spread new ideas to the world. As AI research takes off in velocity, it is also going behind closed doors. The tech industry has sewed distrust, and now they are the ones trying to tell the world about incredible changes coming. It's a big loss to a form of social contract in America. There's been a history of scientists helping society understand new technologies. There is a public service in the culture of science that I want to see continue. It's being exacerbated by feelings of FOMO, especially finically driven, where I'm seeing many people who previously wanted to be professors -- and likely still do deep down -- feel a need to conform and chase money, in a pocket of industry. I get it, I grapple with this. For those with a safety net, there will be great returns to some who choose to zag, and try to build something good, for people who need something different. For me, this is building interesting, fully-open models, to show what you can do with a variety of open weight sizes. Yes, AI's immediate future is dictated by the frontier, but it's long-term trajectory still deeply includes academic institutions and open science. Knowledge will always diffuse, but to whom? As of today, I think China is positioned to be the global home of AI research in a few years. The home of research is where ideas are accessible, spread rapdily, and are nurtured. The U.S. seems to be unwinding many institutions and relationships. The largest returns go to people who build something differentiated, at least in reputation, and a lot of people are not being shown that this path exists.

译本文指出,AI研究正从学术界主导向工业界闭源化转变,打破了长期由中立学者传播前沿知识的社会平衡。科技公司通过制造不信任感掌控叙事,削弱了科学界服务公众的传统。同时,金融驱动的“错失恐惧症”迫使许多志在学术的人才流向工业界。作者认为,尽管短期内发展由闭源模型主导,但知识最终必然扩散,其长期轨迹仍与开放科学紧密相连。在这一趋势下,凭借更利于研究获取与传播的环境,中国有望在未来成为全球AI研究的新中心。

AYi@AYi_AInotes · 5月19日64

Damn it!SAM3绝逼要封神了! 不但开源而且强的一批! 最牛逼的地方是追踪能力, 即使在篮球比赛这种 复杂到爆炸的场景里也稳得一逼!!

歸藏(guizang.ai)@op7418 · 5月19日58

藏师傅的 PPT Skill 突破 1 万 Star 了! 刚才才发现,藏师傅的 PPT Skills 已经马上要突破 10,000 Star 了,就差20个,今天应该就能突破。 我现在提前开香槟了! 这是我 vibe coding 以来第一个突破 10,000 Star 的项目。 在市面上已经有如此多 PPT 生成 Skills 的情况下,它依然仅用了 25 天(不到一个月)就完成了这个突破,比很多大厂知名项目突破 10,000 Star 的速度都要快得多。 在制作这个 PPT Skills 的过程中,我做了非常多的工作来确保它在任何模型、任何 Agent 下都能有非常不错的效果。 这说明即使在竞争非常激烈的环境下,质量和体验依然是第一要素,也是决定性因素。 也感谢最近使用这个 PPT Skills 并帮我提出建议,以及进行各种推广的朋友们,非常感谢!

译藏师傅开发的PPT Skill项目在25天内突破1万Star,速度远超许多大厂知名项目,成为其vibe coding实践中首个达成此里程碑的项目。尽管市场存在众多PPT生成工具,但该项目通过注重质量和用户体验实现了快速增长,凸显了在激烈竞争中,高品质输出是核心决定因素。作者还感谢了用户和推广者的支持与反馈。

Xiaomi MiMo@XiaomiMiMo · 5月19日36

📢Calling all Apache Software Foundation committers Xiaomi MiMo is giving you our Max Token Plan for FREE as part of the 100T Token Grant for Builders Program. Sign up with your http://apache.org email → instantly activated. Sign up now: http://platform.xiaomimimo.com

译📢致所有Apache软件基金会提交者 小米MiMo将通过“100T Token Builder计划”向您免费提供我们的Max Token套餐。 使用您的http://apache.org邮箱注册 → 即刻激活。 立即注册:http://platform.xiaomimimo.com

swyx🛬 SFO@swyx · 5月19日20

taking bets for vercel and supabase rn

译正在为 Vercel 和 Supabase 下注

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月25日
09:53
Alibaba Cloud@alibaba_cloud
31
Qwen Conference 2026 | 直播进行中 新加坡舞台,全球观众。无论您身在何处,共同见证这一刻--收看主题演讲直播: 🎤 技术领袖主题演讲 💻 全栈 AI 💡 全球洞察 ✨ 商业创新 🚀 获取直播观看权限:https://x.com/i/broadcasts/1vJpPrMXaZbJE
开源生态行业动态
09:17
AYi@AYi_AInotes
66
作者分享了其高产的自媒体AI工作流。

作者开源了一套自媒体AI工作流,核心是利用AI智能体自动搜集小红书、推特等平台信息,将每日3-4小时手动筛选缩减至20分钟,产能提升3倍以上。其后续使用Codex的定时任务功能,每天早上自动将筛选出的选题,依据预设提示词(Prompt)整理成包含总结、数据、案例、金句和行动建议的结构完整行业日报。整套流程为“Agent搜集信息 → Codex结构化产出 → 作者最终判断润色”,实现近乎零维护。作者强调,AI辅助的关键在于用对位置,让AI负责筛选与搭建结构而非直接代写,并认为每月花费20美元来换取每天约3小时的时间是高性价比的。

AYi: http://x.com/i/article/2058381329318682624

智能体开源生态教程/实践
06:27
Chubby♨️@kimmonismus
71
Google DeepMind的AlphaProof Nexus自主解决多个开放数学问题

Google DeepMind的AlphaProof Nexus系统自主解决了9个开放的Erdős问题(部分问题存在56年),每个问题的成本约几百美元。它还证明了44个OEIS猜想,解决了一个15年的代数几何问题,并在优化理论中发现了新算法参数。其核心机制是将大语言模型的推理能力与Lean形式化验证系统结合,Lean自动检查每一步逻辑,无需人工复核。研究发现,一个仅交替使用大语言模型生成与编译器反馈的基础智能体,便能复现全部9个Erdős问题的成功。该系统还能检测并修正现有数学文献中的表述错误。其局限在于成功案例集中于Lean数学库成熟的领域(如组合、数论),仍无法解决需要全新理论的大问题。

DeepMind开源生态推理模型发布
04:48
Nathan Lambert@natolambert
64
当前AI进步常被归因于少数算力雄厚的实验室。推文指出,社会动态、政策、技术扩散(diffusion)等其他因素同样深刻影响AI演进,且此领域存在未被充分重视的影响力机遇。开放科学与开放模型是应对方向之一。文中引用观点指出,通往AGI的预训练工作高度集中于OpenAI、Google、Meta等巨头,算力差距的残酷现实是,AGI关键路径上的问题现需巨大算力门槛。

Aidan Clark: If you want to work on pretraining-for-AGI, join OpenAI, Google, Meta or the Anthropic/XAI/Cursor supergroup. The bitter...

Hugging Face大佬观点开源生态
00:27
Chubby♨️@kimmonismus
精选77
TrapDoor供应链攻击:AI助手成新型攻击面

一场名为“TrapDoor”的协调供应链攻击同时袭击了npm、PyPI和Crates.io,涉及34个恶意包,旨在窃取加密货币、AI和安全开发者的钱包、SSH密钥和云凭证。攻击的新手段是向流行开源项目提交Pull Request,注入被操纵的CLAUDE.md和.cursorrules配置文件。当开发者克隆仓库并使用Claude Code或Cursor等AI助手时,AI智能体会将这些文件当作可信指令执行,可能在开发者不知情下运行恶意命令。这是首次将AI助手作为攻击面。

Socket: More analysis, package details, IOCs, and GitHub-related activity here, including attacker-hosted payload/config infrast...

智能体安全/对齐开源生态

推荐理由:这是第一个把AI助手当跳板的供应链攻击,Claude Code和Cursor用户尤其要当心,检查你项目的.cursorrules和CLAUDE.md是不是来自可信提交。
00:18
Berryxia.AI@berryxia
48
DeepSeek算法突围:压缩显存、重塑生态,冲击万亿美元估值

DeepSeek面对GPU禁运,通过算法创新实现突围。核心成果包括:将KV Cache压缩至1/10,使1M上下文仅需5.48GB HBM;将MoE训练成本降低40-50%。其推出的Engram模块可利用LPDDR内存以O(1)查找换取算力。技术突破还涵盖MLA(KV Cache削减90%)、DSA/CSA/HCA等注意力机制重构,以及GRPO算法。效果显著:在1M上下文显存需求对比中,其V4 Pro(5.48GB)远低于GLM5(60GB)和Qwen3-235B(89GB)。该战略旨在盘活中国NAND与LPDDR资源,降低对HBM依赖,并已开源TileLang以打破CUDA壁垒。其V4 Pro模型1M上下文长缓存价格不足Sonnet 4.6的3%。

GDP: http://x.com/i/article/2057886253249662976

DeepSeek开源生态推理现象/趋势
5月24日
21:52
向阳乔木@vista8
45
用Codex开发Suno音乐播放器开源分享

作者分享了一个周末娱乐项目:一个用AI工具开发的Suno音乐生成播放器。该播放器已在线运行,支持电脑和移动端,但后台管理功能尚不完善,目前通过Skill进行音乐下载与上传。项目已开源。引用中补充了该播放器是使用ChatGPT内置的Codex工具在躺卧状态下完成开发的。

向阳乔木: skill写好以后,躺床上也可以用ChatGPT中的codex开发网站了。 正在开发一个Suno音乐播放器,把AI生成的歌曲都传上去。

开源生态教程/实践语音
14:27
Rohan Paul@rohanpaul_ai
51
二手显卡与过时内存成功本地运行万亿参数大模型

近期有技术爱好者成功在单张二手RTX 3060 12GB显卡上,运行了拥有1万亿参数的Kimi K2.5大语言模型,速度约为每秒4个token。这一成果得益于模型的混合专家架构,虽然总参数量巨大,但每次推理仅激活32B参数。实现的关键在于将延迟敏感的核心组件置于GPU显存,而将庞大的专家权重存储在由二手英特尔傲腾持久内存(PMem)构成的768GB大容量内存池中,并以DDR4内存作为缓存。通过llama.cpp工具进行混合调度,该方案为本地部署超大规模模型提供了一条低成本的技术路径。

开源生态教程/实践端侧部署/工程
13:57
Rohan Paul@rohanpaul_ai
62
DeepSeek:将硬件稀缺性转化为可编程的战略优势

DeepSeek的核心战略并非开发廉价聊天机器人,而是通过一系列架构创新(如MoE动态激活、DSA优化、CSA/HCA技术)显著降低对高端HBM GPU的依赖。此举旨在将硬件稀缺性转化为技术优势,使次优芯片、LPDDR内存及定制ASIC能支持前沿AI,从而优化AI以适配不同的工业基础。这一路径已产生实际商业影响,如V4-Pro大幅降价并与国产硬件生态形成联动,最终目标是实现“硬件稀缺性可编程”。

GDP: http://x.com/i/article/2057886253249662976

DeepSeek开源生态推理现象/趋势
13:49
宝玉@dotey
52
DeepSeek的万亿美元战略:以技术创新驱动硬件生态

DeepSeek的核心战略并非销售应用服务,而是通过一系列底层技术创新,特别是MLA等注意力机制大幅压缩KV缓存需求,来重塑AI硬件生态。其技术能将1.6T参数模型在1M上下文下的内存占用降至5.48GB HBM,远低于同类模型。这直接降低了推理成本,并催生两大机会:一是将KV缓存转存至SSD,利好长江存储;二是其架构适配LPDDR内存进行权重缓存,利好长鑫存储。DeepSeek通过开源这些高效架构,正在构建一个以中国存储产业链为核心的新生态,最终目标是带动一个10万亿美元的AI硬件产业,并自身实现万亿美元市值。

DeepSeek大佬观点开源生态现象/趋势
12:15
OpenClaw🦞@openclaw
64
OpenClaw 2026.5.22 已上线 ⚡ Gateway/模型启动路径更精简 🧠 /models 响应时间降至约5毫秒 🔒 npm包现提供锁定依赖项 🪟 Windows安装/更新路径更安全 等待更少,意外更少。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.22
智能体产品更新开源生态部署/工程
11:05
Greg Brockman@gdb
49
低估了Codex是开源的这一事实

Ahmed: Lots of people get surprised when I tell them that Codex is open source

OpenAI大佬观点开源生态
00:18
Berryxia.AI@berryxia
26
这几个好用的工具,你肯定还有不知道的。 记得回来报个信儿~😄 不废话,看图👇🏻。
开源生态教程/实践
5月23日
11:20
meng shao@shao__meng
50
中国算力独立,倒逼美国担忧开源技术栈分化

中国在浮点运算层面实现算力独立后,其AI开源社区的贡献可能转向一套基于国产方案的技术栈,而美国将难以使用或兼容。这一转变将对美国不利,因为其当前的AI研究与基础设施本身高度封闭。根源在于,美国主流的 Nvidia + CUDA 技术路径受限,催生了国产替代方案;随着基于国产方案的开源模型逐渐主流化,未来开源项目可能不再优先支持 Nvidia + CUDA 生态。

Suhail: One real issue with Chinese independence of flop-based compute is that their open source contributions will shift to a s...

大佬观点开源生态
03:57
Chubby♨️@kimmonismus
63
DeepSeek正在进行一轮102.9亿美元的融资。 好消息是:梁文锋依然专注于构建开源AI模型,而非追逐短期商业化。 Via Bloomberg
DeepSeek开源生态行业动态
01:56
Rohan Paul@rohanpaul_ai
同事件精选78
Bloomberg:DeepSeek在融资谈判中优先考虑AGI而非商业化 他们正推进102.9亿美元的融资轮,梁文锋承诺继续开发开源AI模型,而非追求短期商业化目标
DeepSeek开源生态行业动态
同一事件,精选展示《DeepSeek 推进 700 亿元融资,梁文锋承诺坚持开发开源 AI 模型而非追求短期商业化目标》
推荐理由:DeepSeek 百亿融资押注开源 AGI 而非短期变现,在这个闭源收费风潮里是个重要信号,做开源的可以看看。
01:26
Chubby♨️@kimmonismus
59
让我们稍作思考。 DeepSeek v4 pro 降价75%。永久有效! 输入:$0.43 输出:$0.87 如果你读过 DeepSeek v4 的技术论文,就会知道这个模型在效率方面表现惊人。 相比 v3.2,它仅需 27% 的算力和 10% 的缓存。SemiAnalysis 写了一篇很好的文章。 DeepSeek 现在专注于成本/token 效率。

DeepSeek: We are making our discount permanent! 🎉 Enjoy building with DeepSeek-V4-Pro and bring your innovative ideas to life! 🚀

DeepSeek大佬观点开源生态
00:21
Yuchen Jin@Yuchenj_UW
68
哇。DeepSeek给出了高达75%的折扣。 要么他们做了重大的推理优化,要么华为芯片就是这么便宜? 更多开源AI模型,更好的token经济。

DeepSeek: We are making our discount permanent! 🎉 Enjoy building with DeepSeek-V4-Pro and bring your innovative ideas to life! 🚀

DeepSeek开源生态推理行业动态
5月22日
23:14
Nathan Lambert@natolambert
42
任何国家的"开源冠军"头衔,都是通过与社区合作赢得的,而非靠融资强加。
大佬观点开源生态
20:16
AYi@AYi_AInotes
精选76
Karpathy的CLAUDE.md四条规则让AI编程准确率飙升至94%

Karpathy发布的CLAUDE.md文件以其简洁高效的AI编程指导原则引爆GitHub,获得超22万星标并登顶趋势榜。该文件仅含65行、4条核心规则,却能将AI编程的准确率从65%显著提升至94%。其核心在于强制开发者“慢下来”,将深度思考、追求简洁、精准修改和目标驱动等原则变为硬性编码准则,旨在对抗开发者习惯性“先写再说”的本能。目前大多数开发者尚未深入研读这一备受关注的效率指南。

self.dll: karpathy's CLAUDE.md hit #1 on github trending. 220,000 stars. most devs still haven't read it. it's 65 lines. it took A...

开源生态教程/实践编码

推荐理由:Karpathy 这 65 行不是新模型,是给 AI 编程装了道刹车,先想清楚再动手这条反直觉规则把准确率从 65 拉到 94,所有用 Cursor 的都该立刻抄一份。
17:50
Alibaba Cloud@alibaba_cloud
38
多伦多科技周开幕活动上,Beever AI将重点展示三款产品:开源平台Beever Atlas,可将Slack、Teams等团队对话转化为可搜索的"活记忆";企业级大模型训练平台Votii MAGIC将进行全球商用发布,支持本地化构建领域专属AI,并已用于训练首个完全预训练的粤语大模型;现场还将提供基于阿里云的HappyHorse AI视频生成互动体验。活动汇集了加拿大银行、政府、投资机构及学术界代表,旨在赋能区域技术生态。(173字)

Beever AI: 4 days to go. Turn your chats into a living memory. That's what Beever Atlas does - and we're unveiling it in Canada at ...

开源生态行业动态
14:47
小互@xiaohu
71
网易有道开源双模型,聚焦工程精度与落地成本

网易有道开源Confucius4双模型,包括一个专注数学视觉推理的多模态模型,以及一个用于语音克隆的TTS模型。此次开源直接提供完整权重,而非仅提供API,强调在工程精度和实际部署成本上的投入,而非单纯追求参数规模。模型已发布于HuggingFace和GitHub平台。

GitHubHugging Face多模态开源生态
02:44
Sundar Pichai@sundarpichai
同事件精选72
谷歌CEO Sundar Pichai在I/O大会上与MatthewBerman进行了深入对话,全面探讨了当前人工智能发展的多个核心方面。Pichai重点关注了AI代理如何可能取代部分互联网功能,并改变用户的信息获取方式,甚至威胁原始互联网的形态。对话还深入讨论了开源AI模型面临的商业模式困境、中美在AI领域的激烈竞争格局,以及网络安全威胁,包括AI可能引发的攻击和谷歌的应对策略。此外,Pichai指出谷歌正面临巨大的AI算力需求,计算资源已成为主要瓶颈,并探讨了发布强大AI模型的阈值判断问题。他强调了谷歌致力于开发低成本、高效率的AI模型的原因,以应对资源挑战。整体而言,这次对话覆盖了AGI竞赛、AI代理、信息饮食等关键议题,深入分析了AI发展的挑战、机遇和未来趋势。

Matthew Berman: Sundar Pichai (@sundarpichai), Google CEO, on: 🔹Race to AGI 🔹Agents 🔹AI & Information Diet 🔹Open Source 🔹Cybersecur...

智能体Google大佬观点安全/对齐
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:Sundar 罕见聊了不开源大模型、算力瓶颈和中美 AI 生态风险,不是 PR 套话,做基础设施和战略的人值得看。
5月21日
22:11
Berryxia.AI@berryxia
64
MemOS 2.0开源更新,实现AI"执行即学习"

MemOS 2.0开源项目发布,其核心功能“执行即学习”将AI记忆从语义检索升级为自主学习系统。该功能在Agent完成任务时,将执行过程自动拆解为可评分、可复用的经验单元,并通过双重反馈机制分层提炼、强化高效路径。这使得Agent能自动复用已习得的工作模式(如代码风格、处理逻辑),实现持续进化,越用越懂用户。更新同时支持Hermes与OpenClaw工具无缝迁移。

耳朵: MemOS 又有新进展了。 现在搞 AI Memory 的方案不少,但很多还是把聊天记录存下来这个层面,看着像有记忆,实际上就是给 markdown 加了一个语义检索。 @MemOS_dev 做记忆系统已经有一段时间了,从 1.0 一路走到...

智能体产品更新开源生态
16:56
Tencent Hy@TencentHunyuan
精选74
腾讯开源Hy-MT2多语言翻译模型

腾讯正式开源Hy-MT2多语言翻译模型,支持33种语言间的无缝互译。其7B与30B-A3B版本在开源模型中达到最先进的翻译性能,超越了许多参数规模大数十倍的模型。更具突破性的是,1.8B轻量级版本性能超越微软等主流商业API,并凭借腾讯AngelSlim 1.25-bit极量化技术,仅需440MB存储空间,即可在主流手机芯片上本地运行,推理速度较前代提升1.5倍,显著降低了高质量AI翻译的部署门槛。

开源生态模型发布端侧
关联讨论 2 条X:腾讯混元 (@TencentHunyuan)IT之家(RSS)
推荐理由:虽然翻译领域不算最热,腾讯这个1.8B开源模型用1.25位量化直接跑在手机上,效果还超微软商业API,做本地化翻译工具的人值得关注。
12:14
Rohan Paul@rohanpaul_ai
69
MTP技术大幅提升本地大模型速度

atomic.chat的MTP(多Token预测)技术通过一次验证多个草稿token,有效减少了GPU重复读取模型权重的次数,显著提升了本地大模型的推理速度。测试显示,27B密集模型的速度从51 token/s提升至117 token/s,提升约137%;35B MoE模型在2x RTX 5090上速度提升约25%。该技术实现了约80%的草稿接受率,无精度损失,仅需额外约1GB显存。由于密集模型需要读取全部参数,其从该技术中获益更大。此项目已开源。

atomic.chat: MTP speedup Qwen by 2.5x in Atomic Chat Dense vs MoE models on 2x RTX 5090 Qwen3.6 27B: 51 → 117 tps +137% Qwen3.6 35B-A...

产品更新开源生态推理
05:18
OpenClaw🦞@openclaw
精选66
OpenClaw 2026.5.19 🦞 📱 Android Talk Mode 实现实时化 🍎 Mac 设置界面更清爽 🔐 xAI 登录支持无头模式 🧵 Telegram 话题功能更稳定 大版本更新,简短公告。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.19
产品更新开源生态语音

推荐理由:一堆小修小补但都很实用,尤其 Android 实时对话模式,开源 AI 客户端里难得把体验做到这个程度,值得更新。
01:36
Rohan Paul@rohanpaul_ai
67
Velobase开源AI SaaS商业基础设施框架

Velobase宣布开源其AI SaaS框架Velobase Harness。该项目强调,在AI应用时代,产品本身并非真正的护城河,将用户转化为收入的基础设施才是关键。Velobase自身从应用无人问津发展到实现八位数ARR的经历,印证了这一观点。该框架旨在补全从可用应用到盈利业务之间的缺失环节,提供包括支付计费、用户归因、分析与A/B测试在内的全套后端服务。

Velobase: Everyone can build an app now. Almost no one makes a dollar from it. We went from the same problem to 8-figure ARR. The ...

开源/仓库开源生态部署/工程
5月20日
20:08
Berryxia.AI@berryxia
70
本地AI生图"意外"加速,Draw Things新发现

在开源生图软件Draw Things中,一项意外发现显著提升了本地AI生图速度。将原为Z-Image Base训练的Z-Image-Fun-Lora-Distill与Z Image Turbo搭配使用后,原本需要8-9步的生成过程可缩减至3-4步,大幅缩短了本地生成时间,同时保持了画质与细节的稳定。这一组合有效突破了此前本地生图速度较慢的限制。

Draw Things: 🔍 An interesting discovery! 🧩 Z-Image-Fun-Lora-Distill from alibaba-pai was originally trained for Z-Image Base, with ...

图像生成开源生态教程/实践
15:33
Alibaba Cloud@alibaba_cloud
51
Qwen Conference 2026即将举行! 5月26日,新加坡金沙会展中心。 主讲全栈AI突破,设3个平行论坛, 1000平方米展区展示7+模型与6+ Agent工具。 立即注册:https://click.qwencloud.com/m/20000000142/
智能体开源生态行业动态
14:31
向阳乔木@vista8
精选76
开源油猴脚本实现小红书、抖音、微信公众号的截图粘贴自动上传,并支持YouTube字幕复制、倍速调节及内容导出至NotebookLM、ChatGPT等工具。主推文作者表示,该工具增强了将X平台内容同步至国内平台的意愿,尽管部分平台体验欠佳。

向阳乔木: 完成了第一项工作,开源自己常用的油猴脚本。 1. 小红书、抖音、微信贴图,截图粘贴自动上传。 2. Youtube字幕复制,倍速调节,复制字幕给NotebookLM、ChatGPT处理。 3. 小宇宙网页版倍速调整 开源地址:https:/...

GitHub开源/仓库开源生态

推荐理由:向阳乔木开源了一套油猴脚本,让截图直接粘贴上传到小红书、抖音等平台,对多平台内容分发的人来说是一个小而实在的时间节省利器。
14:01
向阳乔木@vista8
69
开源实用油猴脚本,不上班却更忙更充实

作者开源了自己常用的油猴脚本,主要功能包括小红书、抖音等平台的截图自动上传,以及YouTube字幕复制与倍速调节,方便与NotebookLM、ChatGPT等工具配合使用,同时支持小宇宙网页版调速。这是其个人工作清单的一项,作者感叹不上班后的日程(如测试AI产品、体验谷歌新模型等)反而更满,但核心在于所有事务都是自主选择并乐在其中。

向阳乔木: 今天的 Todolist 清单: 1. 上架一个快捷提示词 Chrome 插件 2. 开源几个油猴脚本 3. 测朋友的 AI 产品,写个简单评测 4. 准备周六直播问题 5. 去海河钓鱼 6. 体验谷歌昨天的发布模型和工具 ... 不上班比...

开源/仓库开源生态
12:02
Alibaba Cloud@alibaba_cloud
56
Qwen Conference 2026即将到来! 5月26日,新加坡金沙会展中心,全栈AI突破、3场平行论坛、1000平方米展区,展示7+模型与6+ Agent工具。 立即注册:https://click.qwencloud.com/m/20000000142/
智能体开源生态行业动态
11:34
Rohan Paul@rohanpaul_ai
73
SenseNova U1开源发布,革新原生多模态生成

商汤科技SenseNova U1已开源发布。其核心创新在于原生多模态统一建模,将视觉、语言与图像生成视为一个统一问题,而非分立模块的链式处理,从而减少了信息损失。该模型采用MoT架构(38B-Active 3B MoE),在生成信息图、海报、漫画等结构复杂的密集图文内容时能保持高度一致性。详细的技术报告披露了其包括近无损视觉接口、联合训练策略在内的完整构建方案,为行业提供了前沿参考。

SenseTime: 🔥 New week, New SenseNova-U1 Drop - and this one goes Deep!🔥 📄 The full Technical Report is OUT - the most detailed d...

图像生成多模态开源生态模型发布
01:02
Berryxia.AI@berryxia
38
推特科技圈宝藏AI架构师与社群推荐

推文推荐了AI架构师“烟花老师”,其社群运营出色,汇聚了众多研发、产品与创业领域的高质量成员,交流氛围与深度俱佳。他在X(原Twitter)平台比在国内其他自媒体平台获得了更积极的反馈与传播。作为近40个垂直AI免费社群的联创,其开源项目fireworks-tech-graph在X平台传播下获得了近7k star的关注。整体展现了其作为优质信息源与社区构建者的价值。

烟花老师: 还有一百多就五千订阅了,不知道一觉醒来会不会有惊喜。我经常不按常理出牌,就提前写好庆祝5k订阅达成吧,哈哈🎆 我主业是一个AI架构师,也是一支烟花AI社区的联创,从23年至今大概积累了40个垂直的AI社群,大家都很纯粹 全都是免费的社群,...

开源生态行业动态
00:42
Nathan Lambert@natolambert
66
学术失衡:AI研究转向闭源与全球知识扩散

本文指出,AI研究正从学术界主导向工业界闭源化转变,打破了长期由中立学者传播前沿知识的社会平衡。科技公司通过制造不信任感掌控叙事,削弱了科学界服务公众的传统。同时,金融驱动的“错失恐惧症”迫使许多志在学术的人才流向工业界。作者认为,尽管短期内发展由闭源模型主导,但知识最终必然扩散,其长期轨迹仍与开放科学紧密相连。在这一趋势下,凭借更利于研究获取与传播的环境,中国有望在未来成为全球AI研究的新中心。

大佬观点开源生态现象/趋势
5月19日
20:52
AYi@AYi_AInotes
64
Damn it!SAM3绝逼要封神了! 不但开源而且强的一批! 最牛逼的地方是追踪能力, 即使在篮球比赛这种 复杂到爆炸的场景里也稳得一逼!!
Meta开源生态模型发布视频
17:07
歸藏(guizang.ai)@op7418
58
藏师傅PPT Skill 25天破万Star,质量制胜

藏师傅开发的PPT Skill项目在25天内突破1万Star,速度远超许多大厂知名项目,成为其vibe coding实践中首个达成此里程碑的项目。尽管市场存在众多PPT生成工具,但该项目通过注重质量和用户体验实现了快速增长,凸显了在激烈竞争中,高品质输出是核心决定因素。作者还感谢了用户和推广者的支持与反馈。

开源生态行业动态
16:49
Xiaomi MiMo@XiaomiMiMo
36
📢致所有Apache软件基金会提交者 小米MiMo将通过"100T Token Builder计划"向您免费提供我们的Max Token套餐。 使用您的http://apache.org邮箱注册 → 即刻激活。 立即注册:http://platform.xiaomimimo.com
产品更新开源生态
15:00
swyx🛬 SFO@swyx
20
正在为 Vercel 和 Supabase 下注

altra: Bun goes to Anthropic Stainless goes to Anthropic Astral goes to OpenAI Mintlify goes to OpenAI (???)

开源生态行业动态
‹ 上一页
1…1112131415…20
下一页 ›