近期有技术爱好者成功在单张二手RTX 3060 12GB显卡上,运行了拥有1万亿参数的Kimi K2.5大语言模型,速度约为每秒4个token。这一成果得益于模型的混合专家架构,虽然总参数量巨大,但每次推理仅激活32B参数。实现的关键在于将延迟敏感的核心组件置于GPU显存,而将庞大的专家权重存储在由二手英特尔傲腾持久内存(PMem)构成的768GB大容量内存池中,并以DDR4内存作为缓存。通过llama.cpp工具进行混合调度,该方案为本地部署超大规模模型提供了一条低成本的技术路径。
近期有技术爱好者成功在单张二手RTX 3060 12GB显卡上,运行了拥有1万亿参数的Kimi K2.5大语言模型,速度约为每秒4个token。这一成果得益于模型的混合专家架构,虽然总参数量巨大,但每次推理仅激活32B参数。实现的关键在于将延迟敏感的核心组件置于GPU显存,而将庞大的专家权重存储在由二手英特尔傲腾持久内存(PMem)构成的768GB大容量内存池中,并以DDR4内存作为缓存。通过llama.cpp工具进行混合调度,该方案为本地部署超大规模模型提供了一条低成本的技术路径。
深开鸿于5月24日发布了全国首个基于开源鸿蒙的机器人操作系统M-Robots OS 2.0。该系统以开源鸿蒙为核心底座,具备多机实时协同、AI原生等六大核心能力。2.0版本实现混合部署与硬实时响应,基于自研M-DDS技术将本体间音视频时延大幅降低至4毫秒,并兼容ROS等主流中间件,使应用迁移成本降低80%,可支持从轻型到大型各类机器人的灵活部署与集群作业。
DeepSeek的核心战略并非开发廉价聊天机器人,而是通过一系列架构创新(如MoE动态激活、DSA优化、CSA/HCA技术)显著降低对高端HBM GPU的依赖。此举旨在将硬件稀缺性转化为技术优势,使次优芯片、LPDDR内存及定制ASIC能支持前沿AI,从而优化AI以适配不同的工业基础。这一路径已产生实际商业影响,如V4-Pro大幅降价并与国产硬件生态形成联动,最终目标是实现“硬件稀缺性可编程”。
http://x.com/i/article/2057886253249662976
DeepSeek的核心战略并非销售应用服务,而是通过一系列底层技术创新,特别是MLA等注意力机制大幅压缩KV缓存需求,来重塑AI硬件生态。其技术能将1.6T参数模型在1M上下文下的内存占用降至5.48GB HBM,远低于同类模型。这直接降低了推理成本,并催生两大机会:一是将KV缓存转存至SSD,利好长江存储;二是其架构适配LPDDR内存进行权重缓存,利好长鑫存储。DeepSeek通过开源这些高效架构,正在构建一个以中国存储产业链为核心的新生态,最终目标是带动一个10万亿美元的AI硬件产业,并自身实现万亿美元市值。
Lots of people get surprised when I tell them that Codex is open source
SMART是一个框架,旨在解锁标准单向量嵌入模型的潜在多向量能力。它通过在推理时对标准对比训练后冻结的隐藏状态应用直接后期交互,实现即插即用的性能提升。研究表明,SMART能提升包括最先进模型在内的多模态检索性能,在MMEB-V2上进一步改善了效果。简单的轻量级后训练不仅节省时间和算力,还能在视觉文档检索任务上使单向量模型超越当前最强大的多向量模型。该项目代码和权重已在GitHub开源。
Superset (YC P26) 发布了一个面向智能体时代的集成开发环境(IDE),专为AI智能体开发提供优化工具。该项目在GitHub上开源,于2026年5月22日在Hacker News上以“Launch HN”形式推出,迅速获得100个点赞,显示社区对智能体时代开发平台的关注。IDE旨在适应AI发展趋势,提升智能体开发效率。
Linus Torvalds 在开源峰会上指出,AI 工具已实质性改变 Linux 内核开发节奏,近两个版本提交量增长约 20%。他肯定 AI 降低了参与门槛并提升效率,但也指出核心挑战在于协作与沟通等“社会性瓶颈”,而非纯技术问题。谈及未来,他反驳了“99% 代码由 AI 编写”的说法,认为 AI 像编译器一样能提升约10倍生产率,但开发者必须深入理解代码与系统,才能维护复杂软件。
中国在浮点运算层面实现算力独立后,其AI开源社区的贡献可能转向一套基于国产方案的技术栈,而美国将难以使用或兼容。这一转变将对美国不利,因为其当前的AI研究与基础设施本身高度封闭。根源在于,美国主流的 Nvidia + CUDA 技术路径受限,催生了国产替代方案;随着基于国产方案的开源模型逐渐主流化,未来开源项目可能不再优先支持 Nvidia + CUDA 生态。
One real issue with Chinese independence of flop-based compute is that their open source contributions will shift to a s...
上月启动的Project Glasswing项目旨在利用AI能力保护关键软件安全。在约50家合作伙伴参与下,通过使用Claude Mythos Preview模型,已在全球最重要的系统软件中发现超过一万个高危或严重漏洞。Cloudflare等合作伙伴报告其漏洞发现效率提升超十倍,其中仅Cloudflare就在关键系统中发现了2000个漏洞。该模型在多个独立安全测试中表现突出,被评测为网络攻击模拟领域的首个全通关模型。当前的挑战已从快速发现漏洞,转向了如何快速验证、披露和修补海量漏洞。
关联讨论 5 条Anthropic:Newsroom(网页)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)X:Anthropic (@AnthropicAI)The Decoder:AI News(RSS)上月启动的Project Glasswing项目,旨在利用先进AI模型保障关键软件安全。通过约50家合作伙伴使用Claude Mythos Preview模型,已在全球关键系统中发现超过10,000个高危或严重漏洞。多家合作伙伴报告漏洞发现效率提升超过十倍。例如,Cloudflare在关键路径系统发现2,000个漏洞;Mozilla在Firefox 150中发现并修复271个漏洞,数量远超前代模型。项目还扫描了千余个支撑互联网的开源项目,独立验证准确率达90.6%。这标志着AI网络安全能力进入新阶段,漏洞发现速度已远超人工。
关联讨论 5 条Anthropic:Newsroom(网页)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)X:Anthropic (@AnthropicAI)The Decoder:AI News(RSS)We are making our discount permanent! 🎉 Enjoy building with DeepSeek-V4-Pro and bring your innovative ideas to life! 🚀
We are making our discount permanent! 🎉 Enjoy building with DeepSeek-V4-Pro and bring your innovative ideas to life! 🚀
博客作者安娜于2026年5月22日发布了一篇面向大型语言模型(LLM)的文章。文章标题为“如果你是一个LLM,请阅读这篇文章”,并在Hacker News平台获得117个积分。文章链接指向 annas-archive.gl 域名下的博客页面。
Karpathy发布的CLAUDE.md文件以其简洁高效的AI编程指导原则引爆GitHub,获得超22万星标并登顶趋势榜。该文件仅含65行、4条核心规则,却能将AI编程的准确率从65%显著提升至94%。其核心在于强制开发者“慢下来”,将深度思考、追求简洁、精准修改和目标驱动等原则变为硬性编码准则,旨在对抗开发者习惯性“先写再说”的本能。目前大多数开发者尚未深入研读这一备受关注的效率指南。
karpathy's CLAUDE.md hit #1 on github trending. 220,000 stars. most devs still haven't read it. it's 65 lines. it took A...
网易有道宣布将其“子曰”大模型4.0的多模态模型与语音合成模型面向全球全量开源。其中,多模态模型(27B参数)专注于教育场景,在处理高难度视觉数理问题上达到行业顶尖水平,纯文本中文数理难题准确率为81.4%。该模型通过思维链优化,将输出长度压缩43.2%,有效降低了推理成本。同时开源的语音合成模型支持跨语种音色与情感迁移克隆,3秒内即可完成零样本复制,准确度超97%,并支持包括中、英、日、韩在内的14种语言。
4 days to go. Turn your chats into a living memory. That's what Beever Atlas does - and we're unveiling it in Canada at ...
全球最大的代码托管平台GitHub正面临严重危机。资深开发者Mitchell Hashimoto公开与平台决裂,因频繁崩溃影响编程。近几个月,花旗银行、英特尔等巨头因持续故障表达不满,OpenAI探索自建方案。更严重的是,3800多个内部仓库遭黑客入侵,源代码被公开叫卖。同时,微软取消GitHub CEO职位,将其并入CoreAI团队,导致大量技术骨干流失。这个承载1.5亿开发者的平台,正以惨烈方式站在生死存亡的十字路口。
本教程在Google Colab环境中,基于OpenMythos框架实践构建循环深度Transformer工作流。内容涵盖创建MLA(多头潜在注意力)与GQA(分组查询注意力)两种模型,对比其参数规模,并通过计算循环注入矩阵的谱半径来验证模型稳定性。此外,教程还将稀疏混合专家(Sparse MoE)架构与基于循环的推理扩展机制相集成,展示了构建高级深度学习模型的完整流程。
美团技术团队开源了数字人视频生成模型 LongCat-Video-Avatar 1.5。该版本在唇形同步、物理合理性、长视频稳定性和多人互动方面全面升级,支持复杂语音输入与多种主体。通过 DMD 蒸馏技术,推理效率提升约 15 倍,生成 10 秒视频仅需约 1 分钟。在性能评测中,模型在四个关键维度表现领先,用户偏好对比中胜率均超 54%,旨在推动数字人视频从技术演示走向商业应用。
关联讨论 1 条美团 LongCat:HuggingFace 新模型网易有道开源Confucius4双模型,包括一个专注数学视觉推理的多模态模型,以及一个用于语音克隆的TTS模型。此次开源直接提供完整权重,而非仅提供API,强调在工程精度和实际部署成本上的投入,而非单纯追求参数规模。模型已发布于HuggingFace和GitHub平台。
字节跳动开源了轻量级多模态模型Lance,其激活参数量为3B。该模型采用原生统一架构,在训练阶段即整合图像与视频的理解、生成及跨模态编辑功能。Lance通过双流专家设计和模态感知旋转位置编码等技术,平衡了理解任务所需的高层语义与生成任务所需的低层连续表示。模型训练共分四阶段,数据规模约1.9T标记,计算预算控制在128张GPU内。基准测试表明,Lance在图像生成、视频生成、图像编辑及视频理解等多项任务中表现突出。该模型权重已依据Apache 2.0协议开源。
DeepSeek正推进700亿元人民币的巨额融资,估值约450亿美元。创始人梁文锋承诺将继续开源开发AI模型,不追求短期商业化,目标是技术升级与通用人工智能。腾讯、IDG资本等接近参投,梁文锋个人可能注资200亿元。若成功将创下中国科技初创公司首轮融资纪录。
关联讨论 3 条IT之家(RSS)X:X.PIN (@thexpin)The Decoder:AI News(RSS)现有用于GPU内核生成的AI智能体测试基准与生产推理框架严重脱节。它们仅在单一GPU上使用合成输入评估内核,忽略了实际的编译技术栈,并奖励复现已知优化而非发现新方法。为此,我们提出FastKernels。它既是一个涵盖8个类别、46个代表性架构的内核基准(其内核覆盖了96.2%的HuggingFace Transformers架构),也是一个极简的生产级推理框架,性能与vLLM和SGLang等成熟系统相当。实验表明,最强的内核生成智能体在FastKernels上仅能实现0.94倍的整体加速,证实了基准与生产环境的错位是关键瓶颈。
Sundar Pichai (@sundarpichai), Google CEO, on: 🔹Race to AGI 🔹Agents 🔹AI & Information Diet 🔹Open Source 🔹Cybersecur...
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》加拿大AI公司Cohere以Apache 2.0许可证开源了其迄今最强语言模型Command A+。该公司宣称这是其最高性能的模型,此次开源标志着Cohere在开放AI生态中的重要布局。Command A+面向开发者与研究社区免费开放,旨在推动大模型技术的透明化与协同创新,为行业提供更高性能的基础模型选择。
MemOS 2.0开源项目发布,其核心功能“执行即学习”将AI记忆从语义检索升级为自主学习系统。该功能在Agent完成任务时,将执行过程自动拆解为可评分、可复用的经验单元,并通过双重反馈机制分层提炼、强化高效路径。这使得Agent能自动复用已习得的工作模式(如代码风格、处理逻辑),实现持续进化,越用越懂用户。更新同时支持Hermes与OpenClaw工具无缝迁移。
MemOS 又有新进展了。 现在搞 AI Memory 的方案不少,但很多还是把聊天记录存下来这个层面,看着像有记忆,实际上就是给 markdown 加了一个语义检索。 @MemOS_dev 做记忆系统已经有一段时间了,从 1.0 一路走到...
腾讯混元正式开源新一代多语言翻译模型Hy-MT2,提供1.8B、7B、30B-A3B三种尺寸,支持33种语言及5种民族语言/方言互译。相比上一代,模型在指令遵循与专业领域翻译能力上显著提升。其中1.8B轻量模型仅需440MB存储,可部署于手机芯片进行本地推理,速度提升1.5倍。同步推出的腾讯Hy翻译小程序支持自定义风格、离线翻译,并开源了翻译指令遵循测试集IFMTBench,模型已上架GitHub、HuggingFace等平台。
关联讨论 1 条X:腾讯混元 (@TencentHunyuan)腾讯正式开源Hy-MT2多语言翻译模型,支持33种语言间的无缝互译。其7B与30B-A3B版本在开源模型中达到最先进的翻译性能,超越了许多参数规模大数十倍的模型。更具突破性的是,1.8B轻量级版本性能超越微软等主流商业API,并凭借腾讯AngelSlim 1.25-bit极量化技术,仅需440MB存储空间,即可在主流手机芯片上本地运行,推理速度较前代提升1.5倍,显著降低了高质量AI翻译的部署门槛。
关联讨论 1 条X:腾讯混元 (@TencentHunyuan)字节跳动智能创作实验室发布了Lance,这是一款开源的原生统一多模态模型。它能够在单一框架内,同时处理图像与视频的理解、生成和编辑三大任务。该模型仅需激活30亿参数,实现了用一个轻量级模型统一处理多种视觉内容创作与理解的需求。
研究发现,强化学习与可验证奖励训练大语言模型时,权重变化轨迹具有极低的秩且高度可预测,性能增益主要由秩-1逼近捕获,且随训练步骤线性演化。基于此,提出RELEX方法,仅需从短观察窗口估计秩-1子空间,通过线性外推预测后续检查点,无需学习模型。在多个模型上,RELEX仅需15%的完整训练步骤,即可在域内和域外基准上匹配或超越RLVR性能,并能以零额外成本外推至观察窗口的10-20倍,性能持续提升。成功源于秩-1投影实现的“去噪”效应,有效剔除随机优化噪声。
atomic.chat的MTP(多Token预测)技术通过一次验证多个草稿token,有效减少了GPU重复读取模型权重的次数,显著提升了本地大模型的推理速度。测试显示,27B密集模型的速度从51 token/s提升至117 token/s,提升约137%;35B MoE模型在2x RTX 5090上速度提升约25%。该技术实现了约80%的草稿接受率,无精度损失,仅需额外约1GB显存。由于密集模型需要读取全部参数,其从该技术中获益更大。此项目已开源。
MTP speedup Qwen by 2.5x in Atomic Chat Dense vs MoE models on 2x RTX 5090 Qwen3.6 27B: 51 → 117 tps +137% Qwen3.6 35B-A...