翻译一下,Kimi 自己基于 Python 写的 kimi-cli,在今天换成了基于 Typescript 和 pi-tui 写的新 kimi-code。 已经在 PUA 对应的研发小哥哥加一些我在 Claude Code 上用得很爽的功能...
早报精选10篇文章并精讲3篇:包括Google与OpenAI将AI商业竞争焦点转向部署落地,Anthropic研究PM揭秘下一代Claude的「dreaming机制」,以及关于“超级个体”是通过完整Closed-loop被激发而成的反直觉观点。
论文提出ZEDA框架,可将训练后固定的静态MoE模型(如Qwen3、GLM)转变为动态模型,允许路由器在token过于简单时跳过专家调用。实验显示,在Qwen3-30B-A3B和GLM-4.7-Flash上,ZEDA可移除约50%的专家计算量,仅带来轻微准确率损失,并实现约20%的实际推理速度提升。研究发现,计算分配主要依据模型的不确定性,而非单纯跟随任务难度。
2026年科技行业出现大规模裁员,多家公司公开将人力成本转向AI投资。Meta裁员8000人,同时投入1000亿美元建设AI数据中心;Cisco CEO称裁员4000人已是“乐观地低”;Intuit裁员3000人以重构业务,但对媒体否认“因AI裁员”。据统计,今年已有超10万科技岗位流失,TrueUp预测全年可能达37万。推文指出,核心变化在于公司不再避讳,正公开地将人力预算“转换为GPU集群”。
华为在先进NAND芯片受限的背景下,未直接追赶三星主导的高层数堆叠技术,而是采用“Die-on-Board”封装方案,通过将NAND裸片直接安装在电路板上提升存储密度,推出122.88TB AI SSD并计划推出245TB版本。与此同时,DeepSeek通过MoE、CSA/HCA等架构优化,大幅降低模型对HBM和算力的依赖,使国产硬件更适配前沿AI需求。两者路径形成呼应:华为从封装层面绕过芯片性能差距,DeepSeek从算法层面缓解硬件稀缺压力,共同体现了在外部限制下通过底层技术创新开辟新赛道的战略思维。
Great article here on DeepSeek. Their real story is not cheaper chatbots, but architecture that turns hardware scarcity ...
近期有技术爱好者成功在单张二手RTX 3060 12GB显卡上,运行了拥有1万亿参数的Kimi K2.5大语言模型,速度约为每秒4个token。这一成果得益于模型的混合专家架构,虽然总参数量巨大,但每次推理仅激活32B参数。实现的关键在于将延迟敏感的核心组件置于GPU显存,而将庞大的专家权重存储在由二手英特尔傲腾持久内存(PMem)构成的768GB大容量内存池中,并以DDR4内存作为缓存。通过llama.cpp工具进行混合调度,该方案为本地部署超大规模模型提供了一条低成本的技术路径。
DeepSeek的核心战略并非开发廉价聊天机器人,而是通过一系列架构创新(如MoE动态激活、DSA优化、CSA/HCA技术)显著降低对高端HBM GPU的依赖。此举旨在将硬件稀缺性转化为技术优势,使次优芯片、LPDDR内存及定制ASIC能支持前沿AI,从而优化AI以适配不同的工业基础。这一路径已产生实际商业影响,如V4-Pro大幅降价并与国产硬件生态形成联动,最终目标是实现“硬件稀缺性可编程”。
http://x.com/i/article/2057886253249662976
一项新研究提出通过改进包裹冻结LLM的运行时接口来优化AI代理性能,而非修改模型本身。该方法将反复出现的交互失败转化为对运行时层的可复用干预,在7个确定性环境、126个设置中取得平均88.5%的相对性能提升。关键发现是,从单一模型轨迹中学习到的运行时方法可成功迁移至18个不同模型骨架,证明其捕捉的是环境结构而非模型特异性模式。这为生产环境中部署AI代理提供了更高可移植性的解决方案。
代理型AI(Agentic AI)的兴起正悄然改变AI计算的格局。与过去市场将GPU视为训练大模型的核心稀缺资源不同,代理型AI的任务并非单一查询,而是一个涉及规划、工具调用、记忆检索、代码执行与数据库查询的持续循环过程。这一复杂的推理与编排过程,包含大量数据移动、调度等通用计算任务,恰恰是CPU相较于GPU等加速器更为擅长的工作。正如ARK Invest CEO Cathie Wood引用OpenAI CFO Sarah Friar的话所指出的,专注于GPU的人们可能会对代理型AI如何激活CPU的能力感到惊讶。这暗示着AI计算的瓶颈正从模型训练的并行计算,转向代理执行阶段的通用处理能力,使得CPU的重要性得以重新凸显。
Cerebras在其晶圆级芯片上实现了每秒981 tokens的推理速度,处理参数规模达1万亿的Kimi K2.6模型。该速度已获Artificial Analysis验证,是当前最快GPU云方案的6.7倍。其技术优势源于单一晶圆集成设计,大幅减少了芯片间通信延迟,从而突破了传统GPU集群因跨芯片数据搬运造成的性能瓶颈。这一速度提升对需要运行企业级编码代理等大型AI应用至关重要,能显著缩短测试、调试与迭代周期。
Kakuna是一款AI代理工具,旨在将早期快速原型自动转化为可维护的生产级代码库。它通过内置的检查清单和“计划-目标”工作流,模拟人类开发与运维流程,在保持功能不变的前提下,自动执行代码审查、测试补充、重构等“无聊”工作,并强调子代理并行以提升效率。该工具是为“人类与代理协作”而设计的范例,其核心是“反熵增”与“反代码腐化”。例如,一次约16小时的运行能生成上百次提交,将一个脆弱的MVP转变为一个结构清晰、可长期构建的稳定项目。
working on a "take this vibecoded slop app and make it a production-ready, e2e tested, maintainable, parallelizable agen...
You can also connect to inference endpoints that follow the OpenAI Chat Completions API. This includes @OpenRouter, @Lit...
摩根士丹利发布了对NVIDIA VR200的物料清单分析。报告指出,其内存成本特指LPDDR5x SOCAMM与NVMe SSD,而GPU成本中已单独包含HBM。因采用无缆设计,PCB面积与材料成本有所上升。报告列示的总成本为OEM渠道价格,大型云服务商的采购成本将更低。该机构客户自2026年2月起已获得此分析,报告同时研究了网络连接器、背板等组件的变化及供应商格局演变。
Sheesh. $NVDA VR200 Bom Analysis from MS.
The DeepSeek-V4-Pro discount has been extended until May 31, 2026, 15:59 UTC!
An update: we're 3xing the rate limits for Gemini models across all paid tiers in Antigravity and resetting everyone's G...
东京大学研发了一种新型芯片组件,其处理数据速度较传统方法提升1000倍,且不产生额外热量。关键突破在于功耗仅为现有技术的百分之一,这理论上能使一个谷歌规模的数据中心能耗降低至当前的百分之一,极大缓解AI行业的能源压力。然而,该芯片原型预计2030年才问世,商用化需更长时间,凸显了AI快速发展与突破性节能技术量产时间之间的差距。
华为于上海举办智能金融峰会2026(HiFS 2026),与全球金融业领袖探讨AI驱动的数字化转型。华为基于全栈云化的计算、存储与网络能力,通过软硬件系统级协同,构建了坚实的金融基础设施。在此之上,华为正打造一个支持多种模型与场景的金融级AI Agent赋能平台,旨在推动金融业向智能化阶段跃迁。
本期早报聚焦AI Agent的成熟化。Anthropic首次发布Memory与Dreaming基础设施原语,将跨会话记忆工程化,Rakuten部署后首次执行错误率下降97%。通义实验室的Qwen3.7-Max通过35小时极限压力测试,在未知硬件平台上自主优化Kernel,实现1158次工具调用零中断,凸显长程稳定性,将国内大模型竞争焦点从问答分数转向Agent可靠性。与此同时,Every创始人观察到,随着AI自动化普及,能评判执行质量的人类专家价值反而凸显。这些进展共同指向Agent成熟的基础设施、模型基座与人类协作新范式。
An update: we're 3xing the rate limits for Gemini models across all paid tiers in Antigravity and resetting everyone's G...
AI基础设施平台Modal宣布完成C轮融资,以46.5亿美元估值融资3.55亿美元,由General Catalyst和Redpoint领投。该平台为Anthropic、Meta、Suno等众多AI公司提供可扩展的AI工作负载(训练、推理、沙箱等)运行服务,以高效著称。Modal的两位创始人均为国际信息学奥林匹克金牌得主,公司展现出高人均营收的运营效率。
Today we're announcing our Series C funding: $355M at a $4.65B valuation, led by some great investors @generalcatalyst a...
据The Information报道,微软正向AI公司Anthropic推销其第二代AI芯片Maia 200,强调该芯片在特定推理任务中比NVIDIA芯片更具成本效益。Maia 200专注于高速推理而非训练,双方已有深度合作基础:Anthropic已在Azure承诺300亿美元支出,且Claude已整合进微软Copilot。此次芯片合作旨在深化协同。分析认为,Maia 200无需全面超越NVIDIA,只要能在高量推理中提供更低成本选项,便可能将部分计算需求从GPU转移。
推文展示了AI工具(如Codex和Claude Code)在服务器运维领域的强大能力。仅需提供SSH账号密码,AI即可自动配置海外VPS,无需手动安装宝塔等控制面板。若域名使用Cloudflare,提供DNS API权限后,AI能自动完成域名解析、SSL证书申请及续期等全流程配置。这标志着AI已能承担专业级运维任务,显著降低技术门槛,使普通人也能轻松管理服务器与域名。