Palantir CEO透露,部分美国政府客户正在将敏感AI工作迁移至Nvidia的Nemotron开源模型。Nemotron可在气隙环境运行,隔离于不安全的外部网络,适合对数据泄露敏感的国防任务。Karp称Nemotron在机密战场级任务上表现相当或更优。更深层变化在于,模型质量不再是唯一购买决策因素,机构现在综合权衡速度、价格、主权、审计追踪和运营控制。美国开源模型为华盛顿提供了介于闭源实验室和海外技术栈之间的第三条路径。
Grok Build from @xai is now available in Railway sandboxes Run `ssh sandboxes@railway.new` in your terminal and try it o...
DAIR.AI 的 Elvis Saravia 分享了自己过去几个月构建的 PaperWiki,这是一个基于 LLM 和编程智能体的知识库,用于研究工作流。它通过自动化每日更新,从多个来源摄入论文并存入 Obsidian,使用 qmd 索引,以 HTML artifact 呈现,支持全文和语义搜索。Saravia 使用前沿模型(opus-4.8)和开放权重模型(deepseek-v4-flash)混合维护,并计划开源。他认为 LLM Wiki 是当前最有价值的 AI 应用方向之一。
该论文指出,MCP服务器设计不同于普通API,因为LLM通过纯语言描述选择工具,过多或模糊的工具会导致混淆。作者归纳了5种实际模式(如暴露数据、运行工作流、保持会话状态、组合服务器、翻译混乱领域API),并警告4个常见错误(大而全工具、模糊描述、不安全外部内容、慢工具应返回job ID)。在54个额外服务器上测试发现,弱模型在可见工具超过10-15个时准确率降至90%以下。良好MCP设计的核心是使工具列表小巧、清晰、安全且稳定。
DSpark 与 JetSpec 几乎同时出现,都解决轻量级草稿模型并行提案时的因果一致性问题。DSpark 面向高并发,通过轻量级马尔可夫校正头与置信度估计控制预算,在 Qwen3-8B 与 AIME25 上,预算 7 时将接受长度从 DFlash 的 4.07 提升至 5.01。JetSpec 面向低延迟,将因果性直接构建进并行草稿头,预算 16 时接受长度 7.23,预算 128 时达 9.82,高于 DFlash 的 7.34 与 DDTree 的 8.66。两者分别从吞吐与延迟侧优化因果性。
本地AI倡导者Ahmad Osman指出开源与闭源差距缩至4-8个月,但缺搜索、工具、Agent等基础设施。美团发布LongCat-2.0(1.6T参数/48B激活MoE,30T tokens预训练,原生1M上下文),五万卡国产算力集群训练,SWE-bench Pro 59.5领先Gemini 3.1 Pro等,预览版OpenRouter调用量前三。美图CEO吴欣鸿:2025年营收38.58亿元,净利润9.65亿元同比增64.7%,AI影像收入占比76.6%,海外MAU重回1亿。
SemiAnalysis 指出推理正被多轮“切分”以降低成本。第一步按阶段拆分:prefill 与 decode 用不同芯片;第二步按层拆分:attention 用 HBM 富裕的 GPU,前馈网络用 SRAM 基芯片;第三步按时间拆分:工作负载切片为执行窗口,在集群中交错调度。每次切分回收闲置利用率,从而降低每 token 成本。更便宜的 token 不会压缩需求,反而刺激增长——这是 MLSys 2026 的核心叙事。
Palantir CEO Alex Karp says enterprises are fed up with AI labs that "oversold" models and pushed tokenmaxxing. Customer...
Meta is turning excess AI compute into a cloud business after shares jumped more than 10%. Meta built huge AI infrastruc...
据Orgvue报告,39%的公司已实施AI相关裁员,其中55%的领导者承认裁错了岗位。问题在于企业裁掉了理解例外情况、升级路径和隐蔽故障模式的员工。AI虽提升生产力,但在依赖判断力和机构记忆的工作中失效。福特因自动化质检系统未能提前发现缺陷,召回约350名资深工程师。澳大利亚联邦银行削减45个AI语音客服岗位后,因呼叫量上升而取消决定。IBM也从AI驱动的HR自动化转向在全美业务部门将初级岗位招聘增加两倍。
Meta 利用为自有模型、广告和助手建设的大型 AI 基础设施产生的过剩算力,计划向开发者出租模型访问(类似 AWS Bedrock)及原始算力。消息引发股价剧烈反应:Meta 涨超 10%,而 AI 云公司 CoreWeave 跌 10.8%、Nebius 跌 12.4%。Zuckerberg 此前透露外部公司几乎每周都向 Meta 请求算力。此举既降低 Meta 对广告收入的依赖,也证明其 AI 建设的外部价值,但云业务涉及计费、安全、工具支持等复杂环节,Meta 难以快速成为 AWS 级别的云服务商。
The industry's first embodied AI IDE, Booster Studio, is officially live at http://studio.booster.tech! Built exclusivel...
美团发布LongCat-2.0,一个1.6万亿参数的大模型,据称完全基于5万片国产AI处理器集群完成训练和推理。美团自2023年推进国产AI基础设施,该模型成为其首个在国产集群上完成预训练与推理的前沿规模模型。更值得关注的是,美团并未推出独立聊天机器人,而是将AI嵌入现有的推荐餐厅、订酒店、点餐等服务中。这种将AI整合进已有用户、商户、支付和交易生态的做法,正成为阿里(开放Qwen品牌智能体)、蚂蚁(以Ah Bao重构支付宝)等中国互联网平台的共同方向。
We're coming out of stealth. We've built our first racks after a successful A0 tapeout, $1B+ in customer contracts, and ...
🚨 NEWS: Commerce is expected to lift export controls on Fable tonight, a senior White House official tells me.
🚨 NEWS: Commerce is expected to lift export controls on Fable tonight, a senior White House official tells me.
The industry's first embodied AI IDE, Booster Studio, is officially live at http://studio.booster.tech! Built exclusivel...
We're coming out of stealth. We've built our first racks after a successful A0 tapeout, $1B+ in customer contracts, and ...
Cloudflare 新增 Browser Rendering,提供远程 Chromium 抓取。Workers Paid $5/月含 10 小时浏览器/天。作者将 AI 公司官网抓取从 Jina Reader 迁至 Cloudflare,实际日耗约 3 分钟,99%+ 余量未用,避免了 Jina 免费层耗尽后的 402 静默失败问题,价格从 token 计费变为 $5 封顶可预测。结合 Pages、Workers、D1、R2、KV、Tunnel 及 Claude Code/OpenClaw + GitHub 自动构建,一人一套 Agent 即可将产品从 0 跑到上线,基础设施成本近乎免费。
Cloudflare 基本已经成了个人开发者/出海独立建站/轻量创业项目的免费全家桶。 Pages 管前端部署(虽然官方不主推了,但是倾向于很多静态也方式),Workers 管后端逻辑,D1 管数据库,R2 管存储,KV 管缓存和短链,Tu...
Fireworks AI 推出 Serverless 2.0,通过同一 API 端点下的三种服务层级解决共享集群高负载时的 503 Service Overloaded 问题。Standard 为默认经济型;Priority 在拥塞时提供更强准入,价格更高;Fast 通过优化路径提升生成 token 吞吐量,适用于低延迟场景。推荐默认使用 Standard,遇到 503 时临时切换 Priority 30 分钟,随后自动回退。Priority 和 Fast 不可叠加。
Introducing JetSpec: we find speculative decoding can push LLM generation latency to extreme by co-optimizing drafting c...
腾讯团队开源ARGUS方案,用于管理和监控超10,000块GPU的集群。大模型训练成本极高,万卡集群每天电费和折旧达数十万元。ARGUS解决的核心问题是在集群出问题时几分钟内定位原因。论文发现:万卡规模下,超70%训练中断由网络通信问题导致,而非GPU故障。ARGUS通过采集每GPU实时数据(计算负载、显存、网络带宽、通信延迟)进行关联分析,精准定位故障GPU或链路。
SGLang的DSpark在PR中放出实测数据,可预测3个token(数学类3.37,日常对话3,代码3.52)。1K长度prompt下加速比达1.81倍,8卡B200速度297 token/s(无DSpark为164 token/s)。单并发提升最高,超过8并发仅1.2‑1.3倍。TPOT仅2.9‑5.2ms,延迟可忽略。该PR(#29538)尚未合并。
媒体软件公司Every公开「复利工程」方法论,以单人工程团队维护5款产品。核心是四步循环:Plan→Work→Review→Compound,其中Compound将每次解决问题的解法写入CLAUDE.md和docs/solutions/,使AI下次自动避坑。工程师80%时间花在Plan和Review,仅20%用于写代码。配套开源插件支持Claude Code等,含26个专项agent、23条工作流命令、13项技能,可零配置使用。/workflows:review一次并发14个agent审查代码,/workflows:plan在ultrathink模式下可并发40多个研究agent。
智能体进入大型工程组织面临验证回路与组织成熟度两大瓶颈。Spotify 架构师分享在2000万行monorepo中运行Claude Code的经验,强调标准化代码库与可靠的CI、测试、自动合并等验证基建是前提,内部平台Honk整合这些工具。Block 工程负责人指出九成工程师在用Goose和Claude Code但功能交付未加速,提出六阶段成熟度模型与AI champions项目(约50名champion各投入30%时间),通过AGENTS.md沉淀知识,三个月内AI生成代码占比提升69%。Spring I/O 2026则梳理Spring AI从LLM调用到生产级智能体生态的演进。三篇从技术基建、组织流程、框架产品化给出解法。
DeepSeek推出的DSpark是一种推测性解码技术,通过在Final RMSNorm后接入3层MTP微型Transformer堆叠,让大模型在输出前并行猜5个token,经置信度头剪裁后,送回大模型用prefill验证,正确则一次性吐出多个token。相比外挂小模型更高效,不降智,速度提升60%-85%。目前SGLang已有相关PR(#29538),DeepSeek已在HuggingFace发布多款DSpark魔改版小模型。