AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 982 条
全部一手资讯X论文
标签「部署/工程」清除
ClaudeDevs@ClaudeDevs · 24分钟前53

We've raised Claude Platform API rate limits for all users and simplified the tiers, which are no longer based on API spend. The latest Sonnet and Haiku models now provide 5x higher rate limits at the highest tier.

译我们已为所有用户提升 Claude Platform API 速率限制并简化层级,不再基于 API 消费额。最新的 Sonnet 和 Haiku 模型在最高层级提供 5 倍更高的速率限制。

SemiAnalysis@SemiAnalysis_ · 58分钟前27

Meta Compute: Everyone Wants To Be A Cloud Zuck Takes Plan B? SpaceX 2.0, Bedrock 2.0, MSL Isn't Giving Up, Scaling RecSys by 10x... ClusterMAX ranking coming soon? https://newsletter.semianalysis.com/p/meta-compute-everyone-wants-to-be

译Meta计算:人人都想成为云 扎克伯格选择B计划? SpaceX 2.0、Bedrock 2.0、 MSL并未放弃,将推荐系统扩展10倍……ClusterMAX排名即将推出? https://newsletter.semianalysis.com/p/meta-compute-everyone-wants-to-be

Rohan Paul@rohanpaul_ai · 2小时前48

Palantir says some US government customers are moving sensitive AI work to Nvidia Nemotron open models. Nvidia says Nemotron can run in air-gapped environments, away from unsecured external networks. That setup matters for defense work, where data leaks can damage missions immediately. Karp framed Nemotron as equal or better for classified battlefield-style tasks, according to the report. The deeper change is that model quality is no longer the whole purchase decision. Agencies now weigh speed, price, sovereignty, audit trails, and operational control together. American open models give Washington a third path between closed labs and foreign stacks. --- breakingthenews. net/Article/Palantir-CEO:-Some-US-gov't-clients-using-open-source-AI/66625598

译Palantir CEO透露,部分美国政府客户正在将敏感AI工作迁移至Nvidia的Nemotron开源模型。Nemotron可在气隙环境运行,隔离于不安全的外部网络,适合对数据泄露敏感的国防任务。Karp称Nemotron在机密战场级任务上表现相当或更优。更深层变化在于,模型质量不再是唯一购买决策因素,机构现在综合权衡速度、价格、主权、审计追踪和运营控制。美国开源模型为华盛顿提供了介于闭源实验室和海外技术栈之间的第三条路径。

🚨 AI News | TestingCatalog@testingcatalog · 5小时前58

Anthropic 🤝 Samsung Anthropic may develop its own AI chip with Samsung, according to The Information. > OpenAI recently announced their own AI chip developed in a partnership with Broadcom. Everyone is going full stack 👀

译Anthropic 🤝 Samsung 据The Information报道,Anthropic可能与三星合作开发自己的AI芯片。 > OpenAI近日宣布与Broadcom合作开发自有AI芯片。 大家都在走向全栈 👀

xAI@xai · 5小时前38

Grok Build is now installed in Railway sandboxes

译Grok Build 现已安装在 Railway 沙箱中

elvis@omarsar0 · 5小时前53

LLM Wikis are being slept on. I argue that creating knowledge bases with LLMs or coding agents is one of the most valuable applications of AI today. It's about being intentional in building and scaling your intelligence stack. To showcase this, I wanted to share an LLM Wiki I have built over the last couple of months. It's called PaperWiki, and I use it across all my research workflows, along with my research agents. In fact, I also use it to curate papers I share with my communities, newsletter, and on X. The PaperWiki is updated regularly with automations, so I basically have agents on a loop maintaining it. All the entries are ingested from different sources and stored in a vault (Obsidian) and further indexed using qmd. And then further presented via an HTML artifact. So all of it is easily accessible to all my agents and easily searchable through full-text search and rich semantic search. The structure of the wiki has proven significantly useful to start interesting and exciting cutting-edge research projects with my research agents (from building tiny and more efficient gpt/difussion llms to building out SoTA harnesses and memory systems). It turns out that agents love markdown files and can more easily navigate the papers given the rich metadata structure of the wiki. I am just getting started on this, but it's clear to me that we should all be experimenting with LLM Wikis. Here's why: Building LLM knowledge bases gets you into the habit of leveraging AI outputs in all kinds of creative ways. It's the good kind of tokenmaxxing we should all be pushing for. LLM Wikis can be maintained automatically in a loop. I use an automation that updates the wiki every day based on papers I curate. The curation is another automation I run in a loop (with a bit of human in the loop), so I get to build on all my previous knowledge and expertise, and all of it compounds the deeper the integration/layers. One interesting result of this process is that I feel like I can better spot high-quality papers and remove noise more easily. Social media could never solve that. And most paper aggregators use metrics I simply don't trust. I like that agents can help with the noise vs. signal problem. This is important for research. Lots of people consider agents to produce mostly slop. But it doesn't have to be that way. Careful curations, prompts, automations, verifiers, and human-in-the-loop can produce some astonishing results. And you really don't need frontier models for this. I use a combination of frontier models (opus-4.8) and open-weight models (deepseek-v4-flash) to maintain this. An exciting future work (we are working on this @dair_ai) is to tune specialized models on top of this to allow LLMs to quickly understand cutting-edge research ideas and can better conceptualize research strategies that further accelerate scientific research agents. I plan to open-source a bunch of this work, including the artifact, but this is currently work in progress, and I was excited to share some thoughts as I continue working on it. Sharing more as I go. Stay tuned!

译DAIR.AI 的 Elvis Saravia 分享了自己过去几个月构建的 PaperWiki,这是一个基于 LLM 和编程智能体的知识库,用于研究工作流。它通过自动化每日更新,从多个来源摄入论文并存入 Obsidian,使用 qmd 索引,以 HTML artifact 呈现,支持全文和语义搜索。Saravia 使用前沿模型(opus-4.8)和开放权重模型(deepseek-v4-flash)混合维护,并计划开源。他认为 LLM Wiki 是当前最有价值的 AI 应用方向之一。

SemiAnalysis@SemiAnalysis_ · 5小时前28

EMIB-T Roadmap, Custom HBM, HBM4 Packaging Challenges, Microfluidic Cooling, Photonic Interconnects, and More ECTC 2026 Roundup, Intel, TSMC, SK Hynix, Samsung, Micron, Marvell, Lightmatter, Microsoft https://newsletter.semianalysis.com/p/ectc2026

译EMIB-T 路线图、定制 HBM、 HBM4 封装挑战、微流冷却、 光子互连,以及更多 ECTC 2026 综述,英特尔、台积电、SK 海力士、 三星、美光、Marvell、Lightmatter、微软 https://newsletter.semianalysis.com/p/ectc2026

SemiAnalysis@SemiAnalysis_ · 6小时前45

Solar and storage are each adding more than 20GW a year. Sounds like a LOT of new power. But the amount the grid can actually count on when demand peaks has barely moved. That gap is why AI datacenters are starting to build their own power capacity instead of waiting in line to connect to the grid. (1/3)🧵

译太阳能和储能每年各新增超过20GW。听起来新增大量电力。但电网在需求高峰时实际能依赖的容量几乎没有变化。这一缺口正是AI数据中心开始自建电力容量,而非排队等待接入电网的原因。(1/3)🧵

Satya Nadella@satyanadella · 7小时前64

The future of the firm is a learning loop in which human capital and token capital compound. With our new Frontier Co., our ambition is to help every enterprise build its own AI capability, and to help create a frontier ecosystem where every organization can turn its knowledge, workflows, and judgment into its own AI systems that continuously improve. https://blogs.microsoft.com/blog/2026/07/02/microsoft-frontier-company-ai-engineering-that-amplifies-and-protects-your-intelligence/

译企业的未来是一个学习循环,人力资本与token资本不断累积。 借助我们的新Frontier Co.,我们的目标是帮助每个企业构建自己的AI能力,并帮助创建一个前沿生态,使每个组织都能将其知识、工作流程和判断力转化为自己的AI系统,并持续改进。https://blogs.microsoft.com/blog/2026/07/02/microsoft-frontier-company-ai-engineering-that-amplifies-and-protects-your-intelligence/

Rohan Paul@rohanpaul_ai · 17小时前45

Palantir CEO Alex Karp: A company does not just want a clever model answering questions inside a polished interface. A serious technical customer wants control over the data, prompts, system access, and the workflow that creates value.

译Palantir CEO Alex Karp: 一家公司不只需要一个在精致界面内回答问题的聪明模型。严肃的技术客户想要的是对数据、提示词、系统访问以及创造价值的工作流的控制。

Alibaba Cloud@alibaba_cloud · 21小时前53

Stuck in manual Agent Evals? Alibaba Cloud AgentLoop builds a self-evolution flywheel: ✅ Full-stack Trajectory Observability ✅ Auto Dataset Pipeline (Trace2Dataset) ✅ Agent-as-a-Judge (90% consistency) ✅ Memory/Experience Libraries Make Agents smarter, faster & cheaper. Join Beta! 🚀 https://int.alibabacloud.com/m/1000415066/ #AI #AgentLoop #LLMOps #GenAI #AlibabaCloud

译还在手动进行Agent评估?阿里云AgentLoop构建了一个自我进化飞轮: ✅ 全栈轨迹可观测性 ✅ 自动数据集管道(Trace2Dataset) ✅ Agent-as-a-Judge(90%一致性) ✅ 记忆/经验库 让Agent更智能、更快、更便宜。加入Beta版! 🚀 https://int.alibabacloud.com/m/1000415066/ #AI #AgentLoop #LLMOps #GenAI #AlibabaCloud

Rohan Paul@rohanpaul_ai · 21小时前69

Very timely paper. MCP servers need clear design patterns because LLMs get confused when too many tools or vague tools are shown. This paper explains how MCP servers should be structured so LLM tools stay useful, safe, and manageable. s MCP server design is not just normal API design, because the client is an LLM that chooses tools by reading plain-language descriptions. It groups real MCP servers into 5 useful patterns, such as servers that expose data, run workflows, keep session state, combine many servers, or translate messy domain APIs. The authors also warn about 4 common mistakes, especially giant all-purpose tools, vague tool descriptions, unsafe outside content, and slow tools that should return a job ID instead. They tested the pattern labels on 54 extra servers, measured transport delay, and studied how tool accuracy changes as more tools are shown. The key result is that too many visible tools hurt accuracy, with weaker models dropping below 90% between 10 and 15 tools. Good MCP design is mostly about making the tool list small, clear, safe, and stable enough for LLMs to choose the right action. ---- Link – arxiv. org/abs/2606.30317 Title: "MCP Server Architecture Patterns for LLM-Integrated Applications"

译该论文指出,MCP服务器设计不同于普通API,因为LLM通过纯语言描述选择工具,过多或模糊的工具会导致混淆。作者归纳了5种实际模式(如暴露数据、运行工作流、保持会话状态、组合服务器、翻译混乱领域API),并警告4个常见错误(大而全工具、模糊描述、不安全外部内容、慢工具应返回job ID)。在54个额外服务器上测试发现,弱模型在可见工具超过10-15个时准确率降至90%以下。良好MCP设计的核心是使工具列表小巧、清晰、安全且稳定。

Hao AI Lab@haoailab · 23小时前51

http://x.com/i/article/2072448547069599744 # DSpark vs. JetSpec, which is better? Authors: @Lanxiang_Hu @aaronzhfeng @YuYangQian_ai @Jensen_Yuan @haozhangml TL;DR: Speculative decoding (SD) techniques have proliferated recently. SD accelerates autoregressive generation by letting a lightweight draft model propose future tokens, while the target model verifies them in parallel. Among recent efforts, DSpark and JetSpec emerged almost concurrently around the same bottleneck: once drafting becomes cheap, how do we preserve enough causal consistency for parallel proposals to survive verification? This naturally raises the question: which one is better? Or, more interestingly, are they actually complementary? The fact that both works converge in this direction suggests that causality is becoming a central lever for next-generation speculative decoding. They approach it from complementary sides of the throughput–latency frontier. DSpark targets high-concurrency serving: on Qwen3-8B and AIME25, DSpark improves accepted length from 4.07 (DFlash) to 5.01 at budget 7 with causal recurrent state for confidence-scheduled verification. JetSpec targets the latency-oriented, compute-budget-rich regime: by building causality directly into the parallel draft head, it turns larger draft budgets into longer accepted prefixes, on the same settings, scaling accepted length from 7.23 at budget 16 to 9.82 at budget 128, up from DFlash's 7.34 (DDTree's 8.66) at budget 128, for low latency generation. 1. Causality in DSpark and JetSpec Traditional drafters like the EAGLE series often preserve draft quality through autoregressive generation, but this makes longer drafts require more sequential draft steps. DFlash changes the cost structure: by using a lightweight block-parallel drafter to predict many future positions in one pass, it opens the door to making draft cost cheap. But cheap drafting is not enough. Once the draft cost drops, the bottleneck shifts to whether parallel proposals can survive verification. When future positions are weakly conditioned on earlier draft tokens, they may appear plausible in isolation but become inconsistent as a sequence. Here is where causality becomes important. DSpark keeps the parallel drafting backbone cheap, while adding a lightweight sequential head and confidence estimation to better decide which proposals should be sent for verification, thereby controlling the per-request compute budget. As a result, DSpark consistently improves throughput over MTP-style pure autoregressive drafting, where longer drafts require more sequential draft steps (Figure 1). On the other hand, under a latency-oriented Service Level Objective (SLO) with low concurrency, the system is more FLOPs-rich, so the goal shifts toward maximizing accepted rate per verification step. In this regime, we can afford to spend more on draft compute to raise the acceptance rate and maintain high acceptance at deeper positions. This is where causal parallel drafting, as in JetSpec, becomes especially important: the draft budget is used for generating path-conditioned tree, making it more likely to produce long accepted prefixes. 2. How Causality Helps Once drafting becomes cheap, the next question is how to spend limited compute intensity: should we squeeze more throughput under high concurrency, or push lower latency when more FLOPs are available per request? This is where causality becomes the key lever. Pushing the Throughput Limit: DSpark for Budget-Aware Correction DSpark targets the high-concurrency, budget-constrained regime. It uses a lightweight Markov-style correction head and confidence head (or an RNN-head variant that carry recurrent prefix state across positions). For each draft position i, the parallel drafter first produces base logits z_i^0, and a corresponding draft hidden state h_i. the confidence head estimates prefix-dependent confidence scores c_i: where the Markov head B then injects a small causal correction from the previous draft token to generate . The verification budget is then scheduled by keeping only the longest confident prefix under budget B and threshold rho: This makes it suitable for budget-aware serving: the draft backbone stays parallel, while the correction path improves local or prefix-dependent consistency. Pushing the Latency Limit: JetSpec Turns Draft Budget into Higher Acceptance With low concurrency, modern AI accelerators come with more spare FLOPs, so the key question becomes: how to translate higher compute budget into more accepted tokens per draft-verification step? This is where JetSpec takes a different path. JetSpec uses a causal parallel draft head to produce a path-conditioned draft tree, where deeper nodes are conditioned on earlier tokens along the same branch. The effect shows up clearly in the depth-wise acceptance profile (Figure 4). JetSpec consistently maintains higher acceptance than DFlash on both coding and math reasoning workloads. On AIME25, JetSpec starts with a near-perfect per-position acceptance rate of (q_1 at around 99%) at draft depth 1 and still maintains roughly (q_8 at 50%) acceptance at depth 8. Here q_i denotes the survival probability that at least the first i draft tokens are accepted. The empirical acceptance length is Under the constant per-token acceptance rate assumption used in the original speculative decoding analysis, We define alpha_eff by fitting the theoretical and empirical acceptance lengths: This corresponds to an estimated effective per-token acceptance rate of about 93%, substantially higher than DFlash. In this low-cost, high-acceptance regime, even a 5% gain in per-token acceptance can have an outsized impact on speculative decoding: it significantly increases the maximum theoretical acceptance length (Figure 4), which in turn directly reduces generation latency. Up Next: Enabling Both Throughput- and Latency-Oriented Parallel Drafting A foreseeable next step is to build a dynamic serving framework that can push both ends of the throughput–latency Pareto frontier: low-concurrency settings that demand higher per-user TPS, and high-concurrency settings that require higher aggregate throughput under tight verification budgets. In this direction, JetSpec and DSpark are naturally complementary: JetSpec strengthens the parallel drafting backbone for low-latency budget scaling, while DSpark adds lightweight sequential confidence checking and budget control for high-concurrency serving.

译DSpark 与 JetSpec 几乎同时出现,都解决轻量级草稿模型并行提案时的因果一致性问题。DSpark 面向高并发,通过轻量级马尔可夫校正头与置信度估计控制预算,在 Qwen3-8B 与 AIME25 上,预算 7 时将接受长度从 DFlash 的 4.07 提升至 5.01。JetSpec 面向低延迟,将因果性直接构建进并行草稿头,预算 16 时接受长度 7.23,预算 128 时达 9.82,高于 DFlash 的 7.34 与 DDTree 的 8.66。两者分别从吞吐与延迟侧优化因果性。

SemiAnalysis@SemiAnalysis_ · 23小时前57

This week the InferenceX team discusses what it took to get DeepSeek V4 on InferenceX, changes in the model architecture, what is a MegaKernel, and initial performance on various accelerators including Huawei Ascend NPUs.

译本周 InferenceX 团队讨论了将 DeepSeek V4 部署到 InferenceX 所需的工作、模型架构的变化、什么是 MegaKernel,以及在包括华为昇腾 NPU 在内的各种加速器上的初始性能。

ginobefun@hongming731 · 1天前39

http://x.com/i/article/2072460643744223232 # BestBlogs 早报 · 07-02|本地 AI 补齐工程栈,LongCat 万亿模型落地国产算力,美图讲 AI 应用方法论 在线阅读本期早报 BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容,如果你希望它基于你的兴趣和阅读习惯整理,可以体验「我的早报」。 ## 导语 今天的几篇精讲,恰好指向同一件事:AI 的竞争力正从模型本身,慢慢转移到「把它跑起来」的那一整套工程栈上。 Latent.Space 专访了长期倡导本地 AI 的 Ahmad Osman,他用一个朋友买 RTX 5090 跑 Qwen 3.5、却连显卡 RGB 灯光都改不了的例子说明——本地 AI 缺的从来不是模型,而是搜索、工具、Agent 这一层完整的基础设施。 美团技术团队把 LongCat-2.0 这个万亿参数 MoE 模型在五万卡国产算力集群上的训练与推理全流程拆开来讲,从稳定性、正确性到效率,是一份少见的工程实录。 美图 CEO 吴欣鸿则从应用层切入,讲一家 2000 人的公司如何用「自然生长」而非「提前策划」的方式,在影像赛道持续跑出 ARR 接近 50 万美元的 AI 产品。 三篇文章放在一起,恰好覆盖了「基础设施—模型—应用」这条链路,读的时候建议连着看,对照着会更有感觉。其余几篇多是 Agent 工程与组织转型的实操:Google ADK 2.0、RAG 上下文工程、高德 GrowLoop、AWS 迁移 PaaS、人机交互设计原则,以及出门问问从「超级个体」到「超级组织」的转型。可挑感兴趣的看。 ## ★ 精讲一:Ahmad Osman 谈本地 AI 为何正在追赶 对不太关注本地 AI 的读者,先补一句背景:Ahmad Osman 是 Osmantic 的创始人,过去几年一直在推动「把模型跑在自己的电脑、工作站或专用硬件上」这件事。在今年 的 AI Engineer World's Fair(AIEWF)上,他办了两场关于本地 LLM 与工作站 Agent 的 workshop,场面爆满到不得不把人挡在门外——来的人既有还在挑第一台 AI 电脑的学生,也有认真考虑模型路由、私有基础设施和数据控制权的企业高管。 他给 Latent.Space 的核心判断很直接:开源模型和闭源前沿模型之间的差距正在持续缩小,目前大约只落后 4 到 8 个月。这句话的分量在于,它来自一个长期被「本地跑不动、跑不好」印象压制的人——他自己也说,外界对本地 AI 的印象还停留在 2022 年,但「之后一切都大幅改善了」。 访谈里最有意思的一段,是他讲一个朋友买了 RTX 5090 想在本地跑 Qwen 3.5,把 Claude Code 接到本地模型上,让它改显卡的 RGB 灯光,结果失败了;而用托管的 Claude Code 服务却成功了。原因不是模型笨,而是本地那一套没有接搜索——模型训练数据有截止日期,而需要的软件和文档早就变了。给本地系统接上搜索 endpoint 之后,任务就跑通了。 他由此点出一个被广泛忽略的事实:ChatGPT、Claude Code 这类产品之所以好用,是因为模型外面还套着一整套搜索、工具、Agent 的基础设施。「It is not just one thing.」本地 AI 真正缺的,是这一层完整栈,而不是更大的参数量。这也解释了为什么他从企业主权算力和混合架构的角度,认为本地 AI 正在被认真当作基础设施——数据控制、模型路由、私有部署,这些诉求不是极客玩具,而是企业 IT 的刚需。 他在另一个叫「Open Source AI Must Win」的网站上把这个立场说得更直白:「研究、构建、修复、部署、审计、适配、教学、保存和运行智能系统的能力,无需请求许可,这件事具有存在级别的重要性。」Workshop 的参与者构成也佐证了这一点——来的不只是硬件爱好者,还有考虑第一台 AI 电脑的学生,以及认真权衡私有基础设施和数据主权的企业高管。这种人群结构本身,就是本地 AI 正在从「极客玩具」滑向「企业基础设施」的一个信号。 把这篇放在今天第一篇,是因为它给后面的 LongCat 和美图定了同一条坐标轴:模型本身正在商品化,真正拉开差距的是把它包起来的那一整套工程。Osman 谈的是「本地」这一侧的栈,美团谈的是「大规模训练」这一侧的栈,美图谈的则是「应用落地」这一侧的栈。读完这篇,再看后面两篇会有更强的对照感。如果你只对本地部署或开源生态感兴趣,这篇是今天的入口。详见 ## ★ 精讲二:美团 LongCat-2.0 正式发布:在国产算力集群上完成全流程训练与推理的万亿参数模型 先说清楚 LongCat-2.0 是什么。它是美团 6 月 30 日正式发布、并对外开源的新一代大模型,定位是 Agentic Coding——也就是让模型在真实的代码理解、生成、执行任务里更高效、更稳定。几个关键数字:总参数 1.6T(万亿级),平均激活约 48B,动态范围 33B 到 56B 的 MoE 架构;预训练数据超过 30T tokens;原生支持 1M 超长上下文。官方口径里最重的一句,是它是「业界首个在五万卡国产算力集群上完成全流程训练与推理的万亿参数模型」。 但这份发布稿真正值得读的,不是这些数字本身,而是美团技术团队把国产算力上跑万亿 MoE 的全链路工程难题,拆成了稳定性、正确性、效率三块讲。稳定性上,通过卡间通信异常处理、弹性扩缩卡和自动故障恢复,把月均日故障率降低了 70% 以上;正确性上,自研确定性算子、Bitwise 一致性验证和参数检测来保证训练可靠;效率上,通过流水线调度、显存优化和算子级控核,把训练 MFU 提升了 1.5 倍,最终稳态日吞吐超过 1T tokens/day。推理阶段则是模型、算子、框架协同优化,用大规模专家并行聚合访存带宽来支撑万亿参数的低延迟解码。 架构设计上也有几个值得记一笔的细节。一是 LongCat Sparse Attention(LSA)稀疏注意力,把长文本处理的计算量从平方级压到线性级,让模型在 100 万 token 的上下文里仍能精准定位信息——官方说传统模型超过 100K 就开始「遗忘」。二是零计算专家加 ScMoE,让 token 级动态激活成为可能:简单的 token 不消耗算力,复杂的 token 自动拿到更多计算资源。三是 MOPD 多专家融合,把 Agent、Reasoning、Interaction 三组专家能力融进一个模型,推理时由门控网络按任务类型动态调度。 评测成绩方面,在考察深层工程能力的 SWE-bench Pro 中拿到 59.5,领先 Gemini 3.1 Pro(54.2)、GPT-5.5(58.6)和 Claude Opus 4.6(57.3);SWE-bench Multilingual 77.3,与 Claude Opus 4.6(77.8)同水位;Terminal-Bench 2.1 拿到 70.8。真实办公场景的复杂任务上也表现均衡:搜索智能体评测 RWSearch 78.8、生产力场景 FORTE 73.2、BrowseComp 79.9,都达到或接近前沿闭源模型水平,能较好契合企业级 Agent 的落地需求。发布前的预览版已经通过 OpenRouter 和 longcat.ai 面向全球开发者开放,目前跻身 OpenRouter 全球大模型调用量前三,在 Hermes、Claude Code 和 OpenClaw 的调用量分列全球第一、第二和第三。 官方还放了几个内测期间的真实工作单:业务人员用自然语言查询数据,LongCat-2.0 搭的 AI SQL Agent 自动完成从理解意图、规划查询到把结果转成业务洞察的全链路闭环;给它一个旧版插件代码库和一份新版 SDK 文档,它能自行分析整体架构、梳理核心逻辑,把整个插件重构为符合新 API 的实现,编译一次通过;描述一个「儿童 AI 游戏训练场」的创意,它能从技术选型、页面架构、游戏逻辑到视觉细节一步步生成,首页加三个完整可玩的游戏页面全部一次产出。这些例子更像 demo,但它们说明了一件事:万亿参数模型在真实 Agentic Coding 任务里,已经能稳定交付端到端的结果。 把这篇和精讲一对照看会更有意思:Ahmad Osman 讲的是开源模型正在追赶闭源前沿,LongCat-2.0 则是一份「追赶到什么程度」的实证——尤其在 Agentic Coding 这条赛道上,国产万亿模型已经能和闭源前沿在同一张榜上掰手腕。更特别的是,它是少数把国产算力、万亿 MoE、Agentic Coding 全链路讲透的工程实录,对关注训练基础设施的读者来说信息密度很高。如果你做模型选型或基础设施,这篇值得精读;如果只关心应用,看评测和 OpenRouter 调用量那段就够了。详见 ## ★ 精讲三:专访美图 CEO 吴欣鸿:做 AI 产品,是一场难以提前策划的游戏 美图这家公司,很多读者的印象可能还停在「美图秀秀」那个修图工具上。但它在 AI 这一波里其实翻身翻得相当彻底:2025 年营收 38.58 亿元,净利润 9.65 亿元,同比增长 64.7%;经过 AI 重构的影像与设计产品,收入占比从一年前的 35% 提升到 76.6%,已经成了造血主力。海外 MAU 时隔多年重回 1 亿,AI 视频编辑工具 Wink 和影像创作 Agent RoboNeo 在东南亚、墨西哥、巴西等地频繁登顶 iOS 下载榜。《智能涌现》这篇专访,价值在于吴欣鸿把这家 2000 人公司怎么在应用层持续跑赢,讲得相当坦诚。 他立了几条在外人看来近乎严苛的规矩。第一,新产品从立项、研发到市场验证和上线,时间控制在 1 个月内——理由是「这个时代,验证 PMF 的时间理论上越短越好,谁也不知道一个月后技术和市场怎么变」。第二,PMF 验证的标准是上线半年内 ARR 必须达到 10 万美元,这是基准线。第三,也是最反直觉的一条:拥有庞大用户基数的「美图秀秀」等老产品,禁止给新产品大力导流——目的是逼新产品靠自然生长证明自己。这套机制背后,是美图花了很长时间搭建的影像产品中台和增长中台,把技术工程、冷启动、投流等管线复用到不同产品上,RoboNeo 新上线的 Agent Teams 一个月就做完了。 但访谈最耐读的部分,是吴欣鸿谈「热爱驱动」而非纯 PMF 驱动的那一面。2026 年美图影像节发布的 4 款 AI 新产品里,AI 人像修图工具 Picchi、影像工作流平台 MeituHub 是自下而上、从用户洞察「长」出来的;而 MV 生成工具 MVLAND 和概念视频创作工具 Artflo,则源自他个人的热爱和对「非共识」领域的押注。他自己说:「我希望美图的产品矩阵中,有我的自留地,让我去做喜欢的事。」结果反倒意外好——MVLAND 是最近一年所有新产品里跑得最好的,内测两三个月 ARR 就到 10 万美元,现在接近 50 万美元。他用这句话总结:「自下而上的产品生命力更强,因为它是自然生长出来的,不是强推的。」 关于市场,他有一套「先发产品,再找市场」的方法论:做好各地的语言包就上线,等用户自己下载、给反馈,再慢慢画出热点图,找到产品和市场的契合点后去「浇水养护」。所以重点市场永远是中国,但巴西(2.1 亿人口、旺盛的社交分享需求)和非洲这种 Day 1 没规划的地方,反而是 RoboNeo、Airbrush 用户最多的市场之一。很多市场判断是后验的——感性判断可以先验,但产品与市场的契合点往往是「长出来之后去浇水」才看清的。很多东西不是策划出来的,而是自然长出来的——这是他对 AI 应用层最核心的判断。 他也很坦率地谈了影像赛道为什么现在能变现。过去工具产品只能靠广告,广告模式变现效率不高,品牌广告还要组建专业团队服务客户,而且广告投放和用户体验本质上是相悖的。订阅模式普及之后,影像产品才开始出现真正的商业化效应——影像覆盖图像、视频、3D,生产力场景极丰富,但又非常分散,很难一家独大。所以他反复强调「我们现在就是在抢时间」。对一个 2000 人的公司来说,能在分散赛道里靠中台复用快速试错,本身就是一种护城河。 把这篇放在精讲收尾,是因为它和前两篇形成了一个完整的链路:Osman 谈基础设施层的本地 AI 栈,LongCat 谈模型层的训练工程栈,美图谈应用层的方法论栈。三者放在一起,恰好回答了同一个问题——当模型本身逐渐拉平时,竞争力到底从哪里来。美图的答案是:从中台复用、快速验证、允许热爱试错的组织能力里来。如果你做产品或带团队,这篇比另外两篇更贴近你的日常。详见 ## 速览 Google ADK 2.0:把确定性代码执行和 LLM Agent 缝在一起的工作流运行时。 Google Developers Blog 这篇解释了为什么他们要重做 Agent Development Kit。核心痛点是:生产环境里的 Agent 会陷入死循环、因为幻觉绕过关键业务逻辑、或者失败时连干净的异常都不抛。根因是结构性的——让 LLM 去做路由、调度、错误处理这些传统代码本来就更擅长的事,既慢又贵还不稳定;反过来,要让传统工作流覆盖每一个边界情况又复杂到不切实际。ADK 2.0 引入了一个结构化工作流运行时和任务协作模型,把 Agent 的探索能力和确定性执行逻辑的可靠性缝在一起,开发者不必在灵活性和可预测性之间二选一。Python 版 3 月就上了,Go 版刚刚发布。如果你正在把 Agent 从原型推向生产,这篇是必读的工程参考。详见 RAG 的上下文工程:让每个组件输出类型化输入,汇聚成一次可审计的 LLM 调用。 这篇来自 Towards Data Science,用一个「单文档 RAG」的窄场景,把「上下文工程」这件事讲得很清楚。它的立场是企业 RAG 是放大专家而不是替代专家,所以架构上分四块——文档解析、问题解析、检索、生成——每块都输出有类型的片段,最终汇聚到一次 LLM 调用上,带固定的 system prompt 和从上游拼装出来的 user content。文档解析产出关系表,问题解析产出有类型的 ParsedQuestion,检索产出一个过滤后的行子集外加「它为什么选这些行」的审计记录,生成产出一个带引用证据的 Pydantic 答案。作者还配了 GitHub 上可运行的 notebook。适合正在搭 RAG 管道、想让每一步可审计、成本可控的工程师读。详见 高德 GrowLoop:把说不清的「感性对话标准」,变成能生长的理性 Benchmark。 开放域对话的「真人感」评测是个公认的难题——标准难制定、难量化、难统一。高德团队指出三个根本难处:多个标注员独立打分的一致率只有 51.1%;很多判断是写不下来的隐性知识;而且标准会随 AI 能力和用户期待一起漂移。GrowLoop 的思路是用少量种子,加上一套 Rubrics 和题目相互生长的双循环协进化机制,把感性标准转化成可被自动化学习的理性 Benchmark。这套方法不仅适用于陪伴对话,也适用于艺术评价、教育评估、科研评审这种「没有标准答案」的场景。论文已发在 arXiv,代码逐步开源。做对话或评测的读者值得跟进。详见 从 AWS 迁移到 PaaS:一个 7 人团队量化了基础设施的隐性成本。 freeCodeCamp 这篇是一个 7 人内部工具团队的复盘。他们在一次季度规划里第一次认真问了「我们到底有多少时间花在基础设施上,又有多少花在用户能用上的东西上」,翻完 sprint 历史、事故日志和日历后被自己吓到。他们的 AWS 环境其实不差——ECS 容器化、GitHub Actions 自动部署、CloudWatch 可观测、IAM 权限分环境——架构评审都挑不出毛病,但代价不在账单上,而在日历、在上下文切换、在「基础设施工作」悄悄挤掉真正 backlog 的那些时刻。最终他们用 3 周迁到 Sevalla 这个 PaaS,一个月内效果可量化:每周省下 10 小时工程师时间。这篇对小团队的技术负责人很有参考价值。详见 人机交互设计的 39 条原则:把研究变成产品层面可用的东西。 UX Collective 这篇是一个综合框架,把人机交互、混合主动系统、自动化信任、负责任 AI 的研究,转化成了 39 条产品级可用的设计原则,按九个主题组织:概率基础、预期设定、校准信任、透明度、控制、优雅失败、共同创造、负责任自主、持续依赖。作者反复强调,AI 系统的核心交互问题不是「能不能做」,而是「同一输入会产生不同输出」这件事,传统 UI 规范根本没设计过。核心的设计提问是:怎么帮用户恰当地依赖 AI。做 AI 产品设计或前端交互的读者,这是一篇可以当 checklist 用的长文。详见 出门问问李志飞:把超级个体的产能,转化成组织能力。 腾讯研究院「AI 跃迁者调研」第五期,深度访谈出门问问创始人李志飞。2025 年端午节他一个人三天写出近 20 万行代码,做出「AI 版飞书」原型,然后发现公司完全跟不上,于是花近一年推组织转型:自研 CodeBanana 作为组织操作系统,用 Agent 替代中间管理层,让「任务在哪里,沟通就在哪里」。访谈里几个金句值得记:超级个体的价值被高估、超级组织的价值被低估;AI 产能无限但瓶颈全在人;打造超级组织要有「延迟满足感」。这篇和美图那篇放一起读,是两种风格迥异但都成立的组织方法论。详见 得物 AI UITester:AI Native 的 UI 自动化测试新范式。 得物技术团队这篇介绍了自研的 ai_uitester,一个 AI 原生的 UI 测试工具。它针对传统方案的三个痛点——用例迁移成本高(一个中等模块的描述性用例转化可能要数人天)、调试效率低(失败要人工看截图、对比页面、改脚本、重跑)、三端各写一套(iOS、Android、HarmonyOS 元素定位方式完全不同,UI 改版时三套脚本同步失效)——给出了三块能力:用例平台 JSON 通过一条自动化 Pipeline 加 LLM 增强,自动转化成带 App、Tap、Wait、Assertion、Swipe 步骤的可执行脚本;失败时由 AI 智能调试做根因诊断和用例自愈(带置信度机制,宁可漏点不可误点);用 VLM 视觉驱动统一三端,底层驱动自动选择。文章还把它和 Appium/Selenium、Test.ai/Applitools 做了路线对比,说明为什么这是「范式转变」而非「工具升级」。做测试工程化的读者可以关注它的 Wiki 知识库闭环设计——它被 5 大场景复用,让工具越用越智能。详见 ## 补充阅读 - 掌握智能体技术:AI 智能体强化学习(NVIDIA Technical Blog)。一篇把强化学习应用到 AI Agent 的实践指南,重点讲 RLVR(可验证奖励)和 GRPO,给出从环境选择、奖励构建到训练验证的逐步工作流。适合想把领域成功标准转化成训练信号的读者。详见 - AI Agent 的 Skill 系统设计(大淘宝技术)。核心观点是把 Skill 当成「行为编程」而不是文档,通过 YAML+Markdown、DOT 流程图、检查表做结构化设计,再用门控、合理化防御、说服原则这些约束机制规范 Agent 行为。还讨论了有限上下文窗口下的 Token 经济策略和基于 TDD 理念的 Skill 测试方法。写 Agent skill 或 prompt 工程的读者会很有共鸣。详见 - Anthropic 重新部署 Claude Fable 5(Anthropic 官方)。在与美国政府一系列对话后,Claude Fable 5 全球重新部署,新增针对网络安全任务的分类器(分类器优化期间常规编码调试暂时回退到 Opus 4.8),并由亚马逊、微软、谷歌等 Glasswing 合作伙伴起草评估 AI 越狱严重性的框架。关注模型安全与治理的读者可以追一下原文。详见 ## 今日阅读路径 如果你的时间有限,今天这三篇值得优先读: 1. 精讲一 Ahmad Osman 谈本地 AI——它用最少篇幅帮你重置对「本地 AI 缺什么」的认知,是理解今天其他几篇的坐标系。 1. 精讲三 专访美图 CEO 吴欣鸿——如果你做产品或带团队,这篇的方法论(1 个月上线、半年 10 万美元 ARR、禁止老产品导流)最贴近日常决策。 1. 速览里的 Google ADK 2.0——如果你正在把 Agent 推向生产,这篇的「确定性执行 + LLM Agent」工作流运行时是最直接的工程参考。 BestBlogs 是 AI 驱动的私人阅读助手,帮助你发现真正适合你的高质量内容,欢迎体验。

译本地AI倡导者Ahmad Osman指出开源与闭源差距缩至4-8个月,但缺搜索、工具、Agent等基础设施。美团发布LongCat-2.0(1.6T参数/48B激活MoE,30T tokens预训练,原生1M上下文),五万卡国产算力集群训练,SWE-bench Pro 59.5领先Gemini 3.1 Pro等,预览版OpenRouter调用量前三。美图CEO吴欣鸿:2025年营收38.58亿元,净利润9.65亿元同比增64.7%,AI影像收入占比76.6%,海外MAU重回1亿。

SemiAnalysis@SemiAnalysis_ · 1天前52

Inference keeps getting carved up, and every cut makes intelligence cheaper. First we split by phase: prefill on one set of chips, decode on another. Then by layer: attention on HBM-rich GPUs, the feed-forward network on SRAM-based silicon. Now by time itself: workloads sliced into execution windows and interleaved across the cluster. Each split recovers wasted utilization. Recovered utilization lowers the cost per token. We think cheaper tokens don't shrink demand, they grow it. That was the real story of MLSys 2026. (1/2)🧵

译SemiAnalysis 指出推理正被多轮“切分”以降低成本。第一步按阶段拆分:prefill 与 decode 用不同芯片;第二步按层拆分:attention 用 HBM 富裕的 GPU,前馈网络用 SRAM 基芯片;第三步按时间拆分:工作负载切片为执行窗口,在集群中交错调度。每次切分回收闲置利用率,从而降低每 token 成本。更便宜的 token 不会压缩需求,反而刺激增长——这是 MLSys 2026 的核心叙事。

Chubby♨️@kimmonismus · 1天前33

FABLE 5 IS BACK

译Palantir CEO Alex Karp表示,企业已厌倦那些“过度推销”模型并推行tokenmaxxing的AI实验室。客户希望拥有以Palantir和NVIDIA为核心的完整AI堆栈。FABLE 5已回归。

Rohan Paul@rohanpaul_ai · 1天前74

Mandeep Singh from Bloomberg on Meta's move to cloud computing Meta’s $150B CapEx now needs ROI; renting compute may bring revenue. Selling compute can fund AI, but it looks more like fallback revenue than frontier AI leadership.

译Meta 计划将自身用于模型、广告等任务的过剩 AI 算力转化为云业务,允许开发者租用数据中心内的模型访问(类似 AWS Bedrock),也可能出租原始算力,旨在为高达 1500 亿美元的资本支出寻找回报,减少对广告收入的依赖。消息公布后 Meta 股价上涨超 10%,而 AI 云公司 CoreWeave 和 Nebius 分别下跌 10.8% 和 12.4%。Zuckerberg 透露几乎每周都有外部公司向 Meta 请求算力,但此举更像为支出过高担忧提供财务安全阀;Meta 要成为 AWS、Azure 级别的云服务商仍需应对计费、安全、开发工具等挑战。

Rohan Paul@rohanpaul_ai · 1天前69

The first AI layoff wave is already producing a human rehiring wave. Per a report by Orgvue 39% made AI-related redundancies. Among those leaders, 55% said they made wrong calls about which jobs to remove. The failure point seems to be that companies often removed the people who understood exceptions, escalation paths, and hidden failure modes. AI definitely raised productivity, but it breaks when work depends on judgment and institutional memory. Ford brought back about 350 veteran engineers after automated quality systems failed to catch problems early. Commonwealth Bank cut 45 service roles for an AI voice bot, then reversed course after call volumes rose. IBM also moved from AI-heavy HR automation toward tripling U.S. entry-level hiring across business units. --- cnbc. com/2026/07/01/employers-who-laid-off-workers-for-ai-are-reversing-their-decisions.html

译据Orgvue报告,39%的公司已实施AI相关裁员,其中55%的领导者承认裁错了岗位。问题在于企业裁掉了理解例外情况、升级路径和隐蔽故障模式的员工。AI虽提升生产力,但在依赖判断力和机构记忆的工作中失效。福特因自动化质检系统未能提前发现缺陷,召回约350名资深工程师。澳大利亚联邦银行削减45个AI语音客服岗位后,因呼叫量上升而取消决定。IBM也从AI驱动的HR自动化转向在全美业务部门将初级岗位招聘增加两倍。

Rohan Paul@rohanpaul_ai · 1天前66

Meta is turning excess AI compute into a cloud business after shares jumped more than 10%. Meta built huge AI infrastructure for its own models, ads, feeds, and assistants. That created a familiar cloud problem, because expensive chips cannot sit idle for long. The new plan would let developers rent model access hosted inside Meta’s data centers. This looks like AWS Bedrock, where customers call models without managing the hardware. Meta may also rent raw compute, which hits CoreWeave and Nebius more directly. Shares of CoreWeave fell 10.8% and Nebius fell 12.4% after the Meta cloud report, while Meta shares rose more than 10%. CoreWeave and Nebius are AI cloud companies that rent computing power to customers, and Meta is already a major customer for them. This news scared neo-cloud (CoreWeave, Nebius etc) investors because if Meta now rents out its own AI computing power, that will mean it buys less capacity from CoreWeave and Nebius while also competing with them for other customers. Zuckerberg had already said outside companies ask Meta for compute almost every week. That comment now reads like a financial escape valve for AI overspending fears. Meta could reduce its ad dependence while proving its AI buildout has outside value. The catch is that cloud is not just racks, chips, and cheap power. Customers expect billing, uptime, security, support, migration help, and stable developer tools. Meta can rent compute faster than it can become AWS, Azure, or Google Cloud. Still, the signal is serious because AI infrastructure is becoming a tradable commodity. --- bloomberg. com/news/articles/2026-07-01/meta-is-building-a-cloud-business-to-sell-excess-ai-compute

译Meta 利用为自有模型、广告和助手建设的大型 AI 基础设施产生的过剩算力,计划向开发者出租模型访问(类似 AWS Bedrock)及原始算力。消息引发股价剧烈反应:Meta 涨超 10%,而 AI 云公司 CoreWeave 跌 10.8%、Nebius 跌 12.4%。Zuckerberg 此前透露外部公司几乎每周都向 Meta 请求算力。此举既降低 Meta 对广告收入的依赖,也证明其 AI 建设的外部价值,但云业务涉及计费、安全、工具支持等复杂环节,Meta 难以快速成为 AWS 级别的云服务商。

Chubby♨️@kimmonismus · 1天前52

Booster Studio launched as an IDE for embodied AI, combining coding, high-fidelity simulation, robot debugging, and real-world deployment in one platform. Thats pretty cool, especially robots are the future, without any doubt!

译Booster Studio 是行业首个专为具身AI打造的IDE,已上线 http://studio.booster.tech。该平台集成代码编辑、高精度仿真、真实机器人调试和实际部署于一体,提供从初始想法到硬件落地的完整一站式工作流,打破了数字与物理世界的壁垒。

X.PIN@thexpin · 1天前63

Meituan, one of China's largest on-demand service platforms, has an AI announcement that contains two stories. The headline is that LongCat-2.0, its new 1.6 trillion-parameter model, was reportedly trained and deployed entirely on a 50,000-chip cluster powered by Chinese AI processors. Meituan says its push into domestic AI infrastructure began in 2023, culminating in LongCat-2.0 becoming the company's first frontier-scale model to complete both pre-training and inference on a home-grown computing cluster. If validated, it would mark another step toward reducing China's dependence on Nvidia, not just for inference, but for training frontier models. The more interesting story, however, is what Meituan plans to do with it. Earlier versions of LongCat already power AI assistants that recommend restaurants, book hotels, and order food. Rather than launching another standalone chatbot, Meituan is embedding AI into the services millions of people already use every day. The model becomes another layer of the product, not the product itself. That increasingly looks like the direction China's internet platforms are taking. Alibaba is opening Qwen to branded AI agents, while Ant Group is rebuilding Alipay around its AI assistant, Ah Bao. Instead of competing solely on benchmark scores or chatbot downloads, these companies are integrating AI directly into ecosystems that already have users, merchants, payments, and transactions.

译美团发布LongCat-2.0,一个1.6万亿参数的大模型,据称完全基于5万片国产AI处理器集群完成训练和推理。美团自2023年推进国产AI基础设施,该模型成为其首个在国产集群上完成预训练与推理的前沿规模模型。更值得关注的是,美团并未推出独立聊天机器人,而是将AI嵌入现有的推荐餐厅、订酒店、点餐等服务中。这种将AI整合进已有用户、商户、支付和交易生态的做法,正成为阿里(开放Qwen品牌智能体)、蚂蚁(以Ah Bao重构支付宝)等中国互联网平台的共同方向。

Artificial Analysis@ArtificialAnlys · 1天前47

Congratulations to @Etched on announcing their first inference system! We have seen early performance demos, and we're looking forward to kicking off benchmarking. Our new system performance benchmark, AA-AgentPerf, measures how many agents a system can run per megawatt of runtime power.

译Etched 宣布走出隐身模式,基于成功的 A0 tapeout 制造出首批机架,已获得超 10 亿美元客户合同并融资 8 亿美元。早期客户测试显示其在推断吞吐量、延迟和能效上达到 SOTA。首批机架将于今夏发货。Artificial Analysis 祝贺并透露将用自研基准 AA-AgentPerf 对系统进行评测,该基准衡量每兆瓦运行功率可同时运行的 agent 数量。

Alibaba Cloud@alibaba_cloud · 1天前53

What if your cloud were built AI‑native from day one? Meet Qwen Cloud — Alibaba Cloud’s new AI‑native platform designed to streamline model access and deployment, offering a unified stack for building, deploying, and scaling AI applications and agents. Explore how Qwen Cloud powers the next generation of AI‑native development: https://click.qwencloud.com/m/20000000105/ #AlibabaAI #QwenCloud

译如果你的云从第一天起就为AI原生构建会怎样? 欢迎了解 Qwen Cloud——阿里云全新的AI原生平台,旨在简化模型访问与部署,提供统一的栈来构建、部署和扩展AI应用与智能体。 探索 Qwen Cloud 如何驱动下一代AI原生开发:https://click.qwencloud.com/m/20000000105/ #AlibabaAI #QwenCloud

OpenClaw🦞@openclaw · 1天前46

v2026.6.11 has dropped. This release focuses on the rough edges that make OpenClaw feel less dependable: misplaced replies, stuck sends, reconnects, model setup failures, and more. Beware, this release is boring. https://docs.openclaw.ai/releases/2026.6.11

译v2026.6.11 已发布。 本次发布关注让 OpenClaw 感觉不太可靠的粗糙边缘:回复错位、发送卡住、重新连接、模型设置失败等。 注意,本次发布很无聊。 https://docs.openclaw.ai/releases/2026.6.11

SemiAnalysis@SemiAnalysis_ · 2天前44

It's worth watching how xAI is solving its power problem in Memphis, because the approach is unusually aggressive. The permitted capacity is real (roughly 1.2GW of permanent gas turbines were cleared at Southaven in March), but it's not where most of the growth is actually coming from. (1/3)🧵

译值得关注 xAI 如何在孟菲斯解决其电力问题,因为该方案异常激进。许可容量是真实的(3 月在 Southaven 获批了约 1.2GW 的永久燃气轮机),但这并非大部分增长的实际来源。(1/3)🧵

Rohan Paul@rohanpaul_ai · 2天前67

The US Department of Commerce might finally take the Fable restrictions off the table tonight. 🤯

译美国商务部可能终于要在今晚取消对Fable的限制了。🤯

Chubby♨️@kimmonismus · 2天前50

Politico says that Fable 5 is coming back tonight! So I was right after all with my guess that Sonnet 5 and Fable 5 would be released at the same time. Politico is one of the most respected publications, so this is a credible source. Get ready, friends: it’s time to get Fable back!

译Politico说Fable 5今晚回归! 看来我猜对了,Sonnet 5和Fable 5会同时发布。Politico是最受尊重的媒体之一,因此这个消息来源可信。 准备好吧,朋友们:是时候让Fable回来了!

🚨 AI News | TestingCatalog@testingcatalog · 2天前60

Booster Robotics has launched Booster Studio, the first IDE built specifically for embodied AI. > Booster Studio features code editing, high-precision simulation, real-robot debugging, and real-world deployment. > It shortens the path from the first idea to the working hardware, with the build, test, and deployment loop living in a single environment rather than scattered across separate tools. Vibe Robotics 👀

译Booster Robotics 推出 Booster Studio,这是业界首个专为具身 AI 打造的 IDE。该平台将代码编辑、高精度仿真、真实机器人调试与实地部署集成于单一环境中,取代了以往分散在多个工具中的工作流。用户可在一站式平台上完成从最初想法到最终硬件部署的完整开发流程,高保真仿真环境与全面开发栈打破了数字与物理之间的壁垒,加速了具身 AI 从想法到工作硬件的落地。

ClaudeDevs@ClaudeDevs · 2天前51

We’ve added a few updates to Claude Managed Agents: Streaming session event deltas, per-session agent overrides, new webhook event types, reverse pagination, and credential injection scoping.

译我们为 Claude Managed Agents 添加了一些更新: 流式会话事件增量、按会话的代理覆盖、新的 Webhook 事件类型、反向分页以及凭证注入作用域。

OpenAI Developers@OpenAIDevs · 2天前45

⚙️ We debugged a year’s worth of crashes in our data infrastructure and found one issue in the hardware and another that has been unnoticed in open-source code for 18 years. Here’s how we tracked them down: http://openai.com/index/core-dump-epidemiology-data-infrastructure-bug/

译⚙️ 我们在数据基础设施中调试了一整年的崩溃,发现了一个硬件问题,以及另一个在开源代码中隐藏了18年未被注意的问题。 以下是我们的追踪过程: http://openai.com/index/core-dump-epidemiology-data-infrastructure-bug/

gabriel@gabriel1 · 2天前59

inference will be the biggest market in the world, intelligence is in infinite demand etched is bringing the AI Summer

译推理将成为全球最大的市场,智能的需求无限 Etched正在带来AI夏季

凡人小北@frxiaobei · 2天前55

Cloudflare 全家桶又添 Browser Rendering,管远程 chromium 抓取。 Workers Paid $5/mo 给 10 小时 browser/day。 我把订阅的AI 公司官网的信息抓取从 Jina Reader 切过来,十几个源实际用 ~3 min/day, 99%+ 余量没动。 Jina 免费层烧完 402 静默 fail 的老坑也避了, 价格从 token 计费突发不可控变 $5 封顶可预测。 跟 Pages / Workers / D1 / R2 / KV / Tunnel 同款调子: 免费层够个人测试。付费层够正经项目,没企业付费档强买强卖。 以前个人爬 web 信息流要拼 jina / browserless / diffbot / scrapingbee 一堆 SaaS,现在 Cloudflare 一家把基础设施基本都能搞定 一个人 + 一个 Openclaw + Cloudflare 全家桶,基本都能奥丁。

译Cloudflare 新增 Browser Rendering,提供远程 Chromium 抓取。Workers Paid $5/月含 10 小时浏览器/天。作者将 AI 公司官网抓取从 Jina Reader 迁至 Cloudflare,实际日耗约 3 分钟,99%+ 余量未用,避免了 Jina 免费层耗尽后的 402 静默失败问题,价格从 token 计费变为 $5 封顶可预测。结合 Pages、Workers、D1、R2、KV、Tunnel 及 Claude Code/OpenClaw + GitHub 自动构建,一人一套 Agent 即可将产品从 0 跑到上线,基础设施成本近乎免费。

elvis@omarsar0 · 2天前64

http://x.com/i/article/2071684582336782336 # FW Serverless 2.0: The Routing Pattern GLM 5.2 has kept open-weight models in the conversation and has everyone wondering how to start leveraging these open models in production. Once you move open models into production, the first thing that breaks under load is not output quality. It is whether the request is served at all. When traffic across the shared fleet exceeds available capacity, Fireworks can reject the request before generation and return a 503 Service Overloaded. The traditional fix has been to buy capacity ahead of time, either reserved GPUs or an enterprise contract sized to your peak. That leaves two bad options. Over-provision for traffic you rarely see, or guess low and eat failures when a spike arrives. Fireworks Serverless 2.0 (@FireworksAI_HQ) turns that standing capacity decision into a per-request routing decision. Each call can select the serving tier that handles it, so reliability becomes a runtime control instead of a procurement decision. The pattern below keeps live traffic available during congestion without reserving GPUs up front. ## The three serving tiers Serverless 2.0 gives you three serving tiers behind one API and one endpoint. Fig. 1. Three synchronous serving paths share one API surface and one fleet. Priority is selected with service_tier, while Fast uses a Fast model ID. Source: Fireworks Serverless 2.0 announcement. - Standard for everyday traffic. This is your default for production calls. It runs on elastic shared infrastructure and is the most cost-efficient path. Under high platform load, Standard requests are the first to be queued or rejected. - Priority for reliability under load. Reach for it when a dropped request has real cost, like an interactive session or a long agent run. It gets stronger admission during congestion and is shed last, at a higher per-request price than Standard. - Fast for latency-sensitive generation. Use it when wall-clock generation time is the bottleneck, such as agent loops, coding workflows, and interactive apps. Fast uses the same model family through an optimized serving path for higher generated-token throughput, not a smarter model or a different reasoning tier. Same API surface, no capacity reservation. You choose one serving behavior per request. Leave the default model on Standard, add `service_tier="priority"` for stronger admission during congestion, or switch to a Fast model ID for higher generated-token throughput. Priority and Fast solve different problems and are not stackable on one request. Take a concrete case. A chatbot runs fine on Standard until a launch drives a traffic spike and Standard starts returning 503s. Instead of provisioning GPUs or putting users behind a queue, you add `service_tier="priority"` on that endpoint, keep serving through the spike, and switch back to Standard once it passes. ## When to switch tiers You do not pick Standard or Priority up front. You default to Standard all day, and the moment a request gets shed under congestion (a 503 Service Overloaded, not a rate-limit 429), you flip to Priority for the next 30 minutes, then drift back. Fig. 2: The escalation policy. Default to Standard, flip to Priority for a 30-minute window on a 503 Service Overloaded, then drift back to Standard once the window expires. The premium is a control-plane tradeoff, not a new architecture. Priority costs more than Standard for the requests that use it, so the point is to promote only the traffic where a failed request has user-visible or workflow-visible cost. Interactive endpoints and long agent runs get the escalation path. Batch jobs should use Standard, the Batch API, or Background serving when retries and queueing are acceptable. Use Priority only when a 503 would waste expensive multi-step work. ## The code The code below is illustrative — written to demonstrate the documented Serverless 2.0 pattern, not an official Fireworks code sample. The `service_tier="priority"` field and the 503 Service Overloaded signal are from the Fireworks docs. The control loop, including the 30-minute window and `priority_until` bookkeeping, is our recommended implementation. The important part is the scope of the fallback. Escalate on 503 because that indicates serving capacity pressure. Do not use the same branch for 429 rate limits, auth errors, invalid requests, or application exceptions. Those are different failure modes and should not silently move traffic into a higher-priced tier. ## Guardrails to set - Track priority_until, escalation count, and 503 rate in metrics so you can see when Priority is masking sustained load. - Keep the escalation window bounded. A 30-minute window is enough to ride through a spike without leaving the service permanently promoted. - Apply the policy per workload or per route. User-facing paths can be promoted to Priority on 503. Evals, offline jobs, and other async batch workloads should use Standard or Background unless a failed request wastes expensive progress. - Alert if Priority remains active for multiple windows in a row. That is a capacity or traffic-shaping signal, not just a transient failover. ## What Priority costs Use the Serverless pricing docs as the source of truth. In the current pricing table, Kimi K2.7 Code Priority is listed at 1.5x the Standard row, while Kimi K2.7 Code Fast is listed as a separate Fast model ID at 2x Standard. Pricing varies by model, so always keep the docs as the reference. The operational point is simple. If a worker needs Priority for a 30-minute congestion window, that +50% per-token premium can still be a useful tradeoff when the alternative is failed multi-step work. For broader cost framing, refer to this article, which reports open-worker plus advisor setups running 19% to 67% cheaper than Opus-as-worker across its benchmark table. ## Which tier for which workload The pattern matters in the three places AI devs actually ship. Fig. 3. Routing by workload type. Batch and offline work routes to Standard or Background when retries are acceptable. Fast remains for latency-sensitive generation when wall-clock time is the bottleneck. - User-facing chat and agents. Interactive traffic is latency-sensitive and bursty. Keep it on Standard and let the first 503 during a spike (a launch, a viral post) auto-escalate to Priority, so users get answers instead of errors and you are not babysitting a dashboard. - Long agent runs. A single agentic task fans out into dozens of dependent calls, and one shed request mid-chain can sink the whole run. Escalating to Priority after the first 503 protects the expensive, multi-step work where a retry is not free. - Batch and offline jobs. Evals, synthetic data, bulk embeddings, nightly summarization, report generation, offline analysis, and data enrichment usually care more about throughput and completion cost than instant response time. Keep these on Standard or Background when retries and queueing are acceptable. Use Priority only when a 503 would waste expensive multi-step work. Leave Fast for latency-sensitive generation paths where wall-clock time is the bottleneck. Because the switch is per call, you run these paths off one codebase. Live endpoints can default to Standard with the escalation guard, long-running workflows can promote to Priority when 503s threaten completion, and async workers can stay on Standard, Batch, or Background. No separate clusters, no separate SDKs. ## Reliability without the cluster Serverless 2.0 gives teams more room before they need dedicated capacity. Start on Standard, add Priority when overload behavior matters, switch to Fast when wall-clock latency matters, and reserve capacity when you need hard guarantees. ## Links - Sign up - Docs - Serverless 2.0 announcement (tiers, the service_tier parameter, and 503 behavior) - Coding-model pricing comparison

译Fireworks AI 推出 Serverless 2.0,通过同一 API 端点下的三种服务层级解决共享集群高负载时的 503 Service Overloaded 问题。Standard 为默认经济型;Priority 在拥塞时提供更强准入,价格更高;Fast 通过优化路径提升生成 token 吞吐量,适用于低延迟场景。推荐默认使用 Standard,遇到 503 时临时切换 Priority 30 分钟,随后自动回退。Priority 和 Fast 不可叠加。

SemiAnalysis@SemiAnalysis_ · 2天前63

Parallel draft tree, tree-causal verification Looking forward to its deeper integration with inference engines vLLM/SGLang! Great work @Lanxiang_Hu!

译JetSpec 是一种投机解码方法,通过因果并行树草稿联合优化草稿成本与质量,采用并行草稿树和树因果验证。在 MATH-500 上实现 9.64x 端到端加速,开放聊天场景达 4.58x 加速,且保持无损。结合 CUDA graph 与内核优化,单块 B200 可实现约 1000 TPS。SemiAnalysis 期待其与推理引擎 vLLM/SGLang 的深度集成。

向阳乔木@vista8 · 2天前64

如何管理和监控一个超过 10,000 块 GPU 的集群? 腾讯团队开源了一个叫ARGUS的方案,强! 大模型训练极其贵,一个万卡集群,一天的电费和硬件折旧可能就是几十万人民币。 如果某节点出问题,或通信带宽被浪费了,损失巨大。 ARGUS 解决的核心问题:当集群出问题,能不能在几分钟内找到原因。 论文发现:在万卡规模下,超过 70% 的训练中断,是由网络通信问题导致的,而不是 GPU 本身坏了。 网络拓扑、路由策略、甚至网线质量,都会成为瓶颈。 ARGUS 的做法是:采集每个 GPU 的实时数据,包括计算负载、显存使用、网络带宽、通信延迟,然后自动做关联分析。 一旦发现异常,直接定位到具体是哪块 GPU、哪条链路出了问题。 原始论文见评论区

译腾讯团队开源ARGUS方案,用于管理和监控超10,000块GPU的集群。大模型训练成本极高,万卡集群每天电费和折旧达数十万元。ARGUS解决的核心问题是在集群出问题时几分钟内定位原因。论文发现:万卡规模下,超70%训练中断由网络通信问题导致,而非GPU故障。ARGUS通过采集每GPU实时数据(计算负载、显存、网络带宽、通信延迟)进行关联分析,精准定位故障GPU或链路。

karminski-牙医@karminski3 · 2天前60

SGLang 的 DSpark 实测数据在PR里放出了, 几个测试场景基本都能达到预测3个token, 其中数学类prompt是3.37个, 日常对话是3个, 代码是3.52个(果然代码是废token比较多的). 最亮眼的是加速比了, 在1K长度prompt下加速比来到了1.81倍. 测试使用的是8卡B200, 速度来到了 297 token/s. 而不使用DSpark 则是 164 token/s. 另外作者还测试了不同并发情况下的加速比, 目前来看单并发提升是最高的, 而超过8并发则只有1.2-1.3倍的提速了, 主要还是把GPU打满了. 另外比较震惊的数据时 DSpark 的 TPOT (每个输出 Token 的耗时) 只有2.9-5.2ms, 说明了这个DSpark内置的神经网络层运行得特别快. DSpark带来的延迟基本可以忽略不计了. 注意这个PR还没合并, 如果想尝试可以单独Fork这个PR29538.

译SGLang的DSpark在PR中放出实测数据,可预测3个token(数学类3.37,日常对话3,代码3.52)。1K长度prompt下加速比达1.81倍,8卡B200速度297 token/s(无DSpark为164 token/s)。单并发提升最高,超过8并发仅1.2‑1.3倍。TPOT仅2.9‑5.2ms,延迟可忽略。该PR(#29538)尚未合并。

小互@xiaohu · 2天前81

http://x.com/i/article/2071795831028826112 # 一个人,管理开发5款产品,而且80% 时间不在写代码,靠这一步... Every 单人团队运营 5 款产品,核心是每次完成功能后多做的一步:把解法存进系统,让 AI 下次自动避坑。 > ⚑ 立场提示:本文是 Every 团队自述其「复利工程」方法论与自家开源插件的实践,文中的并发规模、时间分配、产品数量都是官方口径。下面只讲它怎么运作、每个数字代表什么。 > ▸ 先认识下 Every:Every(every.to)是一家 2020 年成立的媒体 + 软件公司,CEO 兼联合创始人是 Dan Shipper。它每天发一份讲「科技下一步」的付费 newsletter,同时自己动手做软件产品——文中的 Cora、Monologue、Sparkle、Spiral 都出自它,另外还做 AI 课程和咨询。所以「复利工程」不是纸上谈兵,是一家又写又做、天天泡在 AI 里的公司,从自家实战里攒出来的方法。 ## 速览 - Every 用「复利工程」(Compound Engineering),以基本单人的工程团队维护旗下 5 款产品,核心是 Plan → Work → Review → Compound 四步循环。 - 传统工程走到 Review 就停了,第四步 Compound 把每次解决的问题变成系统知识,让 AI 下次自动避开同类错误,效率差距就来自这里。 - 这套方法主张工程师 80% 的时间花在 Plan 和 Review,只有 20% 用来实际写代码。 - 配套插件已开源,支持 Claude Code / OpenCode / Codex,含 26 个专项 agent、23 条工作流命令、13 项技能,零配置即用。 - /workflows:review 一次调用并发 14 个专项 agent 审查代码,/workflows:plan 开 ultrathink 模式可并发 40 多个研究 agent。 ## 一个人撑五款产品,怎么做到的 Every 团队最近公开了一套叫「复利工程」(Compound Engineering)的方法论,外加一个配套的开源插件,讲他们怎么用基本是单人配置的工程团队,同时维护旗下五款产品。 五款产品 Cora、Monologue、Sparkle、Spiral,加上官网 Every.to,每个产品的工程团队基本只有一个人。撑住这套规模的不是更长的工时,而是一个四步循环里被大多数团队省掉的最后一步。 > ◆ 为什么值得看:Every 把平时只在内部跑的东西开源了,包括 14 个 AI 同时审一段代码、计划阶段并发 40 多个研究 agent,外加 26 个专项 agent。这是目前公开的多 agent 并行工程实践里,数字最具体的开源参考之一。 ## 代码越写越难碰,根子在哪 大多数代码库随时间越来越难维护,原因不复杂:每加一个功能,就往系统里注入一份新的复杂度,新功能要和所有旧功能「谈判」。十年下来,团队花在跟历史代码较劲上的时间,比花在造新东西上的还多,代码变得越来越难懂、难改、难信任。 复利工程把这条曲线反过来。功能不再是往系统里加负担,而是教会系统一项新本领;修一个 bug,顺手消掉未来一整类同类 bug;一个解法被固化下来,就变成下次能直接复用的工具。迭代越多,系统越好用。 ## 四步循环:80% 的时间根本不是在写代码 支撑这套规模的,是一个四步循环:Plan(计划)、Work(执行)、Review(审查)、Compound(固化),然后重复。不管你是花五分钟修个 bug,还是花几天做个功能,走的都是这四步,只是每步花的时间多少不同。 前三步任何开发者都熟,第四步 Compound 才是复利工程和普通工程的分界线。跳过它,你做的就只是「有 AI 助手的传统工程」。传统工程到 Review 收手,复利工程多走 Compound 一步,把这一轮学到的东西留给下一轮。 反直觉的地方:写代码只占两成时间。 Plan 和 Review 加起来占工程师 80% 的时间,真正动手写(Work)加上固化(Compound)只占 20%。大部分思考发生在代码被写出来之前和之后。 四步各自在做什么: - Plan 计划:把想法变成蓝图。弄清需求和约束、研究代码库里同类功能怎么实现、查框架文档和最佳实践、设计方案、再校验方案是否站得住。 - Work 执行:先用 git worktree(仓库的隔离沙盒副本,多任务可各开一份并行跑、互不干扰)开出隔离环境,agent 按计划逐步实现,每改一处就跑测试、linting 和类型检查。 - Review 审查:多个专项 agent 并行审,把问题标成 P1(必须修)/ P2(应该修)/ P3(可以修),修完再校验,并记录这次出了什么问题。 - Compound 固化:把解法抽成可复用的知识写回系统——下面一节专门讲。 几个 Every 建议丢掉的旧观念: - ✕「代码必须手写」 你的职责是产出可维护、解决对问题的好代码,谁敲键盘不重要。 - ✕「第一版就该写好」 他们的经验里第一版 95% 是垃圾、第二版还有 50%,这是过程,目标是迭代够快让第三版落地比第一版还省时。 - ✕「不亲手敲就学不到」 今天理解比肌肉记忆重要,审 10 个 AI 实现比手敲 2 个学到的模式更多。 - ✕「代码是自我表达」 代码从来不属于你个人,它属于团队、产品和用户。 ## 第四步具体怎么做:把解法变成系统的记忆 前三步产出的是「一个功能」。第四步 Compound 产出的是「一个每次都能把功能做得更好的系统」。它落到地上是四个动作: 1. 记录解法——什么管用、什么没用、可复用的点是哪个。 1. 加元数据——用 YAML frontmatter 打标签,方便日后检索。 1. 更新 CLAUDE.md——把新模式写进 agent 每次启动都读的文件。 1. 验证学到了——下次它能自动接住同类问题吗。 > 复利的来源:传统开发停在第三步审查,复利工程多走这一步——把刚解决的问题写进系统。这一步不产出代码,产出的是「系统下次自动避开同类问题」的能力。效率差距就来自这里。 > 打个比方:CLAUDE.md 就是放在项目根目录的「AI 操作手册」,agent 每次启动都会先读它。它像新员工入职必读的 SOP:每当有人解决了一个之前没遇到的问题,就往里加一条规则,下一个人来就自动懂了,不用再踩一遍同样的坑。 下面这个对照,能直观看到这条规则攒下来之后的差别: - ✕ 没有积累:agent 不知道这个坑,你和它一起调试、定位、修好。修完,Compound 把「为什么会出、怎么避开」写进 CLAUDE.md,并存一份带 YAML 标签的文档进 docs/solutions/。这一次多花了点时间记录。 - ✓ 系统已经记住了:agent 一启动就读到那条规则,docs/solutions/ 里也能搜到上次那份解法。于是在 Plan 阶段它就主动绕开了同类问题,根本走不到出 bug 那一步。前面那次记录的时间,在这里连本带利赚回来。 每完成一次 Compound,CLAUDE.md 就多一条知识:迭代 1 → 1 条,迭代 3 → 3 条,迭代 5 → 8 条,系统越用越聪明。docs/solutions/ 就这样攒成一座机构知识库——Every 用 /workflows:compound 跑这一步,并发派出六个子 agent(理解问题、抽取解法、找相关旧文档互链、写「怎么避免复发」、做分类标签、排版成文档),日后任何一次会话都能自动翻到过去的解法。 ## 14 个 AI 同时帮你审代码 一条 PR 进来,/workflows:review 会一次性派出 14 个专项 agent,同时开跑,每个只盯一个维度,最后合并成一份按 P1 / P2 / P3 排好优先级的清单。 1. security-sentinel(安全)— 扫 OWASP Top 10、注入攻击、认证与越权。 1. performance-oracle(性能)— 揪 N+1 查询、缺索引、可缓存点、算法瓶颈。 1. architecture-strategist(架构)— 评估系统设计、组件边界、依赖方向。 1. pattern-recognition-specialist(架构)— 识别设计模式、反模式、代码坏味道。 1. data-integrity-guardian(数据)— 校验数据库迁移、事务边界、引用完整性。 1. data-migration-expert(数据)— 检查 ID 映射、回滚安全、生产数据校验。 1. code-simplicity-reviewer(质量)— 执行 YAGNI,揪多余复杂度。 1. kieran-rails-reviewer(质量)— Rails 规范、模型与控制器职责。 1. kieran-python-reviewer(质量)— PEP 8、类型注解、Pythonic 写法。 1. kieran-typescript-reviewer(质量)— 类型安全、现代 ES、整洁架构。 1. dhh-rails-reviewer(质量)— 37signals 风格:简单优先于抽象。 1. deployment-verification-agent(部署)— 上线前检查单、上线后验证、回滚预案。 1. julik-frontend-races-reviewer(前端)— 揪 JS 和 Stimulus 里的竞态。 1. agent-native-reviewer(Agent-native)— 确保功能不只人能用,agent 也能用。 > 顺带科普 · N+1 查询:查一张 100 条的列表,写法不对就变成每条再单独查一次,一共 101 次请求。像去超市买 10 样东西却跑了 11 趟——先去看看有什么(1 趟),再每样单独取一次(10 趟)。 合并去重后归到一份带优先级的清单,大致长这样: - P1 必须修:搜索查询有 SQL 注入漏洞(security-sentinel)/创建用户缺少事务包裹(data-integrity-guardian) - P2 应该修:评论加载有 N+1 查询(performance-oracle)/控制器里塞了业务逻辑(kieran-rails-reviewer) - P3 可以修:有一个未使用的变量(code-simplicity-reviewer) /resolve_pr_parallel 自动处理全部问题,先修 P1 再 P2、各自隔离跑、最后你人工过一遍;想先筛再修就用 /triage 逐条决定。 ## 插件里有什么,装上怎么用 整套流程打包成一个插件,零配置装上就能用,支持 Claude Code,也实验性支持 OpenCode 和 Codex。 - 26 个专项 agent:每个只精一件事——14 个 review 专家,外加研究型、设计型、自动化、文档型。 - 23 条工作流命令:主循环 plan / work / review / compound,加一批实用工具命令。 - 13 项技能:即取即用的领域知识,比如 agent-native 架构技能、风格指南技能。 四个目录各管一摊:CLAUDE.md(agent 每次启动必读的操作手册)、docs/solutions/(每个解决过的问题存成可搜索文档)、docs/plans/ 与 brainstorms/(计划产出)、todos/(review 查出的问题带优先级)。 Claude Code 两行装好: > claude /plugin marketplace add https://github.com/EveryInc/every-marketplace claude /plugin install compound-engineering 还有个一键到底的 /lfg:你只描述功能,它把计划 → 深化计划 → 执行 → 审查 → 修问题 → 浏览器测试 → 录功能演示 → 固化整条流水线串起来自动跑,全程派出 50 多个 agent,最后交你一个能直接合并的 PR,中途只在计划批准处停一下。 ## 关键数字:并发规模到底有多大 - 5 款——Every 用这套方法维护的产品数量,工程团队基本为单人配置。 - 80 / 20——计划+审查占工程师 80% 时间,执行+固化只占 20%。 - 14 个——/workflows:review 一次调用同时运行的专项审查 agent 数量。 - 40+ 个——/workflows:plan 开 ultrathink 模式后派出的研究 agent 数量。 - 26 / 23 / 13——插件包含的专项 agent 数 / 工作流命令数 / 技能数。 > 每一份工程工作,都应该让后续的工作更容易,而不是更难。 —— Every《Compound Engineering》 本文为 Every 团队自述其「复利工程」方法论与开源插件实践,文中并发规模、时间分配、产品数量均为其官方口径。原文:Every《Compound Engineering》,every.to/guides/compound-engineering。插件开源地址:github.com/EveryInc/compound-engineering-plugin。

译媒体软件公司Every公开「复利工程」方法论,以单人工程团队维护5款产品。核心是四步循环:Plan→Work→Review→Compound,其中Compound将每次解决问题的解法写入CLAUDE.md和docs/solutions/,使AI下次自动避坑。工程师80%时间花在Plan和Review,仅20%用于写代码。配套开源插件支持Claude Code等,含26个专项agent、23条工作流命令、13项技能,可零配置使用。/workflows:review一次并发14个agent审查代码,/workflows:plan在ultrathink模式下可并发40多个研究agent。

ginobefun@hongming731 · 2天前55

http://x.com/i/article/2071738413074771968 # BestBlogs 早报 · 06-30|智能体落地卡在验证回路与组织成熟度,Spotify、Block、Spring AI 各给一种解法 在线阅读本期早报 BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容,如果你希望它基于你的兴趣和阅读习惯整理,可以体验「我的早报」。 ## 导语 今天几篇都绕着同一个问题:当智能体真正进入大型工程组织,卡点究竟在哪里。 Spotify 架构师复盘他们在 2000 万行后端 monorepo 里跑 Claude Code 的经验,给出一个很务实的判断——关键不在模型本身,而在配套的工程基建。内部平台 Honk 在 Kubernetes 里运行 Claude agent SDK,把 CI、构建、测试自动化、组件归属和自动合并接进智能体的验证回路。他的核心提醒是:标准化的代码库和可靠的验证体系,先帮到了人,现在同样帮智能体。 Block 的工程负责人则把「采用」和「影响」拆开看。约九成工程师在用 Goose 和 Claude Code,token 在烧,但功能并没有更快交付。她给出了成熟度六阶段模型、AI champions 项目和写进 AGENTS.md 的仓库约定,三个月内把 AI 生成代码的占比提升了 69%,结尾反问自动化成功后裁员的社会代价,没有给出确定答案。 Spring I/O 2026 那场更适合 Java 工程师。它梳理 Spring AI 从简单的 LLM 调用走向生产级智能体生态的脉络——有用的系统需要围绕模型搭一层 harness,处理状态、领域知识、结构化输出、安全和可观测。从 advisor 拦截模式、RAG、guardrails,到工具调用与 MCP 标准化集成,再到按需加载工具和子智能体的上下文优化,路线图指向 Spring AI 2.0 与 MCP GA。 其余几篇各有看点:腾讯研究院讲「Token 不经济」、小红书 RedKnot 重做 KV Cache、LangChain 推动态子智能体、autoresearch 让智能体自己跑训练实验,以及世界模型是否到了 GPT 时刻的讨论。 ## ★ 精讲一:Spotify 如何让智能体在 2000 万行代码库中运行:Claude Code、Honk 与工程验证体系 如果你还没有关注这家公司在工程基建上的动作,可以先这样理解背景:Spotify 的后端代码量超过 2000 万行,长期以 monorepo 形式组织,组件数量庞大、归属分散。架构师 Niklas Gustavsson 在这场分享里回顾,他们最早进入「自动化代码改动」领域不是因为智能体,而是因为代码库增长的速度远快于工程师编制——团队很早就做了一套 fleet management,用确定性脚本去批量推进 Java 升级、依赖更新、API 变更这类跨数千组件的迁移。确定性脚本在简单场景下管用,但随着 API 表面和边界情况变多,会撞到天花板。正是这层压力把他们推向了一连串 LLM 实验(包括 LLM-as-judge 循环),最终走向内部平台 Honk。 Honk 现在在 Kubernetes 里运行 Claude agent SDK,并把内部工具交给智能体,尤其是验证工具。Gustavsson 反复强调的一点是:智能体能不能跑得快,取决于周围的工程系统够不够强——CI、Linux 与 macOS 构建、模拟器工作流、组件归属、测试自动化、自动合并实践、可靠的部署基建,缺一环智能体就不敢放手做改动。Spotify 报出了一些 AI 归因的生产力信号,比如更高的 PR 频率和大量 AI 作者的 PR,但他们也在持续把这些信号和工作项、A/B 测试、灰度、用户价值、收入挂钩,避免把「PR 变多」直接读成「价值变多」。 这件事为什么值得认真看?因为它把一个被反复讨论的问题落到了具体动作上:智能体落地的瓶颈是「验证回路」,而不是模型参数。Honk 的价值不在于它跑了一个 agent SDK,而在于它把 CI、测试、组件归属、自动合并这些原本给人用的基建,重新组织成了智能体可以调用的工具。换句话说,是工程系统先升级到了「可被自动化验证驱动」的形态,智能体才能在 2000 万行代码里真正动手。 它和今天另外两篇的关系也很清楚。Block 谈的是组织层面怎么让 3500 名工程师走向智能体协作,关注的是人和流程;Spotify 谈的是技术层面怎么让智能体在巨大代码库里安全动手,关注的是验证基建;Spring AI 谈的是框架层面怎么把这种「围绕模型搭 harness」的能力产品化,给 Java 工程师一套可复用的 advisor、guardrail、MCP 抽象。三篇合起来,恰好是智能体进入大型系统的三个切面:组织、基建、框架。 给读者的建议:如果你是工程负责人或平台团队,重点看他对「验证回路」的拆解,以及他给领导者的提醒——不要跳过基本功,标准化的代码库、统一的框架、对齐的工具链、测试和验证,这些过去帮到人的东西,现在同样帮智能体。如果你是一线工程师,他个人的转变也值得读:他原本以为自己会怀念那种实现密度很高的旧工作方式,结果发现智能体反而让他能在不熟悉的代码库里贡献价值,把更多精力花在问题定义上。详见 ## ★ 精讲二:构建自主工程组织:Block 如何让 3500 名工程师走向智能体协作 要理解这场分享,先看背景:Block(前身 Square)是一个 3500 人的工程组织,旗下覆盖 Square、Cash App、Afterpay、Tidal 等多条业务线,横跨前端、后端、移动、数据、基础设施、monorepo 与小服务、遗留系统。工程负责人 Angie Jones 复盘的是,他们怎么把这个组织从「大家都在用 AI 工具」推进到「智能体可以作为主要生产手段交付可上线结果」。她给出的是一份既实用、又带警示意味的组织剧本——分享结尾反问:当自动化真的成功,人会怎样。 她最尖锐的判断是把「采用」和「影响」分开。Block 在语言模型还支持工具调用之前就开始做 Goose,并在 Model Context Protocol 最初发布前后与 Anthropic 合作,Goose 也成了 MCP 客户端的参考实现,让一批好奇的工程师很早就接触到编程智能体。几个月内,她说约九成工程师在常态化使用 Goose、Claude Code 或类似工具,token 账单证明工具确实在跑——但面向用户的功能并没有更快交付。问题出在整合:工程师把 AI 用在提问、补全、写样板代码上,却没有把它接进完整的交付系统。她把赋能拆成 experimentation、adoption、impact 三个阶段,高采用还没有转化为高影响。 为了定义「目的地」,她给出一个成熟度六阶段模型:阶段 0 工作流里没有 AI;阶段 1 有补全但没有 agent 模式;阶段 2 能和智能体对话,但没有智能体产出的 PR;阶段 3 可以把任务委派给智能体并 review 其产出;阶段 4 并行跑多个智能体;阶段 5 把完整任务委派出去、无需持续人工引导就拿到可上线结果。当时大多数工程师停在阶段 1 和 2。把几千人推向阶段 5 很难,因为实践每周都在变、员工有 AI 疲劳、领导层压力又容易把赋能变成「AI or die」的强制命令。 她的几个具体抓手值得记住。第一是 AI champions 项目,借鉴线上社区的 1-9-90 规则——少数人创造、稍大一群人互动、大多数人只是消费,要求每个个体都去独立发现最佳实践是没法 scale 的。她从关键团队和仓库里挑了约 50 名 champion,每个 champion 投入大约 30% 的时间,要能容忍「开箱即坏」的非确定性工具,并能代表公司的重要系统。第二是把可复用知识写进仓库,做 stage-three delegation 的前提:用 AGENTS.md 或 CLAUDE.md 解释仓库结构和期望,用 rules 提供护栏,用 slash command 和后续的 skills 固化可重复的工作;同一套配置并不适配所有仓库,monorepo 适合根级共享上下文加服务级分层,Web 和移动端不同,Android 有时也和 iOS 不同。她强调这是真正的杠杆点——一旦知识沉淀进仓库,每个贡献者和智能体都能复用 champion 学到的东西。报告里提到的信号是:三个月内 AI 生成代码占比提升 69%。 这件事和今天其他几篇的呼应:它和 Spotify 互为表里——Spotify 在讲「验证回路」这种技术基建,Block 在讲「AGENTS.md、champion、成熟度模型」这种组织基建,两者缺一不可。而腾讯研究院那篇「Token 不经济」恰好给 Block 的故事提供了反面注脚:当采用率高达九成、token 在大量消耗却看不到功能更快交付时,正是 Jones 所说的「高采用、低影响」的典型症状,也是组织需要从「鼓励使用」转向「把智能体接进交付系统」的信号。 给读者的建议:如果你在推动团队或公司的 AI 采用,重点看她的成熟度六阶段和 champion 机制,这两个工具可以直接拿来评估自己组织停在哪一档、以及怎么用少数人去撬动多数人。如果你关心自动化对人的影响,分享结尾那段关于「自动化成功后裁员的代价」的反问,比任何确定性的结论都更值得想。详见 ## ★ 精讲三:2026 年 Spring AI 生态全景:从 LLM 基础到智能体架构 如果你是 Java 或 Spring 工程师,对智能体的印象还停留在「调一个 chat 接口」,这场 Spring I/O 2026 的分享会把整条脉络理清楚。它的核心观点很直接:一个真正有用的系统不能只有模型,还需要围绕模型搭一层 harness,去处理状态、领域知识、结构化输出、安全、可观测和工具访问。分享沿着这条主线,从最基础的 chat pipeline 一路讲到智能体协议。 第一层是 advisor 模式。Advisor 像是模型调用周围的拦截器,让应用可以加上对话记忆、检索外部上下文、检查输入、转换输出、收集指标和 trace。Chat memory advisor 解决无状态模型的问题,在请求前追加对话历史、响应后保存;检索和 RAG 用同样的拦截思路,从文件、数据库、倒排索引、embedding 搜索或向量库里把相关领域上下文带进来。第二层是 guardrails 和结构化输出。因为 LLM 是非确定性的、天然是 text-in/text-out,Spring AI 可以用 schema、输出校验、确定性检查和反馈循环来提升可靠性——一个 guardrail 可以拦掉敏感输入、校验 JSON 输出,或者把错误回喂给模型再试一次;更复杂的循环可以用 judge 模型或 reflection 风格的 advisor 去评估答案是否真的满足原始请求。 从上下文走向动作是分享的后半段。工具调用让模型拥有受控的能力,比如查天气或调一个外部 API,把应用从「聊天交互」变成「能和环境交互的系统」。Model Context Protocol 则把这个集成问题一般化,标准化 AI 客户端如何连接既有系统。分享覆盖了 MCP 的工具、资源、prompts、completions、logging、roots、sampling、elicitation、progress、cancellation,以及 stdio transport、streamable HTTP、无状态部署、Spring 注解、安全集成,还有可以展示 UI、让模型通过它行动的 MCP apps。 最后一部分是上下文优化和智能体协议。Progressive tool disclosure 避免一开始就把几百个工具定义全塞进上下文,而是暴露一个「工具搜索」工具,让模型按需请求相关工具;agent skills 用类似方式做延迟加载的上下文,subagents 则隔离较小的任务,让主智能体的上下文保持干净。分享还提到 Spring AI 对 A2A 集成的支持,并介绍了 Agent Client Protocol 作为 IDE 和编程智能体之间的标准接口——把它类比成 LSP,给出了 Java SDK 和 Spring Boot starter,以及一个叫 Bud 的 Spring Boot 开发智能体如何捕捉用户意图并生成或修改应用。路线图指向 Spring AI 2.0 基础、MCP GA 支持,以及面向智能体应用的新抽象。 为什么值得看:它把「围绕模型搭 harness」这件抽象的事,落成了 Java 工程师可以直接对照的组件——advisor、guardrail、tool calling、MCP、subagent。这恰好是 Spotify 和 Block 两篇里反复出现的「验证回路」「AGENTS.md 约定」在框架层面的对应物。当 Block 用 AGENTS.md 写仓库约定、Spotify 用 Honk 接验证回路时,Spring AI 这套 advisor 和 MCP 抽象,给的是把这些约定和回路产品化、可复用的工程骨架。三篇读下来,你能看到同一个趋势在组织、基建、框架三个层面的不同投影。 给读者的建议:如果你是 Spring 工程师,重点看 advisor 模式和 MCP 集成这两段,它们是最能立刻用到现有项目里的部分;如果你在评估智能体框架的选型,分享里关于 progressive tool disclosure 和 subagent 上下文优化的内容,能帮你理解框架在「上下文管理」这件事上走到了哪一步。 roadmap 里 Spring AI 2.0 和 MCP GA 的时间点,适合放进技术选型的观察清单。详见 ## 速览 Token 不经济(腾讯研究院)这篇文章回应的正是 Block 那个「九成人在用、功能没更快交付」的症状。它把现象拆成几层:模型分层定价让同一档产品的调用价格悄悄抬升,Anthropic 凭编码能力建立了行业最强的定价权,OpenAI 和 Google 在追赶但短期仍需以价换量;下游则是企业内部管控不力、token 使用回报有限、Agent 架构本身的损耗(比如 skill 重复调用、长程任务内耗、多智能体协同成本)相互叠加。文章引用了一个分析:在 ChatDev 框架里,代码审查阶段消耗的 token 平均占到总消耗的 39.5%,意味着近四成花费在智能体之间反复传递已有信息上,而不是生成新内容。它的结论是:要让 token 净收益转正,供给端优化成本还不够,还得从需求端解决 token 在广泛产业场景里如何产生实际价值的问题。适合关心 AI 商业化和成本结构的读者。详见 让 KV Cache「按头分家」:小红书 RedKnot 如何重做长文本推理新引擎(小红书技术 REDtech)解决的是长文本推理的工程瓶颈。RAG 拼大量检索片段、编程 agent 积累工具调用历史、长会话系统塞进记忆和状态,都会让 KV Cache 变大、首字延迟(TTFT)变长、并发被拖住。RedKnot 换了个视角:KV Cache 的价值不是按 token 均匀分布的,而是强烈按注意力头分化,有些 head 要看完整上下文,有些主要只看局部。它沿「注意力头」这个维度把 KV Cache 拆开,配合稀疏 FFN 和段页存储,论文实验显示最高带来 1.6–3.54 倍 TTFT 加速、4.7–7.8 倍单卡并发提升,预填充阶段算力削减 67%–79.5%。适合做推理服务和 infra 的工程师。详见 Deep Agents 中动态子智能体的引入(LangChain Blog)讲的是智能体编排的下一步。普通 subagent 是主模型一次调一个,小规模可以,但要 spawn 几百个子智能体、或者编排逻辑带条件和多阶段时就崩了。动态子智能体的做法是让智能体写一段简短的脚本去编排和调用子agents,在一个轻量解释器里跑,把循环、分支、并发这些模型本来就擅长的代码模式用上。典型例子是 300 页文档每页一个 subagent——不是调 300 次工具,而是写一个循环。它解锁了基于工具调用的编排难以可靠交付的两件事:大规模和复杂多阶段工作流。适合在搭 agent pipeline 的工程师。详见 如何构建一个能自主运行 LLM 实验的 AI 智能体:autoresearch 实践指南(freeCodeCamp)解析的是 Karpathy 的开源工具 autoresearch。它把一个小而真实的 LLM 训练设置放进单个 Python 文件,让 AI 智能体去编辑这个文件、训练、读 loss、做判断、再循环。Karpathy 在 depth-12 的 nanochat baseline 上跑了大约两天,700 个实验里找到约 20 个真正改进模型的改动,且这些改动可以叠加。文章特别强调衡量成功的指标是关键——用 val_bpb(validation bits per byte)而不是 loss,因为它对不同 token 化方案更鲁棒。适合想动手让智能体跑自己 GPU 实验的读者,文末有完整 step-by-step。详见 World Model-世界模型也有 Scaling Law 吗?(屠龙之术)是一期适合想理清「世界模型」这个热词的播客。主播庄明浩系统对比了世界模型和大语言模型在数据、成本、安全等维度的根本差异,并以即将上市的自动驾驶公司 Momenta 为样本,论证物理世界 AI 的「GPT 时刻」尚未到来。他的终局判断包括:三线合一(视频、3D、具身、自动驾驶会收敛)、不会赢家通吃、GPT 时刻没到。如果你被各种「做世界模型」的说法绕晕了,这期给了一个相对冷静的分类框架。详见 Claude Tag:AI 交互范式的第三次重新设计?(宝玉 @dotey)整合了 Karpathy 和 Gergely Orosz 的观点,分析 Anthropic 新发布的 Claude Tag(在 Slack 里 @Claude 执行任务)。文章指出,真正的突破不是 Slack bot 本身,而是云端 AI 接入了公司内部系统——云端执行环境、持久记忆、工具集成、权限控制,Slack 只是入口。受益人群主要是新员工、非工程师和不熟悉代码库的开发者,而集成难度是产品成败的关键。这篇没有配图,但观点密度够高,适合关注 AI 产品形态和企业落地的读者。详见 3Blue1Brown 创始人:成为二手思考者的高昂代价(跨国串门儿计划)是一期数学科普频道 3Blue1Brown 创始人 Grant Sanderson 的深度对谈。核心是「源头思维」与「传声筒思维」的区分——你是源头,还是传声筒?他坦诚分享了对新颖性的祛魅、对算法的祛魅,以及为什么认为「行动先于动力」。在 YouTube 创作者普遍陷入倦怠和算法焦虑的当下,他靠专注常青内容、不追热点、不做团队,保持了十年的创作热情。这不是教做爆款的内容,而是关于如何在噪声时代做出经得起时间考验的作品的思辨。详见 ## 补充阅读 - 提示词工程悄然出错——提示词回归正是原因所在(Towards Data Science):指出一种「虚假改进」模式——整体准确率上升时关键类别却全面崩溃(v4 整体准确率 67.5% 看似最好,但否定句分类暴跌 66.7%)。文章给出一个零外部依赖、纯 Python、两秒内跑完的回归测试套件,用 40 条 golden queries 跨四个 prompt 版本做确定性校验。适合所有在生产里改 prompt 的人。详见 - AI 智能体如何管理记忆并避免遗忘(ByteByteGo Newsletter):系统讲清智能体记忆这件事的工程本质——模型本身每次都从空白开始,所谓「记住」是平台在每次调用前把上下文塞回去。文章覆盖无状态模型、分层记忆架构、四种功能记忆类型,以及成本、延迟、准确性之间的权衡,还提到 long context 里的「lost in the middle」问题。适合想从零搭记忆系统的工程师。详见 - 把前沿模型效果带到端侧:从大模型原型到小模型生产(AI Engineer):给出一套面向生产的做法——prototype big, deploy small。Rachel Lee Neighbors 论证把不必要的前沿模型调用换成本地或更小的模型,理由不只是 API 花费,还有敏感数据暴露、延迟破坏交互感、断网失效、能耗。关键是先定义黄金数据集和评测,再用 Phoenix 这类工具比较小模型候选直到达到产品门槛。适合在做模型选型和成本优化的团队。详见 - 收购仅一年即「决裂」!创始人贾扬清出走英伟达(AI 前线):剖析英伟达收购 LeptonAI 一年后贾扬清出走事件,揭示两个信号——GPU 可以靠稀缺性卖断货,但 AI Infra 无法复制这种垄断;当 AI 已经能自己写代码、管集群,以「降低工程门槛」为卖点的中间件平台正面临价值危机。文章细节丰富,适合关心 AI 基础设施行业格局的读者。详见 - 架构模式:从云原生迈向本地优先——Adam Wiggins 的见解(InfoQ):Heroku 联合创始人、Ink & Switch 创始人 Adam Wiggins 主张一种「local-first」架构,用 CRDT 兼顾云端的协作能力和本地软件的性能与数据所有权,并探讨混合 AI 未来里小型本地模型在核心生产力任务上的角色,反思对集中式云计算的过度依赖。适合关心架构范式演进的读者。详见 - 第一批一人公司,现在怎么样了?(量子位):通过采访多位独立开发者、创业者和投资人,报道 AI 时代「一人公司」(OPC)的现状、组织形态和上限。文章没有停留在概念炒作,而是落到独立开发者超级峰做 MotiClaw(帮人搭建「AI 员工」)这类具体案例,揭示一个人加一群 Agent 能不能像一家公司那样运转。适合关心 AI 时代个体创业的读者。详见 ## 今日阅读路径 如果你今天时间有限,建议按这个顺序读三篇: 1. Spotify × Honk——它最直接地回答了「智能体落地的卡点在哪」,把抽象的「验证回路」落成了 CI、测试、自动合并这些具体基建,是今天最值得工程负责人和平台团队花时间的一篇。 1. Block × 成熟度六阶段——它给了你一个可以立刻拿来评估自己组织停在哪一档的工具,以及用 champion 撬动多数人的具体打法,和 Spotify 互为表里。 1. Spring AI 生态全景——如果你是 Java 工程师,这篇能把 advisor、guardrail、MCP 这些抽象对应到你现有项目里,是前两篇「验证回路」和「仓库约定」在框架层面的落地。 时间更紧的话,至少把 Spotify 那篇对「验证回路」的拆解读完——它是今天几篇文章共同指向的那个核心问题。 BestBlogs 是 AI 驱动的私人阅读助手,帮助你发现真正适合你的高质量内容,欢迎体验。

译智能体进入大型工程组织面临验证回路与组织成熟度两大瓶颈。Spotify 架构师分享在2000万行monorepo中运行Claude Code的经验,强调标准化代码库与可靠的CI、测试、自动合并等验证基建是前提,内部平台Honk整合这些工具。Block 工程负责人指出九成工程师在用Goose和Claude Code但功能交付未加速,提出六阶段成熟度模型与AI champions项目(约50名champion各投入30%时间),通过AGENTS.md沉淀知识,三个月内AI生成代码占比提升69%。Spring I/O 2026则梳理Spring AI从LLM调用到生产级智能体生态的演进。三篇从技术基建、组织流程、框架产品化给出解法。

karminski-牙医@karminski3 · 3天前57

DeepSeek真的是性价比和技术双重斩杀线... 有同学看不懂DSpark是啥, 简单给大家写个小教程讲讲. 推测性解码(投机解码)这个技术是用来提升大模型输出速度的. 本质是让小模型给大模型接话, 大模型判断小模型说的对不对. 因为现在模型普遍卡内存带宽, 而GPU算力是富余的, 所以大模型的prefill速度(看字)比decode速度(吐字)快很多. 那么让小模型沿着大模型的思路先说一段话, 大模型判断对不对(只需要看字), 只要小模型猜对了, 那么这就利用了prefill速度, 吐字就会成倍的提升. 但问题来了, 外挂小模型也要看字(prefill), 也要占用显存, 也要吃显存带宽. 那么有没有更好的方法来解决呢? 来了, 这就是DSpark. 看我的这个图(左侧DSv4架构图是 @rasbt 大佬的), DSpark 接在了 Final RMSNorm 过程中. 不是接一个完整的小模型, 而是一个3 层的MTP(多Token预测)微型Transformer堆叠. 大模型算完前面60多层后, 刚把当前这句话的"高浓缩概念"(特征向量/隐藏状态)推到 Final RMSNorm 这个出口,还没来得及翻译成具体文字时,DSpark开始截胡: 首先是半自回归极速脑补 (MTP + Markov Head), DSpark自己有一丢丢参数, 然后它就瞬间并行猜5个字(特征向量), 然后再用自己内部的一个串行网络理顺逻辑. (注意啊,先并行然后串行消除并行导致的逻辑不连贯). 然后, 它会有一个置信度预测头, 预判自己猜的准不准, 比如5个字的后2不准就直接砍掉, 防止后续送回大模型浪费算力. 最后把留下的3个字塞回词表映射层, 把向量翻译为token. 到此为止DSpark工作就做完了. 然后就是大模型扫一遍DSpark输出的对不对(只用prefill,不decode), 一旦正确了, 就直接吐字, 这样之前模型一次只能吐一个字, 现在就能吐3个字了! 最后, 推测性解码是不会降智的, 速度能提升60%-85%! 之前是雇一个小模型帮忙写草稿, 现在则是直接脑子里植入芯片了. 目前SGLang已经有这个特性的PR了(29538), 而且DeepSeek刚在自己的HuggingFace主页发了一大堆小模型的DSpark魔改版. 大胆猜一波未来发布的模型会不会标配DSpark? #dspark #deepseek #投机解码 #推测性解码

译DeepSeek推出的DSpark是一种推测性解码技术,通过在Final RMSNorm后接入3层MTP微型Transformer堆叠,让大模型在输出前并行猜5个token,经置信度头剪裁后,送回大模型用prefill验证,正确则一次性吐出多个token。相比外挂小模型更高效,不降智,速度提升60%-85%。目前SGLang已有相关PR(#29538),DeepSeek已在HuggingFace发布多款DSpark魔改版小模型。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月3日
07:06
ClaudeDevs@ClaudeDevs
53
我们已为所有用户提升 Claude Platform API 速率限制并简化层级,不再基于 API 消费额。最新的 Sonnet 和 Haiku 模型在最高层级提供 5 倍更高的速率限制。
Anthropic产品更新部署/工程
06:40
SemiAnalysis@SemiAnalysis_
27
Meta计算:人人都想成为云 扎克伯格选择B计划? SpaceX 2.0、Bedrock 2.0、 MSL并未放弃,将推荐系统扩展10倍……ClusterMAX排名即将推出? https://newsletter.semianalysis.com/p/meta-compute-everyone-wants-to-be
Meta行业动态部署/工程
05:08
Rohan Paul@rohanpaul_ai
48
Palantir CEO:部分美国政府客户将敏感AI工作迁移至Nvidia Nemotron开源模型

Palantir CEO透露,部分美国政府客户正在将敏感AI工作迁移至Nvidia的Nemotron开源模型。Nemotron可在气隙环境运行,隔离于不安全的外部网络,适合对数据泄露敏感的国防任务。Karp称Nemotron在机密战场级任务上表现相当或更优。更深层变化在于,模型质量不再是唯一购买决策因素,机构现在综合权衡速度、价格、主权、审计追踪和运营控制。美国开源模型为华盛顿提供了介于闭源实验室和海外技术栈之间的第三条路径。

开源生态行业动态部署/工程
02:35
🚨 AI News | TestingCatalog@testingcatalog
58
Anthropic 🤝 Samsung 据The Information报道,Anthropic可能与三星合作开发自己的AI芯片。 > OpenAI近日宣布与Broadcom合作开发自有AI芯片。 大家都在走向全栈 👀
Anthropic行业动态部署/工程
02:05
xAI@xai
38
Grok Build 现已安装在 Railway 沙箱中

Railway: Grok Build from @xai is now available in Railway sandboxes Run `ssh sandboxes@railway.new` in your terminal and try it o...

xAI行业动态部署/工程
01:40
elvis@omarsar0
53
DAIR.AI 的 Elvis Saravia 分享 PaperWiki:基于 LLM 和智能体的研究知识库

DAIR.AI 的 Elvis Saravia 分享了自己过去几个月构建的 PaperWiki,这是一个基于 LLM 和编程智能体的知识库,用于研究工作流。它通过自动化每日更新,从多个来源摄入论文并存入 Obsidian,使用 qmd 索引,以 HTML artifact 呈现,支持全文和语义搜索。Saravia 使用前沿模型(opus-4.8)和开放权重模型(deepseek-v4-flash)混合维护,并计划开源。他认为 LLM Wiki 是当前最有价值的 AI 应用方向之一。

智能体大佬观点部署/工程
01:38
SemiAnalysis@SemiAnalysis_
28
EMIB-T 路线图、定制 HBM、 HBM4 封装挑战、微流冷却、 光子互连,以及更多 ECTC 2026 综述,英特尔、台积电、SK 海力士、 三星、美光、Marvell、Lightmatter、微软 https://newsletter.semianalysis.com/p/ectc2026
行业动态部署/工程
01:08
SemiAnalysis@SemiAnalysis_
45
太阳能和储能每年各新增超过20GW。听起来新增大量电力。但电网在需求高峰时实际能依赖的容量几乎没有变化。这一缺口正是AI数据中心开始自建电力容量,而非排队等待接入电网的原因。(1/3)🧵
现象/趋势部署/工程
7月2日
23:51
Satya Nadella@satyanadella
64
企业的未来是一个学习循环,人力资本与token资本不断累积。 借助我们的新Frontier Co.,我们的目标是帮助每个企业构建自己的AI能力,并帮助创建一个前沿生态,使每个组织都能将其知识、工作流程和判断力转化为自己的AI系统,并持续改进。https://blogs.microsoft.com/blog/2026/07/02/microsoft-frontier-company-ai-engineering-that-amplifies-and-protects-your-intelligence/
Microsoft行业动态部署/工程
14:06
Rohan Paul@rohanpaul_ai
45
Palantir CEO Alex Karp: 一家公司不只需要一个在精致界面内回答问题的聪明模型。严肃的技术客户想要的是对数据、提示词、系统访问以及创造价值的工作流的控制。
大佬观点部署/工程
10:07
Alibaba Cloud@alibaba_cloud
53
还在手动进行Agent评估?阿里云AgentLoop构建了一个自我进化飞轮: ✅ 全栈轨迹可观测性 ✅ 自动数据集管道(Trace2Dataset) ✅ Agent-as-a-Judge(90%一致性) ✅ 记忆/经验库 让Agent更智能、更快、更便宜。加入Beta版! 🚀 https://int.alibabacloud.com/m/1000415066/ #AI #AgentLoop #LLMOps #GenAI #AlibabaCloud
智能体产品更新部署/工程
10:05
Rohan Paul@rohanpaul_ai
69
MCP Server架构模式论文:LLM集成应用工具设计需遵循5种模式、避免4类错误

该论文指出,MCP服务器设计不同于普通API,因为LLM通过纯语言描述选择工具,过多或模糊的工具会导致混淆。作者归纳了5种实际模式(如暴露数据、运行工作流、保持会话状态、组合服务器、翻译混乱领域API),并警告4个常见错误(大而全工具、模糊描述、不安全外部内容、慢工具应返回job ID)。在54个额外服务器上测试发现,弱模型在可见工具超过10-15个时准确率降至90%以下。良好MCP设计的核心是使工具列表小巧、清晰、安全且稳定。

arXivMCP/工具论文/研究部署/工程
08:10
Hao AI Lab@haoailab
51
DSpark 与 JetSpec 对比:两种面向因果一致性的推测解码技术

DSpark 与 JetSpec 几乎同时出现,都解决轻量级草稿模型并行提案时的因果一致性问题。DSpark 面向高并发,通过轻量级马尔可夫校正头与置信度估计控制预算,在 Qwen3-8B 与 AIME25 上,预算 7 时将接受长度从 DFlash 的 4.07 提升至 5.01。JetSpec 面向低延迟,将因果性直接构建进并行草稿头,预算 16 时接受长度 7.23,预算 128 时达 9.82,高于 DFlash 的 7.34 与 DDTree 的 8.66。两者分别从吞吐与延迟侧优化因果性。

大佬观点推理部署/工程
07:37
SemiAnalysis@SemiAnalysis_
57
本周 InferenceX 团队讨论了将 DeepSeek V4 部署到 InferenceX 所需的工作、模型架构的变化、什么是 MegaKernel,以及在包括华为昇腾 NPU 在内的各种加速器上的初始性能。
DeepSeek推理评测/基准部署/工程
07:29
ginobefun@hongming731
39
今日早报:本地AI补齐工程栈、LongCat万亿模型落地国产算力、美图应用方法论

本地AI倡导者Ahmad Osman指出开源与闭源差距缩至4-8个月,但缺搜索、工具、Agent等基础设施。美团发布LongCat-2.0(1.6T参数/48B激活MoE,30T tokens预训练,原生1M上下文),五万卡国产算力集群训练,SWE-bench Pro 59.5领先Gemini 3.1 Pro等,预览版OpenRouter调用量前三。美图CEO吴欣鸿:2025年营收38.58亿元,净利润9.65亿元同比增64.7%,AI影像收入占比76.6%,海外MAU重回1亿。

智能体Google现象/趋势部署/工程
04:36
SemiAnalysis@SemiAnalysis_
52
SemiAnalysis:推理不断被切分,每次切分都让智能更便宜

SemiAnalysis 指出推理正被多轮“切分”以降低成本。第一步按阶段拆分:prefill 与 decode 用不同芯片;第二步按层拆分:attention 用 HBM 富裕的 GPU,前馈网络用 SRAM 基芯片;第三步按时间拆分:工作负载切片为执行窗口,在集群中交错调度。每次切分回收闲置利用率,从而降低每 token 成本。更便宜的 token 不会压缩需求,反而刺激增长——这是 MLSys 2026 的核心叙事。

推理现象/趋势部署/工程
03:52
Chubby♨️@kimmonismus
33
Palantir CEO Alex Karp表示,企业已厌倦那些"过度推销"模型并推行tokenmaxxing的AI实验室。客户希望拥有以Palantir和NVIDIA为核心的完整AI堆栈。FABLE 5已回归。

Chubby♨️: Palantir CEO Alex Karp says enterprises are fed up with AI labs that "oversold" models and pushed tokenmaxxing. Customer...

大佬观点部署/工程
03:03
Rohan Paul@rohanpaul_ai
74
Meta 计划将自身用于模型、广告等任务的过剩 AI 算力转化为云业务,允许开发者租用数据中心内的模型访问(类似 AWS Bedrock),也可能出租原始算力,旨在为高达 1500 亿美元的资本支出寻找回报,减少对广告收入的依赖。消息公布后 Meta 股价上涨超 10%,而 AI 云公司 CoreWeave 和 Nebius 分别下跌 10.8% 和 12.4%。Zuckerberg 透露几乎每周都有外部公司向 Meta 请求算力,但此举更像为支出过高担忧提供财务安全阀;Meta 要成为 AWS、Azure 级别的云服务商仍需应对计费、安全、开发工具等挑战。

Rohan Paul: Meta is turning excess AI compute into a cloud business after shares jumped more than 10%. Meta built huge AI infrastruc...

Meta行业动态部署/工程
02:33
Rohan Paul@rohanpaul_ai
69
第一次AI裁员潮已经开始引发人类重新招聘潮

据Orgvue报告,39%的公司已实施AI相关裁员,其中55%的领导者承认裁错了岗位。问题在于企业裁掉了理解例外情况、升级路径和隐蔽故障模式的员工。AI虽提升生产力,但在依赖判断力和机构记忆的工作中失效。福特因自动化质检系统未能提前发现缺陷,召回约350名资深工程师。澳大利亚联邦银行削减45个AI语音客服岗位后,因呼叫量上升而取消决定。IBM也从AI驱动的HR自动化转向在全美业务部门将初级岗位招聘增加两倍。

行业动态部署/工程
01:33
Rohan Paul@rohanpaul_ai
66
Meta 将过剩 AI 算力转为云业务,股价涨超 10%

Meta 利用为自有模型、广告和助手建设的大型 AI 基础设施产生的过剩算力,计划向开发者出租模型访问(类似 AWS Bedrock)及原始算力。消息引发股价剧烈反应:Meta 涨超 10%,而 AI 云公司 CoreWeave 跌 10.8%、Nebius 跌 12.4%。Zuckerberg 此前透露外部公司几乎每周都向 Meta 请求算力。此举既降低 Meta 对广告收入的依赖,也证明其 AI 建设的外部价值,但云业务涉及计费、安全、工具支持等复杂环节,Meta 难以快速成为 AWS 级别的云服务商。

Meta行业动态部署/工程
7月1日
19:51
Chubby♨️@kimmonismus
52
Booster Studio 是行业首个专为具身AI打造的IDE,已上线 http://studio.booster.tech。该平台集成代码编辑、高精度仿真、真实机器人调试和实际部署于一体,提供从初始想法到硬件落地的完整一站式工作流,打破了数字与物理世界的壁垒。

Booster Robotics: The industry's first embodied AI IDE, Booster Studio, is officially live at http://studio.booster.tech! Built exclusivel...

产品更新具身智能部署/工程
18:22
X.PIN@thexpin
63
美团发布1.6万亿参数大模型LongCat-2.0,完全基于国产AI处理器集群

美团发布LongCat-2.0,一个1.6万亿参数的大模型,据称完全基于5万片国产AI处理器集群完成训练和推理。美团自2023年推进国产AI基础设施,该模型成为其首个在国产集群上完成预训练与推理的前沿规模模型。更值得关注的是,美团并未推出独立聊天机器人,而是将AI嵌入现有的推荐餐厅、订酒店、点餐等服务中。这种将AI整合进已有用户、商户、支付和交易生态的做法,正成为阿里(开放Qwen品牌智能体)、蚂蚁(以Ah Bao重构支付宝)等中国互联网平台的共同方向。

推理模型发布部署/工程
18:00
Artificial Analysis@ArtificialAnlys
47
Etched 宣布走出隐身模式,基于成功的 A0 tapeout 制造出首批机架,已获得超 10 亿美元客户合同并融资 8 亿美元。早期客户测试显示其在推断吞吐量、延迟和能效上达到 SOTA。首批机架将于今夏发货。Artificial Analysis 祝贺并透露将用自研基准 AA-AgentPerf 对系统进行评测,该基准衡量每兆瓦运行功率可同时运行的 agent 数量。

Etched: We're coming out of stealth. We've built our first racks after a successful A0 tapeout, $1B+ in customer contracts, and ...

产品更新推理部署/工程
14:36
Alibaba Cloud@alibaba_cloud
53
如果你的云从第一天起就为AI原生构建会怎样? 欢迎了解 Qwen Cloud--阿里云全新的AI原生平台,旨在简化模型访问与部署,提供统一的栈来构建、部署和扩展AI应用与智能体。 探索 Qwen Cloud 如何驱动下一代AI原生开发:https://click.qwencloud.com/m/20000000105/ #AlibabaAI #QwenCloud
智能体产品更新部署/工程
10:01
OpenClaw🦞@openclaw
46
v2026.6.11 已发布。 本次发布关注让 OpenClaw 感觉不太可靠的粗糙边缘:回复错位、发送卡住、重新连接、模型设置失败等。 注意,本次发布很无聊。 https://docs.openclaw.ai/releases/2026.6.11
产品更新部署/工程
07:05
SemiAnalysis@SemiAnalysis_
44
值得关注 xAI 如何在孟菲斯解决其电力问题,因为该方案异常激进。许可容量是真实的(3 月在 Southaven 获批了约 1.2GW 的永久燃气轮机),但这并非大部分增长的实际来源。(1/3)🧵
xAI行业动态部署/工程
07:01
Rohan Paul@rohanpaul_ai
67
美国商务部可能终于要在今晚取消对Fable的限制了。🤯

Sophia Cai: 🚨 NEWS: Commerce is expected to lift export controls on Fable tonight, a senior White House official tells me.

政策/监管部署/工程
06:50
Chubby♨️@kimmonismus
50
Politico说Fable 5今晚回归! 看来我猜对了,Sonnet 5和Fable 5会同时发布。Politico是最受尊重的媒体之一,因此这个消息来源可信。 准备好吧,朋友们:是时候让Fable回来了!

Sophia Cai: 🚨 NEWS: Commerce is expected to lift export controls on Fable tonight, a senior White House official tells me.

政策/监管部署/工程
05:58
🚨 AI News | TestingCatalog@testingcatalog
60
Booster Robotics 推出 Booster Studio,这是业界首个专为具身 AI 打造的 IDE。该平台将代码编辑、高精度仿真、真实机器人调试与实地部署集成于单一环境中,取代了以往分散在多个工具中的工作流。用户可在一站式平台上完成从最初想法到最终硬件部署的完整开发流程,高保真仿真环境与全面开发栈打破了数字与物理之间的壁垒,加速了具身 AI 从想法到工作硬件的落地。

Booster Robotics: The industry's first embodied AI IDE, Booster Studio, is officially live at http://studio.booster.tech! Built exclusivel...

产品更新具身智能部署/工程
04:58
ClaudeDevs@ClaudeDevs
51
我们为 Claude Managed Agents 添加了一些更新: 流式会话事件增量、按会话的代理覆盖、新的 Webhook 事件类型、反向分页以及凭证注入作用域。
智能体Anthropic产品更新部署/工程
01:00
OpenAI Developers@OpenAIDevs
45
⚙️ 我们在数据基础设施中调试了一整年的崩溃,发现了一个硬件问题,以及另一个在开源代码中隐藏了18年未被注意的问题。 以下是我们的追踪过程: http://openai.com/index/core-dump-epidemiology-data-infrastructure-bug/
OpenAI教程/实践部署/工程
00:35
gabriel@gabriel1
59
推理将成为全球最大的市场,智能的需求无限 Etched正在带来AI夏季

Etched: We're coming out of stealth. We've built our first racks after a successful A0 tapeout, $1B+ in customer contracts, and ...

产品更新推理部署/工程
6月30日
23:51
凡人小北@frxiaobei
55
Cloudflare 新增 Browser Rendering 远程 Chromium 抓取功能

Cloudflare 新增 Browser Rendering,提供远程 Chromium 抓取。Workers Paid $5/月含 10 小时浏览器/天。作者将 AI 公司官网抓取从 Jina Reader 迁至 Cloudflare,实际日耗约 3 分钟,99%+ 余量未用,避免了 Jina 免费层耗尽后的 402 静默失败问题,价格从 token 计费变为 $5 封顶可预测。结合 Pages、Workers、D1、R2、KV、Tunnel 及 Claude Code/OpenClaw + GitHub 自动构建,一人一套 Agent 即可将产品从 0 跑到上线,基础设施成本近乎免费。

凡人小北: Cloudflare 基本已经成了个人开发者/出海独立建站/轻量创业项目的免费全家桶。 Pages 管前端部署(虽然官方不主推了,但是倾向于很多静态也方式),Workers 管后端逻辑,D1 管数据库,R2 管存储,KV 管缓存和短链,Tu...

智能体现象/趋势部署/工程
22:35
elvis@omarsar0
64
Fireworks AI 推出 Serverless 2.0,通过三种服务层级解决 503 拒绝请求问题

Fireworks AI 推出 Serverless 2.0,通过同一 API 端点下的三种服务层级解决共享集群高负载时的 503 Service Overloaded 问题。Standard 为默认经济型;Priority 在拥塞时提供更强准入,价格更高;Fast 通过优化路径提升生成 token 吞吐量,适用于低延迟场景。推荐默认使用 Standard,遇到 503 时临时切换 Priority 30 分钟,随后自动回退。Priority 和 Fast 不可叠加。

产品更新推理部署/工程
22:34
SemiAnalysis@SemiAnalysis_
63
JetSpec 是一种投机解码方法,通过因果并行树草稿联合优化草稿成本与质量,采用并行草稿树和树因果验证。在 MATH-500 上实现 9.64x 端到端加速,开放聊天场景达 4.58x 加速,且保持无损。结合 CUDA graph 与内核优化,单块 B200 可实现约 1000 TPS。SemiAnalysis 期待其与推理引擎 vLLM/SGLang 的深度集成。

Hao AI Lab: Introducing JetSpec: we find speculative decoding can push LLM generation latency to extreme by co-optimizing drafting c...

推理论文/研究部署/工程
15:18
向阳乔木@vista8
64
腾讯开源ARGUS:万卡GPU集群监控方案

腾讯团队开源ARGUS方案,用于管理和监控超10,000块GPU的集群。大模型训练成本极高,万卡集群每天电费和折旧达数十万元。ARGUS解决的核心问题是在集群出问题时几分钟内定位原因。论文发现:万卡规模下,超70%训练中断由网络通信问题导致,而非GPU故障。ARGUS通过采集每GPU实时数据(计算负载、显存、网络带宽、通信延迟)进行关联分析,精准定位故障GPU或链路。

开源/仓库部署/工程
14:36
karminski-牙医@karminski3
60
SGLang DSpark实测:1.81倍加速,预测3个token

SGLang的DSpark在PR中放出实测数据,可预测3个token(数学类3.37,日常对话3,代码3.52)。1K长度prompt下加速比达1.81倍,8卡B200速度297 token/s(无DSpark为164 token/s)。单并发提升最高,超过8并发仅1.2‑1.3倍。TPOT仅2.9‑5.2ms,延迟可忽略。该PR(#29538)尚未合并。

开源/仓库推理部署/工程
11:36
小互@xiaohu
精选81
一个人管理5款产品,80%时间不写代码?Every的复利工程

媒体软件公司Every公开「复利工程」方法论,以单人工程团队维护5款产品。核心是四步循环:Plan→Work→Review→Compound,其中Compound将每次解决问题的解法写入CLAUDE.md和docs/solutions/,使AI下次自动避坑。工程师80%时间花在Plan和Review,仅20%用于写代码。配套开源插件支持Claude Code等,含26个专项agent、23条工作流命令、13项技能,可零配置使用。/workflows:review一次并发14个agent审查代码,/workflows:plan在ultrathink模式下可并发40多个研究agent。

智能体教程/实践编码部署/工程

推荐理由:Every把内部单人维护5款产品的方法论和插件开源了,14个AI同时审代码、40多个研究agent做计划,是目前公开的多agent并行工程里数字最具体的参考之一,做AI辅助开发的可以直接上手抄。
08:26
ginobefun@hongming731
55
BestBlogs 早报:智能体落地两大卡点--验证回路与组织成熟度,Spotify、Block、Spring AI 各给解法

智能体进入大型工程组织面临验证回路与组织成熟度两大瓶颈。Spotify 架构师分享在2000万行monorepo中运行Claude Code的经验,强调标准化代码库与可靠的CI、测试、自动合并等验证基建是前提,内部平台Honk整合这些工具。Block 工程负责人指出九成工程师在用Goose和Claude Code但功能交付未加速,提出六阶段成熟度模型与AI champions项目(约50名champion各投入30%时间),通过AGENTS.md沉淀知识,三个月内AI生成代码占比提升69%。Spring I/O 2026则梳理Spring AI从LLM调用到生产级智能体生态的演进。三篇从技术基建、组织流程、框架产品化给出解法。

智能体MCP/工具现象/趋势部署/工程
06:05
karminski-牙医@karminski3
57
DeepSeek DSpark:推测性解码技术详解

DeepSeek推出的DSpark是一种推测性解码技术,通过在Final RMSNorm后接入3层MTP微型Transformer堆叠,让大模型在输出前并行猜5个token,经置信度头剪裁后,送回大模型用prefill验证,正确则一次性吐出多个token。相比外挂小模型更高效,不降智,速度提升60%-85%。目前SGLang已有相关PR(#29538),DeepSeek已在HuggingFace发布多款DSpark魔改版小模型。

DeepSeek推理教程/实践部署/工程
‹ 上一页
123…25
下一页 ›