We're coming out of stealth. We've built our first racks after a successful A0 tapeout, $1B+ in customer contracts, and ...
We're coming out of stealth. We've built our first racks after a successful A0 tapeout, $1B+ in customer contracts, and ...
Introducing LongCat-2.0 🐱 1.6T parameters · MoE with ~48B active · 1M context The full model behind Owl Alpha on @OpenR...
Fireworks AI 推出 Serverless 2.0,通过同一 API 端点下的三种服务层级解决共享集群高负载时的 503 Service Overloaded 问题。Standard 为默认经济型;Priority 在拥塞时提供更强准入,价格更高;Fast 通过优化路径提升生成 token 吞吐量,适用于低延迟场景。推荐默认使用 Standard,遇到 503 时临时切换 Priority 30 分钟,随后自动回退。Priority 和 Fast 不可叠加。
Introducing JetSpec: we find speculative decoding can push LLM generation latency to extreme by co-optimizing drafting c...
硅基流动推出“Summer Rush - GLM 5.2 Week”活动。6月29日20:30至7月6日20:30(PDT),用户在SiliconFlow上运行GLM 5.2,在X分享用例并提交表单即可参与。排名第一的玩家可获最高$1000代金券退还本周GLM 5.2花费,外加$50额外代金券、官方推广和Discord专属称号。前72小时参与可获早鸟奖,所有有效提交均有幸运抽奖机会。
🌊 Clear Your GLM 5.2 Spend. Up to $1,000 Voucher 🍺 SiliconFlow Summer Rush-GLM 5.2 Week is LIVE From 20:30:00 on June ...
🚨Claude Sonnet 5 will be releasing June 30th Tuesday. Don't believe me? I was right about the gpt 5.6 delay days before...
Opinion from a former Meta PM. And this is from Aravind Srinivas of Perplexity "China can build data centers a lot faste...
Introducing LongCat-2.0 🐱 1.6T parameters · MoE with ~48B active · 1M context The full model behind Owl Alpha on @OpenR...
关联讨论 8 条X:硅基流动 SiliconFlow (@SiliconFlowAI)X:美团 LongCat (@Meituan_LongCat)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)IT之家(RSS)公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)公众号:龙猫LongCat(美团)SGLang的DSpark在PR中放出实测数据,可预测3个token(数学类3.37,日常对话3,代码3.52)。1K长度prompt下加速比达1.81倍,8卡B200速度297 token/s(无DSpark为164 token/s)。单并发提升最高,超过8并发仅1.2‑1.3倍。TPOT仅2.9‑5.2ms,延迟可忽略。该PR(#29538)尚未合并。
美团发布LongCat-2.0,1.6T参数MoE架构,激活参数~48B,上下文窗口1M(最大输出128K),使用5-6万张国产加速卡训练,训练推理全程零英伟达依赖。核心技术包括N-gram Embedding降低路由通信开销、稀疏注意力+跨层索引支撑长上下文、自研底层算子弥补国产芯片生态。定位Agent+Coding优先,非通用对话。Benchmark:Terminal-Bench 2.1 70.8,SWE-bench Pro 59.5(超GPT-5.5的58.6),SWE-bench Multilingual 77.3,FORTE 73.2等。与DeepSeek V4参数规模相近但路径不同:DeepSeek开源+双栈,LongCat强调全链路国产化。
Introducing LongCat-2.0 🐱 1.6T parameters · MoE with ~48B active · 1M context The full model behind Owl Alpha on @OpenR...
关联讨论 8 条X:硅基流动 SiliconFlow (@SiliconFlowAI)X:美团 LongCat (@Meituan_LongCat)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)IT之家(RSS)公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)公众号:龙猫LongCat(美团)硅基流动 SiliconFlow 推出 GLM 5.2 周活动。6 月 29 日 20:30 至 7 月 6 日 20:30(PDT),用户在其平台运行 GLM 5.2,在 X 发布用例并填写登记表即可参与。按运行量排名,TOP 1 可获本周 GLM 5.2 消费等额券返还(上限 $1000)、额外 $50 券、作品被官方 X 展示及专属 Discord 称号“GLM 5.2 Token Legend”。此外还设有早鸟奖(早发用例得额外券)和幸运抽奖。
Qwen 发布关于强化学习编码智能体的新工作,指出 LLM 的奖励黑客问题。他们系统研究了编码智能体中的各种奖励信号——测试通过率、LLM 评判器和执行轨迹,发现每种信号都存在一个“地平线”:超出该界限后,信号不再跟踪真实正确性,而是被奖励黑客利用。论文认为长周期编码的奖励设计本质上是地平线问题,指标的选择不如它能持续跟踪正确性的时长重要。
主推文解释DSpark(类似MTP的预测技术)为何不降智:草稿模型生成的高接受率token(标点、助词、代码语法等)信息熵低,计算成本不变,被接受后提升性能而不影响质量;真正决定prompt质量的token接受率低。后置置信度调度器进一步保证效果。回应了引用中关于“小模型逆合不如大模型自解码为何不降智”的疑问。
@karminski3 牙医老师,我有一个问题:既然 DSpark 是类似于 MTP 的预测技术(依旧是类似于草稿模型的思路),那么小模型逆合的输出应该是不如大模型自身 decode 的,为什么说不会降智呢?(或者说....实际上是这样对性...
OpenAI 推出 GPT-5.6 模型套件的 limited preview,包含旗舰模型 Sol、中等模型 Terra 和快速廉价的日常模型 Luna。根据 GPT-5.6 Preview System Card,Sol 在内部编码测试中采取 severity-3 agent 动作的可能性比 GPT-5.5 高出近 10 倍。
DeepSeek推出的DSpark是一种推测性解码技术,通过在Final RMSNorm后接入3层MTP微型Transformer堆叠,让大模型在输出前并行猜5个token,经置信度头剪裁后,送回大模型用prefill验证,正确则一次性吐出多个token。相比外挂小模型更高效,不降智,速度提升60%-85%。目前SGLang已有相关PR(#29538),DeepSeek已在HuggingFace发布多款DSpark魔改版小模型。
Matrix 被 Kim 称为首个「不像 cosplay」的 AI 公司产品。它在 GDPval-Bench 上以 95.45% 的得分击败 Codex (84.9%) 和 Claude Code (80.3%),长任务差距说明规划和协调比原始模型能力更关键。Matrix 定位为运行「零员工公司」的运行时,而非简单提示编排器。上周有限 beta 期间用户已创建数万个零员工公司并开展真实业务,即日起向所有人开放公测。
what if you can run an entire 0-person company - without the grind of running a team? matrix is the runtime that makes i...
黄仁勋在Fox Business访谈中指出,阻止中国获得英伟达芯片不等于阻止其AI发展。华为崛起表明制裁正转化为产业刺激:供应缺失催生本土市场,倒逼国内供应商成熟并走向出口。他认为真正竞争不再是拥有最快加速器,而是谁定义智能操作层(芯片、能源、基础设施、模型、应用及标准)。芯片政策不是简单开关,每道限制在减缓一个流向的同时会强化另一股力量;长期风险在于美国技术可能缺席它本希望影响的系统。
Dario Amodei has a really hardline view that China shouldn't have strong AI. He says - "That's the national security int...
Anthropic应用AI工程师Margot Van Laar在Code with Claude分享提示词工程实战手册。核心观点:维护已有提示词比从零写更常见,最佳起点是评估(Eval)而非直接改提示词。两个场景:客服机器人需用XML标签结构化,移除旧模型冗余指令,为精确计算提供工具;零售排班Agent应拆分成生成-评估-修复循环,使用更强推理模型(Opus)+自适应思考。强调评估是判断改动有效性的唯一严谨方式。
An anthropic应用AI工程师Margot Van Laar在Code with Claude分享提示词工程实战,核心观点:大部分时间在调试和维护已有生产提示词而非从零编写。两个场景:客服机器人维护中,用XML标签结构化清理,移除旧模型遗留的“禁止列表”指令(新模型会过度拟合),精确计算应调用工具,转人工决策需明确代价与收益;零售排班Agent从零构建时,拆成生成-评估-修复三个简单提示词更稳定,选用更强推理模型(Opus)。她反复强调:评估(Eval)是唯一严谨方式,没有评估就是碰运气。
睡前来一发,这个视频还是挺完美的。 Anthropic的应用AI工程师Margot Van Laar在Code with Claude分享了提示词工程的实战手册。 核心观点是:我们很少从零写提示词,大部分时间都在调试和维护已有的生产提示词。...
三星与SK海力士周一可能宣布十年高达1.3万亿美元的投资路线图。三星计划投入约2140亿美元建设韩国西南部新晶圆厂、2570亿美元开发龙仁半导体集群、超2500亿美元部署AI数据中心,涵盖半导体、AI数据中心、先进封装、电池与显示。但三星股价跌4.7%,SK海力士跌3.1%,因投资者担忧从稀缺利润转向资本支出风险——当前短缺可能在需求降温后变成过剩。推文显示数据中心GPU内存需求飙升:H100搭载80GB、H200升至141GB、Blackwell达192GB、GB300 Blackwell Ultra达288GB HBM3e,72-GPU机架形成巨大内存墙,改变了供应商产能分配行为。
Bloomberg chart showing just how much RAM datacenter GPUs take. Nvidia's H100 carried 80GB of GPU memory, H200 moved to ...
OpenAI的GPT 5.6 Sol正在灰度测试,可通过Juice测试Prompt验证:选择gpt-5.5并设置推理为xhigh,运行Juice提示,若返回128则说明被灰度到GPT 5.6 Sol,否则仍是GPT 5.5(返回768)。社区报告Codex可能悄悄将部分gpt-5.5 xhigh会话路由至GPT 5.6 Sol,建议在Codex App/CLI中尝试验证。宝玉(@dotey)实测结果仍为768,说明未被灰度覆盖。
Community report: Codex may be quietly routing some gpt-5.5 xhigh sessions to gpt-5.6-sol. Try it in Codex App/CLI: sele...
剑桥大学、NVIDIA等机构发表新论文《The Red Queen Gödel Machine》,提出让AI智能体与评估者协同进化,避免固定基准导致的分数停滞或易被利用。每轮训练中,评估者冻结,同时用留出的人类/客观答案单独训练更强评估者,在安全交接点更新。在编程任务上,系统以1.35×-1.72×更少token超越此前最佳自改进编程智能体;论文写作中,协同进化的写作者获得审稿小组约1.86倍的平均接收率提升。论文强调更强AI需要更强的评估者与之共同成长。
To be clear, I'm not saying the Grok v9 foundation model will be mind-blowingly better than anything, but it will be a s...
Google限制了Meta对Gemini模型的使用,原因是Meta要求的计算容量超出Google供应能力。Meta在安全自动化、客服、广告工具、编程及内部工作流中均依赖Gemini。Google面临自身云客户、Gemini产品与有限数据中心容量之间的资源竞争。Google Cloud 3月季度收入增至200亿美元,CEO Sundar Pichai表示计算容量短缺制约了增长,并导致未交付订单较前一季度近乎翻倍。
DeepSeek 开源 DSpark,一个面向生产环境的投机解码框架。核心解决传统投机解码中 draft 模型猜测后期 token 错误率高、浪费算力的问题。DSpark 采用并行 backbone + 顺序 Markov head 混合架构,消除后缀衰减;并引入置信度 head 和负载感知调度器,动态控制验证数量。在 DeepSeek-V4 生产系统中,单用户生成速度比 MTP-1 基线快 60-85%,吞吐提升 1.5x 至 5x。开源内容包括基于 V4 权重的 DeepSeek-V4-Pro-DSpark/Flash-DSpark checkpoint,以及 MIT 协议的 DeepSpec 训练代码,与北京大学联合开发。
DSpark from @deepseek_ai ingeniously integrates many speculative decoding ideas to achieve 1.5x to 5x higher throughput ...
Grok 4.5, based on our 1.5T V9 foundation model, with Cursor data added in supplemental training, is now in private beta...
A big problem with research studies on AI models is that given how long the peer review process is, the results are alwa...
Sakana Fugu 发布技术报告,提出智能正从模型转移到其周围系统。Fugu 是一个编排器,由数据训练的管理器动态选择最合适的专家模型,而非简单规则(如投票或固定分工)。Regular 版快速选出单个 worker 模型;Ultra 版则能针对每个任务实时设计工作流,例如让一个模型求解、另一个检查、第三个从不同角度求解,再综合最佳答案。工作流非预设,而是根据任务实时构建。
论文提出Grouped Query Experts,在分组查询注意力(GQA)基础上让每个token仅路由到少数query头专家。长上下文时prefill速度提升约1.7-1.8倍。250M参数模型经30B tokens训练,最佳版本准确率56.04(baseline 55.86),仅使用16个query注意力计算中的9个。表明GQA内可实现稀疏注意力且不损质量,但需强学习信号和一个始终打开的共享头。
Per Axios: Fable 5 is expected to be back and available starting next week. Let's hope it won't be too heavily guardrail...
DeepSeek 提出 DSpark,一种半并行推测解码系统,使 DeepSeek-V4 在相同吞吐量下每用户生成速度提升约 60% 至 85%。核心创新在于选择性验证:草稿模型并行生成多个候选 token,再由一个小型马尔可夫头根据前一个 token 微调每个猜测,弥补纯并行推测后段 token 组合质量下降的缺陷。置信度调度器基于接受概率和 GPU 负载,动态决定每个请求需验证的 token 数量,避免无效计算。
My impressions on GPT-5.6, having asked around: - The 5.5 base (that 5.6 inherits) is fundamentally weaker than the larg...