市场监管总局组织科技力量,在测控装备智能化测评技术上取得系列创新。研究团队利用自然语言处理与人工智能聚类技术,构建了通用及典型测控装备的智能化测评指标体系和评估模型,并形成相关标准。同时,攻克了数字孪生测评方法等关键技术,研发了数字孪生体测量系统与物理实体测评装置,实现了智能化水平的可测试与可量化。目前,相关成果已形成综合测评系统与认证模式,面向6类典型装备开展了测评验证,搭建了3套实物验证场景,构建了测试、计量、认证一体化的评测体系。
市场监管总局组织科技力量,在测控装备智能化测评技术上取得系列创新。研究团队利用自然语言处理与人工智能聚类技术,构建了通用及典型测控装备的智能化测评指标体系和评估模型,并形成相关标准。同时,攻克了数字孪生测评方法等关键技术,研发了数字孪生体测量系统与物理实体测评装置,实现了智能化水平的可测试与可量化。目前,相关成果已形成综合测评系统与认证模式,面向6类典型装备开展了测评验证,搭建了3套实物验证场景,构建了测试、计量、认证一体化的评测体系。
据报道,人工智能公司Anthropic已承诺在未来五年内向谷歌云支出2000亿美元,用于购买云服务和AI芯片。这笔巨额承诺占谷歌近期披露的未实现收入的40%以上,消息推动谷歌母公司Alphabet股价盘后上涨约2%。Anthropic表示其AI模型Claude在多种硬件上运行。此前,谷歌已决定向Anthropic投资100亿美元,并可能追加300亿美元。此外,Anthropic也与亚马逊达成长期协议,未来十年将采购超1000亿美元AWS算力资源,并可能获得亚马逊至多250亿美元投资。
Datasette 新插件 datasette-referrer-policy 0.1 发布,旨在解决 global-power-plants 演示中 OpenStreetMap 地图瓦片无法显示的问题。问题由两个原因导致:一是站点此前添加的 CAPTCHA 错误拦截了地图插件发起的 .json 请求,该问题已修复;二是 OpenStreetMap 会屏蔽使用了 Referrer-Policy: no-referrer 头部的站点请求。此插件允许用户将 Datasette 默认的此头部策略更改为其他值,从而确保地图正常加载,同时不影响默认安全设置。插件的开发过程得到了 Codex 与 GPT-5.5 的辅助。
为降低大语言模型推理时KV缓存的高昂内存开销,研究提出了一种沿模型深度维度优化的新方法。该方法通过随机KV路由,在Transformer模型的各层之间动态共享KV缓存,而非每层保留完整独立缓存。实验表明,在保持模型质量基本不变的前提下,该方法能将KV缓存的内存占用减少高达50%,为降低大模型服务成本提供了与现有时间轴压缩、淘汰技术正交的新优化路径。
NVIDIA与Span计划利用家庭未充分利用的电力容量,将住宅转变为分布式AI计算节点。其核心是配备16块NVIDIA RTX Pro 6000 Blackwell GPU和4颗AMD EPYC CPU的XFRA节点,并内置电池以确保AI负载稳定运行。该模式旨在规避传统数据中心在土地、审批和电网升级方面的扩张瓶颈。Span计划于2026年第三季度启动100个节点的概念验证,目标是从2027年起实现年容量超过1吉瓦的分布式算力网络,同时为参与家庭降低电费成本。
Anthropic发布金融服务行业Claude部署指南,详细介绍了Claude系列产品在金融研究、交易、承销、理赔及月末结算等场景的应用方案。指南包含产品矩阵、10个预置金融智能体模板(如招股书生成器、KYC筛查器等),并分享了AIG、澳大利亚联邦银行等机构的实践案例。同时,提供基础、试点、扩展三阶段实施路线图,旨在协助企业决策者与工程师规划AI落地路径,提升运营效率。
本文探讨了初创公司工程团队中AI与人力比例变化带来的结构性风险。当AI占比从10%提升至90%时,团队从20名工程师的传统层级结构,演变为仅由3名工程师核心操控大量自主代理的无管理层模式。核心权衡在于系统韧性而非吞吐量:将编排知识高度集中于极少数人,等同于以100%的利用率运行,一旦关键人员离职将造成33%的“制度记忆”损失。文章借鉴制造业保持70-90%利用率以维持系统稳健的经验,建议大多数初创公司应避免过早采用极高AI占比的模式,因为其中缺乏冗余和缓冲空间。
MiniMax-M2.7模型已在六家推理服务商上线,各提供商在速度和价格上差异明显。SambaNovaAI以每秒435个输出令牌的速度领先,比其他提供商快3倍以上,但其价格也高出约2倍。FireworksAI、Novita Labs等四家则与MiniMax官方API定价持平。分析指出,Fireworks和SambaNova在速度与价格的权衡中处于帕累托前沿:前者性价比高,后者则以高价换取极致速度。此外,各家的高速缓存折扣政策不同,这对缓存密集型工作负载的成本影响显著。因此,最优选择高度依赖于具体工作负载对延迟和成本的敏感度。
礼来公司的数字部门负责人承认,目前AI在制药领域的回报主要集中于生产制造和后台运营环节,已累计节省数十亿美元成本。然而,在该行业此前宣传最集中的药物发现环节,AI尚未能兑现预期价值。这一反差揭示了AI在制药业不同环节的应用成熟度存在显著差异。
Anthropic发布了十个针对金融服务耗时任务的预置智能体模板,涵盖制作推介书、撰写信贷备忘录、KYC文件筛查及月末关账等。这些模板可作为Claude Cowork和Claude Code的插件,或作为Claude托管智能体的配置指南,帮助团队在数天内部署应用。Claude现通过Microsoft 365插件支持在Excel、PowerPoint等Office应用间无缝工作,并扩展了合作伙伴生态,新增数据连接器和MCP应用,使智能体能直接调用实时金融数据。这些更新与Claude Opus 4.7模型搭配效果最佳,该模型在金融任务上达到先进水平。
New for financial services: ready-to-run Claude agent templates for building pitches, conducting valuation reviews, clos...
Google与UCSD合作推出扩散式推测解码技术DFlash,在Google Cloud TPU上实现了3.13倍的无损推理加速。该技术突破了传统自回归解码逐个生成token的串行瓶颈,通过一次推测生成多个token来改变生成范式。这一硬件与算法的联合优化,将重塑云端成本曲线,并使实时Agent、长上下文等应用更趋现实,同时大幅降低本地部署门槛。此举将大模型推理的竞争引向了系统级优化的新赛道。
Breaking LLM inference's autoregressive bottleneck 🛠️ We've teamed up with @haozhangml, @YimingBob, and @aaronzhfeng, a...
同一事件,精选展示《在谷歌TPU上实现3倍加速:UCSD利用扩散式推测解码优化LLM推理》Runway平台团队开发的NCCLBack系统,通过P2P权重传输将模型冷启动时间从数分钟缩短至数秒。其核心创新在于让新启动的GPU推理节点直接从集群内已加载权重的同级GPU获取模型参数,而非从云存储重复下载。该系统利用GPU互连(如InfiniBand、NVLink)高达200-400 Gbps的带宽,相比传统存储下载的2-10 Gbps实现了数量级提升。通过Redis协调与NCCL广播原语,NCCLBack确保了数据传输的效率和正确性,使得大规模集群部署新模型时,冷启动时间不随节点数量线性增长,基本保持恒定。
文章指出,尽管生成式AI工具在员工中日益普及,但许多公司并未能有效捕获和利用这些工具产生的知识与洞见,导致组织学习停滞。员工使用AI生成的代码、文本和分析结果往往散落在个人设备与对话中,未能转化为可共享、可检索的公司资产。这造成了“AI普及却无集体智慧增长”的困境,企业投资于AI工具却未获得相应的知识积累与协同创新回报。
SAP正在收购开源数据湖仓提供商Dremio和AI公司Prior Labs,以扩展其数据平台能力。这两项收购是SAP构建“AI就绪”企业数据平台战略的关键举措,旨在整合先进的数据管理和人工智能技术,强化其对企业客户的数据处理与AI服务支持。此举标志着SAP正通过积极并购加速向智能化数据平台转型。
Amazon SageMaker AI 新增了一个 AI 智能体,旨在帮助开发者定制语言模型。该功能支持对 Llama、Qwen、Deepseek 和 Nova 等主流模型进行智能体驱动的微调,使开发者能更高效地优化模型以适应特定任务,无需从零开始构建。这标志着 AWS 在降低大模型定制门槛、提升开发效率方面迈出重要一步。
开发者 Tom 开源了 open claude design 项目,宣称对 Claude Design 的还原度超过 95%。该项目历时 72 小时开发,包含超过 18700 行代码和 30 多种设计技能,支持 71 套以上设计系统,并能兼容多种主流代码代理工具。项目旨在成为 Claude Design 的开源替代品,后续将持续更新,代码已托管于 GitHub。
正式开源 open claude design 🚀 超 95% 以上的还原度! 浓缩和逆向所有 claude design 最先进的设计,最好看的模板💥 历时 72 小时,18700+ 行代码,30+ 设计 Skills,支持超过 71...
为实现语音AI的自然对话感,OpenAI采用WebRTC支持音频流式处理。针对1:1场景,采用Transceiver模型集中管理WebRTC状态,使后端可横向扩展。为解决WebRTC与K8s的端口和状态粘性问题,设计了Relay+Transceiver架构:轻量Relay层收敛公网UDP入口,并利用ICE ufrag字段编码路由信息,实现首包精准转发至对应Transceiver。该设计保留了协议语义,状态集中,并通过全球部署Relay优化路径,最终在K8s上实现了低延迟、高可扩展的语音交互系统。
🎙️ Voice AI only feels natural when conversation keeps pace with speech. Here's how we rebuilt our WebRTC stack with a ...
研究提出部署时学习作为大语言模型生命周期的第三阶段,并推出CASCADE框架。该框架使LLM智能体能在部署期间从经验中持续学习,而无需更新模型参数。其核心是为智能体配备一个显式、演进的情景记忆,将经验复用建模为上下文赌博机问题,从而实现探索与利用的权衡,并保证长期无悔性。在涵盖医疗、法律、代码生成等16项多样任务中,CASCADE将宏观平均成功率较零样本提示提升了20.9%,且持续优于多种基线方法。这项工作通过将部署重构为自适应学习过程,为持续改进的AI系统奠定了基础。
Gemini API 引入了事件驱动的 Webhook 功能,这是一种基于推送的通知系统。它旨在消除低效的轮询需求,为长时运行的任务(如文件处理或复杂推理)提供更优的解决方案。当任务完成时,系统会自动将结果推送到用户指定的端点,从而显著降低延迟并减少资源消耗,提升开发效率与响应速度。
在行业标准推理引擎vLLM上的测试显示,NVIDIA GB300 NVL72的实测端到端性能已达GB200 NVL72的2.7倍。尽管其纸面参数仅显示NVFP4算力提升约1.5倍、HBM容量增加1.5倍且带宽相同,但在大多数服务商实际运行的中段负载区间,凭借全栈优化的复合增益,GB300实现了远超理论算力提升的性能飞跃。此次测试基于NVIDIA、Inferact和CoreWeave为开源项目提供的临时GB300系统完成,结果印证了端到端实测性能才是衡量硬件效能的黄金标准,而非单纯的纸面理论算力。
Futurum Group与NVIDIA的报告将AI技术栈分为能源、芯片、基础设施、模型和应用五层。当前主要瓶颈已从芯片转向能源和冷却,美国五大超大规模企业今年基础设施支出预计高达6900亿美元。尽管Blackwell架构推理成本大幅降低,但推理模型和智能体工作流消耗的token量激增,使效率提升被迅速抵消。报告指出,AI基础设施建设正创造大量电工、暖通技工等高薪蓝领岗位,打破了AI仅影响白领的叙事。同时强调,缺乏能源、芯片制造和本土模型的国家无法真正参与AI经济,仅是消费者。
OpenAI成立了名为“部署公司”的百亿美元合资公司,筹集超40亿美元,旨在帮助企业克服AI部署障碍。核心观点是,当前企业采用AI的主要瓶颈已非模型质量,而是缺乏整合团队、工作流程、数据访问和安全规则的能力。该公司通过联合TPG、Brookfield等私募股权投资者,打包软件、咨询和部署方案,直接触达超2000家投资组合公司,实现规模化分发。同时,Anthropic也正与Blackstone、Goldman Sachs等华尔街机构组建类似合资公司,为私募股权支持的企业部署Claude并重建工作流程。这标志着AI实验室的竞争焦点正从模型性能演示转向工业化部署速度与路径控制的争夺。
WSJ: Anthropic is wrapping up a deal to set up a joint venture with Blackstone, Goldman Sachs, and other Wall Street fir...
AI芯片制造商Cerebras正计划在美国进行IPO,目标融资高达35亿美元,每股定价区间为115至125美元。该公司采用独特的晶圆级芯片技术,将几乎整个硅晶圆集成为一个巨型处理器,旨在通过将海量计算和内存置于单一硅片上,减少芯片间数据移动的瓶颈,从而为特定大型AI工作负载加速训练和推理过程。其技术路线与依赖多GPU协作、受限于数据移动速度的传统AI硬件形成对比。此次IPO是公司在撤回先前尝试后的新一轮努力,其竞争对手包括英伟达和AMD,后者同时也是其支持者。
前几周在 x 上,有篇文章已经完全证实了, token 中转就是背后换模型,以次充好,挂着羊牛卖狗肉,骗用户,大几十万阅读,似乎人人皆知了。 现在简中推,到处都在吹嘘中转站是个好生意。 能 low 到这个程度,非常不能理解。
红帽公司近日公布了名为 Tank OS 的开源项目,旨在通过容器化技术提升 OpenClaw 运行环境的安全性。该项目将 OpenClaw 封装在专用容器中,采用无 root 权限架构,以防止宿主系统权限被滥用。Tank OS 基于 Fedora Linux 和 fedora-bootc 技术构建,支持在同一设备上运行多个相互隔离的 AI 智能体实例,各实例间不共享凭据和系统资源。此外,系统采用不可变操作系统设计,内核、运行环境及服务均预定义在镜像中,文件系统大部分为只读,从而进一步增强安全防护。
Anthropic正与黑石、高盛等华尔街机构敲定一项合资协议,旨在向私募股权支持的公司销售AI工具。各方预计共同投资约10.5亿美元,新公司将作为AI部署部门,不仅提供Claude访问权限,更帮助企业围绕大语言模型重构从客服、财务到编码、法务及内部研究的工作流程。此举目标锁定私募股权公司,因其拥有大量企业、成本控制严格且能快速推行变革。这标志着AI实验室的竞争已从模型质量,延伸至对“模型到业务流程”路径的控制权争夺。
Linux 7.1 第二个候选版本(RC2)已发布,整体进展顺利,预计将按时推出正式版。本次更新中,KVM自测试相关补丁因代码重命名而占比异常,导致版本体量偏大。Linus Torvalds指出,补丁数量激增很可能与AI开发工具的普及有关,这一趋势从Linux 7.0就已开始。此外,版本修复了大量显卡与网络驱动问题,包括AMD和英特尔显卡的内存泄漏、缓冲区溢出等漏洞,并对NVMe认证、TLS模式、RAID10配置等核心组件进行了多项安全与稳定性修复。
摩根大通公开了其内部多智能体系统Ask David的完整架构,该模式在投资研究领域已得到验证。其核心与当前主流Agent架构高度一致:由一个监督智能体进行整体编排,多个专业子智能体分别处理检索、结构化数据和分析等任务,在最终输出前使用LLM-as-judge进行反思与质量把关,并引入人工干预作为最后一道准确性保障。这一模式在多个领域反复出现,表明可落地的多智能体系统的关键在于清晰的分工、监督、反思与人工兜底形成的闭环,而非简单堆叠模型,对企业级Agent开发具有重要参考价值。
JP Morgan's investment research team just shared exactly how they built their multi-agent system "Ask David", and it's t...
本文提出HeavySkill新视角,将深度思考视为智能体协同框架的内化核心技能,而不仅是最小执行单元。该技能被定义为“并行推理后总结”的两阶段流程,可内化于模型参数中,驱动协同框架解决复杂任务。实证研究表明,HeavySkill在多个领域均优于传统的Best-of-N策略,更强的大语言模型甚至能接近Pass@N性能。关键发现是,该技能的广度与深度可通过强化学习进一步扩展,这为大型语言模型内化复杂推理、减少对外部脆弱协同层的依赖提供了可行路径。
多数公司无法有效利用AI,核心障碍并非技术,而是企业自身目标模糊、战略混乱且缺乏清晰的业务流程描述。AI擅长执行明确指令,但大多数公司处于“混乱黑盒”状态,无法清晰定义目标、工作流与衡量指标。只有少数具备高度自我认知和组织纪律的公司能真正借助AI提升竞争力。企业应首先审视自身是否具备让AI有效协助的清晰内部状态,而非盲目追求技术应用。