使用顶尖AI模型处理邮件的月度成本约为22至130美元,中位数26美元。若软件公司以75%毛利率定价,年费可能高达350美元,加上托管服务后标价或达500美元,约为Google企业邮箱费用的两倍。采用小型模型可降低成本10至20倍,而通过本地运行利用用户GPU,更能将成本削减至接近零。结合基础启发式方法和技术优化,总成本有望降低100倍。这种针对不同工作负载匹配模型并进行成本分层的推理市场细分,将是未来一两年AI软件发展的关键。
使用顶尖AI模型处理邮件的月度成本约为22至130美元,中位数26美元。若软件公司以75%毛利率定价,年费可能高达350美元,加上托管服务后标价或达500美元,约为Google企业邮箱费用的两倍。采用小型模型可降低成本10至20倍,而通过本地运行利用用户GPU,更能将成本削减至接近零。结合基础启发式方法和技术优化,总成本有望降低100倍。这种针对不同工作负载匹配模型并进行成本分层的推理市场细分,将是未来一两年AI软件发展的关键。
Claude Code已成功部署于数百万行的单体仓库、遗留系统及分布式架构中。其核心在于围绕模型构建的“工具套件”,而非仅依赖模型本身。该套件包含五个关键扩展点:提供代码库概览的CLAUDE.md文件、实现持续改进的钩子、按需加载专业知识的技能、插件以及MCP服务器。它采用智能体搜索模式,直接在开发者本地实时代码库上操作,无需构建和维护集中式索引,从而避免了传统RAG系统在活跃大型代码库中索引过时的问题。团队对代码库设置的投入程度直接决定了其导航效果。
Google开源框架Genkit近日推出其核心中间件系统,旨在提升智能体AI应用的可靠性与可控性。该系统允许开发者在生成调用、模型及工具层进行拦截,以注入自定义行为,如重试机制、模型回退以及人工介入的工具审批流程。通过创建并堆叠自定义中间件,开发者能够实现对模型输出的确定性控制。所有中间件的执行流程均可通过专用的开发者界面进行实时查看与调试,有效支持使用TypeScript、Go、Dart和Python构建生产就绪的智能体应用。
为解决datasette.io网站遭受恶意爬虫频繁访问的问题,作者借助Codex开发了一款可配置的IP速率限制插件。该插件能够监控并阻止在设定时间窗口内对特定路径发起过多请求的IP地址。文中给出了当前生产环境的配置示例:通过Fly-Client-IP请求头识别IP,设置最大跟踪键值数为10000,并豁免静态文件等路径;针对“/global-power-plants/*”和“/legislators/*”两类路径,规则限定60秒内最多允许60次请求,违规IP将被封锁20秒。
Arm第二代可扩展矩阵扩展(SME2)与Google AI Edge软件栈集成,将CPU转变为强大的矩阵计算加速器,从而实现高性能的设备端生成式AI。本文以Stability AI的“stable-audio-open-small”模型为例,阐述了利用LiteRT、XNNPACK和KleidiAI构建的“转换、优化、部署”自动化硬件加速流程。该方案在基于Arm架构的移动设备和笔记本电脑上,成功实现了音频生成速度提升2倍以上、内存使用减少4倍的显著效果,同时确保了高音频质量。这一集成方案为在资源受限的边缘设备上高效运行复杂AI模型提供了有效路径。
英特尔宣布与迈凯伦F1车队达成多年战略合作,成为其官方计算合作伙伴,合作范围涵盖一级方程式、印地赛车及模拟赛车车队。英特尔将提供基于Xeon和Core Ultra芯片的AI与高性能算力,用于空气动力学、车辆动力学仿真及比赛策略分析等关键环节。此举使英特尔在F1赛场直接对标老对手AMD,后者自2020年起已为梅赛德斯-AMG马石油车队提供Epyc和Threadripper处理器支持。
在连续批处理中,同步方式导致CPU与GPU交替工作,造成闲置浪费。测试显示,使用8B模型生成8K令牌时,GPU有24%的时间处于空闲状态。异步批处理通过分离工作负载,让CPU准备下一批次(N+1)的同时,GPU计算当前批次(N),从而消除闲置间隙。这可通过CUDA流实现操作并发,无需更改内核或模型,仅需协调硬件执行顺序。理论上,该方法可将总生成时间从300.6秒减少至228秒,实现24%的免费加速。相关技术已集成到transformers库的连续批处理中,显著提升推理性能。
POET Technologies 与 Lumilens 达成战略供应与联合开发协议,将基于光电中介层平台共同推进下一代AI光网络的晶圆级光子集成技术。根据协议,Lumilens 首批采购订单金额达5000万美元,双方合作有望在五年内累计采购额超过5亿美元。POET 还向 Lumilens 授予了认股权证。技术路线图涵盖800G/1.6T光模块、近封装和共封装光学等领域,工程样品预计2026年底推出,2027年量产。受此消息影响,POET Technologies 美股盘前股价上涨超过29%。
FeatCal是一种后合并校准方法,旨在解决模型合并后性能低于任务专家的问题。该方法通过理论分析将特征漂移分解为上游传播与局部失配,并利用少量校准集以前向顺序逐层校准合并模型的权重,以减少特征漂移,同时保持接近原始合并权重。FeatCal采用高效的闭式解更新权重,无需梯度下降、迭代优化或额外模块。在CLIP和GLUE基准测试中,FeatCal显著超越了Surgery和ProbSurgery等基线方法,如在CLIP-ViT-B/32任务算术合并上达到85.5%准确率。仅需每任务8个样本即可达到82.9%准确率,每任务256个样本的校准耗时仅53秒,比基线快约4倍,展现出更高的样本效率和更低的校准成本。
特斯拉在尚未批准FSD公共道路使用的德国,已通过柏林超级工厂内部部署累计实现FSD行驶里程约15万公里。工厂内下线的每辆Model Y均自动启用FSD功能,从生产线末端自主行驶至出厂停车场,全程在私有厂区固定路线完成,无需人工驾驶。这一闭环场景具有车道宽阔、路线固定、环境稳定等特点,既规避了监管限制,又显著节省了人力与时间成本,提升了工厂物流效率。
英伟达CEO黄仁勋夫妇创办的基金会,正从云算力服务商CoreWeave采购AI算力资源,捐赠给高校及非营利机构用于科研,目前捐赠估值约1.083亿美元。英伟达还将为部分受赠机构提供免费工程技术服务。此举既是慈善行为,也进一步巩固了英伟达与CoreWeave的战略关系。CoreWeave提供的GPU均由英伟达设计,此前英伟达已向其投资20亿美元并签署了价值63亿美元的算力采购协议。
阿里云发布企业级AI建站平台万小智2.0,提供从网站生成、域名备案到上线运营的全流程服务。平台通过多轮对话理解需求,支持解析参考网站或使用行业模板生成初稿,并采用多角色Agent协作与“AI对话+拖拽编辑”实现边聊边改。它原生集成域名注册与ICP备案,支持一键部署,并配备可视化管理后台及AI创意中心。新用户可获赠体验额度和限时.CN域名,服务按功能提供不同订阅版本。
MinT是一个专注于LoRA后训练与在线服务的托管基础设施系统。其核心设计是保持基础模型常驻,仅移动和更新轻量的LoRA适配器,从而隐藏分布式训练与服务等复杂性。系统从三个维度实现扩展:向上扩展支持万亿参数规模的密集与MoE架构;向下扩展使适配器体积可小于基础模型的1%,显著减少步骤与墙时间;向外扩展支持百万级可寻址策略目录,通过集群调度与张量打包技术高效处理海量适配器的冷加载与活跃服务。最终,MinT能够在共享的万亿级基础模型上,高效管理百万规模LoRA策略的训练与服务。
本研究提出分组查询潜在注意力(GQLA),对DeepSeek-V2/V3中的多头潜在注意力(MLA)进行最小修改,使其在一套权重上暴露两种等效解码路径:与MLA相同的MQA吸收路径,以及带有每组扩展缓存的GQA路径。运行时可根据硬件自动选择路径,无需重新训练。单一的GQLA权重能同时适配H100(采用MQA吸收)与H20(采用GQA及多令牌预测)的硬件性能上限,并在GQA路径上支持高达8路的零冗余张量并行。通过扩展TransMLA为TransGQLA,可将预训练的GQA模型转换为GQLA模型。在LLaMA-3-8B上的实验表明,其MQA吸收路径将每令牌的KV缓存压缩至GQA基线的28.125%,同时在分组路径上结构性保留了GQA级别的流量效率。
Cursor发布新工具,用于配置云端智能体开发环境。核心更新包括:支持多仓库环境,使智能体可跨代码库协同工作;提供基于Dockerfile的代码化配置,支持构建密钥并优化缓存,命中缓存后构建速度提升70%;增强由智能体主导的环境设置流程,提供验证与故障回退机制。同时新增环境治理与安全功能,如版本历史、审计日志,以及可在环境级别独立管控的网络出口和密钥权限。这些改进旨在帮助团队在受控环境中更高效地运行能端到端处理任务的并行智能体集群。
Claude 最新模型在电脑与浏览器使用能力上显著提升,支持构建复杂智能体系统。本文针对Claude 4.6系列和Opus 4.7提供实践指南,重点优化截图分辨率:Claude 4.6系列API限制最大长边1568像素、总像素115万;Opus 4.7提升至最大长边2576像素、总像素375万。发送前将截图缩放到限制内是提升点击准确性的最有效方法。推荐起始分辨率为1280x720,Opus 4.7用户可优先使用1080p,并避免发送未经缩放的原始截图或过低分辨率图像。
腾讯计划在2026年下半年大幅增加人工智能基础设施支出。此举的背景是中国芯片制造商正加速国产AI芯片的生产。公司同时公布了强劲的第一季度业绩,并正在就入股AI公司Deepseek进行谈判。
Anthropic 正式推出面向小型企业的“Claude for Small Business”方案,包含15个基于智能体的工作流程,并集成至QuickBooks、PayPal和HubSpot等常用工具。该公司同时在美国十个城市推出免费培训课程和巡回研讨会,旨在将AI能力直接赋能给小企业主,帮助其更高效地利用现有付费工具。
Anthropic推出“Claude for Small Business”服务包,旨在帮助小型企业弥补在AI应用资源上与大型公司的差距。该产品包含一系列连接器和15个开箱即用的自动化工作流,能将Claude深度集成到QuickBooks、PayPal、HubSpot等企业日常工具中。其核心功能是自动化处理财务、运营、销售等领域的重复性任务,如规划薪资、月末结算、追踪发票和分析营销活动等。用户通过Claude Cowork界面操作并手动批准关键步骤,所有任务均由用户发起和控制,Anthropic承诺保障数据安全。
英伟达CEO黄仁勋将当前GPU市场现象称为“好酒效应”,指其价格随时间上涨。在AI需求爆发背景下,GPU成为紧缺算力资源,供需失衡导致全产业链产能紧张,硬件价格普遍被推高。不仅新型号涨价,连4至5年前的旧款GPU价格也持续升值,且速度“超过好酒陈化速度”。H100、A100等型号价格较上一季度上涨,行业算力资源长期售罄,反映出AI模型对全球算力的强劲需求。
Browser Run 产品已基于 Cloudflare Containers 完成重构,实现了使用限制提升、性能加速、可靠性增强以及交付速度提高。此次重构使产品能够更高效地处理大规模并发任务,显著缩短了任务响应时间,并提升了服务稳定性。团队通过容器化技术优化了资源调度与隔离机制,从而为用户提供更快速、更可扩展的浏览器自动化服务。
Meta 为其开源沉浸式 Web 开发框架 Immersive Web SDK 推出重大更新,新增支持接入 Claude Code、Cursor、OpenAI Codex 等 AI 工具。该框架旨在简化 VR 开发的底层工程工作,此次更新允许开发者利用 AI 智能体进行代码测试、验证和迭代优化。为展示能力,Meta 使用该框架与 AI 工作流,仅用 15 小时便重建了其 VR 演示项目 Project Flowerbed,在保留原有美术资源的前提下完成了数万行代码的重构与应用重建。
Google 正在招聘数百名工程师,专门协助客户采用其人工智能技术。这一大规模招聘举措表明,人工智能的实际部署与应用过程仍然存在显著困难,企业客户在技术落地时面临挑战。公司正通过扩充专业服务团队来加速其AI解决方案(如Gemini)的市场渗透和客户集成。
在联发科天玑开发者大会上,群联电子与联发科全球首次实现在天玑9500平台上手机端单机运行200亿参数大语言模型。该突破依托群联专利的aiDAPTIV Hybrid UFS解决方案,通过将部分MoE模型权重动态卸载至UFS存储,显著降低对DRAM的依赖,使得原本需16GB以上DRAM的模型现可在12GB环境下流畅运行,提升了大型模型在终端部署的可行性。同时,联发科公布了包含天玑AI智能体化引擎2.0在内的全栈技术,旨在推动从手机到汽车等终端实现原生智能体化。
据报道,鸿海集团已提前向英伟达出货全光CPO交换机柜,供应紧张到连展示机柜都已全部交付。公司同时大幅上调出货量预期,预计2026至2027年合计出货将超过5万台。作为下一代数据中心设备,CPO交换机的毛利率达两位数,远高于传统服务器代工业务。鸿海是英伟达该产品的独家设计制造伙伴,此业务预计在2026年为旗下工业富联贡献超15%营收,成为AI服务器之外的重要增长点。
该工具展示了一项实验:将应用加载于受内容安全策略(CSP)保护的沙盒iframe中,并通过自定义的fetch()函数拦截CSP错误,将其传递至父窗口。父窗口随后可提示用户将受阻域名(如https://api.inaturalist.org)添加至允许列表,刷新页面后即可生效。工具界面包含源代码、预览面板及允许列表管理区,用户可手动添加如https://api.github.com等受信来源。此项目由作者在Codex桌面应用中借助GPT-5.5 xhigh协助构建完成。
针对基于Transformer的多视图3D重建模型效率低下的问题,本文提出Lite3R框架。该框架采用模型无关的师生架构,以稀疏线性注意力替代密集注意力来降低计算开销,并引入参数高效的FP8感知量化训练策略。该策略结合部分注意力蒸馏,冻结大部分预训练骨干参数,仅微调轻量线性分支投影层,从而实现稳定的低精度部署。在VGGT和DA3-Large骨干网络上的实验表明,Lite3R在BlendedMVS和DTU64数据集上能显著降低延迟(1.7-2.0倍)和内存占用(1.9-2.4倍),同时保持整体重建质量的竞争力。
企业系统的动态规则常因租户业务逻辑差异与演变而多变,导致依赖历史数据训练的离线世界模型在部署偏移时表现脆弱。本文提出“企业发现代理”,通过在运行时读取系统配置来实时发现动态规则,而非仅依赖内部固化模型。同时,推出了专注于级联推理的基准测试CascadeBench进行评估。实验表明,离线模型在分布内表现良好,但随规则变化性能下降;而基于发现的代理通过将预测锚定于当前实例,在部署偏移下展现出更强稳健性。结论认为,在可配置的企业环境中,智能体应结合运行时动态发现机制。
海尔集团在泰国罗勇工业园奠基了东南亚规模最大的中央空调智造基地。该基地总投资超10亿元,占地约180亩,是海尔在海外首座中央空调AI智能体工厂。此举旨在应对东南亚城市化带来的商用暖通需求增长,预计到2030年区域订单需求将突破22万台。此前,海尔磁悬浮中央空调已实现全球市场8连冠,并在国内市场占据超45%份额。去年,海尔在泰国投产的年产600万套家用空调基地,已成为中国品牌在东南亚最大的家用空调制造基地。
据《华尔街日报》报道,谷歌正与SpaceX谈判火箭发射协议,以推进其名为“Project Suncatcher”的太空数据中心计划,目标是在2027年前发射原型卫星。谷歌是SpaceX的早期投资者,持有其6.1%股份。为支撑这一愿景,SpaceX已申请发射多达100万颗卫星,旨在解决地面数据中心面临的土地与能耗问题。此外,SpaceX在筹备大规模IPO的同时,近期还宣布收购xAI等多项重大投资与合作。
在分布式LLM服务中,KV缓存的传输已成为性能瓶颈。现有压缩方案采用静态配置,无法适应动态变化的服务场景。KVServe是首个面向服务的自适应KV通信压缩框架,它统一了压缩策略空间,通过贝叶斯分析引擎将离线搜索开销降低50倍,并部署在线控制器动态调整策略。集成至vLLM后,KVServe在PD分离服务中实现最高9.13倍的任务完成时间加速,在KV分离服务中实现最高32.8倍的首token生成时间缩短。
研究提出HodgeCover方法,用于无需重新训练的稀疏专家混合模型压缩。该方法解决了现有压缩器的结构障碍:三个专家可能两两兼容,但合并后形成不可约循环。通过将专家间的KL合并障碍和三元组障碍建模为2-复形,并利用单纯形拉普拉斯算子的调和核进行霍奇分解,HodgeCover能精确隔离关键障碍。它采用贪心策略覆盖调和关键边和三元组关键三角形,混合变体还结合权重剪枝。在三个开源稀疏MoE骨干模型上的激进专家削减测试表明,HodgeCover在专家削减轴上匹配当前最优无学习基线,在混合轴的激进压缩前沿领先,并平衡所有霍奇分量的保留质量。
datasette 发布了 1.0a29 版本。本次更新新增了用于创建“_r”字典的 TokenRestrictions.abbreviated() 工具方法。界面改进方面,现在即使表格行数为零,表头和列选项也会正常显示,并修复了移动版 Safari 上列操作对话框的显示问题。此外,还解决了一个严重的段错误 bug,该问题源于 Datasette.close() 方法在多线程环境下可能引发的竞态条件。开发者通过 Codex CLI 配合 GPT-5.5 xhigh 创建了能复现问题的 Dockerfile,从而定位并修复了此问题。
本次更新包含多项错误修复与体验优化。核心改进包括:增强了Agent工具的subagent_type匹配逻辑,现对大小写和分隔符不敏感;修复了/goal命令在特定钩子设置下无响应的问题,现会显示明确提示;解决了Windows系统上因缺失可执行文件导致的周期性事件循环停滞。此外,还修正了后台服务启动、远程设置认证重试、托管市场更新策略持久化、/loop命令调度冗余以及Read工具参数验证等多个问题。插件系统现会对因配置冲突而被静默忽略的默认组件文件夹发出警告。
亚马逊员工因公司强制使用人工智能工具而进行“tokenmaxxing”,即通过优化输入策略以最大化AI工具输出,应对绩效压力。这一行为揭示了AI技术集成到工作流程中时,员工被迫适应新系统带来的挑战,可能影响工作效率和职场动态。报道在Hacker News上获得110点关注,显示科技社区对该议题的重视。
本文探讨了如何从无状态聊天机器人升级为生产级AI智能体,以管理长达数天或数周的企业工作流程(如HR入职)。通过引入Agent Development Kit(ADK),其架构核心采用持久状态机和持久化会话存储,确保智能体在“空闲时间”或服务器重启时永不丢失上下文。系统利用事件驱动的Webhook和多智能体委托机制,实现在暂停期间“休眠”,并在唤醒后以高推理准确性恢复复杂任务,从而构建出具备韧性和可靠性的长时运行智能体系统。
JBS Dev总裁Joe Rose指出,在部署生成式与代理AI系统时存在一个普遍误解,即认为数据必须完美无缺才能开展相关工作。文章结合AI Fieldbook近期内容,探讨了AI应用从模型能力提升到实现成本可持续性的实际挑战,强调在真实场景中应对不完美数据是突破AI落地“最后一公里”的关键。
研究团队提出键值均值注意力机制,这是一种支持固定或可增长状态的新型分块循环注意力。在强Transformer基线中引入固定大小的KVM层,仅需极少参数即可构建高效的O(N)分块RNN。使用可增长KVM缓存训练的模型在长上下文任务中表现优异,仅需次二次方预填充时间和次线性状态增长。该机制基于标准操作实现,无需定制内核,支持分块并行化训练与预填充,兼具传统Transformer与线性RNN的优势。它可应用于每一层以节省KV缓存内存,并在O(N)到O(N²)之间提供灵活的预填充时间复杂度选择,也可与线性RNN层混合部署以增强长上下文解码能力。相关代码与模型已开源。
软银集团CEO孙正义正商讨在法国投资高达1000亿美元,建设专注于人工智能的半导体晶圆厂与数据中心。该计划是其“伊邪那岐计划”的延伸,旨在依托旗下Arm的芯片设计技术,打造独立的人工智能半导体生态体系。法国因其有利的监管环境和充足的核电产能被选为核心选址。软银预计自身出资约300亿美元,其余资金可能由中东主权财富基金支持。此举被视为孙正义构建AI商业帝国的关键一步,但也引发了市场对其财务风险的担忧。
韩国科技部选定由三星SDS牵头的财团,负责运营国家人工智能计算中心项目。该财团已落实4000亿韩元初始资本,计划今年三季度启动建设,总投资将达2.5万亿韩元。项目目标是在2028年前部署1.5万颗高端AI芯片,建成后将向韩国本土初创企业、中小企业和科研机构提供低成本、具全球竞争力的AI算力。项目还包括配套研发专区,旨在支持本土神经网络处理器的验证与商业化,完善韩国AI半导体产业生态。