交通安分析依赖整合事故记录、道路属性等地理空间数据,但许多机构和社区利益相关者因技术门槛难以使用。该论文提出了一个基于数据模式的自然语言接口,利用大语言模型(LLM)解释用户查询意图,同时通过结构化语义帧、规则验证层等设计,将查询转化为确定性的空间操作图并在PostGIS数据库上执行,确保了结果的可重复性与可审查性。该框架在马萨诸塞州全州数据库上进行评估,所有查询均成功执行,且验证层修正了29%的查询错误。
交通安分析依赖整合事故记录、道路属性等地理空间数据,但许多机构和社区利益相关者因技术门槛难以使用。该论文提出了一个基于数据模式的自然语言接口,利用大语言模型(LLM)解释用户查询意图,同时通过结构化语义帧、规则验证层等设计,将查询转化为确定性的空间操作图并在PostGIS数据库上执行,确保了结果的可重复性与可审查性。该框架在马萨诸塞州全州数据库上进行评估,所有查询均成功执行,且验证层修正了29%的查询错误。
自回归视频扩散模型在实时视频生成与世界建模中潜力巨大,但其高昂的推理成本亟待量化技术来缓解。研究发现,现有量化方法直接应用效果欠佳,主要面临两大挑战:一是自回归生成中的误差累积导致帧间量化敏感性严重失衡;二是权重中存在显著且模式多样的异常值通道。为此,本文提出Q-ARVD量化框架,通过引入质量感知的帧加权机制来平衡帧间差异,并设计异常值感知的自适应双尺度量化方法以隔离和保护正常通道。大量实验验证了该框架在提升量化模型性能上的显著优势。
本期探讨AI市场究竟是暂时泡沫,还是全球经济的结构性重塑。内容深入分析AI产业链瓶颈与竞争格局,涵盖芯片架构限制、以Nvidia和Grok LPUs为代表的推理生态之争,以及AMD、Intel、TSMC的代工博弈。同时讨论ASIC创业公司现状、数据中心基础设施危机、太空数据中心与主权AI布局等前沿议题,并结合宏观趋势、机器人技术和“总Token产量”等指标,对市场热度与潜在风险进行犀利点评。
OpenAI 宣布推出“保证容量”服务,允许企业客户签订一至三年合约,长期锁定其AI算力资源。该服务根据客户的年消费水平提供阶梯式折扣,确保其生产系统、客户应用及AI智能体的专用算力供应。此举旨在应对当前算力紧缺环境,使企业能够将算力扩展与长期业务增长和AI部署规划相匹配,客户可在OpenAI支持的云服务商及模型范围内灵活使用所承诺的额度。
Introducing OpenAI Guaranteed Capacity: a new offering that enables customers to guarantee long-term access to OpenAI co...
本次更新为Claude Code工具带来了多项功能增强与问题修复。新功能包括:新增JSON格式的会话列表命令以便脚本化操作,并在OTEL追踪中完善了Agent父子关系。插件浏览界面现可预览详细信息。在稳定性方面,修复了权限提示被绕过的安全问题、MCP参数校验错误、终端窗口调整后的显示冻结,以及非ASCII名称导致的API调用失败等问题。同时改进了Read工具的文件超限处理,并优化了任务列表排序和状态栏信息显示等交互细节,整体提升了工具的易用性与可靠性。
在2026年I/O开发者大会上,谷歌宣布推出Antigravity 2.0,这是一款围绕智能代理编排构建的独立桌面应用程序。同时发布的还包括Antigravity命令行工具(CLI)和软件开发工具包(SDK),并在Gemini API中引入了托管代理功能。此外,通过Gemini Enterprise提供企业级支持。此次发布标志着谷歌从工具集成迈向构建完整代理开发生态的重要转变。
Introducing OpenAI Guaranteed Capacity: a new offering that enables customers to guarantee long-term access to OpenAI co...
针对长上下文大语言模型服务中INT2 KV缓存量化精度下降的问题,本文提出OSCAR方法。其核心是通过离线估计注意力实际使用的协方差结构,推导出固定的旋转矩阵和裁剪阈值,使KV缓存量化与下游注意力计算对齐。实验表明,OSCAR显著提升了量化精度:在Qwen3-4B和Qwen3-8B上,其与BF16的差距分别缩小至3.78和1.42个百分点,而朴素旋转方法性能几乎崩溃。该方法在更大模型及128K长上下文测试中表现稳健。在系统层面,OSCAR将KV缓存内存占用降低约8倍,并将大批次吞吐量提升最高达7倍。
最新基准测试显示,在GLM5架构下,AMD MI355单节点FP8推理成本较NVIDIA B200降低了约40%。这一成果建立在SGLang v0.12针对CUDA与ROCm平台进行的非MTP、MTP及投机解码等多维度优化之上,团队认为性能速度是构建核心壁垒的关键。后续重点将是推动MI355X在生产级推理优化(如FP4)及分布式推理领域追赶CUDA的生态与性能,通过多卡协同提升单卡算力效率,从而进一步降低百万Token的推理成本。
InsForge是一个专为AI编码智能体设计的一站式开源后端平台。它通过MCP Server和CLI+Skills两种接口,让智能体能像后端工程师一样直接操作数据库、认证、存储、边缘函数、模型网关等全套后端服务,从而端到端地构建全栈应用。平台支持云托管与基于Docker的自托管,可一键部署至Railway、Zeabur等主流平台。
NVIDIA研究员开源LongLive 2.0,这是首个支持4-bit量化、覆盖训练与推理全流程的端到端长视频生成基础设施。其核心技术包括FP4量化与并行加速,在5B模型上实现45.7 FPS的生成速度。该框架支持真实视频训练、蒸馏、多镜头生成、序列并行、KV缓存优化及异步解码部署,旨在解决以往长视频生成速度慢或仅限短片的瓶颈。
🚀 Excited to release LongLive 2.0! 🎬 An end-to-end infrastructure for long video generation, with FP4 and parallelism ...
核心问题在于,AI大幅提升个人效率后,团队协作反而可能变得更困难。因为组织层面的AI应用并非个人提效的简单放大,而是需要解决如何将AI深度嵌入现有协作结构、打破信息壁垒的问题。当前很少有团队关注后者。Lucius AI 正尝试解决这一痛点,其核心是构建组织的“上下文层”,旨在减少团队中超过30%时间被浪费在重复重建已有决策上下文上的现象,从而弥合个人高效与组织协同之间的鸿沟。
We raised $3M to build Lucius AI - the Context Layer for Your Organization. Backed by Future Capital Discovery Fund, we'...
过去三年,主流药企的AI合作大多停留在公关层面,未实质改变研发流程。Edison Scientific为Incyte部署的Kosmos系统是例外:它作为生产级工具,单次运行可处理1500篇文献并生成42,000行代码,且结果具有79%的可复现性,结论均可溯源。这标志着AI首次从理论演示进入实际研发管线,真正压缩研发周期,有望加速新药问世进程。
基于SpaceX现有的1万颗在轨卫星,以及未来使用Starship将实现每年发射超万颗更强通信卫星的计划,埃隆·马斯克认为太空通信能力将百倍提升。他指出,尽管通信能力大幅增长,但这将远不及未来AI卫星的吨位规模。因此,他用物理学的极限思维进行推演,得出结论:建设太空数据中心的可行性比普遍认知的要高得多。
用户分享了坚果云在数字工作流中的三个实用场景:同步本机.agents目录至其他电脑以保持Skill配置一致;作为Obsidian数据同步工具替代官方服务;通过其WebDAV功能,无缝兼容CC Switch配置的各种API。此外,坚果云支持随时共享文件夹或文件给他人。个人用户年费199元,与AI订阅套餐相比具有显著的价格优势。
毕马威宣布与Anthropic建立全球联盟,将Claude人工智能模型全面整合至其核心业务与数字平台。此举将向毕马威全球超过27.6万名员工开放Claude访问权限,并率先应用于税务与法律等领域的客户工具开发。双方还将合作开发面向私募股权投资组合公司及网络安全漏洞检测的新产品。毕马威强调此次合作基于其可信AI框架,旨在通过负责任、可治理的AI部署,加速企业数字化转型。
GOOGLE 🔥: A new AI Studio mobile app is now available on Google Play for pre-registration! > "Your next big idea is jus...
Live from Code with Claude London: we're launching self-hosted sandboxes (public beta) and MCP tunnels (research preview...
在2026年5月19日的AMD AI开发者日活动上,AMD董事会主席兼首席执行官苏姿丰亲自签名确认了极摩客(GMKtec)的新品迷你主机EVO-X3和EVO-X2。其中,EVO-X3首次公开亮相,基于AMD锐龙AI Max+ 395处理器,支持高达128GB的LPDDR5X-8000内存,并提供原生OCuLink接口,增强了外部设备连接能力。展机还搭载了江波龙的AI存储智能体方案,进一步提升了存储智能和效率。这次发布不仅突显了极摩客在硬件配置上的显著升级,也为迷你主机市场带来了更高性能的选择,适合开发者和对计算能力有要求的用户。
Anthropic为其Claude智能体托管平台推出两项更新:自托管沙箱允许用户在自有基础设施或合作云平台上运行工具,确保敏感数据与服务保留在用户控制范围内;MCP隧道则通过轻量网关,使智能体能安全连接企业私有网络内的数据库与API,无需暴露于公网。目前沙箱功能已进入公测,隧道处于研究预览阶段。这两项更新进一步增强了企业用户对智能体执行环境与内部资源访问的安全管控能力。
2026年,企业自主AI已从试点阶段全面进入生产部署。本文综合评估了当前表现最优的十个平台,包括Salesforce Agentforce、Microsoft Copilot Studio、ServiceNow和LangGraph等,并提供了经过验证的定价信息、真实的采用数据以及客观的局限性分析,旨在帮助企业团队做出明智的平台选择决策。
腾讯云宣布,其智能体开发平台提供的 Hy3 preview 与 DeepSeek-V4-Pro 模型,将于2026年5月27日10:00起结束限时免费公测,转为正式商用服务。后续将根据模型调用量按需计费。该平台采用“订阅+增购包”的收费模式,提供免费版及多款付费套餐(如专业版188元/月、企业版4880元/月),用户还可选购预付费资源包,年付套餐可享8.33折优惠。
LongLive-2.0 是首个支持训练与推理一体化的NVFP4并行基础设施,旨在解决长视频生成中的速度与内存瓶颈。训练阶段提出序列并行自回归方法,结合NVFP4精度以降低显存成本并加速计算,且视频越长效率提升越显著。该系统直接将扩散模型训练为长视频多镜头自回归模型,并支持通过LoRA权重转换为实时生成模式。推理阶段在Blackwell GPU上启用W4A4量化与异步流式解码,在其他架构上则通过序列并行匹配其速度。实验表明训练最高加速2.15倍,推理加速1.84倍,其5B模型可达45.7 FPS并在基准测试中表现优异。
本文提出零专家自蒸馏适应框架,将训练完成的静态混合专家模型转换为高效动态模型。该方法通过在每个混合专家层注入零输出专家,并利用原始模型作为冻结教师进行两阶段自蒸馏适应,以实现稳定的架构转换。在两个大型开源模型及11个基准测试上的实验表明,该方法能消除超过50%的专家计算量,同时仅带来极小的准确率损失,并显著提升端到端推理速度。
英伟达正式开始交付其首款自研通用CPU——NVIDIA Vera。该芯片专门针对AI Agent时代高并发、高吞吐的长期运行场景进行优化,核心功能是作为Agent编排与工具调用的调度中枢。它旨在将原本由GPU承担的密集调度与I/O任务分离,由CPU专门处理,从而构建更高效的AI系统。首批Vera CPU由英伟达高管亲自送至Anthropic、OpenAI、xAI及甲骨文云(OCI),其中xAI由马斯克亲自接待。此举标志着英伟达正从GPU主导的推理市场,深入布局为AI Agent时代定制计算基础设施的新赛道。
NVIDIA's Ian Buck hand-delivered the first-ever NVIDIA Vera CPUs to our partners @AnthropicAI, @OpenAI, @SpaceX, and @Or...
研究人员提出结构化牛顿层级并行(SNLP)框架,解决自回归语言模型中Transformer层顺序执行的延迟瓶颈。该方法将层间隐藏状态演进视为非线性方程,采用廉价的结构化牛顿更新并行求解。训练阶段引入SNLP感知正则化,使模型通过少量迭代近似顺序前向传播,提升层并行兼容性并降低标准困惑度4.7%-23.4%。推理时,SNLP结合层融合与分块分解,在0.5B Nanochat模型上实现2.3倍加速,困惑度改善6.1%。研究同时指出预训练模型效果有限且精确收敛会退化为顺序计算。
谷歌与黑石集团宣布合作成立一家新的AI云服务公司,黑石率先投入50亿美元股权资本,结合后续杠杆,总投资规模预计约250亿美元。该公司计划依托谷歌自研的TPU芯片和云基础设施,与CoreWeave等算力服务商展开竞争,并争取在2027年上线容量达500兆瓦的数据中心,相当于一座中等城市的用电规模。此举标志着谷歌迄今最大规模的对外芯片商业化尝试,将加剧与英伟达等公司在AI算力市场的角逐。
中国移动于5月15日推出“超千兆宽带”,速率可从传统千兆升级至2000Mbps,并依托Wi-Fi 7与FTTR技术实现全屋高速覆盖。同日,浙江移动推广万兆光网,温州试点小区实测下行速率超9000Mbps,计划2026年建成1000个万兆小区。此外,移动同步升级了爱家亲情网、服务及灵犀智屏,增强家庭互联与智能体验。
英伟达向Anthropic、OpenAI、SpaceXAI和甲骨文交付首批Vera CPU,标志其专为Agentic AI设计的处理器正式量产。Vera是英伟达首款定制CPU,采用88个自研核心,内存带宽达1.2TB/s,单核性能较前代Grace提升50%,并搭载1.5TB内存。甲骨文计划2026年起部署数十万颗,该芯片将用于独立服务器及Vera Rubin平台,支持高吞吐推理与智能体工作负载。
5月18日,东软医疗自主研发的中国首台宽体光子计数CT在沈阳下线,即将交付兰州大学第二医院。这标志着国产光子计数CT正式迈入量产交付阶段。该设备采用碲锌镉探测器等全链核心技术,实现了超高清(50lp/cm空间分辨率)、超低剂量及原生多能谱三大突破,其8cm宽体探测器可实现一次心跳冻结冠脉。此前,该设备已在华西医院等多家顶尖医院完成临床验证。
Anthropic 宣布收购专注自动化生成与维护多语言 SDK 的初创公司 Stainless,据称交易金额超过 2.8 亿欧元(约合 22.18 亿元人民币)。Stainless 的技术能将 API 规格直接转换为可部署工具,并自动同步更新,此前被多家 AI 实验室共用。收购完成后,Stainless 将停止对外服务,相关资源全部整合至 Anthropic 内部,不再与 OpenAI、谷歌等竞争者共享。这被视为 Anthropic 锁定关键开发基础设施、增强产品控制力的战略举措。
现有大语言模型虽能处理超长对话,但随对话历史线性增长的KV Cache会导致内存占用迅速超出设备限制。当前KV Cache压缩方法大多在处理完整上下文后才进行缓存淘汰,造成无界峰值内存占用。此外,基于查询的淘汰机制将缓存语义狭窄化至单次查询,导致失效。