The latest CodexBar update renders API costs wayyyy nicer. https://codex.bar
The latest CodexBar update renders API costs wayyyy nicer. https://codex.bar
长上下文大型语言模型的竞争焦点已从单纯增加上下文长度,转向通过精细的架构优化来提升计算效率。Sebastian Raschka的新文章通过可视化方式,解析了从Gemma 4到DeepSeek V4等模型在生产环境中应用的关键效率优化技术,如KV缓存共享、分层嵌入和压缩注意力等。这些技术旨在更智能地分配计算资源,已成为决定模型性能差异的关键。对于从事长上下文模型、智能体或RAG开发的团队而言,文章中的视觉图解与效率对比具有重要的参考价值。
New article: a visual tour of recent LLM architecture advances, from Gemma 4 to DeepSeek V4. I focus on long-context eff...
国家人工智能应用中试基地(具身智能)5月16日在浙江杭州挂牌启用,为机器人提供国家级职业技能训练场。该基地是集场景体验、技术展示、研发合作、产业赋能于一体的综合性平台,旨在推动具身智能技术从实验室迈向现实应用。杭州市于5月1日施行首部具身智能机器人地方性法规,支持核心研发、平台建设和场景开放。目前杭州已集聚机器人产业相关企业700余家,2025年具身智能产业集群产值达1068亿元。
lossless-claw 0.10.0 - the "long chats survive" release 🧵 recall spans rotated conversation segments 🧹 full-sweep comp...
硅谷资深管理者普遍被要求亲自动手使用AI工具,以判断团队效率与技术方向。管理者应选择非关键路径、高杠杆且视角独有的工作,具体包括优化团队内部效率工具、改进产品生活质量、制作庆祝团队成果的物料以及创建展示未来愿景的演示。核心禁忌是介入有关键截止日期和依赖关系的核心产品任务,以免因日程碎片化成为瓶颈,导致交付或管理失败。
What kind of IC work can you do if you are a manager? Attended two dinners with dozens of senior Bay Area tech managers ...
研究人员提出了Δ-Mem,一种专为大型语言模型设计的高效在线内存系统。该系统通过仅存储和更新模型激活的增量变化,而非完整的激活状态,显著降低了内存占用。实验表明,Δ-Mem能将内存使用量减少高达70%,同时保持模型输出的质量基本无损。这一方法有助于在资源受限的环境中部署和运行大规模语言模型,提升其在线推理和持续学习场景下的可行性。
艾伦人工智能研究所和加州大学伯克利分校的研究团队开发了名为EMO的混合专家模型。该模型创新性地让专家模块专注于内容领域而非词汇类型,从而在移除75%专家模块的情况下,性能损失仅约1个百分点。这一突破使混合专家模型首次有望应用于内存受限的实际场景,大幅提升了部署效率。
上海电信率先推出Token算力资费套餐,成为上海首个提供此类服务的运营商。套餐支持按量订购,1元对应25万额度点,以Kimi K2.5大模型为例,约可支持调用25万输入Tokens。用户可按需购买,多买享折扣,并支持话费账单支付。上海电信手机用户可获2500万额度点免费体验一个月。6月起,“美好家”用户家庭数字空间将上线Token会员权益。用户购买额度点后,可通过API接口调用30余款主流大模型,集成AI能力至自有应用或流程中。
新插件 datasette-llm-limits 0.1a0 发布,需与 datasette-llm 及 datasette-llm-accountant 配合使用。该插件允许在 Datasette 内为每位用户或全局配置大语言模型(LLM)使用的支出限额。配置示例显示,可为用户设置滚动24小时窗口内的使用额度,金额上限为1.00美元。这为团队管理LLM调用成本提供了细粒度的控制工具。
国产光纤光模块全球需求激增,供不应求。一季度相关产品出口量实现两位数增长,企业订单排至2028年。特种光纤G.657.A2价格一年内上涨10倍,核心原材料光纤预制棒产能缺口高达46%。同时,光模块出口同比增长约30%,1.6T产品在北美市场需求旺盛。面对供需失衡,中国企业正加速布局空芯光纤等下一代技术,以保持竞争优势。
针对大型语言模型长上下文推理中全注意力机制的计算瓶颈,本文提出RTPurbo方法。研究发现全注意力模型本身具有内在稀疏性:仅少数注意力头需要完整长上下文处理;长程检索主要依赖低维子空间,可通过轻量级索引器实现;且有用令牌预算高度依赖查询。基于此,RTPurbo仅对检索类注意力头保留完整KV缓存,并引入16维令牌索引器实现高效稀疏注意力。通过利用模型内在稀疏性,该方法仅需数百步训练即可完成稀疏化。实验显示,RTPurbo在1M上下文长度下实现9.36倍预填充加速与约2.01倍解码加速,同时保持近乎无损的推理准确率。
针对多智能体共享状态时因并发写入和过时读取导致的结构化竞态条件,本研究提出S-Bus,一种无需修改现有框架SDK的HTTP中间件。其核心是服务端的DeliveryLog机制,能自动重建智能体的读集,提供“可观测读隔离”一致性模型。实验在427,308次并发冲突场景中,与PostgreSQL及Redis均实现零数据腐败;形式化验证覆盖超2076万状态无违规。同时指出,该机制的适用性与系统拓扑相关,在单分片协作写入中可能传播矛盾。
针对模型量化与合并结合时,量化偏差与合并偏差相互耦合导致性能下降的难题,本文提出了E-PMQ框架。该框架在逐层校准过程中,利用源模型的权重提供专家指导的输出目标,并引入合并权重锚定机制以稳定校准过程,从而有效整合合并模型的行为。实验结果表明,E-PMQ显著提升了量化后模型的性能:在CLIP-ViT-B/32的8任务合并中,4位GPTQ的准确率在Task Arithmetic和TIES-Merging方法下分别从65.0%和69.1%提升至73.6%和74.8%;在更具挑战性的20任务CLIP-ViT-L/14设置上,准确率从34.8%大幅跃升至76.7%。这证明了E-PMQ能够实现高效的后合并量化与低比特部署。
现有稀疏注意力方法难以高效适配长上下文大语言模型的分块预填充。CompactAttention机制将二维块稀疏掩码转化为适用于分组查询注意力的键值块表,通过联合选择生成最小化块表,实现所选键值块的原地访问,避免了显式压缩开销。该方法在LLaMA-3.1-8B-Instruct模型上,在128K上下文中实现了接近密集注意力的精度,同时带来最高2.72倍的注意力计算加速。
2026年报告显示,法律团队生成式AI使用率已从44%跃升至87%。为应对日益复杂的工作,法律行业正将Claude应用于合同审阅、并购尽调及诉讼准备等核心流程,并通过多款产品组合提升效率:Chat用于即时研究,Claude Cowork处理跨文件协作,Microsoft 365插件集成办公套件,Platform支持定制应用开发。Anthropic同步发布法律行业部署指南,涵盖产品矩阵、12个预设业务领域插件及三阶段实施路线图,并解答数据托管与权限保护等关键问题。
英国发布了主权大型语言模型推理服务relax.ai。该服务旨在提供基于英国本土基础设施的AI推理能力,确保数据主权和合规性。其核心变化在于将模型推理过程完全保留在英国境内,以满足对数据安全和隐私有严格要求的政府与企业客户。目前该服务已上线,相关技术文档可通过其官方网站获取。
亚马逊员工因面临提高人工智能使用率的压力,开始编造虚假工作任务。公司内部指标要求员工将60%的日常工作与AI工具结合,部分员工为达成目标,不得不为AI生成无意义的任务,例如要求AI总结已完成的会议记录或生成已知答案的问题。这一现象揭示了企业在强制推行AI应用过程中可能引发的效率悖论和形式主义问题。
Forward Deployed Engineer(FDE)是AI落地应用的关键角色,负责在客户现场部署和集成AI系统。近期,OpenAI成立独立部署公司,Anthropic与华尔街巨头合作,Google也简化流程大力招聘,显示行业重心正从模型竞赛转向商业落地。FDE工作介于工程师与顾问之间,需写代码、调试并深度理解业务。此岗位为毕业生提供了接触企业级项目的机会,也帮助资深工程师贴近业务需求,成为推动AI创造实际价值的重要力量。
高德发布鸿蒙系统首个生成式UI开源框架AGenUI。该框架基于谷歌A2UI协议,以C++为核心,能将AI大模型生成的界面意图直接转化为鸿蒙原生组件,实现手机、平板、车机等多终端无缝适配。它深度适配鸿蒙全场景架构,直连系统渲染与分布式能力,无中间层损耗。性能上,相比iOS和Android版本,其渲染性能提升20%,内存占用降低18%。AGenUI已全面开源,旨在推动生成式UI成为鸿蒙生态的系统级标准能力。
一个名为“WhichLLM”的开源工具已在GitHub发布,可根据用户硬件配置推荐最适合的本地大语言模型。该工具通过基准测试对各类模型进行排名,帮助用户依据自身设备的性能指标选择最优模型。项目在Hacker News上获得116点热度,显示出社区对本地化AI部署效率工具的积极关注。
近期AI领域焦点从模型能力转向Agent工程化落地。Anthropic发布Claude Code实践,强调放弃RAG索引,采用Agentic Search导航大型代码库,并推出管理并行会话的Agent View及Computer Use最佳实践。OpenAI的Codex推出独立光标的Computer Use功能,解决了Windows平台沙箱安全问题,其负责人指出Codex正演变为可执行长期自主任务的本地Agent。国内厂商如阿里、腾讯等也在同步推进Multi-Agent实战,标志着AI Agent进入全面工程化应用阶段。
GGUF 文件格式在存储机器学习模型权重的基础上,还包含了模型架构、超参数配置、分词器信息等关键元数据,提升了模型部署的便利性。然而,该格式目前仍缺乏标准化验证工具、完善的版本控制机制以及跨平台兼容性支持,限制了其广泛应用。文章在 Hacker News 上获得 101 点关注,反映了开发者对模型格式标准化与改进的持续讨论。
Codex现已支持通过手机上的ChatGPT应用进行远程控制,实现了跨设备对话同步与指令操作。用户需在桌面端Codex客户端内启动设置,并完成多重因素验证(推荐使用Google Authenticator)。绑定后,手机ChatGPT App将出现Codex侧边栏,可查看并控制已绑定桌面设备的所有对话,直接发送命令。目前该功能仅支持Mac版Codex,Windows版本仍在开发中。
普华永道与Anthropic宣布扩大战略联盟,将在全球数十万员工中部署Claude AI工具。双方将联合建立卓越中心,并培训认证3万名专业人员。合作聚焦三大高杠杆领域:智能体技术构建、AI原生交易执行以及企业职能重塑。普华永道已率先成立基于Claude的财务业务组。实际应用显示,Claude在保险承保、网络安全等多个领域能将交付时间缩短最高达70%,例如将保险承保周期从十周压缩至十天。
美国陆军在“常春藤集丛”演习中测试了下一代指挥与控制(NGC2)战场网络系统。该系统旨在通过云计算软件取代旧网络,实现直升机、地面部队、无人机及后勤单位间的近实时数据共享。演习模拟了电子干扰与远程攻击环境,验证了AH-64E阿帕奇直升机与分布式小规模单位在共享侦察与目标数据下的协同作战能力。NGC2将作为多域作战的数字骨干,整合陆、空、网络、电子及天基系统,并探索利用人工智能辅助指挥官决策。
OpenAI于5月15日宣布,用户现可通过手机端ChatGPT应用远程控制Mac桌面端的Codex。用户升级应用后,可在手机上实时查看对话线程、审批请求、插件状态及项目上下文,并直接审批任务、发起新指令或更换模型。所有文件与权限仍保留在原电脑,但截图、终端输出等更新内容会实时推送至手机。连接时,Mac端Codex会生成二维码供手机扫描配对。目前该功能仅支持Mac版,Windows版将在未来推出。
为解决强化学习应用于代理式大语言模型时成本高、扩展难的问题,我们提出AstraFlow。该系统采用数据流导向的组件化架构,替代了传统以训练器为中心的控制模式,将服务、数据流与训练解耦为自治组件。这使系统能原生支持多策略协同训练,并高效利用弹性、异构的跨区域计算资源。在数学、编程、搜索等多类任务评估中,AstraFlow无需修改系统代码即可运行复杂工作负载。实验表明,在多策略协同训练下,它相比现有框架能达到相当或更好的任务准确率,并将训练速度提升2.7倍。
本研究对8个开源模型系列的27个检查点进行了统一的激活值动态范围测量。研究发现:在相近参数规模下,全局最大激活值跨幅近四个数量级,其中混合专家模型峰值较稠密模型低14.0-23.4倍,且全局最大值多出现在残差流中。激活值大小并非简单的规模缩放产物,而是由模型系列、架构和训练阶段共同决定。研究建议在模型部署前应测量并公开该特性。代码已开源。
使用顶尖AI模型处理邮件的月度成本约为22至130美元,中位数26美元。若软件公司以75%毛利率定价,年费可能高达350美元,加上托管服务后标价或达500美元,约为Google企业邮箱费用的两倍。采用小型模型可降低成本10至20倍,而通过本地运行利用用户GPU,更能将成本削减至接近零。结合基础启发式方法和技术优化,总成本有望降低100倍。这种针对不同工作负载匹配模型并进行成本分层的推理市场细分,将是未来一两年AI软件发展的关键。
Claude Code已成功部署于数百万行的单体仓库、遗留系统及分布式架构中。其核心在于围绕模型构建的“工具套件”,而非仅依赖模型本身。该套件包含五个关键扩展点:提供代码库概览的CLAUDE.md文件、实现持续改进的钩子、按需加载专业知识的技能、插件以及MCP服务器。它采用智能体搜索模式,直接在开发者本地实时代码库上操作,无需构建和维护集中式索引,从而避免了传统RAG系统在活跃大型代码库中索引过时的问题。团队对代码库设置的投入程度直接决定了其导航效果。
吴恩达与AMD合作推出新课《Transformers in Practice》,旨在将Transformer从学术概念转化为可调试的工程工具。课程提供交互式可视化,让开发者深入模型内部,观察自回归生成、注意力头分工及幻觉产生过程。核心聚焦生产中的推理优化难题,指出大部分延迟源于内存带宽与注意力计算,而非参数量。课程将系统讲解量化、KV Cache、Flash Attention、投机解码等关键技术,以实现数倍速度提升且精度损失极小。其最大价值在于培养能诊断问题、优化成本的稀缺人才,弥补了仅关注CUDA而缺乏硬件感知优化的市场空白。
New course: Transformers in Practice. You'll get a practical view of how transformer-based LLMs work, so you can reason ...
Google开源框架Genkit近日推出其核心中间件系统,旨在提升智能体AI应用的可靠性与可控性。该系统允许开发者在生成调用、模型及工具层进行拦截,以注入自定义行为,如重试机制、模型回退以及人工介入的工具审批流程。通过创建并堆叠自定义中间件,开发者能够实现对模型输出的确定性控制。所有中间件的执行流程均可通过专用的开发者界面进行实时查看与调试,有效支持使用TypeScript、Go、Dart和Python构建生产就绪的智能体应用。