为解决datasette.io网站遭受恶意爬虫频繁访问的问题,作者借助Codex开发了一款可配置的IP速率限制插件。该插件能够监控并阻止在设定时间窗口内对特定路径发起过多请求的IP地址。文中给出了当前生产环境的配置示例:通过Fly-Client-IP请求头识别IP,设置最大跟踪键值数为10000,并豁免静态文件等路径;针对“/global-power-plants/*”和“/legislators/*”两类路径,规则限定60秒内最多允许60次请求,违规IP将被封锁20秒。
为解决datasette.io网站遭受恶意爬虫频繁访问的问题,作者借助Codex开发了一款可配置的IP速率限制插件。该插件能够监控并阻止在设定时间窗口内对特定路径发起过多请求的IP地址。文中给出了当前生产环境的配置示例:通过Fly-Client-IP请求头识别IP,设置最大跟踪键值数为10000,并豁免静态文件等路径;针对“/global-power-plants/*”和“/legislators/*”两类路径,规则限定60秒内最多允许60次请求,违规IP将被封锁20秒。
Anthropic首席财务官Krishna Rao在首次深度访谈中透露,其加入公司两年来,年化营收从2.5亿美元激增至300亿美元,并主导筹集近750亿美元资金。他手握超过1000亿美元的AI算力采购承诺,全权负责Trainium、TPUs和GPUs等资源在训练与推理间的动态分配。访谈核心指出,随着模型能力趋同,算力获取与调配能力已成为顶尖AI公司的决胜关键,CFO可能取代首席科学家成为战略掌控者。节目还深入探讨了不确定性决策、前沿智能回报递增等议题。
Krishna Rao is the CFO of Anthropic, and this is his first podcast appearance. He joined the company two years ago when ...
Arm第二代可扩展矩阵扩展(SME2)与Google AI Edge软件栈集成,将CPU转变为强大的矩阵计算加速器,从而实现高性能的设备端生成式AI。本文以Stability AI的“stable-audio-open-small”模型为例,阐述了利用LiteRT、XNNPACK和KleidiAI构建的“转换、优化、部署”自动化硬件加速流程。该方案在基于Arm架构的移动设备和笔记本电脑上,成功实现了音频生成速度提升2倍以上、内存使用减少4倍的显著效果,同时确保了高音频质量。这一集成方案为在资源受限的边缘设备上高效运行复杂AI模型提供了有效路径。
英特尔宣布与迈凯伦F1车队达成多年战略合作,成为其官方计算合作伙伴,合作范围涵盖一级方程式、印地赛车及模拟赛车车队。英特尔将提供基于Xeon和Core Ultra芯片的AI与高性能算力,用于空气动力学、车辆动力学仿真及比赛策略分析等关键环节。此举使英特尔在F1赛场直接对标老对手AMD,后者自2020年起已为梅赛德斯-AMG马石油车队提供Epyc和Threadripper处理器支持。
在连续批处理中,同步方式导致CPU与GPU交替工作,造成闲置浪费。测试显示,使用8B模型生成8K令牌时,GPU有24%的时间处于空闲状态。异步批处理通过分离工作负载,让CPU准备下一批次(N+1)的同时,GPU计算当前批次(N),从而消除闲置间隙。这可通过CUDA流实现操作并发,无需更改内核或模型,仅需协调硬件执行顺序。理论上,该方法可将总生成时间从300.6秒减少至228秒,实现24%的免费加速。相关技术已集成到transformers库的连续批处理中,显著提升推理性能。
Raycast发布V2 Beta版本,核心转变是从一个单纯的启动器升级为“启动器+AI Agent”的集成工具。新版对整体UI和基础架构进行了全面重构,包括重做启动器底层、重新设计搜索与扩展功能。搜索功能得到升级,文件搜索被整合进主搜索框以提升速度。AI能力显著增强,新增了独立的AI Chat输入框和聊天窗口,并支持Skills、Agent和Memory功能,同时内置了语音输入。
POET Technologies 与 Lumilens 达成战略供应与联合开发协议,将基于光电中介层平台共同推进下一代AI光网络的晶圆级光子集成技术。根据协议,Lumilens 首批采购订单金额达5000万美元,双方合作有望在五年内累计采购额超过5亿美元。POET 还向 Lumilens 授予了认股权证。技术路线图涵盖800G/1.6T光模块、近封装和共封装光学等领域,工程样品预计2026年底推出,2027年量产。受此消息影响,POET Technologies 美股盘前股价上涨超过29%。
FeatCal是一种后合并校准方法,旨在解决模型合并后性能低于任务专家的问题。该方法通过理论分析将特征漂移分解为上游传播与局部失配,并利用少量校准集以前向顺序逐层校准合并模型的权重,以减少特征漂移,同时保持接近原始合并权重。FeatCal采用高效的闭式解更新权重,无需梯度下降、迭代优化或额外模块。在CLIP和GLUE基准测试中,FeatCal显著超越了Surgery和ProbSurgery等基线方法,如在CLIP-ViT-B/32任务算术合并上达到85.5%准确率。仅需每任务8个样本即可达到82.9%准确率,每任务256个样本的校准耗时仅53秒,比基线快约4倍,展现出更高的样本效率和更低的校准成本。
美国已批准约10家中国公司,包括阿里巴巴、腾讯、字节跳动和京东,购买英伟达H200芯片,但至今芯片尚未发货。这一批准实质是外交谈判筹码,华盛顿以芯片换取中国在稀土、贸易或台湾问题上的让步;英伟达CEO黄仁勋的行程也被用作政治杠杆。瓶颈可能在北京方面:中国正推动企业采用国产硬件如华为昇腾,购买H200会重建其试图摆脱的对美技术依赖。当前僵局对双方政府有利:美国鹰派不希望芯片流入中国,而北京追求自给自足。批准但不兑现看似进展且无需承诺。关键指标是发货量而非批准公司数;发货量为零表明这是外交手段伪装成商业行为。
特斯拉在尚未批准FSD公共道路使用的德国,已通过柏林超级工厂内部部署累计实现FSD行驶里程约15万公里。工厂内下线的每辆Model Y均自动启用FSD功能,从生产线末端自主行驶至出厂停车场,全程在私有厂区固定路线完成,无需人工驾驶。这一闭环场景具有车道宽阔、路线固定、环境稳定等特点,既规避了监管限制,又显著节省了人力与时间成本,提升了工厂物流效率。
英伟达CEO黄仁勋夫妇创办的基金会,正从云算力服务商CoreWeave采购AI算力资源,捐赠给高校及非营利机构用于科研,目前捐赠估值约1.083亿美元。英伟达还将为部分受赠机构提供免费工程技术服务。此举既是慈善行为,也进一步巩固了英伟达与CoreWeave的战略关系。CoreWeave提供的GPU均由英伟达设计,此前英伟达已向其投资20亿美元并签署了价值63亿美元的算力采购协议。
阿里云发布企业级AI建站平台万小智2.0,提供从网站生成、域名备案到上线运营的全流程服务。平台通过多轮对话理解需求,支持解析参考网站或使用行业模板生成初稿,并采用多角色Agent协作与“AI对话+拖拽编辑”实现边聊边改。它原生集成域名注册与ICP备案,支持一键部署,并配备可视化管理后台及AI创意中心。新用户可获赠体验额度和限时.CN域名,服务按功能提供不同订阅版本。
OpenAI 为在 Windows 上实现 Codex 的“默认安全”体验,从免提权沙箱演进到提权沙箱。Windows 缺乏原生进程级约束,初期方案通过合成 SID 和 Write-Restricted Token 限制文件写入,但网络封锁只能依赖环境变量软拦截,无法强制生效。团队最终放弃免提权约束,转向创建独立本地用户(在线与离线沙箱用户),需一次性管理员权限安装并配置防火墙规则。通过引入 codex-command-runner.exe 作为中介,解决跨用户创建受限令牌进程的权限难题,形成四层架构,在保障安全的同时最小化对主流程的侵入。
We are continuing to invest in making agents work better on Windows. Highly recommend reading David's engineering post o...
MinT是一个专注于LoRA后训练与在线服务的托管基础设施系统。其核心设计是保持基础模型常驻,仅移动和更新轻量的LoRA适配器,从而隐藏分布式训练与服务等复杂性。系统从三个维度实现扩展:向上扩展支持万亿参数规模的密集与MoE架构;向下扩展使适配器体积可小于基础模型的1%,显著减少步骤与墙时间;向外扩展支持百万级可寻址策略目录,通过集群调度与张量打包技术高效处理海量适配器的冷加载与活跃服务。最终,MinT能够在共享的万亿级基础模型上,高效管理百万规模LoRA策略的训练与服务。
UnslothAI创始人Daniel Han发布了实验性的Qwen3.6 MTP GGUF模型,显著提升了推理速度。其中,27B模型在单GPU上达到每秒140个token,35B-A3B版本更是高达每秒220个token,相比原版GGUF速度提升超过1.4倍且精度无损。关键优化在于将draft tokens设置为2,这是性能与接受率的最佳平衡点。这项MTP投机解码技术极大提升了消费级显卡运行大模型的效率,推动了本地AI的性能边界。
We released experimental MTP Qwen3.6 Unsloth GGUFs! Qwen3.6 27B MTP now runs at 140 tokens/s. Qwen3.6 35B-A3B MTP gets 2...
OpenAI团队为Codex在Windows上构建沙箱时,因系统缺乏原生内核级工具,评估并否决了AppContainer、Windows Sandbox和强制完整性控制(MIC)三个现成方案。最终自研方案结合专属Windows SID与写受限令牌,在内核层实现无需管理员权限的文件系统隔离;网络隔离则通过创建特定本地用户账户绑定防火墙规则来强制执行。该架构虽复杂,但为所有需在Windows上实现文件系统隔离的AI Agent系统提供了关键设计范式。
http://x.com/i/article/2054632650636152832
本研究提出分组查询潜在注意力(GQLA),对DeepSeek-V2/V3中的多头潜在注意力(MLA)进行最小修改,使其在一套权重上暴露两种等效解码路径:与MLA相同的MQA吸收路径,以及带有每组扩展缓存的GQA路径。运行时可根据硬件自动选择路径,无需重新训练。单一的GQLA权重能同时适配H100(采用MQA吸收)与H20(采用GQA及多令牌预测)的硬件性能上限,并在GQA路径上支持高达8路的零冗余张量并行。通过扩展TransMLA为TransGQLA,可将预训练的GQA模型转换为GQLA模型。在LLaMA-3-8B上的实验表明,其MQA吸收路径将每令牌的KV缓存压缩至GQA基线的28.125%,同时在分组路径上结构性保留了GQA级别的流量效率。
Cursor发布新工具,用于配置云端智能体开发环境。核心更新包括:支持多仓库环境,使智能体可跨代码库协同工作;提供基于Dockerfile的代码化配置,支持构建密钥并优化缓存,命中缓存后构建速度提升70%;增强由智能体主导的环境设置流程,提供验证与故障回退机制。同时新增环境治理与安全功能,如版本历史、审计日志,以及可在环境级别独立管控的网络出口和密钥权限。这些改进旨在帮助团队在受控环境中更高效地运行能端到端处理任务的并行智能体集群。
Claude 最新模型在电脑与浏览器使用能力上显著提升,支持构建复杂智能体系统。本文针对Claude 4.6系列和Opus 4.7提供实践指南,重点优化截图分辨率:Claude 4.6系列API限制最大长边1568像素、总像素115万;Opus 4.7提升至最大长边2576像素、总像素375万。发送前将截图缩放到限制内是提升点击准确性的最有效方法。推荐起始分辨率为1280x720,Opus 4.7用户可优先使用1080p,并避免发送未经缩放的原始截图或过低分辨率图像。
腾讯计划在2026年下半年大幅增加人工智能基础设施支出。此举的背景是中国芯片制造商正加速国产AI芯片的生产。公司同时公布了强劲的第一季度业绩,并正在就入股AI公司Deepseek进行谈判。
Anthropic 正式推出面向小型企业的“Claude for Small Business”方案,包含15个基于智能体的工作流程,并集成至QuickBooks、PayPal和HubSpot等常用工具。该公司同时在美国十个城市推出免费培训课程和巡回研讨会,旨在将AI能力直接赋能给小企业主,帮助其更高效地利用现有付费工具。
作者介绍了将智能体与可交互的HTML组件(Artifacts)结合的工作流。这些组件超越了静态文件,能主动执行或辅助完成任务。其核心优势在于数据完全自主(存储于Markdown中,无需数据库)、维护简单且回报率高,并能实现高度个性化的功能扩展。作者已将其应用于写作、研究、设计等多个领域,并指出简化工具栈是提升效能的关键。他将于下周进行直播,详细讲解具体实现方法。
Anthropic推出“Claude for Small Business”服务包,旨在帮助小型企业弥补在AI应用资源上与大型公司的差距。该产品包含一系列连接器和15个开箱即用的自动化工作流,能将Claude深度集成到QuickBooks、PayPal、HubSpot等企业日常工具中。其核心功能是自动化处理财务、运营、销售等领域的重复性任务,如规划薪资、月末结算、追踪发票和分析营销活动等。用户通过Claude Cowork界面操作并手动批准关键步骤,所有任务均由用户发起和控制,Anthropic承诺保障数据安全。
本文结合AI时代背景解读《启示录》,指出多数产品失败源于早期方向错误,而非执行力。产品经理核心职责是“评估产品机会”与“定义要开发的产品”。书中强调用“机会评估”框架聚焦问题本身,并主张以高保真原型(现可用Figma等工具快速制作)替代传统PRD,通过约5名目标用户的测试提前验证体验。在AI降低原型成本的当下,团队更应警惕盲目添加功能,回归产品探索本质。
英伟达CEO黄仁勋将当前GPU市场现象称为“好酒效应”,指其价格随时间上涨。在AI需求爆发背景下,GPU成为紧缺算力资源,供需失衡导致全产业链产能紧张,硬件价格普遍被推高。不仅新型号涨价,连4至5年前的旧款GPU价格也持续升值,且速度“超过好酒陈化速度”。H100、A100等型号价格较上一季度上涨,行业算力资源长期售罄,反映出AI模型对全球算力的强劲需求。
Browser Run 产品已基于 Cloudflare Containers 完成重构,实现了使用限制提升、性能加速、可靠性增强以及交付速度提高。此次重构使产品能够更高效地处理大规模并发任务,显著缩短了任务响应时间,并提升了服务稳定性。团队通过容器化技术优化了资源调度与隔离机制,从而为用户提供更快速、更可扩展的浏览器自动化服务。
Anthropic将企业客户从固定费用转向基于使用量的定价模式,同时新的分词器导致单次请求消耗增加,致使客户成本急剧上升。例如,有企业CIO发现30个席位的Claude账单在30天内翻了三倍,ServiceNow则在数月内耗尽了年度预算。尽管其Claude Opus已是定价最高的前沿模型,但Anthropic年化收入仍高达300亿美元,仅微软一家年支出就近5亿美元。这标志着企业AI定价正从Salesforce式的固定模式转向类似AWS的用量计费,但Anthropic展现出前所未有的强势定价权。
Meta 为其开源沉浸式 Web 开发框架 Immersive Web SDK 推出重大更新,新增支持接入 Claude Code、Cursor、OpenAI Codex 等 AI 工具。该框架旨在简化 VR 开发的底层工程工作,此次更新允许开发者利用 AI 智能体进行代码测试、验证和迭代优化。为展示能力,Meta 使用该框架与 AI 工作流,仅用 15 小时便重建了其 VR 演示项目 Project Flowerbed,在保留原有美术资源的前提下完成了数万行代码的重构与应用重建。
Google 正在招聘数百名工程师,专门协助客户采用其人工智能技术。这一大规模招聘举措表明,人工智能的实际部署与应用过程仍然存在显著困难,企业客户在技术落地时面临挑战。公司正通过扩充专业服务团队来加速其AI解决方案(如Gemini)的市场渗透和客户集成。
近期CopyFail、YellowKey、Mini-Shai Hulud等系列安全事件,标志着软件安全范式正发生根本转变。AI不仅辅助发现漏洞(如732字节脚本攻破Linux root),更被直接用于驱动零日漏洞的在野利用和武器化。漏洞从发现到武器化的时间急剧缩短。供应链成为最薄弱环节,Mini-Shai Hulud事件揭示被广泛信任的CI/CD管道(如GitHub Actions)可能成为最大后门。安全模式正从“被动修补”转向构建“AI实时免疫”体系。应对核心是将供应链审计提升至最高优先级,审查CI/CD、强制实施SLSA等标准。未来3-5年,安全能力将直接决定企业生存成本。
Security things from the last few days: - CopyFail (linux pwn'd) - CopyFail 2/Dirty Frag - 13 advisories in Next.js - Ov...
在联发科天玑开发者大会上,群联电子与联发科全球首次实现在天玑9500平台上手机端单机运行200亿参数大语言模型。该突破依托群联专利的aiDAPTIV Hybrid UFS解决方案,通过将部分MoE模型权重动态卸载至UFS存储,显著降低对DRAM的依赖,使得原本需16GB以上DRAM的模型现可在12GB环境下流畅运行,提升了大型模型在终端部署的可行性。同时,联发科公布了包含天玑AI智能体化引擎2.0在内的全栈技术,旨在推动从手机到汽车等终端实现原生智能体化。
据报道,鸿海集团已提前向英伟达出货全光CPO交换机柜,供应紧张到连展示机柜都已全部交付。公司同时大幅上调出货量预期,预计2026至2027年合计出货将超过5万台。作为下一代数据中心设备,CPO交换机的毛利率达两位数,远高于传统服务器代工业务。鸿海是英伟达该产品的独家设计制造伙伴,此业务预计在2026年为旗下工业富联贡献超15%营收,成为AI服务器之外的重要增长点。
该工具展示了一项实验:将应用加载于受内容安全策略(CSP)保护的沙盒iframe中,并通过自定义的fetch()函数拦截CSP错误,将其传递至父窗口。父窗口随后可提示用户将受阻域名(如https://api.inaturalist.org)添加至允许列表,刷新页面后即可生效。工具界面包含源代码、预览面板及允许列表管理区,用户可手动添加如https://api.github.com等受信来源。此项目由作者在Codex桌面应用中借助GPT-5.5 xhigh协助构建完成。
自己的博客,想了大半年,终于上线了。 说来惭愧,"搭一个自己的写作阵地" 这件事在我 TODO 里躺了很久。 选框架、挑主题、搞部署、接公众号...... 每次一想就觉得工程量太大,然后就搁置了。 直到看到 @vista8 乔木老师开源了他...