AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1386 条
全部一手资讯X论文
标签「部署/工程」清除
6月18日周四
09:14IT之家(RSS)66WWDC26 苹果 AI 特别讲座:4台 Mac Studio 本地运行 Kimi K2.6 模型
06:55Claude Code:GitHub Releases(RSS)57精选Claude Code v2.1.181 发布
06:14Cloudflare Blog64精选Cloudflare 将更多智能体框架引入平台,以 Flue 为首
04:44Claude:Blog(网页)65精选借助 Workload Identity Federation 安全访问 Claude Platform
04:42Hacker News 热门(buzzing.cc 中文翻译)49Browser Use Cloud 基于 Firecracker 重构:嵌套虚拟化下 1 秒启动浏览器
01:53LMSYS:Blog(Chatbot Arena 团队)69精选用SGLang-JAX在TPU上优化Ling-2.6-1T:一个Pallas核将MoE数据移动隐藏在计算中
01:36MarkTechPost(RSS)77精选Vercel 发布开源 AI 智能体框架 Eve:每个智能体就是一个文件目录
00:32Hacker News 热门(buzzing.cc 中文翻译)62人工智能需要更多的工程纪律,而不是更少。
6月17日周三
23:28Anthropic:Newsroom(网页)50Anthropic 在首尔开设办公室并宣布多项韩国AI生态合作
22:08Cloudflare Blog61精选Cloudflare 发布 Cloudflare One stack:智能体驱动的部署工具集
21:07IT之家(RSS)51字节跳动洽谈采购天数智芯5万颗芯片,国产算力布局再加码
20:59TechCrunch:AI(RSS)61加拿大养老基金CPP Investments向印度数据中心CtrlS投资最高7.41亿美元
20:30公众号:百度智能云(文心)45中国银联与百度智能云展示金融AI全栈方案,发布智能体白皮书
19:12The Decoder:AI News(RSS)54超大规模云服务商可能很快无法仅靠现金流资助AI建设
19:12Artificial Intelligence News(RSS)55Google Cloud 生成式 AI 自动化市政规划事务
18:39Hugging Face:Blog(RSS)66精选Strands Robots SDK:用单一智能体打通 Hugging Face Hub 到物理机器人
18:07IT之家(RSS)56摩根大通上调预测:2030年全球AI基建支出超5万亿美元
17:07IT之家(RSS)37摩尔线程完成智谱GLM-5.2 Day-0极速适配
16:07IT之家(RSS)48算苗科技 3D TokenPU 芯片正式流片:3D 混合堆叠架构,全流程国产化
16:07IT之家(RSS)46法国 Bull 将与鸿海合作在欧生产 NVIDIA Vera Rubin NVL72 机架
16:05MarkTechPost(RSS)70同事件精选MiniMax 发布 MSA 稀疏注意力方法,开源推理内核并推出 MiniMax-M3 模型同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
12:26Hacker News 热门(buzzing.cc 中文翻译)64让 ast.walk 的运行速度提升 220 倍
12:05IT之家(RSS)35三星宣布2030年目标:通过DSEP实现无人晶圆厂
10:33HuggingFace Daily Papers(社区热门论文)54可变宽度Transformer
10:03IT之家(RSS)49诺基亚将大幅扩建美国宾州先进测试与封装工厂,助力AI产业发展
08:27MarkTechPost(RSS)68用xFormers构建内存高效Transformer:Packed Sequences、GQA、ALiBi、SwiGLU与因果注意力教程
08:00HuggingFace Daily Papers(社区热门论文)48TurboServe:高效经济地服务流式视频生成
08:00HuggingFace Daily Papers(社区热门论文)50FAPO:多步LLM管道的全自主提示优化框架
07:02IT之家(RSS)54英伟达携手 Coherent 扩产 AI 光互联,黄仁勋称 AI 是终极通用技术
05:58Google DeepMind:Blog(RSS)34Google DeepMind 基于 Gemini 与英国政府合作开发 AI 规划原型,目标将家庭申请处理时间减半
04:53Claude Code:GitHub Releases(RSS)48Claude Code v2.1.179 发布
03:35The Decoder:AI News(RSS)50微软 Copilot Cowork 转向按用量计费,考虑采用 DeepSeek V4
02:53Hacker News 热门(buzzing.cc 中文翻译)80同事件精选Meta 解散工程部门引发热议同一事件,精选展示《Meta万人重组:裁员与AI转型并举》
02:33Ars Technica:AI(RSS)48五角大楼通过GenAI.mil平台用Gemini代写国会报告
02:03OpenRouter:Announcements(RSS)62精选OpenRouter Presets:当模型下线时保持 AI 智能体运行
00:04Google Developers Blog(RSS)46TPU Developer Hub 正式发布:助力开发者解锁 Google Cloud TPU 全部性能
00:01IT之家(RSS)54开发者绕过苹果软件限制,成功解锁 M4 芯片 15.8TFLOPS 的 AI 算力
6月16日周二
23:01IT之家(RSS)41商汤与香港科技园合作,共建全港最大国产智算中心(目标40000P+算力)
18:30公众号:百度智能云(文心)43百度智能云成立能源行业生态联盟,发布全栈AI能力
17:00IT之家(RSS)51华为云、蚂蚁数科在列,中国信通院联合10家企业启动"Token服务能力攀登计划"
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月18日
09:14
IT之家(RSS)
66
WWDC26 苹果 AI 特别讲座:4台 Mac Studio 本地运行 Kimi K2.6 模型

苹果在 WWDC26 特别讲座中演示通过 4 台 Mac Studio 本地运行 1 万亿参数的 Kimi K2.6 模型,使用 LM Studio 和低延迟 RDMA over Thunderbolt 技术。该模型由月之暗面于 2026 年 4 月 20 日发布,升级了代码编写、长程任务执行和 Agent 集群能力。讲座还展示了工程师用单条提示词生成的 WWDC badge tracker 应用,具备 3D 动画、全息视觉效果和 Visual Intelligence 功能。

端侧行业动态部署/工程
06:55
Claude Code:GitHub Releases(RSS)
精选57
Claude Code v2.1.181 发布

Claude Code v2.1.181 发布,新增 /config key=value 语法允许在提示中直接设置任意配置项,新增 sandbox.allowAppleEvents 选项使沙盒命令支持 Apple Events,新增 CLAUDE_CLIENT_PRESENCE_FILE 环境变量用于抑制移动端推送通知。内置 Bun 运行时升级至 1.4,改进了长段落流式输出(逐行显示)和 API 连接中断后自动重试。子 agent 面板优化:空闲 agent 30 秒自动隐藏、列表最多 5 行。修复了提示缓存读取、Write/Edit 在网络驱动器产生 0 字节文件、启动性能回归(约 120ms)、启动阻塞(最长 15 秒)、macOS TUI 冻结、子 agent 时长显示错误、API 重试指示器残留、AWS 凭证刷新等问题。

智能体Anthropic产品更新部署/工程

推荐理由:一次工程师式的磨刀更新,修复了网络驱动器写入、macOS TUI 冻结等一批痛感明显的 bug,新增的 /config 快捷语法也顺手,但对非 Claude Code 用户来说就是一串技术细节。
06:14
Cloudflare Blog
精选64
Cloudflare 将更多智能体框架引入平台,以 Flue 为首

Cloudflare Agents SDK 现已成为任何智能体框架均可构建的运行时。Cloudflare 开放了 Agents SDK 原语,Flue 成为首个针对该 SDK 的框架,同时仪表盘中已推出智能体功能。

智能体产品更新部署/工程

推荐理由:Cloudflare 将 Agents SDK 开放为中性运行时,Flue 首个接入,本质还是为 Workers 拉流量,非 Cloudflare 用户不必费心。
04:44
Claude:Blog(网页)
精选65
借助 Workload Identity Federation 安全访问 Claude Platform

Workload Identity Federation (WIF) 已在 Claude Platform 上全面可用。WIF 兼容任何 OIDC 身份提供者,覆盖所有 Claude API 端点(包括第一方 SDK 和 Claude Code)。WIF 用短生命期凭证替代静态 API 密钥,并引入服务账户,每个工作负载拥有独立身份、角色和审计日志。Claude Console 提供引导设置流程,支持 Admin API 进行组织管理。API 密钥可并行使用以便逐步迁移。

Anthropic产品更新部署/工程

推荐理由:这个功能真正解决了企业在生产环境中用 Claude 的最大痛点,现在团队可以完全抛掉静态密钥,用现成的身份体系接入,安全审计也变得顺手。
04:42
Hacker News 热门(buzzing.cc 中文翻译)
49
Browser Use Cloud 基于 Firecracker 重构:嵌套虚拟化下 1 秒启动浏览器

Browser Use Cloud 重建基础设施,让每个浏览器会话在独立的 Firecracker VM 中运行,新会话启动时间不到 1 秒,成本从每浏览器小时 0.06 美元降至 0.02 美元。他们放弃了 Unikraft unikernel 方案,因其自动扩缩容能力不足,曾导致压测使生产环境宕机 45 分钟。新方案选择在普通 EC2 上运行嵌套虚拟化,以换取更快扩缩速度和更低成本,并构建了控制平面实时监控自动扩缩容。启动过程包含恢复 VM 快照、启动 Chromium 并通过 CDP 返回连接 URL,首个瓶颈是嵌套虚拟化下的内存页面错误。

教程/实践部署/工程
01:53
LMSYS:Blog(Chatbot Arena 团队)
精选69
用SGLang-JAX在TPU上优化Ling-2.6-1T:一个Pallas核将MoE数据移动隐藏在计算中

SGLang-JAX现已支持inclusionAI的Ling-2.6-1T(1T稀疏MoE,63B激活参数,256路由专家,top-8路由加共享专家)在TPU v7x上高效推理。团队开发了Fused MoE V2——一个融合scatter、专家FFN和gather的Pallas核,通过将MoE数据移动隐藏在计算中,使MoE预填充延迟从5.16ms降至2.42ms(降幅53%),解码核延迟从0.249ms降至0.211ms(降幅约15%)。仅替换MoE核即提升预填充吞吐量24.8%,解码吞吐量18.5%–35.3%。在SGLang解码基准测试中,16块TPU v7x芯片输出吞吐量达16块H200 GPU的1.29倍(mc=128)至1.77倍(mc=512)。完整上线还包含混合KV/循环内存池、GLA线性注意力和单控制器数据并行支持。

推理论文/研究部署/工程

推荐理由:这是针对TPU上MoE推理的硬核优化复盘,用成本模型定位瓶颈,通过单内核融合把延迟砍半,对做大规模推理工程的团队是高质量参考。
01:36
MarkTechPost(RSS)
精选77
Vercel 发布开源 AI 智能体框架 Eve:每个智能体就是一个文件目录

Vercel 发布开源 AI 智能体框架 Eve(npm 包,Apache-2.0 许可)。Eve 采用文件系统优先设计:每个智能体对应一个磁盘目录,目录结构直接映射模型、指令、工具、技能、连接、子智能体等能力,无需额外注册代码。内置六大生产级能力:持久执行(每步检查点,崩溃后可恢复)、沙箱计算、人机审批、安全连接(支持 MCP 和 OpenAPI)、多通道(Slack、Discord、Teams 等)以及追踪与评估(OpenTelemetry)。Vercel 内部运行了上百个智能体,包括数据分析工具 d0(月处理超3万查询)、自动销售代理 Lead Agent(年费约5000美元、回报32倍)和支持智能体 Vertex(自主解决92%工单)。

智能体产品更新部署/工程
关联讨论 1 条X:邵猛 (@shao__meng)
推荐理由:Vercel 把自己跑了 100 多个 agent 的框架开源了,用目录即契约的方式把耐久执行、沙箱、审批等全打包,对想在生产环境跑 agent 的团队是今年最务实的发布之一。
00:32
Hacker News 热门(buzzing.cc 中文翻译)
62
人工智能需要更多的工程纪律,而不是更少。

Opus 4.5 发布后,AI 能生成与中位数软件工程师同等质量的代码,且更快更便宜。2025 年,智能体框架、工具调用和 MCP 协议等迭代让代码生产从昂贵耗时变为免费即时,代码变得可丢弃和可重新生成。软件团队真正产品是共享理解,而非代码本身。作者认为,面对 AI 带来的变革,需要更多而非更少的工程纪律,以维持对系统的可控和共识。

大佬观点编码部署/工程
6月17日
23:28
Anthropic:Newsroom(网页)
50
Anthropic 在首尔开设办公室并宣布多项韩国AI生态合作

Anthropic 正式启用首尔办公室,并宣布与韩国AI生态的多项合作。NAVER 在全公司部署 Claude Code,数千工程师用于提升编码效率;Nexon 工程团队用 Claude Code 编写游戏代码。LG CNS 将 Claude 推广至数千员工并计划覆盖整个 LG 集团;Hanwha Solutions 通过 AWS Bedrock 部署 Claude 满足数据驻留与安全要求;Samsung SDS 向三星电子员工部署 Claude(包括 Claude Cowork 和 Claude Code)。初创公司 Channel Corp 用 Claude 驱动客户AI平台 Channel Talk。Anthropic 与韩国国家AI研究实验室合作,向至多60名研究员提供 Claude 用于AI安全等研究。非营利组织 Good Neighbors Korea 部署 Claude 减轻行政工作。Claude for Startups 已在韩国上线,并计划与 Replit 等合办黑客马拉松。

Anthropic行业动态部署/工程
22:08
Cloudflare Blog
精选61
Cloudflare 发布 Cloudflare One stack:智能体驱动的部署工具集

6月17日,Cloudflare 推出 Cloudflare One stack,一组可直接赋予 AI 智能体的技能文件,用于自动配置、部署和管理 Zero Trust 环境。工具集包含两个轻量级 skill:cloudflare-one 负责通用产品指导(VPN 替换、网络连接、安全策略等),cloudflare-one-migration 提供从 Zscaler、Palo Alto Networks 等厂商迁移的明确引导。技能内置决策树与结构化知识,智能体可自动执行云环境评估、网络拓扑生成及 Digital Experience Monitoring 排障。该 stack 基于 Cloudflare 员工数万小时客户经验提炼,降低学习与迁移门槛。

智能体产品更新部署/工程

推荐理由:Cloudflare把多年零信任迁移经验打包成agent技能,让AI直接帮你部署和管理安全堆栈,对正忙着切到Zero Trust的团队是个即插即用的省力工具,但仍是垂直领域的效率提升,不算广谱AI大事。
21:07
IT之家(RSS)
51
字节跳动洽谈采购天数智芯5万颗芯片,国产算力布局再加码

字节跳动正与天数智芯洽谈采购智铠系列云端推理GPU及天垓系列训练芯片,今年至少交付5万颗,用于支持豆包等产品推理。字节将训练与推理拆分:华为昇腾、寒武纪主攻训练,天数智芯侧重线上推理。同时考虑引入百度昆仑芯。行业预测2026年字节全球算力采购投入约1500亿元,国产占400亿元以上。推理能耗占AI总能耗60%-90%,中国推理需求已达训练8倍。百度、阿里、腾讯等也在布局算力基建。

行业动态部署/工程
20:59
TechCrunch:AI(RSS)
61
加拿大养老基金CPP Investments向印度数据中心CtrlS投资最高7.41亿美元

加拿大养老基金CPP Investments承诺向印度数据中心运营商CtrlS投资最高700亿卢比(约7.41亿美元),其中400亿卢比(约4.23亿美元)收购8.2%股权,最高300亿卢比(约3.17亿美元)投入合资企业,在印度开发超大规模数据中心园区。合资企业由CPP持股48%,CtrlS持股52%。CtrlS成立于2007年,在印度运营超15个数据中心。印度正成为AI数据中心投资热土,亚马逊、谷歌、微软等近期已宣布在印投资。CPP自2009年起投资印度,截至3月31日在印净资产约200亿美元。

行业动态部署/工程
20:30
公众号:百度智能云(文心)
45
中国银联与百度智能云展示金融AI全栈方案,发布智能体白皮书

6月16日,2026中国金融展上,百度智能云与中国银联展示金融行业AI应用解决方案。AI Infra方面,银联云提供搭载昆仑芯的国产算力环境,已累计支持30余家机构进行DeepSeek、MiniMax、GLM等模型测试。Agent Infra方面,百度千帆大模型平台为银联云用户提供模型开发、部署、推理服务及国产异构算力纳管、金融级数据安全与多租户隔离方案。百度智能云已服务超800家金融机构,覆盖100%系统重要性银行。双方将聚焦AI基础设施共建与金融智能体联合研发,推动支付、清算、风控等核心场景智能化。同期发布《金融行业场景智能体白皮书》,提出“知识-流程”双维分类框架及落地优先级建议。

智能体行业动态部署/工程
19:12
The Decoder:AI News(RSS)
54
超大规模云服务商可能很快无法仅靠现金流资助AI建设

Epoch AI基于SEC文件分析显示,微软、亚马逊、Alphabet、Meta、Oracle五大超大规模云服务商的AI基础设施支出年增长约70%,经营现金流仅增长约23%。若趋势持续,支出将在2026年第三季度超过现金流。目前Alphabet已通过股权融资850亿美元,亚马逊和英伟达发行债券补充资金。除Oracle外其余公司仍盈利且持有大量现金,但自由现金流可能归零或转负。Epoch AI指出这仅为简单外推,未计入AI投资能否产生足够收入来弥补缺口这一关键因素。

现象/趋势部署/工程
19:12
Artificial Intelligence News(RSS)
55
Google Cloud 生成式 AI 自动化市政规划事务

英国住房社区和地方政府部与科学创新技术部部署了两款基于 Gemini 基础模型的生成式 AI 工具。Extract 应用将历史 PDF 中的非结构化数据转为结构化数据集,每年为每个议会节省约 255 小时人工录入。APD 原型自动完成文档整合、法规检查、公众总结和评估报告起草四项任务,但保留人类官员最终决策权。目标将规划申请决策时间缩短 50%。Extract 已扩展至英格兰所有议会,APD alpha 版在三个地方机构测试,计划 2027 年部署至 300 多个英格兰地方当局。

Google行业动态部署/工程
18:39
Hugging Face:Blog(RSS)
精选66
Strands Robots SDK:用单一智能体打通 Hugging Face Hub 到物理机器人

AWS(Apache 2.0)开源的 Strands Robots SDK 将 LeRobot 栈封装为 AgentTools,构建统一智能体。默认用 MuJoCo 模拟(无需硬件),mode="real" 切换至真实机器人。可记录演示数据为 LeRobotDataset 并推送 Hugging Face Hub,运行 GR00T 或 LerobotLocal 策略推理,经 Zenoh mesh 广播命令到多台机器人。模拟与硬件代码完全一致,只需改一个关键字参数。示例可在笔记本(Python 3.12+,Linux/macOS)无硬件、无 GPU 运行。

Hugging Face产品更新具身智能开源生态

推荐理由:AWS 的 Strands Robots 把 LeRobot 仿真和硬件部署装进同一个 Agent 里,代码几乎不变就能从模拟切到物理机器人,对具身智能开发者是省掉胶水代码的实用工具。
18:07
IT之家(RSS)
56
摩根大通上调预测:2030年全球AI基建支出超5万亿美元

摩根大通上调全球AI资本支出预测,预计2030年AI与数据中心支出超5万亿美元。大型云计算企业去年(2025年)开支达3420亿美元,同比增62%。摩根大通预计2026-2030年全球新增122GW数据中心用电量;截至2025年中,全球数据中心建设投资年化400亿美元,同比增30%。未来五年AI数据中心相关杠杆融资将达1500亿美元,投资级债券达1.5万亿美元。

行业动态部署/工程
17:07
IT之家(RSS)
37
摩尔线程完成智谱GLM-5.2 Day-0极速适配

智谱上线并开源GLM-5.2,在Code Arena前端开发盲测中获全球可用模型第一。摩尔线程在MTT S5000上完成Day-0极速适配,基于SGLang-MUSA推理引擎与TileLang-MUSA算子编程语言实现模型适配与优化。MTT S5000凭借硬件级原生FP8加速(单卡稠密算力1000 TFLOPS)、80GB显存与1.6TB/s带宽,支持Solid 1M超长上下文,降低首Token等待时间,提升AI Coding、RAG和长文档分析等场景的在线推理效率。

行业动态部署/工程
16:07
IT之家(RSS)
48
算苗科技 3D TokenPU 芯片正式流片:3D 混合堆叠架构,全流程国产化

算苗科技于6月15日宣布旗下全国产自研3D TokenPU芯片正式流片。该芯片采用3D混合堆叠架构,通过多层晶圆垂直堆叠缩短存储与计算单元的数据传输路径,搭载16TB/s带宽,面向大模型线上推理场景优化。芯片从架构设计到流片制造均依托国内产业链完成,适配通用大模型、多模态生成、实时对话等高负载推理任务,补强了国内高端AI算力硬件的自主供给能力。

产品更新推理部署/工程
16:07
IT之家(RSS)
46
法国 Bull 将与鸿海合作在欧生产 NVIDIA Vera Rubin NVL72 机架

法国超算企业 Bull 宣布与鸿海合作,在欧洲制造 NVIDIA Vera Rubin NVL72 机架系统。制造与初步测试在鸿海捷克 Pardubice 工厂进行,随后在 Bull 法国 Angers 工厂完成组装与系统级验证。此举旨在为欧洲 AI 工厂和云服务商提供本地化制造能力,提升欧洲主权 AI 产业链韧性。Bull 首席执行官表示,该合作标志着欧洲 AI 基础设施制造能力的转折点。

行业动态部署/工程
16:05
MarkTechPost(RSS)
同事件精选70
MiniMax 发布 MSA 稀疏注意力方法,开源推理内核并推出 MiniMax-M3 模型

MiniMax 发布 MSA(MiniMax Sparse Attention),一种构建在 Grouped Query Attention 上的稀疏注意力方法。它将注意力分解为索引分支与主分支:索引分支以块粒度(默认 128 token)为每个 GQA 组选择 16 个 token 块(固定预算 2048 个键值 token),主分支仅在这些块上执行精确 softmax 注意力。MSA 在 109B 参数 MoE 模型上训练,开源了面向 NVIDIA SM100 GPU 的推理内核 fmha_sm100(MIT 许可,支持 BF16/FP8/NVFP4/FP4),并发布生产模型 MiniMax-M3。MSA-PT 在 MMLU、GSM8K、HumanEval、RULER-8K、RULER-32K 上分别达 67.2、77.7、64.0、84.2、77.5,与全注意力基线持平。128K 上下文下,其 exp-free Top-k 选择比 torch.topk 快 5.1 倍。

开源生态推理模型发布部署/工程
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
推荐理由:MiniMax 把长上下文注意力从 O(N) 压到固定每查询 2048 token,还同时开源高效内核与生产模型,对做长上下文 agent 的团队是即时可用的方法,遗憾是只限 SM100 GPU。
12:26
Hacker News 热门(buzzing.cc 中文翻译)
64
让 ast.walk 的运行速度提升 220 倍

作者为优化 AI 生成 Python 代码的 lint 效率,发现 ast.walk 遍历 AST 是性能瓶颈。通过逐步去除生成器 yield、内联 iter_child_nodes 和 iter_fields、用 getattr(node, field, None) 替代异常处理,实现了约 2 倍提速。随后用 Rust 通过 PyO3 重写遍历逻辑,并直接读取 __dict__ 及预缓存 AST 子类类型信息,最终将 ast.walk 速度提升约 220 倍。

GitHub教程/实践编码部署/工程
12:05
IT之家(RSS)
35
三星宣布2030年目标:通过DSEP实现无人晶圆厂

三星宣布通过数据共享生态平台(DSEP),目标到2030年实现无人晶圆厂。DSEP向设备供应商共享晶圆厂实时工艺数据,并汇集数据输入AI模型进行分析与决策,支持远程诊断设备故障、优化良率。首批设备供应商已签约,同步建设高性能计算平台提供算力。该计划导火索是近期劳资博弈:今年5月工会达成史上最昂贵奖金协议,规定特定利润条件时工人可获运营利润10.5%的特别绩效奖金。

行业动态部署/工程
10:33
HuggingFace Daily Papers(社区热门论文)
54
可变宽度Transformer

提出一种“times-shaped”瓶颈结构的Variable-Width Transformers,在语言模型深度方向非均匀分配容量。该架构在语言建模损失上优于参数匹配的均匀基线,平均层宽降低使总FLOPs减少22%,KV缓存内存和I/O成本减少15%。残差流中的表示分析显示瓶颈结构导致定性不同的表征。实验表明非均匀宽度分配可实现更资源最优的语言模型扩展。

数据/训练论文/研究部署/工程
10:03
IT之家(RSS)
49
诺基亚将大幅扩建美国宾州先进测试与封装工厂,助力AI产业发展

诺基亚于6月17日宣布,将扩建其位于美国宾夕法尼亚州利哈伊县的芯片先进封测工厂。公司投入3000万美元,加上宾州政府400万美元和联邦政府1000万美元税收抵免,预计创造250个就业岗位,五年内产生约5亿美元经济产值。扩建项目将使光子半导体产能最高扩大至现有规模的十倍,并新增办公区、实验室及仓储空间,工厂员工总数将达500人。该工厂研发的技术用于优化数据中心等场景的AI运行效率,并支撑全美可规模化AI基础设施的互联互通。

行业动态部署/工程
08:27
MarkTechPost(RSS)
68
用xFormers构建内存高效Transformer:Packed Sequences、GQA、ALiBi、SwiGLU与因果注意力教程

教程演示如何使用xFormers工具包在GPU上实现内存高效的Transformer。先验证memory-efficient attention与标准注意力结果一致性,对比不同序列长度下的速度和内存消耗;然后实现因果掩码、packed variable-length sequences、grouped-query attention(GQA)和自定义ALiBi位置偏置。最后组合成可训练的GPT风格模型,集成xFormers注意力、SwiGLU前馈层和自动混合精度训练。

教程/实践部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
48
TurboServe:高效经济地服务流式视频生成

流式视频生成需在用户会话中逐块渐进生成视频,面临会话持续时间异质性和用户需求时间异质性两大挑战。TurboServe是首个专为此设计的服务系统,将服务形式化为在线调度问题,联合协调会话放置与GPU资源调配。其闭环调度算法包含迁移感知放置控制器(跨GPU重平衡会话以降低每块最大延迟)和负载驱动自动缩放控制器(根据工作负载调整GPU预算)。运行时通过合并块处理、GPU-CPU卸载和NCCL迁移实现决策。在生数科技生产轨迹上,最多64块NVIDIA B300 GPU的评估显示,相比基线,最坏情况每块延迟降低37.5%,总GPU运营成本平均降低37.2%。

视频论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
50
FAPO:多步LLM管道的全自主提示优化框架

FAPO是一个让Claude Code在标准化代码库内自动优化多步LLM管道的框架。它评估管道、检查中间步骤、诊断失败、提出范围性更改并反复验证,优先尝试提示编辑,仅当提示优化不足且归因识别出结构瓶颈时才调整链结构。在6个基准和3个任务模型上,FAPO在18个模型-基准比较中15次击败基线GEPA,平均增益+14.1pp;其中11次比较中均值±标准差范围不重叠。在HoVer和IFBench上,提示优先搜索升级为结构变化的6次比较中FAPO全胜,平均增益+33.8pp。安全任务上,仅提示版FAPO在CTIBench-RCM上将GPT-5测试准确率提升+4.0pp,Foundation-Sec-8B-Instruct提升+7.1pp,Foundation-Sec-8B-Reasoning提升+2.0pp。

检索增强推理论文/研究部署/工程
07:02
IT之家(RSS)
54
英伟达携手 Coherent 扩产 AI 光互联,黄仁勋称 AI 是终极通用技术

英伟达昨日宣布,其战略投资的高意(Coherent)在美国得州 Sherman 扩建工厂奠基,聚焦 6 英寸磷化铟晶圆与光互连产能,用于支撑 AI 数据在机架间以光速传输。黄仁勋表示人工智能是终极通用技术,并指出 NVIDIA Vera Rubin Ultra NVL576 场景中 576 个 GPU 跨 8 个机架协作必须依赖硅光技术。Coherent 获 5000 万美元 CHIPS Act 拨款及约 1700 万美元地方支持。工厂满产后预计直接带来 550 多个岗位。

行业动态部署/工程
05:58
Google DeepMind:Blog(RSS)
34
Google DeepMind 基于 Gemini 与英国政府合作开发 AI 规划原型,目标将家庭申请处理时间减半

Google DeepMind 与英国政府合作,基于 Gemini 构建 AI 规划原型,旨在将家庭规划申请处理时间减半。该工具可整合数据、识别本地政策、总结公众反馈并起草评估报告,但规划官员保留最终决策权。原型已在 Barnet、Camden 和 Dorset 试点,计划 2027 年向全英议会开放。此前推出的 Extract 工具(同样基于 Gemini)已向英格兰所有议会开放,能将非结构化 PDF 转为可用数据,预计为每个议会每年节省约 255 小时人工。家庭规划申请占每年规划申请的近 70%,AI 工具旨在让官员聚焦更复杂的公共利益申请。

DeepMindGoogle产品更新部署/工程
04:53
Claude Code:GitHub Releases(RSS)
48
Claude Code v2.1.179 发布

本次次要版本修复了多项问题:流式连接中断后保留部分响应并修复 spinner 卡死;修复 WSL2(Windows Terminal / VS Code)中鼠标滚轮失效(v2.1.172 引入的回归);修复 Linux 上 sandbox denyRead/allowRead glob 覆盖大目录树导致 Bash 工具描述膨胀、会话不可用;修复反馈调查在单次回复后立即捕获评分;修复欢迎界面每会话最多显示一个促销横幅;修复查看子 agent 时 Ctrl+O 不显示其对话记录;修复点击输入框无法从子 agent/底栏面板恢复焦点;修复远程会话后台任务轮次间显示“正在运行”但实际卡住;改进了远程会话中插件加载性能。

Anthropic产品更新编码部署/工程
03:35
The Decoder:AI News(RSS)
50
微软 Copilot Cowork 转向按用量计费,考虑采用 DeepSeek V4

微软正考虑采用自托管微调版 DeepSeek V4 作为 Copilot Cowork 的更廉价模型选项,同时将 Cowork 改为按使用量计费。Cowork 基于 Anthropic 的 Claude 技术。Copilot EVP Charles Lamanna 表示固定费率因高频用户推高成本而不可持续。微软已在 GitHub Copilot 上实施类似调整。DeepSeek 将作为可选模型,完全托管于 Azure 并配备偏见防护,客户数据不出微软云。最终决定预计数周内做出。CEO Satya Nadella 此前发文支持企业可挑选并微调的多模型生态。

DeepSeekMicrosoft产品更新部署/工程
02:53
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选80
Meta 解散工程部门引发热议

6月16日,一篇标题为“Why is Meta destroying its engineering organization?”的博客文章出现在 Hacker News,获得110个点赞。文章指出 Meta 正在解散其工程组织,引发业界广泛讨论。具体原因和后续影响尚未明确。

Meta安全/对齐现象/趋势编码
同一事件,精选展示《Meta万人重组:裁员与AI转型并举》
推荐理由:Meta 这波操作是 AI 狂热下自毁工程文化的教科书级案例,从强制数据标注到指标驱动的 token 最大化,最终导致 Instagram 的安全灾难,虽然后来撤销部分裁员,但信任已崩。
02:33
Ars Technica:AI(RSS)
48
五角大楼通过GenAI.mil平台用Gemini代写国会报告

美国国防部通过自建GenAI.mil平台向全军提供Google Cloud的Gemini for Government等生成式AI工具,用于撰写国会要求的年度报告。首席技术官Emil Michael称原本需200小时的工作可压缩至5小时。副助理部长Jacob Glassman也透露团队使用后称“这是五年来最好的报告”。平台用户数从2025年12月的8万激增至2026年6月的150万。但AI报告存在错误风险——KPMG曾因AI生成错误案例而撤回报告,而五角大楼的审查流程尚不透明。

Google政策/监管行业动态部署/工程
02:03
OpenRouter:Announcements(RSS)
精选62
OpenRouter Presets:当模型下线时保持 AI 智能体运行

Anthropic 在 Claude Fable 5 发布仅数天后便对其进行了限制。如果代码硬编码模型 slug,该限制也会导致服务中断。OpenRouter 的 Presets 功能将模型选择移至服务器端,使用户无需重新部署即可切换模型、设置回退策略并强制执行数据策略。

智能体教程/实践部署/工程

推荐理由:给 Agent 开发者的实用提醒,硬编码模型名会在供应商限制时塌方,用 Presets 换模型、设降级方案比现改代码省心。
00:04
Google Developers Blog(RSS)
46
TPU Developer Hub 正式发布:助力开发者解锁 Google Cloud TPU 全部性能

谷歌今日推出 TPU Developer Hub,面向模型构建者与开发者提供端到端教育资源。内容覆盖预训练、后训练及推理工作负载,涵盖硬件架构、软件栈(XLA、PyTorch 零成本迁移)、追踪调试(XProf 工具)、并行优化(Pallas 内核、KV cache 卸载)及网络安全实践。资源形式包括交互式 Colab、开源代码配方与深度技术文档,支持 AI 智能体辅助集成,帮助用户充分发挥 Cloud TPU 性能。

Google产品更新部署/工程
00:01
IT之家(RSS)
54
开发者绕过苹果软件限制,成功解锁 M4 芯片 15.8TFLOPS 的 AI 算力

苹果 M4 神经网络引擎原仅开放推理,X 用户 @0x0SojalSec 通过逆向工程,从零开发自定义 MIL 直接与芯片通信,绕开了软件限制。训练全程将数据放在 RAM 中运行,不写入 NAND 闪存以维持高速。解锁后 M4 可达 15.8TFLOPS AI 性能,足以承担模型训练。目前不确定该 MIL 能否用于更新的 Apple Silicon,exec() 命令在新平台上的兼容性也未知。

开源/仓库端侧部署/工程
6月16日
23:01
IT之家(RSS)
41
商汤与香港科技园合作,共建全港最大国产智算中心(目标40000P+算力)

商汤科技与香港科技园签署合作备忘录,共同推进国产 AI 算力基础设施建设(AIDC),目标于 2030 年前形成 40000P+(PetaFLOPS)算力规模,打造全港最大国产智算中心。项目分阶段推进,首阶段预计今年年内完成。该中心配备多元国产算力 GPU 集群,为模型训练、推理及大规模应用部署提供算力支持,助力香港在金融、教育、医疗、城市治理、智能办公、内容生成等场景形成 AI 应用样板。

行业动态部署/工程
18:30
公众号:百度智能云(文心)
43
百度智能云成立能源行业生态联盟,发布全栈AI能力

2026年6月9日,百度智能云与产业联盟在广州举办能源合作伙伴交流会,成立“百度智能云能源行业生态联盟”,首批21家成员覆盖算力基础设施、软件平台、解决方案及服务交付等领域。百度智能云依托文心大模型、飞桨深度学习平台、昆仑芯及百舸异构算力平台,形成全栈AI能力,并在电力巡检、风电场管理、电力交易等场景落地。黄埔区“黄埔1号”智算集群算力超12000P,推出算力券、模型券、场景券等扶持政策。国家人工智能应用中试基地已梳理出设备智能巡检、电力市场交易等数十个共性场景。

行业动态部署/工程
17:00
IT之家(RSS)
51
华为云、蚂蚁数科在列,中国信通院联合10家企业启动"Token服务能力攀登计划"

6月16日,中国信通院联合华为云、蚂蚁数科等10家企业共同启动“Token服务能力攀登计划”并发布首批攀登结果。首批企业均达到企业级通用场景Token服务性能基线:每秒输出Token数≥55 Token/s,首Token时延≤0.9s,调用成功率99.9%。截至2026年3月,我国日均词元调用量已攀升至140万亿次以上,较2024年初的1000亿次实现千倍跃升,较2025年底的100万亿次三个月内增幅超四成。

行业动态部署/工程
‹ 上一页
1…56789…35
下一页 ›