AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1386 条
全部一手资讯X论文
标签「部署/工程」清除
6月13日周六
10:10OpenRouter:Announcements(RSS)59OpenRouter 可靠性与自动故障转移:请求如何持续成功
10:10OpenRouter:Announcements(RSS)66精选OpenRouter 模型路由工作原理
10:10OpenRouter:Announcements(RSS)74精选Hermes Agent 在 OpenRouter 上的使用指南:设置、模型与路由
09:36IT之家(RSS)46华为云与 MiniMax 最新模型 M3 实现开源首发适配,提供 Tokens 算力支持
06:26Claude Code:GitHub Releases(RSS)42Claude Code v2.1.176 发布
05:40OpenRouter:Announcements(RSS)64精选如何在OpenRouter上获得最低成本的LLM推理
03:01HuggingFace Daily Papers(社区热门论文)66TRACE:将用户修正编译为运行时约束以改善编码智能体
01:34Ars Technica:AI(RSS)72精选今年价值1300亿美元的数据中心项目因抗议被叫停
01:04Ars Technica:AI(RSS)54就总用水量而言,AI数据中心只是沧海一粟
6月12日周五
23:36IT之家(RSS)57高盛总裁沃尔德伦:SpaceX 创纪录 IPO 表明投资者愿为 AI、太空基建买单
23:25The Verge:AI(RSS)58SpaceX 大规模 IPO:最新消息汇总
19:36IT之家(RSS)58金山云:7月12日起,AI算力相关产品服务价格上调约15%-50%
15:35IT之家(RSS)57日产社长称新车研发周期缩短一半,将向中国学习
14:35IT之家(RSS)622999元:联想AI主机Mini开启预约,此芯P1处理器、8GB内存+256GB硬盘
12:25Claude Code:GitHub Releases(RSS)52Claude Code v2.1.175 发布:新增 enforceAvailableModels 管理设置
11:34IT之家(RSS)50亚马逊 AWS Graviton5 处理器全面可用
09:34IT之家(RSS)44SK 海力士正评估引入 Microsoft 365 Copilot 与 ChatGPT 等第三方 AI 服务,推动工作流转型
09:34IT之家(RSS)55钉钉换帅后《置身钉内》作者再发文:无效的形式化工时既消耗人力,也与技术发展的初衷相悖
09:25Claude Code:GitHub Releases(RSS)44Claude Code v2.1.174 发布
08:34IT之家(RSS)66消息称 Anthropic 寻求美国数据中心租约,希望获得谷歌母公司财务支持
08:00HuggingFace Daily Papers(社区热门论文)49Squeeze-Release:带精确结构最小化的迭代剪枝
07:34IT之家(RSS)61OpenAI 收购初创公司 Ona,强化编程助手 Codex
05:05OpenRouter:Announcements(RSS)54什么是 LLM 网关?应用与 AI 模型之间缺失的一层
03:35OpenRouter:Announcements(RSS)48什么是 LLM Gateway?你的应用与 AI 模型之间的缺失层
02:26Simon Willison 博客37asyncinject 0.7 发布
01:39OpenAI:官网动态(RSS · 排除企业/客户案例)51BBVA 将 AI 置于银行业务核心,与 OpenAI 合作
00:39OpenAI:官网动态(RSS · 排除企业/客户案例)61精选OpenAI 将收购 Ona
00:00OpenRouter:Announcements(RSS)55精选OpenRouter:企业应转向多模型路由,放弃单一LLM供应商
6月11日周四
21:59HuggingFace Daily Papers(社区热门论文)59SKIM:面向大语言模型的自适应多分辨率程序性技能压缩框架
19:17Hacker News 热门(buzzing.cc 中文翻译)63Meta效仿特斯拉做法,在帐篷内建设数据中心
18:59Hugging Face:Blog(RSS)46PyTorch 剖析系列(二):从 nn.Linear 到融合 MLP
17:31IT之家(RSS)71精选阿里云发布 Meoo CLI:本地 AI 编程项目可一键部署上线
16:50公众号:腾讯混元78精选腾讯混元 AI Infra 新开源:HPC-Ops 推理核心算子全面升级
15:30IT之家(RSS)63微软 CEO 纳德拉反思 AI 滥用:并非所有问题都需要最强模型
14:30IT之家(RSS)46郭明錤:台积电 CoPoS 先进封装预计 2028H2 量产,英伟达 Feynman AI GPU 或率先试水
08:00HuggingFace Daily Papers(社区热门论文)51分离式推理中的无政府代价
06:34OpenAI:官网动态(RSS · 排除企业/客户案例)45通过 Oracle 云承诺访问 OpenAI 模型和 Codex
06:22MarkTechPost(RSS)55Microsoft SkillOpt 编码实现:仪表化提示优化、技能演化分析与基线比较
04:30IT之家(RSS)51甲骨文 2026 财年年报归母净利润 169.84 亿美元,同比增长 36.50%
04:29OpenRouter:Announcements(RSS)64精选Gemini 2.5 Flash API - 定价、快速入门与提供商比较
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月13日
10:10
OpenRouter:Announcements(RSS)
59
OpenRouter 可靠性与自动故障转移:请求如何持续成功

OpenRouter 默认启用提供商故障转移(provider failover),模型回退(model fallbacks)则为选择加入。这两层机制分别应对不同类型的故障:提供商故障转移在 API 调用失败时自动切换至其他提供商,模型回退则在指定模型不可用时切换到备选模型。公告详细说明了各层的工作原理以及故障转移的停止条件。

教程/实践部署/工程
10:10
OpenRouter:Announcements(RSS)
精选66
OpenRouter 模型路由工作原理

OpenRouter 将每个请求路由到 60 多家提供商,用户可自定义提供商顺序、价格上限和回退链,从而灵活控制路由策略。

教程/实践部署/工程

推荐理由:如果你在用 OpenRouter,这篇把默认的逆向平方权重、:nitro/:floor 快捷方式和 model fallback 逻辑讲得很清楚,读完就能调整请求策略。
10:10
OpenRouter:Announcements(RSS)
精选74
Hermes Agent 在 OpenRouter 上的使用指南:设置、模型与路由

Hermes Agent 已通过 OpenRouter 处理超过 17 万亿 tokens。使用指南包括设置流程、选择支持 64K 上下文窗口的模型,以及调整路由策略以兼顾成本与可靠性。

智能体教程/实践部署/工程

推荐理由:OpenRouter 这篇教程把 Hermes Agent 的配置、路由和降本技巧都讲透了,刚上手的人照着走就能跑起来,而且给出了廉价辅助模型的省钱套路,实用性强。
09:36
IT之家(RSS)
46
华为云与 MiniMax 最新模型 M3 实现开源首发适配,提供 Tokens 算力支持

6 月 12 日,华为云基于昇腾算力为 MiniMax 原生多模态旗舰模型 M3 提供 Tokens 支持,并完成开源首发适配。M3 采用 MSA 架构,支持 1M 超长上下文及图片、视频输入,可操作电脑桌面。在 SWE-Bench Pro 上超 GPT-5.5 和 Gemini 3.1 Pro,接近 Opus 4.7;SVG-Bench 超 Opus 4.7;OmniDocBench 超 Gemini 3.1 Pro;Claw-Eval 获最高分。华为云完成 MSA 算子适配与 MOE 均衡优化,确保大规模推理稳定。

行业动态部署/工程
06:26
Claude Code:GitHub Releases(RSS)
42
Claude Code v2.1.176 发布

Claude Code v2.1.176 更新:会话标题现按对话语言生成;新增 footerLinksRegexes 设置支持正则匹配页脚行链接徽章;优化 Bedrock 凭证缓存。修复多项问题:环境变量不可再绕过 availableModels 限制;/fast 切换至白名单外模型时拒绝;auto 模式退化为可用 Opus 模型;修正路径 hook 条件匹配;修复 Linux 沙箱内符号链接启动问题;修复 tmux 内 SSH 剪贴板问题;修复 Remote Control 多项连接问题。

智能体Anthropic产品更新编码
05:40
OpenRouter:Announcements(RSS)
精选64
如何在OpenRouter上获得最低成本的LLM推理

在OpenRouter上追加:floor可获取最便宜提供商,通过max_price设定花费上限,并可免费使用20多个零成本模型。同时需注意避免计费陷阱。

教程/实践部署/工程

推荐理由:如果你是 OpenRouter 的开发者,这篇教程把成本控制的开关全摆出来了,从 :floor 到免费模型再到 BYOK 的成本账,看完就能立刻调配置省钱。
03:01
HuggingFace Daily Papers(社区热门论文)
66
TRACE:将用户修正编译为运行时约束以改善编码智能体

交互式LLM智能体的用户偏好修正常被遗忘,Mem0记忆仍有57.5%相关偏好检查被违反。研究提出TRACE,一种即插即用的技能层管道,从用户聊天修正中挖掘原子规则并编译为运行时检查。在ClawArena上,分布内违规从100.0%降至37.6%,分布外从100.0%降至2.0%;在MemoryArena上,分布内从100.0%降至60.5%,任务通过率匹配或超越最强记忆基线。实验代码已开源。

智能体arXivGitHub论文/研究
01:34
Ars Technica:AI(RSS)
精选72
今年价值1300亿美元的数据中心项目因抗议被叫停

截至今年,抗议活动已成功阻止价值约1300亿美元的AI数据中心项目。反对者通过组织行动阻碍了多地的开发计划,称这一胜利让参与者“尝到了政治权力的滋味”。抗议主要针对数据中心带来的能源消耗、水资源占用和环境影响,部分项目已被政府暂停或重新审查。

政策/监管部署/工程

推荐理由:抗议者让1300亿美元数据中心项目搁浅,这已从地方纠纷演变为全国性政治叙事,AI行业不能再当成个体规划争端,社会反对的剧本正在改写建站地图。
01:04
Ars Technica:AI(RSS)
54
就总用水量而言,AI数据中心只是沧海一粟

AI数据中心的全球总用水量占比较小,但即使是中等规模的数据中心,也可能对当地水资源造成过大的局部影响。

现象/趋势部署/工程
6月12日
23:36
IT之家(RSS)
57
高盛总裁沃尔德伦:SpaceX 创纪录 IPO 表明投资者愿为 AI、太空基建买单

SpaceX上市首日高开29%,募资750亿美元创全球最大IPO纪录,跻身全球第6大上市公司,马斯克成首位万亿富豪。高盛总裁沃尔德伦称,这表明投资者愿为AI和太空基建买单,预示IPO浪潮,Anthropic和OpenAI均可能今年上市。他还预计2026年并购交易将创纪录,全球并购规模达3.1万亿美元,同比增35.2%。

行业动态部署/工程
23:25
The Verge:AI(RSS)
58
SpaceX 大规模 IPO:最新消息汇总

SpaceX 于周五进行首次公开募股(IPO),公众首次可以购买这家融合火箭、AI 和社交媒体业务的公司股票。此次融资规模巨大,可能使埃隆·马斯克成为首位万亿富翁,其估值基于将 AI 数据中心发射到太空的业务前景。此外,SpaceX 还获得了一份价值 40 亿美元的合同,用于建造导弹追踪卫星“金穹”。

行业动态部署/工程
19:36
IT之家(RSS)
58
金山云:7月12日起,AI算力相关产品服务价格上调约15%-50%

金山云因全球AI算力需求攀升、硬件成本上涨,将AI算力相关产品服务价格上调约15%-50%,文件存储相关产品服务价格上调约30%-50%。调整于北京时间2026年7月12日00:00:00生效,存量订单在当前计费周期内不受影响。今年Q1金山云营收27.0亿元,同比增长37.2%,其中智算云账单收入达10.0亿元,同比增长90.1%,占公有云收入比重50.1%。

行业动态部署/工程
15:35
IT之家(RSS)
57
日产社长称新车研发周期缩短一半,将向中国学习

日产社长伊万·埃斯皮诺萨透露,新车研发周期将缩短至原来的一半。计划2026年冬季推出的新款Skyline研发时间从55个月压缩至2年多。他表示中国在技术、成本和研发周期方面正成为行业标杆,日产要向中国学习。2025年4月推出的纯电动车型N7研发周期已缩短至两年,很大程度上得益于AI应用,提升了设计和测试效率。日产还将推行平台与核心零部件通用化,将多款同平台车型整合为“家族”同步开发,计划2026财年内推广至9成车型。

行业动态部署/工程
14:35
IT之家(RSS)
62
2999元:联想AI主机Mini开启预约,此芯P1处理器、8GB内存+256GB硬盘

联想AI主机Mini于6月12日在京东开启预约,售价2999元。该迷你主机搭载此芯P1(CD8180)处理器,6nm制程,集成12核Armv9.2 CPU、10核Immortalis G720 GPU及30TOPS算力NPU,综合算力45TOPS。配备8GB LPDDR5内存和256GB固态硬盘。支持一键部署、零门槛配置,可安装Skills技能,接入QQ、微信、飞书等聊天工具,容纳多个Claw并支持多成员共享。接口包括USB 3.2 Type-A×2、全功能Type-C×2、DP 1.4、HDMI 1.4、USB 2.0×2及2.5GbE网口,支持开发者模式,兼容Ubuntu系统。

产品更新端侧部署/工程
12:25
Claude Code:GitHub Releases(RSS)
52
Claude Code v2.1.175 发布:新增 enforceAvailableModels 管理设置

Claude Code v2.1.175 新增 enforceAvailableModels 管理设置。启用该设置后,availableModels 允许列表也会约束 Default 模型——若 Default 模型解析到被禁用的模型,则自动回退至第一个允许的模型;用户或项目设置无法再扩大受管理的 availableModels 列表。

Anthropic产品更新编码部署/工程
11:34
IT之家(RSS)
50
亚马逊 AWS Graviton5 处理器全面可用

亚马逊 AWS 宣布去年发布的 Graviton5 处理器全面可用,基于其的 EC2 M9g 实例较上代 M8g 提供 25% 计算性能提升;数据库性能提升 30%,Web 应用性能提升 35%,ML 工作负载性能提升 35%。Graviton5 拥有 192 个内核,支持 DDR5-8800 内存与 PCIe Gen6,L3 缓存是 Graviton4 的 5 倍,每核心 L2 缓存是 Graviton4 的 2.6 倍。采用台积电 3nm 工艺,基于 Arm Neoverse V3,每核心 1MB L3,支持 12 通道内存、96 条 PCIe 通道,D2D 互联带宽 420GB/s。

产品更新部署/工程
09:34
IT之家(RSS)
44
SK 海力士正评估引入 Microsoft 365 Copilot 与 ChatGPT 等第三方 AI 服务,推动工作流转型

据韩联社6月12日报道,SK 海力士 CEO 郭鲁正在昨天会议中表示,公司正评估引入外部生成式 AI 模型方案,包括采用 Microsoft 365 和 Copilot,并从安全性与系统架构角度评估 ChatGPT。公司计划先在无关核心技术的领域引入外部 AI 服务,再逐步扩大应用范围。SK 海力士已有基于开源方案的 AI 服务,引入外部平台后将让员工使用更丰富的 AI 模型。

行业动态部署/工程
09:34
IT之家(RSS)
55
钉钉换帅后《置身钉内》作者再发文:无效的形式化工时既消耗人力,也与技术发展的初衷相悖

钉钉ONE项目产品经理在7.5万字离职信《置身钉内》引发争议后再次发文回应。她指出AI开发存在不限于钉钉的共同困境——新老交替、产品形态探索期,但许多探索经验可帮助节约成本。AGI的本质一是放大文明能力解决现有难题,二是把人从机械重复工作中解放出来,让时间留给创意与情感。她认为长期来看重复工作将减少,创意工作不拼工时,无效的形式化工时既消耗人力,也与技术发展的初衷相悖。

现象/趋势部署/工程
09:25
Claude Code:GitHub Releases(RSS)
44
Claude Code v2.1.174 发布

新增 wheelScrollAccelerationEnabled 设置,全屏禁用鼠标滚轮加速。修复 /model 选择器:Opus 在 Max/Team Premium/Enterprise 独立行,Sonnet 在 Pro/Team,Opus 在 API 按量付费账户;修复固定 Sonnet 版本时的硬编码标签;企业账户误显示积分横幅;Bedrock GovCloud 区域前缀错误导致 400 错误;后台会话继承另一会话环境变量;macOS/Linux 退出时 1-2 秒暂停;git co-author 模型名错误;/advisor 预选被 availableModels 屏蔽;skill 热重载仅发送变更;Workflow tool 子智能体缺失归属头;预温后台 worker 空闲后认证失败。[VSCode] 在 /usage 新增过去 24h/7d 的缓存未命中、长上下文、子智能体及 skill/agent/plugin/MCP 分解归因。

Anthropic产品更新编码部署/工程
08:34
IT之家(RSS)
66
消息称 Anthropic 寻求美国数据中心租约,希望获得谷歌母公司财务支持

Anthropic 已签署十多份美国数据中心初步租约,总容量超 1GW,同时寻求谷歌母公司 Alphabet 提供财务担保,传闻谷歌将为其共同设计芯片。2026 年 4 月,谷歌决定向 Anthropic 投资 100 亿美元,承诺后续再投 300 亿美元。作为协议部分,Anthropic 承诺五年内向谷歌云支出高达 2000 亿美元。此外,亚马逊此前已投资 40 亿美元,Anthropic 将在十年内从 AWS 采购超 1000 亿美元算力。

AnthropicGoogle行业动态部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
49
Squeeze-Release:带精确结构最小化的迭代剪枝

Squeeze-Release 提出精确结构改写(minimization),将带掩码网络转换为更小密集网络,前向函数仅浮点舍入误差一致。循环迭代剪枝和最小化,中间释放步骤将压缩张量中原置零位置重置为小校准噪声,使容量重新可训练,后续循环发现单次剪枝无法触及的结构冗余。引入函数保持的 CompensatedLayerNorm,将通道缩减扩展到带 LayerNorm 的残差流。在 fully-connected 网络压缩至 1/39,ConvNeXt-Tiny 达 1/14.8,准确率相当,并可扩展至 Transformer 架构。

arXiv论文/研究部署/工程
07:34
IT之家(RSS)
61
OpenAI 收购初创公司 Ona,强化编程助手 Codex

OpenAI 昨日宣布收购初创公司 Ona,后者专注于为 AI 智能体提供安全、预配置云环境。该技术将帮助编程助手 Codex 执行持续时间更长的任务,并支持用户将 AI 智能体部署到生产环境,同时让企业更好地掌控基础设施与安全边界。交易金额未公布,Ona 团队将加入 OpenAI 参与 Codex 项目研发。

智能体OpenAI编码行业动态
05:05
OpenRouter:Announcements(RSS)
54
什么是 LLM 网关?应用与 AI 模型之间缺失的一层

缺少 LLM 网关时,供应商中断会直接变成用户可见的错误,AI 支出也难以追踪。文章从路由、合规性和设置时间三个维度比较了最佳方案。

教程/实践部署/工程
03:35
OpenRouter:Announcements(RSS)
48
什么是 LLM Gateway?你的应用与 AI 模型之间的缺失层

LLM Gateway 能防止 API 提供商故障变成用户端可见错误,并让 AI 费用变得透明。通过路由、合规性和设置时间等维度,可以对比市面上最佳的网关方案。

教程/实践部署/工程
02:26
Simon Willison 博客
37
asyncinject 0.7 发布

asyncinject 0.7 发布,这是一个作者数年前为支持 asyncio 依赖注入模式而构建的 Python 工具库,曾与 Datasette 搭配使用。Claude Fable 5 发现了库中的若干 bug 并自动修复——Claude Fable 5 是一个非常主动的模型。

开源/仓库部署/工程
01:39
OpenAI:官网动态(RSS · 排除企业/客户案例)
51
BBVA 将 AI 置于银行业务核心,与 OpenAI 合作

BBVA 将 ChatGPT Enterprise 推广至 10 万名员工,并与 OpenAI 达成合作,加速全球银行业 AI 驱动的转型。

OpenAI行业动态部署/工程
00:39
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选61
OpenAI 将收购 Ona

OpenAI 计划收购 Ona,以拓展 Codex 的功能,提供安全、持久的云端环境,从而支持企业工作流中长时间运行的 AI 智能体。

智能体OpenAI行业动态部署/工程
关联讨论 1 条X:小北 (@frxiaobei)
推荐理由:OpenAI收购Ona,给Codex补上持久化云环境,让Agent能长时间自主工作。这是把AI Agent从会话工具变成企业级生产平台的一个基础设施信号。
00:00
OpenRouter:Announcements(RSS)
精选55
OpenRouter:企业应转向多模型路由,放弃单一LLM供应商

OpenRouter指出,企业不应只依赖一家LLM供应商,而应采用多模型路由策略以平衡成本与效果。Anthropic Opus 4.7的“tokenizer税”导致输入token增加35%,新模型Fable定价$10/M输入、$50/M输出,OpenAI GPT-5.5 Pro更高达$30/M输入、$180/M输出。用户正主动跨模型族分配任务,平台3月至4月新增90个模型。OpenRouter作为统一市场,通过标准化API消除切换成本,使路由成为“一等公民”。

AnthropicOpenAI产品更新部署/工程
关联讨论 1 条OpenRouter:Announcements(RSS)
推荐理由:OpenRouter 放出的多模型使用数据很实在,成本压力正推动企业从专一走向多模型路由,新分析 API 让这个趋势可度量。
6月11日
21:59
HuggingFace Daily Papers(社区热门论文)
59
SKIM:面向大语言模型的自适应多分辨率程序性技能压缩框架

可复用的自然语言技能被频繁调用时,将完整文本放入每个上下文会显著增加预填充成本和延迟。SKIM(SKIll coMpression)是一种自适应多分辨率软token压缩框架,专为程序性技能设计。它根据每项技能的复杂度生成不同数量的软token,在提升LLM推理效率的同时保留技能使用效果。实验表明,SKIM将技能压缩至原始token长度的30%到60%,且在任务性能上优于现有压缩方法。代码已开源。

推理论文/研究部署/工程
19:17
Hacker News 热门(buzzing.cc 中文翻译)
63
Meta效仿特斯拉做法,在帐篷内建设数据中心

Meta效仿特斯拉的做法,在帐篷内建设数据中心。该消息在 Hacker News 上获得 100 HN Points。

Meta行业动态部署/工程
18:59
Hugging Face:Blog(RSS)
46
PyTorch 剖析系列(二):从 nn.Linear 到融合 MLP

本部分将手写 matmul-add 对替换为 nn.Linear(bias=True),堆叠三层 Linear 与激活函数构成多层感知机(MLP)块,在 NVIDIA A100 GPU 上剖析。Profile trace 显示 nn.Linear 内部调用 aten::addmm,将 bias 加法作为 epilogue 融合进矩阵乘法核,避免额外 HBM 访问;transpose 操作(aten::t)仅改写 CPU 端张量元数据(shape 和 stride),不启动 GPU 核。

Hugging Face教程/实践部署/工程
17:31
IT之家(RSS)
精选71
阿里云发布 Meoo CLI:本地 AI 编程项目可一键部署上线

阿里云今日推出 Meoo(秒悟)开源命令行工具 Meoo CLI,面向开发者,支持 Claude Code、Codex、Cursor 等本地 AI 编程助手。通过调用阿里云云端能力,可自动完成数据库接入、用户登录、文件存储及项目发布,将本地项目一键部署上线并生成可分享的访问链接。该工具定位为本地 Agent 与秒悟云端能力的连接入口,已开放下载,支持主流 Linux、macOS 及 Windows 平台。

智能体产品更新开源/仓库部署/工程

推荐理由:本地AI编程工具产出的项目终于有了一条直通云端的管道,Meoo CLI 把数据库、鉴权、部署这些脏活全包了,非前端也可以把原型直接变成产品。
16:50
公众号:腾讯混元
精选78
腾讯混元 AI Infra 新开源:HPC-Ops 推理核心算子全面升级

腾讯混元 AI Infra 团队开源升级 HPC-Ops 推理算子库,推出五大核心算子。Attention 采用运行时动态负载调度,长文本最高加速 2.95x,端到端 QPM 提升 17%;Router GEMM 以双 BF16 组合实现 FP32 精度,对比 CuBLAS FP32 最高提速 3.22x;FusedMoE 相对 vLLM、SGLang 性能提升 1.2x~1.6x;Fused AllReduce+Norm 对比主流方案最高提速 1.68x;Sampler 将解码采样融合为 2 个 CUDA Kernel,相对 vLLM 提速 4.0x~7.5x。所有能力均来自生产实践并完全开源。

产品更新开源/仓库推理部署/工程

推荐理由:腾讯混元把推理全链路的瓶颈都加速了一遍,Sampler 算子比 vLLM 快 4-7 倍,Attention 动态调度根治长尾延迟,这套开源算子库可以直接用,做推理部署的可以抄作业。
15:30
IT之家(RSS)
63
微软 CEO 纳德拉反思 AI 滥用:并非所有问题都需要最强模型

微软 CEO 萨提亚·纳德拉在《纽约时报》播客《Hard Fork》中承认,公司内部算力堆砌现象普遍,员工习惯用最强模型解决所有问题。他呼吁按实际需求匹配模型,避免浪费,并举例 Copilot 自动模式能按任务自动选择最合适模型。纳德拉还透露自己用 AI 快速开发了一款工具:它能跟踪工作沟通、持续维护软件项目,在员工讨论调整需求时自动生成方案并更新代码,无需他参会。他强调非前沿问题无需用顶尖前沿模型,微软正在收紧 AI 成本管控。去年10月他更换了商业业务负责人,11月聘请新 AI 顾问,推动22万员工向 AI 时代转型。

MicrosoftOpenAI大佬观点部署/工程
14:30
IT之家(RSS)
46
郭明錤:台积电 CoPoS 先进封装预计 2028H2 量产,英伟达 Feynman AI GPU 或率先试水

台积电 CoPoS(玻璃基板 FOPLP 2.5D 封装)预计 2028 年下半年量产,目标提升 9.5 倍光罩尺寸以上大型异构集成系统的量产经济性。NVIDIA 的 Feynman AI GPU 可能成为首个试水产品。CoPoS 载板由玻璃芯层和两侧 ABF 增层构成,芯片位于 ABF 增层表面,互连由芯片侧 RDL 与 ABF 增层承担,临时载体亦应用玻璃材料。

行业动态部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
51
分离式推理中的无政府代价

分离式推理架构将 prefill 和 decode 阶段分配到不同 GPU 池,形成共享硬件预算的竞争“智能体”。研究首次用博弈论建模该架构,以 NVIDIA Dynamo 为案例,拆解为三个耦合博弈。在 3 节点 B200 集群上用 Nemotron-4-340B 和 Llama-3.1-70B 验证,两模型呈现相同三阶段 PoA-hat 结构。自适应路由可在饱和阶段大幅降低 PoA-hat:70B 1P/5D 拓扑下 PoA-hat 从 66.4 降至 21.5(3.1 倍),吞吐量损失 13%;70B 1P/2D 下 PoA-hat 降 2.2 倍,TTFT P99 降 7.6 倍。

推理论文/研究部署/工程
06:34
OpenAI:官网动态(RSS · 排除企业/客户案例)
45
通过 Oracle 云承诺访问 OpenAI 模型和 Codex

OpenAI 与 Oracle 合作,用户可利用现有 Oracle 云服务承诺(commitment)额度,在 Oracle 云上访问 OpenAI 模型和 Codex,用于构建和部署 AI 应用,同时获得企业级安全与治理能力。

OpenAI行业动态部署/工程
06:22
MarkTechPost(RSS)
55
Microsoft SkillOpt 编码实现:仪表化提示优化、技能演化分析与基线比较

实现了一个端到端的 Microsoft SkillOpt 仪表化工作流,包括设置仓库、连接 OpenAI 兼容模型、配置优化器和目标模型。以原始种子技能为基线,运行包含 rollout、reflection、aggregation、selection、更新和验证门控的优化循环,检查训练历史,可视化准确率、编辑预算行为和 token 用量,并将进化后的技能与基线进行比较。

MCP/工具Microsoft教程/实践部署/工程
04:30
IT之家(RSS)
51
甲骨文 2026 财年年报归母净利润 169.84 亿美元,同比增长 36.50%

甲骨文发布2026财年(2025年6月–2026年5月)年报及第四财季报告。全年营业总收入673.57亿美元,同比增长17.35%;归母净利润169.84亿美元,同比增长36.50%。云业务总营收340亿美元,同比增长39%,其中云基础设施(IaaS)营收同比增长77%。第四财季营收191.84亿美元,同比增长20.63%,云业务营收99亿美元,同比增长47%。AI驱动下,Multicloud AI数据库第四季度营收同比增长404%。剩余履约义务达6380亿美元。展望2027财年全年,总营收指引为900亿美元,非-GAAP每股收益指引上调至8.05美元,同比增长18%。

行业动态部署/工程
04:29
OpenRouter:Announcements(RSS)
精选64
Gemini 2.5 Flash API - 定价、快速入门与提供商比较

Gemini 2.5 Flash API 支持配置思考预算(thinking budgets),用户可跨提供商进行比较,并在5分钟内完成首次API调用。

Google推理教程/实践部署/工程
关联讨论 1 条OpenRouter:Announcements(RSS)
推荐理由:这是 OpenRouter 上接入 Gemini 2.5 Flash 的保姆级指南,把三家 Google 提供商的延迟和定价差异摆在明面上,需要做模型选型和成本估算的开发者可以直接抄里面的 quickstart 代码。
‹ 上一页
1…7891011…35
下一页 ›