6月11日

15:30

IT之家（RSS）

微软 CEO 萨提亚·纳德拉在《纽约时报》播客《Hard Fork》中承认，公司内部算力堆砌现象普遍，员工习惯用最强模型解决所有问题。他呼吁按实际需求匹配模型，避免浪费，并举例 Copilot 自动模式能按任务自动选择最合适模型。纳德拉还透露自己用 AI 快速开发了一款工具：它能跟踪工作沟通、持续维护软件项目，在员工讨论调整需求时自动生成方案并更新代码，无需他参会。他强调非前沿问题无需用顶尖前沿模型，微软正在收紧 AI 成本管控。去年10月他更换了商业业务负责人，11月聘请新 AI 顾问，推动22万员工向 AI 时代转型。

Microsoft OpenAI 大佬观点部署/工程

15:14

fofr@fofrAI

恶意软件开发者通过在间谍软件中添加核武器和生物武器相关文本，主动触发大模型安全拒绝机制，使AI安全扫描器无法分析该恶意软件。这是安全对齐中过度依赖一阶规则导致二阶盲点的典型案例：当闭源与开源模型内置激进拒绝策略时，攻击者会注入这些触发词来逃避检测。SocketSecurity的帖子指出，设计恶意软件分析管道需考虑意图以防范提示词操纵。当前仅是攻击者利用这类特征的早期阶段，未来处理复杂网络安全的用户系统可能需要模型具备更少的安全顿感。

John Scott-Railton: NEW: malware developers added nuclear & biological weapons text to to their spyware. Goal? To trigger LLM safety refusal...

安全/对齐部署/工程

14:30

IT之家（RSS）

郭明錤：台积电 CoPoS 先进封装预计 2028H2 量产，英伟达 Feynman AI GPU 或率先试水

台积电 CoPoS（玻璃基板 FOPLP 2.5D 封装）预计 2028 年下半年量产，目标提升 9.5 倍光罩尺寸以上大型异构集成系统的量产经济性。NVIDIA 的 Feynman AI GPU 可能成为首个试水产品。CoPoS 载板由玻璃芯层和两侧 ABF 增层构成，芯片位于 ABF 增层表面，互连由芯片侧 RDL 与 ABF 增层承担，临时载体亦应用玻璃材料。

行业动态部署/工程

11:06

Greg Brockman@gdb

将你的Oracle云承诺用于OpenAI产品：https://openai.com/index/openai-on-oracle-cloud/

OpenAI 行业动态部署/工程

10:51

小互@xiaohu

Google 开源扩散架构模型 DiffusionGemma

Google 开源 DiffusionGemma，基于扩散架构，一次性生成大段文本再逐步优化。H100 上达 1000+ tokens/s，RTX 5090 上 700+ tokens/s。26B 参数仅需 18GB 显存，一次生成 256 tokens。多轮迭代自我纠错，可修改已生成内容。

Google 开源/仓库推理模型发布

10:26

郭明錤｜Ming-Chi Kuo@mingchikuo

台积电下一代先进封装CoPoS关键要点

郭明錤分析，台积电CoPoS预计2028下半年量产，面向9.5倍光罩尺寸以上超大封装，NVIDIA Feynman AI芯片或率先采用。玻璃用于两个位置：310×310mm临时载板，以及250×250mm（试产）/510×515mm（量产）玻璃面板加工成玻璃核心基板。该基板为三层结构——玻璃芯两侧叠加ABF增层，TGV成孔与铜填充等挑战集中于此处。澄清常见误解：玻璃非中介层，互连由RDL、TGV/Cu及ABF共同承担；玻璃与ABF共存而非替代；芯片贴装在ABF增层表面。CoPoS有望延续台积电先进封装领先优势至2032年左右。

行业动态部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

分离式推理中的无政府代价

分离式推理架构将 prefill 和 decode 阶段分配到不同 GPU 池，形成共享硬件预算的竞争“智能体”。研究首次用博弈论建模该架构，以 NVIDIA Dynamo 为案例，拆解为三个耦合博弈。在 3 节点 B200 集群上用 Nemotron-4-340B 和 Llama-3.1-70B 验证，两模型呈现相同三阶段 PoA-hat 结构。自适应路由可在饱和阶段大幅降低 PoA-hat：70B 1P/5D 拓扑下 PoA-hat 从 66.4 降至 21.5（3.1 倍），吞吐量损失 13%；70B 1P/2D 下 PoA-hat 降 2.2 倍，TTFT P99 降 7.6 倍。

推理论文/研究部署/工程

07:09

Berryxia.AI@berryxia

Google DiffusionGemma：4倍速文本生成开源模型

Google 发布实验性开源模型 DiffusionGemma（Apache 2.0），采用并行 diffusion 方式代替传统自回归“逐词预测”，可同时起草、纠错和精炼整块文本，生成速度达 4 倍提升（1000+ token/s）。模型在 18GB 消费级显卡即可本地运行，适用于代码、数学、复杂编辑等任务，已开源权重至 Hugging Face。

Google: Meet DiffusionGemma ⚡ Our latest experimental open model (Apache 2.0) that generates text up to 4x faster. Instead of pr...

Google 开源生态模型发布部署/工程