5月16日

23:33

Chubby♨️@kimmonismus

这就是你要面对的竞争。 30天130万token。燃烧更多token，否则你将无法成功。【引用 @steipete】：The latest CodexBar update renders API costs wayyyy nicer. https://codex.bar

Peter Steinberger 🦞: The latest CodexBar update renders API costs wayyyy nicer. https://codex.bar

大佬观点部署/工程

22:54

Berryxia.AI@berryxia

长上下文LLM竞争已转向：从堆token转向精细的架构优化

长上下文大型语言模型的竞争焦点已从单纯增加上下文长度，转向通过精细的架构优化来提升计算效率。Sebastian Raschka的新文章通过可视化方式，解析了从Gemma 4到DeepSeek V4等模型在生产环境中应用的关键效率优化技术，如KV缓存共享、分层嵌入和压缩注意力等。这些技术旨在更智能地分配计算资源，已成为决定模型性能差异的关键。对于从事长上下文模型、智能体或RAG开发的团队而言，文章中的视觉图解与效率对比具有重要的参考价值。

Sebastian Raschka: New article: a visual tour of recent LLM architecture advances, from Gemma 4 to DeepSeek V4. I focus on long-context eff...

推理现象/趋势部署/工程

22:43

IT之家（RSS）

精选70

杭州基地启用，机器人有了国家级职业技能训练场

国家人工智能应用中试基地（具身智能）5月16日在浙江杭州挂牌启用，为机器人提供国家级职业技能训练场。该基地是集场景体验、技术展示、研发合作、产业赋能于一体的综合性平台，旨在推动具身智能技术从实验室迈向现实应用。杭州市于5月1日施行首部具身智能机器人地方性法规，支持核心研发、平台建设和场景开放。目前杭州已集聚机器人产业相关企业700余家，2025年具身智能产业集群产值达1068亿元。

具身智能行业动态部署/工程

推荐理由：杭州这个国家级具身智能训练场不是「又一个基地」，它是把散点技术拢成产业链标准化的关键一步，做机器人的可以盯着政策红利和开放场景了。

22:41

Peter Steinberger 🦞@steipete

Lossless为OpenClaw引入了一个实现"无限"上下文窗口或记忆的有趣概念。其核心机制是将对话内容压缩成可引用的数据块，并构建树状结构以检索历史信息。最新发布的lossless-claw 0.10.0版本旨在确保长对话的持久性，关键改进包括：采用全局压缩替代增量压缩以减少缓存抖动，保护高频提示缓存，修复启动与重启时的转录异常，并简化了新安装的配置流程。

Josh Lehman: lossless-claw 0.10.0 - the "long chats survive" release 🧵 recall spans rotated conversation segments 🧹 full-sweep comp...

智能体产品更新部署/工程

22:22

meng shao@shao__meng

硅谷管理者如何亲自动手：四类工作与关键禁忌

硅谷资深管理者普遍被要求亲自动手使用AI工具，以判断团队效率与技术方向。管理者应选择非关键路径、高杠杆且视角独有的工作，具体包括优化团队内部效率工具、改进产品生活质量、制作庆祝团队成果的物料以及创建展示未来愿景的演示。核心禁忌是介入有关键截止日期和依赖关系的核心产品任务，以免因日程碎片化成为瓶颈，导致交付或管理失败。

Julie Zhuo: What kind of IC work can you do if you are a manager? Attended two dinners with dozens of senior Bay Area tech managers ...

现象/趋势部署/工程

22:01

Hacker News 热门（buzzing.cc 中文翻译）

精选70

Δ-Mem：适用于大型语言模型的高效在线内存

研究人员提出了Δ-Mem，一种专为大型语言模型设计的高效在线内存系统。该系统通过仅存储和更新模型激活的增量变化，而非完整的激活状态，显著降低了内存占用。实验表明，Δ-Mem能将内存使用量减少高达70%，同时保持模型输出的质量基本无损。这一方法有助于在资源受限的环境中部署和运行大规模语言模型，提升其在线推理和持续学习场景下的可行性。

推理论文/研究部署/工程

推荐理由：Δ-Mem 把 LLM 的在线记忆开销压得够低，如果实验结果稳得住，长上下文推理的成本结构又要改写了。