AIHOT

4月27日

01:45

Hacker News 热门（buzzing.cc 中文翻译）

精选71

OpenAI宣布停止使用SWE-bench Verified基准评估前沿编码能力。该基准基于GitHub历史问题构建，其任务分布已无法准确反映当前AI编码助手需解决的实际问题类型。随着模型性能提升，基准测试集趋于饱和，区分度下降，现有模型表现已接近人类水平。因此，团队将转向更具挑战性和现实复杂度的新评估方法。

OpenAI大佬观点编码评测/基准

推荐理由：OpenAI 亲自给 SWE-bench Verified 判了死刑，这比任何第三方评测都有说服力。做 coding agent 选型的人该认真想想，你的 benchmark 体系是不是也该换了。

00:00

Mistral AI：News（网页）

精选68

Mistral AI 发布 Workflows 公开预览版，为企业AI工作流提供编排支持

Mistral AI 正式推出 Workflows 公开预览版，该产品定位为企业AI的编排层，旨在通过提供持久性、可观察性和容错性，帮助AI驱动的工作流从概念验证可靠过渡到生产环境。它集成于Studio平台，允许开发者用Python编写工作流，并可发布至Le Chat供组织成员触发。其核心功能包括持久化执行（支持从断点恢复）、完整的步骤跟踪与审计，以及通过 wait_for_input() 等方法实现人工介入审批。目前已有ASML、ABANCA等企业客户使用其自动化货物放行、文档合规检查等关键业务流程，将原本耗时数小时的人工操作缩短至几分钟。

智能体产品更新部署/工程

推荐理由：Mistral 把 Temporal 的持久执行引擎包装成企业 AI 编排层，解决的是「demo 能跑、上线就挂」这个最痛的落地问题。做企业级 Agent 的团队值得认真看看，尤其是 human-in-the-loop 那个 wait_for_input 一行代码的设计。

00:00

Anthropic：Newsroom（网页）

Anthropic 任命澳新总经理并正式开设悉尼办公室

Anthropic 正式任命 Theo Hourmouzis 为澳大利亚和新西兰总经理，并同步开设悉尼办公室。Hourmouzis 拥有超过20年的亚太科技行业领导经验，将负责制定本地战略，推动 Claude 人工智能进入客户核心业务。公司正深化与联邦银行等企业的合作，并与澳大利亚国立大学等研究机构推进 AI for Science 项目。同时，Anthropic 近期与 Canva、Xero 建立了深度平台合作。悉尼办公室是其在亚太地区的最新布局，旨在贴近当地客户与市场。

Anthropic行业动态

00:00

Runway：News（网页）

精选58

无闲置GPU：Runway的研究计算管理

Runway通过采用Kueue作为Kubernetes准入控制器，将GPU利用率提升超过20%，同时保障团队容量。其核心机制是为关键工作预留配额，并设立共享队列借用闲置容量，当配额所有者需要时通过抢占回收资源。该系统运行于昂贵的多租户GPU集群，支持多节点训练的拓扑感知调度和弹性工作负载。具体实现中，团队拥有专用预留队列，而默认队列作为共享机会池，可借用闲置配额运行可中断工作负载。当预留队列需资源时，Kueue基于优先级和运行时间抢占默认队列中的任务，实现资源高效管理。

教程/实践部署/工程

推荐理由：Runway 把 Kueue + Kubernetes 的 GPU 调度实战写成了保姆级工程笔记，利用率翻倍的方案和踩坑细节都有，做大规模训练集群调度的团队可以直接抄作业。