AIHOT

4月24日

08:00

HuggingFace Daily Papers（社区热门论文）

研究团队提出dWorldEval，一种基于离散扩散世界模型的可扩展机器人策略评估框架。该方法将视觉、语言和机器人动作等多模态数据映射到统一的令牌空间，通过单一Transformer去噪网络进行建模，并引入稀疏关键帧记忆以保持时空一致性。模型在推理时联合预测未来观测和任务进度令牌，当进度值达到1时自动判定任务成功。实验表明，dWorldEval在LIBERO、RoboTwin及多项真实机器人任务上显著优于WorldEval、Ctrl-World和WorldGym等现有方法，为构建大规模机器人评估的世界模拟器提供了新的架构范式。

具身智能论文/研究部署/工程

08:00

Hugging Face：Blog（RSS）

精选78

DeepSeek-V4：智能体可实际使用的百万token上下文

DeepSeek发布新一代模型DeepSeek-V4，其核心突破在于实现了长达百万token的上下文窗口，并确保智能体能够有效利用这一扩展的上下文能力。该模型延续了通过开源与开放科学推动人工智能发展与普及的使命，标志着大模型在长上下文理解和实际应用方面迈出重要一步。

智能体DeepSeek开源生态模型发布

关联讨论 5 条

推荐理由：DeepSeek 把上下文窗口推到百万 token 不稀奇，关键是「agent 能实际用」这六个字。如果实测成立，RAG 的很多工程妥协可以扔掉了，做长文档和复杂 agent 的人该第一时间跑一遍。

06:15

OpenAI：Alignment 研究博客（RSS）

精选58

开源可监控性评估

研究团队开源了论文《Monitoring Monitorability》中的数据集与代码，并分享了一种针对噪声主导干预评估实例的新过滤策略。这一举措旨在提升AI系统监控能力的评估透明度与可复现性，为社区提供了可直接使用的工具和方法。新提出的过滤策略能有效识别并处理评估过程中噪声干扰严重的实例，有望提高评估结果的准确性与可靠性。

OpenAI安全/对齐论文/研究

推荐理由：OpenAI 把自家对齐监控的评测数据集和代码全开源了，做 AI 安全评估的团队可以直接拿来用，但对普通开发者来说门槛还是偏高。

05:54

Simon Willison 博客

在浏览器中提取PDF文本：LiteParse推出网页版

LlamaIndex开源项目LiteParse现已推出网页版，用户可直接在浏览器中上传PDF并提取文本，所有处理均在本地完成，无需上传服务器。该工具基于PDF.js和Tesseract.js，采用空间文本解析技术，能智能识别多列布局等复杂格式，并支持OCR和非OCR两种模式。作者在原Node.js CLI工具基础上，借助Claude AI辅助开发，成功将其迁移至浏览器环境。示例显示，一个86页的PDF文件可被快速解析，输出文本及包含位置、字体等元数据的JSON结果。

智能体大佬观点教程/实践编码

03:59

Simon Willison 博客

精选74

通过半官方Codex后门API为GPT-5.5生成"骑自行车的鹈鹕"

尽管GPT-5.5的官方API尚未发布，但作者利用OpenAI为OpenClaw等工具开放的订阅集成机制，通过反向工程开源Codex CLI，开发了一个LLM插件。该插件允许付费订阅用户通过Codex后端API调用GPT-5.5模型。文章以生成“骑自行车的鹈鹕”SVG图像为例，展示了其使用效果，并指出高推理强度设置能显著提升输出质量，但耗时更长。目前，OpenAI表示正与合作伙伴制定API大规模服务的安全要求。

OpenAI大佬观点模型发布评测/基准

关联讨论 6 条

推荐理由：Simon Willison 不只评测 GPT-5.5，还顺手逆向 Codex 做了个用订阅跑 API 的插件。定价翻倍、xhigh 模式四分钟出图这些细节，比官方通稿有用十倍，做选型的人该看这篇而不是 OpenAI 博客。