AI 论文与研究

6月20日

23:28

AK@_akhaliq

S-Agent 空间工具使用催生空间智能的推理

智能体具身智能论文/研究

16:59

IT之家（RSS）

中国科学家提出BabelTele"AI语言"：压缩至27.9%仍保留99.5%语义，人类难懂但LLM能懂

上海交通大学等六所高校于6月18日在arXiv发布研究，提出BabelTele文本压缩方法。该方法融合多语言词汇、符号、表情，生成人类几乎无法阅读但大语言模型能准确理解的“AI语言”，可将文本压缩至27.9%，语义准确率保持99.5%。在QuALITY问答中，人类阅读压缩文本后准确率下降，而Gemini 3.1 Pro稳定。BabelTele在MeetingBank、QuALITY基准上优于传统摘要和LLMLingua-2，支持零样本跨模型传递。多智能体通信测试中可减少约40%通信Token，任务完成度超96%。

智能体推理论文/研究

09:59

IT之家（RSS）

超级珊瑚礁被发现：水温高出2°C仍生机盎然

全球海洋热浪致超80%珊瑚白化背景下，伍兹霍尔海洋研究所团队在马绍尔群岛马朱罗环礁发现一片生机勃勃的珊瑚礁，命名为“超级珊瑚礁”。模型预测该处水温比其他区域高近2°C，实地实验证实其耐热性最强。团队使用无人船“黄鳍”搭载GoPro相机，单日扫描40英里礁石并拍摄2万张图像，远超百名潜水员数周工作量。随后用这些图像训练AI模型自动识别白化与恢复状况，并构建三维模型分析珊瑚位置、角度对热暴露的影响。科恩设想建立“超级珊瑚礁蓝色走廊”，连接马绍尔群岛、基里巴斯和图瓦卢的保护区网络，利用洋流让耐热珊瑚幼虫跨区域繁殖。

其他多模态

09:25

Rohan Paul@rohanpaul_ai

微软与约克大学论文：若LLM拥有人类属性，则《帝国时代II》亦然

微软与约克大学新论文指出，许多研究在未经严格测试的情况下就将理解、共情、焦虑等人类属性赋予LLM，往往一开始就把这些概念内嵌到测试设计中。作者论证，原则上老策略游戏《帝国时代II》也能实现逻辑门、训练小型感知机，作为计算基底。若同样的语言模型以山羊移动作为bit在游戏中重建，输出相似句子，人们将不再认为它“理解”或“有共情”。论文并非否定AI认知，而是揭示测量问题：许多关于LLM类人属性的声称依赖于界面和观察者的预设，而不是系统本身。

arXivMicrosoft论文/研究

03:02

HuggingFace Daily Papers（社区热门论文）

LedgerAgent：面向策略合规工具调用智能体的结构化状态管理方法

客服领域的工具调用智能体需跨轮维护任务状态并遵守领域策略。标准方法将状态隐含在提示词中，易导致信息过时或策略违规。LedgerAgent 是一种推理时方法，将观察到的任务状态单独维护于分类账中并渲染到提示词；在改变环境的工具调用前，用分类账检查状态依赖的策略约束以阻止违规。在四个客服领域和混合开源/闭源模型上，LedgerAgent 的平均 passk 指标优于标准基于提示的工具调用方法，在多轮一致性指标上提升最大。

智能体MCP/工具论文/研究

6月19日

23:22

elvis@omarsar0

自动化SKILL.md生成：三阶段流水线论文

关键要点：OpenAI昨日为Codex推出了从交互中打包技能的类似功能；论文提出三阶段流水线（GUI轨迹分割→聚类候选技能→训练技能感知策略）。聚类纯度优异（5/8簇达0.95以上），但可读性未迁移：GRPO仅将技能步骤准确率从18.5%提至20.5%，在BrowseComp+上无改善，甚至输给简单频率先验。作者指出三个缺陷：弱边界检测器、无序片段表示、离线奖励模型。

智能体arXiv数据/训练论文/研究