23:24

Microsoft Research@MSFTResearch

跟进我起草的社交文案：人们在工作中的 AI 到底用来做什么？一项对五百万次 M365 Copilot 对话的新分析给出了答案。Scott Counts 在一段新视频中进行了详细解读。点击此处深入了解分析：https://msft.it/6015vUHsh

Microsoft 数据/训练论文/研究

23:18

Anthropic：Research（发表成果 · 网页）

精选55

Anthropic Economic Index 报告：使用节奏

Anthropic 发布 Economic Index 报告，基于隐私保护遥测数据分析了 Claude 的使用节奏。工作日个人对话占比约 35%，周末升至近 50%；高薪职业在工作日外的使用占比更高。日内模式显示：新闻请求集中在早上 7 点，食谱在下午 6 点达到 2.3 倍高频，睡眠建议凌晨 3 点最多。税收相关请求在 4 月 15 日美国报税截止日前激增。调查还发现：使用 Claude 最自动化的用户预计 AI 明年将承担更多任务，但对薪资、工作安全及工作意义的预期最为乐观。

Anthropic 现象/趋势论文/研究

推荐理由：这是 Anthropic 迄今最详细的 AI 使用经济分析，从使用节律到输出自主性再到用户调查，展示 AI 渗透的真实图景。我最关注调查结果：自动化使用越多的人对职业前景反而更乐观。

22:14

OpenBMB@OpenBMB

面壁智能与清华THUNLP发现混合LLM长上下文瓶颈在于全注意力检索能力

清华自然语言处理实验室（THUNLP）与面壁智能OpenBMB发布论文，重新审视混合LLM架构中高效注意力（如SWA、Mamba-2、GDN）的实际作用。研究发现：高效注意力设计对短上下文Loss影响极小，但长上下文LongPPL差异显著；全注意力承担检索功能，限制其感受野会大幅提升LongPPL，而限制高效注意力几乎无影响。大窗口SWA导致模型懒惰，延迟检索能力形成。简单方法——对小窗口SWA混合架构的全注意力层仅用NoPE（SWA-128-NoPE），即可用极小短上下文代价显著提升长上下文性能。论文认为瓶颈在于全注意力的检索能力能否被有效激活。

arXiv 开源生态推理论文/研究

20:26

AK@_akhaliq

面向鲁棒视频理解的自信感知工具编排

MCP/工具多模态论文/研究

14:23

Rohan Paul@rohanpaul_ai

FINSABER测试显示：LLM交易智能体在长期公平测试中难以跑赢简单市场策略

研究人员构建了更严格的FINSABER测试框架，在约20年、多只股票、防挑结果条件下评估FinMem、FinAgent等LLM交易智能体。结果显示，LLM策略在狭窄测试中看似不错，但面对买入持有、规则交易、预测模型和强化学习等简单基线时，在长期公平测试中通常失败。LLM在市场上涨时过于谨慎，下跌时过于冒险，表明理解金融文本不等于能可靠把握市场时机。论文指出，当前LLM可能无法在长期跑赢简单市场策略。

arXiv 论文/研究

12:00

公众号：龙猫LongCat（美团）

美团 ICML'26 论文分享会：通用 Agent 专场 & 视频生成等综合专场

美团将于7月1日、2日举办两场 ICML'26 论文分享会。首日聚焦通用 Agent，涵盖记忆与长程推理（MemOCR）、环境合成（ScaleEnv）、价值模型（V_0）、自我验证、鲁棒性基准（AgentNoiseBench）及智能体裁判基准（AJ-Bench）等方向。次日为视频生成等综合专场，涉及超高分辨率视频生成（LUVE）、交互式世界模型（Infinite-World）、身份保持视频生成（WildActor）、流式视频超分（InfVSR）、微调优化（SAFT）、检索增强出价（DRIVE）及旅行规划基准（TRIP-Bench）等。共13篇论文，报名后可直播参与。

智能体行业动态论文/研究

08:00