全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「论文/研究」清除

6月29日周一

00:27Rohan Paul40Memex（RL）：索引记忆解决AI智能体长周期遗忘

6月28日周日

18:40The Decoder：AI News（RSS）70精选仅有三个AI模型在500天创业测试中盈利超过起始资本

15:56Rohan Paul60研究：AI让自由职业市场更重价格竞争

14:26Rohan Paul50AI职业暴露研究：聊天日志高估部分职业影响

11:31AK37VISReg：JEPA训练的新正则化方法

11:26Rohan Paul47Sakana Fugu 技术报告

08:00HuggingFace Daily Papers（社区热门论文）39用于视觉-语言数据集蒸馏的秩感知双曲对齐（RAHA）

08:00HuggingFace Daily Papers（社区热门论文）54HExA （分层实验智能体）：无需训练的上下文自改进框架

08:00HuggingFace Daily Papers（社区热门论文）56无姿态多视图的实例结构化3D Token化框架

08:00HuggingFace Daily Papers（社区热门论文）51MirrorPPR：基于示例的人像照片修图

08:00HuggingFace Daily Papers（社区热门论文）52一场景，两深度：探针单目深度基础模型中的几何歧义

08:00HuggingFace Daily Papers（社区热门论文）41A2World：从动作到世界建模学习可迁移的动力学先验

08:00HuggingFace Daily Papers（社区热门论文）82精选OSWorld2.0：长时域真实世界计算机使用工作流基准

08:00HuggingFace Daily Papers（社区热门论文）52PolicyGuard：一种基于对话的子智能体验证器，用于LLM智能体的策略遵循

08:00HuggingFace Daily Papers（社区热门论文）55基于通用关键帧提取连接视频问答与视频引导智能体任务

07:26Rohan Paul44Grouped Query Experts：在GQA自注意力上的混合专家模型

03:56Rohan Paul43学生完成AI友好数学题更快，但学习效果更差

02:59elvis50BINEVAL：新型LLM-as-Judge评估方法

02:55Rohan Paul54DeepSeek 发布 DSpark：半并行推测解码推理优化方法

02:00Yuchen Jin38DeepSeek 发布 DSpark 推测解码并开源 DeepSpec

01:06MarkTechPost（RSS）79精选DeepSeek 开源 DSpark 投机解码框架，加速 DeepSeek-V4 生成速度 60-85%

6月27日周六

20:43凡人小北63DeepSeek V4 推出 DSpark，推理速度提升 80%

18:32Hacker News 热门（buzzing.cc 中文翻译）51DeepSeek 开源推理优化方案 DeepSpec，生成速度提升 60% 至 85%

18:24Rohan Paul50RiVER：无需标准答案即可训练LLM生成更优代码

17:59IT之家（RSS）46UC伯克利科学家破译斑胸草雀11种核心叫声含义

15:24Rohan Paul46语言数字双胞胎助力老年人认知监测：日常言语可作为低负担追踪工具

12:48Ethan Mollick81同事件精选赫库兰尼姆卷轴两千年来首次被读同一事件，精选展示《赫库兰尼姆古卷首次被完整虚拟解读》

08:00HuggingFace Daily Papers（社区热门论文）66当更多采样反而有害：测试时扩展的模态天花板与相关性天花板

08:00HuggingFace Daily Papers（社区热门论文）51Evolution Fine-Tuning：跨371个优化任务学习发现

08:00HuggingFace Daily Papers（社区热门论文）52Agentic Abstention：大语言模型智能体何时应停止行动

07:35MarkTechPost（RSS）75精选Cursor 研究发现奖励攻击虚增编码智能体 SWE-bench Pro 分数

06:53Rohan Paul60MIT研究：AI编码工具使代码提交量暴增但实际发布仅增30%

06:53Rohan Paul38本期AI周刊：OpenAI智能体办公、RL安全训练、Qwen世界模型等

01:39The Decoder：AI News（RSS）62Epoch AI 与 METR 发布 MirrorCode 基准：AI 模型需从头重新实现完整程序

00:18Ethan Mollick46扩散模型发现巨无霸并优化汉堡

6月26日周五

23:56AK28DanceOPD：策略内生成场蒸馏

23:56AK40ViQ：任意分辨率文本对齐视觉量化

23:54Microsoft Research63M365 Copilot 五百万对话分析揭示 AI 工作用途

23:47Anthropic60Anthropic用新方法研究Claude经济影响

23:44Epoch AI63MirrorCode：AI软件工程能力达数周

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月29日

00:27

Rohan Paul@rohanpaul_ai

40

Memex（RL）：索引记忆解决AI智能体长周期遗忘

传统LLM在长项目易因有限记忆空间遗忘细节。Accenture论文提出Memex(RL)系统：保留当前紧凑摘要，将历史行为存入独立可访问数据库；智能体通过索引快速检索精确过往信息，并利用定制训练学习自主判断哪些信息需保留、何时从长期档案调取。该方法避免历史过载，保持智能体对当前目标的专注，解决多步复杂任务中的信息丢失问题。论文链接：arxiv.org/abs/2603.04257。

智能体 arXiv 论文/研究

6月28日

18:40

The Decoder：AI News（RSS）

精选70

仅有三个AI模型在500天创业测试中盈利超过起始资本

普林斯顿大学推出CEO-Bench基准测试，让AI智能体在模拟环境中运营订阅软件公司NovaMind 500天，起始资金100万美元。14个测试模型中，仅Claude Fable 5（最佳轮次盈利4715万美元）、Claude Opus 4.8（2780万美元）和GPT-5.5（2130万美元）在最佳运行中超过起始资本。一个不调用语言模型的简单规则启发式方法通过固定定价、配额和针对性开发达到1576万美元，超越除上述三款外的所有模型。多数模型无法保持连贯策略，在模拟结束前破产。该测试旨在衡量AI的长期战略决策能力。

智能体论文/研究评测/基准

推荐理由：普林斯顿的 CEO-Bench 测试了一个反直觉结果，一个不用 AI 的简单规则系统击败了绝大多数模型——在当前 agent 都在比窄任务时，这个测试直指长期战略决策的致命短板，做 agent 的必须看。

15:56

Rohan Paul@rohanpaul_ai

60

研究：AI让自由职业市场更重价格竞争

一项新研究（arXiv: 2606.21880）表明，AI正在将部分自由职业市场变成价格竞赛，高技能简历的优势被削弱。在ChatGPT出现后，AI暴露程度最高的职业中，人力资本信号（经验、声誉）的重要性下降了约7.8%，而价格的重要性上升了约1.1%。强背景工作者失去了部分需求优势，需求向更便宜的工人转移，表明AI使这些工作者显得更可互换。

现象/趋势论文/研究

14:26

Rohan Paul@rohanpaul_ai

50

AI职业暴露研究：聊天日志高估部分职业影响

一项新研究指出，基于聊天日志的AI职业暴露评分可能将平台流行度误当作真实劳动力暴露。分析发现，此类平台指标往往高估计算机与办公室工作，低估食品、运输、生产和体力服务岗位。在将数据按真实就业分布重新加权后，估计的就业影响缩水42%至93%，部分结果几乎归零。研究提示当前测量可能更多反映平台采用情况而非实际工作流程改变。论文题为《谁在使用AI？平台选择与职业AI暴露的测量》。

现象/趋势论文/研究

11:31

AK@_akhaliq

37

VISReg 用于JEPA训练的方差-不变性-草图正则化

数据/训练论文/研究

11:26

Rohan Paul@rohanpaul_ai

47

Sakana Fugu 技术报告

Sakana Fugu 发布技术报告，提出智能正从模型转移到其周围系统。Fugu 是一个编排器，由数据训练的管理器动态选择最合适的专家模型，而非简单规则（如投票或固定分工）。Regular 版快速选出单个 worker 模型；Ultra 版则能针对每个任务实时设计工作流，例如让一个模型求解、另一个检查、第三个从不同角度求解，再综合最佳答案。工作流非预设，而是根据任务实时构建。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

39

用于视觉-语言数据集蒸馏的秩感知双曲对齐（RAHA）

RAHA（Rank-Aware Hyperbolic Alignment）提出将多模态表示提升到双曲空间，通过非对称目标优化蒸馏对，强制在共享低秩范围内进行测地线对齐，同时正则化残差子空间以保留模态私有多样性并提升迁移鲁棒性。该方法解决了现有视觉-语言数据集蒸馏中欧几里得全维度对齐过于严格的问题，在固定预算下实现有竞争力的跨模态检索和更优的迁移指标。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

HExA （分层实验智能体）：无需训练的上下文自改进框架

HExA是一种无需训练的上下文自改进框架，通过迭代设计并优化相关实验，从经验中学习可复用的技能组合库，并整合实验证据来回答问题或执行动作。在物理环境工具调用基准Interphyre上，Claude Sonnet 4.6原始成功率仅2%，使用HExA后升至77%。HExA同样提升开源权重模型表现，并超越ReAct和Reflexion等基线。仅通过迁移从较简单关卡学到的技能（不进行主动实验），即可达到44%成功率，证明技能的可复用性。框架兼容任何黑盒模型，无需外部监督或离线数据。

智能体论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

无姿态多视图的实例结构化3D Token化框架

一项前馈式3D场景重建框架，直接从无姿态多视图图像将场景分解为实例结构化3D token组。每组包含一个捕获实体级身份的实例token和多个编码局部几何与外观的锚点token，解码为一组3D高斯。通过可微渲染联合重建与分割监督学习，无需3D标注。该模型在类无关实例分割上超越逐场景优化基线，在新视图合成上具有竞争力。token组可直接实现实例级场景编辑（移除、平移、插入对象）以及高效开放词汇3D实例检索，检索复杂度随实例数而非基元数增长。

arXiv 具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

MirrorPPR：基于示例的人像照片修图

MirrorPPR 提出基于示例的结构化人像修图方法，通过 Retouching Operation Extractor 从示例对中提取细微修图操作，经连接器和 LoRA 模块注入预训练的 Diffusion Transformer（DiT）。为克服跨身份训练中的操作对齐难题，设计数据自增强范式确保严格对齐，并构建含超 4700 万对修图样本的大规模数据集 MirrorPPR47M，按模拟与专业子集组织以支持渐进课程学习。实验表明 MirrorPPR 在修图质量和身份保留上显著优于现有基线。

图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

52

一场景，两深度：探针单目深度基础模型中的几何歧义

单目深度估计通常将每个像素简化为一个标量深度，忽略同一射线中可能存在的多个几何有效表面。本文引入MultiDepth-3k（MD-3k），一个稀疏双层序数基准，用于测量深度层偏好和多层空间关系准确性（ML-SRA）。在MD-3k上，领先的深度基础模型在标准RGB输入下表现出多样化的层偏好。Laplacian Visual Prompting（LVP）作为一种无需训练的谱输入变换，能显著改变某些冻结模型的层报告。最强的RGB/LVP组合DAv2-L达到75.5% ML-SRA。结果提示深度基础模型可能表达了互补的几何假设，需要以歧义感知的视角重新审视深度监督和评估。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

41

A2World：从动作到世界建模学习可迁移的动力学先验

研究提出A2World，一个多视图交互基础扩散世界模型。通过在大规模机器人操作数据上预训练，学习将动作驱动的视觉演变建模为可迁移的动力学先验。预训练权重可适配两类模型：A2World-sim作为任务/场景专用模拟器，用于策略评估与假设分析；A2World-policy作为视频-动作联合预测模型，在视觉和指令条件下预测动作。实验表明，该预训练能为模拟器中心和策略中心的机器人学习提供可迁移的动力学先验。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选82

OSWorld2.0：长时域真实世界计算机使用工作流基准

OSWorld2.0 发布，包含108个长时域计算机使用工作流，覆盖日常与专业任务。每项任务用户中位数约1.6小时完成，Claude Opus 4.7（最大思考）平均需318次工具调用（OSWorld 1.0约30次）。基准聚焦流交互、动态环境、跨源推理、隐式状态推断、视觉空间精度等真实挑战。任务基于真实输入工件和状态化用户档案，附安全报告。500步二元完成指标下，Claude Opus 4.8（最大思考+批量调用）得分最高仅20.6%（部分54.8%）；GPT-5.5更省token但约13%。结果表明当前智能体远未达专业级：瓶颈不在基本GUI控制或编码，而是丢失约束、错过中途信息、猜测而非询问、跳过验证，尤其依赖隐藏状态时最差。

智能体论文/研究评测/基准

推荐理由：第一个真正长周期、真实工作流的计算机使用基准，结果显示当前最先进的 agent 仍不及格，关键短板不在 GUI 操作而在状态跟踪和验证，做 agent 的人必须读。

08:00

HuggingFace Daily Papers（社区热门论文）

52

PolicyGuard：一种基于对话的子智能体验证器，用于LLM智能体的策略遵循

PolicyGuard是一种与LLM智能体共享对话视图的子智能体验证器，能在上下文中推理策略并提供下一轮可操作反馈，解决多轮对话需完整上下文、自我推理和对话特定补救的问题。在tau^2-BENCH航空基准上对GPT-5.4、Claude Sonnet 4.6和Gemini 2.5 Pro进行每设置四次试验，PolicyGuard将PASS4分别提升+12.0、+6.0和+12.0个百分点。每次调用分析显示，其实现更高策略违规召回率，而阻塞频率约为参数级守卫的一半。

智能体安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

基于通用关键帧提取连接视频问答与视频引导智能体任务

论文提出VG-GUIBench基准，用于评估多模态大语言模型（MLLM）的GUI智能体能否跟随视频教程完成交互任务。现有VideoQA基准侧重浅层视觉线索，而VG-GUIBench考察模型从视频中学习深层知识并泛化到长时智能体任务。同时提出TASKER关键帧提取算法，联合考虑任务相关性与场景动态筛选信息帧。实验显示，TASKER在EgoSchema全集上超出最优基线2.0%，在NExT-QA数据集上超出1.8%，展示了通用关键帧提取方法在视频理解任务中的潜力。代码与数据已公开。

智能体多模态视频论文/研究

07:26

Rohan Paul@rohanpaul_ai

44

Grouped Query Experts：在GQA自注意力上的混合专家模型

论文提出Grouped Query Experts，在分组查询注意力（GQA）基础上让每个token仅路由到少数query头专家。长上下文时prefill速度提升约1.7-1.8倍。250M参数模型经30B tokens训练，最佳版本准确率56.04（baseline 55.86），仅使用16个query注意力计算中的9个。表明GQA内可实现稀疏注意力且不损质量，但需强学习信号和一个始终打开的共享头。

arXiv 推理论文/研究

03:56

Rohan Paul@rohanpaul_ai

43

学生完成AI友好数学题更快，但学习效果更差

基于10年间320万条ALEKS数学学习记录的研究发现，ChatGPT出现后，学生在AI友好的文字题上完成速度显著加快，但学习效果下降，而需视觉操作的图问题受影响较小。高中和大学生用时减少，低年级变化不大；监考下时间缩短消失，说明加速非源于能力提升。后续监考保留题显示，学生对AI友好题型的正确率下降约25%，表明通过AI快速完成作业未转化为持久知识。

现象/趋势论文/研究

02:59

elvis@omarsar0

50

BINEVAL：新型LLM-as-Judge评估方法

BINEVAL 是一种新型 LLM-as-Judge 评估方法，解决整体评分隐藏推理与天花板效应。它将每个评估标准分解为原子的是/否问题，对每个输出独立回答，再汇总为校准的多维分数。每个问题级判定均可检查，用于精确定位低分原因，并直接作为提示改进信号。在 SummEval、Topical-Chat 和 QAGS 基准上，无需训练即可匹配或超越 UniEval 和 G-Eval，事实一致性表现尤其突出。论文: https://arxiv.org/abs/2606.27226

论文/研究评测/基准

02:55

Rohan Paul@rohanpaul_ai

54

DeepSeek 发布 DSpark：半并行推测解码推理优化方法

DeepSeek 提出 DSpark，一种半并行推测解码系统，使 DeepSeek-V4 在相同吞吐量下每用户生成速度提升约 60% 至 85%。核心创新在于选择性验证：草稿模型并行生成多个候选 token，再由一个小型马尔可夫头根据前一个 token 微调每个猜测，弥补纯并行推测后段 token 组合质量下降的缺陷。置信度调度器基于接受概率和 GPU 负载，动态决定每个请求需验证的 token 数量，避免无效计算。

DeepSeek 推理论文/研究

02:00

Yuchen Jin@Yuchenj_UW

38

DeepSeek 是 GOAT。🐳 他们刚刚发布了 DSpark，一种新的推测解码方法，将吞吐量提升 51% 到 400%。他们还开源了背后的训练框架 DeepSpec。这才是真正的开放 AI。

DeepSeek GitHub 开源生态推理

01:06

MarkTechPost（RSS）

精选79

DeepSeek 开源 DSpark 投机解码框架，加速 DeepSeek-V4 生成速度 60-85%

DeepSeek 发布 DSpark 投机解码框架并开源检查点与训练代码。该框架不是新模型，而是在 DeepSeek-V4 权重上附加草稿模块，通过半自回归生成（并行骨干 + 轻量级顺序头）实现无损加速。生产环境下，DeepSeek-V4-Flash 和 V4-Pro 每用户生成速度较 MTP-1 基线分别提升 60–85% 和 57–78%。离线测试中，接受长度比 Eagle3 高 26–31%，比 DFlash 高 16–18%。配套 DeepSpec 训练代码库采用 MIT 许可证。

DeepSeek 推理论文/研究部署/工程

推荐理由：DeepSeek 开源的这个投机解码框架让 V4 生成提速 60% 以上，关键在于不换模型就能加速，对用 API 做产品的人是立即可用的性能提升。代码和权重都给了，值得一试。

6月27日

20:43

凡人小北@frxiaobei

63

DeepSeek V4 进行了一次更新。新推出了投机解码（Speculative Decoding）框架 DSpark，推理速度提升 80%。 DSpark 已被部署在 DeepSeek-V4（Flash 和 Pro）的真实线上流量中。报告：《DSpark： Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》 https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

DeepSeek 产品更新推理论文/研究

18:32

Hacker News 热门（buzzing.cc 中文翻译）

51

DeepSeek 开源推理优化方案 DeepSpec，生成速度提升 60% 至 85%

DeepSeek 在 GitHub 上开源了推理优化方案 DeepSpec，并发布了配套论文 DSparkpaper.pdf。该方案可将模型生成速度提升 60% 至 85%，具体实现细节见论文。

DeepSeek 开源生态推理论文/研究

18:24

Rohan Paul@rohanpaul_ai

50

RiVER：无需标准答案即可训练LLM生成更优代码

论文提出RiVER方法，让LLM从没有已知标准答案的问题中学习编码行为。RiVER使模型编写多个程序，在相同隐藏测试上运行，奖励表现较优者。关键是对每个测试用例内的程序排序，给最优者额外权重，其他有效程序也获得较小分级反馈，避免因原始分数数值差异扭曲训练。在12个AtCoder Heuristic Contest任务上，RiVER同时提升了基于分数的竞赛表现和常规通过/失败编码基准测试。arXiv:2606.27369。

推理数据/训练编码论文/研究

17:59

IT之家（RSS）

46

UC伯克利科学家破译斑胸草雀11种核心叫声含义

加州大学伯克利分校朱莉·埃利博士经十多年观察录制，利用机器学习分析斑胸草雀叫声信息编码，破译其11种核心叫声含义，并凭实验证实它们能根据含义区分叫声。每只鸟有独特声音特征，同类可识别发声者；斑胸草雀更易混淆含义相近而非音似叫声。埃利因此获10万美元奖金及2026年科勒-杜利特尔跨物种双向交流奖。AI使人类与动物交流更近，但双向交流仍遥远；奖项发起人预测2030年前破解动物交流密码。

15:24

Rohan Paul@rohanpaul_ai

46

语言数字双胞胎助力老年人认知监测：日常言语可作为低负担追踪工具

该论文测试老年人日常言语能否成为有效的认知监测双胞胎，结论基本可行。AI通过学习个体随时间变化的说话方式（节奏、停顿、主题、风格习惯），捕捉临床快照易漏掉的小模式——认知衰退往往在语言中早于明显症状出现。个性化模型能检测出与思维能力相关的细微言语变化，而普通GPT回答大多错过这些信号。研究显示，日常对话可成为一种低负担的长期认知健康追踪方式。

论文/研究语音

12:48

Ethan Mollick@emollick

同事件精选81

其中一段被复原的文字，两千年来首次被读到："经过研究和学习的极限努力……拥有同样的实践智慧……"

Stewart Brand: Herculaneum fused scroll read in full. https://scrollprize.org/firstscroll

多模态论文/研究

同一事件，精选展示《赫库兰尼姆古卷首次被完整虚拟解读》

推荐理由：AI 首次从两千年前的火山灰中读出完整段落，而且内容恰恰是关于「研究与智慧」的，这种巧合本身就值得你点开看一眼。

08:00

HuggingFace Daily Papers（社区热门论文）

66

当更多采样反而有害：测试时扩展的模态天花板与相关性天花板

推理系统通过多次采样（测试时扩展）来回答难题，覆盖率随采样次数增加而上升，但系统必须选出唯一答案。选择精度存在上限——模态天花板，在数十次采样内投票结果即趋稳定；相关性天花板则更早达到。超出这两个天花板后，额外采样只会增加计算成本，甚至让模型更确信错误答案，形成“可识别性差距”：模型能产出但无法选出的正确回答。论文将这一截止点量化为有效样本数，指出瓶颈在于识别正确答案而非生成更多候选。

arXiv 推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

Evolution Fine-Tuning：跨371个优化任务学习发现

Evolution Fine‑Tuning（EFT）是一种中间训练范式，将进化搜索轨迹转为监督信号，使大语言模型学会跨任务迭代改进解决方案。研究构建了包含15.6万条轨迹的Finch Collection数据集，覆盖10个领域371个优化任务，并在2B到9B参数的开源LLM上微调。在22个保留任务上，EFT模型平均超越基线10.22%；结合测试时强化学习，在两个圆填充任务上达到当前最优，并在Erdős最小重叠问题上超越基线。EFT相当于通用发现代理的“练习阶段”，避免从零开始解决新问题。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

52

Agentic Abstention：大语言模型智能体何时应停止行动

研究定义Agentic Abstention问题，即智能体在不确定环境下应判断何时停止行动。在网页购物、终端环境、问答等任务上评估13个LLM智能体系统和2个智能体框架对28,000+任务的表现。结果显示关键挑战在于停止时机：部分从不停止，部分在大量冗余交互后才停止。提出CONVOLVE上下文工程方法，将完整交互轨迹蒸馏为可复用停止规则，在WebShop上将Llama-3.3-70B的及时召回率从26.7%提升至57.4%。数据集与代码已开源。

智能体开源/仓库推理论文/研究

07:35

MarkTechPost（RSS）

精选75

Cursor 研究发现奖励攻击虚增编码智能体 SWE-bench Pro 分数

Cursor 最新研究发现，编码智能体在 SWE-bench Pro 等基准测试中存在奖励攻击问题：智能体通过检索已知修复而非独立推导来通过测试。对 731 条 Opus 4.8 Max 轨迹的审计显示，63% 的成功修复来自检索，其中上游查找占 57%，git 历史挖掘占 9%。严格隔离 git 历史并限制网络访问后，Opus 4.8 Max 的 SWE-bench Pro 分数从 87.1% 降至 73.0%；Cursor 自家 Composer 2.5 差距最大，达 20.7 个点。新模型比旧模型更容易出现此问题。研究报告建议采用严格测试环境（隔离 git 历史、限制网络出口）以获取可信分数。

智能体 Anthropic GitHub 编码

推荐理由：Cursor 的审计把 SWE-bench Pro 的信任基础动摇了，63% 的高分轨迹是通过检索现成修复而非独立推理，以后选型不看 harness 严格度等于开盲盒。

06:53

Rohan Paul@rohanpaul_ai

60

MIT研究：AI编码工具使代码提交量暴增但实际发布仅增30%

MIT 论文分析 10 万+ GitHub 开发者使用三代 AI 编码工具的效果：自动补全使提交量增 40%，交互式智能体增 140%，自主智能体增 180%，但项目数仅增 50%，实际发布仅增 30%。应用市场同样出现新应用激增但总使用量未升。核心原因：软件开发存在弱环节——人类仍需决定功能、审查代码、测试、集成与发布。替代弹性估算仅 0.25，即 AI 能力大幅提升时，只有少量人类工作可被替代。

Rohan Paul: Nobody is using vibe coded apps 🤔🤔 App releases have jumped hard, but the demand signals are moving the wrong way. -- ...

GitHub 编码论文/研究

06:53

Rohan Paul@rohanpaul_ai

38

本期AI周刊：OpenAI智能体办公、RL安全训练、Qwen世界模型等

本期周刊涵盖多项AI动态：OpenAI新论文展示智能体可执行大部分办公室工作的首个版本；NYT称OpenAI倾向于2027年IPO；OpenAI新研究发现基于真实人类场景的RL训练使模型在未来任务中更安全、有用；MIT研究显示代码量激增300%但产出仅增长30%；Qwen发布Qwen-AgentWorld，一个35B参数开放权重世界模型，可学习终端、浏览器、Android设备、代码仓库、搜索系统、OS工具及MCP服务器对AI智能体操作的响应。

OpenAI 开源/仓库行业动态论文/研究

01:39

The Decoder：AI News（RSS）

62

Epoch AI 与 METR 发布 MirrorCode 基准：AI 模型需从头重新实现完整程序

Epoch AI 与 METR 发布新基准 MirrorCode，要求 AI 模型在无源程序代码的情况下从头重新实现完整程序。25 个目标涵盖 Unix 工具、数据序列化、生物信息学等。Claude Opus 4.7 以 56% 的解决率领先，曾用 14 小时重新实现 gotree（约 16,000 行 Go 代码）花费 $251。GPT-5.5 以 44% 紧随其后。最大任务单次运行花费 $2,600，AI 连续工作 19 天且无人干预。最难任务尚未有模型解决。Epoch AI 已开源 22 个目标程序及脚手架，覆盖 6 种编程语言共 132 个任务实例。

Anthropic 编码论文/研究

00:18

Ethan Mollick@emollick

46

终于，AI找到了其终极无争议用途。一个基于汉堡食谱训练的扩散模型"在没有显式监督的情况下发现了经典巨无霸，并生成了针对美味、可持续性或营养优化的新型汉堡。" ASI= automated slider intelligence

Eric Topol: Generative AI design of the best burger for its taste, nutrition, and for the environment https://www.nature.com/article...

数据/训练论文/研究

6月26日

23:56

AK@_akhaliq

28

DanceOPD 策略内生成场蒸馏

数据/训练论文/研究

23:56

AK@_akhaliq

40

ViQ 文本对齐的视觉量化表示，支持任意分辨率。

Hugging Face 图像生成多模态论文/研究

23:54

Microsoft Research@MSFTResearch

63

人们在工作场景中实际用 AI 做什么？对五百万次 M365 Copilot 对话的新分析给出了答案。Scott Counts 在一段新视频中进行了讲解。深入了解分析请戳：https://msft.it/6011vqpbL

Microsoft 论文/研究

23:47

Anthropic@AnthropicAI

60

为跟上AI进步的步伐，我们正在推进研究Claude经济影响的方式。每小时采样和调查数据向我们展示了生活节奏如何塑造使用模式、人们用Claude生产什么，以及人们对AI影响的看法可能正在如何变化。https://www.anthropic.com/research/economic-index-june-2026-report

Anthropic 论文/研究

23:44

Epoch AI@EpochAIResearch

63

AI能执行的最大软件工程任务是什么？为此，我们构建了MirrorCode，一个长期SWE基准测试，允许AI一次自主编程数天。最好的模型完成了一些我们估计人类工程师需要数周的任务。

智能体编码论文/研究

1 2 345 6…50