5月21日

08:00

HuggingFace Daily Papers（社区热门论文）

研究比较了按时间顺序排列数据与传统打乱数据两种预训练方式，针对一个在6B参数模型上训练的实验。研究引入了包含超过7000个时间锚定问题的新基准。结果发现，时间有序预训练的模型在通用语言能力上与打乱预训练基线持平，但其知识更及时、时间定位更准确；打乱预训练则在旧数据上表现达到峰值。代码、模型检查点和数据集已开源。

arXiv GitHub 开源生态数据/训练

5月20日

21:08

HuggingFace Daily Papers（社区热门论文）

精选74

优化_anything：通用文本参数优化API

该研究提出了一种基于大语言模型的通用文本优化系统，将优化问题统一表述为通过评分函数改进文本产物。在六项任务中达到最优结果：智能体架构使Gemini Flash在ARC-AGI上的准确率从32.5%提升至89.5%；调度算法降低40%云成本；87%的CUDA内核匹配或超越PyTorch表现；圆包装问题超越AlphaEvolve。实验表明，可操作的附加信息比仅使用分数反馈收敛更快、得分更高；多任务搜索通过跨任务迁移学习，在同等预算下优于独立优化，且任务数量越多收益越大。该工作首次证明基于LLM的文本优化是通用问题解决范式，能统一传统领域特定算法。系统已开源，支持多种后端。

智能体 arXiv GitHub 搜索

推荐理由：让一个LLM同时优化agent架构、调度算法和CUDA内核，还能将ARC-AGI从32%拉到89%，这可能是今年最突破认知的通用问题求解范式，做agent的人必须看。

15:07

HuggingFace Daily Papers（社区热门论文）

精选72

CopT：基于连续空间对比验证的在策略推理

CopT提出了一种反转传统链式思考（CoT）顺序的推理框架：先生成草稿答案，再进行策略内反思。其核心是将连续嵌入向量转化为推理时的对比验证器，通过比较模型在离散令牌与连续嵌入输入下对同一生成令牌的支持度，构建序列级反向KL估计器，以此评估答案的可靠性。当答案不可靠时，CopT会执行进一步思考，并利用第二个KL估计器动态控制草稿答案的可见性，在保留有用信息与规避误导间取得平衡。在无需额外训练的前提下，该方法在数学、编程等任务上显著提升了准确率（最高达23%）并大幅减少了令牌消耗（高达57%）。

智能体 GitHub 推理论文/研究

推荐理由：CopT把推理流程反了过来，先草稿答案再自我反思，用连续嵌入对比验证可靠性，在数学/编码/Agent任务上提点23%省token57%，思路可能改写推理范式。

10:55

IT之家（RSS）

精选74

消息称微软内部示警：GitHub 面临生存级风险，AI 编程工具削弱托管必要性

微软内部发出警告，称其代码托管平台GitHub正面临“生存级风险”。主要原因是Cursor、Claude Code等AI编程助手兴起，改变了开发者工作流，削弱了持续将代码上传至GitHub的必要性。为统一工具链并控制成本，微软已要求部分团队在2026年6月底前停止试用Claude Code，转而使用自有工具GitHub Copilot CLI。同时，OpenAI曾考虑自建替代平台，也加剧了对GitHub地位的潜在威胁。

智能体 GitHub Microsoft 编码

推荐理由：微软内部把 GitHub 风险定义为“生存级”，这不再是外部竞争猜测，AI 编程工具真的在动摇代码托管的根基。