研究比较了按时间顺序排列数据与传统打乱数据两种预训练方式,针对一个在6B参数模型上训练的实验。研究引入了包含超过7000个时间锚定问题的新基准。结果发现,时间有序预训练的模型在通用语言能力上与打乱预训练基线持平,但其知识更及时、时间定位更准确;打乱预训练则在旧数据上表现达到峰值。代码、模型检查点和数据集已开源。
研究比较了按时间顺序排列数据与传统打乱数据两种预训练方式,针对一个在6B参数模型上训练的实验。研究引入了包含超过7000个时间锚定问题的新基准。结果发现,时间有序预训练的模型在通用语言能力上与打乱预训练基线持平,但其知识更及时、时间定位更准确;打乱预训练则在旧数据上表现达到峰值。代码、模型检查点和数据集已开源。
该研究提出了一种基于大语言模型的通用文本优化系统,将优化问题统一表述为通过评分函数改进文本产物。在六项任务中达到最优结果:智能体架构使Gemini Flash在ARC-AGI上的准确率从32.5%提升至89.5%;调度算法降低40%云成本;87%的CUDA内核匹配或超越PyTorch表现;圆包装问题超越AlphaEvolve。实验表明,可操作的附加信息比仅使用分数反馈收敛更快、得分更高;多任务搜索通过跨任务迁移学习,在同等预算下优于独立优化,且任务数量越多收益越大。该工作首次证明基于LLM的文本优化是通用问题解决范式,能统一传统领域特定算法。系统已开源,支持多种后端。
CopT提出了一种反转传统链式思考(CoT)顺序的推理框架:先生成草稿答案,再进行策略内反思。其核心是将连续嵌入向量转化为推理时的对比验证器,通过比较模型在离散令牌与连续嵌入输入下对同一生成令牌的支持度,构建序列级反向KL估计器,以此评估答案的可靠性。当答案不可靠时,CopT会执行进一步思考,并利用第二个KL估计器动态控制草稿答案的可见性,在保留有用信息与规避误导间取得平衡。在无需额外训练的前提下,该方法在数学、编程等任务上显著提升了准确率(最高达23%)并大幅减少了令牌消耗(高达57%)。
微软内部发出警告,称其代码托管平台GitHub正面临“生存级风险”。主要原因是Cursor、Claude Code等AI编程助手兴起,改变了开发者工作流,削弱了持续将代码上传至GitHub的必要性。为统一工具链并控制成本,微软已要求部分团队在2026年6月底前停止试用Claude Code,转而使用自有工具GitHub Copilot CLI。同时,OpenAI曾考虑自建替代平台,也加剧了对GitHub地位的潜在威胁。
GitHub 上出现了开源项目 Remove–AI–Watermarks,提供命令行工具与库两种形式,可自动识别并移除图像中由 AI 生成的隐藏水印。该项目旨在提供便捷的技术方案,以应对 AI 内容标识带来的编辑与再利用限制,目前在开发者社区已获得较高关注。
datasette-llm 发布 0.1a8 版本。本次更新主要修复了 llm_prompt_context() 钩子未能完整收集响应链的 bug,该问题对应 GitHub 问题 #7。此次版本发布为用户提供了更稳定和可靠的交互体验。
llm-gemini发布了0.32a0版本。此次更新要求llm版本不低于0.32a0的alpha版,其核心变化是新增了流式处理推理token的功能。
本研究针对扩散模型去除预训练阶段不安全内容时面临的监督数据昂贵及离线方法易导致灾难性遗忘等问题,提出了SafeDiffusion-R1在线强化学习框架。该框架采用组相对策略优化算法,在正负文本提示上进行后训练,无需依赖配对监督数据。其核心在于引入了一种奖励引导机制,直接利用CLIP嵌入特性,在嵌入空间中引导文本表征向安全方向优化,从而无需微调专门的安全奖励模型。实验表明,该方法将不安全内容生成比例从48.9%降至18.07%,裸体检测数大幅减少,同时提升了组合生成质量,并可泛化至多种危害类别,达到当前最优水平。
针对长上下文与多模态大语言模型中KV缓存内存占用高的瓶颈,本文提出了OScaR压缩框架。研究发现,传统逐通道量化在极端压缩下受限于“令牌范数不平衡”问题。OScaR通过“渠道化旋转”与“全令牌缩放”两项轻量技术,有效缓解了该不平衡带来的量化误差,无需复杂流程。在多种大模型上的实验表明,OScaR在INT2量化下可实现近乎无损的性能,相比基准解码速度提升最高达3.0倍,内存占用减少5.3倍,吞吐量增加4.1倍,为极致KV缓存压缩提供了高效通用方案。
GitHub为Copilot功能推出了远程控制会话能力,并已全面上线。该功能允许用户在VS Code或命令行中启动Copilot任务后,可随时随地通过github.com网站或GitHub Mobile移动端应用继续操作,实现了开发工作流从桌面端到移动端的无缝衔接。此更新增强了开发者在不同场景下的灵活性和工作效率。
针对现有城市建筑能耗建模多为预测性、缺乏生成能力且数据稀缺的问题,本文提出了一个名为SENSE的统一生成式框架。该框架能够基于可控扩散模型,联合合成逼真的城市卫星图像以及与之对齐的高质量建筑能耗与高度图。其通过道路网络和城市密度指标进行条件控制,并利用大型视觉模型在潜在空间生成标注信息。在纽约等四个城市的实验表明,SENSE生成的图像视觉保真度高,且符合物理标准。该模型能利用少量标注数据生成合成数据集,显著提升了下游预测任务的性能并降低了误差,为城市可持续规划提供了新方案。
Semble是一款面向AI代理的代码搜索工具,其核心优势在于比传统工具grep节省98%的令牌使用量。该工具已在GitHub开源,并在Hacker News上获得106点热度。这一效率提升旨在降低AI代理处理代码搜索时的计算资源消耗与成本。
作者为准备PyCon US闪电演讲,使用first_line_history.py工具追溯了OpenClaw项目自2025年11月首次提交以来的名称演变。根据Git历史记录,该项目在短短两个多月内经历了六次更名:从最初的Warelay,依次变为CLAWDIS、CLAWDBOT、Clawdbot、Moltbot,最终定名为OpenClaw。其定位也从基于Twilio的WhatsApp中继命令行工具,逐步演变为支持WhatsApp和Telegram的AI代理网关,最终定型为“个人AI助手”。
Orthrus-Qwen3项目在Qwen3模型上实现了每次前向传播最高可处理7.8个令牌的性能,同时确保输出分布与原版模型完全一致。该项目已在GitHub开源,并在Hacker News社区获得102点热度。这一优化显著提升了模型推理效率,且保持了生成结果的准确性。
研究发现,可验证奖励强化学习虽能提升语言模型的推理能力,但存在一种反直觉现象:在模型初始难以处理的困难样本中,有相当一部分即使提供正确答案也无法被学习。通过跨样本梯度分析,研究揭示了不可学习样本的根本性表征缺陷,其特征是与其他样本梯度相似性低且推理模式难以泛化,而数据增强无法改善这一问题。该研究首次系统描述了训练中的不可学习数据现象,并指出当前强化学习方法在推理任务上存在根本性局限。
GitHub正在试点一项实验性的通用无障碍智能体。该项目旨在探索如何利用AI技术提升软件的可访问性,通过智能体自动识别并修复代码中的无障碍问题。试点过程中,团队总结了关键经验,包括需要平衡自动化建议与开发者控制权,以及如何有效处理不同编程语境下的多样化无障碍需求。这项实验是GitHub Copilot在AI辅助编程领域的进一步探索,致力于让开发工具更具包容性。
研究团队在NeurIPS 2025上提出ARGenSeg,将图像分割转化为自回归生成过程,逐像素预测分割掩码。该方法利用大规模预训练自回归图像生成模型(如GPT风格视觉模型)的表征与序列建模能力,无需专门架构设计或大量标注数据。实验证明,其在多个标准数据集上性能具有竞争力,展现了生成式基础模型处理判别式视觉任务的潜力。
针对传统检索无法理解复杂意图、而前沿大语言模型成本高且存在幻觉的问题,研究团队提出了自我进化的智能文献检索系统PaSaMaster。该系统通过迭代式意图分析、检索与排序,将文献检索转变为动态演进的过程,并采用三项关键设计:利用排序证据揭示信息缺口以优化搜索;将检索定义为意图-论文相关性排序任务,从根本上杜绝虚假文献;通过分离规划与检索来提升效率,仅用大模型理解意图,而将大规模检索与评分交由轻量模型处理。在涵盖38个学科的基准测试中,该系统将传统关键词检索的F1分数提升15.6倍,完全消除了文献幻觉,且性能超越GPT-5.2达30%,计算成本仅为后者的1%。
开源工具 datasette-agent 发布了 0.1a2 版本。此版本的主要更新在于,工具的可用性现在可以与特定的权限(required_permission)进行绑定。默认提供的后台代理工具现在需要新的 datasette-agent-background 权限才能访问。此次发布关联了 datasette 与 datasette-agent 两个核心项目。
现有无训练长视频生成方法因历史KV状态功能纠缠,在处理提示切换、场景遗忘与召回等交互式场景时存在瓶颈。为此,本文提出Echo-Forcing框架,包含三个核心机制:分层时间记忆、场景回放帧与差异感知记忆衰减,分别用于解耦和管理历史信息、压缩长期场景、以及自适应遗忘冲突内容。该框架能在有限缓存预算下,支持视频的平滑过渡、硬切与长程召回。在VBench-Long上的评估表明,Echo-Forcing在长视频与交互式视频生成任务中均取得了最佳整体性能。
针对SAM2在音频模态整合上的不足,本文提出AuralSAM2。其核心模块AuralFuser融合音频与视觉特征,生成稀疏和密集提示,并基于SAM2的特征金字塔在视觉层间传播音频线索,以强化跨模态影响。同时,引入音频引导对比损失函数,进一步对齐音频与视觉特征。实验表明,该方法在公开基准上显著提升了准确率,同时将对SAM2可提示分割交互效率的影响降至最低。
Statewright发布了一个开源的可视化状态机工具,旨在通过图形化界面提升人工智能代理的可靠性。该工具允许开发者直观地设计和监控AI代理的状态转换,简化开发流程,减少错误并增强系统稳定性。在Hacker News上,该项目获得101个点赞,显示出技术社区对其创新性的关注。开发者可通过GitHub访问代码,将其集成到AI项目中以提高可维护性和性能。
针对基于Transformer的多视图3D重建模型效率低下的问题,本文提出Lite3R框架。该框架采用模型无关的师生架构,以稀疏线性注意力替代密集注意力来降低计算开销,并引入参数高效的FP8感知量化训练策略。该策略结合部分注意力蒸馏,冻结大部分预训练骨干参数,仅微调轻量线性分支投影层,从而实现稳定的低精度部署。在VGGT和DA3-Large骨干网络上的实验表明,Lite3R在BlendedMVS和DTU64数据集上能显著降低延迟(1.7-2.0倍)和内存占用(1.9-2.4倍),同时保持整体重建质量的竞争力。
针对深度网络中传统注意力残差连接因累积状态冗余而导致路由能力受限的问题,本文提出Delta注意力残差机制。该方法不直接关注历史层的累积隐藏状态,而是关注每层子网络引入的增量变化(即输出差值)。这种增量表示结构更多样,能生成对比度更高的注意力分布,从而实现更精准、有效的跨层信息路由。在220M至7.6B参数规模的模型上进行的实验表明,该方法在验证集困惑度上相较于标准残差和标准注意力残差均有1.7%-8.2%的稳定提升,并可通过标准微调应用于预训练模型。
本次更新包含多项错误修复与体验优化。核心改进包括:增强了Agent工具的subagent_type匹配逻辑,现对大小写和分隔符不敏感;修复了/goal命令在特定钩子设置下无响应的问题,现会显示明确提示;解决了Windows系统上因缺失可执行文件导致的周期性事件循环停滞。此外,还修正了后台服务启动、远程设置认证重试、托管市场更新策略持久化、/loop命令调度冗余以及Read工具参数验证等多个问题。插件系统现会对因配置冲突而被静默忽略的默认组件文件夹发出警告。
GitHub 宣布从6月1日起更新 Copilot 个人计划阵容,基于用户反馈进行调整。主要变化包括在现有 Pro 和 Pro+ 计划中引入弹性配额机制,允许用户更灵活地分配使用量;同时新增 Max 计划,扩展高级选项。此次更新旨在提升计划的可定制性,为开发者提供更个性化的编程辅助服务,优化整体使用体验。
一位 GitHub 员工利用 GitHub Copilot CLI 开发了一款扩展程序,能够将任何代码库转换成一个独特的 Roguelike 风格地下城。该工具通过 AI 辅助的代码生成,实现了程序化关卡创建,展示了 Copilot CLI 在创意编码和游戏原型开发中的实际应用潜力。项目核心是自动解析代码结构并生成对应的可探索地下城布局。
Hermes桌面版发布2026.510.1更新,修复桌面打包问题,确保WebUI优先使用捆绑的hermes-agent运行时,并抑制误导性Git更新提示。此次更新捆绑hermes-agent 0.13.0与hermes-webui 0.51.34,新增macOS arm64 DMG和ZIP安装包,提升安装一致性。
针对工具增强型LLM代理过度调用工具的问题,研究提出了When2Tool基准,系统评估工具调用必要性。研究发现,尽管提示优化和“推理后行动”等免训练方法效果有限,但模型隐藏状态已线性编码了工具必要性信息(AUROC达0.89-0.96)。基于此提出的Probe&Prefill方法,通过轻量级线性探针读取隐藏信号并预填充引导句,在测试的所有模型中实现了工具调用减少48%而准确率仅损失1.7%的显著效果,远超现有基线。
本文提出跨语言在线策略自蒸馏方法(COPSD),以提升大语言模型在低资源语言上的数学推理能力。该方法将同一模型同时作为学生和教师:学生仅接收低资源语言问题,教师则额外获得英文翻译和参考解答作为上下文。通过最小化学生自身输出与教师指导间的全分布令牌级分歧进行训练,提供了密集监督,避免了仅基于结果的强化学习的稀疏性与不稳定性。在17种低资源非洲语言上的实验表明,COPSD能持续提升不同规模模型的推理性能,显著优于GRPO基准,并改善了答案格式遵循与测试时缩放能力,对资源极少的语言效果尤为显著。
研究团队提出Sub-JEPA方法,以解决联合嵌入预测架构训练中的偏差-方差权衡问题。该方法放弃在原始高维嵌入空间直接施加各向同性高斯先验,转而通过在多个随机子空间中施加高斯约束,从而放松了全局限制,同时保留了防止模型崩溃的效果,在训练稳定性与表示灵活性间取得了更好平衡。在四个连续控制环境中的实验表明,该方法以明显优势持续超越了此前基于各向同性高斯先验的LeWorldModel方法。该方法简单有效,为未来基于JEPA的世界模型研究提供了有力基线。
针对人体图像动画中高自由度、复杂的手部动作生成难题,研究者提出了隐式偏好对齐框架。该方法无需构建严格配对的偏好数据,通过最大化自生成高质量样本的似然并惩罚与预训练先验的偏差来实现模型对齐。框架还引入了手部感知局部优化机制,以显式引导手部区域的生成质量。实验表明,该方法能有效优化手部生成质量,同时大幅降低了构建偏好数据的门槛。相关代码已开源。
针对在线策略蒸馏依赖教师模型逻辑概率、局限于白盒场景的问题,本研究提出了ROPD框架。该方法利用结构化语义量规替代教师逻辑概率,仅需教师生成的响应即可工作,实现了黑盒兼容。ROPD通过对比师生响应差异,自动生成针对特定提示的量规,并据此对学生模型输出进行评分与在线策略优化。实验证明,该方法在多数场景下超越了先进的基于逻辑概率的在线策略蒸馏方法,样本效率最高可提升10倍,为在专有与开源大模型间进行可扩展的蒸馏提供了一个灵活且强大的基线方案。
GitHub 发现运行于每个拉取请求的智能体工作流会累积高昂的 API 成本。团队通过监测自身生产工作流,定位了效率低下的环节,并构建了专门的智能体进行优化。这一举措旨在显著降低由大语言模型调用产生的 Token 消耗与相关费用,直接提升了工作流的经济性与运行效率。
作者开发了一个名为“GitHub Repo Stats”的在线工具,用于解决GitHub移动端网站不显示仓库提交次数的问题。用户只需输入GitHub仓库的URL或“foo/bar”格式的仓库ID,该工具便会通过REST或GraphQL API获取并展示仓库的关键统计数据,其中首要指标就是提交总数。工具已提供实际示例,如查看simonw/datasette和simonw/llm这两个仓库的详细数据。
这份指南提供了审查由AI代理生成的pull requests的实用方法,重点包括审查时应关注的代码变更点、问题常见隐藏位置(如逻辑错误或安全漏洞),以及如何在代码合并前捕捉技术债务。它通过具体步骤帮助开发者系统评估自动化提交,确保代码质量,避免缺陷流入生产环境。指南强调主动审查策略,以应对AI代理在软件开发中日益普及的趋势。
小米AI实验室开源多语言语音克隆TTS模型OmniVoice,覆盖600余种语言。该模型采用极简双向Transformer架构,无需复杂结构即可实现文本到语音的直接转换。其语音合成质量超越同类主流模型,训练速度可达一天10万小时。关键设计包括全码本随机掩蔽策略和引入大语言模型预训练参数,显著提升训练效率与语音可懂度。测试显示,在多种语言中其相似度与可懂度超越多款商用系统,并对低资源小语种也能实现高质量合成。模型还支持自定义音色、带噪音频适配等实用功能。
GitHub 探讨如何为 Copilot 编码智能体构建“信任层”。文章提出,在“正确”答案非确定性的场景下,可通过领域分析来验证智能体的自主行为,避免使用脆弱的脚本或黑盒判断。该方法旨在提升 AI 编码助手的可靠性与透明度,确保其行为符合预期标准。
GitHub开源项目“llm-from-scratch”提供了从零开始训练大型语言模型的完整指南。该项目详细阐述了构建现代LLM所需的核心组件,包括分词器、Transformer架构、预训练与微调流程。指南强调通过实践理解模型内部机制,而非直接调用现有API。项目在Hacker News社区获得广泛关注,收获293点热度,反映出开发者对深入掌握LLM底层技术的强烈需求。
作者受 antirez 将 TRE 正则表达式引擎集成到 Redis 的启发,深入探索了 Ville Laurikari 开发的 TRE 引擎。他利用 Claude Code 构建了一个基于 ctypes 的实验性 Python 绑定库,并针对该库进行了一系列恶意的正则表达式攻击测试。结果显示,由于 TRE 引擎不支持回溯机制,其在抵御这些攻击方面的表现远优于 Python 标准库中的正则表达式实现。