OpenClaw 社区将于微软 Build 2026 大会期间,在 GitHub 总部举办线下聚会。活动将包含项目演示和交流环节。参与者可选择亲临现场,或通过 Twitch 平台观看线上直播。
OpenClaw 社区将于微软 Build 2026 大会期间,在 GitHub 总部举办线下聚会。活动将包含项目演示和交流环节。参与者可选择亲临现场,或通过 Twitch 平台观看线上直播。
检索增强生成(RAG)方法通过筛选相关上下文提升大型语言模型性能,但传统单步检索难以应对复杂问题。现有多步检索方法通常微调小型LLMs,资源消耗大且无法利用更大模型。本研究提出Q-RAG,采用强化学习微调嵌入器模型以实现多步检索,避免了资源密集问题。该方法在开放域问答任务中提供资源高效的替代方案,并在长上下文基准测试BabiLong和RULER上取得最先进结果,支持高达1000万词元的上下文。代码已开源。
针对数字、地址、品牌名等细分领域的印度语言自动语音识别,现有开源与商业系统表现不佳。研究通过构建自循环的TTS-STT飞轮系统,以低成本合成了约2.2万条印英混合的实体密集语音数据。基于此数据对开源模型进行LoRA微调后,在泰卢固语测试集上的实体命中率提升至0.473,较最佳开源模型提升17倍,较商业系统提升3倍,同时在通用数据集上的词错误率仅小幅增加。该方法在印地语和泰米尔语上也验证有效,并确认了合成数据向真实语音的迁移能力。全部代码、测试集与语料库均已开源。
本文通过“编排轨迹”研究LLM多智能体系统的强化学习,聚焦工作生成、委派、通信、聚合与终止等协同过程。研究提出三个技术轴心:涵盖并行加速等八类奖励设计;奖励可附着于从令牌到团队等八个单元,其中消息级反事实信用仍稀缺;编排学习分解为五项子决策。截至2026年5月4日,文献中尚未发现针对终止决策的显式强化学习方法。研究关联了学术方法与工业实践,指出公开部署规模与学术评估体系间存在差距,并开源了相关资源。
研究提出新视角,将注意力机制数学重构为具有动态预测参数的多层感知机,从而解释其全局建模能力源于动态参数对全局上下文的隐式压缩表征。基于此,研究探索能否完全通过动态参数化实现Transformer级别的序列全局建模,同时保持线性复杂度以替代显式注意力。通过在视觉模型上进行大量实证研究,证实动态参数化确实可以作为一种高效、线性复杂度的显式注意力替代方案,为高效序列建模开辟了新途径。相关代码已开源。
自回归视频生成因顺序去噪计算负担重而面临部署挑战。现有缓存重用方法采用粗粒度的块级跳过,无法捕捉细粒度像素动态。为此,研究提出MotionCache运动感知缓存框架,其核心是利用帧间差异作为像素级运动特征的轻量级代理。该方法采用从粗到细的策略:初始预热阶段建立语义连贯性,随后根据运动权重动态调整每个令牌的缓存更新频率。在SkyReels-V2和MAGI-1等先进模型上的实验表明,MotionCache分别实现了6.28倍和1.64倍的显著加速,同时有效保持了生成质量(VBench指标下降分别仅为1%和0.01%)。该框架代码已开源。
本文针对多模态大语言模型在非平稳环境中推理分布多样化且不可预测的挑战,提出将多源推理对齐视为概念漂移下的约束满足问题。我们设计了自主偏好优化框架,将模型间分歧作为动态负约束处理。该框架通过监督引导将目标模型投射到源模型能力联合中,再利用约束感知优化,通过多负Plackett-Luce目标抑制漂移轨迹,合成一致的共识流形。在胸部X射线解释任务上的实验表明,我们的70亿参数模型展现出卓越的鲁棒性,平均准确率甚至超过专有源模型。同时,我们发布了包含170,982条推理轨迹的大规模基准CXR-MAX,以推动相关研究。
本文提出EnergyFlow框架,通过参数化一个标量能量函数,将生成式动作建模与逆强化学习统一起来。该框架证明,在最大熵最优性下,通过去噪分数匹配学到的分数函数可恢复专家软Q函数的梯度,从而无需对抗训练即可提取奖励。理论分析表明,约束学习场为保守场能降低假设复杂性并收紧分布外泛化界限。实验显示,EnergyFlow在各种操作任务上实现了最先进的模仿性能,其提供的奖励信号在下游强化学习中优于对抗性IRL和基于似然的方法。这表明有效的奖励提取约束本身即是有益于策略泛化的归纳偏置。
针对大型多模态模型后训练中SFT阶段引发的分布漂移问题,研究团队提出了PRISM三阶段流程。它在监督微调与强化学习验证奖励之间,新增了一个基于在线策略蒸馏的显式分布对齐阶段。该阶段将对齐构建为策略与混合专家判别器之间的黑盒对抗游戏,由感知和推理专家提供解耦的纠正信号。团队使用来自Gemini 3 Flash的11.3万条高保真演示进行对齐。在Qwen3-VL上的实验表明,PRISM能持续提升下游强化学习性能,使4B和8B模型在多个基准上的平均准确率较基线分别提升4.4和6.0个百分点。
BlenderRAG是一个检索增强生成系统,能够从自然语言描述自动生成可执行的Blender代码。该系统基于一个包含500个经专家验证的多模态样本(文本、代码、图像)的数据集,覆盖50种物体类别。在代码生成过程中,系统通过检索语义相似的示例来引导大语言模型,从而将四大前沿模型的代码编译成功率从40.8%显著提升至70.0%,并将语义对齐度(CLIP相似度)从0.41提高到0.77。该方法无需对模型进行微调或使用专用硬件,可立即部署使用。相关数据集和代码已在GitHub开源。
GitHub Copilot CLI 提供了交互与非交互两种主要使用模式。交互模式允许用户通过对话式指令逐步构建和调整命令,适合探索性任务。非交互模式则支持直接输入完整指令快速执行,适用于自动化脚本或已知命令。理解这两种模式的区别能帮助开发者更高效地利用该工具,提升命令行工作效率。
Vera 是一种新型编程语言,专为机器自动编写代码而设计,旨在推动编程自动化。该语言已在 GitHub 平台开源发布,项目地址为 github.com/aallan/vera。自亮相以来,在技术社区 Hacker News 上引发热议,相关帖子获得了 100 点的热度指标,显示出业界对其创新潜力的广泛关注。
Mozilla在GitHub上公开反对谷歌Chrome提出的Prompt API新标准。该API旨在让网站直接调用浏览器内置的大型语言模型,但Mozilla认为这存在重大隐私和安全风险,可能使网站过度获取用户敏感信息。目前该提案已获得110个Hacker News社区点赞,引发技术社区对浏览器权限与AI集成边界的广泛讨论。
llm 发布了 0.32a1 版本,修复了 0.32a0 版本中存在的一个关键缺陷。该缺陷会导致从 SQLite 数据库重新加载时,工具调用对话无法正确恢复。此次更新解决了 GitHub 上的 issue #1426。
研究团队发布了EDU-CIRCUIT-HW数据集,包含1300多份大学STEM课程的真实学生手写解答。该研究利用专家核对的转录文本与评分报告,同步评估了多种多模态大语言模型的上游识别准确性与下游自动评分性能。评估发现,模型识别的手写内容中存在大量潜在错误,表明其在高风险教育场景中用于自动评分等理解型任务的可靠性不足。一项案例研究表明,通过识别错误模式进行预先检测与纠正,仅需极少人工干预(例如将3.3%的作业交由人工评分),即可有效提升AI评分系统的鲁棒性。代码与数据集已开源。
LLM Python库和CLI工具发布0.32a0 alpha版本,进行了两项核心架构升级。首先,模型输入现支持表示为消息序列,能直接处理包含多轮对话历史的完整上下文,解决了此前难以载入已有对话的局限。其次,模型响应升级为支持由不同类型部分组成的流式输出,以更好地适配现代前沿模型处理多样化输入(如图像、音频)和输出(如结构化JSON、工具调用)的能力。此次重构旨在让该库的抽象层跟上LLM技术自2023年以来的快速演进。
AI 编程热潮推动 GitHub 用户规模爆发式增长,平台频发故障后启动底层基础设施重构。2025年10月,GitHub 计划扩容至原有承载能力的10倍,但预计未来业务规模将达当前30倍。增长压力导致稳定性问题,如4月23日故障影响658个代码仓库和2092个合并请求。GitHub 正优先保障服务可用性,迁移算力至微软 Azure,物理隔离 Git 等核心服务,并推进多云架构以提升抗故障能力。
安全机构披露 GitHub 存在高危漏洞 CVE-2026-3854,攻击者仅需一条标准 git push 命令,即可利用 X-Stat 标头注入缺陷在 GitHub 后端执行任意代码,从而访问数百万公共和私有仓库。GitHub 在接报后 6 小时内修复了云端平台并发布了企业版补丁,但仍有 88% 的企业版实例未升级,需立即更新至 3.19.3 或更高版本。此次漏洞是首次利用 AI 辅助工具发现,标志着 AI 技术正重塑安全研究。
GitHub服务目前出现故障,用户访问受到影响。故障状态可通过其官方状态页面(www.githubstatus.com)实时查看。该事件在技术社区Hacker News上引发关注,相关讨论帖获得了137个社区积分。故障发生时间记录为2026年4月27日17:42(UTC时间)。
Gas City 是 Gas Town 的彻底重写版本,作为构建自定义智能体工厂的 SDK 于本周发布 v1.0.0。它将技术栈解构为可组合的、声明式的 “pack” 构建块,用于部署任意拓扑的协作智能体团队。系统默认包含一个完整的 “Gas Town” pack,可作为原版的直接替代品。Gas City 基于 MEOW 栈和 Dolt 构建,提供智能体身份、消息传递、上下文、状态等开箱即用的服务,并暴露 Factory Worker API,完全开源并采用 MIT 许可证。
研究团队推出了AgentSearchBench,这是一个用于评估真实场景下AI智能体搜索能力的大规模基准。该基准从多个提供方收集了近10,000个真实世界智能体,将智能体搜索形式化为可执行任务查询和高级任务描述下的检索与重排序问题,并利用基于执行结果的性能信号来评估相关性。实验表明,语义相似性与智能体实际性能之间存在持续差距,暴露了仅基于描述进行检索和重排序方法的局限性。研究进一步证明,轻量级的行为信号(包括执行感知探测)能显著提升排序质量,凸显了将执行信号纳入智能体发现过程的重要性。相关代码已开源。
GitHub于4月20日宣布调整Copilot个人订阅方案,暂停Student、Pro及Pro+方案的新用户注册以保障现有用户服务质量,仅保留免费版向新用户开放。Pro方案不再提供Opus模型,该模型仅在Pro+中保留4.7版本。Pro+提供的使用额度达Pro的5倍以上。若用户不满调整,可在4月20日至5月20日期间申请取消订阅并获4月费用全额退款。
GitHub 宣布调整 Copilot Individual 个人版订阅计划,旨在确保现有用户获得更稳定、可预测的服务体验。官方表示此次变更将提升产品可靠性,但未披露具体调整内容、生效时间及定价变化等细节,完整信息有待官方进一步公布。
技术博客awesomeagents.ai发布针对GitHub平台虚假star现象的深度调查,揭露开发者通过购买虚假点赞人为提升项目可信度与曝光度的灰色产业链。该报道在Hacker News技术社区获得106个点赞关注。调查涉及虚假star的交易机制、对开源生态的影响及平台检测难题,但具体交易规模与涉案账号数量等详细数据需查阅原文完整报告获取。
开发者在 Rubber Duck Thursday 直播中展示了使用 GitHub Copilot CLI 构建 emoji 列表生成器的完整过程。该项目通过 AI 编程助手在命令行界面实现快速开发,演示了如何利用 GitHub Copilot CLI 生成功能性工具代码,体现了 AI 辅助编程在提升开发效率与快速原型制作方面的实际应用。
MacMind是一个在1989年款Macintosh电脑上运行的变压器神经网络项目,使用苹果经典的HyperCard超媒体工具开发。该项目将现代Transformer架构完整移植到36年前的复古硬件上,突破了早期Mac的内存与性能限制。开发者已将代码开源至GitHub,项目在Hacker News发布当日获得102个赞,展现了复古计算与现代AI结合的工程挑战。
跨平台多媒体库SDL维护团队发布新规,明确禁止向代码仓库提交由人工智能生成的commit。该政策通过GitHub issue #15350正式公布,引发开发者社区广泛讨论,在Hacker News上获得超100个赞。这一决定标志着主流开源项目开始对AI生成代码的contributions采取明确限制措施。
NousResearch 发布了 Hermes Agent 的桌面客户端 v0.1.0,提供一键安装体验。该客户端内置了 Python 3.11 和 Node.js 22 等运行环境,实现零依赖部署。它集成了 hermes-webui 聊天界面,支持会话管理、文件上传与技能编辑。安装向导支持 Anthropic、OpenAI、Google 等 7 种 AI 服务商,并特别优化了 Ollama 本地模型的使用(无需 API Key)。客户端适用于 macOS (Apple Silicon) 和 Windows (x64) 平台,可通过系统托盘后台运行,并会自动安装 hermes CLI 命令。
一位 GitHub 工程师基于 GitHub Copilot CLI 构建了个人组织指挥中心,详细展示了 AI 如何辅助该生产力工具的开发全过程。这一实践案例记录了从需求构思到功能实现的技术细节,体现了 AI 编程助手在加速个人项目开发和提升工作效率中的实际应用价值。
GitHub Secure Code Game是一款免费开源的安全训练游戏,设置五个渐进式挑战教授开发者发现和利用真实世界的agentic AI漏洞。目前已有超过10,000名开发者使用该游戏磨练安全技能,以提升对智能体AI系统的安全防护能力。
Linux 内核官方文档新增 coding-assistants.rst,明确贡献者使用 AI 辅助工具时的披露义务与代码审查标准,要求声明 AI 生成内容并确保符合内核编码规范,为开源大型项目整合 LLM 提供首个官方指引框架。
Lightfeed Extractor 发布基于 TypeScript 的 LLM 网页数据提取库,支持通过自然语言提示和 Zod schema 从 HTML、Markdown 或纯文本中提取结构化数据。核心功能包括 HTML 转 Markdown 预处理、JSON 模式输出、失败 JSON 自动修复及 token 追踪。可与 Playwright 集成加载动态页面,或配合 browser-agent 实现自然语言导航后提取,适用于电商竞品监控等生产级场景。
Wasteland是一个将众多Gas Town联合成协作信任网络的平台,旨在加速构建。其核心是共享的“悬赏板”,人们在此发布想法,其他人使用Gas Town协助构建,贡献者可获得信用与声誉。平台采用Git的fork/merge模型管理工作流程,并引入印章、排行榜等游戏化元素。它构建了一个公开、可移植的贡献记录与技能系统。该项目由志愿者团队打造,其Discord和GitHub社区活跃。
小红书发布移动端代码库基准测试 SWE-Bench Mobile,用于评估 AI Agent 修复亿级用户 App 代码库中 bug 的能力。测试结果显示,当前最高通过率仅为12%。
小红书基础模型 FireRed-Image-Edit 在 GitHub 上正式亮相,该模型专注于图像编辑任务,并达到新的最佳性能(新 SOTA)。
BrowserOS是一款开源的Chromium分支浏览器,其核心是在浏览器中原生运行AI代理。它作为ChatGPT Atlas、Perplexity Comet等产品的隐私优先替代方案,允许用户自带API密钥或通过Ollama运行本地模型,确保数据始终留在本地设备。该浏览器内置53种以上自动化工具,支持自然语言操作、数据提取,并提供可视化工作流构建、定时任务和持久记忆等AI协作功能。其目标是通过深度集成AI能力,重塑浏览器在AI时代的作用。
Anthropic旗下的AI编程代理Claude Code每月订阅费高达200美元,且其基于令牌的速率限制引发开发者不满。与此同时,Block公司推出的开源AI代理Goose提供了近乎相同的功能,可在本地机器上完全免费运行,无需订阅费或云端依赖,并能离线工作、保障数据隐私。该项目在GitHub上已获得超过2.6万颗星,成为Claude Code的热门替代选择。
作者临近57岁生日,回顾了近期在AI领域的活跃动态。人工智能领域正吸引大量资本涌入,作者因其文章和项目收到了众多风险投资人的接触,并因Gas Town相关加密货币$GAS产生了约30万美元的交易费收入,但他强调需专注于软件开发而非被资本或社区分散精力。文章还讨论了利用20余个AI智能体进行高端编程对工作与休息节奏带来的影响,表现为频繁的深度小睡需求。
UI-Venus 是一款本地 UI 智能体,仅以屏幕截图作为输入,即可执行精确的图形用户界面元素定位与高效导航。该代理无需依赖系统底层代码或辅助功能接口,直接通过视觉信息理解界面结构,实现自动化操作。其核心能力在于对任意应用或网页中的按钮、菜单、文本框等元素进行准确识别与交互,提升了跨平台任务执行的通用性与可靠性。
Sourcebot v4.6.0 新增 Ask Sourcebot 功能,支持用自然语言查询代码库并获取带内联引用的 Markdown 回答。用户需自备 LLM API key,实现类似 Perplexity 的自托管代码搜索体验。