针对在线策略蒸馏依赖教师模型逻辑概率、局限于白盒场景的问题,本研究提出了ROPD框架。该方法利用结构化语义量规替代教师逻辑概率,仅需教师生成的响应即可工作,实现了黑盒兼容。ROPD通过对比师生响应差异,自动生成针对特定提示的量规,并据此对学生模型输出进行评分与在线策略优化。实验证明,该方法在多数场景下超越了先进的基于逻辑概率的在线策略蒸馏方法,样本效率最高可提升10倍,为在专有与开源大模型间进行可扩展的蒸馏提供了一个灵活且强大的基线方案。
针对在线策略蒸馏依赖教师模型逻辑概率、局限于白盒场景的问题,本研究提出了ROPD框架。该方法利用结构化语义量规替代教师逻辑概率,仅需教师生成的响应即可工作,实现了黑盒兼容。ROPD通过对比师生响应差异,自动生成针对特定提示的量规,并据此对学生模型输出进行评分与在线策略优化。实验证明,该方法在多数场景下超越了先进的基于逻辑概率的在线策略蒸馏方法,样本效率最高可提升10倍,为在专有与开源大模型间进行可扩展的蒸馏提供了一个灵活且强大的基线方案。
GitHub 发现运行于每个拉取请求的智能体工作流会累积高昂的 API 成本。团队通过监测自身生产工作流,定位了效率低下的环节,并构建了专门的智能体进行优化。这一举措旨在显著降低由大语言模型调用产生的 Token 消耗与相关费用,直接提升了工作流的经济性与运行效率。
开发者开源了一款专为AI Agent设计的网盘NeuDrive,能够自动同步Agent的记忆、技能和文件。该工具支持Claude Code、Codex、Cursor等主流开发工具以及多种网页应用。项目已在GitHub开源,同时提供了可直接使用的部署版本。免费版已能满足绝大多数使用场景,付费版在付款时输入优惠码“vivo50”可兑换三个月免费使用权。
作者开发了一个名为“GitHub Repo Stats”的在线工具,用于解决GitHub移动端网站不显示仓库提交次数的问题。用户只需输入GitHub仓库的URL或“foo/bar”格式的仓库ID,该工具便会通过REST或GraphQL API获取并展示仓库的关键统计数据,其中首要指标就是提交总数。工具已提供实际示例,如查看simonw/datasette和simonw/llm这两个仓库的详细数据。
这份指南提供了审查由AI代理生成的pull requests的实用方法,重点包括审查时应关注的代码变更点、问题常见隐藏位置(如逻辑错误或安全漏洞),以及如何在代码合并前捕捉技术债务。它通过具体步骤帮助开发者系统评估自动化提交,确保代码质量,避免缺陷流入生产环境。指南强调主动审查策略,以应对AI代理在软件开发中日益普及的趋势。
和 @vista8 讨论了下,决定将我们的新书《AI营销:从SEO到GEO》里配套的25个AI营销与GEO相关的提示词,也开源到GitHub 另外补充了部分短视频和文案相关的提示词,欢迎下载使用或重新拉取 1、提示词合集地址: https:...
作者为解决制作演示文稿时修改不便的问题,受“Markdown as Database”理念启发,在ColaMD 1.5版本中实现了一种内容与视图分离的方案。该方案将.md文件作为内容层,HTML作为可更换的视图模板层,用户只需修改Markdown内容,即可生成不同形态的最终呈现,如幻灯片、博客等。此功能已内置,并支持通过开源方式由社区或AI扩展更多模板。
小米AI实验室开源多语言语音克隆TTS模型OmniVoice,覆盖600余种语言。该模型采用极简双向Transformer架构,无需复杂结构即可实现文本到语音的直接转换。其语音合成质量超越同类主流模型,训练速度可达一天10万小时。关键设计包括全码本随机掩蔽策略和引入大语言模型预训练参数,显著提升训练效率与语音可懂度。测试显示,在多种语言中其相似度与可懂度超越多款商用系统,并对低资源小语种也能实现高质量合成。模型还支持自定义音色、带噪音频适配等实用功能。
开源项目 Open Slide 基于 React 框架构建 PPT,其工作流专为 AI Agent 设计。它利用丰富的 React 组件库实现更强扩展性,便于集成各类图表。核心功能包括可视化编辑器支持手动修改,以及 AI 能直接读取用户评论并协同修改内容。项目还集成了包含 1500+ 品牌 Logo 的 SVGL 库,方便技术演示,旨在提升 PPT 制作的效率与自动化程度。
@swyx @vincent_koc https://github.com/openclaw/openclaw/pull/78234 fixed here - problem was you had guardian mode set in...
GitHub 探讨如何为 Copilot 编码智能体构建“信任层”。文章提出,在“正确”答案非确定性的场景下,可通过领域分析来验证智能体的自主行为,避免使用脆弱的脚本或黑盒判断。该方法旨在提升 AI 编码助手的可靠性与透明度,确保其行为符合预期标准。
Every product team has a 30-line file in their codebase called pick_model.py. Nine if/else branches. Three retry decorat...
开源一套我的提示词合集 前几天,收到一位微信好友反馈,说使用了我不少公开的提示词,效果很不错 这一年来,公开分享了不少提示词,一直沉淀在飞书文档 为了方便大家更好的下载和迭代,今天抽空,把公开的提示词整理了下,通过GitHub开源给大家 目...
open-slide 这个开源的 Slides 项目不错,可以通过 Agent + Skills 制作 Slides,然后还有一个 Web 程序可以编辑生成好的 Slides。 并且可以支持动画,以及网页直接播放 slides。 期待完善: - 更好的编辑 - 导出 pptx https://github.com/1weiho/open-slide
Introducing open-slide - The slide framework built for agents. Prompt your agent, get a polished deck. $ npx @open-slide...
GitHub开源项目“llm-from-scratch”提供了从零开始训练大型语言模型的完整指南。该项目详细阐述了构建现代LLM所需的核心组件,包括分词器、Transformer架构、预训练与微调流程。指南强调通过实践理解模型内部机制,而非直接调用现有API。项目在Hacker News社区获得广泛关注,收获293点热度,反映出开发者对深入掌握LLM底层技术的强烈需求。
开源项目Voice-Pro将多语言视频创作流程大幅简化。用户输入YouTube链接后,该工具可在本地自动完成视频下载、人声分离、语音转文字、翻译、声线克隆及配音合成,全程不到两分钟。它将原本需要多个付费工具协作的复杂流程,整合为一个免费、本地化的高效解决方案,显著提升了创作者的工作效率。
作者受 antirez 将 TRE 正则表达式引擎集成到 Redis 的启发,深入探索了 Ville Laurikari 开发的 TRE 引擎。他利用 Claude Code 构建了一个基于 ctypes 的实验性 Python 绑定库,并针对该库进行了一系列恶意的正则表达式攻击测试。结果显示,由于 TRE 引擎不支持回溯机制,其在抵御这些攻击方面的表现远优于 Python 标准库中的正则表达式实现。
OpenClaw 社区将于微软 Build 2026 大会期间,在 GitHub 总部举办线下聚会。活动将包含项目演示和交流环节。参与者可选择亲临现场,或通过 Twitch 平台观看线上直播。
open-slide是一款专为AI agent设计的幻灯片框架,能将自然语言提示直接转化为精美的完整演示文稿。其核心在于将每页幻灯片构建为React组件,并在固定画布上工作,而非简单生成Markdown。框架内置多项agent技能:通过/create-slide指令一句话生成整套幻灯片;支持在浏览器中对元素添加评论,并由agent通过/apply-comments一键应用所有修改;同时集成演示模式、演讲者笔记和定时器,并可一键导出HTML或PDF。它兼容Claude Code、Cursor等多种编码agent,其意义在于将AI agent的能力从“生成文字”升级为“输出可直接呈现的最终成品”,填补了AI代理与真实生产应用之间的关键空白。
Introducing open-slide - The slide framework built for agents. Prompt your agent, get a polished deck. $ npx @open-slide...
检索增强生成(RAG)方法通过筛选相关上下文提升大型语言模型性能,但传统单步检索难以应对复杂问题。现有多步检索方法通常微调小型LLMs,资源消耗大且无法利用更大模型。本研究提出Q-RAG,采用强化学习微调嵌入器模型以实现多步检索,避免了资源密集问题。该方法在开放域问答任务中提供资源高效的替代方案,并在长上下文基准测试BabiLong和RULER上取得最先进结果,支持高达1000万词元的上下文。代码已开源。
针对数字、地址、品牌名等细分领域的印度语言自动语音识别,现有开源与商业系统表现不佳。研究通过构建自循环的TTS-STT飞轮系统,以低成本合成了约2.2万条印英混合的实体密集语音数据。基于此数据对开源模型进行LoRA微调后,在泰卢固语测试集上的实体命中率提升至0.473,较最佳开源模型提升17倍,较商业系统提升3倍,同时在通用数据集上的词错误率仅小幅增加。该方法在印地语和泰米尔语上也验证有效,并确认了合成数据向真实语音的迁移能力。全部代码、测试集与语料库均已开源。
本文通过“编排轨迹”研究LLM多智能体系统的强化学习,聚焦工作生成、委派、通信、聚合与终止等协同过程。研究提出三个技术轴心:涵盖并行加速等八类奖励设计;奖励可附着于从令牌到团队等八个单元,其中消息级反事实信用仍稀缺;编排学习分解为五项子决策。截至2026年5月4日,文献中尚未发现针对终止决策的显式强化学习方法。研究关联了学术方法与工业实践,指出公开部署规模与学术评估体系间存在差距,并开源了相关资源。
CODEX SKILL TO BRUTALLY TEST ANY STARTUP IDEA! Most startup ideas sound good. This Codex skill tells you why they probab...
作者@mattpocockuk公开了其.claude/目录下的实用Agent Skills集合,旨在解决四大工程痛点:1) 通过/grill-me等技能在动工前对齐需求,修复沟通鸿沟;2) 维护CONTEXT.md与ADR建立共享语言,提升代码一致性;3) 利用/tdd和/diagnose建立快速测试与诊断反馈回路;4) 通过/to-prd、/zoom-out等技能对抗代码熵增,持续投资设计。这些技能分为工程、效率与工具三类,形成从需求对齐到代码落地的完整工作流。
OpenClaw 2026.5.2 🦞 🧠 xAI Grok 4.3 🔌 Plugin installs/updates are sturdier ⚡ Gateway + agent hot paths are leaner 💬 D...
研究提出新视角,将注意力机制数学重构为具有动态预测参数的多层感知机,从而解释其全局建模能力源于动态参数对全局上下文的隐式压缩表征。基于此,研究探索能否完全通过动态参数化实现Transformer级别的序列全局建模,同时保持线性复杂度以替代显式注意力。通过在视觉模型上进行大量实证研究,证实动态参数化确实可以作为一种高效、线性复杂度的显式注意力替代方案,为高效序列建模开辟了新途径。相关代码已开源。
自回归视频生成因顺序去噪计算负担重而面临部署挑战。现有缓存重用方法采用粗粒度的块级跳过,无法捕捉细粒度像素动态。为此,研究提出MotionCache运动感知缓存框架,其核心是利用帧间差异作为像素级运动特征的轻量级代理。该方法采用从粗到细的策略:初始预热阶段建立语义连贯性,随后根据运动权重动态调整每个令牌的缓存更新频率。在SkyReels-V2和MAGI-1等先进模型上的实验表明,MotionCache分别实现了6.28倍和1.64倍的显著加速,同时有效保持了生成质量(VBench指标下降分别仅为1%和0.01%)。该框架代码已开源。
Dexter是一款开源金融AI助手,能像Claude Code一样自主处理复杂金融研究。它将“股票是否被低估”等问题自动拆解为步骤,调用超万只股票实时数据,并在发现问题时自我修正,通常10-20秒生成结果。其多Agent架构将规划、执行、验证与合成分离,从根源上缓解了大模型在金融领域的幻觉问题。该项目在GitHub获2万+星,MIT开源,支持多种大模型后端,并可通过WhatsApp网关在移动端便捷使用,为投资分析提供高效工具。
本文针对多模态大语言模型在非平稳环境中推理分布多样化且不可预测的挑战,提出将多源推理对齐视为概念漂移下的约束满足问题。我们设计了自主偏好优化框架,将模型间分歧作为动态负约束处理。该框架通过监督引导将目标模型投射到源模型能力联合中,再利用约束感知优化,通过多负Plackett-Luce目标抑制漂移轨迹,合成一致的共识流形。在胸部X射线解释任务上的实验表明,我们的70亿参数模型展现出卓越的鲁棒性,平均准确率甚至超过专有源模型。同时,我们发布了包含170,982条推理轨迹的大规模基准CXR-MAX,以推动相关研究。
鲸鱼兄弟们好,我是做 DeepSeek-TUI 的那个美国佬。 说真的,特别想跟国内的鲸鱼兄弟们一起混--但我的翻墙技能仅限于写代码,微信到现在都没搞定,属实有点丢人。 求各位大佬帮个忙: 1)帮忙转发扩散一下,让这个开源终端工具翻过高墙被...
本文提出EnergyFlow框架,通过参数化一个标量能量函数,将生成式动作建模与逆强化学习统一起来。该框架证明,在最大熵最优性下,通过去噪分数匹配学到的分数函数可恢复专家软Q函数的梯度,从而无需对抗训练即可提取奖励。理论分析表明,约束学习场为保守场能降低假设复杂性并收紧分布外泛化界限。实验显示,EnergyFlow在各种操作任务上实现了最先进的模仿性能,其提供的奖励信号在下游强化学习中优于对抗性IRL和基于似然的方法。这表明有效的奖励提取约束本身即是有益于策略泛化的归纳偏置。
针对大型多模态模型后训练中SFT阶段引发的分布漂移问题,研究团队提出了PRISM三阶段流程。它在监督微调与强化学习验证奖励之间,新增了一个基于在线策略蒸馏的显式分布对齐阶段。该阶段将对齐构建为策略与混合专家判别器之间的黑盒对抗游戏,由感知和推理专家提供解耦的纠正信号。团队使用来自Gemini 3 Flash的11.3万条高保真演示进行对齐。在Qwen3-VL上的实验表明,PRISM能持续提升下游强化学习性能,使4B和8B模型在多个基准上的平均准确率较基线分别提升4.4和6.0个百分点。
BlenderRAG是一个检索增强生成系统,能够从自然语言描述自动生成可执行的Blender代码。该系统基于一个包含500个经专家验证的多模态样本(文本、代码、图像)的数据集,覆盖50种物体类别。在代码生成过程中,系统通过检索语义相似的示例来引导大语言模型,从而将四大前沿模型的代码编译成功率从40.8%显著提升至70.0%,并将语义对齐度(CLIP相似度)从0.41提高到0.77。该方法无需对模型进行微调或使用专用硬件,可立即部署使用。相关数据集和代码已在GitHub开源。
OpenClaw 2026.4.29 🦞 💬 Group chats feel much better now 📌 Follow-up commitments from context 🔐 Safer exec, pairing, ...
Stripe 发布 Link CLI 工具,旨在为 AI Agent 提供安全的支付解决方案。该工具允许 Agent 通过命令行生成一次性支付凭证,每次消费时用户会收到实时推送,并需通过 FaceID 等方式进行同步人工批准,从而确保每笔交易都经过用户确认,有效解决了 Agent 自主支付的信任问题。Claude 已成功使用该工具在 Gumroad 上自主购买礼物,完成了支付闭环。Link CLI 为 Agent 时代的应用提供了关键的支付基础设施,开发者可便捷集成,让 Agent 在受控前提下安全执行交易任务。
We just launched the @Link CLI: https://github.com/stripe/link-cli. Tell your friendly neighborhood agent about it -- ag...
CodexPotter 是一个命令行工具,通过后台启动 Codex CLI 并采用“Ralph Loop”机制执行任务。它先将用户目标写入 MAIN.md 文件,随后在全新上下文中反复启动 Codex 会话,对照该文件检查并修正代码,直至输出与目标一致,默认最多进行 6 轮迭代。该工具适用于目标明确的任务(如按文档实现功能),而非交互式讨论。其名称灵感来源于《辛普森一家》中爱重复说话的 Ralph Wiggum。作者推荐此工具,以回应寻找类似 Claude Code 中 Ralph 插件的需求,并指出其不会像某些插件那样修改用户配置。
请问有没有好用的 Ralph Loop for Codex? 类似于 Claude Code 的 Ralph Wiggum Plugin https://github.com/anthropics/claude-code/blob/main...
GitHub Copilot CLI 提供了交互与非交互两种主要使用模式。交互模式允许用户通过对话式指令逐步构建和调整命令,适合探索性任务。非交互模式则支持直接输入完整指令快速执行,适用于自动化脚本或已知命令。理解这两种模式的区别能帮助开发者更高效地利用该工具,提升命令行工作效率。