AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「GitHub」清除
5月8日周五
08:00HuggingFace Daily Papers(社区热门论文)64基于量规的在线策略蒸馏
07:30GitHub Blog72精选提升 GitHub Agentic Workflows 的 Token 使用效率
05:35Orange AI74开源AI Agent网盘NeuDrive,支持主流工具与自动同步
04:30Simon Willison 博客78精选GitHub Repo Stats
03:30GitHub Blog79精选Agent pull requests 无处不在:如何审查它们
00:13向阳乔木70AI助手可一键生成70余种公众号排版风格
00:06凡人小北81精选新书《AI营销》配套提示词开源发布
5月7日周四
22:04Orange AI75精选ColaMD 1.5版实现Markdown内容与HTML模板分离
18:16IT之家(RSS)69小米开源 OmniVoice 多语言语音克隆 TTS,号称一个模型搞定 600 余种语言
10:12向阳乔木76精选Open Slide:让 AI 来写你的 PPT 代码
09:38swyx 🌉31技术工具Openclaw与Cline Velocity价值被低估
05:30GitHub Blog56精选Validating agentic behavior when "correct" isn't deterministic
02:01Chubby♨️76精选OrcaRouter-Lite 开源:自托管LLM路由工具,支持自动选择最低成本模型
00:20Berryxia.AI76姚老师开源百个AI提示词,覆盖九大应用场景
5月6日周三
00:57宝玉77精选开源幻灯片框架open-slide支持AI智能生成
5月5日周二
20:56Hacker News 热门(buzzing.cc 中文翻译)68从零开始训练你自己的大型语言模型
16:56Peter Steinberger 🦞74应对GitHub速率限制,推出两项工具更新
10:14阿绎 AYi74精选分享一个免费下载任何 YouTube 视频的GitHub开源项目,非常实用🔥
02:16Simon Willison 博客38TRE Python 绑定--ReDoS 鲁棒性演示
5月4日周一
23:16GitHub Blog37立即注册 OpenClaw: After Hours @ GitHub
16:53OpenClaw🦞72精选OpenClaw发布重大更新 强化文件传输与插件安全
09:13Berryxia.AI60AI agent专属幻灯片框架open-slide发布
08:00HuggingFace Daily Papers(社区热门论文)44Q-RAG:基于价值嵌入器训练的长上下文多步检索方法
08:00HuggingFace Daily Papers(社区热门论文)66TTS-STT飞轮系统:合成实体密集音频弥补印度语言ASR在细分领域的性能差距
08:00HuggingFace Daily Papers(社区热门论文)55基于编排轨迹的LLM多智能体系统强化学习研究
00:17Greg Brockman71精选Codex推出开源工具,压力测试初创公司创意
5月3日周日
19:18meng shao72精选解决真正工程问题的Agent Skills集合
08:49Peter Steinberger 🦞45OpenClaw 发布 2026.5.2 版本,重点解决安装依赖与性能问题
08:00HuggingFace Daily Papers(社区热门论文)61Linear-Time Global Visual Modeling without Explicit Attention
08:00HuggingFace Daily Papers(社区热门论文)64面向高效自回归视频生成的运动感知缓存框架
5月2日周六
17:11阿绎 AYi55开源金融AI助手Dexter:自动完成深度研报,10-20秒出结果
08:00HuggingFace Daily Papers(社区热门论文)56将漂移转为约束:非平稳环境中的鲁棒推理对齐
5月1日周五
12:16宝玉60美国开发者求助推广开源DeepSeek终端工具
08:00HuggingFace Daily Papers(社区热门论文)52基于扩散策略的隐藏奖励恢复
08:00HuggingFace Daily Papers(社区热门论文)56超越SFT到RL:基于黑盒在线策略蒸馏的多模态RL预对齐方法
08:00HuggingFace Daily Papers(社区热门论文)58BlenderRAG:基于检索增强代码合成的高保真3D物体生成
07:15Peter Steinberger 🦞56OpenClaw优化群聊体验与GPT性能提升方案
07:10Berryxia.AI65Stripe 重磅推出 Link CLI!
01:14宝玉59推荐命令行工具 CodexPotter:基于 Ralph Loop 机制执行明确任务
00:13GitHub Blog59精选GitHub Copilot CLI 入门指南:交互模式与非交互模式
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月8日
08:00
HuggingFace Daily Papers(社区热门论文)
64
基于量规的在线策略蒸馏

针对在线策略蒸馏依赖教师模型逻辑概率、局限于白盒场景的问题,本研究提出了ROPD框架。该方法利用结构化语义量规替代教师逻辑概率,仅需教师生成的响应即可工作,实现了黑盒兼容。ROPD通过对比师生响应差异,自动生成针对特定提示的量规,并据此对学生模型输出进行评分与在线策略优化。实验证明,该方法在多数场景下超越了先进的基于逻辑概率的在线策略蒸馏方法,样本效率最高可提升10倍,为在专有与开源大模型间进行可扩展的蒸馏提供了一个灵活且强大的基线方案。

arXivGitHub数据/训练论文/研究
07:30
GitHub Blog
精选72
提升 GitHub Agentic Workflows 的 Token 使用效率

GitHub 发现运行于每个拉取请求的智能体工作流会累积高昂的 API 成本。团队通过监测自身生产工作流,定位了效率低下的环节,并构建了专门的智能体进行优化。这一举措旨在显著降低由大语言模型调用产生的 Token 消耗与相关费用,直接提升了工作流的经济性与运行效率。

智能体GitHubMCP/工具教程/实践

推荐理由:GitHub 把自己生产环境的 agentic workflow 扒了一遍,从 token 消耗里找浪费,再让 agent 自动修。不是 paper,是真踩过的坑,做 Copilot 集成的团队可以抄作业。
05:35
Orange AI@oran_ge
74
开源AI Agent网盘NeuDrive,支持主流工具与自动同步

开发者开源了一款专为AI Agent设计的网盘NeuDrive,能够自动同步Agent的记忆、技能和文件。该工具支持Claude Code、Codex、Cursor等主流开发工具以及多种网页应用。项目已在GitHub开源,同时提供了可直接使用的部署版本。免费版已能满足绝大多数使用场景,付费版在付款时输入优惠码“vivo50”可兑换三个月免费使用权。

智能体GitHubMCP/工具产品更新
04:30
Simon Willison 博客
精选78
GitHub Repo Stats

作者开发了一个名为“GitHub Repo Stats”的在线工具,用于解决GitHub移动端网站不显示仓库提交次数的问题。用户只需输入GitHub仓库的URL或“foo/bar”格式的仓库ID,该工具便会通过REST或GraphQL API获取并展示仓库的关键统计数据,其中首要指标就是提交总数。工具已提供实际示例,如查看simonw/datasette和simonw/llm这两个仓库的详细数据。

GitHub产品更新部署/工程

推荐理由:Simon 这个 GitHub Repo Stats 工具虽小,但直接解决了移动端看不了 commit 数这个真实痛点,做开源评估的开发者可以立刻用起来。
03:30
GitHub Blog
精选79
Agent pull requests 无处不在:如何审查它们

这份指南提供了审查由AI代理生成的pull requests的实用方法,重点包括审查时应关注的代码变更点、问题常见隐藏位置(如逻辑错误或安全漏洞),以及如何在代码合并前捕捉技术债务。它通过具体步骤帮助开发者系统评估自动化提交,确保代码质量,避免缺陷流入生产环境。指南强调主动审查策略,以应对AI代理在软件开发中日益普及的趋势。

智能体GitHub教程/实践编码

推荐理由:AI代理生成的PR越来越多,审查它们不再是可选项。这篇官方指南从发现隐患到控制技术债务,给出了马上能用的检查清单,每个用Copilot的开发者都该看。
00:13
向阳乔木@vista8
70
想让AI设计公众号排版CSS,可直接跟Agent说,参考Design md设计: https://github.com/VoltAgent/awesome-design-md/tree/main/design-md 一下能设计了70多个知名网站风格,选几个喜欢优化。
GitHub开源生态教程/实践
00:06
凡人小北@frxiaobei
精选81
作者宣布,将新书《AI营销:从SEO到GEO》中配套的25个AI营销与GEO相关提示词开源至GitHub。此次更新还补充了部分短视频和文案相关的提示词,所有资源已在指定仓库公开,供用户下载使用或重新拉取。

姚金刚: 和 @vista8 讨论了下,决定将我们的新书《AI营销:从SEO到GEO》里配套的25个AI营销与GEO相关的提示词,也开源到GitHub 另外补充了部分短视频和文案相关的提示词,欢迎下载使用或重新拉取 1、提示词合集地址: https:...

GitHub开源/仓库搜索

推荐理由:不是又一个提示词合集,而是把《AI营销》书里的实操技巧拆成了现成指令,短视频和GEO部分尤其解渴,做内容营销的建议直接fork。
5月7日
22:04
Orange AI@oran_ge
精选75
ColaMD 1.5版实现Markdown内容与HTML模板分离

作者为解决制作演示文稿时修改不便的问题,受“Markdown as Database”理念启发,在ColaMD 1.5版本中实现了一种内容与视图分离的方案。该方案将.md文件作为内容层,HTML作为可更换的视图模板层,用户只需修改Markdown内容,即可生成不同形态的最终呈现,如幻灯片、博客等。此功能已内置,并支持通过开源方式由社区或AI扩展更多模板。

GitHub开源生态教程/实践

推荐理由:藏师傅的 Markdown as Database 搭上 HTML 模板,改 PPT 像改文档一样简单,ColaMD 直接给了现成模板,如果你常做分享,这个思路能省一半排版时间。
18:16
IT之家(RSS)
69
小米开源 OmniVoice 多语言语音克隆 TTS,号称一个模型搞定 600 余种语言

小米AI实验室开源多语言语音克隆TTS模型OmniVoice,覆盖600余种语言。该模型采用极简双向Transformer架构,无需复杂结构即可实现文本到语音的直接转换。其语音合成质量超越同类主流模型,训练速度可达一天10万小时。关键设计包括全码本随机掩蔽策略和引入大语言模型预训练参数,显著提升训练效率与语音可懂度。测试显示,在多种语言中其相似度与可懂度超越多款商用系统,并对低资源小语种也能实现高质量合成。模型还支持自定义音色、带噪音频适配等实用功能。

arXivGitHub多模态开源生态
10:12
向阳乔木@vista8
精选76
Open Slide:让 AI 来写你的 PPT 代码

开源项目 Open Slide 基于 React 框架构建 PPT,其工作流专为 AI Agent 设计。它利用丰富的 React 组件库实现更强扩展性,便于集成各类图表。核心功能包括可视化编辑器支持手动修改,以及 AI 能直接读取用户评论并协同修改内容。项目还集成了包含 1500+ 品牌 Logo 的 SVGL 库,方便技术演示,旨在提升 PPT 制作的效率与自动化程度。

智能体GitHub开源/仓库

推荐理由:用 React 写 PPT 的思路很妙,加上 1500+ 品牌 Logo 库,AI 生成演示文稿终于不是一坨屎了。做技术的可以 clone 下来跑跑看。
09:38
swyx 🌉@swyx
31
openclaw + cline velocity 被低估了

pash: @swyx @vincent_koc https://github.com/openclaw/openclaw/pull/78234 fixed here - problem was you had guardian mode set in...

智能体GitHub大佬观点开源生态
05:30
GitHub Blog
精选56
Validating agentic behavior when "correct" isn't deterministic

GitHub 探讨如何为 Copilot 编码智能体构建“信任层”。文章提出,在“正确”答案非确定性的场景下,可通过领域分析来验证智能体的自主行为,避免使用脆弱的脚本或黑盒判断。该方法旨在提升 AI 编码助手的可靠性与透明度,确保其行为符合预期标准。

智能体GitHub教程/实践编码

推荐理由:做coding agent最头疼的就是如何验证产出质量,GitHub这篇把他们的内部方法论开源了,用dominance分析替代脆弱的脚本,对正在折腾AI编程工具的团队是实打实的参考,值得逐帧学习。
02:01
Chubby♨️@kimmonismus
精选76
OrcaRouter-Lite 现已开源,这是一个采用MIT许可、可自托管的大型语言模型路由工具。它支持用户自带密钥,无需外部数据库,并能对接OpenAI、Anthropic、Google、Groq等多种服务提供商。其核心创新是model="auto"模式,可自动为每次请求选择成本最低且能力匹配的模型,并具备跨提供商的确定性提示缓存功能,使得重复的相同请求能在毫秒内以零成本返回。该项目旨在解决开发团队手动编写复杂模型选择逻辑的痛点,通过简单的Docker部署即可实现路由功能,托管版本将于本周稍晚推出。

OrcaRouter: Every product team has a 30-line file in their codebase called pick_model.py. Nine if/else branches. Three retry decorat...

GitHub开源/仓库开源生态部署/工程

推荐理由:每个 LLM 团队都在手搓那个叫 pick_model.py 的烂摊子,现在改个 base_url 就搞定了。BYOK 自托管零加价,设计干净到反常,值得所有做产品的开发者立刻尝试。
00:20
Berryxia.AI@berryxia
76
姚老师将其公开分享的提示词整理并开源至GitHub仓库。该合集包含约100个提示词,覆盖AI方法、工作、学习、生活、教育、内容、编程、营销和思考等九大类场景。其中特别推荐的是对用户帮助显著的元提示词,包括简易版和进阶版。作者表示后续将通过该仓库持续更新经过验证的有价值提示词。

姚金刚: 开源一套我的提示词合集 前几天,收到一位微信好友反馈,说使用了我不少公开的提示词,效果很不错 这一年来,公开分享了不少提示词,一直沉淀在飞书文档 为了方便大家更好的下载和迭代,今天抽空,把公开的提示词整理了下,通过GitHub开源给大家 目...

GitHub开源生态教程/实践
5月6日
00:57
宝玉@dotey
精选77
开源幻灯片框架open-slide支持AI智能生成

open-slide 这个开源的 Slides 项目不错,可以通过 Agent + Skills 制作 Slides,然后还有一个 Web 程序可以编辑生成好的 Slides。 并且可以支持动画,以及网页直接播放 slides。 期待完善: - 更好的编辑 - 导出 pptx https://github.com/1weiho/open-slide

Yiwei Ho: Introducing open-slide - The slide framework built for agents. Prompt your agent, get a polished deck. $ npx @open-slide...

智能体GitHub开源/仓库

推荐理由:让 agent 直接生成可编辑的 slides,npx 一行命令就能跑,还支持动画和网页播放,是产品人和开发者的提效刚需小工具,宝玉推荐的质量一般不差。
5月5日
20:56
Hacker News 热门(buzzing.cc 中文翻译)
68
从零开始训练你自己的大型语言模型

GitHub开源项目“llm-from-scratch”提供了从零开始训练大型语言模型的完整指南。该项目详细阐述了构建现代LLM所需的核心组件,包括分词器、Transformer架构、预训练与微调流程。指南强调通过实践理解模型内部机制,而非直接调用现有API。项目在Hacker News社区获得广泛关注,收获293点热度,反映出开发者对深入掌握LLM底层技术的强烈需求。

GitHub开源生态教程/实践数据/训练
16:56
Peter Steinberger 🦞@steipete
74
🤖 我的多个智能体一直遇到 @github 的速率限制问题。现已发布两项更新: - RepoBar 新增了 JUICE METER 功能 - gitcrawl 现已可作为即插即用的 gh 缓存 → 将其符号链接为 gh,即可从本地 SQLite 读取数据 https://gitcrawl.sh/ https://repobar.app/
智能体GitHub开源/仓库编码
10:14
阿绎 AYi@AYi_AInotes
精选74
分享一个免费下载任何 YouTube 视频的GitHub开源项目,非常实用🔥

开源项目Voice-Pro将多语言视频创作流程大幅简化。用户输入YouTube链接后,该工具可在本地自动完成视频下载、人声分离、语音转文字、翻译、声线克隆及配音合成,全程不到两分钟。它将原本需要多个付费工具协作的复杂流程,整合为一个免费、本地化的高效解决方案,显著提升了创作者的工作效率。

GitHub开源/仓库视频语音

推荐理由:一个开源工具把 yt-dlp + Whisper + 翻译 + 声线克隆六步压缩成一条本地流水线,之前每月烧几百刀订阅费的事现在免费跑在自己机器上,做多语言视频的人可以直接换掉整套工具链。
02:16
Simon Willison 博客
38
TRE Python 绑定--ReDoS 鲁棒性演示

作者受 antirez 将 TRE 正则表达式引擎集成到 Redis 的启发,深入探索了 Ville Laurikari 开发的 TRE 引擎。他利用 Claude Code 构建了一个基于 ctypes 的实验性 Python 绑定库,并针对该库进行了一系列恶意的正则表达式攻击测试。结果显示,由于 TRE 引擎不支持回溯机制,其在抵御这些攻击方面的表现远优于 Python 标准库中的正则表达式实现。

GitHub开源/仓库编码
5月4日
23:16
GitHub Blog
37
立即注册 OpenClaw: After Hours @ GitHub

OpenClaw 社区将于微软 Build 2026 大会期间,在 GitHub 总部举办线下聚会。活动将包含项目演示和交流环节。参与者可选择亲临现场,或通过 Twitch 平台观看线上直播。

GitHub行业动态
16:53
OpenClaw🦞@openclaw
精选72
OpenClaw 2026.5.3 🦞 📁 配对节点间的文件传输 🧭 使用 /steer + /side 进行实时智能体控制 🔌 插件安装/更新已加固 🛠️ 频道与升级修复 重大发布,减少琐碎问题。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.3
智能体GitHub产品更新开源生态

推荐理由:OpenClaw 这个版本把 agent 协同和实时控制做得更顺手了,如果你在用多节点 agent,这个升级能省不少调试功夫。
09:13
Berryxia.AI@berryxia
60
AI agent专属幻灯片框架open-slide发布

open-slide是一款专为AI agent设计的幻灯片框架,能将自然语言提示直接转化为精美的完整演示文稿。其核心在于将每页幻灯片构建为React组件,并在固定画布上工作,而非简单生成Markdown。框架内置多项agent技能:通过/create-slide指令一句话生成整套幻灯片;支持在浏览器中对元素添加评论,并由agent通过/apply-comments一键应用所有修改;同时集成演示模式、演讲者笔记和定时器,并可一键导出HTML或PDF。它兼容Claude Code、Cursor等多种编码agent,其意义在于将AI agent的能力从“生成文字”升级为“输出可直接呈现的最终成品”,填补了AI代理与真实生产应用之间的关键空白。

Yiwei Ho: Introducing open-slide - The slide framework built for agents. Prompt your agent, get a polished deck. $ npx @open-slide...

智能体GitHubMCP/工具开源/仓库
08:00
HuggingFace Daily Papers(社区热门论文)
44
Q-RAG:基于价值嵌入器训练的长上下文多步检索方法

检索增强生成(RAG)方法通过筛选相关上下文提升大型语言模型性能,但传统单步检索难以应对复杂问题。现有多步检索方法通常微调小型LLMs,资源消耗大且无法利用更大模型。本研究提出Q-RAG,采用强化学习微调嵌入器模型以实现多步检索,避免了资源密集问题。该方法在开放域问答任务中提供资源高效的替代方案,并在长上下文基准测试BabiLong和RULER上取得最先进结果,支持高达1000万词元的上下文。代码已开源。

arXivGitHub检索增强推理
08:00
HuggingFace Daily Papers(社区热门论文)
66
TTS-STT飞轮系统:合成实体密集音频弥补印度语言ASR在细分领域的性能差距

针对数字、地址、品牌名等细分领域的印度语言自动语音识别,现有开源与商业系统表现不佳。研究通过构建自循环的TTS-STT飞轮系统,以低成本合成了约2.2万条印英混合的实体密集语音数据。基于此数据对开源模型进行LoRA微调后,在泰卢固语测试集上的实体命中率提升至0.473,较最佳开源模型提升17倍,较商业系统提升3倍,同时在通用数据集上的词错误率仅小幅增加。该方法在印地语和泰米尔语上也验证有效,并确认了合成数据向真实语音的迁移能力。全部代码、测试集与语料库均已开源。

arXivGitHub数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
基于编排轨迹的LLM多智能体系统强化学习研究

本文通过“编排轨迹”研究LLM多智能体系统的强化学习,聚焦工作生成、委派、通信、聚合与终止等协同过程。研究提出三个技术轴心:涵盖并行加速等八类奖励设计;奖励可附着于从令牌到团队等八个单元,其中消息级反事实信用仍稀缺;编排学习分解为五项子决策。截至2026年5月4日,文献中尚未发现针对终止决策的显式强化学习方法。研究关联了学术方法与工业实践,指出公开部署规模与学术评估体系间存在差距,并开源了相关资源。

智能体GitHub数据/训练论文/研究
00:17
Greg Brockman@gdb
精选71
开发者发布了一款名为"codex-startup-pressure-test-skill"的Codex技能工具,旨在对初创公司想法进行严苛的压力测试。该工具能帮助创业者识别其创意的核心假设、暴露致命缺陷、验证问题真实性、分析真实竞争对手、规划首批10名客户,并定义一个可在两周内完成的MVP(最小可行产品)。用户可通过npm命令直接安装,该工具完全开源,相关代码库已公开。

Kappaemme: CODEX SKILL TO BRUTALLY TEST ANY STARTUP IDEA! Most startup ideas sound good. This Codex skill tells you why they probab...

智能体GitHubOpenAI开源/仓库

推荐理由:我觉得种子轮前用它榨干想法很值,Greg Brockman 转发的开源技能,输入创业想法就能自动找出核心假设和致命缺陷。
5月3日
19:18
meng shao@shao__meng
精选72
解决真正工程问题的Agent Skills集合

作者@mattpocockuk公开了其.claude/目录下的实用Agent Skills集合,旨在解决四大工程痛点:1) 通过/grill-me等技能在动工前对齐需求,修复沟通鸿沟;2) 维护CONTEXT.md与ADR建立共享语言,提升代码一致性;3) 利用/tdd和/diagnose建立快速测试与诊断反馈回路;4) 通过/to-prd、/zoom-out等技能对抗代码熵增,持续投资设计。这些技能分为工程、效率与工具三类,形成从需求对齐到代码落地的完整工作流。

智能体GitHub教程/实践编码

推荐理由:matt pocock 把自己 Claude Code 里实际用的 Skills 全开源了,专治 Agent 瞎编、啰嗦、跑不通和屎山,grill-me 反向拷问和共享语言这两招很开眼。
08:49
Peter Steinberger 🦞@steipete
45
OpenClaw 2026.5.2 版本核心解决了通过 npm 安装时的依赖问题和速度缓慢现象。本次更新通过将大部分功能移至扩展插件,显著精简了主软件包。主要更新内容包括:集成 xAI Grok 4.3 模型,增强插件安装与更新的稳定性,优化 Gateway 和 agent 关键路径的性能。此外,还修复了 Discord、Slack、Telegram、WhatsApp 等通讯工具的集成问题,并对 TTS、实时功能、网络搜索及语音通话进行了优化打磨。此次发布旨在减少系统故障,提升整体稳定性和运行时间。

OpenClaw🦞: OpenClaw 2026.5.2 🦞 🧠 xAI Grok 4.3 🔌 Plugin installs/updates are sturdier ⚡ Gateway + agent hot paths are leaner 💬 D...

智能体GitHubxAI产品更新
08:00
HuggingFace Daily Papers(社区热门论文)
61
Linear-Time Global Visual Modeling without Explicit Attention

研究提出新视角,将注意力机制数学重构为具有动态预测参数的多层感知机,从而解释其全局建模能力源于动态参数对全局上下文的隐式压缩表征。基于此,研究探索能否完全通过动态参数化实现Transformer级别的序列全局建模,同时保持线性复杂度以替代显式注意力。通过在视觉模型上进行大量实证研究,证实动态参数化确实可以作为一种高效、线性复杂度的显式注意力替代方案,为高效序列建模开辟了新途径。相关代码已开源。

arXivGitHub推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
面向高效自回归视频生成的运动感知缓存框架

自回归视频生成因顺序去噪计算负担重而面临部署挑战。现有缓存重用方法采用粗粒度的块级跳过,无法捕捉细粒度像素动态。为此,研究提出MotionCache运动感知缓存框架,其核心是利用帧间差异作为像素级运动特征的轻量级代理。该方法采用从粗到细的策略:初始预热阶段建立语义连贯性,随后根据运动权重动态调整每个令牌的缓存更新频率。在SkyReels-V2和MAGI-1等先进模型上的实验表明,MotionCache分别实现了6.28倍和1.64倍的显著加速,同时有效保持了生成质量(VBench指标下降分别仅为1%和0.01%)。该框架代码已开源。

GitHub视频论文/研究
5月2日
17:11
阿绎 AYi@AYi_AInotes
55
开源金融AI助手Dexter:自动完成深度研报,10-20秒出结果

Dexter是一款开源金融AI助手,能像Claude Code一样自主处理复杂金融研究。它将“股票是否被低估”等问题自动拆解为步骤,调用超万只股票实时数据,并在发现问题时自我修正,通常10-20秒生成结果。其多Agent架构将规划、执行、验证与合成分离,从根源上缓解了大模型在金融领域的幻觉问题。该项目在GitHub获2万+星,MIT开源,支持多种大模型后端,并可通过WhatsApp网关在移动端便捷使用,为投资分析提供高效工具。

智能体GitHub开源/仓库
08:00
HuggingFace Daily Papers(社区热门论文)
56
将漂移转为约束:非平稳环境中的鲁棒推理对齐

本文针对多模态大语言模型在非平稳环境中推理分布多样化且不可预测的挑战,提出将多源推理对齐视为概念漂移下的约束满足问题。我们设计了自主偏好优化框架,将模型间分歧作为动态负约束处理。该框架通过监督引导将目标模型投射到源模型能力联合中,再利用约束感知优化,通过多负Plackett-Luce目标抑制漂移轨迹,合成一致的共识流形。在胸部X射线解释任务上的实验表明,我们的70亿参数模型展现出卓越的鲁棒性,平均准确率甚至超过专有源模型。同时,我们发布了包含170,982条推理轨迹的大规模基准CXR-MAX,以推动相关研究。

GitHub多模态安全/对齐论文/研究
5月1日
12:16
宝玉@dotey
60
一位开发了DeepSeek-TUI终端工具的美国开发者表示,希望与中国开发者社区建立联系,但受限于网络访问和微信验证。他请求社区帮助转发推广其开源项目,并协助完成微信验证,以便建立群组共同探讨DeepSeek、开源技术以及改进AI agent。作为回报,他承诺维护cargo install的简洁安装方式。开发者透露,其推文内容经由DeepSeek模型润色完成。

Hunter Bown: 鲸鱼兄弟们好,我是做 DeepSeek-TUI 的那个美国佬。 说真的,特别想跟国内的鲸鱼兄弟们一起混--但我的翻墙技能仅限于写代码,微信到现在都没搞定,属实有点丢人。 求各位大佬帮个忙: 1)帮忙转发扩散一下,让这个开源终端工具翻过高墙被...

GitHub开源/仓库编码
08:00
HuggingFace Daily Papers(社区热门论文)
52
基于扩散策略的隐藏奖励恢复

本文提出EnergyFlow框架,通过参数化一个标量能量函数,将生成式动作建模与逆强化学习统一起来。该框架证明,在最大熵最优性下,通过去噪分数匹配学到的分数函数可恢复专家软Q函数的梯度,从而无需对抗训练即可提取奖励。理论分析表明,约束学习场为保守场能降低假设复杂性并收紧分布外泛化界限。实验显示,EnergyFlow在各种操作任务上实现了最先进的模仿性能,其提供的奖励信号在下游强化学习中优于对抗性IRL和基于似然的方法。这表明有效的奖励提取约束本身即是有益于策略泛化的归纳偏置。

arXivGitHub数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
超越SFT到RL:基于黑盒在线策略蒸馏的多模态RL预对齐方法

针对大型多模态模型后训练中SFT阶段引发的分布漂移问题,研究团队提出了PRISM三阶段流程。它在监督微调与强化学习验证奖励之间,新增了一个基于在线策略蒸馏的显式分布对齐阶段。该阶段将对齐构建为策略与混合专家判别器之间的黑盒对抗游戏,由感知和推理专家提供解耦的纠正信号。团队使用来自Gemini 3 Flash的11.3万条高保真演示进行对齐。在Qwen3-VL上的实验表明,PRISM能持续提升下游强化学习性能,使4B和8B模型在多个基准上的平均准确率较基线分别提升4.4和6.0个百分点。

arXivGitHub多模态推理
08:00
HuggingFace Daily Papers(社区热门论文)
58
BlenderRAG:基于检索增强代码合成的高保真3D物体生成

BlenderRAG是一个检索增强生成系统,能够从自然语言描述自动生成可执行的Blender代码。该系统基于一个包含500个经专家验证的多模态样本(文本、代码、图像)的数据集,覆盖50种物体类别。在代码生成过程中,系统通过检索语义相似的示例来引导大语言模型,从而将四大前沿模型的代码编译成功率从40.8%显著提升至70.0%,并将语义对齐度(CLIP相似度)从0.41提高到0.77。该方法无需对模型进行微调或使用专用硬件,可立即部署使用。相关数据集和代码已在GitHub开源。

arXivGitHub检索增强多模态
07:15
Peter Steinberger 🦞@steipete
56
OpenClaw宣布其群聊功能已大幅改进,建议用户体验新版对话机制。若此前使用GPT效果不佳,推荐切换至codex harness插件。同时启用两项改进可显著提升性能。此次更新使群聊体验更原生,具体改进包括优化对话感受、增强上下文跟进承诺、提升安全执行与管控、新增NVIDIA供应商及模型目录,并加速启动与修复插件/通道问题。

OpenClaw🦞: OpenClaw 2026.4.29 🦞 💬 Group chats feel much better now 📌 Follow-up commitments from context 🔐 Safer exec, pairing, ...

智能体GitHub开源/仓库教程/实践
07:10
Berryxia.AI@berryxia
65
Stripe 重磅推出 Link CLI!

Stripe 发布 Link CLI 工具,旨在为 AI Agent 提供安全的支付解决方案。该工具允许 Agent 通过命令行生成一次性支付凭证,每次消费时用户会收到实时推送,并需通过 FaceID 等方式进行同步人工批准,从而确保每笔交易都经过用户确认,有效解决了 Agent 自主支付的信任问题。Claude 已成功使用该工具在 Gumroad 上自主购买礼物,完成了支付闭环。Link CLI 为 Agent 时代的应用提供了关键的支付基础设施,开发者可便捷集成,让 Agent 在受控前提下安全执行交易任务。

Patrick Collison: We just launched the @Link CLI: https://github.com/stripe/link-cli. Tell your friendly neighborhood agent about it -- ag...

智能体GitHub产品更新
01:14
宝玉@dotey
59
推荐命令行工具 CodexPotter:基于 Ralph Loop 机制执行明确任务

CodexPotter 是一个命令行工具,通过后台启动 Codex CLI 并采用“Ralph Loop”机制执行任务。它先将用户目标写入 MAIN.md 文件,随后在全新上下文中反复启动 Codex 会话,对照该文件检查并修正代码,直至输出与目标一致,默认最多进行 6 轮迭代。该工具适用于目标明确的任务(如按文档实现功能),而非交互式讨论。其名称灵感来源于《辛普森一家》中爱重复说话的 Ralph Wiggum。作者推荐此工具,以回应寻找类似 Claude Code 中 Ralph 插件的需求,并指出其不会像某些插件那样修改用户配置。

宝玉: 请问有没有好用的 Ralph Loop for Codex? 类似于 Claude Code 的 Ralph Wiggum Plugin https://github.com/anthropics/claude-code/blob/main...

GitHub开源/仓库编码
00:13
GitHub Blog
精选59
GitHub Copilot CLI 入门指南:交互模式与非交互模式

GitHub Copilot CLI 提供了交互与非交互两种主要使用模式。交互模式允许用户通过对话式指令逐步构建和调整命令,适合探索性任务。非交互模式则支持直接输入完整指令快速执行,适用于自动化脚本或已知命令。理解这两种模式的区别能帮助开发者更高效地利用该工具,提升命令行工作效率。

GitHub教程/实践编码

推荐理由:如果你总在 Copilot CLI 的交互和非交互模式之间犯迷糊,这篇官方教程算是清晰的速查手册,初学者花五分钟就能搞清楚。
‹ 上一页
1…7891011
下一页 ›