5月21日

12:22

meng shao@shao__meng

实时语音交互是通用 Agent 领域的关键。本文介绍了构建 Voice Agent 所需的技术栈（ASR、TOD、TTS、LLM）及 WebRTC 通信基础，并重点展示了 Agora 推出的 Agora Skills。该工具能快速安装并集成 Agora 的 RTC、RTM 等多种能力。通过 Codex 自动安装 Agora Skills，演示了一键生成浏览器端语音 AI Agent Demo 的完整流程。该 Demo 实现了流畅的实时对话，响应延迟仅约 1 秒，极大简化了开发者验证语音陪伴等场景的开发流程。

智能体 GitHub 教程/实践语音

12:04

向阳乔木@vista8

最近两天爆火的写论文Skill 看来太刚需了，没几天都1.6w Star了。安装命令： /plugin marketplace add Imbad0202/academic-research-skills /plugin install academic-research-skills 开源地址：https://github.com/Imbad0202/academic-research-skills

智能体 GitHub 开源/仓库

11:09

HuggingFace Daily Papers（社区热门论文）

DrawMotion：通过手绘生成3D人体动作

该研究提出了DrawMotion，一个基于扩散的多条件动作生成框架，旨在解决传统文本到动作生成中用户意图表达不精确的问题。该框架支持文本与手绘两种控制条件，分别提供语义和空间引导。技术上，它通过算法自动生成手绘火柴人草图、设计多条件融合模块以降低计算复杂度，并利用无训练引导方法将生成动作与用户意图对齐。实验表明，手绘方式能将用户生成符合想象的动作所需时间缩短约46.7%。相关代码与演示已开源。

GitHub 多模态论文/研究

10:34

向阳乔木@vista8

精选75

开源Suno技能：一键生成任意风格AI音乐

这是基于Suno AI音乐生成工具的技能实现，可通过简单指令按用户需求生成不同风格的歌曲（例如德语空灵风格）。该技能订阅费用为每月10美元，支持高度自定义的风格生成。技术层面已优化，新增近6000个音乐风格检索以提升准确性，并可通过谷歌CDP免登录直接调用。项目已开源，提供GitHub仓库地址与安装指令，降低了创作门槛。目前AI生成音乐在艺术性上仍与人工制作存在差距，但实现了快速、灵活的创作可能。

向阳乔木: Suno 生成 Skill 做了优化,增加了近6000个音乐风格检索,让生成的音乐更准确。用谷歌CDP刷新获取登录Token,完全不用打开网站就能创作歌曲了。开源地址:https://github.com/joeseesun/qiaom...

GitHub 多模态教程/实践

推荐理由：乔木这个 Suno Skill 把音乐生成从“抽卡”变成“精准点唱”，6000 种风格检索让普通人也能玩出花样，虽然比不上专业制作，但做短视频配乐绝对够用，看完就能装。

08:00

HuggingFace Daily Papers（社区热门论文）

理解数据时间性对大语言模型预训练的影响

研究比较了按时间顺序排列数据与传统打乱数据两种预训练方式，针对一个在6B参数模型上训练的实验。研究引入了包含超过7000个时间锚定问题的新基准。结果发现，时间有序预训练的模型在通用语言能力上与打乱预训练基线持平，但其知识更及时、时间定位更准确；打乱预训练则在旧数据上表现达到峰值。代码、模型检查点和数据集已开源。

arXiv GitHub 开源生态数据/训练

5月20日

21:08

HuggingFace Daily Papers（社区热门论文）

精选74

优化_anything：通用文本参数优化API

该研究提出了一种基于大语言模型的通用文本优化系统，将优化问题统一表述为通过评分函数改进文本产物。在六项任务中达到最优结果：智能体架构使Gemini Flash在ARC-AGI上的准确率从32.5%提升至89.5%；调度算法降低40%云成本；87%的CUDA内核匹配或超越PyTorch表现；圆包装问题超越AlphaEvolve。实验表明，可操作的附加信息比仅使用分数反馈收敛更快、得分更高；多任务搜索通过跨任务迁移学习，在同等预算下优于独立优化，且任务数量越多收益越大。该工作首次证明基于LLM的文本优化是通用问题解决范式，能统一传统领域特定算法。系统已开源，支持多种后端。

智能体 arXiv GitHub 搜索

推荐理由：让一个LLM同时优化agent架构、调度算法和CUDA内核，还能将ARC-AGI从32%拉到89%，这可能是今年最突破认知的通用问题求解范式，做agent的人必须看。

15:07

Berryxia.AI@berryxia

乔帮主开源实用油猴脚本套件

开发者“乔帮主”开源了一套日常使用的油猴脚本项目，旨在解决多个主流平台（如微信、小红书、抖音）在内容发布时缺少便捷图片粘贴上传功能等操作痛点。该脚本集主要功能包括：支持在多个内容平台通过截图粘贴自动上传图片；提供YouTube网页版的字幕复制、播放倍速调节，并方便将字幕内容传递给NotebookLM、ChatGPT等工具进行处理；同时支持调整小宇宙网页版的播放速度。项目代码已在GitHub公开。

向阳乔木: 完成了第一项工作,开源自己常用的油猴脚本。 1. 小红书、抖音、微信贴图,截图粘贴自动上传。 2. Youtube字幕复制,倍速调节,复制字幕给NotebookLM、ChatGPT处理。 3. 小宇宙网页版倍速调整开源地址:https:/...

GitHub 开源/仓库

15:07

HuggingFace Daily Papers（社区热门论文）

精选72

CopT：基于连续空间对比验证的在策略推理

CopT提出了一种反转传统链式思考（CoT）顺序的推理框架：先生成草稿答案，再进行策略内反思。其核心是将连续嵌入向量转化为推理时的对比验证器，通过比较模型在离散令牌与连续嵌入输入下对同一生成令牌的支持度，构建序列级反向KL估计器，以此评估答案的可靠性。当答案不可靠时，CopT会执行进一步思考，并利用第二个KL估计器动态控制草稿答案的可见性，在保留有用信息与规避误导间取得平衡。在无需额外训练的前提下，该方法在数学、编程等任务上显著提升了准确率（最高达23%）并大幅减少了令牌消耗（高达57%）。

智能体 GitHub 推理论文/研究

推荐理由：CopT把推理流程反了过来，先草稿答案再自我反思，用连续嵌入对比验证可靠性，在数学/编码/Agent任务上提点23%省token57%，思路可能改写推理范式。

14:31

向阳乔木@vista8

开源油猴脚本提升YouTube观看效率与AI协作

该开源油猴脚本（qiaomu-userscripts）增强了YouTube的观看体验，核心功能包括一键复制或下载视频字幕、调节播放倍速。用户可便捷地将字幕发送至Raycast AI、ChatGPT或NotebookLM，利用自定义提示词快速生成总结或进行深度加工。此外，脚本还扩展了对小红书、抖音、微信的截图自动上传，以及小宇宙网页版的倍速调整功能，旨在优化多平台内容处理的效率。

GitHub 开源/仓库编码

14:31

向阳乔木@vista8

精选76

开源油猴脚本实现小红书、抖音、微信公众号的截图粘贴自动上传，并支持YouTube字幕复制、倍速调节及内容导出至NotebookLM、ChatGPT等工具。主推文作者表示，该工具增强了将X平台内容同步至国内平台的意愿，尽管部分平台体验欠佳。

GitHub 开源/仓库开源生态

推荐理由：向阳乔木开源了一套油猴脚本，让截图直接粘贴上传到小红书、抖音等平台，对多平台内容分发的人来说是一个小而实在的时间节省利器。

10:55

AYi@AYi_AInotes

GitHub遭黑客攻击：AI网络战首次实战？

近日，GitHub疑似遭黑客利用Anthropic的Mythos安全AI模型突破防线，窃取约4000个核心内部仓库，包括Copilot源码和CodeQL算法。此事件被视为AI网络战的开端，彻底改变了攻防平衡：攻击方可借助AI模型将漏洞无限放大，而防御方则需依赖更强大的AI防守。这意味着顶级AI模型一旦泄露，危害堪比核扩散。GitHub官方已确认正在调查内部仓库未授权访问，目前暂未发现客户数据受影响。

GitHub: We are investigating unauthorized access to GitHub's internal repositories. While we currently have no evidence of impac...

Anthropic GitHub 安全/对齐行业动态

10:55

IT之家（RSS）

精选74

消息称微软内部示警：GitHub 面临生存级风险，AI 编程工具削弱托管必要性

微软内部发出警告，称其代码托管平台GitHub正面临“生存级风险”。主要原因是Cursor、Claude Code等AI编程助手兴起，改变了开发者工作流，削弱了持续将代码上传至GitHub的必要性。为统一工具链并控制成本，微软已要求部分团队在2026年6月底前停止试用Claude Code，转而使用自有工具GitHub Copilot CLI。同时，OpenAI曾考虑自建替代平台，也加剧了对GitHub地位的潜在威胁。

智能体 GitHub Microsoft 编码

推荐理由：微软内部把 GitHub 风险定义为“生存级”，这不再是外部竞争猜测，AI 编程工具真的在动摇代码托管的根基。