AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「GitHub」清除
5月15日周五
16:39Peter Steinberger 🦞62为Discrawl新增媒体存储功能
14:37蚂蚁 inclusionAI:GitHub 新仓库57ARGenSeg:基于自回归图像生成模型的全新图像分割方法
12:42宝玉79精选微信群聊总结Skill"毒舌版"提示词详解
10:54歸藏(guizang.ai)62GitHub Copilot桌面端开放技术预览申请
09:51Berryxia.AI75精选牛津大学博士后开源视频翻译工具Violin,支持多语言翻译与视频对话
08:51Berryxia.AI74Yetone发布Native Feel桌面应用开发Agent Skill
08:51Berryxia.AI72开源3D生成工具包:单张图片快速构建可交互3D世界
08:48HuggingFace Daily Papers(社区热门论文)73精选迈向自我进化的智能文献检索系统
08:03Simon Willison 博客27datasette-agent 0.1a2 版发布
08:00HuggingFace Daily Papers(社区热门论文)62Echo-Forcing:面向交互式长视频生成的场景记忆框架
05:06Peter Steinberger 🦞55OpenClaw 新版发布:性能与稳定性全面升级
04:18OpenClaw🦞56OpenClaw 版本更新 性能优化与稳定性增强
5月14日周四
16:51Berryxia.AI75宝玉基于wx-cli开发微信群聊总结工具
13:35Rohan Paul77Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上实现每秒34个token的本地推理
12:26向阳乔木68宝玉老师开发微信群聊总结Skill
08:00HuggingFace Daily Papers(社区热门论文)50AuralSAM2:通过金字塔音视频特征提示赋能SAM2倾听
00:39阿绎 AYi71AI科技圈安全事件频发,供应链攻击Mini Shai-Hulud尤为严峻
5月13日周三
21:28Hacker News 热门(buzzing.cc 中文翻译)70Show HN: Statewright--让人工智能代理更可靠的可视化状态机
14:04Peter Steinberger 🦞68微软助力OpenClaw企业级适配
12:50Berryxia.AI76精选oMLX更新强化苹果端侧AI,本地能力直逼云端
12:44HuggingFace Daily Papers(社区热门论文)56Lite3R:一种用于高效前馈式3D重建的模型无关框架
08:00HuggingFace Daily Papers(社区热门论文)58Delta注意力残差网络:通过增量路由改进跨层信息传递
05:53Claude Code:GitHub Releases(RSS)70精选v2.1.140 版本更新
01:53GitHub Blog61精选GitHub Copilot 个人计划:在 Pro 和 Pro+ 中引入弹性配额,以及新的 Max 计划
00:37阿绎 AYi76精选紧急警告:针对AI开发者的超大规模供应链攻击"Mini Shai-Hulud"正在爆发
5月12日周二
23:53GitHub Blog58精选Dungeons & Desktops: 使用 GitHub Copilot CLI 构建一款程序化生成的 Roguelike 游戏
5月11日周一
18:39SenseTime72精选SenseNova U1图像生成模型登陆ComfyUI平台
10:48歸藏(guizang.ai)78精选开源PPT工具"鬼藏PPT技能"迎重大更新,新增瑞士风格与AI配图功能
09:33meng shao67这个为 iOS App 创建用户 Onboarding Video 的 Skill 很有启发
04:07Sam Altman77精选Codex自主完成安全审计并赚取赏金
5月10日周日
18:29Peter Steinberger 🦞46OpenClaw实现视频问题验证自动化
18:29Peter Steinberger 🦞31提议为项目完成设立预测市场
14:59Orange AI60反蒸馏工具:对抗AI技能提取,保护个人核心知识
12:45Hermes Desktop:GitHub Releases(RSS)32Hermes桌面版 2026.510.1
08:00HuggingFace Daily Papers(社区热门论文)59LLM代理无需推理已知何时调用工具
08:00HuggingFace Daily Papers(社区热门论文)62跨语言在线策略自蒸馏:提升大语言模型在低资源语言上的数学推理能力
08:00HuggingFace Daily Papers(社区热门论文)48Sub-JEPA:用于稳定端到端世界模型的子空间高斯正则化方法
00:32阿绎 AYi72手机扫描与AI Agent技术颠覆房地产与专业领域
5月9日周六
11:29阿绎 AYi68AI算命产品全球大赛表现接近人类顶尖,Agent范式为专业领域AI化提供新路径
5月8日周五
08:00HuggingFace Daily Papers(社区热门论文)55Implicit Preference Alignment for Human Image Animation
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月15日
16:39
Peter Steinberger 🦞@steipete
62
为discrawl(存储媒体)构建了一个新功能, codex说它已完成, 然后我使用了我的codex审查技能… https://github.com/steipete/agent-scripts/blob/main/skills/codex-review/SKILL.md
智能体GitHub教程/实践编码
14:37
蚂蚁 inclusionAI:GitHub 新仓库
57
ARGenSeg:基于自回归图像生成模型的全新图像分割方法

研究团队在NeurIPS 2025上提出ARGenSeg,将图像分割转化为自回归生成过程,逐像素预测分割掩码。该方法利用大规模预训练自回归图像生成模型(如GPT风格视觉模型)的表征与序列建模能力,无需专门架构设计或大量标注数据。实验证明,其在多个标准数据集上性能具有竞争力,展现了生成式基础模型处理判别式视觉任务的潜力。

GitHub图像生成论文/研究
12:42
宝玉@dotey
精选79
微信群聊总结Skill"毒舌版"提示词详解

该提示词要求Claude基于普通版总结骨架,以毒舌、尖锐但不恶毒的风格重写微信群聊总结。具体包括扮演专业评论员,为发言排行添加毒舌备注、将群友画像改为“不留情面版”,并用戏谑口吻撰写概览。同时设定了创作红线,如不涉及人身攻击、私人信息或医学诊断,仅针对群内公开行为进行调侃。技术实现依赖于wx-cli,推荐使用Claude Code和Claude Opus 4.6模型以达到最佳效果。

宝玉: baoyu-skills 新加了一个 Skill: 微信群聊总结 Skill:https://github.com/JimLiu/baoyu-skills/tree/main/skills/baoyu-wechat-summary 依赖于 ...

智能体AnthropicGitHub教程/实践

推荐理由:宝玉这个毒舌版 prompt 把群聊总结从工具变成了社交玩具,红线设计和「先放飞再审查」的写作顺序值得所有写 prompt 的人抄一遍。
10:54
歸藏(guizang.ai)@op7418
62
GitHub 发布了 GitHub Copilot 桌面端的技术预览版。 看起来跟 Codex 长得有点像,在 GitHub 相关功能上露出的也比较多。 现在需要申请 waitlist

GitHub: Cooking up something new 🧑🍳 Join the waitlist for early access to technical preview of the GitHub Copilot app 👇 https...

GitHub产品更新编码
09:51
Berryxia.AI@berryxia
精选75
牛津大学博士后开源视频翻译工具Violin,支持多语言翻译与视频对话

牛津大学博士后Kevin Lin开源视频翻译工具Violin,旨在打破高质量视频内容的语言壁垒。该工具将语音识别、大语言模型翻译与语音合成整合为自动化流水线,支持多语言互译与个性化翻译风格调整,例如将学术报告转化为儿童易懂版本。用户还能直接与视频内容进行对话并获取相关答案。Violin提供Web应用、命令行界面和Agent Skill三种使用方式,所有功能基于MIT协议开源,由Together Compute提供技术支持,适用于内容创作、教育及多模态智能体开发等领域。

Kevin Lin: 🌟Introducing🎻Violin - an Open-source Video Translation Skill. 📹Video is the dominant medium on the internet, yet most...

GitHub多模态开源/仓库语音

推荐理由:视频翻译过去得拼几个 API,Violin 一个开源 Skill 把 ASR、翻译、TTS 全通了,还加上视频对话和风格定制,做多语言内容传播的必须收藏。
08:51
Berryxia.AI@berryxia
74
开发者Yetone将一篇关于桌面应用开发"最佳实践"的文章转化为一个名为"native-feel-skill"的Agent Skill。该Skill旨在帮助开发者利用Coding Agent,轻松地重构或开发跨平台桌面应用,并使其获得极其接近Native原生应用的性能体验。项目代码已开源在GitHub上。

yetone: 由于这篇文章太伟大了,所以我把它变成了一个 Agent Skill。 大家可以使用自己的 Coding Agent 安装一下这个 Skill,这样就可以用「最佳实践」来轻松地重构或者开发一个既容易跨平台、又极其接近 Native 性能的桌面...

智能体GitHub开源/仓库编码
08:51
Berryxia.AI@berryxia
72
开源3D生成工具包:单张图片快速构建可交互3D世界

开发者@neilsonks开源了一套专为Claude Code设计的完整3D生成工具包。该工具能将输入的单张图片自动拆解,生成包含环境、网格、物理、灯光和音频的全套可交互3D场景。其流程首先利用图像与3D生成技术提取物体并生成高质量网格,随后移除物体以得到静态背景,最后为整个场景添加物理模拟、实时灯光和环境音效。配套查看器支持对生成物体的点击编辑与一键导出。此工具将以往需数天的2D转3D工作流程缩短至几分钟,适用于游戏开发、世界构建和产品可视化等项目。项目已在GitHub开源。

neilson: open-sourcing a 3D gen toolkit for Claude Code input image → environment, meshes, physics, lighting, & audio

AnthropicGitHub产品更新多模态
08:48
HuggingFace Daily Papers(社区热门论文)
精选73
迈向自我进化的智能文献检索系统

针对传统检索无法理解复杂意图、而前沿大语言模型成本高且存在幻觉的问题,研究团队提出了自我进化的智能文献检索系统PaSaMaster。该系统通过迭代式意图分析、检索与排序,将文献检索转变为动态演进的过程,并采用三项关键设计:利用排序证据揭示信息缺口以优化搜索;将检索定义为意图-论文相关性排序任务,从根本上杜绝虚假文献;通过分离规划与检索来提升效率,仅用大模型理解意图,而将大规模检索与评分交由轻量模型处理。在涵盖38个学科的基准测试中,该系统将传统关键词检索的F1分数提升15.6倍,完全消除了文献幻觉,且性能超越GPT-5.2达30%,计算成本仅为后者的1%。

智能体GitHub检索增强论文/研究

推荐理由:学术文献检索一直被关键词和LLM幻觉两头堵,这个系统用规划与检索分离做到了零幻觉,F1暴涨15.6倍,比GPT-5.2强30%却只花1%算力,做科研的可以马上跑起来。
08:03
Simon Willison 博客
27
datasette-agent 0.1a2 版发布

开源工具 datasette-agent 发布了 0.1a2 版本。此版本的主要更新在于,工具的可用性现在可以与特定的权限(required_permission)进行绑定。默认提供的后台代理工具现在需要新的 datasette-agent-background 权限才能访问。此次发布关联了 datasette 与 datasette-agent 两个核心项目。

智能体GitHub产品更新
08:00
HuggingFace Daily Papers(社区热门论文)
62
Echo-Forcing:面向交互式长视频生成的场景记忆框架

现有无训练长视频生成方法因历史KV状态功能纠缠,在处理提示切换、场景遗忘与召回等交互式场景时存在瓶颈。为此,本文提出Echo-Forcing框架,包含三个核心机制:分层时间记忆、场景回放帧与差异感知记忆衰减,分别用于解耦和管理历史信息、压缩长期场景、以及自适应遗忘冲突内容。该框架能在有限缓存预算下,支持视频的平滑过渡、硬切与长程召回。在VBench-Long上的评估表明,Echo-Forcing在长视频与交互式视频生成任务中均取得了最佳整体性能。

arXivGitHub视频论文/研究
05:06
Peter Steinberger 🦞@steipete
55
OpenClaw 团队近期专注于提升性能、可靠性、安全性和稳定性,通过引入 crabbox 等全新自动化流程以及投入大量 CPU 资源于 CI 环节,实现了显著改进。新版本默认将 OpenAI 配置设为 Codex 登录,增强了运行时回退与停滞流恢复机制,确保 Telegram 轮询在停滞情况下仍可维持。此外,安装包更精简、启动路径更快速,整体运行更高效、稳定且不易卡顿。

OpenClaw🦞: OpenClaw 2026.5.12 🦞 🧠 OpenAI setup defaults to Codex login 🛟 Runtime fallbacks + stalled-stream recovery 📬 Telegram...

GitHub开源/仓库编码
04:18
OpenClaw🦞@openclaw
56
OpenClaw 2026.5.12 🦞 🧠 OpenAI 默认设置为 Codex 登录 🛟 运行时回退 + 停滞流恢复 📬 Telegram 轮询在停滞时保持存活 ⚡ 更精简的安装,更快的启动路径 更快、更稳定、更难卡死。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.12
智能体GitHub产品更新
5月14日
16:51
Berryxia.AI@berryxia
75
宝玉基于卡比开发的wx-cli命令行工具,编写了一个微信群聊总结Skill。该工具通过解密本地微信数据库工作,安装简便,仅需几步命令即可自动总结指定群聊(如"AI产品蝗虫")的当日消息。其优势在于无需关闭系统完整性保护(SIP),若运行报错,可将错误信息发送给AI代码助手寻求解决方案。相关项目源码已在GitHub开源。

向阳乔木: 宝玉老师基于卡比的wx-cli写了一个微信群聊总结Skill。 安装成功,正在总结下AI产品蝗虫今天的消息。 wx-cli不错啊,解密本地的微信数据库,甚至连SIP都不用关,如果报错,可以发给Codex或Claude Code解就行。 卡比...

GitHubMCP/工具教程/实践
13:35
Rohan Paul@rohanpaul_ai
77
Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上实现每秒34个token的本地推理

近期,Qwen 3.6 27B大型语言模型通过TurboQuant技术被量化为GGUF格式,并整合Multi-Token Prediction技术。在配备M5 Max芯片和64GB内存的MacBook Pro上,该模型实现了每秒34个token的本地推理速度。高达90%的接受率表明,性能提升并非以牺牲输出质量为代价,而是通过避免重复的全成本解码工作来达成。同时,利用llama.cpp进行高效调用,进一步优化了运行效率。这一技术组合显著扩展了“笔记本电脑AI”的应用边界,使得在本地设备上流畅运行大型模型成为可能,提升了用户体验。

atomic.chat: Multi-Token Prediction (MTP) for Qwen on LLaMA.cpp! +40% performance! 90% acceptance rate. Running locally on a MacBook ...

GitHub推理教程/实践端侧
12:26
向阳乔木@vista8
68
宝玉老师开发微信群聊总结Skill

宝玉老师基于卡比开发的wx-cli工具,编写了一个自动总结微信群聊消息的Skill。该工具通过解密本地微信数据库获取聊天记录,无需关闭系统完整性保护。用户可对指定群聊当天的消息进行内容总结,若遇报错可借助AI编程助手解决。相关工具源代码已在GitHub开源。

GitHubMCP/工具教程/实践
08:00
HuggingFace Daily Papers(社区热门论文)
50
AuralSAM2:通过金字塔音视频特征提示赋能SAM2倾听

针对SAM2在音频模态整合上的不足,本文提出AuralSAM2。其核心模块AuralFuser融合音频与视觉特征,生成稀疏和密集提示,并基于SAM2的特征金字塔在视觉层间传播音频线索,以强化跨模态影响。同时,引入音频引导对比损失函数,进一步对齐音频与视觉特征。实验表明,该方法在公开基准上显著提升了准确率,同时将对SAM2可提示分割交互效率的影响降至最低。

arXivGitHub多模态论文/研究
00:39
阿绎 AYi@AYi_AInotes
71
AI科技圈安全事件频发,供应链攻击Mini Shai-Hulud尤为严峻

近期AI科技圈安全事件集中爆发,涉及Linux、Windows、Next.js等多个系统与框架的漏洞。其中,代号“Mini Shai-Hulud”的大规模供应链攻击最为严峻,已劫持GitHub Actions CI管道,污染了TanStack、Mistral AI等超过170个热门npm/PyPI包。该恶意软件具备持久化与蠕虫式传播能力,并能绕过传统验证。建议开发者立即冻结安装、进行安全自查,并轮换所有密钥与令牌。

阿绎 AYi: Damn!所有AI开发者,立刻停下你手里的npm install🤯 现在正在爆发有史以来最恐怖的供应链攻击, 代号Mini Shai-Hulud, 已经波及TanStack全家桶、Mistral AI、UiPath等170多个npm和Py...

GitHub安全/对齐
5月13日
21:28
Hacker News 热门(buzzing.cc 中文翻译)
70
Show HN: Statewright--让人工智能代理更可靠的可视化状态机

Statewright发布了一个开源的可视化状态机工具,旨在通过图形化界面提升人工智能代理的可靠性。该工具允许开发者直观地设计和监控AI代理的状态转换,简化开发流程,减少错误并增强系统稳定性。在Hacker News上,该项目获得101个点赞,显示出技术社区对其创新性的关注。开发者可通过GitHub访问代码,将其集成到AI项目中以提高可维护性和性能。

智能体GitHub开源/仓库开源生态
14:04
Peter Steinberger 🦞@steipete
68
感谢微软,他们正助力OpenClaw做好企业级准备。

Omar Shahine: New in @openclaw beta: one path scheme to rule them all. `openclaw path read|write|append` works the same across md, jso...

GitHubMCP/工具Microsoft开源/仓库
12:50
Berryxia.AI@berryxia
精选76
oMLX更新强化苹果端侧AI,本地能力直逼云端

oMLX项目更新至0.3.9.dev2版本,集成了Gemma 4的MTP视觉路径、DFlash引擎和ParoQuant技术,显著提升了图文处理速度。新增一键启动copilot功能,可便捷接入Claude等工具,并通过oQ自动代理解决显存瓶颈。这些改进大幅增强了本地AI在速度、集成与易用性上的表现,正推动AI能力从云端向个人电脑回归。

GitHubMCP/工具多模态开源/仓库

推荐理由:oMLX 这个更新把 Gemma 4 的视觉能力塞进本地,加一键接入 Claude 的工具链,端侧 AI 从差点意思到真可用,值得每个 Mac 开发者立刻试一下。
12:44
HuggingFace Daily Papers(社区热门论文)
56
Lite3R:一种用于高效前馈式3D重建的模型无关框架

针对基于Transformer的多视图3D重建模型效率低下的问题,本文提出Lite3R框架。该框架采用模型无关的师生架构,以稀疏线性注意力替代密集注意力来降低计算开销,并引入参数高效的FP8感知量化训练策略。该策略结合部分注意力蒸馏,冻结大部分预训练骨干参数,仅微调轻量线性分支投影层,从而实现稳定的低精度部署。在VGGT和DA3-Large骨干网络上的实验表明,Lite3R在BlendedMVS和DTU64数据集上能显著降低延迟(1.7-2.0倍)和内存占用(1.9-2.4倍),同时保持整体重建质量的竞争力。

arXivGitHub多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
58
Delta注意力残差网络:通过增量路由改进跨层信息传递

针对深度网络中传统注意力残差连接因累积状态冗余而导致路由能力受限的问题,本文提出Delta注意力残差机制。该方法不直接关注历史层的累积隐藏状态,而是关注每层子网络引入的增量变化(即输出差值)。这种增量表示结构更多样,能生成对比度更高的注意力分布,从而实现更精准、有效的跨层信息路由。在220M至7.6B参数规模的模型上进行的实验表明,该方法在验证集困惑度上相较于标准残差和标准注意力残差均有1.7%-8.2%的稳定提升,并可通过标准微调应用于预训练模型。

GitHub数据/训练论文/研究
05:53
Claude Code:GitHub Releases(RSS)
精选70
v2.1.140 版本更新

本次更新包含多项错误修复与体验优化。核心改进包括:增强了Agent工具的subagent_type匹配逻辑,现对大小写和分隔符不敏感;修复了/goal命令在特定钩子设置下无响应的问题,现会显示明确提示;解决了Windows系统上因缺失可执行文件导致的周期性事件循环停滞。此外,还修正了后台服务启动、远程设置认证重试、托管市场更新策略持久化、/loop命令调度冗余以及Read工具参数验证等多个问题。插件系统现会对因配置冲突而被静默忽略的默认组件文件夹发出警告。

AnthropicGitHub产品更新部署/工程

推荐理由:Claude Code 这次修了一批烦人小 bug,尤其是 /goal 不再装死、/loop 不再空转,用着难受的开发者可以立刻更新试试。
01:53
GitHub Blog
精选61
GitHub Copilot 个人计划:在 Pro 和 Pro+ 中引入弹性配额,以及新的 Max 计划

GitHub 宣布从6月1日起更新 Copilot 个人计划阵容,基于用户反馈进行调整。主要变化包括在现有 Pro 和 Pro+ 计划中引入弹性配额机制,允许用户更灵活地分配使用量;同时新增 Max 计划,扩展高级选项。此次更新旨在提升计划的可定制性,为开发者提供更个性化的编程辅助服务,优化整体使用体验。

GitHub产品更新编码

推荐理由:GitHub Copilot 个人版引入弹性配额和更贵的 Max 计划,对你这样每天靠它写代码的人,要么多花钱要么被限流,算清楚自己的用量比看功能列表更重要。
00:37
阿绎 AYi@AYi_AInotes
精选76
紧急警告:针对AI开发者的超大规模供应链攻击"Mini Shai-Hulud"正在爆发

代号“Mini Shai-Hulud”的大规模供应链攻击正在爆发,已波及TanStack、Mistral AI等170多个热门npm/PyPI包。攻击者通过劫持GitHub Actions CI管道,使合法项目自动发布带毒版本,并附有SLSA 3级证明以绕过验证。恶意软件会持久化修改用户配置文件,威胁删除home目录,并能利用窃取的CI密钥像蠕虫一样自动扩散。即使固定包版本,也可能在6分钟发布窗口期内中招。建议开发者立即冻结安装、使用工具自查,并全面轮换所有云密钥和访问凭证。

Ryan Carson: 🚨 There's a major attack going on via npm right now. Do not install any packages right now. Talk to your agent ASAP and...

GitHub安全/对齐开源生态行业动态

推荐理由:这可能是 npm 历史上最毒的供应链攻击,专杀 AI 开发者的工具链,持久化机制和蠕虫扩散让人后背发凉,给出的三条止损命令最好现在就执行。
5月12日
23:53
GitHub Blog
精选58
Dungeons & Desktops: 使用 GitHub Copilot CLI 构建一款程序化生成的 Roguelike 游戏

一位 GitHub 员工利用 GitHub Copilot CLI 开发了一款扩展程序,能够将任何代码库转换成一个独特的 Roguelike 风格地下城。该工具通过 AI 辅助的代码生成,实现了程序化关卡创建,展示了 Copilot CLI 在创意编码和游戏原型开发中的实际应用潜力。项目核心是自动解析代码结构并生成对应的可探索地下城布局。

GitHub教程/实践编码

推荐理由:用 GitHub Copilot CLI 把代码库变成 roguelike 地牢,玩法挺有脑洞,做 Copilot 扩展的开发者可以看一眼思路。
5月11日
18:39
SenseTime@SenseTime_AI
精选72
SenseNova U1图像生成模型登陆ComfyUI平台

SenseNova U1图像生成模型现已在ComfyUI上可运行,并获得包括REBEL AI在内的评测者高度认可。REBEL AI发布的实践教程展示了该模型的部署工作流,并对其图像生成能力进行了真实场景测试。模型支持8步快速推理,生成速度极快,应用场景涵盖人像、超现实艺术、文字标志和生物设计等。相关资源已在Hugging Face、GitHub和Discord平台开放。

GitHubHugging Face图像生成模型发布

推荐理由:商汤把新模型U1的ComfyUI部署流程完整放出,还有实测视频,想在自己机器上跑国产图像模型的开发者可以直接抄作业了。
10:48
歸藏(guizang.ai)@op7418
精选78
开源PPT工具"鬼藏PPT技能"迎重大更新,新增瑞士风格与AI配图功能

开源项目“鬼藏PPT技能”迎来重大更新,新增瑞士国际主义视觉风格,提供克莱因蓝等四套主题色。核心升级包括:通过接入GPT-Image 2.0,可根据PPT内容与风格自动生成胶片质感配图、流程图及UI截图美化;支持基于同一内容一键生成公众号、小红书、视频号等多种规格的封面图。更新旨在解决用户对多风格、自动配图及跨平台适配的需求,并通过预设22种版式和严格的视觉规则,确保设计的一致性与专业性。

智能体GitHub产品更新图像生成

推荐理由:藏师傅把做PPT的整条链闭环了,从大纲、配图到多平台封面一个对话走完。瑞士风的设计纪律直接写进skill,做出来的PPT终于甩掉AI模板味。
09:33
meng shao@shao__meng
67
这个为 iOS App 创建用户 Onboarding Video 的 Skill 很有启发

一款开源Skill“Create Onboarding Video”利用AI(通过Remotion)为iOS App生成高质量的用户引导视频。它强制遵循一套“反AI油腻感”的硬性规则,以制作出具有“App Store预览”级质感的片段。核心规则包括:视频需聚焦于证明功能在工作的特定UI组件,而非展示完整屏幕;字幕需有固定的位置、大小和入场动画;光标交互必须真实自然,禁止瞬移。该Skill定义了从素材采集、分镜规划到编码实现的四步工作流,强调“展示而非叙述”,旨在快速引导用户达成“aha moment”。

ROFI: http://x.com/i/article/2053059568121282560

智能体GitHub开源/仓库教程/实践
04:07
Sam Altman@sama
精选77
用户指示AI模型Codex去赚取5美元,Codex自主完成了一系列任务:寻找开源安全审计赏金项目,提交有效的拉取请求,与维护者沟通,并处理了GitHub验证流程,最终使工作被合并。经过约22小时的工作,用户获得了16.88美元的首笔付款。按此推算,若每日重复,月收入可达506.40美元。这初步实现了Sam Altman关于AI能主动为人赚钱的愿景,虽然金额尚小,但标志着一个令人兴奋的开端。

Chris: Codex made me money without me doing anything.. Huge turning point for me today, I asked Codex to go off and make me $5....

智能体GitHubOpenAI安全/对齐

推荐理由:一个普通用户让 Codex 独立完成安全审计并赚到真金白银,是 agent 走向「替你赚钱」的第一个可信证据,Sam 只回了 interesting,比十万字 PR 都重。
5月10日
18:29
Peter Steinberger 🦞@steipete
46
作为质量保证自动化工作的一部分,我们现在已为OpenClaw的问题提供视频验证生成功能。 Codex 【或GH工作流】 生成前后对比记录(屏幕录制由crabbox完成)。 特别感谢@obviyus实现了真实的Telegram登录自动化! https://github.com/openclaw/openclaw/pull/76999#issuecomment-4415012577
GitHub开源/仓库编码
18:29
Peter Steinberger 🦞@steipete
31
我们应该为它完成时设立一个预测市场。 https://github.com/openclaw/openclaw/pull/78595
GitHub开源/仓库编码
14:59
Orange AI@oran_ge
60
反蒸馏工具:对抗AI技能提取,保护个人核心知识

为应对公司要求将工作经验提炼为AI可执行技能(即“技能蒸馏”)的做法,有开发者提出了“反蒸馏”工具。用户可将写好的技能文件输入,工具会生成一份表面完整但核心知识已被抽离的“清洗版”用于提交,同时私密备份被移除的关键经验与知识,以保护个人真正的职业资产。例如,将具体技术实践“Redis key必须设TTL”泛化为“缓存使用遵循团队规范”。该项目旨在帮助从业者在AI时代维护自身知识价值。

GitHub开源/仓库教程/实践
12:45
Hermes Desktop:GitHub Releases(RSS)
32
Hermes桌面版 2026.510.1

Hermes桌面版发布2026.510.1更新,修复桌面打包问题,确保WebUI优先使用捆绑的hermes-agent运行时,并抑制误导性Git更新提示。此次更新捆绑hermes-agent 0.13.0与hermes-webui 0.51.34,新增macOS arm64 DMG和ZIP安装包,提升安装一致性。

GitHub产品更新部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
59
LLM代理无需推理已知何时调用工具

针对工具增强型LLM代理过度调用工具的问题,研究提出了When2Tool基准,系统评估工具调用必要性。研究发现,尽管提示优化和“推理后行动”等免训练方法效果有限,但模型隐藏状态已线性编码了工具必要性信息(AUROC达0.89-0.96)。基于此提出的Probe&Prefill方法,通过轻量级线性探针读取隐藏信号并预填充引导句,在测试的所有模型中实现了工具调用减少48%而准确率仅损失1.7%的显著效果,远超现有基线。

智能体GitHubMCP/工具论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
跨语言在线策略自蒸馏:提升大语言模型在低资源语言上的数学推理能力

本文提出跨语言在线策略自蒸馏方法(COPSD),以提升大语言模型在低资源语言上的数学推理能力。该方法将同一模型同时作为学生和教师:学生仅接收低资源语言问题,教师则额外获得英文翻译和参考解答作为上下文。通过最小化学生自身输出与教师指导间的全分布令牌级分歧进行训练,提供了密集监督,避免了仅基于结果的强化学习的稀疏性与不稳定性。在17种低资源非洲语言上的实验表明,COPSD能持续提升不同规模模型的推理性能,显著优于GRPO基准,并改善了答案格式遵循与测试时缩放能力,对资源极少的语言效果尤为显著。

arXivGitHub推理数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
48
Sub-JEPA:用于稳定端到端世界模型的子空间高斯正则化方法

研究团队提出Sub-JEPA方法,以解决联合嵌入预测架构训练中的偏差-方差权衡问题。该方法放弃在原始高维嵌入空间直接施加各向同性高斯先验,转而通过在多个随机子空间中施加高斯约束,从而放松了全局限制,同时保留了防止模型崩溃的效果,在训练稳定性与表示灵活性间取得了更好平衡。在四个连续控制环境中的实验表明,该方法以明显优势持续超越了此前基于各向同性高斯先验的LeWorldModel方法。该方法简单有效,为未来基于JEPA的世界模型研究提供了有力基线。

GitHub具身智能论文/研究
00:32
阿绎 AYi@AYi_AInotes
72
手机扫描与AI Agent技术颠覆房地产与专业领域

一项名为“3D高斯泼溅”的技术,允许用户仅用手机扫描整栋房屋,即可生成可在浏览器中直接浏览的沉浸式3D模型。其成本极低、文件小巧,为房产等行业带来新机会。同时,AI在垂直专业领域正通过Agent范式取得突破。例如Tianfu Agent在专业命理大赛中接近人类顶尖水平,其通过构建专用工具集而非依赖通用模型硬记规则的方法,为法律、中医等规则密集型领域的AI化提供了可迁移的新路径。

阿绎 AYi: 卧槽,说个颠覆我认知的事, 现在AI 把算命这件事,已经干到了全球大赛接近人类顶尖的水平,直接把通用大模型都甩开了一大截! 说实话,我一开始看到这个消息, 第一反应是又来个蹭玄学流量的 AI 噱头, 直到翻完它的完整技术报告和大赛数据, 才...

智能体GitHub开源/仓库教程/实践
5月9日
11:29
阿绎 AYi@AYi_AInotes
68
一款名为Tianfu Agent的AI产品在全球算命师大赛中取得50%的截尾均值准确率,接近人类顶尖选手的53.5%,显著优于通用大模型。其核心在于采用工程化思路,构建了200多个专用原子工具处理精准计算,并将各流派技法封装为可调用函数,避免了长链推理中的信息丢失与幻觉问题。这套Agent范式为法律、中医等规则密集型垂直领域的AI化提供了高效、可控且可迁移的新解决方案。产品已开源评测基准并提供试用。

阿绎 AYi: 卧槽,说个颠覆我认知的事, 现在AI 把算命这件事,已经干到了全球大赛接近人类顶尖的水平,直接把通用大模型都甩开了一大截! 说实话,我一开始看到这个消息, 第一反应是又来个蹭玄学流量的 AI 噱头, 直到翻完它的完整技术报告和大赛数据, 才...

DeepSeekGitHub教程/实践
5月8日
08:00
HuggingFace Daily Papers(社区热门论文)
55
Implicit Preference Alignment for Human Image Animation

针对人体图像动画中高自由度、复杂的手部动作生成难题,研究者提出了隐式偏好对齐框架。该方法无需构建严格配对的偏好数据,通过最大化自生成高质量样本的似然并惩罚与预训练先验的偏差来实现模型对齐。框架还引入了手部感知局部优化机制,以显式引导手部区域的生成质量。实验表明,该方法能有效优化手部生成质量,同时大幅降低了构建偏好数据的门槛。相关代码已开源。

arXivGitHub图像生成视频
‹ 上一页
1…67891011
下一页 ›