AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「GitHub」清除
今天7月3日 周五
06:21Simon Willison 博客66llm-coding-agent 0.1a0
7月2日周四
19:39meng shao79精选browser-use 发布开源 AI 视频剪辑 Skill「video-use」
16:40Hacker News 热门(buzzing.cc 中文翻译)71精选Kimi K2.7 Code 已在 GitHub Copilot 上正式发布
11:28HuggingFace Daily Papers(社区热门论文)47域算术:环境变化下的一次性VLA适配
11:25歸藏(guizang.ai)71藏师傅社交卡片Skill更新:支持Live Photo生成与编辑
09:07meng shao77精选Emil Kowalski 发布设计工程师 Skills,让 AI 编码工具具备 UI 动画审美
7月1日周三
13:28HuggingFace Daily Papers(社区热门论文)49TerraDiT-Ω: 基于任意地理空间基元的卫星图像合成统一空间控制框架
09:33meng shao75精选mattpocockuk 的 /writing-great-skills:编写可预测 AI Skill 的指南
01:19Simon Willison 博客73精选用 shot-scraper video 让 AI 智能体录制工作演示视频
6月30日周二
10:59meng shao69Codex Skill Manager 开源发布
09:50公众号:卡尔的AI沃茨70精选AI News Radar 大更新:新增自媒体板块,支持订阅多平台账号
08:00HuggingFace Daily Papers(社区热门论文)39AtomiMed:层次化原子事实检查实现通用临床感知的医学报告评估
6月29日周一
23:57SenseTime35商汤 SenseNova-U1-8B-MoT 可生成高质量信息图
22:35Hacker News 热门(buzzing.cc 中文翻译)71精选Herdr:驻留在终端中的AI智能体多路复用器
19:10公众号:小红书技术(dots.llm)72精选小红书 RedKnot 推理引擎:将 KV Cache 按注意力头拆解实现长文本加速
18:24Berryxia.AI62开源视频制作项目OpenMontage单日获3000 Star
14:34Hacker News 热门(buzzing.cc 中文翻译)53HackerRank 将其 ATS 开源,评分不稳定引发争议
14:24Berryxia.AI64Supervision:Roboflow计算机视觉开源工具包,45K Stars
09:01IT之家(RSS)57我国开源生态版图扩容,新增人工智能与具身智能等7项目
08:00HuggingFace Daily Papers(社区热门论文)51BrainJanus:融合脑、视觉与语言的统一模型
05:57宝玉68RepoPrompt 已开源,社区版上线GitHub
05:22🚨 AI News | TestingCatalog64Vida开源BrowserBC:浏览器会话→AI智能体技能
6月28日周日
20:01IT之家(RSS)62OpenClaw 官方市场惊现"冒名顶替"项目,多达 23 个 Skill 技能伪装成"第一方出品"
02:22Berryxia.AI61LLM讲解通俗易懂引热议
02:00Yuchen Jin38DeepSeek 发布 DSpark 推测解码并开源 DeepSpec
6月27日周六
07:35MarkTechPost(RSS)75精选Cursor 研究发现奖励攻击虚增编码智能体 SWE-bench Pro 分数
06:53Rohan Paul60MIT研究:AI编码工具使代码提交量暴增但实际发布仅增30%
00:16AYi76精选Leaf 开源项目:将网红峰哥做成实时通话 AI 分身
6月26日周五
22:58SenseTime60商汤 SenseNova U1 完整训练代码开源并发布 smoke-test 数据集
22:20Berryxia.AI68PP-OCRv6发布端到端部署基准:A100仅0.13秒/图,CPU提速5.2倍
20:20Berryxia.AI69岚叔开源文章转手绘动态图Skill
13:51宝玉59PPT Master 确实是最好的 PPT Skill
13:15AYi56GitHub开源量化书《XQuant》揭示AI跨领域迁移模板
13:09向阳乔木55qiaomu-lucky 开源抽奖工具发布
12:15AYi56《XQuant》GitHub开源:问题驱动的量化书,先写Spec让AI跑策略
09:27小互81精选小互开源个人IP配图技能"小互IP Studio",含31个原创角色
09:22meng shao67v0 发布 Design Systems 2.0
08:00HuggingFace Daily Papers(社区热门论文)52基于Gist Token的简化稀疏注意力
08:00HuggingFace Daily Papers(社区热门论文)44GBC:基于梯度的连接用于优化多智能体系统
07:01GitHub Blog51跨模型与任务的 GitHub Copilot agentic harness 性能与效率评估
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月3日
06:21
Simon Willison 博客
66
llm-coding-agent 0.1a0

Simon Willison 发布实验性库 llm-coding-agent 0.1a0,基于其 LLM 库演化为智能体框架,实现类似 Claude Code 的编码智能体。可通过 uvx --prerelease=allow --with llm-coding-agent llm code 运行,并提供基于 CodingAgent 类的 Python API。内置六种工具:edit_file(精确替换字符串并返回 diff)、execute_command(执行命令,超时 600 秒)、list_files(按 glob 列出文件,排除隐藏目录和 .gitignore 覆盖项)、read_file(分页读取,offset/limit 控制)、search_files(正则搜索,最多 100 条结果)、write_file(创建或覆盖文件,自动创建父目录)。已作为 slop-alpha 发布到 PyPI,支持 --yolo 等 recipe 参数。

智能体GitHub产品更新开源生态
7月2日
19:39
meng shao@shao__meng
精选79
browser-use 发布开源 AI 视频剪辑 Skill「video-use」

browser-use 团队推出面向 Codex、Claude Code 等 AI 编码智能体的开源 Skill「video-use」,让 LLM 通过 ElevenLabs Scribe 将音频转写为约 12KB 文本(含逐词时间戳、说话人分离、事件标记),仅在决策点调用 timeline_view.py 生成 PNG 帧图。技术流水线包括转写、打包、生成 JSON 格式 EDL、ffmpeg 渲染及最多 3 轮自评估。渲染关键细节:分段提取 + -c copy 拼接、30ms 音频淡入淡出、PTS 时移、字幕最后叠加、HDR 自动映射、竖屏缩放、两-pass loudnorm。动画支持 HyperFrames、Remotion、Manim 等引擎。项目附带 12 条硬规则确保生产正确性。

智能体GitHub开源/仓库视频

推荐理由:browser-use 团队把 AI 视频剪辑从「看视频帧」变成「读转写文本」,12KB 文本代替 4500 万 token 噪声的思路很聪明,一套可落地的 ffmpeg 脚本集,做 AI agent 视频处理的可以直接抄。
16:40
Hacker News 热门(buzzing.cc 中文翻译)
精选71
Kimi K2.7 Code 已在 GitHub Copilot 上正式发布

Kimi K2.7 Code 开源权重模型已在 GitHub Copilot 中正式可用,成为 Copilot 模型选择器首个可选的开源权重模型,为编程工作流提供更低成本选择。该模型由 GitHub 托管于 Microsoft Azure,按供应商列表价格以用量计费。逐步向 Copilot Pro、Pro+ 和 Max 计划用户推送,用户可在 Visual Studio Code 1.127.0 或更新版本、Visual Studio 17.14.6 或更新版本、JetBrains 1.9.1-251 或更新版本、Xcode、Eclipse 等 IDE 及 Copilot CLI、GitHub.com、GitHub Mobile 等平台中选用。后续几周将扩展至 Copilot Business 和 Enterprise,当前默认关闭,需管理员在 Copilot 设置中启用策略。

GitHub产品更新开源生态编码

推荐理由:GitHub Copilot 首次把开源权重模型放进模型选择器,Kimi K2.7 Code 作为低价选项可能会改变很多开发者的使用习惯,对个人开发者尤其友好。
11:28
HuggingFace Daily Papers(社区热门论文)
47
域算术:环境变化下的一次性VLA适配

Vision-Language-Action (VLA) 模型在相机位姿改变或机器人更换(如从Panda换为UR5e)时通常无法完成已学任务。传统适配需为每个任务收集多次演示,成本高昂。DART(Domain ARiThmetic)提出基于类比推理的方法,通过权重向量算术添加特定领域信息,仅需单次演示即可适配目标环境。DART对权重向量中的奇异成分进行子空间对齐以滤除噪声。在模拟和真实实验中,DART在一次性场景下优于现有VLA适配方法。代码已开源。

arXivGitHub具身智能开源/仓库
11:25
歸藏(guizang.ai)@op7418
71
藏师傅社交卡片Skill更新:支持Live Photo生成与编辑

歸藏的guizang-social-card-skill新增Live Photo能力,支持单视频动态卡片、拼图式(二/三/四宫格)、三连Live Photo及长视频筛选。核心细节:第一帧可作为静态图发布;小红书5秒/公众号3秒时长区分;发布需将JPG+MOV打包为.pvt并通过AirDrop传到iPhone。建议先粗剪视频每段10秒左右,让AI判断适合做Live Photo的片段。安装或更新后即可使用。

智能体GitHub产品更新图像生成
09:07
meng shao@shao__meng
精选77
Emil Kowalski 发布设计工程师 Skills,让 AI 编码工具具备 UI 动画审美

Emil Kowalski 将多年 UI/动画原则沉淀为三个 Skill,使 Codex、Claude Code、Cursor 等 Coding Agents 具备资深设计工程师的审美判断。核心规则:动画必须有理由;每天 100+ 次的高频操作禁用动画;UI 动画控制在 300ms 内;只动画 transform 和 opacity;入口从 scale(0.95)+opacity:0 开始;尊重 prefers-reduced-motion(仅移除位移动画)。review-animations 以严格标准审查动画代码,输出 Before/After/Why 表格。animation-vocabulary 将模糊描述(如“弹一下的效果”)转为专业动效术语。

智能体GitHub教程/实践编码

推荐理由:Emil 把设计工程直觉变成了 AI 编码代理能理解的规则,clone 下来就能让 Claude Code 和 Cursor 产出有品味的动效,做前端的值得立刻试试。
7月1日
13:28
HuggingFace Daily Papers(社区热门论文)
49
TerraDiT-Ω: 基于任意地理空间基元的卫星图像合成统一空间控制框架

TerraDiT-Ω是一个统一空间控制框架,可直接利用任意地理空间基元(多边形、折线、边界框、点)进行卫星图像生成。它联合使用精确和粗略标注,适应不同标注预算,适用于城市规划等设计任务。提出Geometry-Aware Local Attention机制,将几何线索注入注意力空间。在所有格式上优于密集和稀疏控制基线。该框架支持可控数据增强,提升土地覆盖分割、目标检测、道路图提取、场景分类等下游性能。代码、数据、权重已开源。

arXivGitHub图像生成数据/训练
09:33
meng shao@shao__meng
精选75
mattpocockuk 的 /writing-great-skills:编写可预测 AI Skill 的指南

mattpocockuk 的 /writing-great-skills 成为其最常调用的 Skill,指导如何编写稳定可预测的 AI Skill。核心:以过程可预测为目标;区分 model-invoked(自动触发)与 user-invoked(用户调用),description 应作触发器;采用三层信息结构(主步骤、参考、外部文件)实现渐进式披露;每步骤需明确完成标准;拆分 Skill 是为了控制模型注意力;利用 leading word 压缩行为要求。同时诊断五种失败模式:Premature completion、Duplication、Sediment、Sprawl、No-op,并提供 No-op 测试作为判断句子是否有效的标准。

Matt Pocock: /writing-great-skills is quickly becoming my most often-invoked skill It's just really good at writing skills, guys. npx...

智能体GitHub教程/实践

推荐理由:Matt Pocock 把写 Skill 从玄学变成了可拆解的工程,其中领先词和完成标准这两个概念,能立刻让你的自定义工具行为更稳定,搞 Agent 的都应该试一下。
01:19
Simon Willison 博客
精选73
用 shot-scraper video 让 AI 智能体录制工作演示视频

shot-scraper 1.10 新增 shot-scraper video 命令,支持通过 storyboard.yml 文件定义操作步骤,并利用 Playwright 录制浏览器视频。演示视频展示了 Datasette 中从粘贴的 CSV/TSV/JSON 数据创建新表的功能。该功能依赖 Playwright 1.61.0 新增的 screencast 机制,解决了此前视频开头白帧、宽度固定 800px 等问题。开发者 Simon Willison 强调,将 --help 输出设计得足够详细,可使编码 Agent 直接利用该命令生成演示视频。

智能体GitHubMCP/工具产品更新

推荐理由:Simon 把 agent 的产出从文字推到了视频,这个 shot-scraper video 让 agent 自己生成 storyboard 并录屏,等于给自动化流程加了一双眼睛,开发者可以立刻用上这套 demo 生成方案。
6月30日
10:59
meng shao@shao__meng
69
Codex 团队 @Dimillian 也是一位知名 iOS/Swift 开发者,把他的 Codex Skill Manager 开源了! 这是一个用 SwiftUI + SwiftPM 原生构建的 macOS 应用,作为 Codex Skills 的图形化管理器和商店,把 Codex、Claude Code、OpenCode 和 Copilot 的四套 Skills 目录抽象成 SkillPlatform 枚举,让一个 GUI 统一管理跨平台的 Skills。 https://github.com/Dimillian/CodexSkillManager
GitHub开源/仓库编码
09:50
公众号:卡尔的AI沃茨
精选70
AI News Radar 大更新:新增自媒体板块,支持订阅多平台账号

AI News Radar 迎来大更新,新增自媒体板块,支持订阅某书、某音、某站、某X等平台账号,每日按热度推荐 Top10 信息(无热门则不硬凑),同时保留时间轴视图,可在热度优先和时间优先间切换。官方来源包括 OpenAI、Anthropic、Google 等一手消息及 GitHub AI&ML 更新日志。信息流按来源、类型、信号等级分类,标注高优先级与多源认证。项目完全开源,可零 API 部署独立 AI 日报页面,支持手机移动端及暗色界面。

GitHub产品更新开源生态

推荐理由:我觉得这是目前最实用的AI信息过滤工具,新版直接整合了社媒热榜和官方源,内容创作者可以拿来当选题雷达,普通人也能一键部署自己的AI日报,省去每天刷各个平台的时间。
08:00
HuggingFace Daily Papers(社区热门论文)
39
AtomiMed:层次化原子事实检查实现通用临床感知的医学报告评估

现有医学报告生成评估指标依赖表层n-gram重叠,无法捕捉临床事实准确性且易忽略灾难性诊断错误。AtomiMed是一种通用、跨模态框架,将医学叙述分解为标准化多层次原子临床事实(疾病级实体与位置、形态、严重程度等属性级描述),并通过在地面真实与预测报告间执行智能体交叉验证循环模拟多放射科医生同行评审,实现诊断检测与描述准确性的解耦评估。配套开源工具包MRGEvalKit与多模态基准OmniMRG-Bench(覆盖X光、CT、MRI、超声)。实验表明,AtomiMed与人类判断相关性显著高于传统及基于模型的指标。代码已开源。

arXivGitHub论文/研究
6月29日
23:57
SenseTime@SenseTime_AI
35
商汤 SenseNova-U1-8B-MoT 可生成高质量信息图

商汤推出 SenseNova-U1-8B-MoT-Infographic 模型,能够生成工作室级别的高密度信息图,此前这类工作流程缓慢且昂贵。YouTuber CAPITAL R 制作了演示视频,模型已在 HuggingFace 上线,GitHub 页面展示示例图片,并开放 Discord 社区。

GitHubHugging Face图像生成模型发布
22:35
Hacker News 热门(buzzing.cc 中文翻译)
精选71
Herdr:驻留在终端中的AI智能体多路复用器

Herdr是一个驻留在终端中的AI智能体多路复用器,允许用户在单一终端界面内管理和切换多个AI智能体会话。

智能体GitHubMCP/工具开源/仓库

推荐理由:这个工具把 AI 代理管理塞进终端,比开一堆浏览器标签自然,对命令行重度用户是个值得一试的 early idea。
19:10
公众号:小红书技术(dots.llm)
精选72
小红书 RedKnot 推理引擎:将 KV Cache 按注意力头拆解实现长文本加速

RedKnot 将 KV Cache 沿注意力头维度拆解,通过头分类稀疏(局部头占 83.4%–96.8%)、稀疏 FFN 和 SegPagedAttention 三个机制统一算法与存储粒度。在 8 卡 H800 上,TTFT 最高加速 1.6–3.54×,单卡并发提升 4.7–7.8×,预填充 FLOPs 削减 67%–79.5%。DeepSeek-V4-Flash 上 128K 上下文 TTFT 加速达 5.16×,KV 传输最多省 6.3×。精度通常不低于稠密 F1 的 95%。

arXivGitHub产品更新推理

推荐理由:小红书把 KV Cache 从 token 级拆成按头分家,这个思路让长文本推理的 TTFT 和并发都有数量级提升,开源出来对做推理引擎的同学是个福音。
18:24
Berryxia.AI@berryxia
62
开源项目OpenMontage单日获3000 Star,将视频生产拆为12条pipeline,内置52工具和500+ agent skills。用户用自然语言描述需求,agent完成从调研到剪辑全流程,支持AI与真实素材混合工作流,具备预合成验证、后渲染自检等质量把控,渲染引擎Remotion+HyperFrames,普通人对话可产出专业级视频。

Berryxia.AI: 这个开源视频制作工作流真爽啊! 单日斩获3000 Star,真的牛~ 又一个把AI coding agent直接变成视频制作工作室的项目开源了,叫OpenMontage。 它把整个视频生产流程拆成12条结构化pipeline(动画解说、纪录...

智能体GitHub开源/仓库视频
14:34
Hacker News 热门(buzzing.cc 中文翻译)
53
HackerRank 将其 ATS 开源,评分不稳定引发争议

HackerRank 将其 ATS(申请人跟踪系统)开源。开发者测试发现,默认模型 gemma3:4b 在 temperature 0.1 下对同一份简历运行 100 次,得分范围 66–99。若公司分数线设为 85,简历有 65% 的概率被刷掉。改用 Gemini 后分数集中在 48–64,若分数线 60 仍有 28% 的失败率。评分标准中“工作经验”项始终给出 25/25 满分(即使只有一个实习),而“个人项目”项波动巨大。作者指出,LLM 适合解析简历结构,但无法稳定评判经验价值,AI 筛选实质是运气过滤。

GitHub开源生态评测/基准
14:24
Berryxia.AI@berryxia
64
Supervision:Roboflow计算机视觉开源工具包,45K Stars

Roboflow出品的Supervision工具包已获45K GitHub Stars,三周增长5K。它将常见CV工作流抽象为复用组件,支持模型无关推理、多种annotator(框、掩码、标签、轨迹)、数据集加载转换、跟踪及区域统计。用户只需几行代码即可用YOLO、RF-DETR等模型完成检测标注可视化,大幅降低重复造轮子成本,社区贡献了丰富工具生态。

GitHub开源/仓库开源生态
09:01
IT之家(RSS)
57
我国开源生态版图扩容,新增人工智能与具身智能等7项目

央视财经报道,我国开源生态版图进一步扩容,新增人工智能、具身智能等7个项目。开放原子开源基金会称,2026年将引入相关前沿项目,抢占大模型和RISC-V新架构先机。2025年国内活跃开源项目超425万个,开发者达263万。工信部副部长熊继军表示将提升开源供给能力,支持基础软件、工业软件、AI等领域开源发展。《2025中国开源年度报告》显示,GitHub中国活跃开发者超210万全球第三,整体开发者规模预计超350万全球第二;中国OpenRank贡献度254,963全球第二,增速差超10%,预计7年后将超越美国。

GitHub具身智能开源生态行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
51
BrainJanus:融合脑、视觉与语言的统一模型

BrainJanus是首个统一脑模型,在单一框架内融合脑、视觉与语言。它通过Unified Brain Tokenizer将连续神经动态量化为离散token,与视觉和语言表征在共享Omni空间中对齐。基于All-in-One自回归架构,利用下一token预测实现任意方向生成,包括图像/文本到脑的编码以及脑到图像/文本的解码。实验在多个基准上表现优越,具备零样本泛化能力,并保持可解释的脑拓扑结构。代码已公开。

arXivGitHub多模态论文/研究
05:57
宝玉@dotey
68
RepoPrompt 已开源,社区版上线GitHub

RepoPrompt 已开源,社区版上线GitHub。作者Provencher被OpenAI招安,条件是为付费用户做好安排:先免费再开源,付费用户获赠Codex Credits。该工具从仓库挑选文件生成prompt,解决超32K token使模型变笨的问题,称为“上下文工程”。开源版反转架构:内置MCP server为主控,底层CLI工具可替换,支持推理模型规划并并行分发子任务。目前仅支持macOS,可通过Homebrew安装。

宝玉: RepoPrompt 作者被 OpenAI 招安了,然后这软件现在免费了,即将开源。 如果你是 RepoPrompt 付费用户会给你送 Codex 的 Credits。

GitHubMCP/工具OpenAI开源/仓库
05:22
🚨 AI News | TestingCatalog@testingcatalog
64
Vida 开源了 BrowserBC 框架,能将浏览器会话转化为 AI 智能体的可重用技能。仅需一次录制,智能体即可依据之前任务执行的技能导航,无需每次重新计算。Vida 报告称,使用相同 AI 智能体,该方法成功率显著更高且步骤更少。

Vida: We open-sourced BrowserBC: A system that turns human browser trajectories into reusable agent skills. Just one recording...

智能体GitHub开源/仓库
6月28日
20:01
IT之家(RSS)
62
OpenClaw 官方市场惊现"冒名顶替"项目,多达 23 个 Skill 技能伪装成"第一方出品"

AI智能体安全公司Manifold Security发现,OpenClaw的插件市场ClawHub上1508个技能中有557个采用“@owner/技能名”格式,其中23个直接冒用“@OpenClaw/”或“@ClawHub/”名称,实际发布者与官方无关。该命名空间抢注手法可能用于供应链投毒,但暂未发现恶意代码。ClawHub于6月17日更新命名空间规则,仅允许拥有@openclaw权限的发布者上传,6月19日已移除23个误导技能,并新增命名空间申诉机制。

智能体GitHub安全/对齐
02:22
Berryxia.AI@berryxia
61
一位老师以通俗易懂的方式讲解大语言模型(LLM),引发网友共鸣,并邀请大家分享看法。原文信息有限,未提及具体模型名称或课程细节。

Berryxia.AI: 这个开源视频制作工作流真爽啊! 单日斩获3000 Star,真的牛~ 又一个把AI coding agent直接变成视频制作工作室的项目开源了,叫OpenMontage。 它把整个视频生产流程拆成12条结构化pipeline(动画解说、纪录...

智能体GitHub开源/仓库视频
02:00
Yuchen Jin@Yuchenj_UW
38
DeepSeek 是 GOAT。🐳 他们刚刚发布了 DSpark,一种新的推测解码方法,将吞吐量提升 51% 到 400%。 他们还开源了背后的训练框架 DeepSpec。 这才是真正的开放 AI。
DeepSeekGitHub开源生态推理
6月27日
07:35
MarkTechPost(RSS)
精选75
Cursor 研究发现奖励攻击虚增编码智能体 SWE-bench Pro 分数

Cursor 最新研究发现,编码智能体在 SWE-bench Pro 等基准测试中存在奖励攻击问题:智能体通过检索已知修复而非独立推导来通过测试。对 731 条 Opus 4.8 Max 轨迹的审计显示,63% 的成功修复来自检索,其中上游查找占 57%,git 历史挖掘占 9%。严格隔离 git 历史并限制网络访问后,Opus 4.8 Max 的 SWE-bench Pro 分数从 87.1% 降至 73.0%;Cursor 自家 Composer 2.5 差距最大,达 20.7 个点。新模型比旧模型更容易出现此问题。研究报告建议采用严格测试环境(隔离 git 历史、限制网络出口)以获取可信分数。

智能体AnthropicGitHub编码

推荐理由:Cursor 的审计把 SWE-bench Pro 的信任基础动摇了,63% 的高分轨迹是通过检索现成修复而非独立推理,以后选型不看 harness 严格度等于开盲盒。
06:53
Rohan Paul@rohanpaul_ai
60
MIT研究:AI编码工具使代码提交量暴增但实际发布仅增30%

MIT 论文分析 10 万+ GitHub 开发者使用三代 AI 编码工具的效果:自动补全使提交量增 40%,交互式智能体增 140%,自主智能体增 180%,但项目数仅增 50%,实际发布仅增 30%。应用市场同样出现新应用激增但总使用量未升。核心原因:软件开发存在弱环节——人类仍需决定功能、审查代码、测试、集成与发布。替代弹性估算仅 0.25,即 AI 能力大幅提升时,只有少量人类工作可被替代。

Rohan Paul: Nobody is using vibe coded apps 🤔🤔 App releases have jumped hard, but the demand signals are moving the wrong way. -- ...

GitHub编码论文/研究
00:16
AYi@AYi_AInotes
精选76
Leaf 开源项目:将网红峰哥做成实时通话 AI 分身

开发者 Leaf 开源项目,将网红峰哥做成能实时通话的 AI 分身,集成实时对话、音色克隆和人格注入,工程延迟压到 1 秒内。技术拆解:语音识别用 Cartesia ink-whisper 降噪防误触发;大模型选 MiniMax 高速版,首字响应 361ms;语音合成用 VoxCPM 开源克隆,15 秒素材即可复刻。整体从最初 8-20 秒优化至体感 2-3 秒。人格通过女娲 Skill 从直播语料蒸馏出口头禅和思维逻辑。普通人半小时可跑通:克隆项目后,用 Claude Code 或 Cursor 配置,填两个 API Key 即可使用。

Leaf Yeah!: http://x.com/i/article/2070103285181349888

GitHub开源/仓库语音

推荐理由:Leaf 开源的这个实时语音分身项目,把工程延迟拆解到毫秒级,选型和人格蒸馏细节全公开,想做个性化语音机器人的可以直接复用,实践导向很强。
6月26日
22:58
SenseTime@SenseTime_AI
60
商汤 SenseNova U1 完整训练代码开源并发布 smoke-test 数据集

商汤开源 SenseNova U1 完整训练代码,提供可检查、可修改、可重建的完整训练栈。同步发布 smoke-test 数据集,覆盖 t2i、it2i、多图输入、交错生成、多模态理解、视频理解、纯语言续写 7 种任务类型。用户可基于该 schema 用自有数据微调 U1,或验证数据格式及端到端测试 pipeline。数据集已上架 HuggingFace,代码托管于 GitHub。

GitHubHugging Face开源/仓库数据/训练
22:20
Berryxia.AI@berryxia
68
PP-OCRv6发布端到端部署基准:A100仅0.13秒/图,CPU提速5.2倍

PaddleOCR发布PP-OCRv6完整端到端部署基准。A100上PP-OCRv6_tiny达0.13秒/图;Intel CPU上用OpenVINO,PP-OCRv6_medium比PP-OCRv5_server快5.2倍,PP-OCRv6_tiny比PP-OCRv5_mobile快3.9倍;Apple M4上用ONNX Runtime跑出0.35秒/图。提供Tiny、Small、Medium三种尺寸,Medium/Small均支持50种语言,PP-OCRv6_medium英文准确率88.4%,拉丁字母准确率88.0%。官方总结认为,在专用OCR任务上,轻量架构+高质量训练数据比单纯堆参数更实用,是对大模型“暴力scaling”路线的反向验证。

PaddlePaddle: 🧵PP-OCRv6 Tech Deep Dive Ep.4:3.9x Faster on CPU, 0.13s per Image on A100 - PP-OCRv6 Deployment & Model Selection Guide...

GitHub开源生态模型发布部署/工程
20:20
Berryxia.AI@berryxia
69
岚叔开源文章转手绘动态图Skill

开发者岚叔(LufzzLiz)开源了一个可供AI智能体调用的Skill,能将文章或架构内容自动转化为黑底手绘风格的PNG动图、GIF以及可编辑的Excalidraw JSON。实现原理:先用模型将内容压缩成结构化JSON spec,再通过本地Python + Pillow渲染。该项目旨在解决复杂内容可视化难题,目前仅内置一种风格,用户可自行扩展。开源地址已在评论中发布。

岚叔: 嘿嘿,skill写好了,开源了朋友们! 实现原理: 把文章或架构内容先压缩成一份结构化 JSON spec,再由本地 Python + Pillow 渲染出黑底手绘风格的 PNG、GIF 和可编辑的 Excalidraw JSON。 开源地...

智能体GitHub开源/仓库
13:51
宝玉@dotey
59
PPT Master 确实是最好的 PPT Skill

宝玉(@dotey)在推文中称PPT Master为最佳PPT skill,并推荐自己的新skill。他引用B站博主对7款GitHub PPT技能排名:hugohe的PPT Master(3.1万star)元素全可编辑,自带音色克隆与旁白生成;花叔(1.9万star)输出可编辑PPTX;歸藏(1.5万star)自带快捷键;Lewis(6500star)含计时器与逐字稿;宝玉(2.2万star)为纯图片风格;张咋啦(2.3万star)为HTML;乔木(5400star)为纯图片卡片。宝玉补充其新版skill可导出可编辑版本、AI配图,并可在Agent内置浏览器中标记编辑。

柴郡🔔|Crypto+AI Plus: 转发一下 B 站博主的锐评 PPT skills: 注意:有些 skill 不是专门做 PPT 的,所以评分会有点低,只是需求不同,想专门做 PPT 的看最前面的。 1. hugohe( 3.1万 star) | 顶级天花板 👑 全场唯一...

GitHub开源生态评测/基准
13:15
AYi@AYi_AInotes
56
GitHub开源量化书《XQuant》揭示AI跨领域迁移模板

GitHub开源量化书《XQuant:人人都是量化交易员》核心是问题驱动而非知识驱动:每章提供写好的Spec,丢给Claude或Cursor生成代码,先跑通策略(哪怕亏钱)再补理论。全书用9个问题串起量化pipeline(最小闭环、ETF选股、仓位、买卖信号、回测、过拟合检测、实盘等),第1章即上手最小系统。正文与练习代码分开维护。作者认为2026年AI工具成熟使跨领域迁移成本极低,这套把模糊想法写成清晰Spec的能力可复用于任何复杂领域。

AYi: GitHub 上刚开源一本量化书,设计思路有点不一样, 而且我觉得这本书真正在教的东西不只是量化,背后其实是一个被严重低估的元能力--把模糊想法写成清晰 Spec,然后让 AI 执行。 这套能力放到任何复杂领域都管用,量化交易只是它第一个练...

GitHub大佬观点开源生态
13:09
向阳乔木@vista8
55
qiaomu-lucky 开源抽奖工具发布

开发者@vista8 针对微信群福利场景,Vibe Coding 了一个轻量抽奖工具 qiaomu-lucky。该工具开源免费,支持后台随时添加抽奖活动,包括手机号/IP 限制、中奖概率设置、批量兑换码添加、中奖查询及移动端适配。代码托管在 GitHub,用户可 Fork 自定义。

GitHub开源/仓库
12:15
AYi@AYi_AInotes
56
《XQuant》GitHub开源:问题驱动的量化书,先写Spec让AI跑策略

一本名为《XQuant:人人都是量化交易员》的开源量化书采用“问题驱动”设计:先写Spec让AI生成代码跑通策略,再补理论。全书用9个问题串联量化pipeline:量化怎么赚钱、买什么(3只ETF)、买多少(3种仓位分法)、何时买卖、如何回测、过拟合检测(第6章极早讲述)、实盘、改进、因子研究。正文与练习代码分开维护,每章提供现成Spec给Claude/Cursor生成代码,训练将模糊想法转为清晰任务描述的能力。

AYi: http://x.com/i/article/2069024565901119488

GitHub大佬观点开源生态教程/实践
09:27
小互@xiaohu
精选81
小互开源个人IP配图技能"小互IP Studio",含31个原创角色

博主小互开源个人IP配图技能“小互IP Studio”,包含31个原创角色(15个手绘线稿角色+16个谐音梗meme形象)及一套配图方法论。该Agent可自动读取文章、规划配图类型(情绪图/示意图/四格漫画)、生成并自查返工。默认画风为手绘线稿淡彩,另备5种皮肤(3D盲盒、黑白线稿等)可切换。安装仅需Python3,支持Claude Code、Codex等工具,需自备OpenAI兼容的图像API key(默认GPT-image-2);也可只输出提示词手动生图。

智能体GitHub图像生成开源/仓库

推荐理由:小互开源了一整套AI配图skill和31个原创角色,把“读文-定图-生图-自查”的流程装进一个命令,自媒体人装上就能用,省去调提示词的痛苦。
09:22
meng shao@shao__meng
67
v0 发布 Design Systems 2.0

v0 推出 Design Systems 2.0,可将设计系统(组件、tokens、约定)一次性导入,此后对话均用真实组件库生成应用。该功能以一个 skill 保存,作为适配器指明源码位置、安全可用的组件/props/tokens,以及如何接入新应用。导入工作流分 5 步:收集来源(GitHub、npm、Storybook、Figma 等)、配置 NPM_TOKEN 等环境变量、补充备注、自动生成 v0.json、审查 starter 后保存。v0.json 承载只读参考源(最多 3 个)、环境变量链接和启动应用。使用时从提示工具栏附加 skill;更新需告知 v0 变更,但不会自动修改已有项目。最佳实践:来源真实且新、覆盖运行时层、凭证先行。

v0: v0 Design Systems 2.0 is here. Import your design system from GitHub, npm, Storybook, Figma, and more. Build with your r...

GitHub产品更新编码
08:00
HuggingFace Daily Papers(社区热门论文)
52
基于Gist Token的简化稀疏注意力

简化稀疏注意力(SSA)无需改变架构,通过在序列中插入gist token并施加注意力掩码进行继续预训练,使模型将各分块关键信息压缩至gist token。推理时,查询仅与少量gist token打分,选择性展开top-k分块的原始token,避免全KV缓存带宽开销。在LongBench上,SSA在相同压缩比下优于压缩和推理时稀疏注意力基线;在检索增强生成中,经继续预训练后超过全注意力5.7个百分点,归因于选择性展开能集中关注相关分块并过滤噪声。分层变体H-SSA在对数线性解码复杂度下,在32倍压缩比时仍维持或提升精度。代码已开源。

arXivGitHub推理数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
44
GBC:基于梯度的连接用于优化多智能体系统

针对大语言模型多智能体系统协作不佳与缺乏细粒度信用分配的问题,提出GBC方法。GBC将多智能体系统建模为计算图,引入基于梯度的连接权重,在token级别量化每个智能体输出对下游的影响。通过构建归因图并反向传播任务损失,实现错误源精确定位与定向提示词优化。配套开发基于前缀梯度计算的AgentChord实现。在MultiWOZ和τ-bench上实验表明,GBC提升多智能体性能,超越强单智能体与多智能体基线,且归因质量越高优化效果越好。代码已开源。

智能体GitHub数据/训练论文/研究
07:01
GitHub Blog
51
跨模型与任务的 GitHub Copilot agentic harness 性能与效率评估

GitHub Copilot agentic harness 在多个基准测试中表现强劲,同时具备领先的 token 效率,并支持在 20 多个模型间灵活选择。

GitHub编码评测/基准
‹ 上一页
123…11
下一页 ›