AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「开源/仓库」清除
5月31日周日
08:44向阳乔木73GEO公开课首期举办,全套资料开放获取
07:43宝玉61开源工具Sandcastle:编排多AI智能体协同工作流程
05:43OpenClaw🦞58OpenClaw 2026.5.28 发布,支持 Claude Opus 4.8
01:43Simon Willison 博客67Markdown SVG 渲染器
00:34Berryxia.AI71阶跃星辰 Step 3.7 Flash 模型成功移植到 mlx-vlm 项目
5月30日周六
19:11StepFun62小即是美:开源多模态模型发布
18:42歸藏(guizang.ai)70GitHub周榜第一:社交媒体卡片Skill
12:41向阳乔木62我和姚老师合作举办GEO公开课,我将分享AI工具与模型问答
11:41Hacker News 热门(buzzing.cc 中文翻译)61Show HN: Tiny-vLLM--基于 C 和 CUDA 的高性能大型语言模型推理引擎
11:18MarkTechPost(RSS)52Hermes Agent 为 MCP 推出工具搜索功能:Anthropic 评测显示 Opus 4 准确率提升 49% 至 74%
06:42ginobefun78精选这个 skill 看着不错,可将文字、URL 或文章直接生成公众号首图、小红书图文卡、教程步骤卡等视觉物料,支持 28 种布局和 10 种主题。
00:15AK69minWM:实时交互视频世界模型开源框架
5月29日周五
23:34Berryxia.AI66开源:基于Three.js的盛唐长安3D世界与AI语音交互项目
22:34Berryxia.AI68开源项目:Three.js打造3D盛唐长安互动世界
21:34AYi14以术入道:AI 协同思考的连接方式
21:10StepFun68Step 3.7 Flash 开放权重模型现已上线 Kilo
16:48MarkTechPost(RSS)65介绍 mKernel:一个用于 GPU 驱动通信的多 GPU、多节点融合内核库
15:48MarkTechPost(RSS)63Hexo Labs 开源 SIA:一个自我改进的智能体,可同时更新框架与模型权重
11:40StepFun72阶跃星辰 Step 3.7 Flash 多模态模型上线 ModelScope
11:35公众号:面壁智能(MiniCPM)61精选面壁智能联合清华、OpenBMB开源最大中文预训练合成数据集及千万级SFT数据集,公开MiniCPM5-1B核心数据
11:29HuggingFace Daily Papers(社区热门论文)62AgentDoG 1.5:一个轻量级且可扩展的AI智能体安全与安保对齐框架
09:21IT之家(RSS)64华为鸿蒙开源 SGL 高性能 GPU 加速框架,开发者三行代码即可调用 GPU 滤镜
08:41Simon Willison 博客72精选llm-anthropic 0.25.1
08:00HuggingFace Daily Papers(社区热门论文)62Mellum2 技术报告
07:44Rohan Paul4OpenClaw时代,我们都需这只机械爪
07:19Peter Steinberger 🦞65OpenClaw依赖重构:核心性能大幅提升
5月28日周四
23:29HuggingFace Daily Papers(社区热门论文)56通过可形变物体先验实现相机空间中的类别级3D对应关系
22:07公众号:腾讯混元58Hy-Memory 发布:为 Openclaw 打造的记忆插件
18:47Mistral AI:News(网页)55精选塑造产业的物理AI研究
17:12MarkTechPost(RSS)67Perplexity AI 开源 Unigram 分词器,实现 p50 延迟相比 Hugging Face tokenizers Crate 降低 5 倍
11:28HuggingFace Daily Papers(社区热门论文)65基于双向进化搜索的大语言模型自我改进方法
11:15IT之家(RSS)73精选英伟达推出 AI 框架 Polar,让 Codex 跑分暴涨 594.74%
10:37歸藏(guizang.ai)83同事件精选开源个 Skill|彻底解决小红、小绿书配图难题同一事件,精选展示《藏师傅发布小红书图文排版AI Skill,集成地图与自动配图》
10:28HuggingFace Daily Papers(社区热门论文)65从像素到词语--迈向规模化原生One-Vision模型
08:00HuggingFace Daily Papers(社区热门论文)53通过跨语言分词器手术和离线蒸馏适配多语言嵌入模型至土耳其语
08:00HuggingFace Daily Papers(社区热门论文)51通过测试时训练线性化Vision Transformer
04:30宝玉59RepoPrompt被OpenAI招募,软件免费并即将开源
02:00Hao AI Lab70精选开源FastVideo Dreamverse实时视频生成工具
01:02Qwen69精选Fast, faster, Qwen. 🚀
5月27日周三
23:59Perplexity68精选Perplexity开源Unigram分词器降低CPU占用
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月31日
08:44
向阳乔木@vista8
73
GEO公开课首期举办,全套资料开放获取

首期GEO公开课于上周末直播,由姚老师主讲,吸引了飞书和视频号数千人在线参与。课后已将直播PPT、免费开源的GEOflow系统及全部提示词等干货资源在评论区开放分享。

开源/仓库开源生态搜索
07:43
宝玉@dotey
61
开源工具Sandcastle:编排多AI智能体协同工作流程

Sandcastle是由@mattpocockuk开源的一个TypeScript工具,允许用户通过脚本编排Workflow,在虚拟机中协同调用Codex、Claude Code、Cursor、GitHub Copilot等多个AI智能体来完成复杂任务。它定位为面向追求极致效率场景的极客工具,适用于需要多智能体协作或“赛博养蛊”式的任务,例如让各智能体分别生成技术方案再相互评审完善。

Matt Pocock: I built my own software factory, and I open-sourced it. It's called Sandcastle. Here's how to use it:

智能体MCP/工具开源/仓库
05:43
OpenClaw🦞@openclaw
58
OpenClaw 2026.5.28 已上线 🧠 支持 Claude Opus 4.8 🎨 通过 fal 支持 Krea 图像模型 ⚡ 更快的 Gateway/插件/会话热路径 💬 Discord 进度草稿现在显示评论 更锐利的模型,更活跃的运行。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.28
Anthropic产品更新开源/仓库
01:43
Simon Willison 博客
67
Markdown SVG 渲染器

这是一款定制化的 Markdown 渲染工具,可对围栏代码中的 SVG 块进行特殊处理,既能渲染图像,也提供切换到代码视图的标签页。用户可直接粘贴 Markdown 内容,或提供一个 CORS 支持的 Markdown 文件或 Gist 的 URL。示例中加载了一个关于 Claude Opus 4.8 的 LLM 相关日志的 Markdown 文件。

图像生成开源/仓库
00:34
Berryxia.AI@berryxia
71
阶跃星辰 Step 3.7 Flash 模型成功移植到 mlx-vlm 项目

Ivan Fioravanti 在 mlx-vlm 项目中成功将阶跃星辰的 Step 3.7 Flash 模型移植到 MLX 框架,实现了视觉理解和文本生成。测试表明,该模型的 4bit 量化版本在 128GB Apple Silicon Mac 上支持 32K 上下文,生成速度超过 53 tokens/s。对截图的分析也准确高效。这意味着高质量的本地多模态 AI 能力可以在个人 Mac 上运行,兼顾了隐私与性能。

Ivan Fioravanti ᯅ: Step 3.7 Flash support added to mlx-vlm! 🚀 ✅ Conversion to MLX ✅ Vision ✅ Text This model is ultra fast! I'm gonna publ...

多模态开源/仓库端侧
5月30日
19:11
StepFun@StepFun_ai
62
小即是美。😌

Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 - ∞): I've been waiting for this! They managed to do it before June, and they open sourced it right away! @antirez I've been s...

多模态开源/仓库模型发布端侧
18:42
歸藏(guizang.ai)@op7418
70
GitHub周榜第一:社交媒体卡片Skill

一个名为“guizang-social-card-skill”的社交媒体卡片技能,在GitHub本周新建项目Star排名中冲到了第一名。作者通过群友发现自己的项目登顶,并亲自确认了这一成绩。

歸藏(guizang.ai): http://x.com/i/article/2059811469081141248

开源/仓库
12:41
向阳乔木@vista8
62
推文宣布了与姚老师合作举办的GEO公开课。姚老师将主讲GEO的底层逻辑、方法、系统原理及理念,并分享一系列核心资源,包括GEOFlow系统、用于创建技能的元Skill、17套GEO Skill合集,以及收录41篇最新论文的资料库。此外,分享内容还涵盖《GEO到底是什么》等多篇白皮书、红皮书、蓝皮书及AI营销提示词合集。该公开课将通过WaytoAGI进行直播,另一位主讲人将负责AI工具与模型相关的问答环节。

姚金刚: 今晚八点,会通过WaytoAGI做第一场GEO直播分享,会把GEO的底层逻辑、方法、系统原理及理念做一轮讲解,相关的一些资料和系统如下,分享给大家: 1、GEOFlow,今晚主讲的系统和背后的GEO原理 https://github.com...

开源/仓库搜索教程/实践
11:41
Hacker News 热门(buzzing.cc 中文翻译)
61
Show HN: Tiny-vLLM--基于 C 和 CUDA 的高性能大型语言模型推理引擎

Tiny-vLLM 是一个用 C 和 CUDA 编写的高性能大语言模型推理引擎,项目代码已开源至 GitHub。

开源/仓库教程/实践部署/工程
11:18
MarkTechPost(RSS)
52
Hermes Agent 为 MCP 推出工具搜索功能:Anthropic 评测显示 Opus 4 准确率提升 49% 至 74%

Nous Research 的 Hermes Agent 为 MCP 添加了工具搜索功能,以解决上下文膨胀问题。该功能采用 BM25 渐进式模式披露机制。根据 Anthropic 的评测,在 Opus 4 模型上,此功能实现了 49% 到 74% 的准确率提升。

智能体AnthropicMCP/工具开源/仓库
06:42
ginobefun@hongming731
精选78
claude-design-card 是一款专为中文内容创作者设计的 Skill。它能将文字、URL 或文章直接转化为可发布的视觉卡片,如公众号首图、小红书图文卡、教程步骤卡等,支持 28 种布局与 10 种主题。其核心价值在于自动化了"写完文章"后最繁琐的流程:自动提炼重点、选择版式、生成 HTML 并截图成 PNG,替代了以往手动使用 Figma 或 Canva 等工具的步骤。该工具开源,适合经常撰写相关内容的创作者尝试。

撸毛吃猪脚饭: 昨天那个 md2wechat-skill 很多人收藏 今天再分享一个很适合中文创作者的 Skill:claude-design-card。 它可以把一段文字、一个 URL、一篇文章,直接生成能发出去的视觉卡片,比如公众号首图、小红书图文卡、...

GitHub图像生成开源/仓库

推荐理由:这个 Skill 把内容创作者最烦的「写文→排卡片→出图」流程直接打通了,28 种布局一键生成,做公众号和小红书的可以立刻收藏,关键不是好看是真省时间。
00:15
AK@_akhaliq
69
minWM 一个用于实时交互视频世界模型的全栈开源框架
开源/仓库开源生态视频
5月29日
23:34
Berryxia.AI@berryxia
66
这是一个用Three.js搭建的盛唐长安3D互动世界,接入Agora技能实现核心实时语音交互功能。用户可与NPC对话、与李白对诗、玩诗词小游戏,并参观珍宝馆和AI展馆。开发者耗时两周、花费800刀完成,现已开源。

Berryxia.AI: 🔥我尼玛,兄弟们,这下真的是爆肝了。 已经开源在GitHub了,记得Star一波啊! 我肝了2周+花费了800刀干出来的项目~😭 自己可以真实去体验,文旅馆的真的都可以搞一搞! 一个用 3D 渲染技术three.JS 搭起来的盛唐长安互...

多模态开源/仓库语音
22:34
Berryxia.AI@berryxia
68
开源项目:Three.js打造3D盛唐长安互动世界

作者开源了一个使用3D渲染技术Three.js搭建的盛唐长安互动世界项目。项目核心功能是接入Agora Skills,实现了实时语音互动。用户可以在虚拟世界中与NPC对话、与李白对诗、玩诗词小游戏、进入珍宝馆欣赏诗画,以及逛AI展馆体验古今融合。作者透露该项目花费了2周开发时间及800美元成本,现已托管在GitHub上并开放体验。

多模态开源/仓库语音
21:34
AYi@AYi_AInotes
14
本文探讨"以术入道"的AI使用哲学。作者将AI工具分为两类:自主运行的Agent型(如Claude Code),和需人工逐步判断的"实习生型"(如Cursor)。后者是培养用户判断力的关键,但受限于必须在场的瓶颈。文中介绍了网易的免费远程软件UU远程,它允许用户通过手机连接Mac运行Cursor,实现低延迟操作,包括原生终端支持,从而打破了物理距离的限制。作者认为,AI发展的当前阶段,更需要这种能随时与AI协同思考的连接方式。

AYi: 今天,把一件关于 AI 很底层的事,彻底想透了。 使用 AI 的最佳方式是以道御术,但前提是你得先以术入道。 就像黄仁勋说的--真正会用 AI 的人,都是极高认知的提问者,带着自己的认知去提问,让 AI 帮你叩开未知的边界,而不是让它替你思...

其他开源/仓库教程/实践
21:10
StepFun@StepFun_ai
68
Step 3.7 Flash 现已在 @kilocode 上线! 开放权重,随时可运行。感谢快速集成 🙏

Kilo: StepFun's Step 3.7 Flash is one of the best open-weight models you can run right now, and it's live in Kilo. A multimoda...

智能体多模态开源/仓库模型发布
16:48
MarkTechPost(RSS)
65
介绍 mKernel:一个用于 GPU 驱动通信的多 GPU、多节点融合内核库

加州大学伯克利分校的 UCCL 团队发布了 mKernel,该工具将节点内 NVLink 通信、节点间 RDMA 通信以及密集计算融合成一个持久化 CUDA 内核。

开源/仓库数据/训练部署/工程
15:48
MarkTechPost(RSS)
63
Hexo Labs 开源 SIA:一个自我改进的智能体,可同时更新框架与模型权重

Hexo Labs 开源了 SIA,这是一个遵循 MIT 许可证的自我改进循环。其中的反馈智能体会读取每次执行的轨迹,然后重写运行框架或触发对 gpt-oss-120b 模型的 LoRA 权重更新。结合这两种调整方式,在 LawBench、TriMul GPU 内核以及 scRNA-seq 去噪任务上,效果均优于仅迭代框架。

智能体开源/仓库数据/训练
11:40
StepFun@StepFun_ai
72
阶跃星辰发布的多模态模型 Step 3.7 Flash 已在 ModelScope 平台上线。该模型采用 198B 总参数的 MoE 架构,每个 token 激活 11B 参数,推理速度最高达 400 tok/s,支持 256K 上下文窗口,并提供低、中、高三个推理级别以平衡速度与效果。其在 ClawEval-1.1 榜单位列第一(67.1分),在 SWE-bench Pro 上排名第二(56.3分)。模型具备原生多模态能力,由语言骨干与视觉编码器组成,原生支持解析密集UI、图表及财报。该模型采用 Apache 2.0 协议开源,并兼容 vLLM 等多种推理框架。

ModelScope: Thrilled to welcome Step 3.7 Flash landing on ModelScope, a 198B sparse MoE VLM from @StepFun_ai 🔥🤖 https://modelscope...

智能体多模态开源/仓库模型发布
11:35
公众号:面壁智能(MiniCPM)
精选61
面壁智能联合清华、OpenBMB开源最大中文预训练合成数据集及千万级SFT数据集,公开MiniCPM5-1B核心数据

面壁智能联合清华大学、OpenBMB发布并开源两大数据集:Ultra-FineWeb-L3(超600B Tokens,中文200B+,为当前最大中文预训练合成数据集)和UltraData-SFT-2605(国内首个千万级同时含深思考与非思考标注的SFT数据集)。两者基于UltraData数据分级治理体系构建,在MiniCPM5-1B训练流程中得到完全验证,覆盖预训练退火到后训练SFT全链路。已上线UltraData网站与HuggingFace,免费开放。

Hugging Face开源/仓库数据/训练端侧
关联讨论 1 条X:面壁智能 OpenBMB (@OpenBMB)
推荐理由:填补了中文大规模合成数据空白,三年前还在用英文数据做中文模型的日子可以翻篇了,做端侧模型的可以直接拿这份数据跑一版 MiniCPM5-1B 级别的效果。
11:29
HuggingFace Daily Papers(社区热门论文)
62
AgentDoG 1.5:一个轻量级且可扩展的AI智能体安全与安保对齐框架

AgentDoG 1.5是一个针对Codex和OpenClaw等现代开放世界智能体安全风险的轻量级、可扩展对齐框架。它更新了智能体安全分类法,构建了数据引擎,仅用约1k样本训练出0.8B至8B参数的模型变体,性能与GPT-5.4等闭源模型相当。该框架还构建了高效的训练环境,大幅降低部署开销,并可作为在线护栏进行实时安全审核。实验表明其在复杂交互场景中达到先进水平,所有模型和数据集均已开源。

智能体安全/对齐开源/仓库论文/研究
09:21
IT之家(RSS)
64
华为鸿蒙开源 SGL 高性能 GPU 加速框架,开发者三行代码即可调用 GPU 滤镜

华为鸿蒙开源了高性能GPU加速框架 SimpleGPULayer(SGL),以简化图像处理、AI推理、2D/3D渲染等场景的GPU调用。开发者无需处理底层设备初始化、显存管理等复杂细节,仅需几行代码(如示例中的3行C++代码)即可接入GPU加速。该框架提供C API和NAPI接口,方便集成到鸿蒙应用中。其图像处理能力已在悟空图像等应用中落地使用。

开源/仓库端侧部署/工程
08:41
Simon Willison 博客
精选72
llm-anthropic 0.25.1

llm-anthropic 发布 0.25.1 版本。主要更新包括:新增 Claude Opus 4.8 (claude-opus-4.8) 模型;为账户启用了该功能的组织新增了 -o fast 1 选项以使用快速模式;调整了各模型的默认 max_tokens 值,使其直接使用模型的最大输出长度,而非固定的 8,192。

AnthropicGitHub产品更新开源/仓库

推荐理由:Simon 的 llm 插件第一时间支持了 Claude Opus 4.8,如果你用他的 CLI 工具切换模型,这次更新能让你马上用到新模型和 fast mode。
08:00
HuggingFace Daily Papers(社区热门论文)
62
Mellum2 技术报告

Mellum 2 是一个开源的 12B 参数 MoE 大语言模型,每个 token 有 2.5B 活跃参数,专注于软件工程任务,是 Mellum 的后继版本。其架构基于 64 专家、8 激活的 MoE,并融合了分组查询注意力、滑动窗口注意力和多 token 预测头。模型在约 10.6 万亿 token 上进行三阶段预训练,并通过 YaRN 扩展至 128K 上下文窗口,之后经过监督微调与 RLVR 后训练,发布了直答式(Instruct)和带推理链(Thinking)两个变体。在多项基准测试中,其性能可与 4B-14B 范围的开源模型竞争,而计算成本仅相当于 2.5B 稠密模型。所有检查点以 Apache 2.0 许可证发布。

开源/仓库推理模型发布编码
07:44
Rohan Paul@rohanpaul_ai
4
在OpenClaw时代,我们都需要这只机械爪。
其他开源/仓库
07:19
Peter Steinberger 🦞@steipete
65
OpenClaw 通过重构更轻量、更快的依赖库(如 proxyline.dev、fs-safe.io 等)进行优化。根据官方数据,优化后冷启动速度快了 2.9 倍,热启动速度快了 2.5 倍,安装包体积减少了 59%,依赖项数量相比月度高点下降了 42%。核心理念是构建一个更小的核心、明确的依赖关系,并将可选功能以插件形式提供。

OpenClaw🦞: OpenClaw's latest sweep: cold agent turns 2.9x faster, warm turns 2.5x faster, tarball 59% smaller, deps down 42% from t...

智能体产品更新开源/仓库编码
5月28日
23:29
HuggingFace Daily Papers(社区热门论文)
56
通过可形变物体先验实现相机空间中的类别级3D对应关系

为解决机器人与AR/VR领域中单张图像理解3D物体时语义粒度不足的问题,研究提出了通过学习共享的可形变物体先验,无需显式对应监督即可在相机空间中获得类别级3D对应。为此,团队引入了首个大规模基准测试HouseCorr3D,包含178k图像、50个家居物体类别及280个实例的CAD模型3D关键点标注,并提供了非模态对应标签与对称性标注。同时提出的Morpheus方法,通过解耦标准形状、形变与物体姿态来学习该先验,从而隐式涌现语义对应的3D理解,并在该基准上达到了新的SOTA。数据与代码已开源。

开源/仓库论文/研究
22:07
公众号:腾讯混元
58
Hy-Memory 发布:为 Openclaw 打造的记忆插件

腾讯混元推出 Hy-Memory,一款为 Openclaw 长期协作型 Agent 设计的记忆插件。它采用 6 层记忆框架、System1/System2 双系统及演化链技术,解决 Agent 长期使用中的记忆漂移与碎片化问题。在 LongMemEval 上得分 85.2,在偏好、时序推理、知识更新维度领先;PersonaMem 评测超越所有竞品。相比其他方案,记忆数量降低 70%+,单条信息密度高 45%+,token 消耗降低 35%,写入速度为 Graphiti 的 8 倍,支持本地嵌入式存储,安装仅需一行命令,提供 Lite/Pro/Ultra 三档。

智能体产品更新开源/仓库
18:47
Mistral AI:News(网页)
精选55
塑造产业的物理AI研究

Mistral AI通过收购Emmi AI,强化其在推动AI研究前沿与工业工程解决方案方面的投入。其目标是为航空航天、汽车、半导体和能源等塑造物理世界的核心产业构建基础性物理AI模型,以加速工程开发。此项研究基于一系列已发表的突破性成果,包括:用于模拟超音速湍流的3D机翼CFD数据集、计算流体动力学基础模型的前瞻综述、应用于汽车与航空的AB-UPT模型,以及用于聚变等离子体湍流模拟的GyroSwin模型。此前已开源的UPT(通用物理Transformer)和NeuralDEM等成果也为此研究奠定了基础。

开源/仓库论文/研究

推荐理由:Mistral 把物理 AI 定为下个重点,从流体仿真到核聚变等离子体都有论文支撑。搞工业仿真的团队值得跟进,但这次没有新模型发布,更多是路线宣示而非新突破。
17:12
MarkTechPost(RSS)
67
Perplexity AI 开源 Unigram 分词器,实现 p50 延迟相比 Hugging Face tokenizers Crate 降低 5 倍

Perplexity AI 开源了一款重写的 Unigram 分词器。该分词器在 p50 延迟上相比 Hugging Face tokenizers Crate 实现了 5 倍的降低,同时能够将生产环境的 CPU 使用率降低 5-6 倍。

Hugging Face开源/仓库部署/工程
11:28
HuggingFace Daily Papers(社区热门论文)
65
基于双向进化搜索的大语言模型自我改进方法

针对现有大语言模型搜索方法(如 best-of-N 采样、树搜索)依赖稀疏验证信号且探索局限于高概率区域的问题,本文提出了双向进化搜索框架。该框架耦合了前向候选进化和后向目标分解。前向搜索利用进化算子重组部分轨迹,以生成难以通过单次模型展开获得的候选方案;后向搜索则递归分解原始任务,产生密集的中间反馈以指导搜索。理论分析表明,仅靠展开的搜索受限于窄熵壳,而进化算子可使其跳出,后向搜索则能指数级减少找到正确答案所需的样本数。实验显示,在主流后训练算法失效的任务上,BES 能带来一致性能提升;在三个开源问题求解基准的推理测试中,BES 在平均与最佳性能上均优于现有开源框架。

智能体开源/仓库推理论文/研究
11:15
IT之家(RSS)
精选73
英伟达推出 AI 框架 Polar,让 Codex 跑分暴涨 594.74%

英伟达研究团队开源了智能体强化学习框架 Polar。该框架无需重写现有智能体执行框架(如 Codex CLI、Claude Code、Qwen Code、Pi),通过在模型 API 边界放置智能体来接入 GRPO 训练。实验显示,基于 Qwen3.5-4B 模型,Polar 将 Codex 在 SWE-Bench Verified 上的 pass@1 分数从 3.8% 提升至 26.4%(增涨 594.74%)。效率上,其 prefix_merging 技术将训练步骤从 1185 次降至 218 次,速度提升约 5.39 倍,GPU 平均利用率从 20.4% 升至 87.7%。

开源/仓库推理编码

推荐理由:Polar 把 Codex 的 SWE-Bench 分数从 3.8% 拉到 26.4%,不是靠新模型而是靠训练框架,做代码 agent 的团队可以直接用,开源即拿即训。
10:37
歸藏(guizang.ai)@op7418
同事件精选83
开源个 Skill|彻底解决小红、小绿书配图难题

作者开源了 guizang-social-card-skill,这是一个专为小红书、微信公众号等图文平台设计的竖屏(3:4)卡片生成工具。它针对图文内容特点进行了视觉校准,内置了11个图文品类的适配规则,能根据内容自动选择“杂志风”或“网格风”视觉系统。该工具通过智能识别图片主体与色度来处理文字压图;默认接入Pexels、Unsplash、Wallhaven三个免费图库自动配图,以减少人工操作和规避AI生图水印的限流风险。作者强调这是一个有明确能力边界(如不做追星粉丝向、纯促销硬广)和迭代记录的产品化技能。

智能体MCP/工具开源/仓库
同一事件,精选展示《藏师傅发布小红书图文排版AI Skill,集成地图与自动配图》
推荐理由:歸藏这个Skill把AI生成的图文卡片从「一眼AI」拉到了杂志排版级别,免费图库和截图美化一整套,做小红书的可以直接省掉排版时间,比任何提示词都更像产品。
10:28
HuggingFace Daily Papers(社区热门论文)
65
从像素到词语--迈向规模化原生One-Vision模型

提出一种名为NEO-ov的原生视觉语言基础模型,它能够端到端地学习跨帧和像素-词语的对应关系,无需任何外部图像编码器、辅助适配器或后处理融合。该架构完全消除了模块边界,使得精细、统一的时空建模能力在模型内部原生涌现。研究表明,NEO-ov在精细视觉感知任务上表现优异,大幅缩小了与模块化模型的性能差距,验证了原生One-Vision架构在规模化下的可行性。代码与模型已开源。

多模态开源/仓库视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
通过跨语言分词器手术和离线蒸馏适配多语言嵌入模型至土耳其语

本文介绍了embeddingmagibu-200m,一款专注于土耳其语的句子嵌入模型。它能生成768维L2归一化向量,支持8,192 token的上下文窗口。该模型不进行完整预训练,而是采用三阶段适配流水线训练:构建优化的土耳其语分词器、克隆并适配教师模型权重,以及使用预计算向量进行离线知识蒸馏。学生模型约200M参数,在单个GPU上训练约4小时,成本为5-20美元。它在STSbTR基准上性能超越了作为教师的300M参数模型,并在TR-MTEB的26个任务中排名靠前,实现了有竞争力的性价比。所有模型权重、分词器及训练工具均已开源。

Hugging Face检索增强开源/仓库论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
通过测试时训练线性化Vision Transformer

本研究提出一种将预训练Transformer(如Stable Diffusion 3.5)线性化的方法。通过架构与表示的双重对齐,具体识别了TTT架构与Softmax注意力的结构相似性,并引入关键实例归一化等模块来对齐表示特性。仅在4xH20 GPU上进行1小时微调,所得SD3.5-T^5模型就能达到与微调Softmax模型相当的文本到图像生成质量,同时在1K和2K分辨率下分别实现1.32倍和1.47倍的推理加速。代码已开源。

图像生成开源/仓库推理论文/研究
04:30
宝玉@dotey
59
开发者RepoPrompt已被OpenAI招募。其同名工具RepoPrompt现转为免费,并即将开源。原付费用户将获得OpenAI Codex的Credits。该工具能将整个代码仓库拼接成单个XML文本,便于发送给Gemini 2、Claude 3.5、o1 pro等支持长上下文的模型进行处理,也支持选择部分文件。目前仅支持Mac平台。

宝玉: Repo Prompt 这个工具挺实用的,它可以把你整个Repo的代码拼成一个XML文本,方便你发给像Gemini 2、Claude 3.5、o1 pro这样支持长上下文的模型。 当然你也可以只选择部分文件,目前只支持 Mac https:...

OpenAI产品更新开源/仓库编码
02:00
Hao AI Lab@haoailab
精选70
🚀仅需7秒即可生成30秒1080p视频! 我们开源了FastVideo Dreamverse:基于单张NVIDIA B200 GPU和LTX-2模型,实现实时视频生成的氛围引导工具。 Repo: https://github.com/hao-ai-lab/FastVideo/tree/main/apps/dreamverse Blog: https://haoailab.com/blogs/fastvideo-dreamverse-release/
GitHub开源/仓库视频部署/工程

推荐理由:7秒钟出30秒1080p视频,而且完全开源,视频生成速度被拉到实时边缘,虽然B200不是人人有,但路线值得所有做视频产品的同行研究。
01:02
Qwen@Alibaba_Qwen
精选69
Fast, faster, Qwen. 🚀

Qwen3.5在TokenSpeed推理引擎上,针对智能体工作负载达到了创纪录的580 tokens per second (tps)速度。这一成果由通义千问推理团队、lightseekorg Foundation TokenSpeed团队、NVIDIA及Mooncake团队共同实现,并采用了tri_dao的FlashAttention-4 (FA4) 优化。此里程碑标志着开源大语言模型推理性能的边界得到了推动,相关详情可查阅PyTorch社区博客。

PyTorch: The speed-of-light optimization for Qwen3.5 on the TokenSpeed inference engine is a significant milestone, achieving a r...

智能体开源/仓库推理论文/研究

推荐理由:Qwen3.5在TokenSpeed上跑出580 tps,这是开源LLM推理的极限突破,对agent类应用是实实在在的性能跃进,PyTorch这篇博客值得每一个做推理部署的细读。
5月27日
23:59
Perplexity@perplexity_ai
精选68
我们开源了重新构建的Unigram分词器,可将CPU占用降低5-6倍。 小型重排序器和嵌入模型在GPU上运行时间仅为个位数毫秒,使得CPU分词成为总延迟的重要组成部分。 http://github.com/perplexityai/pplx-garden
开源/仓库部署/工程

推荐理由:Perplexity 开源的这个 tokenizer 能把 CPU 利用率砍掉五六倍,做实时推理的团队值得立马试试,对延迟敏感的场景是实打实的优化。
‹ 上一页
1…89101112…25
下一页 ›