AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 526 条
全部一手资讯X论文
标签「开源/仓库」清除
Berryxia.AI@berryxia · 6月2日65

有朋友问我这个翻译工具是什么。我用的视频翻译工具主要是 Memo 软件,它是一个免费开源的软件,功能非常强大。 目前我日常主要在两个场景中使用转录+剪辑+翻译工具: 1. Memo 软件 (a) 场景:主要用于处理下载到本地的视频。 (b) 流程:这软件可以下载了 Whisper 的本地大模型,下载完视频后先进行转录,不再烧Token。 (c) 翻译:虽然也可以用本地模型翻译,但速度和效果可能没有 API 快,所以我接入了 DeepSeek-V4 -Flash 来进行翻译,价格便宜又好用。 (d) 体验:Memo就可以完成烧录字幕,编辑,导出整个片子的剪辑其实都挺快的,但在 X 上发布时速度贼慢,搞了一整晚才上传完毕。 2. 沉浸式翻译 (a) 场景:主要用于网页、YouTube 视频以及一些图书的翻译。 (b) 优点:它能保持比较不错的格式,方便后面做分享。 我觉得这两个工具都挺好的,自由度比较高。 你可以接入自己订阅的 API 模型,自由切换,非常方便。 此外,Memo的这个时间戳总结关键内容的功能还挺不错的。

译推文分享作者日常使用的两个AI翻译工具及工作流。1. Memo软件(免费开源):用于处理本地视频。流程为下载视频后,使用Whisper本地模型进行转录以节省成本,再接入DeepSeek-V4-Flash API进行翻译。该软件支持字幕烧录、编辑和导出,但在X平台上传速度慢。2. 沉浸式翻译:主要用于网页、YouTube视频及图书翻译,优点是格式保持较好。两者均支持接入用户自定义的API模型。

SemiAnalysis@SemiAnalysis_ · 6月2日66

Your RL training efficiency is only as good as your sandbox infra. Check out what Modal does to keep your rollouts rolling!

译你的强化学习训练效率取决于沙盒基础设施。来看看 Modal 如何让你的 rollout 持续运行!

凡人小北@frxiaobei · 6月2日67

Codex 正在变成 Agent 的默认 Runtime。 codex 其实还同时有 typescript sdk。 如果你要搭建一个 agent,技术栈可以是: typescript + codex + cc-switch

ginobefun@hongming731 · 6月2日71

#BestBlogs 早报 06-02 MiniMax 发布了国内首个集前沿 Coding、1M 超长上下文、原生多模态于一体的开源模型 M3,24 小时自主完成 145 次 CUDA 算子迭代,把抽象的 benchmark 变成了可验证的工程实力。 与此同时,xAI 前负责人给出一个反直觉判断:视频模型的上限跟着 LLM 走,下一个 Sora 是视频 Agent 而非更好的视频模型。 今日 BestBlogs 早报,还有 Chromium 3500 万行代码库的 AI Coding 规范体系、语音智能体生产工程实践、「RAG 不是机器学习」等 10 篇精选,欢迎阅读。

译MiniMax开源发布了国内首个集成前沿Coding能力、1M超长上下文和原生多模态的模型M3。该模型能在24小时内自主完成145次CUDA算子迭代。与此同时,xAI前负责人指出,视频模型的上限将由LLM决定,下一个类似Sora的产品应是视频Agent,而非单纯的视频生成模型。

MiniMax (official)@MiniMax_AI · 6月2日81

M3 on Cloudflare AI Gateway, day one ⚡ Frontier coding, 1M context, and native multimodal and now just one fetch away. It is time to build something. 🦞

译M3 on Cloudflare AI Gateway, day one ⚡ 前沿编码能力,1M 上下文,原生多模态,现在一次 fetch 即可调用。 是时候构建些东西了。 🦞

jason@jxnlco · 6月2日52

What willl you build?

译你将构建什么? [引用 @jxnlco]:哇,我们刚刚发布了 Codex 的 Python 应用服务器 感谢 @ah20im

MiniMax (official)@MiniMax_AI · 6月2日69

messy, multimodal, too large for a normal chat? M3 handles it 🫡 @happycapyai

译MiniMax M3现已在Happycapy上线,主要升级在于处理复杂、多模态、大规模任务的能力。该模型支持原生多模态输入,包括PDF、视频、图像、截图及长文档,并在编程和智能体任务(如仓库级调试、问题追踪)上表现较强。此外,M3采用开源权重,价格约为Sonnet的三分之一。

MiniMax (official)@MiniMax_AI · 6月2日76

day 0 launch partner energy 🔥 @Qubrid_AI is offering 50% off for early adopters. go run it!

译MiniMax的M3模型现已在Qubrid AI平台上线。该模型具备100万token上下文、原生多模态、前沿的代码性能,并支持长期智能体工作流,被评为年度技术上最有趣的开放权重模型之一。Qubrid AI作为首发合作伙伴,为早期用户提供50%的折扣。

Berryxia.AI@berryxia · 6月1日62

我正好有个批量的需求,看来明天的方案可以按照这个方向来做了,多谢~

译FastClaw是一个面向云原生多租户场景的轻量级Agent运行框架。它通过存算分离的架构,让Agent无需常驻,而是根据请求动态挂载sandbox提供服务。实测显示,将托管服务从OpenClaw迁移到FastClaw后,服务器数量从18台降至3台,运营成本降至约1/6。此外,FastClaw代码体积约为OpenClaw的1/40,运行资源占用约为其1/7,支持单二进制分发和秒级启动。这个框架非常适合处理批量任务。

向阳乔木@vista8 · 6月1日61

最近vibe coding的所有工具和skill,全部免费开源,Codex和CC是成年人的六一儿童节玩具。

Nathan Lambert@natolambert · 6月1日58

Nvidia is the tip of the spear for the growing US open model efforts. Is a long time coming, but obvious when a 550B model drops that more people will take notice. Many people won’t realize the valuable training data they release too.

译英伟达是美国日益壮大的开源模型努力的先锋。 虽然酝酿已久,但当一个550B模型发布时,更多人会注意到这一点,这是显而易见的。 许多人不会意识到他们发布的训练数据也很有价值。

OpenBMB@OpenBMB · 6月1日78

🏆 Big news! UltraData just hit #1 AND #2 on HuggingFace Trending worldwide! 🎉 Released by OpenBMB × @TsinghuaNLP × Modelbest — two massive open-source datasets now free for everyone: 🔥 Ultra-FineWeb-L3 (web pretraining synthetic data) → 600B+ tokens (400B+ English, 200B+ Chinese) → Largest open-source Chinese pretraining synthetic dataset to date → Built to maximize learnability per token 🔥 UltraData-SFT-2605 (post-training SFT data) → China's first open-source 15M+ SFT dataset with both thinking & non-thinking annotations → Covers math, code, knowledge & instruction-following → Fully traceable data pipeline 🧱 Both built on the UltraData L0–L4 five-tier data management framework, validated end-to-end on MiniCPM5-1B training. Free to download now 👇 https://huggingface.co/datasets/openbmb/Ultra-FineWeb-L3 https://huggingface.co/datasets/openbmb/UltraData-SFT-2605 #OpenSource #LLM #AI #HuggingFace #MiniCPM #UltraData

译OpenBMB联合清华NLP与Modelbest发布两个开源数据集:Ultra-FineWeb-L3(预训练合成数据)包含600B+ tokens(超400B英文、200B+中文),是迄今最大开源中文预训练合成数据集;UltraData-SFT-2605(后训练SFT数据)包含15M+样本,是中国首个开源且包含思考与非思考标注的大规模SFT数据集,覆盖数学、代码、知识和指令遵循。两者均基于UltraData L0-L4框架构建,并在MiniCPM5-1B训练中完成验证。数据集已在HuggingFace免费开放。

Chubby♨️@kimmonismus · 6月1日83

1/ NVIDIA just open-sourced Cosmos 3 at GTC Taipei! It's the first fully open "omnimodel" for physical AI - one model that understands the real world, predicts what happens next, and generates the actions a robot should take. Weights, code, datasets. All open. And this is really big. Lets dig into everything: 🧵

译NVIDIA在GTC Taipei上宣布完全开源Cosmos 3。这是首个针对物理AI的“全能模型”,具备原生视觉推理能力,可理解真实世界、预测未来并生成机器人应采取的行动。本次发布包含两个变体:Super(32B)和Nano(8B)。模型权重、代码及数据集均已完全开放。

SiliconFlow@SiliconFlowAI · 6月1日79

Coding like Opus4.7 / 1M context window / Native multimodal @MiniMax_AI M3 is now on SiliconFlow with day-0 support 🔥 🎉 Limited-time 50% off for 7 days Cache / Input / Output: $0.06 / $0.30 / $1.20 per 1M tokens (Regular: $0.12 / $0.60 / $2.40) M3 is the first open-source model combining all three frontier capabilities: → Coding & Agentic: beats GPT-5.5 and Gemini 3.1 Pro on SWE-Bench Pro → 1M context via MiniMax Sparse Attention → Native multimodal from step zero — image, video & computer use Try it on SiliconFlow ⬇️

译MiniMax M3 现已在 SiliconFlow 平台上线,并提供限时7天的50%折扣。定价为:缓存 $0.06、输入 $0.30、输出 $1.20(每百万 token)。M3 是首个同时具备三大前沿能力的开源模型:一是编码与智能体能力,在 SWE-Bench Pro 评测中击败了 GPT-5.5 和 Gemini 3.1 Pro;二是支持 100万 token 上下文窗口(通过 MiniMax Sparse Attention 技术实现);三是具备原生多模态能力,支持图像、视频与计算机操作。

AYi@AYi_AInotes · 6月1日79

http://x.com/i/article/2061406941541240838 # 我把《非暴力沟通》整本喂给 Claude Opus 4.8,变成了一个随时能调用的 skill——保姆级教程 + 开源直接抄 先问大家一个有点扎心的问题:你上一本读完拍大腿、觉得很牛逼的书,现在还能说出它的核心方法吗?知道怎么用吗?估计多数人大概率说不出来,这篇就解决这件事:用 Claude Opus 4.8,把任意一本书,变成一个 AI 随时能喊出来用的 skill。 整套 Prompt + 开源 skill 全给你,小白零基础照着抄,不废话直接放干货。 ## 目录 - 一、你最大的浪费 - 二、这件事真正的难点 - 三、准备工作(5 分钟,只做一次) - 四、六步把书变成 skill(Prompt 直接抄) - 五、《非暴力沟通》做成skills的复盘 - 六、一盆冷水(反思) - 七、最后想说的 ## 一、你最大的浪费 做 AI 博主这这段时间,我读的书、看的方法论不算少,但是慢慢发现一件扎心的事—— 读过,不等于用得上。 我想大家肯定也有过这个场景:一本书当时读得热血沸腾,划满了线,笔记记进了 Notion,结果三个月后真要写篇东西、做个决策,脑子里一片空白,那本书像没读过一样。 说白了,大多数人的读书,都只是在囤积,没有真正做到知识的调用。 那能不能让 AI 把书里的方法论,变成一个我随时能喊出来用的工具? 趁着周末折腾出了一个开源 skill——把任意一本书,提炼成一个能被 AI 调用的 skill。 不是读后感,也不是摘要,是一个真正实用的工具箱:书里的框架、原则、技法、反模式,全部变成 AI 能照着执行的指令。 ## 二、这件事真正的难点 这件事真正的难点不在书内容的提炼,关键是怎么让 AI 读全。 一本书几万字,得让 AI 把整本的逻辑链一次吃进去,而不是切成碎片各读各的。 因为一旦书的逻辑链被切碎,跨章节的因果也就断了,提炼出来的框架基本都是残的。 所以 AI 大模型一定要用最顶的,我用的是 Claude Opus 4.8。 它三个能力刚好卡这个任务的命: - 长上下文:100 万 token 的上下文窗口,整本书一次读完,不切块、不丢逻辑 - 结构化输出:直接吐出规整的 skill 文件,不用手动排版 - 多步 agentic:生成完自己做一遍自检和试调用,发现哪里空洞再回去补 调 Opus 4.8 的入口我用的是 ZenMux,老粉应该都知道,自从我的 Claude 被封号几次以后,就转过来了——200多多个模型一个 API 全调得到,不用翻墙,费用还能选,重度用就订阅,想随用随付就按量。 做这种要反复喂整本书、还想多模型对比的活,就还挺合适的。 ## 三、准备工作(5 分钟,只做一次) 第 0 步|把 Opus 4.8 接进 Cursor 配置看起来有点技术感,但其实就这几步,做过一次永远不用再碰: ① 在 zenmux 后台生成你的 API Key 后台找「订阅 API 密钥」,点生成,拿到一串 sk-ss-v1-... 的密钥,复制好,别外泄。 ② 选一个计费方式 - 订阅制(Builder 计划)→ 用量可预测,固定月费,适合经常用的人 - 按量付费(Pay As You Go)→ 偶尔用、用量不稳定时选这个,充值还有 +10% 积分 ③ 打开 Cursor,进 Settings → Models,做三件事: 第一,打开「Override OpenAI Base URL」的开关,填入: https://zenmux.ai/api/v1 第二,「OpenAI API Key」那栏填你的 zenmux key(就是 sk-ss-v1- 那串)。 第三,「Anthropic API Key」那栏留空。这个很关键——填了的话,所有 claude- 开头的模型都会被 Cursor 劫持,打到 Anthropic 官方而不是 zenmux,直接报错。 ④ 点「+ Add model」,填这个模型名: anthropic/claude-opus-4.8 注意一定要带 anthropic/ 前缀,不能填 claude-opus-4-8——后者以 claude- 开头,会走错通道。 ⑤ 新开对话,选中这个模型,发句「在吗」,能回 = 通了。 ## 四、六步把书变成 skill 第一步|把书变成一段纯文字 目标:拿到这本书干净的纯文本(.txt 或 .md),图表排版丢了没关系,文字逻辑在就行。 按你手上的格式,三选一: 情况 A · 已经是 Word / 网页文章 Word 里点文件 → 另存为 → 格式选「纯文本(.txt)」即可;网页文章就全选复制,粘进记事本存成 .txt。 情况 B · 是 PDF 或 EPUB(推荐小白走这条) 用 Calibre(完全免费,calibre-ebook.com): 1. 下载安装 1. 把电子书文件拖进去 1. 选中这本书,点上方「转换书籍」 1. 右上角「输出格式」选 TXT,右下角点确定 1. 转换完点「点击查看」,找到 .txt 文件 > 这里有个坑我替你踩过了——很多看起来免费的在线转换工具,下载时会要你订阅付费,还自动续费。我被套路过一次,最后用的还是 Calibre,完全免费,稳得多。 情况 C · 实在啥都不想装 搜「epub 转 txt 在线」,上传、选输出格式、下载即可。但注意别用要付费的那种,也别把有版权或隐私内容的书传到不可信的网站。 > ⚠️ 关键:要的是整本干净文字,别先让任何工具帮你摘要再喂——摘要会把框架精度丢光。 第二步|把整本丢给 Opus 4.8,先别让它摘要 怎么喂:客户端支持上传文件就直接拖 .txt;不支持上传就分几段把全文粘贴进去。 然后发这段提示词(直接抄,方括号换成你的): 这是《[你的书名]》全文。先不要摘要。 通读全书,给我一张全局结构地图: 核心论点是什么?围绕它有哪些命名框架/原则/技法/反模式?它们之间什么逻辑关系? 作者的语气有什么辨识度? 我想用它做一个能帮我 [你的目的,比如:在经济下行期做决策] 的 skill。 第三步|按 5 类提炼,做一张台账 接着发: 按这 5 类提炼这本书:框架 / 原则 / 技法 / 反模式 / 作者声音。 每条给:名字 + 一句话定义 + 何时用 + 原书的精确表述。 框架要保留作者的原始命名,别改写成通用说法。 哪些是核心必进、哪些是边角可省?给我一张台账表格。 第四步|生成 skill(这步决定它好不好用) 先判断:这本书框架少(1-3 个)就做成一个文件;框架多(10+ 个)就做成「入口文件 + 分文件懒加载」。 然后发: 按这份台账生成一个 Cursor skill。 重点打磨开头那段 description—— 把「用户会在什么场景、说什么话时需要它」全写进去, 因为这决定它会不会被 AI 自动召回,写不好等于白做。 第五步|自检 + 试调用(最容易被跳过,但不能省) 第一次跑的时候我也跳了这步,结果发现这个 skill 完全召不回来,才明白有多关键。 让它自己验两件事,发现问题就回上一步补: ① 召回测试 只看这个 skill 开头的 description, 用户说这 5 句话时你会不会想起调用它?逐句判断。 ② 调用测试 现在真用这个 skill 完成一个任务: [一个这本书能解决的真实问题] 看你给的是能照做的步骤,还是空话。 第六步(可选,但很爽)|让几个模型 PK 一下 同一份台账,丢给 Opus 4.8 和另外一两个模型各生成一版,对比谁提炼得更准、触发词更全。 这一步用 ZenMux 的PK功能就很省事——一个 API 直接切不同模型,不用来回换账号、配 key。 ## 五、拿《非暴力沟通》跑测skills的复盘 选这本是因为它框架特别清晰——马歇尔·卢森堡的《非暴力沟通》,一本讲怎么好好说话的经典。 框架越清晰的书,越适合做这个测试。 全程时间: 第一次从零开始,包括配置 ZenMux + 跑完六步,前后大概 45 分钟,熟悉之后换一本书重跑,估计 20 分钟内能搞定。 实际成本: Opus 4.8 在 ZenMux 的价格是输入 $5/百万 token,输出 $25/百万 token。整本书加上来回几轮对话,总共消耗约 30 万 token,折合下来整个流程花了不到二十块钱人民币。 生成的 skill 什么样: Opus 4.8 把这本书提炼成了一套能直接调用的工具,而且保留了书里的原始命名——「非暴力沟通四要素(观察·感受·需要·请求,OFNR)」、「长颈鹿语言 vs 豺狗语言」这个动物隐喻、「疏离生命的语言」这几类沟通陷阱,全都没被改写成通用说法。 更关键的是,它把"要好好说话"这种正确的废话,变成了"先说你观察到的事实、别评判,再说你的感受,再讲你的需要,最后提一个具体的请求"这种我能照着做的四步。 第五步的自检没省,也确实抓到了问题: 它第一版的触发词写窄了,我说「非暴力沟通」才召得回,但现实里我根本不会这么说话——我会说「怎么提意见不像在指责」「和家里人又吵起来了怎么办」。我把这些更日常的说法补进去,它才真的能在我需要的时候自己冒出来。这一步多花了十分钟,但没做等于白做。 最让我感受到这东西真有用的一刻: 生成完这两天,我和家人有句话憋着不知道怎么开口,就是那种一说出来容易变味、听着像指责的事。我顺手喊了下这个 skill,它直接用 OFNR 四步把我想说的话拆开重排了一遍——先讲我观察到什么,再讲我的真实感受,把那些「你总是」「你又」的词全换掉了。 那一刻我突然反应过来:这本我几年前读过、早就还给作者的书,第一次真的回到了我手边帮我干活,而不是躺在书架上积灰。 ## 六、一盆冷水 有一说一,咱也不能把这套吹成万能。 1️⃣因为不是所有书都适合,框架清晰的方法论书最香(商业、思维、写作、沟通类), 纯叙事、纯故事的书,硬提炼出来的 skill 是干瘪的,别浪费时间。 2️⃣提炼也不等于理解:这套方法帮你把书变成「能调用的工具」,但那些要你亲身踩过才懂的东西,它给不了。 书里的道理,AI 能帮你格式化,但不能帮你内化。 还有,AI 会漏框架,会把触发词写窄导致召不回, 所以第五步的自检千万别省,生成完你还得自己过一遍、调一调。 说白了,这是把读过的书激活成工具的一道工序,但不能替你读书。 ## 七、最后想说的 就这一道工序,已经改变了我对读书这件事的看法。 以前我衡量自己读了多少本书。,现在我衡量的是——我有多少本书,已经变成了 AI 随时能调用的能力。 知识最大的浪费,从来不是没读过,是读过了,却一直躺在收藏夹里当库存。 而真正的护城河,也正在从「你读过多少书」,变成「你能把多少书,变成自己随时调得动的产能」。 读完一本书就让它睡进 Notion,和读完就把它焊成一个能干活的 skill,是两种完全不同的复利。 整套 skill 我开源了,拿走直接用:https://github.com/ayi-ai/ayi-nonviolent-communication 跑通了欢迎评论区告诉我你把哪本书变成了 skill,我们一起迭代下一版。

译本文以《非暴力沟通》为例,提供了一个将书籍转化为可调用AI技能(Skill)的六步教程。作者使用Claude Opus 4.8模型,因其具备100万token上下文窗口、结构化输出及多步智能体(Agent)能力,能一次性处理全书逻辑。流程包含文本准备、全局结构分析、五类提炼(框架/原则/技法/反模式/作者声音)、技能生成及关键的自检步骤。生成的技能保留了书中原始框架命名(如OFNR四要素、长颈鹿语言),并将触发词优化为“怎么提意见不像在指责”等日常表达。整个流程耗时约45分钟,消耗约30万token,成本不到20元人民币。

MiniMax (official)@MiniMax_AI · 6月1日73

1. Video control + gaming + M3 2. Open weights + massive context ++ strong coding 3. Canceling my weekend plans now

译1. 视频控制 + 游戏 + M3 2. 开放权重 + 海量上下文 + 强编码能力 3. 现在就取消我的周末计划 [引用 @MinLiBuilds]:跟祖传的 20K context 说 bye bye 了。 MiniMax M3 发布了,三个亮点: 1M context、原生多模态、Agentic。 我这次做了一次完整评测,使用CC workflow 、 @ZenMuxAI和MiniMax M3: 给一张截图,做一个“凡人修仙剑阵对决手势游戏”。 要求是:支持双人对决 、使用 workflow 拆解任务、加入石头剪刀布机制。 2 小时后,游戏真的跑起来了。 这一代LLM的版本答案我知道了: 1M 上下文 + 多模态+ agent 模式。 1M context 是推理深度的基础,多 agent 负责拆任务和执行。

🚨 AI News | TestingCatalog@testingcatalog · 6月1日55

NVIDIA announced an upcoming release of Nemotron 3 Ultra later this week, a 550B-parameter open-weight model. According to Artificial Analysis, it is positioned as the most intelligent open-weight model from the US lab. Soon 👀

译NVIDIA宣布将于本周晚些时候发布Nemotron 3 Ultra,这是一个550B参数的开放权重模型。 根据Artificial Analysis,它被定位为美国实验室最智能的开放权重模型。 Soon 👀

MiniMax (official)@MiniMax_AI · 6月1日53

love to see it 🙌 go try M3 in @orca_build with @opencode

译太棒了 🙌 快去 @orca_build 里用 @opencode 试试 M3 [引用 @JinjingLiang]:MiniMax M3 让我惊艳 我一直在 @orca_build 里用 @opencode 智能体免费使用它 目前主要做 UI 任务和代码审查,但感觉性能与 Opus-4.7 不相上下 没想到它这么好用。(而且目前免费)

MiniMax (official)@MiniMax_AI · 6月1日74

This is hype 🔥 M3 live on @OrcaRouter on day one go run it (50% off the first week 👀)

译这很火🔥 M3 首日上线 @OrcaRouter 快去跑起来(首周五折👀)

Berryxia.AI@berryxia · 6月1日74

用2周用Three.js + 实时语音AI,把盛唐长安做成了能走进去对话的3D世界 如果你能走进一座会说话的盛唐长安城,和李白对诗、让AI导游带路、在天枢府听智机使讲解,会是什么体验? 我们花两周高强度开发,把这个想法做成了一个可在线玩、可开源复用的浏览器3D互动项目。 在线体验:https://andyhuo520.github.io/tang-changan/ GitHub开源:https://github.com/andyhuo520/tang-changan 项目核心亮点: - 用WASD真正“走进”长安城,而不是只能转相机看模型 - 真实语音对话:按住麦克风就能和李白、杜甫、智机使聊天 - 融合诗词小游戏、珍宝馆、AI展馆,把历史和AI能力变成可玩体验 - 全开源,普通创作者和初学者也能复刻学习 整个项目从一个朴素想法开始:把盛唐长安做成一个可漫游、可对话、可游戏、可展示AI能力的3D世界。 开发过程分为9个阶段,我把最关键的干货和踩坑经验都写出来了: 1. 先搭出一个能看的低多边形长安沙盘(Three.js核心搭建) 2. 加入WASD游戏模式,让玩家真正“走进”长安。 3. 添加大量NPC和小游戏(飞花令、对对联、猜谜等唐风玩法) 4. 打造珍宝馆、诗画展厅,把文化内容变成可互动展厅。 5. 把AI品牌做成唐风“天枢府 / AI展馆”,让现代AI出现在盛唐场景里 6. 接入Agora实时语音Agent,实现真正的语音对话(最难也最核心的部分)。 7. 加上角色头像、视频面板、古风BGM,提升沉浸感 8. 解决3D尺度、浏览器缓存、语音账号等常见坑 9. 最终部署到GitHub Pages,让任何人一键体验 语音部分我们用了Agora ConvoAI + Persona设计,每个NPC(李白、杜甫、王维、智机使等)都有独立性格、音色和对话风格,不是千篇一律的机器人。 普通用户直接点链接就能玩: WASD移动 → 靠近NPC按E对话 → 进入展馆互动 → 语音聊天 开发者想复刻也很友好:代码模块化清晰,前端Three.js + 后端FastAPI分开,文档和踩坑记录都很完整。 我们最终做到的不是一个普通的3D展示页,而是一个小型数字文旅 + AI能力样板: 把历史文化游戏化,把AI能力场景化,把开源项目做成能真正分享的作品。 想体验盛唐长安的AI版吗? 点链接进去试试,和李白用语音对一句诗,或者让智机使给你讲解实时语音技术。 感兴趣的朋友欢迎点赞、评论你最想玩的环节,或者直接去GitHub看代码复刻。 #Threejs

译开发者使用Three.js,耗时两周构建了可在线体验的盛唐长安3D互动项目。核心功能包括通过WASD模式在城市场景中自由漫游,并接入Agora ConvoAI实时语音Agent,使用户能与李白、杜甫等NPC进行真实语音对话。项目还融合了飞花令等诗词小游戏及AI展馆,将历史文化与AI能力场景化结合。该开源项目(GitHub Pages)代码结构清晰,旨在为创作者提供一个可复用的数字文旅样板。

Artificial Analysis@ArtificialAnlys · 6月1日81

NVIDIA just announced the release of Nemotron 3 Ultra in Jensen Huang's Computex keynote: at 550B parameters (55B active), this is the largest Nemotron 3 model to date, and it is the most intelligent US open weights model We partnered with @nvidia to evaluate this model for intelligence and speed - these figures use the model’s BF16 weights, but as with Nemotron 3 Super the model will be made available in NVFP4 quantization as well for higher inference performance. ➤ New leader for US open weights intelligence: Nemotron 3 Ultra scores 48 on the Artificial Analysis Intelligence Index. This is well ahead of the next strongest US open weights models, Gemma 4 31B (39), Nemotron 3 Super (36) and gpt-oss-120b (33), but behind the Chinese-led open weights frontier (Kimi K2.6 at 54). ➤ Leading speed for its intelligence: on a pre-release @DeepInfra endpoint, Nemotron 3 Ultra served over 300 tokens per second. Peer models in its size class from China-based labs such as DeepSeek and Moonshot (Kimi) are generally served at speeds of 50-100 tokens per second in the market today. gpt-oss-120b is served at speeds similar to this level, but with significantly lower intelligence. ➤ Largest Nemotron 3 model so far: at approximately 550 billion total parameters and 90% sparsity, Nemotron 3 Ultra is significantly larger than its siblings and is the largest recent US open weights model release We’ll be sharing additional analysis and full benchmarks at release.

译NVIDIA在Computex上发布了Nemotron 3 Ultra,总参数达550B(激活参数55B),是目前最大的Nemotron 3模型。该模型在美国开放权重模型中智能性最强,在Artificial Analysis Intelligence Index评测中得分为48,超越了Gemma 4 31B(39分),但仍落后于月之暗面(Kimi)的K2.6(54分)。在推理速度方面,其在预发布端点上超过了300 tokens/s,远高于同级别中国模型通常的50-100 tokens/s。该模型将提供BF16权重及NVFP4量化版本以提升推理性能。

MiniMax (official)@MiniMax_AI · 6月1日78

let's gooo 🔥 M3 + @visionagents_ai for real-time voice & video go build something hype!

译出发吧🔥 M3 + @visionagents_ai 实现实时语音与视频 去构建些令人兴奋的东西吧! [引用 @visionagents_ai]:祝贺 @MiniMax_AI 团队发布 M3! 👉 一款前沿级开源权重模型 👉 100万 token 上下文窗口 👉 原生多模态(图像与视频)

MiniMax (official)@MiniMax_AI · 6月1日71

M3 on @AskVenice, available anonymously 🔥 open-weight, frontier coding + agentic, 1M context, native multimodal. Live on day one

译M3现已在@AskVenice上线,支持匿名使用🔥 开源权重,前沿编码与智能体能力,1M上下文,原生多模态。 首日即上线

Berryxia.AI@berryxia · 6月1日63

兄弟们,讲真! 那些让你每个月付费的AI工具、Bloomberg终端、交易系统、视频工作室,其实是资本用来维持稳定收入的机制。 大家还在继续订阅OpenAI、HeyGen、Bloomberg吗? GitHub上已经有10个开源项目,完全可以替代这些付费产品。 它们免费、功能强大、支持自托管,并且让你完全掌握自己的数据和控制权。 1. AutoHedge:四个AI代理组成自主对冲基金,在Solana上实时交易,pip install即可运行 → https://github.com/The-Swarm-Corporation/AutoHedge 2. Vibe-Trading:64个金融技能加29个专家代理群,使用DAG模型实时讨论策略,包含清算热图和代币解锁追踪 → https://github.com/HKUDS/Vibe-Trading 3. Fincept Terminal:笔记本上运行的Bloomberg替代品,提供CFA级别分析以及巴菲特、达里奥、索罗斯等20多位投资大佬的AI代理,连接100多个数据源 → https://github.com/Fincept-Corporation/FinceptTerminal 4. LibreChat:自托管版ChatGPT+Claude+Gemini+DeepSeek等20多个模型,你的数据和历史全部保留在本地 → https://github.com/danny-avila/LibreChat 5. Open Higgsfield AI:自托管电影工作室,把Flux、Midjourney、Sora、Kling、Veo、GPT-4o全部集成进去,支持文本生图、图生视频,本地运行 → https://github.com/Anil-matcha/Open-Higgsfield-AI 6. Open-LLM-VTuber:开源AI虚拟主播,直接本地部署 → https://github.com/Open-LLM-VTuber/Open-LLM-VTuber 7. Claude Ads:Claude一键生成广告素材工具 → https://github.com/AgriciDaniel/claude-ads 8. Agentic Inbox:AI直接帮你管理邮箱,自动处理邮件 → https://github.com/cloudflare/agentic-inbox 9. Camofox Browser:无头浏览器,让AI代理完全隐身操作 → https://github.com/jo-inc/camofox-browser 10. Hyperframes:AI直接写HTML生成专业视频 → https://github.com/heygen-com/hyperframes 我们一直以为AI变革来自估值百亿的大公司。 然而GitHub上的这些开源项目正在把机构级工具直接交给普通人。

译该推文指出,许多付费的AI工具和专业软件(如Bloomberg)是资本维持收入的机制。GitHub上已有10个开源项目可替代它们,提供免费、功能强大且支持自托管的选项。示例包括:AutoHedge(自主交易代理)、Vibe-Trading(金融技能与代理系统)、Fincept Terminal(Bloomberg替代品)、LibreChat(多模型聊天)以及Open Higgsfield AI(电影工作室)等。这些项目让用户能完全掌控自己的数据和控制权,将原本昂贵的订阅服务免费提供给普通人。

向阳乔木@vista8 · 6月1日66

基于开源的沉浸式翻译插件 read-frog。 让Codex开发了一套单词学习系统。 每天阅读英文网页收藏的单词,变成闪卡可复习,基于艾宾浩斯曲线遗忘曲线。 此单词学习模式,根据单词难度(如CET6+)旁边加上中文翻译,标记掌握情况。 如果一篇文章没生词翻译,说明掌握火候差不多了 原始Github见评论

译用户基于开源沉浸式翻译插件 read-frog,使用 Codex 开发了一套单词学习系统。该系统能将用户在阅读英文网页时收藏的单词自动生成闪卡进行复习,并基于艾宾浩斯遗忘曲线安排学习周期。系统会根据单词难度(例如 CET6+)在旁边添加中文翻译,并标记单词的掌握情况。通过此模式,当一篇文章不再显示生词翻译时,即表明学习者已基本掌握该文章词汇。

Berryxia.AI@berryxia · 6月1日62

Spent 2 weeks vibe coding a real-time voice interactive mini-game set in an ancient Chinese hall using Claude model and Three.js.

译一个用Claude模型和Three.js搭建的盛唐长安实时语音互动小游戏已开源。项目由个人开发者耗时2周、花费800刀完成,通过Agora Skills实现实时语音交互。玩家可在其中与NPC对话、与李白对诗、玩诗词小游戏,还能进入珍宝馆欣赏诗画,体验古文明与AI结合的沉浸感。

向阳乔木@vista8 · 5月31日49

只需提供一个Suno歌曲的URL,用Codex自动生成音乐MTV。 Codex自动调用生图、组织画面、生成对齐的歌词。 Skill等继续完善后就可以开源了。

小互@xiaohu · 5月31日73

效果不错,已经安装了 回头改造下

译用户开发的“中文小黑怪诞”正文配图生成 Skill,在 GitHub 周榜上位列第二。该项目原本是为自己 Notion 文档生成配图而开发,特点是 16:9 比例、白底手绘风格,并带少量红、橙、蓝三色批注。用户发现该项目意外上榜后,表达了对排名的惊喜与再接再厉的心情。

向阳乔木@vista8 · 5月31日73

每月一场GEO公开课,第一期的干货在这里~ 上个月,姚老师 @yaojingang 说想开GEO公开课。 跟AJ商定,每个月最后一周的周六作为直播时间。 昨天第一场,飞书几百人在线,视频号几千人,效果不错,不少朋友觉得获益匪浅。 直播PPT、免费开源GEOflow系统和提示词在评论区

译首期GEO公开课于上周末直播,由姚老师主讲,吸引了飞书和视频号数千人在线参与。课后已将直播PPT、免费开源的GEOflow系统及全部提示词等干货资源在评论区开放分享。

宝玉@dotey · 5月31日61

像我日常会几个 Agent 一起用:Codex、Claude Code、Cursor、GitHub Copilot,这些 Agent 各有所长,或者有时候要集众家之长。 Matt 这个 Sandcastle 就是用 TypeScript 脚本来编排 Workflow,可以把这些 Agent 编排在同一个 WorkFlow 中一起来完成一些任务,可以在虚拟机中运行。 但过于极客不太适合普通用户,一般的场景真用不上,适合一些追求极致的场景。举例来说你要赛博养蛊:写个技术方案,让各个 Agent 一人出一套,再相互打分完善。

译Sandcastle是由@mattpocockuk开源的一个TypeScript工具,允许用户通过脚本编排Workflow,在虚拟机中协同调用Codex、Claude Code、Cursor、GitHub Copilot等多个AI智能体来完成复杂任务。它定位为面向追求极致效率场景的极客工具,适用于需要多智能体协作或“赛博养蛊”式的任务,例如让各智能体分别生成技术方案再相互评审完善。

OpenClaw🦞@openclaw · 5月31日58

OpenClaw 2026.5.28 is live 🧠 Claude Opus 4.8 support 🎨 Krea image model support via fal ⚡ faster Gateway/plugin/session hot paths 💬 Discord progress drafts now show commentary Sharper models, livelier runs. https://github.com/openclaw/openclaw/releases/tag/v2026.5.28

译OpenClaw 2026.5.28 已上线 🧠 支持 Claude Opus 4.8 🎨 通过 fal 支持 Krea 图像模型 ⚡ 更快的 Gateway/插件/会话热路径 💬 Discord 进度草稿现在显示评论 更锐利的模型,更活跃的运行。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.28

Berryxia.AI@berryxia · 5月31日71

我今天刷到Ivan Fioravanti在mlx-vlm项目里的更新。 Step 3.7 Flash模型正式加进去了。 转换到MLX之后,视觉理解和文本生成全部跑通。 这个模型速度特别快。 4bit量化版本在128GB Apple Silicon机器上就能支持32K上下文。 他直接在Mac Studio上测了benchmark,生成速度达到53 tokens/s以上。 拿一张截图让它分析,模型把结构信息、关键元素提取得又快又准。 以前我们总觉得高质量视觉语言任务必须靠云端。 现在它把这种能力真正塞进了个人Mac。 隐私、速度、零额外费用,全都兼顾到位。 本地多模态AI又往前走了一步,真正能落地到日常项目里。

译Ivan Fioravanti 在 mlx-vlm 项目中成功将阶跃星辰的 Step 3.7 Flash 模型移植到 MLX 框架,实现了视觉理解和文本生成。测试表明,该模型的 4bit 量化版本在 128GB Apple Silicon Mac 上支持 32K 上下文,生成速度超过 53 tokens/s。对截图的分析也准确高效。这意味着高质量的本地多模态 AI 能力可以在个人 Mac 上运行,兼顾了隐私与性能。

StepFun@StepFun_ai · 5月30日62

Small is a feature. 😌

译小即是美。😌

歸藏(guizang.ai)@op7418 · 5月30日70

我去,太牛批了! 我的 Skill 冲到 GitHub 本周新建项目 Star 排名第一了! 就是这个社交媒体卡片 Skill (guizang-social-card-skill) 还是刚才一个群友让他的 Agent 找项目的时候发现的。我自己看了一下,果然是第一!

译一个名为“guizang-social-card-skill”的社交媒体卡片技能,在GitHub本周新建项目Star排名中冲到了第一名。作者通过群友发现自己的项目登顶,并亲自确认了这一成绩。

向阳乔木@vista8 · 5月30日62

我和姚老师组织的GEO公开课,到时候我负责一些AI工具和模型的问答分享。

译推文宣布了与姚老师合作举办的GEO公开课。姚老师将主讲GEO的底层逻辑、方法、系统原理及理念,并分享一系列核心资源,包括GEOFlow系统、用于创建技能的元Skill、17套GEO Skill合集,以及收录41篇最新论文的资料库。此外,分享内容还涵盖《GEO到底是什么》等多篇白皮书、红皮书、蓝皮书及AI营销提示词合集。该公开课将通过WaytoAGI进行直播,另一位主讲人将负责AI工具与模型相关的问答环节。

ginobefun@hongming731 · 5月30日78

这个 skill 看着不错,可将文字、URL 或文章直接生成公众号首图、小红书图文卡、教程步骤卡等视觉物料,支持 28 种布局和 10 种主题。

译claude-design-card 是一款专为中文内容创作者设计的 Skill。它能将文字、URL 或文章直接转化为可发布的视觉卡片,如公众号首图、小红书图文卡、教程步骤卡等,支持 28 种布局与 10 种主题。其核心价值在于自动化了“写完文章”后最繁琐的流程:自动提炼重点、选择版式、生成 HTML 并截图成 PNG,替代了以往手动使用 Figma 或 Canva 等工具的步骤。该工具开源,适合经常撰写相关内容的创作者尝试。

AK@_akhaliq · 5月30日69

minWM A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models

译minWM 一个用于实时交互视频世界模型的全栈开源框架

Berryxia.AI@berryxia · 5月29日66

等我把我做这个项目的过程,写个文章分享给大家。 有一些启示和帮助,记得Star起来啊。 费不费Token不知道,但是真的废人啊! 兄弟们等等我~~

译这是一个用Three.js搭建的盛唐长安3D互动世界,接入Agora技能实现核心实时语音交互功能。用户可与NPC对话、与李白对诗、玩诗词小游戏,并参观珍宝馆和AI展馆。开发者耗时两周、花费800刀完成,现已开源。

Berryxia.AI@berryxia · 5月29日68

🔥我尼玛,兄弟们,这下真的是爆肝了。 已经开源在GitHub了,记得Star一波啊! 我肝了2周+花费了800刀干出来的项目~😭 自己可以真实去体验,文旅馆的真的都可以搞一搞! 一个用 3D 渲染技术three.JS 搭起来的盛唐长安互动世界,并接入 Agora Skills 做了核心实时语音互动小游戏。 你可以在里面: - 和 NPC 对话、李白对诗、玩诗词小游戏 - 进入珍宝馆欣赏诗画 - 逛 AI 展馆,体验古文明与 AI 结合的沉浸感 这玩意我改了N遍,改的我头皮发麻。 强迫症的我,光剪视频都剪了N次,有可能有人说是垃圾,不管如何,我认真做了。 享受这个Solo 干项目的时光,Learning in Public ! 如果你觉得有意思,欢迎点个 Star 支持一下。 体验地址和Github地址见评论👇🏻,兄弟们记得一键三连啊!

译作者开源了一个使用3D渲染技术Three.js搭建的盛唐长安互动世界项目。项目核心功能是接入Agora Skills,实现了实时语音互动。用户可以在虚拟世界中与NPC对话、与李白对诗、玩诗词小游戏、进入珍宝馆欣赏诗画,以及逛AI展馆体验古今融合。作者透露该项目花费了2周开发时间及800美元成本,现已托管在GitHub上并开放体验。

AYi@AYi_AInotes · 5月29日14

Claude Opus 4.7和Opus 4.8的区别

译本文探讨“以术入道”的AI使用哲学。作者将AI工具分为两类:自主运行的Agent型(如Claude Code),和需人工逐步判断的“实习生型”(如Cursor)。后者是培养用户判断力的关键,但受限于必须在场的瓶颈。文中介绍了网易的免费远程软件UU远程,它允许用户通过手机连接Mac运行Cursor,实现低延迟操作,包括原生终端支持,从而打破了物理距离的限制。作者认为,AI发展的当前阶段,更需要这种能随时与AI协同思考的连接方式。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月2日
10:47
Berryxia.AI@berryxia
65
Memo软件与沉浸式翻译工具使用体验分享

推文分享作者日常使用的两个AI翻译工具及工作流。1. Memo软件(免费开源):用于处理本地视频。流程为下载视频后,使用Whisper本地模型进行转录以节省成本,再接入DeepSeek-V4-Flash API进行翻译。该软件支持字幕烧录、编辑和导出,但在X平台上传速度慢。2. 沉浸式翻译:主要用于网页、YouTube视频及图书翻译,优点是格式保持较好。两者均支持接入用户自定义的API模型。

Berryxia.AI: 特么终于搞完了,太费劲了! 整整花了1晚上才把它翻译中文、剪辑、上传完毕。 富人也有富人的烦恼,只是我们的烦恼不一样罢了! 这两天刷屏的Ivanka Trump (特朗普的长女千金)的长播客采访。 整个播客中有些观点不能说多么锐利,但是也从...

DeepSeek多模态开源/仓库教程/实践
09:18
SemiAnalysis@SemiAnalysis_
66
你的强化学习训练效率取决于沙盒基础设施。来看看 Modal 如何让你的 rollout 持续运行!

Modal: Reinforcement learning has exploded on Modal, and we've been cooking. Here's a review of lessons learned helping teams t...

开源/仓库部署/工程
08:47
凡人小北@frxiaobei
67
Codex 正在变成 Agent 的默认 Runtime。 codex 其实还同时有 typescript sdk。 如果你要搭建一个 agent,技术栈可以是: typescript + codex + cc-switch

Vaibhav (VB) Srivastav: We just released the Codex Python SDK 🔥 You can now embed Codex directly into your Python apps and workflows! > Start t...

智能体OpenAI开源/仓库
07:54
ginobefun@hongming731
71
MiniMax发布开源模型M3:集成编码、长上下文与多模态

MiniMax开源发布了国内首个集成前沿Coding能力、1M超长上下文和原生多模态的模型M3。该模型能在24小时内自主完成145次CUDA算子迭代。与此同时,xAI前负责人指出,视频模型的上限将由LLM决定,下一个类似Sora的产品应是视频Agent,而非单纯的视频生成模型。

多模态开源/仓库模型发布编码
07:19
MiniMax (official)@MiniMax_AI
同事件精选81
M3 on Cloudflare AI Gateway, day one ⚡ 前沿编码能力,1M 上下文,原生多模态,现在一次 fetch 即可调用。 是时候构建些东西了。 🦞

Cloudflare Developers: M3 from @MiniMax_AI is now available on Cloudflare AI Gateway: - First open model to push SOTA coding frontier - 1M cont...

多模态开源/仓库模型发布编码
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
推荐理由:MiniMax的M3把开源编码模型拉到新高度,1M上下文加原生多模态是惊喜,上线首周5折,值得跑一下看是不是真能干翻闭源。
04:48
jason@jxnlco
52
你将构建什么? 【引用 @jxnlco】:哇,我们刚刚发布了 Codex 的 Python 应用服务器 感谢 @ah20im

jason: wow we just shipped codex app server for python shoutouts to @ah20im

OpenAI产品更新开源/仓库部署/工程
02:18
MiniMax (official)@MiniMax_AI
69
MiniMax M3现已在Happycapy上线,主要升级在于处理复杂、多模态、大规模任务的能力。该模型支持原生多模态输入,包括PDF、视频、图像、截图及长文档,并在编程和智能体任务(如仓库级调试、问题追踪)上表现较强。此外,M3采用开源权重,价格约为Sonnet的三分之一。

Happycapy: MiniMax M3 @MiniMax_AI is now live on Happycapy 🎉 A major upgrade for agent workflows, especially when the task is mess...

多模态开源/仓库模型发布编码
01:18
MiniMax (official)@MiniMax_AI
76
MiniMax的M3模型现已在Qubrid AI平台上线。该模型具备100万token上下文、原生多模态、前沿的代码性能,并支持长期智能体工作流,被评为年度技术上最有趣的开放权重模型之一。Qubrid AI作为首发合作伙伴,为早期用户提供50%的折扣。

Qubrid AI: @MiniMax_AI M3 is now live on Qubrid AI. https://platform.qubrid.com/model/minimax-m3 - 1M-token context. - Native multi...

智能体多模态开源/仓库模型发布
关联讨论 11 条MiniMax:Blog(网页)X:MiniMax (@MiniMax_AI)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:歸藏 (@op7418)MarkTechPost(RSS)IT之家(RSS)
6月1日
23:42
Berryxia.AI@berryxia
62
FastClaw是一个面向云原生多租户场景的轻量级Agent运行框架。它通过存算分离的架构,让Agent无需常驻,而是根据请求动态挂载sandbox提供服务。实测显示,将托管服务从OpenClaw迁移到FastClaw后,服务器数量从18台降至3台,运营成本降至约1/6。此外,FastClaw代码体积约为OpenClaw的1/40,运行资源占用约为其1/7,支持单二进制分发和秒级启动。这个框架非常适合处理批量任务。

idoubi: 我年初开始做 OpenClaw 托管服务,在一套 k8s 集群部署了 500 个 Pod,每个 Pod 限制 4g 的运行内存。日常开着 18 台 4c16g 的服务器作为节点池,一个月成本将近 5k 刀。 几个月下来,托管服务的 MRR ...

智能体GitHub开源/仓库部署/工程
22:04
向阳乔木@vista8
61
最近vibe coding的所有工具和skill,全部免费开源,Codex和CC是成年人的六一儿童节玩具。

向阳乔木: http://x.com/i/article/2061439796745297920

开源/仓库编码
21:58
Nathan Lambert@natolambert
58
英伟达是美国日益壮大的开源模型努力的先锋。 虽然酝酿已久,但当一个550B模型发布时,更多人会注意到这一点,这是显而易见的。 许多人不会意识到他们发布的训练数据也很有价值。

NVIDIA AI: Nemotron 3 Ultra is coming this week. ⌛️

开源/仓库行业动态
21:12
OpenBMB@OpenBMB
同事件精选78
OpenBMB发布UltraData两大开源数据集,登顶HuggingFace趋势榜

OpenBMB联合清华NLP与Modelbest发布两个开源数据集:Ultra-FineWeb-L3(预训练合成数据)包含600B+ tokens(超400B英文、200B+中文),是迄今最大开源中文预训练合成数据集;UltraData-SFT-2605(后训练SFT数据)包含15M+样本,是中国首个开源且包含思考与非思考标注的大规模SFT数据集,覆盖数学、代码、知识和指令遵循。两者均基于UltraData L0-L4框架构建,并在MiniCPM5-1B训练中完成验证。数据集已在HuggingFace免费开放。

Hugging Face开源/仓库数据/训练
同一事件,精选展示《面壁智能联合清华、OpenBMB开源最大中文预训练合成数据集及千万级SFT数据集,公开MiniCPM5-1B核心数据》
推荐理由:面壁开源了两个王炸数据集,预训练的 600B+ token 中文合成数据史上最大,SFT 那边 1500 万条带思考链的指令更是头一回见,做中文基础模型的可以无脑下载了。
21:09
Chubby♨️@kimmonismus
83
NVIDIA在GTC Taipei上宣布完全开源Cosmos 3。这是首个针对物理AI的"全能模型",具备原生视觉推理能力,可理解真实世界、预测未来并生成机器人应采取的行动。本次发布包含两个变体:Super(32B)和Nano(8B)。模型权重、代码及数据集均已完全开放。

NVIDIA AI: Introducing Cosmos 3: Our latest frontier model for Physical AI Cosmos 3 is the world's first fully open omnimodel with ...

具身智能开源/仓库模型发布
关联讨论 10 条X:Kim (@kimmonismus)HuggingFace Daily Papers(社区热门论文)IT之家(RSS)Hugging Face:Blog(RSS)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)Hacker News 热门(buzzing.cc 中文翻译)LMSYS:Blog(Chatbot Arena 团队)X:Artificial Analysis (@ArtificialAnlys)
21:02
SiliconFlow@SiliconFlowAI
79
MiniMax M3 现已上线 SiliconFlow 平台

MiniMax M3 现已在 SiliconFlow 平台上线,并提供限时7天的50%折扣。定价为:缓存 $0.06、输入 $0.30、输出 $1.20(每百万 token)。M3 是首个同时具备三大前沿能力的开源模型:一是编码与智能体能力,在 SWE-Bench Pro 评测中击败了 GPT-5.5 和 Gemini 3.1 Pro;二是支持 100万 token 上下文窗口(通过 MiniMax Sparse Attention 技术实现);三是具备原生多模态能力,支持图像、视频与计算机操作。

多模态开源/仓库模型发布编码
关联讨论 11 条MiniMax:Blog(网页)X:MiniMax (@MiniMax_AI)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:歸藏 (@op7418)MarkTechPost(RSS)IT之家(RSS)
20:48
AYi@AYi_AInotes
精选79
使用Claude Opus 4.8将书籍转化为AI技能的教程

本文以《非暴力沟通》为例,提供了一个将书籍转化为可调用AI技能(Skill)的六步教程。作者使用Claude Opus 4.8模型,因其具备100万token上下文窗口、结构化输出及多步智能体(Agent)能力,能一次性处理全书逻辑。流程包含文本准备、全局结构分析、五类提炼(框架/原则/技法/反模式/作者声音)、技能生成及关键的自检步骤。生成的技能保留了书中原始框架命名(如OFNR四要素、长颈鹿语言),并将触发词优化为“怎么提意见不像在指责”等日常表达。整个流程耗时约45分钟,消耗约30万token,成本不到20元人民币。

开源/仓库教程/实践

推荐理由:不是摘要,是真能用的skill。把整本书喂给Claude Opus 4.8,提炼成能随时唤起的工具箱,连自检步骤都帮你做好了,想把自己读过但用不上的书激活的,直接抄。
20:47
MiniMax (official)@MiniMax_AI
73
1. 视频控制 + 游戏 + M3 2. 开放权重 + 海量上下文 + 强编码能力 3. 现在就取消我的周末计划 【引用 @MinLiBuilds】:跟祖传的 20K context 说 bye bye 了。 MiniMax M3 发布了,三个亮点: 1M context、原生多模态、Agentic。 我这次做了一次完整评测,使用CC workflow 、 @ZenMuxAI和MiniMax M3: 给一张截图,做一个"凡人修仙剑阵对决手势游戏"。 要求是:支持双人对决 、使用 workflow 拆解任务、加入石头剪刀布机制。 2 小时后,游戏真的跑起来了。 这一代LLM的版本答案我知道了: 1M 上下文 + 多模态+ agent 模式。 1M context 是推理深度的基础,多 agent 负责拆任务和执行。

实践哥MinLi: 跟祖传的 20K context 说 bye bye 了。 MiniMax M3 发布了,三个亮点: 1M context、原生多模态、Agentic。 我这次做了一次完整评测,使用CC workflow 、 @ZenMuxAI和MiniM...

智能体多模态开源/仓库模型发布
20:43
🚨 AI News | TestingCatalog@testingcatalog
55
NVIDIA宣布将于本周晚些时候发布Nemotron 3 Ultra,这是一个550B参数的开放权重模型。 根据Artificial Analysis,它被定位为美国实验室最智能的开放权重模型。 Soon 👀

NVIDIA AI: Nemotron 3 Ultra is coming this week. ⌛️

开源/仓库推理模型发布
16:17
MiniMax (official)@MiniMax_AI
53
太棒了 🙌 快去 @orca_build 里用 @opencode 试试 M3 【引用 @JinjingLiang】:MiniMax M3 让我惊艳 我一直在 @orca_build 里用 @opencode 智能体免费使用它 目前主要做 UI 任务和代码审查,但感觉性能与 Opus-4.7 不相上下 没想到它这么好用。(而且目前免费)

Jinjing Liang: Blown away by MiniMax M3 I've been using it for free inside @orca_build with the @opencode agent Mostly UI tasks & code ...

开源/仓库编码评测/基准
14:17
MiniMax (official)@MiniMax_AI
74
这很火🔥 M3 首日上线 @OrcaRouter 快去跑起来(首周五折👀)

OrcaRouter 🐳: 🚀 @MiniMax_AI M3 is now available on OrcaRouter. One of the most anticipated open model releases, bringing next-gen spa...

智能体开源/仓库模型发布
12:42
Berryxia.AI@berryxia
74
用两周开发一个可走进、可对话的盛唐长安3D世界

开发者使用Three.js,耗时两周构建了可在线体验的盛唐长安3D互动项目。核心功能包括通过WASD模式在城市场景中自由漫游,并接入Agora ConvoAI实时语音Agent,使用户能与李白、杜甫等NPC进行真实语音对话。项目还融合了飞花令等诗词小游戏及AI展馆,将历史文化与AI能力场景化结合。该开源项目(GitHub Pages)代码结构清晰,旨在为创作者提供一个可复用的数字文旅样板。

Berryxia.AI: http://x.com/i/article/2060375125825036288

智能体多模态开源/仓库教程/实践
12:35
Artificial Analysis@ArtificialAnlys
81
NVIDIA发布最大Nemotron 3模型Nemotron 3 Ultra

NVIDIA在Computex上发布了Nemotron 3 Ultra,总参数达550B(激活参数55B),是目前最大的Nemotron 3模型。该模型在美国开放权重模型中智能性最强,在Artificial Analysis Intelligence Index评测中得分为48,超越了Gemma 4 31B(39分),但仍落后于月之暗面(Kimi)的K2.6(54分)。在推理速度方面,其在预发布端点上超过了300 tokens/s,远高于同级别中国模型通常的50-100 tokens/s。该模型将提供BF16权重及NVFP4量化版本以提升推理性能。

开源/仓库推理模型发布评测/基准
关联讨论 10 条X:Kim (@kimmonismus)HuggingFace Daily Papers(社区热门论文)IT之家(RSS)Hugging Face:Blog(RSS)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)Hacker News 热门(buzzing.cc 中文翻译)LMSYS:Blog(Chatbot Arena 团队)X:Artificial Analysis (@ArtificialAnlys)
11:46
MiniMax (official)@MiniMax_AI
78
出发吧🔥 M3 + @visionagents_ai 实现实时语音与视频 去构建些令人兴奋的东西吧! 【引用 @visionagents_ai】:祝贺 @MiniMax_AI 团队发布 M3! 👉 一款前沿级开源权重模型 👉 100万 token 上下文窗口 👉 原生多模态(图像与视频)

Vision Agents: Congrats to the @MiniMax_AI team on the release of M3! 👉 A frontier-class open-weight model 👉 1M context window 👉 Nat...

多模态开源/仓库模型发布视频
关联讨论 11 条MiniMax:Blog(网页)X:MiniMax (@MiniMax_AI)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:歸藏 (@op7418)MarkTechPost(RSS)IT之家(RSS)
11:15
MiniMax (official)@MiniMax_AI
71
M3现已在@AskVenice上线,支持匿名使用🔥 开源权重,前沿编码与智能体能力,1M上下文,原生多模态。 首日即上线

Venice: MiniMax-M3 by @MiniMax_AI is now live on Venice. The first open-weight model to deliver frontier coding and agentic perf...

智能体多模态开源/仓库模型发布
08:41
Berryxia.AI@berryxia
63
GitHub开源项目挑战付费订阅模式

该推文指出,许多付费的AI工具和专业软件(如Bloomberg)是资本维持收入的机制。GitHub上已有10个开源项目可替代它们,提供免费、功能强大且支持自托管的选项。示例包括:AutoHedge(自主交易代理)、Vibe-Trading(金融技能与代理系统)、Fincept Terminal(Bloomberg替代品)、LibreChat(多模型聊天)以及Open Higgsfield AI(电影工作室)等。这些项目让用户能完全掌控自己的数据和控制权,将原本昂贵的订阅服务免费提供给普通人。

Harman: 10 GitHub repos so good they shouldn't be free. 1. AutoHedge An autonomous hedge fund built in Python with four AI agent...

智能体多模态开源/仓库部署/工程
00:46
向阳乔木@vista8
66
基于开源翻译插件的沉浸式单词学习系统

用户基于开源沉浸式翻译插件 read-frog,使用 Codex 开发了一套单词学习系统。该系统能将用户在阅读英文网页时收藏的单词自动生成闪卡进行复习,并基于艾宾浩斯遗忘曲线安排学习周期。系统会根据单词难度(例如 CET6+)在旁边添加中文翻译,并标记单词的掌握情况。通过此模式,当一篇文章不再显示生词翻译时,即表明学习者已基本掌握该文章词汇。

开源/仓库教程/实践
00:35
Berryxia.AI@berryxia
62
一个用Claude模型和Three.js搭建的盛唐长安实时语音互动小游戏已开源。项目由个人开发者耗时2周、花费800刀完成,通过Agora Skills实现实时语音交互。玩家可在其中与NPC对话、与李白对诗、玩诗词小游戏,还能进入珍宝馆欣赏诗画,体验古文明与AI结合的沉浸感。

Berryxia.AI: 🔥我尼玛,兄弟们,这下真的是爆肝了。 已经开源在GitHub了,记得Star一波啊! 我肝了2周+花费了800刀干出来的项目~😭 自己可以真实去体验,文旅馆的真的都可以搞一搞! 一个用 3D 渲染技术three.JS 搭起来的盛唐长安互...

多模态开源/仓库语音
5月31日
10:14
向阳乔木@vista8
49
只需提供一个Suno歌曲的URL,用Codex自动生成音乐MTV。 Codex自动调用生图、组织画面、生成对齐的歌词。 Skill等继续完善后就可以开源了。
MCP/工具多模态开源/仓库视频
09:45
小互@xiaohu
73
用户开发的"中文小黑怪诞"正文配图生成 Skill,在 GitHub 周榜上位列第二。该项目原本是为自己 Notion 文档生成配图而开发,特点是 16:9 比例、白底手绘风格,并带少量红、橙、蓝三色批注。用户发现该项目意外上榜后,表达了对排名的惊喜与再接再厉的心情。

Ian (伊恩): 我的天!我的 Skill 在 GitHub 本周排第二啦! 刚刷到藏师傅项目冲到第一,我点进去一看,笑死,我这个也在榜上,排第二 就是这个中文小黑怪诞正文配图生成 Skill: http://github.com/helloianneo/i...

GitHub图像生成开源/仓库
08:44
向阳乔木@vista8
73
GEO公开课首期举办,全套资料开放获取

首期GEO公开课于上周末直播,由姚老师主讲,吸引了飞书和视频号数千人在线参与。课后已将直播PPT、免费开源的GEOflow系统及全部提示词等干货资源在评论区开放分享。

开源/仓库开源生态搜索
07:43
宝玉@dotey
61
开源工具Sandcastle:编排多AI智能体协同工作流程

Sandcastle是由@mattpocockuk开源的一个TypeScript工具,允许用户通过脚本编排Workflow,在虚拟机中协同调用Codex、Claude Code、Cursor、GitHub Copilot等多个AI智能体来完成复杂任务。它定位为面向追求极致效率场景的极客工具,适用于需要多智能体协作或“赛博养蛊”式的任务,例如让各智能体分别生成技术方案再相互评审完善。

Matt Pocock: I built my own software factory, and I open-sourced it. It's called Sandcastle. Here's how to use it:

智能体MCP/工具开源/仓库
05:43
OpenClaw🦞@openclaw
58
OpenClaw 2026.5.28 已上线 🧠 支持 Claude Opus 4.8 🎨 通过 fal 支持 Krea 图像模型 ⚡ 更快的 Gateway/插件/会话热路径 💬 Discord 进度草稿现在显示评论 更锐利的模型,更活跃的运行。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.28
Anthropic产品更新开源/仓库
00:34
Berryxia.AI@berryxia
71
阶跃星辰 Step 3.7 Flash 模型成功移植到 mlx-vlm 项目

Ivan Fioravanti 在 mlx-vlm 项目中成功将阶跃星辰的 Step 3.7 Flash 模型移植到 MLX 框架,实现了视觉理解和文本生成。测试表明,该模型的 4bit 量化版本在 128GB Apple Silicon Mac 上支持 32K 上下文,生成速度超过 53 tokens/s。对截图的分析也准确高效。这意味着高质量的本地多模态 AI 能力可以在个人 Mac 上运行,兼顾了隐私与性能。

Ivan Fioravanti ᯅ: Step 3.7 Flash support added to mlx-vlm! 🚀 ✅ Conversion to MLX ✅ Vision ✅ Text This model is ultra fast! I'm gonna publ...

多模态开源/仓库端侧
5月30日
19:11
StepFun@StepFun_ai
62
小即是美。😌

Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 - ∞): I've been waiting for this! They managed to do it before June, and they open sourced it right away! @antirez I've been s...

多模态开源/仓库模型发布端侧
18:42
歸藏(guizang.ai)@op7418
70
GitHub周榜第一:社交媒体卡片Skill

一个名为“guizang-social-card-skill”的社交媒体卡片技能,在GitHub本周新建项目Star排名中冲到了第一名。作者通过群友发现自己的项目登顶,并亲自确认了这一成绩。

歸藏(guizang.ai): http://x.com/i/article/2059811469081141248

开源/仓库
12:41
向阳乔木@vista8
62
推文宣布了与姚老师合作举办的GEO公开课。姚老师将主讲GEO的底层逻辑、方法、系统原理及理念,并分享一系列核心资源,包括GEOFlow系统、用于创建技能的元Skill、17套GEO Skill合集,以及收录41篇最新论文的资料库。此外,分享内容还涵盖《GEO到底是什么》等多篇白皮书、红皮书、蓝皮书及AI营销提示词合集。该公开课将通过WaytoAGI进行直播,另一位主讲人将负责AI工具与模型相关的问答环节。

姚金刚: 今晚八点,会通过WaytoAGI做第一场GEO直播分享,会把GEO的底层逻辑、方法、系统原理及理念做一轮讲解,相关的一些资料和系统如下,分享给大家: 1、GEOFlow,今晚主讲的系统和背后的GEO原理 https://github.com...

开源/仓库搜索教程/实践
06:42
ginobefun@hongming731
精选78
claude-design-card 是一款专为中文内容创作者设计的 Skill。它能将文字、URL 或文章直接转化为可发布的视觉卡片,如公众号首图、小红书图文卡、教程步骤卡等,支持 28 种布局与 10 种主题。其核心价值在于自动化了"写完文章"后最繁琐的流程:自动提炼重点、选择版式、生成 HTML 并截图成 PNG,替代了以往手动使用 Figma 或 Canva 等工具的步骤。该工具开源,适合经常撰写相关内容的创作者尝试。

撸毛吃猪脚饭: 昨天那个 md2wechat-skill 很多人收藏 今天再分享一个很适合中文创作者的 Skill:claude-design-card。 它可以把一段文字、一个 URL、一篇文章,直接生成能发出去的视觉卡片,比如公众号首图、小红书图文卡、...

GitHub图像生成开源/仓库

推荐理由:这个 Skill 把内容创作者最烦的「写文→排卡片→出图」流程直接打通了,28 种布局一键生成,做公众号和小红书的可以立刻收藏,关键不是好看是真省时间。
00:15
AK@_akhaliq
69
minWM 一个用于实时交互视频世界模型的全栈开源框架
开源/仓库开源生态视频
5月29日
23:34
Berryxia.AI@berryxia
66
这是一个用Three.js搭建的盛唐长安3D互动世界,接入Agora技能实现核心实时语音交互功能。用户可与NPC对话、与李白对诗、玩诗词小游戏,并参观珍宝馆和AI展馆。开发者耗时两周、花费800刀完成,现已开源。

Berryxia.AI: 🔥我尼玛,兄弟们,这下真的是爆肝了。 已经开源在GitHub了,记得Star一波啊! 我肝了2周+花费了800刀干出来的项目~😭 自己可以真实去体验,文旅馆的真的都可以搞一搞! 一个用 3D 渲染技术three.JS 搭起来的盛唐长安互...

多模态开源/仓库语音
22:34
Berryxia.AI@berryxia
68
开源项目:Three.js打造3D盛唐长安互动世界

作者开源了一个使用3D渲染技术Three.js搭建的盛唐长安互动世界项目。项目核心功能是接入Agora Skills,实现了实时语音互动。用户可以在虚拟世界中与NPC对话、与李白对诗、玩诗词小游戏、进入珍宝馆欣赏诗画,以及逛AI展馆体验古今融合。作者透露该项目花费了2周开发时间及800美元成本,现已托管在GitHub上并开放体验。

多模态开源/仓库语音
21:34
AYi@AYi_AInotes
14
本文探讨"以术入道"的AI使用哲学。作者将AI工具分为两类:自主运行的Agent型(如Claude Code),和需人工逐步判断的"实习生型"(如Cursor)。后者是培养用户判断力的关键,但受限于必须在场的瓶颈。文中介绍了网易的免费远程软件UU远程,它允许用户通过手机连接Mac运行Cursor,实现低延迟操作,包括原生终端支持,从而打破了物理距离的限制。作者认为,AI发展的当前阶段,更需要这种能随时与AI协同思考的连接方式。

AYi: 今天,把一件关于 AI 很底层的事,彻底想透了。 使用 AI 的最佳方式是以道御术,但前提是你得先以术入道。 就像黄仁勋说的--真正会用 AI 的人,都是极高认知的提问者,带着自己的认知去提问,让 AI 帮你叩开未知的边界,而不是让它替你思...

其他开源/仓库教程/实践
‹ 上一页
1…45678…14
下一页 ›