M3 on Cloudflare AI Gateway, day one ⚡ Frontier coding, 1M context, and native multimodal and now just one fetch away. It is time to build something. 🦞

译M3 on Cloudflare AI Gateway, day one ⚡ 前沿编码能力，1M 上下文，原生多模态，现在一次 fetch 即可调用。是时候构建些东西了。 🦞

Google AI Developers@googleaidevs · 6月2日54

From Google I/O to building real world solutions in one weekend. Always inspired by the energy of this community!

译在Google I/O大会后，开发者社区与Google DeepMind在旧金山合作，利用最新的Gemini和Gemma能力（特别是Gemini 3.5 Flash）构建实际产品。活动展示了利用Gemini 3.5 Flash开发多模态智能体、语音接口和长期推理系统等应用的可能性。

fofr@fofrAI · 6月2日33

Revisiting an old gem with Omni

译用 Omni 重访一个旧作。

Chubby♨️@kimmonismus · 6月2日79

Qwen3.7 plus released. Looks good, but why do they compare their models to GPT-5.4 and Opus 4.6? Anyways, multimodal as well

译阿里云通义千问（Qwen3.7-Plus）正式发布。这是一个统一视觉与语言的多模态智能体基础模型，其核心功能包括：支持GUI与CLI操作的交互式混合智能体、全能编码助手与生产力工具、具备感知、推理、定位及搜索增强能力的视觉智能体，并可跨主流智能体框架泛化。该模型现已通过阿里云模型工作室提供API。发布推文中提到的与GPT-5.4及Opus 4.6的比较，在用户侧引发了对其对标产品的讨论。

MiniMax (official)@MiniMax_AI · 6月2日55

napkin sketch → playable game for $0.028 😳 this is the kind of thing M3 was built for @atomic_chat_hq

译草图 → 可玩游戏，仅花 $0.028 😳 这正是 M3 的设计初衷 @atomic_chat_hq

MiniMax (official)@MiniMax_AI · 6月2日69

messy, multimodal, too large for a normal chat? M3 handles it 🫡 @happycapyai

译MiniMax M3现已在Happycapy上线，主要升级在于处理复杂、多模态、大规模任务的能力。该模型支持原生多模态输入，包括PDF、视频、图像、截图及长文档，并在编程和智能体任务（如仓库级调试、问题追踪）上表现较强。此外，M3采用开源权重，价格约为Sonnet的三分之一。

Qwen@Alibaba_Qwen · 6月2日83

👏👏 Introducing Qwen3.7-Plus — a multimodal agent model that unifies vision and language into one versatile agent foundation. ✅ Multimodal interactive hybrid agent: unified GUI & CLI operation across visual and text tasks ✅ Versatile coding agent & productivity assistant with full-modality input ✅ Visual Agent: perception, reasoning, grounding, and search-augmented QA ✅ Cross-harness generalization across diverse agent frameworks One model. Sees, thinks, codes, acts.🙌🙌 Now available via API on Alibaba Cloud Model Studio. Try it — let us know what you build.😎 🔗🔗⬇️⬇️ Blog：https://qwen.ai/blog?id=qwen3.7-plus Qwen Studio：https://chat.qwen.ai/?models=qwen3.7-plus API：https://modelstudio.console.alibabacloud.com/ap-southeast-1?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3.7-plus&serviceSite=international

译通义千问推出 Qwen3.7-Plus，这是一款统一视觉与语言能力的多模态智能体模型。它支持图形界面与命令行混合操作，可作为多功能编码智能体与生产力助手，并具备视觉感知、推理、定位与搜索增强问答能力。该模型设计为可跨多种智能体框架泛化。现在可通过阿里云百炼平台的 API 使用。

MiniMax (official)@MiniMax_AI · 6月2日78

this is what model-and-agent alignment looks like 🤝 @SimularAI

译这就是模型与智能体对齐的样子 🤝 @SimularAI

MiniMax (official)@MiniMax_AI · 6月2日76

day 0 launch partner energy 🔥 @Qubrid_AI is offering 50% off for early adopters. go run it!

译MiniMax的M3模型现已在Qubrid AI平台上线。该模型具备100万token上下文、原生多模态、前沿的代码性能，并支持长期智能体工作流，被评为年度技术上最有趣的开放权重模型之一。Qubrid AI作为首发合作伙伴，为早期用户提供50%的折扣。

Artificial Analysis@ArtificialAnlys · 6月2日77

NVIDIA's Cosmos 3 lands at #1 among open weights models in both Text to Image and Image to Video on the Artificial Analysis Leaderboards! Cosmos 3 is a family of omnimodal world models for Physical AI from @nvidia, unifying language, image, video, audio and action in a single Mixture-of-Transformers architecture that pairs an autoregressive reasoner with a diffusion generator. The family comes in four variants: base Nano (16B: 8B reasoner tower + 8B generator tower) and Super (64B: 32B reasoner tower + 32B generator tower) models, with the Super model also having Text2Image and Image2Video fine-tuned variants, which are the versions listed in the Artificial Analysis Arena Leaderboards. Cosmos3-Super-Text2Image (agentic) runs through an agentic prompt-upsampling harness, and takes the #1 open weights spot in Text to Image, surpassing HiDream-O1-Image-Dev-2604, Alibaba's Qwen Image Max 2512 and Black Forest Labs' FLUX.2 [dev]. Cosmos3-Super-Image2Video takes #1 open weights in Image to Video (No Audio), ahead of Lightricks' LTX-2, and Alibaba's Wan 2.2 A14B. Cosmos 3 generators take structured JSON prompts rather than plain text, so prompt upsampling is needed to reproduce these results. This upsampling can be handled by an external harness or by the model's own reasoner branch, so it can also run self-contained. Cosmos 3 is fully open under the OpenMDW 1.1 license, shipping with weights, code, curated datasets and fine-tuning recipes available on @huggingface. First-party and third-party APIs are expected over the next few weeks, with pricing to follow. See the thread below for example generations and a link to try Cosmos 3 in our arena 🧵

译NVIDIA 的 Cosmos 3 全模态世界模型在 Artificial Analysis 排行榜的开放权重类别中，同时夺得文本生成图像和图像生成视频两项第一。该模型基于 Mixture-of-Transformers 架构，结合自回归推理器与扩散生成器，提供 16B 参数的 Nano 和 64B 参数的 Super 等变体。其中，Cosmos3-Super-Text2Image 与 Cosmos3-Super-Image2Video 版本分别超越了 HiDream-O1-Image-Dev-2604、通义千问（Qwen）Image Max 2512、FLUX.2 [dev] 以及 LTX-2、万相（Wan）2.2 A14B 等模型。Cosmos 3 的生成器接受结构化 JSON 提示词，可通过外部工具或模型自身的推理器分支进行提示词上采样。该模型完全开源，采用 OpenMDW 1.1 许可，提供权重、代码、精选数据集和微调方案。

Chubby♨️@kimmonismus · 6月2日82

MiniMax just dropped M3! It hits 59% on SWE-Bench Pro, edging out GPT-5.5 (58.6%) and beating Gemini 3.1 Pro (54.2%). Trails Opus 4.7 on coding, but leads it on autonomous browsing at 83.5% on BrowseComp. First open model to pack frontier coding, a 1M-token context, and native multimodality into one system. I mean, let that sink in: Roughly 12x cheaper per token than GPT-5.5, with weights and a full tech report promised in about 10 days.

译MiniMax发布开源模型M3，它是首个将前沿编码能力、1M token上下文窗口与原生多模态集成于单一系统的开源模型。M3在SWE-Bench Pro上得分为59.0%，略高于GPT-5.5（58.6%）与Gemini 3.1 Pro（54.2%）；在BrowseComp自主浏览任务中以83.5%领先Opus 4.7。此外，模型在Terminal Bench 2.1（66.0%）、MCP Atlas（74.2%）等基准上表现优异。其每token成本约为GPT-5.5的十二分之一，模型权重及技术报告预计在10天后发布。

🚨 AI News | TestingCatalog@testingcatalog · 6月1日58

MiniMax M3 is now live inside Atomic Chat 👀 Atomic tested M3 on a task to read a hand-drawn napkin sketch, write the game logic, build the UI, and ship a playable HTML platformer in one pass. All this for $0.028 🤖

译MiniMax M3模型现已集成至Atomic Chat。在一项测试中，Atomic Chat使用M3模型读取了一张手绘的涂鸦风格平台跳跃游戏草图，并一次性完成了游戏逻辑编写、界面绘制以及最终交付一个可运行的独立HTML游戏。测试数据显示，该任务消耗输入6,920模型token，生成输出9,933模型token，总成本仅为$0.028。此外，MiniMax计划于下周在HuggingFace发布M3模型。

SiliconFlow@SiliconFlowAI · 6月1日79

Coding like Opus4.7 / 1M context window / Native multimodal @MiniMax_AI M3 is now on SiliconFlow with day-0 support 🔥 🎉 Limited-time 50% off for 7 days Cache / Input / Output: $0.06 / $0.30 / $1.20 per 1M tokens (Regular: $0.12 / $0.60 / $2.40) M3 is the first open-source model combining all three frontier capabilities: → Coding & Agentic: beats GPT-5.5 and Gemini 3.1 Pro on SWE-Bench Pro → 1M context via MiniMax Sparse Attention → Native multimodal from step zero — image, video & computer use Try it on SiliconFlow ⬇️

译MiniMax M3 现已在 SiliconFlow 平台上线，并提供限时7天的50%折扣。定价为：缓存 $0.06、输入 $0.30、输出 $1.20（每百万 token）。M3 是首个同时具备三大前沿能力的开源模型：一是编码与智能体能力，在 SWE-Bench Pro 评测中击败了 GPT-5.5 和 Gemini 3.1 Pro；二是支持 100万 token 上下文窗口（通过 MiniMax Sparse Attention 技术实现）；三是具备原生多模态能力，支持图像、视频与计算机操作。

MiniMax (official)@MiniMax_AI · 6月1日73

1. Video control + gaming + M3 2. Open weights + massive context ++ strong coding 3. Canceling my weekend plans now

译1. 视频控制 + 游戏 + M3 2. 开放权重 + 海量上下文 + 强编码能力 3. 现在就取消我的周末计划 [引用 @MinLiBuilds]：跟祖传的 20K context 说 bye bye 了。 MiniMax M3 发布了，三个亮点： 1M context、原生多模态、Agentic。我这次做了一次完整评测，使用CC workflow 、 @ZenMuxAI和MiniMax M3：给一张截图，做一个“凡人修仙剑阵对决手势游戏”。要求是：支持双人对决、使用 workflow 拆解任务、加入石头剪刀布机制。 2 小时后，游戏真的跑起来了。这一代LLM的版本答案我知道了： 1M 上下文 + 多模态+ agent 模式。 1M context 是推理深度的基础，多 agent 负责拆任务和执行。

小互@xiaohu · 6月1日53

OpenAI Voice Hack Night 上一个团队的现场 demo 为手机做的 "agentic 操作系统" 这个应该是我们大家都向往的AI助理形态，而且也是会颠覆手机商业模式的一种全新形态因为演示的所有界面都是「即时生成」的，无需调用任何APP界面，也就是苹果的App Store商业模式要完蛋了... 核心思路是是「UI 即系统」：手机没有传统 app，界面由端侧本地模型实时生成(on the fly)，重推理甩给云端 GPT。开发者全程用语音指挥它订机票、删日历日程、查 AI 新闻、发邮件、列待办。中途还翻了车(发邮件因"登录没配置"失败)...

译OpenAI Voice Hack Night现场演示了为手机设计的“AI智能体操作系统”。其核心思路是“UI即系统”——手机没有传统App，界面由端侧本地模型实时生成，复杂推理任务由云端GPT处理。演示中开发者全程语音指挥完成订机票、删日历、查AI新闻、发邮件等操作，但中途因“登录未配置”导致发邮件失败。该演示展示了无需调用App界面的交互形式，可能颠覆传统移动应用生态和商业模式。

MiniMax (official)@MiniMax_AI · 6月1日47

One shot. Through @opencode. By M3.

译用户@stevibe展示了MiniMax M3模型的能力。他仅提供了一张90年代风格旧网页的截图和相关素材文件，没有提供HTML源代码，要求通过OpenCode工具将网站一次性重建为现代Apple风格。模型成功在一次尝试中完成了任务，生成的网页保留了原始页面的标识和核心元素，并以现代化的渐变设计、排版和深色主题重新呈现，效果被评价为“真正令人惊叹”。

MiniMax (official)@MiniMax_AI · 6月1日77

M3 live on @novita_labs 🔥 it's time to build (50% off the first week 👀)

译MiniMax M3 模型现已在 Novita AI 平台上线，并提供首周半价优惠。作为首个开源权重模型，它集成了前沿编码与智能体能力，在 SWE-Bench Pro 上得分 59.0%，Terminal Bench 2.1 上得分 66.0%，MCP Atlas 上得分 74.2%。该模型上下文窗口最高可达 1M tokens，由 MiniMax Sparse Attention 技术支持，并从一开始即支持原生多模态，可处理文本与视觉理解任务。Novita AI 作为其 Day-0 API 发布合作伙伴，为开发者提供接入服务。

Berryxia.AI@berryxia · 6月1日71

刚刚在Hugging Face刷新模型时，看到KwaiKeye放出了Keye VL 2.0-30B-A3B。这个多模态模型总参数30B，活跃参数只有3B，Apache 2.0完全开源。它直接用DeepSeek Sparse Attention实现了256K上下文。最有意思的是视频理解部分的表现。你喂给它的帧数越多，模型准确率反而稳步上升。这和我们以前觉得长视频容易让模型迷失的直觉完全相反。它在多个长视频基准上已经和Qwen3 VL、Gemini 3 Flash打成平手。以前大家总觉得多模态模型要么上下文够长，要么理解够深，二者很难兼得。现在KwaiKeye把稀疏注意力真正落地，把这两件事同时推到一个新水平。实际效果如何，后面看看真实case册书。

译KwaiKeye开源了多模态大模型Keye VL 2.0-30B-A3B，采用Apache 2.0许可。该模型总参数为30B，但仅激活3B参数。其核心亮点是通过DeepSeek稀疏注意力技术实现了256K的上下文长度。该模型的视频理解能力表现出一个反直觉的特性：喂入的帧数越多，其准确率反而持续上升。在基准测试中，其表现已与Qwen3 VL、Gemini 3 Flash等模型相当。

歸藏(guizang.ai)@op7418 · 6月1日76

MiniMax 这次终于发布了他们的大版本号模型升级 MiniMax M3。主要是三个核心能力： 1. 标配了 1M 的超长上下文 2. 采用新的 MSA（MoE with Segment-wise Attention）稀疏注意力架构 3. 从训练起就融合了原生多模态能力，包括强化了文本、图片、视频和桌面操作这些多模态的训练。 MSA 超上下文在算力和速度上更可落地，在 100 万上下文下每 token 计算量只有上一代的约 1/20。。所以他们这一次的价格也比较给力，Token Plan 更新了新的价格。在 API 上，小于512k 的 API 现在有为期 7 天的限时五折。

译MiniMax 发布了其大版本号模型升级 MiniMax M3。该模型标配 1M 超长上下文，采用新的 MSA（MoE with Segment-wise Attention）稀疏注意力架构，在 100 万上下文下每 token 计算量降至约上一代的 1/20。M3 从训练起即融合了原生多模态能力。在基准测试中，其取得了 SWE-Bench Pro 59.0%、Terminal Bench 2.1 66.0%、MCP Atlas 74.2% 等成绩。此外，其 API 推出小于 512k 调用的限时七天五折优惠。模型权重与技术报告预计约 10 天后发布。

Berryxia.AI@berryxia · 6月1日40

这不是视频生成模型，是一个持久化、多人协作的世界模型。核心突破是把「世界状态」与「视觉渲染」彻底解耦：世界不再是一帧帧画面，而是持续运行、可被用户修改、能从任意视角稳定观测的结构化环境。这可能是目前最接近「可交互持久世界」的尝试。

译该推文介绍了一种新型“持久化、多人协作的世界模型”，明确强调其并非传统的视频生成模型。其核心突破在于将“世界状态”与“视觉渲染”彻底解耦。这使得世界不再是一系列连续画面，而是一个可持续运行、允许用户修改、并可从任意视角进行稳定观测的结构化环境。作者认为，这可能是目前最接近实现“可交互持久世界”的技术尝试。

🚨 AI News | TestingCatalog@testingcatalog · 6月1日80

MINIMAX 🔥: A new open-weights model, MiniMax M3, has been released to the public on APIs and MiniMax Agent. MiniMax M3 scores 59% on SWE Bench Pro (on par with GPT-5.5), supports a 1M context window via MiniMax Sparse Attention, and is natively multimodal. MiniMax Agent Updates 👀 > Meet M3: Our most intelligent and responsive model designed to handle any task. > Persistent Memory: Your Agent remembers what you've shared, so you never have to repeat yourself. > Evolving Skills: It learns as you collaborate, turning complex tasks into skills made just for you. > Unified Billing: Fully integrated with Token Plan for a smoother, more consistent experience.

译MiniMax发布了新开源权重模型M3，现已通过API和MiniMax Agent提供服务。该模型在SWE-Bench Pro上得分59.0%，在Terminal Bench 2.1上得分66.0%，并支持高达1M的上下文窗口。同时，MiniMax Agent更新了持久记忆与进化技能等能力。此外，MiniMax Code也已发布，模型权重与技术报告将在约10天后公开。

Berryxia.AI@berryxia · 6月1日74

用2周用Three.js + 实时语音AI，把盛唐长安做成了能走进去对话的3D世界如果你能走进一座会说话的盛唐长安城，和李白对诗、让AI导游带路、在天枢府听智机使讲解，会是什么体验？我们花两周高强度开发，把这个想法做成了一个可在线玩、可开源复用的浏览器3D互动项目。在线体验：https://andyhuo520.github.io/tang-changan/ GitHub开源：https://github.com/andyhuo520/tang-changan 项目核心亮点： - 用WASD真正“走进”长安城，而不是只能转相机看模型 - 真实语音对话：按住麦克风就能和李白、杜甫、智机使聊天 - 融合诗词小游戏、珍宝馆、AI展馆，把历史和AI能力变成可玩体验 - 全开源，普通创作者和初学者也能复刻学习整个项目从一个朴素想法开始：把盛唐长安做成一个可漫游、可对话、可游戏、可展示AI能力的3D世界。开发过程分为9个阶段，我把最关键的干货和踩坑经验都写出来了： 1. 先搭出一个能看的低多边形长安沙盘（Three.js核心搭建） 2. 加入WASD游戏模式，让玩家真正“走进”长安。 3. 添加大量NPC和小游戏（飞花令、对对联、猜谜等唐风玩法） 4. 打造珍宝馆、诗画展厅，把文化内容变成可互动展厅。 5. 把AI品牌做成唐风“天枢府 / AI展馆”，让现代AI出现在盛唐场景里 6. 接入Agora实时语音Agent，实现真正的语音对话（最难也最核心的部分）。 7. 加上角色头像、视频面板、古风BGM，提升沉浸感 8. 解决3D尺度、浏览器缓存、语音账号等常见坑 9. 最终部署到GitHub Pages，让任何人一键体验语音部分我们用了Agora ConvoAI + Persona设计，每个NPC（李白、杜甫、王维、智机使等）都有独立性格、音色和对话风格，不是千篇一律的机器人。普通用户直接点链接就能玩： WASD移动 → 靠近NPC按E对话 → 进入展馆互动 → 语音聊天开发者想复刻也很友好：代码模块化清晰，前端Three.js + 后端FastAPI分开，文档和踩坑记录都很完整。我们最终做到的不是一个普通的3D展示页，而是一个小型数字文旅 + AI能力样板：把历史文化游戏化，把AI能力场景化，把开源项目做成能真正分享的作品。想体验盛唐长安的AI版吗？点链接进去试试，和李白用语音对一句诗，或者让智机使给你讲解实时语音技术。感兴趣的朋友欢迎点赞、评论你最想玩的环节，或者直接去GitHub看代码复刻。 #Threejs

译开发者使用Three.js，耗时两周构建了可在线体验的盛唐长安3D互动项目。核心功能包括通过WASD模式在城市场景中自由漫游，并接入Agora ConvoAI实时语音Agent，使用户能与李白、杜甫等NPC进行真实语音对话。项目还融合了飞花令等诗词小游戏及AI展馆，将历史文化与AI能力场景化结合。该开源项目（GitHub Pages）代码结构清晰，旨在为创作者提供一个可复用的数字文旅样板。

MiniMax (official)@MiniMax_AI · 6月1日72

@cline put it well 🔥 sparse attention cutting compute to 1/20th the previous gen. Try it for free on Cline right now

译@cline 说得好 🔥 稀疏注意力将计算量降至前代的1/20。现在可以在 Cline 上免费试用。

MiniMax (official)@MiniMax_AI · 6月1日78

let's gooo 🔥 M3 + @visionagents_ai for real-time voice & video go build something hype!

译出发吧🔥 M3 + @visionagents_ai 实现实时语音与视频去构建些令人兴奋的东西吧！ [引用 @visionagents_ai]：祝贺 @MiniMax_AI 团队发布 M3！ 👉 一款前沿级开源权重模型 👉 100万 token 上下文窗口 👉 原生多模态（图像与视频）

MiniMax (official)@MiniMax_AI · 6月1日76

M3 on @OpenRouter same day we dropped it 🔥. 1M context, frontier coding + agentic, native multimodal. 50% off the first week.

译M3在我们发布当天就登陆了OpenRouter 🔥。 100万token上下文，前沿编码+智能体能力，原生多模态。首周半价。

MiniMax (official)@MiniMax_AI · 6月1日71

M3 on @AskVenice, available anonymously 🔥 open-weight, frontier coding + agentic, 1M context, native multimodal. Live on day one

译M3现已在@AskVenice上线，支持匿名使用🔥 开源权重，前沿编码与智能体能力，1M上下文，原生多模态。首日即上线

OpenRouter@OpenRouter · 6月1日79

MiniMax-M3 is live on OpenRouter! A frontier-class open-weight model that combines a 1M-token context window, frontier coding and agentic performance, and native multimodality (image & video) in one model.

译MiniMax-M3现已在OpenRouter上线！一款前沿级开源权重模型，结合了1M-token上下文窗口、前沿的编码和智能体性能，以及原生多模态（图像与视频）能力。

Orange AI@oran_ge · 6月1日45

为她做一个游戏可能是最好的儿童节礼物

译一位开发者使用AI工作流平台ColaOS，在两周时间内为女儿制作了一款哈利波特主题的专属游戏。整个流程涵盖了故事生成、剧本创作、分镜设计、人物与场景图像生成、转场视频、音效及鼠标特效等完整环节。游戏设计了5种结局，包含收集物品解锁成就及开启下一故事彩蛋的机制。

MiniMax (official)@MiniMax_AI · 6月1日79

Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities - Coding & Agentic Frontier: 59.0% SWE-Bench Pro, 66.0% Terminal Bench 2.1, 34.8% SWE-fficiency, 28.8% KernelBench Hard, 74.2% MCP Atlas - MiniMax Sparse Attention scales context to 1M - Natively Multimodal from Step Zero API: http://platform.minimax.io Token Plan: https://platform.minimax.io/subscribe/token-plan 🚀New! MiniMax Code: http://code.minimax.io Weights & Tech Report in ~10 Days

译介绍 MiniMax M3：首个融合三大前沿能力的开源权重模型 - 编码与智能体前沿：59.0% SWE-Bench Pro，66.0% Terminal Bench 2.1，34.8% SWE-fficiency，28.8% KernelBench Hard，74.2% MCP Atlas - MiniMax Sparse Attention 将上下文窗口扩展至 1M - 从零开始原生多模态 API：http://platform.minimax.io Token 计划：https://platform.minimax.io/subscribe/token-plan 🚀新！MiniMax Code：http://code.minimax.io 权重与技术报告将在约 10 天内发布

Berryxia.AI@berryxia · 6月1日63

兄弟们，讲真！那些让你每个月付费的AI工具、Bloomberg终端、交易系统、视频工作室，其实是资本用来维持稳定收入的机制。大家还在继续订阅OpenAI、HeyGen、Bloomberg吗？ GitHub上已经有10个开源项目，完全可以替代这些付费产品。它们免费、功能强大、支持自托管，并且让你完全掌握自己的数据和控制权。 1. AutoHedge：四个AI代理组成自主对冲基金，在Solana上实时交易，pip install即可运行 → https://github.com/The-Swarm-Corporation/AutoHedge 2. Vibe-Trading：64个金融技能加29个专家代理群，使用DAG模型实时讨论策略，包含清算热图和代币解锁追踪 → https://github.com/HKUDS/Vibe-Trading 3. Fincept Terminal：笔记本上运行的Bloomberg替代品，提供CFA级别分析以及巴菲特、达里奥、索罗斯等20多位投资大佬的AI代理，连接100多个数据源 → https://github.com/Fincept-Corporation/FinceptTerminal 4. LibreChat：自托管版ChatGPT+Claude+Gemini+DeepSeek等20多个模型，你的数据和历史全部保留在本地 → https://github.com/danny-avila/LibreChat 5. Open Higgsfield AI：自托管电影工作室，把Flux、Midjourney、Sora、Kling、Veo、GPT-4o全部集成进去，支持文本生图、图生视频，本地运行 → https://github.com/Anil-matcha/Open-Higgsfield-AI 6. Open-LLM-VTuber：开源AI虚拟主播，直接本地部署 → https://github.com/Open-LLM-VTuber/Open-LLM-VTuber 7. Claude Ads：Claude一键生成广告素材工具 → https://github.com/AgriciDaniel/claude-ads 8. Agentic Inbox：AI直接帮你管理邮箱，自动处理邮件 → https://github.com/cloudflare/agentic-inbox 9. Camofox Browser：无头浏览器，让AI代理完全隐身操作 → https://github.com/jo-inc/camofox-browser 10. Hyperframes：AI直接写HTML生成专业视频 → https://github.com/heygen-com/hyperframes 我们一直以为AI变革来自估值百亿的大公司。然而GitHub上的这些开源项目正在把机构级工具直接交给普通人。

译该推文指出，许多付费的AI工具和专业软件（如Bloomberg）是资本维持收入的机制。GitHub上已有10个开源项目可替代它们，提供免费、功能强大且支持自托管的选项。示例包括：AutoHedge（自主交易代理）、Vibe-Trading（金融技能与代理系统）、Fincept Terminal（Bloomberg替代品）、LibreChat（多模型聊天）以及Open Higgsfield AI（电影工作室）等。这些项目让用户能完全掌控自己的数据和控制权，将原本昂贵的订阅服务免费提供给普通人。

Berryxia.AI@berryxia · 6月1日62

Spent 2 weeks vibe coding a real-time voice interactive mini-game set in an ancient Chinese hall using Claude model and Three.js.

译一个用Claude模型和Three.js搭建的盛唐长安实时语音互动小游戏已开源。项目由个人开发者耗时2周、花费800刀完成，通过Agora Skills实现实时语音交互。玩家可在其中与NPC对话、与李白对诗、玩诗词小游戏，还能进入珍宝馆欣赏诗画，体验古文明与AI结合的沉浸感。

Odyssey@odysseyml · 5月31日50

Still deciding where to go first.

译还在决定首先去哪里。

StepFun@StepFun_ai · 5月31日80

A 198B vision model, running on a box that sits on a desk. This is what we built Step 3.7 Flash for. Brilliant breakdown @sudoingX — saved everyone a few hours of head-scratching 🎉

译阶跃星辰发布了Step 3.7 Flash，这是一款198B参数的视觉模型，旨在DGX Spark等桌面设备上运行。用户实测表明，128GB统一内存是运行门槛，模型占用约104GB。部署无需官方专用llama.cpp分支，主线版本即可。在上下文长度上存在权衡：启用视觉功能时，基于q8 KV cache的64K为上限；若要使用最高256K上下文，则需禁用视觉并切换至q4 KV cache，此时模型与缓存共占约114GB内存。该模型是推理模型，思考过程可能消耗大量max_tokens，需注意设置。

Greg Brockman@gdb · 5月31日58

GPT Realtime 2 unlocks some real magic:

译GPT Realtime 2 解锁了一些真正的魔法： GPT-Realtime 2.0 被严重低估了。演示：

向阳乔木@vista8 · 5月31日49

只需提供一个Suno歌曲的URL，用Codex自动生成音乐MTV。 Codex自动调用生图、组织画面、生成对齐的歌词。 Skill等继续完善后就可以开源了。

小互@xiaohu · 5月31日45

GPT-Realtime 2.0 实时语音接入AI 操控你的电脑这才是真正的Siri... 不过这么丝滑是接入的codex 还是什么？

🚨 AI News | TestingCatalog@testingcatalog · 5月31日62

BUILD 🔥: Microsoft is preparing new image and voice models for the announcement on June 2. > MAI Voice 2, a multilingual model supporting 15 news languages and a wider range of emotional spectrum (check voice samples in the article) > MAI Transcribe 1.5, a new model for speech-to-text use cases. > MAI Image 2.5, already announced last week, is now available on LM Arena in preview. Compared to MAI Image 2, it supports file uploads and can be used for image editing.

译BUILD 🔥: 微软正为 6 月 2 日的发布会准备新的图像和语音模型。 > MAI Voice 2，一个支持 15 种新闻语言和更广泛情感光谱的多语言模型（请在文章中查看语音样本） > MAI Transcribe 1.5，一个用于语音转文本用例的新模型。 > MAI Image 2.5，已于上周公布，现已在 LM Arena 上以预览版形式提供。与 MAI Image 2 相比，它支持文件上传，并可用于图像编辑。

🚨 AI News | TestingCatalog@testingcatalog · 5月31日40

ICYMI 👀: Top 3 things to expect from NotebookLM soon. 1. A new Canvas artifact, allowing users to visualize information from their sources as a web artifact. 2. Personal Preferences, grounding across past conversations, artifacts, and customization instructions 3. Connectors, with other Google services and potentially external apps as well. * All these features have been spotted earlier, just testing a recap format.

译ICYMI 👀：NotebookLM 即将推出的三大功能。 1. 全新的 Canvas 作品，允许用户将来源中的信息可视化为网页作品。 2. 个人偏好，基于过往对话、作品和自定义指令进行关联。 3. 连接器，与其他 Google 服务以及可能的外部应用相连。 * 所有这些功能此前已被发现，只是测试一种回顾格式。

Berryxia.AI@berryxia · 5月31日71

我今天刷到Ivan Fioravanti在mlx-vlm项目里的更新。 Step 3.7 Flash模型正式加进去了。转换到MLX之后，视觉理解和文本生成全部跑通。这个模型速度特别快。 4bit量化版本在128GB Apple Silicon机器上就能支持32K上下文。他直接在Mac Studio上测了benchmark，生成速度达到53 tokens/s以上。拿一张截图让它分析，模型把结构信息、关键元素提取得又快又准。以前我们总觉得高质量视觉语言任务必须靠云端。现在它把这种能力真正塞进了个人Mac。隐私、速度、零额外费用，全都兼顾到位。本地多模态AI又往前走了一步，真正能落地到日常项目里。

译Ivan Fioravanti 在 mlx-vlm 项目中成功将阶跃星辰的 Step 3.7 Flash 模型移植到 MLX 框架，实现了视觉理解和文本生成。测试表明，该模型的 4bit 量化版本在 128GB Apple Silicon Mac 上支持 32K 上下文，生成速度超过 53 tokens/s。对截图的分析也准确高效。这意味着高质量的本地多模态 AI 能力可以在个人 Mac 上运行，兼顾了隐私与性能。

StepFun@StepFun_ai · 5月30日67

Step 3.7 Flash, free for 30 days for Hermes Agent users. What could possibly go wrong? 🍿 Thanks @NousResearch for making it happen. Can’t wait to see what Hermes users build!

译Step 3.7 Flash，Hermes Agent 用户可免费使用 30 天。还能出什么问题？🍿 感谢 @NousResearch 促成此事。迫不及待想看 Hermes 用户们会构建出什么！