全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态X · 525 条

全部一手资讯 X 论文

标签「开源/仓库」清除

Peter Steinberger 🦞@steipete · 4月29日19

Will experiment with https://github.com/brunoborges/ghx since I constantly run into GitHub rate limit issues. Team there does the best to help and even moved us to Enterprise, still. Agents just HAMMER their API.

译我将试用 https://github.com/brunoborges/ghx，因为我经常遇到 GitHub 速率限制问题。那里的团队尽力提供帮助，甚至将我们迁移到企业版，但代理程序仍然猛烈冲击他们的 API。

Chubby♨️@kimmonismus · 4月29日51

Sigma: A fully private AI browser that runs agents locally on your machine. -No cloud. -No data leaving your device. -Open Source Qwen, Gemma, Nemotron – all running right in your browser. This is the direction browser AI should go!

译Sigma：一款完全私密的AI浏览器，可在您的设备上本地运行智能体。 -无需云端。 -数据不会离开您的设备。 -开源 Qwen、Gemma、Nemotron——全部直接在浏览器中运行。这才是浏览器AI应有的发展方向！ [引用 @Sigma_Browser]：搭载OpenClaw智能体的私密AI浏览器，基于免费本地模型运行在浏览器中直接使用Qwen、Gemma或Nemotron运行您的智能体开源。私密。在您的本地设备上运行

AK@_akhaliq · 4月29日59

Nvidia released Nemotron 3 Nano Omni made a gradio app for it on Hugging Face

译Nvidia发布了Nemotron 3 Nano Omni 在Hugging Face上为其制作了一个gradio应用

宝玉@dotey · 4月29日53

AI 终端工具 Warp 宣布客户端代码正式开源，采用 AGPL 协议，代码托管在 http://github.com/warpdotdev/warp。OpenAI 是这个开源仓库的创始赞助商。 Warp 是一个用 Rust 写的现代终端，目前有超过 70 万开发者在用。它最大的卖点是把 AI 能力直接塞进了终端，你可以用自然语言描述想做的事，它帮你生成命令。同时支持 Claude Code、Codex、Gemini CLI 等主流 AI 编程工具。这次开源有个很特别的地方：社区贡献的流程本身就是"AI 优先"的。Warp 自家的云端 AI 平台 Oz 负责干活，包括写代码、做规划、跑测试，社区成员主要负责提想法、定方向、做验证。简单说，人管方向，AI 干活，这是他们设想的未来软件开发模式。除了开源，Warp 同步上线了几个更新：支持更多开源模型，包括 Kimi、MiniMax、Qwen，还有一个自动路由模式帮你挑最合适的开源模型；终端界面可以按需定制，从纯终端到带 diff 视图和文件树的完整开发环境，丰俭由人；另外终于支持配置文件了，方便在不同设备间同步设置。需要注意的是，开源的只是客户端，服务端代码仍然闭源。 Warp 创始人 Zach Lloyd 说，五年前 Warp 刚上线时就计划开源，但一直犹豫。今年 AI Agent 的爆发让天平倾斜了，用他的话说，大量不同背景的贡献者加上 AI 代理的结构化流程，能做出比纯内部团队更好的产品。OpenAI 作为创始赞助商介入，意味着这套"人管 AI 干"的开源协作模式，会被当成一个行业实验来推。对开发者来说，如果你已经在用 Warp，现在可以直接去 GitHub 提 issue、参与讨论，甚至通过终端里新增的 /feedback 命令直接反馈。如果你之前因为闭源犹豫没用，现在少了一个顾虑。公开路线图显示 5 到 6 月的开发计划已经挂出来了。

译现代终端工具Warp宣布将其客户端代码在GitHub上以AGPL协议开源，OpenAI为创始赞助商。Warp核心特色是深度集成AI，允许用户用自然语言生成命令。此次开源的独特之处在于其“AI优先”的社区贡献流程：由Warp自研的AI平台Oz负责执行写代码、测试等具体工作，社区成员主要进行方向决策与验证，旨在探索未来软件开发新模式。同步更新包括支持更多开源模型、可定制化界面及配置文件同步功能。创始人表示，AI Agent的爆发是促使其开源的关键，希望结合广泛贡献者与AI代理打造更优产品。需注意，服务端代码仍保持闭源。

Ant Ling@AntLingAGI · 4月29日59

It was quite a journey from #elephantalpha 🐘to our release of the APIs on OpenRouter, to today we finally open sourcing our models on Hugging Face / ModelScope. Thanks to our launching partner @novita_labs, a pioneer and community builder 😼

译AntLingAGI宣布将其模型Ling-2.6-flash正式开源，该模型此前在OpenRouter平台上曾以“Elephant Alpha”为名提供API服务。目前，模型已在Hugging Face和ModelScope平台全面开放，供公众自由使用与构建。模型关键参数为总参数量1040亿，激活参数量74亿，在Artificial Analysis基准测试中输出速度约为每秒215个token，并支持BF16、FP8和INT4多种精度格式。此次开源得到了合作伙伴Novita Labs，以及lmsysorg的SGLang团队和vllm项目的技术支持。

宝玉@dotey · 4月29日51

试了下，还不错，但是还是有差距，claude design 产出物是 react 组件，界面美观，内容完善度挺高，交互做的很流畅，当前这个产出还是 HTML，只有个基本雏形，交互上差不少。不过作为开源项目，刚开始已经很不错了，还是有学习借鉴之处，可以看看👍

译作者试用Open Claude Design项目，肯定其作为开源项目的学习价值，项目宣称还原度超95%、代码量达18700+行。但当前产出仅为HTML雏形，在交互和完成度上与Claude Design原版的优美React组件相比仍有明显不足。

Ant Ling@AntLingAGI · 4月28日59

Ling-2.6-flash is now officially open-sourced! A fast, token-efficient Instruct model built for real-world agent workflows. 104B total parameters · 7.4B active parameters Available in BF16, FP8, and INT4 variants for different deployment needs. Key strengths: - Fast generation: 215 tokens/s on Artificial Analysis Output Speed - High token efficiency: only 15M tokens on the full AA Intelligence Index evaluation - Real task execution: strong performance across coding, document processing, and lightweight agent workflows - Improved experience: better Chinese-English switching and smoother compatibility with mainstream coding frameworks

译灵码2.6-flash模型现已开源，这是一个专为现实世界智能体工作流构建的快速、高效的指令模型。该模型总参数量达1040亿，激活参数量为74亿，并提供BF16、FP8和INT4多种量化版本以适应不同部署需求。其核心优势包括：生成速度高达每秒215个token，在完整评估中仅消耗1500万token，效率突出；在代码、文档处理和轻量级智能体工作流等实际任务中表现强劲；同时，其中英文切换能力及与主流编程框架的兼容性也得到了进一步改善。

SenseTime@SenseTime_AI · 4月28日59

𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗨1 𝗟𝗶𝘁𝗲 𝗦𝗲𝗿𝗶𝗲𝘀 𝗶𝘀 𝗻𝗼𝘄 𝗼𝗽𝗲𝗻 𝘀𝗼𝘂𝗿𝗰𝗲! Built on the 𝗡𝗘𝗢-𝘂𝗻𝗶𝗳𝘆 𝗮𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲, it natively unifies multimodal understanding and generation, delivering: •𝗦𝗢𝗧𝗔 𝗘𝗳𝗳𝗶𝗰𝗶𝗲𝗻𝗰𝘆 𝗔𝗺𝗼𝗻𝗴 𝗢𝗽𝗲𝗻-𝗦𝗼𝘂𝗿𝗰𝗲 𝗠𝗼𝗱𝗲𝗹𝘀: Compact models (8B & A3B) delivering commercial-grade performance and exceptional cost efficiency. Leading performance among open-source models across a wide range of understanding, reasoning, and generation benchmarks. •𝗡𝗮𝘁𝗶𝘃𝗲 𝗜𝗺𝗮𝗴𝗲–𝗧𝗲𝘅𝘁 𝗜𝗻𝘁𝗲𝗿𝗹𝗲𝗮𝘃𝗲𝗱 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻: Generate coherent interleaved text and images in a single flow using one model; ideal for practical applications like guides, where visuals turn complex information into intuitive insights. •𝗛𝗶𝗴𝗵-𝗗𝗲𝗻𝘀𝗶𝘁𝘆 𝗜𝗻𝗳𝗼𝗿𝗺𝗮𝘁𝗶𝗼𝗻 𝗥𝗲𝗻𝗱𝗲𝗿𝗶𝗻𝗴: Strong capabilities in dense visual communication, generating richly structured layouts for knowledge illustrations, posters, PPTs, comics and other information-rich formats. 𝗛𝘂𝗴𝗴𝗶𝗻𝗴 𝗙𝗮𝗰𝗲: https://huggingface.co/collections/sensenova/sensenova-u1 𝗚𝗶𝘁𝗛𝘂𝗯: https://github.com/OpenSenseNova/SenseNova-U1 𝗗𝗶𝘀𝗰𝗼𝗿𝗱: https://discord.gg/cxkwXWjp @huggingface @github

译SenseNova宣布开源其U1 Lite系列模型。该系列基于NEO-unify架构，原生统一了多模态理解与生成能力。其核心优势包括：在开源模型中具备领先的效率，紧凑的8B和A3B模型在保持商业级性能的同时实现了优异的成本效益；支持原生的图像-文本交织生成，单一模型即可在单次流程中生成连贯交织的图文内容，适用于制作指南等实用场景；并拥有高密度信息渲染能力，擅长为知识图解、海报、PPT、漫画等信息密集型格式生成结构丰富的版式。模型已在Hugging Face、GitHub等平台发布。

ChatGPT@ChatGPTapp · 4月28日42

🦝🧌👹🐦

译在 OpenAI Codex 的 GitHub 代码库中，其模型配置文件内的系统提示词被发现存在重复行。该指令明确要求模型避免谈论地精、小妖精、浣熊、巨魔、食人魔、鸽子或其他动物与虚构生物，除非与用户查询绝对且明确相关。这一重复的约束性提示引发了社区对其背后原因及模型训练细节的讨论。

Peter Steinberger 🦞@steipete · 4月28日35

Finally have great solutions for PR/Issue management, remote test execution, massive CI infra for testing. Streamlines a lot of the work.

译终于为PR/Issue管理、远程测试执行、用于测试的大规模CI基础设施找到了优秀的解决方案。简化了许多工作。

歸藏(guizang.ai)@op7418 · 4月28日60

我先看看能不能给 Codepilot 用户争取到免费的 Token 补贴

译作者表示将尝试为Codepilot用户争取免费的Token补贴。这一考虑基于小米MiMo -V2.5系列模型的开源动态，该模型采用MIT协议，允许自由商用、二次训练与微调。同时，小米推出了Orbit 100T Token计划，包含面向AI builder的“百万亿Token创造者激励计划”和面向Agent框架团队的“Agent生态共建计划”。激励计划为通过申请的用户提供Token支持，如最高16亿Credits。作者意图借鉴此机制为Codepilot社区谋取福利。

歸藏(guizang.ai)@op7418 · 4月28日74

小米 MiMo -V2.5 系列模型全部开源采用宽松的 MIT 协议，允许自由商用、二次训练与微调，无需额外授权。同时他们还推出了Orbit 100T Token 计划。这个太牛批了！如果你有自己 Vibe Coding 一些东西可以去领一下。包含两部分：分别是面向 AI builder 的『百万亿 Token 创造者激励计划』，与面向 Agent 框架团队的『Agent 生态共建计划』。百万亿 Token 创造者激励计划：申请通过的 AI builder 用户最高将获得 Max 档位的 Token Plan，包含 16 亿 Credits ，价值 659 元。 Agent 生态共建计划：将为你的 agent 框架提供 MiMo token 限免支持，让你的用户免费接入并体验 MiMo 系列模型。

译小米正式开源MiMo-V2.5系列模型，采用宽松的MIT协议，允许自由商用、二次训练与微调。该系列包含两个支持100万token上下文窗口的模型：专为复杂Agent和编码任务设计、在多项评测领先的MiMo-V2.5-Pro，以及具备强大Agent能力的原生全模态模型MiMo-V2.5。同时，小米推出Orbit 100T Token计划，包含面向AI开发者的“百万亿Token创造者激励计划”，提供最高价值659元的Credits，以及面向Agent框架团队的“Agent生态共建计划”，为其用户提供MiMo token限免支持。

阿绎 AYi@AYi_AInotes · 4月28日69

Damn，OpenAI刚刚扔出的这个开源仓库，直接把语音交互的未来砸到了所有人脸上🤯🤯🤯 他们发布了gpt-realtime-1.5的官方语音控制组件，现在你真的可以用自然语音，直接控制应用的UI状态，而不是转成文本再下命令。视频里的演示蛮震撼的，说一句切换深色模式，整个界面瞬间变黑。对着表单念你的姓名生日，字段自动填充，进度条实时更新。最绝的是下棋，说骑士走到F3，棋子直接移动，说重置棋盘，一秒清空，就好像模型永远知道当前屏幕上是什么状态，语音操作和鼠标键盘完全等价。讲真这么玩的话，这就不是简单的语音转文字的小升级了，我理解属于交互范式的真正转折。以前语音是输入层，现在语音变成了应用的顶层控制层。就是科幻电影里那种，对着屏幕说一句话，东西就自己变了的感觉🤩 更狠的是他们直接把整个实现开源了🤯🤯🤯 这个realtime-voice-component不是一个半成品demo，是一个完整的React参考实现。一行代码加个浮动按钮，用Zod定义几个工具，十分钟就能给你现有的Web应用加上语音控制。最聪明的设计是工具完全由应用拥有，模型只能调用你预定义的窄动作，不能乱动浏览器，安全又可控。这比之前的Computer Use靠谱一万倍。 Computer Use是让AI瞎点屏幕，而这个是让AI直接调用你写好的接口。一个是黑箱，一个是完全可控的白箱，这才是能真正落地到生产环境的方案。现在已经有人用它接了蛋白结构可视化工具，接了设计软件，接了企业内部仪表盘。未来你能想到的所有需要双手操作的场景，开车，做饭，做设计，做手术，未来都可以用语音控制。这意味着语音正在成为操作系统级别的接口。而OpenAI已经把所有的轮子都给你造好了。想玩的直接去fork仓库，配个API Key，跑demo就能感受到那种说一句世界就变了的魔力。老规矩GitHub地址评论区自取👇

译OpenAI开源了gpt-realtime-1.5的官方语音控制组件，允许用户直接用自然语音控制应用UI状态，而非仅进行语音转文本。该组件是一个完整的React参考实现，开发者可快速集成。其核心在于工具由应用预定义，模型只能调用这些受限动作，确保了安全可控。这标志着语音正从输入层升级为顶层控制层，为设计、驾驶等双手操作场景提供了新的交互可能，是交互范式的重要转折。

OpenClaw🦞@openclaw · 4月28日50

OpenClaw 2026.4.26 🦞 🎙️ Google Live Talk 🦙 Better Ollama/local models 🧳 Bring over Claude + Hermes setups 🔐 One-command Matrix E2EE Big release. Local models eat well. https://github.com/openclaw/openclaw/releases/tag/v2026.4.26

译OpenClaw 2026.4.26 🦞 🎙️ Google 直播访谈 🦙 更好的 Ollama/本地模型 🧳 迁移 Claude + Hermes 配置 🔐 单命令 Matrix 端到端加密重大发布。本地模型享用盛宴。 https://github.com/openclaw/openclaw/releases/tag/v2026.4.26

meng shao@shao__meng · 4月28日71

VLAA-GUI: 让 GUI 智能体学会"停下、恢复、搜索" GUI 智能体的瓶颈不是模型不够强，而是缺少"何时停、何时换路、何时查资料"的强制机制。现在 GUI 智能体们的常见问题： · 假性成功：OSWorld 上 86%+ 的失败是智能体自以为做完了。 · 死循环：在同一动作或界面间反复打转，烧光步数。 VLAA-GUI 方法论：三个模块 · STOP Completeness Verifier：把任务改写为可视化成功标准；独立模型复审 done()，证据不足即驳回 · RECOVER Loop Breaker：三级递进：换交互模态 → 换整体策略 → 外部裁判禁用重复动作 · SEARCH Search Agent：直接把"How to..."丢给搜索型 LLM，返回纯文本教程注入上下文(避开浏览器视觉链) 关键数据 OSWorld-Verified(人类 72.4%) · VLAA-GUI + Opus 4.6 → 77.5%(首次超人类，新 SOTA) · Opus 4.5 / Gemini 3.1 Pro 同框架下也越过人类线 · Sonnet 4.6 仅 15 步即 64.1%，超过此前最佳 50 步系统 WindowsAgentArena · Gemini 3 Flash + VLAA-GUI → 61.0%(SOTA，比 GPT-5 系高 ~4%) 消融(WAA, 满分 60.4) · 去 Verifier → 51.3 / 去 Loop Breaker → 52.6 / 去 Search → 49.4(三者皆不可少) 项目地址： https://ucsc-vlaa.github.io/VLAA-GUI/

译研究指出，当前GUI智能体的核心瓶颈在于系统设计，而非模型能力，表现为假性成功和死循环等问题。VLAA-GUI框架通过三个模块应对：STOP验证器确保任务真正完成，RECOVER循环中断器打破重复操作，SEARCH代理直接获取外部知识。在OSWorld基准测试中，该框架助力Opus 4.6模型取得77.5%的成功率，首次超越人类水平（72.4%）；在WindowsAgentArena上，结合Gemini 3.1 Flash也以61.0%创下新纪录。这表明，精心的系统设计与强大的模型能力同等重要。

meng shao@shao__meng · 4月28日75

Xiaomi MiMo-V2.5 系列模型正式开源 · MiMo-V2.5-Pro：1T/42B(MoE)，1M 上下文 · MiMo-V2.5：310B/15B (MoE)，1M 上下文同时还发布了 100T Token 创造者激励计划，在这申请，赠完即止： https://100t.xiaomimimo.com/ MiMo-V2.5 架构关键点：三件套支撑万亿稀疏 + 百万长文 1. 混合注意力（Hybrid Attention） SWA（局部滑动窗口）与 GA（全局注意力）按 6:1（Pro）或 5:1（V2.5）交错堆叠，滑动窗口仅 128。代价是 KV-cache 储量降到约 1/7，长文性能靠"可学习的 attention sink bias"补回。这是它能在万亿参数规模下把上下文做到 1M 的工程基础。 2. 多 Token 预测（MTP，3 层）原生集成而非外挂的投机解码：训练即推理，3 层 dense FFN 的轻量 MTP 模块直接让推理输出速度约 3 倍，同时还能加速 RL 训练时的 rollout。 3. 稀疏 MoE Pro 共 70 层（1 dense + 69 MoE），384 个路由专家，每个 token 激活 8 个，每次只跑 42B 参数。Hidden size 6144，128 个注意力头（GQA：8 个 KV 头）。训练规模与方法 1. MiMo-V2.5-Pro · Pre-training：27T tokens，FP8 混合精度，原生 32K 序列 · 后训练：SFT → 大规模 Agentic RL → MOPD 2. MiMo-V2.5 · Pre-training：~48T tokens（含多模态） · 后训练：同上 + 多模态投影器预热、上下文从 32K→256K→1M 渐进扩展后训练的核心是 MOPD（Multi-Teacher On-Policy Distillation）：先在数学、安全、Agent 工具使用等垂直域分别用 RL 把"专家教师"练强，再让单个学生模型在自身 rollout 上以动态 on-policy 方式从多位老师处获取 token 级监督信号。这个范式承接自 MiMo-V2-Flash，是 V2.5 全系能"既宽又深"的关键。模型开源地址 https://huggingface.co/collections/XiaomiMiMo/mimo-v25

译小米正式开源MiMo-V2.5系列模型，包含专注于代码代理的1T参数MoE模型MiMo-V2.5-Pro，以及支持多模态代理的310B参数MoE模型MiMo-V2.5，两者均支持1M上下文长度。其架构核心采用混合注意力、多Token预测和稀疏MoE技术，以支撑万亿参数规模下的高效长文处理。后训练基于MOPD范式，通过多教师策略蒸馏提升模型综合能力。同时，小米推出100T Token的创造者激励计划，为开发者提供免费计算资源以鼓励创新。模型已在Hugging Face平台开源。

Berryxia.AI@berryxia · 4月28日69

小米 MiMo-V2.5 现已正式开源！采用 MIT License，支持商业部署、持续训练和微调 — 无需额外授权。两个模型均支持 100 万 token 上下文窗口： • MiMo-V2.5-Pro：专为复杂 Agent 和编码任务打造，在开源模型中 GDPVal-AA 和 ClawEval 基准排名第一 • MiMo-V2.5：原生多模态模型，具备强大 Agent 能力小米称：模型的价值不仅仅由排行榜决定——而是由它解决的问题来衡量。

译小米正式开源MiMo-V2.5系列模型，采用MIT许可证，允许商业部署、持续训练和微调。两个模型均支持100万token上下文窗口：MiMo-V2.5-Pro专为复杂Agent和编码任务设计，在开源模型的GDPVal-AA和ClawEval基准测试中排名第一；MiMo-V2.5是原生多模态模型，具备强大的Agent能力。小米强调，模型的价值不应仅由排行榜衡量，而应取决于其解决实际问题的能力。

AK@_akhaliq · 4月28日51

Xiaomi MiMo-V2.5 is out on Hugging Face https://huggingface.co/collections/XiaomiMiMo/mimo-v25

译小米 MiMo-V2.5 已在 Hugging Face 发布 https://huggingface.co/collections/XiaomiMiMo/mimo-v25

Fuli Luo@_LuoFuli · 4月28日76

Just dropped two open-source models: MiMo-V2.5-Pro (Code Agent, 1T total) and MiMo-V2.5 (Multimodal Agent, 310B total). Oh and one more thing — we're giving devs & creators 100T tokens on us. Go build something cool 🛠️ 🎁 100T Free Token Grant for Builders http://100t.xiaomimimo.com

译小米宣布开源两个大模型：专攻复杂智能体和编码任务的MiMo-V2.5-Pro，以及原生全模态模型MiMo-V2.5。两者均支持100万token的上下文长度，并采用允许商业部署和微调的MIT许可证。同时，小米为开发者和创作者提供了100万亿token的免费额度，鼓励基于此构建应用。模型的价值不仅在于其在GDPVal-AA和ClawEval等基准测试中的排名，更在于其解决实际问题的能力。

凡人小北@frxiaobei · 4月28日34

OpenClaw 这么频繁的发版，我一开始以为他们掌握了什么自动化测试的黑科技，直到我最近做了两次升级。 😤 虽然 AI 时代讲究一个快，但好歹咱尊重下测试环节。

向阳乔木@vista8 · 4月27日48

试了几个 Chatbot 客户端，发现都不支持上传音、视频对话。这对全模态模型测试非常不友好。只能找个开源Chatbot UI，让Codex改造个产品用了。这开源UI很有意思，参考ChatGPT、Grok、Gemini、Perplexity做了好几个不同的机器人对话界面。目前已有接近1w Star，地址见评论区

译开发者在测试多个Chatbot客户端时，发现普遍不支持上传音视频文件进行对话，这给全模态大模型的测试带来了不便。因此，他选择了一个开源Chatbot UI项目，并计划用Codex对其进行改造以适配需求。该开源项目参考了ChatGPT、Grok、Gemini和Perplexity等主流产品的界面，设计了多个不同的机器人对话界面，目前在GitHub上已获得近1万颗星。

Berryxia.AI@berryxia · 4月26日60

🚨 微软刚刚开源炸场了！ TRELLIS.2 —— 40亿参数图像转3D模型一张图片 → 仅需3秒就能生成带完整PBR材质（粗糙度、金属度、不透明度）的超高质量3D资产！不是粗糙网格，而是直接能用的专业级模型连开放表面、空心内部、复杂几何体都轻松搞定！

译微软开源了40亿参数的TRELLIS.2模型，可将单张图片在3秒内转换为具备完整PBR材质（粗糙度、金属度、不透明度）的专业级3D资产。该模型生成的并非粗糙网格，而是直接可用于生产流程的高质量模型，能够准确处理开放表面、空心结构以及复杂几何体，显著提升了图像到3D内容的生成效率与实用性。

Peter Steinberger 🦞@steipete · 4月26日48

Summarize 📝0.14.0 is out. GPT-5.5 Fast mode via `--fast`, Reddit thread extraction in the browser extension, local PDF `--extract`, and fixes for auto model config + Meta site compatibility. https://github.com/steipete/summarize/releases/tag/v0.14.0

译总结 📝0.14.0 版本已发布。通过 `--fast` 启用 GPT-5.5 快速模式，浏览器扩展支持 Reddit 帖子提取，本地 PDF `--extract` 功能，以及自动模型配置修复 + Meta 网站兼容性修复。https://github.com/steipete/summarize/releases/tag/v0.14.0

meng shao@shao__meng · 4月25日60

Obscura 是一个用 Rust 从头编写的 headless browser 引擎，专为 AI Agent 自动化和规模化网络爬取设计，主要特性：独立引擎 + 原生反检测 + CDP 兼容 + 极致轻量 Obscura 精准切中了两个高价值场景的交集：AI Agent 的网页感知与大规模反检测爬取，性能对比非常激进。维度 Obscura Headless Chrome 内存占用 30 MB 200+ MB 二进制 70 MB 300+ MB 页面加载 85 ms ~500 ms 启动时间即时 ~2 s 架构拆解：六层 Crate 的精密分工 · obscura-dom：HTML 解析、DOM 树、CSS 选择器 · obscura-net：HTTP 客户端、Cookie、拦截器、robots.txt · obscura-js：V8 集成、JS 运行时、DOM API 绑定 · obscura-browser：页面生命周期、浏览上下文、导航管理 · obscura-cdp：Chrome DevTools Protocol 兼容层 · obscura-cli：命令行入口、Worker 进程管理 Obscura 没有重写整个浏览器，它复用了 Servo 的 DOM 组件和 Google V8 的 JS 引擎，在此基础上构建独立的网络层和 CDP 兼容层。这是一种务实的"站在巨人肩膀上"的策略。三大技术亮点 1. 深度反检测（Stealth Mode）项目最具竞争力的特性。编译时启用 --features stealth 后，它在三个层面进行伪装： · 指纹层面：每会话随机化 GPU、屏幕分辨率、Canvas、Audio、Battery 指纹；模拟 navigator.userAgentData 高熵值；将 navigator.webdriver 设为 undefined · 行为层面：分派事件的 event.isTrusted = true；原生函数 toString() 返回 [native code]；隐藏内部属性使 Object.keys(window) 安全；Shadow DOM polyfill 兼容 Cloudflare Turnstile · 网络层面：拦截 3520 个追踪/广告/遥测域名，阻止指纹脚本加载 2. 生态兼容策略项目选择了"兼容而非对抗"的聪明路径：完整实现 CDP 的子集，使现有基于 Puppeteer/Playwright 的脚本可以零成本迁移，只需将 browserWSEndpoint 指向 ws://127.0.0.1:9222。这极大降低了采用门槛。 3. 为 AI Agent 优化的专属功能 · 内置 LP Domain：DOM-to-Markdown 转换，直接输出适合 LLM 消费的结构化文本 · 85ms 页面加载意味着 Agent 的感知-行动循环更紧凑 · 轻量特性使其适合作为 Agent 的常驻感知端点开源地址： https://github.com/h4ckf0r0day/obscura

译Obscura是一个用Rust编写的轻量级无头浏览器引擎，专为AI Agent自动化和大规模网络爬取优化。其核心优势在于极致的性能与资源效率，内存占用仅30MB，页面加载约85毫秒，远超Headless Chrome。项目采用务实架构，复用Servo的DOM与V8引擎，并构建独立网络层。关键特性包括深度反检测的“隐身模式”，能随机化指纹并拦截追踪域名；通过兼容Chrome DevTools Protocol，实现与Puppeteer/Playwright生态无缝对接。此外，它内置了DOM转Markdown等专为AI Agent优化的功能，旨在作为高效的常驻网页感知端点。

meng shao@shao__meng · 4月25日63

腾讯混元 26.02 重建预训练与强化学习基础设施后，发布了首个模型「Hy3 preview」，不仅是混元"最智能的模型"，更标志着团队从"追榜"逻辑向实用主义的系统转型，模型采用 MoE 架构，总参数 295B / 激活参数 21B，支持 256K 上下文，采用快慢思考融合机制 # 三大原则定义"真实战斗力" 混元团队明确提出了重建后的三条核心原则，这决定了 Hy3 的评测与训练逻辑： · 能力体系化：拒绝"偏科"。即使是代码智能体单一应用，也需推理、长文、指令、对话、工具调用等能力深度协同 · 评测真实性：主动跳出易被刷榜的公开榜单，转而采用自建题目、最新考试（如 2025 生物学联赛、清华求真书院 26 春博资考）、人工评测、产品众测等方式 · 性价比追求：模型架构与推理框架深度协同设计，以降低任务成本，追求商业合理性 # 能力表现：推理与长文跃升，代码智能体进步最大通过多组对比（vs Hy2、Gemini-3.1-Pro、GLM-5、Kimi-K2.5、GPT-5.4 xhigh）展示了 Hy3 的能力边界： 1. 复杂推理：进入第一梯队，但顶尖数学仍有差距 · 优势领域：FrontierScience-Olympiad（70.0）、IMO Answer Bench（84.3）、CHSBO 2025（87.8）、GPQA-Diamond（87.2）均达到或接近国际顶尖水平。 · 相对短板：在清华求真书院数学博资考上，Hy3（88.4）与 GPT-5.4 xhigh（99.3）存在明显差距；HLE 基准（30.0）也落后于 Gemini-3.1-Pro（44.4）等。 · 结论：基础理工科推理能力已具备强泛化性，但面对最高难度的纯数学推理时，与全球绝对顶尖模型仍有距离。 2. 上下文学习与指令遵循：自研基准，提升显著 · 团队基于业务场景灵感，自研了 CL-bench 和 CL-bench-Life 来评估上下文学习能力。 · 在 AdvancedIF（79.5）、AA-LCR（66.3）、LongBench v2（65.4）等标准长文任务上，Hy3 较前代 Hy2 提升明显，并进入第一梯队。 · 但在自研的 CL-bench（22.8）和 CL-bench Life（15.7）上，仍落后于 GPT-5.4 xhigh（26.7 / 19.2），说明超长上下文的复杂隐式推理仍是行业共同难题。 3. 代码与智能体：提升最为显著的方向 "提升最为显著的方向"，在 SWE-Bench Verified、Terminal-Bench 2.0 以及 BrowseComp、WideSearch 等主流基准中取得了强竞争力的结果。 # 关键亮点：非结构化信息的隐性挖掘能力官方展示的会议纪要排期案例极具代表性，体现了 Hy3 区别于传统指令遵循的核心优势： · 输入：一段口语化、多轮穿插、信息分散的对话（包含春分日期、新人介绍、请假安排、加班调休、工作日规则、开发流程依赖等）。 · 挑战：需识别隐含约束（如"20号春分上线"意味着硬 deadline，"下周一请假"需顺延工作日，"周六加班"可计入工期但周日休息）。 · 输出：将非结构化对话转化为严格符合格式要求、逻辑自洽的排期表格。官方博客 https://hy.tencent.com/hy3-preview 下方信息卡绘制用的就是 Hy3 Preview 模型，Skills 和提示词在这： https://x.com/shao__meng/status/2035720327037108673?s=20

译腾讯混元团队在重建基础设施后，推出首个MoE架构模型Hy3 preview，总参295B，支持256K上下文。团队确立能力体系化、评测真实性、性价比三大原则，推动模型向实用转型。评估显示，Hy3在复杂推理与长上下文任务上进入第一梯队，代码与智能体能力进步显著。其突出亮点是能深度挖掘非结构化对话中的隐含约束，并转化为结构化输出，体现了强大的实际应用潜力。

Berryxia.AI@berryxia · 4月25日56

每个人都在忽略这个新的 OCR 模型！ - 在 olmocr bench 上达到 85.9%（sota） - 支持 90+ 种语言，附带基准测试 - 40 亿参数模型（从 90 亿参数减少） - 完整布局信息 - 提取并为图像和图表添加说明 - 强大的手写、数学、表单、表格支持 100% 开源。

译一款新的开源OCR模型在olmocr基准测试中达到85.9%的SOTA性能。该模型参数量为40亿，由90亿参数精简而来，支持超过90种语言并附带基准测试。其核心能力包括保留完整的文档布局信息，能从图像和图表中提取并生成说明文字，同时对手写文本、数学公式、表单及表格具备强大的识别与解析支持。

Peter Steinberger 🦞@steipete · 4月25日62

Built clawsweeper, which runs 50 codex in parallel around the clock, scans issues/prs deep and closes what is already implemented or what makes no sense. Closed around 4000 issues today, a few thousand are in the pipeline. (rate limits are rough) https://github.com/openclaw/clawsweeper

译构建了clawsweeper，它能并行运行50个codex，全天候深度扫描issues和prs，并关闭那些已经实现或毫无意义的内容。今天关闭了约4000个issues，还有几千个正在处理中。（速率限制相当严格）https://github.com/openclaw/clawsweeper

阿绎 AYi@AYi_AInotes · 4月25日65

卧槽，这个25秒视频把一个网站的整个设计系统扒得一干二净，兄弟们看这个演示，把Anthropic的官网扔进去，点一下生成， 16秒就出了完整的颜色字体间距排版，最后9秒直接导出结构化的DESIGN.md，不是那种只能抓几个色值的垃圾工具，它会自动分析设计语言，告诉你Anthropic的风格是克制的、学术的、借鉴印刷传统的，连每个字号对应的行高字重都给你列得明明白白，更狠的是，这只是Hyperbrowser的一个开源示例，代码已经全放GitHub了，任何人都能拉下来自己跑，我之前也觉得这就是个偷懒工具，看完才反应过来，这根本就不是取色器的升级，更像是在把设计从手艺变成数据，以前大公司花几百万养团队做的设计系统，现在任何人花25秒就能抄走，这意味着以后拼的再也不是谁会量像素，而是看谁能更快地把别人的设计DNA变成自己的产品

译开源工具Hyperbrowser能在约25秒内深度解析并克隆网站（如Anthropic官网）的完整设计系统，自动提取颜色、字体、间距等样式，并总结设计语言，生成结构化文档。这标志着设计正从依赖手艺的“像素级模仿”转变为可快速解析、复制的结构化数据，大幅降低了借鉴成熟设计系统的门槛，未来竞争焦点可能转向对设计DNA的快速吸收与再创造。

小互@xiaohu · 4月24日56

OpenAI 刚发的 Workspace Agent，开源版来了 · 可任意模型，Claude / GPT / Gemini / Kimi / DeepSeek 都能接 · 可在自己服务器上跑，最低 €4/月 · 每个会话有独立 Docker 沙箱 · 每个终端用户凭证隔离 · 子 agent 调用全程可观测，不是黑盒它能帮你做这些事： · 给公司团队搭一套 AI Agent 服务，模型随便换，不被 Claude 或 GPT 锁死 · 给 SaaS 产品加 AI 助手，每个用户各自登录各自的账号不串号 · 做 Telegram、Discord AI 机器人，自带 Telegram 适配器 · 跑企业内部受控 Agent，可限制只能访问指定 API，不能乱出公网 · 每个会话独立运行，一个崩了不影响其他

译开源项目 openclaw-managed-agents 提供了类似 OpenAI Workspace Agent 的功能，核心特点是支持接入任意大模型（如 Claude、GPT、Gemini 等）并可自托管于自有服务器，成本可低至每月4欧元。其采用独立 Docker 沙箱架构，确保每个用户会话隔离运行，实现凭证安全与互不影响，且子 agent 调用过程全程可观测。该方案适用于为企业搭建可灵活切换模型的 AI Agent 服务、为 SaaS 产品添加隔离的 AI 助手、构建社交平台机器人或运行内部受控、仅能访问指定 API 的安全 Agent。

Ethan Mollick@emollick · 4月24日54

And now a new DeepSeek model, and appears to be fully open weights. Good benchmarks, but with open models, that isn't always as meaningful. Should be live soon to actually try.

译现在又有了新的DeepSeek模型，而且似乎是完全开放权重的。基准测试成绩不错，但对于开源模型来说，这并不总是那么有意义。应该很快就能实际体验了。

Tibo@thsottiaux · 4月23日

Team is hard at work together with @steipete to make OpenAI models and ecosystem be the obvious way to to enjoy your claw. A lot more to come next week, but a reminder that you can use OpenClaw as part of your ChatGPT subscription today already. (also still having too much fun with ChatGPT Images 2.0 today)

译团队正与 @steipete 努力合作，让 OpenAI 模型和生态系统成为享受你的 claw 的显而易见的方式。下周还有更多内容，但提醒一下，你今天已可以作为 ChatGPT 订阅的一部分使用 OpenClaw 了。（今天也还在玩 ChatGPT Images 2.0 玩得很开心）

AK@_akhaliq · 4月23日

OpenAI just released privacy-filter on Hugging Face a bidirectional token-classification model for personally identifiable information (PII) detection and masking in text model: https://huggingface.co/openai/privacy-filter

译OpenAI 刚刚在 Hugging Face 上发布了 privacy-filter 一个用于文本中个人身份信息（PII）检测与掩码的双向 token 分类模型模型：https://huggingface.co/openai/privacy-filter

Chubby♨️@kimmonismus · 4月22日

Nice: One click and your self-improving AI agent is live 24/7 - main tagline Full Hermes power, zero terminal 43,200+ stars Hermes agent, now in a native interface Your 24/7 coworker, live! :))

译不错：一键部署，你的自我改进 AI agent 全天候运行——主标语完整 Hermes 能力，零终端 43,200+ 星标的 Hermes agent，现已支持原生界面你的全天候同事，上线运行！:))

Peter Steinberger 🦞@steipete · 4月22日

yes

译是的

Rohan Paul@rohanpaul_ai · 4月22日

ROBOTIS unveiled AI Sapiens this week: a 34 kg humanoid that maintains balance even during dynamic shifts and quick leg lifts. The open-source system is meant as a shared system for physical AI work, with full hardware and software released publicly.

译ROBOTIS 本周发布了 AI Sapiens：一款 34 公斤的人形机器人，即使在动态移动和快速抬腿时也能保持平衡。该开源系统旨在作为实体 AI 工作的共享平台，完整的硬件和软件均已公开发布。

Rohan Paul@rohanpaul_ai · 4月22日

Been checking out Spectrum by Photon, and it tackles one of the biggest problems in AI right now: distribution. Spectrum lets developers ship agents directly into the places people already use every day: iMessage, WhatsApp, Telegram, and SMS/RCS. That means your agent can live inside a real message thread, with a real phone number, using a single unified API. You send one message through the API, and Spectrum handles the platform-specific formatting, delivery, and logic natively. So instead of building separate messaging integrations one by one, you build once and deploy across channels. That is especially interesting for: - AI agents - customer support - personal productivity - alerts and trading workflows - AI companions iMessage is the part that stood out to me. If your agent shows up as a blue bubble instead of plain SMS, the interaction feels much more natural and much closer to chatting with an actual contact. That matters for a lot for retention. The SDK is open-source, and the product already has a dashboard in beta for managing projects, phone numbers, and email setup.

译Spectrum by Photon推出开源框架，通过统一API解决AI Agent分发难题。开发者可一次性将agents部署至iMessage、WhatsApp、Telegram及SMS/RCS等主流通讯平台，无需单独适配各平台协议。产品支持原生iMessage蓝色气泡体验，显著提升交互自然度与用户留存。适用于客服、交易提醒、AI伴侣等场景，SDK已开源并配备Beta版管理后台。

OpenAI Developers@OpenAIDevs · 4月22日

Introducing Euphony, an open-source tool for visualizing chat data and Codex session logs. Paste in a public URL or upload a local file, and Euphony turns the raw data into an easy-to-browse view. It supports translation, filtering, editing, and more.

译介绍 Euphony，一款用于可视化聊天数据和 Codex 会话日志的开源工具。粘贴公开 URL 或上传本地文件，Euphony 即可将原始数据转换为易于浏览的视图。支持翻译、筛选、编辑等功能。

Peter Steinberger 🦞@steipete · 4月20日

MCPorter 🧳 0.9.0 is out. Call MCPs from TypeScript or as CLI - per-server tool filtering - sturdier stdio shutdowns - Windows OAuth URL quoting fix - OAuth config docs - schema-declared string coercion for tool calls https://github.com/steipete/mcporter/releases/tag/v0.9.0

译MCPorter 🧳 0.9.0 发布了。通过 TypeScript 或 CLI 调用 MCP。 - 按服务器工具过滤 - 更稳定的 stdio 关闭 - Windows OAuth URL 引号修复 - OAuth 配置文档 - 工具调用的 schema 声明字符串强制转换 https://github.com/steipete/mcporter/releases/tag/v0.9.0

Tibo@thsottiaux · 4月19日

Open-source rocks. Tried Loopndroll for Codex and it’s a lot of fun, some really good ideas in there and entirely built on top of the new hooks mechanism.

译开源很棒。试用了 Loopndroll for Codex，很有趣，里面有一些很好的想法，而且完全基于新的 hooks 机制构建。

Peter Steinberger 🦞@steipete · 4月19日

🎚️CodexBar 0.21 Abacus AI provider, Codex Pro $100 support, safer OpenAI web extras, fixed local cost scanning, z. ai 5h quotas, Antigravity/Cursor/Ollama fixes, faster refreshes, macOS 26 icon fix and more. The big issue with too much CPU usage was an OpenAI web fetch and is now disabled for new installs. Also keychain issues are resolved. Shoutout to @RatulSarna for maintaining. https://github.com/steipete/CodexBar/releases/tag/v0.21

译🎚️CodexBar 0.21 Abacus AI 提供商、Codex Pro $100 支持、更安全的 OpenAI 网页扩展、修复本地成本扫描、z. ai 5小时配额、Antigravity/Cursor/Ollama 修复、更快的刷新、macOS 26 图标修复等等。 CPU 占用过高的主要问题是 OpenAI 网页获取，现已对新安装禁用。钥匙串问题也已解决。感谢 @RatulSarna 的维护。https://github.com/steipete/CodexBar/releases/tag/v0.21

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

4月29日

06:10

Peter Steinberger 🦞@steipete

19

我将试用 https://github.com/brunoborges/ghx，因为我经常遇到 GitHub 速率限制问题。那里的团队尽力提供帮助，甚至将我们迁移到企业版，但代理程序仍然猛烈冲击他们的 API。

智能体开源/仓库编码

06:07

Chubby♨️@kimmonismus

51

Sigma：一款完全私密的AI浏览器，可在您的设备上本地运行智能体。 -无需云端。 -数据不会离开您的设备。 -开源 Qwen、Gemma、Nemotron--全部直接在浏览器中运行。这才是浏览器AI应有的发展方向！【引用 @Sigma_Browser】：搭载OpenClaw智能体的私密AI浏览器，基于免费本地模型运行在浏览器中直接使用Qwen、Gemma或Nemotron运行您的智能体开源。私密。在您的本地设备上运行

Sigma Browser: Private AI browser with the OpenClaw agent on free local models Run your agent on Qwen, Gemma, or Nemotron directly in t...

智能体开源/仓库端侧

05:39

AK@_akhaliq

59

Nvidia发布了Nemotron 3 Nano Omni 在Hugging Face上为其制作了一个gradio应用

多模态开源/仓库端侧

01:40

宝玉@dotey

53

AI终端工具Warp客户端正式开源，推行"人管方向，AI干活"新模式

现代终端工具Warp宣布将其客户端代码在GitHub上以AGPL协议开源，OpenAI为创始赞助商。Warp核心特色是深度集成AI，允许用户用自然语言生成命令。此次开源的独特之处在于其“AI优先”的社区贡献流程：由Warp自研的AI平台Oz负责执行写代码、测试等具体工作，社区成员主要进行方向决策与验证，旨在探索未来软件开发新模式。同步更新包括支持更多开源模型、可定制化界面及配置文件同步功能。创始人表示，AI Agent的爆发是促使其开源的关键，希望结合广泛贡献者与AI代理打造更优产品。需注意，服务端代码仍保持闭源。

Warp: Warp is now open-source.

开源/仓库编码部署/工程

01:03

Ant Ling@AntLingAGI

59

AntLingAGI宣布将其模型Ling-2.6-flash正式开源，该模型此前在OpenRouter平台上曾以"Elephant Alpha"为名提供API服务。目前，模型已在Hugging Face和ModelScope平台全面开放，供公众自由使用与构建。模型关键参数为总参数量1040亿，激活参数量74亿，在Artificial Analysis基准测试中输出速度约为每秒215个token，并支持BF16、FP8和INT4多种精度格式。此次开源得到了合作伙伴Novita Labs，以及lmsysorg的SGLang团队和vllm项目的技术支持。

Novita AI: Ling-2.6-flash is now officially open-sourced 🚀 (from @AntLingAGI) Was "Elephant Alpha" on OpenRouter. Now fully open f...

开源/仓库模型发布端侧

00:39

宝玉@dotey

51

试用Open Claude Design：开源有潜力但交互存差距

作者试用Open Claude Design项目，肯定其作为开源项目的学习价值，项目宣称还原度超95%、代码量达18700+行。但当前产出仅为HTML雏形，在交互和完成度上与Claude Design原版的优美React组件相比仍有明显不足。

Tom Huang: 正式开源 open claude design 🚀 超 95% 以上的还原度! 浓缩和逆向所有 claude design 最先进的设计,最好看的模板💥 历时 72 小时,18700+ 行代码,30+ 设计 Skills,支持超过 71...

MCP/工具开源/仓库教程/实践编码

4月28日

23:19

Ant Ling@AntLingAGI

59

灵码2.6-flash模型正式开源，专为高效智能体工作流打造

灵码2.6-flash模型现已开源，这是一个专为现实世界智能体工作流构建的快速、高效的指令模型。该模型总参数量达1040亿，激活参数量为74亿，并提供BF16、FP8和INT4多种量化版本以适应不同部署需求。其核心优势包括：生成速度高达每秒215个token，在完整评估中仅消耗1500万token，效率突出；在代码、文档处理和轻量级智能体工作流等实际任务中表现强劲；同时，其中英文切换能力及与主流编程框架的兼容性也得到了进一步改善。

智能体开源/仓库模型发布编码

20:25

SenseTime@SenseTime_AI

59

SenseNova U1 Lite系列开源，统一多模态理解与生成

SenseNova宣布开源其U1 Lite系列模型。该系列基于NEO-unify架构，原生统一了多模态理解与生成能力。其核心优势包括：在开源模型中具备领先的效率，紧凑的8B和A3B模型在保持商业级性能的同时实现了优异的成本效益；支持原生的图像-文本交织生成，单一模型即可在单次流程中生成连贯交织的图文内容，适用于制作指南等实用场景；并拥有高密度信息渲染能力，擅长为知识图解、海报、PPT、漫画等信息密集型格式生成结构丰富的版式。模型已在Hugging Face、GitHub等平台发布。

图像生成多模态开源/仓库模型发布

13:24

ChatGPT@ChatGPTapp

42

在 OpenAI Codex 的 GitHub 代码库中，其模型配置文件内的系统提示词被发现存在重复行。该指令明确要求模型避免谈论地精、小妖精、浣熊、巨魔、食人魔、鸽子或其他动物与虚构生物，除非与用户查询绝对且明确相关。这一重复的约束性提示引发了社区对其背后原因及模型训练细节的讨论。

arb8020: gpt-5.5 prompt for codex seems to have a duplicated line trying to get it to not talk about creatures? Never talk about ...

OpenAI 开源/仓库编码

10:48

Peter Steinberger 🦞@steipete

35

终于为PR/Issue管理、远程测试执行、用于测试的大规模CI基础设施找到了优秀的解决方案。简化了许多工作。

OpenClaw🦞: One more thing: OpenClaw 2026.4.26 is stacked because the Clawtributors showed up hard. Bug reports, fixes, edge cases, ...

产品更新开源/仓库编码

10:45

歸藏(guizang.ai)@op7418

60

作者表示将尝试为Codepilot用户争取免费的Token补贴。这一考虑基于小米MiMo -V2.5系列模型的开源动态，该模型采用MIT协议，允许自由商用、二次训练与微调。同时，小米推出了Orbit 100T Token计划，包含面向AI builder的"百万亿Token创造者激励计划"和面向Agent框架团队的"Agent生态共建计划"。激励计划为通过申请的用户提供Token支持，如最高16亿Credits。作者意图借鉴此机制为Codepilot社区谋取福利。

歸藏(guizang.ai): 小米 MiMo -V2.5 系列模型全部开源采用宽松的 MIT 协议,允许自由商用、二次训练与微调,无需额外授权。同时他们还推出了Orbit 100T Token 计划。这个太牛批了!如果你有自己 Vibe Coding 一些东西可以...

开源/仓库模型发布

10:42

歸藏(guizang.ai)@op7418

精选74

小米 MiMo-V2.5 系列模型全部开源

小米正式开源MiMo-V2.5系列模型，采用宽松的MIT协议，允许自由商用、二次训练与微调。该系列包含两个支持100万token上下文窗口的模型：专为复杂Agent和编码任务设计、在多项评测领先的MiMo-V2.5-Pro，以及具备强大Agent能力的原生全模态模型MiMo-V2.5。同时，小米推出Orbit 100T Token计划，包含面向AI开发者的“百万亿Token创造者激励计划”，提供最高价值659元的Credits，以及面向Agent框架团队的“Agent生态共建计划”，为其用户提供MiMo token限免支持。

Xiaomi MiMo: Xiaomi MiMo-V2.5 is now officially open-sourced! MIT License, supporting commercial deployment, continued training, and ...

智能体开源/仓库模型发布端侧

推荐理由：小米把 MiMo-V2.5 全线 MIT 开源，Pro 版在 agent 和编码榜单冲到开源第一，百万亿 Token 激励计划更是直接送钱让你用，做 Vibe Coding 的人没理由不去薅一把。

10:38

阿绎 AYi@AYi_AInotes

69

OpenAI开源语音控制组件，开启自然语音交互新范式

OpenAI开源了gpt-realtime-1.5的官方语音控制组件，允许用户直接用自然语音控制应用UI状态，而非仅进行语音转文本。该组件是一个完整的React参考实现，开发者可快速集成。其核心在于工具由应用预定义，模型只能调用这些受限动作，确保了安全可控。这标志着语音正从输入层升级为顶层控制层，为设计、驾驶等双手操作场景提供了新的交互可能，是交互范式的重要转折。

OpenAI Developers: You can build interactive applications with gpt-realtime-1.5, so users can control app state more naturally with voice. ...

MCP/工具 OpenAI 开源/仓库语音

10:21

OpenClaw🦞@openclaw

50

OpenClaw 2026.4.26 🦞 🎙️ Google 直播访谈 🦙 更好的 Ollama/本地模型 🧳 迁移 Claude + Hermes 配置 🔐 单命令 Matrix 端到端加密重大发布。本地模型享用盛宴。 https://github.com/openclaw/openclaw/releases/tag/v2026.4.26

产品更新开源/仓库端侧

09:55

meng shao@shao__meng

71

VLAA-GUI：让 GUI 智能体学会"停下、恢复、搜索"

研究指出，当前GUI智能体的核心瓶颈在于系统设计，而非模型能力，表现为假性成功和死循环等问题。VLAA-GUI框架通过三个模块应对：STOP验证器确保任务真正完成，RECOVER循环中断器打破重复操作，SEARCH代理直接获取外部知识。在OSWorld基准测试中，该框架助力Opus 4.6模型取得77.5%的成功率，首次超越人类水平（72.4%）；在WindowsAgentArena上，结合Gemini 3.1 Flash也以61.0%创下新纪录。这表明，精心的系统设计与强大的模型能力同等重要。

Cihang Xie: 🚀 GUI agents are advancing fast - yet they still stumble on surprisingly simple things: • declare success too early • g...

智能体开源/仓库论文/研究

09:45

meng shao@shao__meng

精选75

小米开源MiMo-V2.5系列大模型

小米正式开源MiMo-V2.5系列模型，包含专注于代码代理的1T参数MoE模型MiMo-V2.5-Pro，以及支持多模态代理的310B参数MoE模型MiMo-V2.5，两者均支持1M上下文长度。其架构核心采用混合注意力、多Token预测和稀疏MoE技术，以支撑万亿参数规模下的高效长文处理。后训练基于MOPD范式，通过多教师策略蒸馏提升模型综合能力。同时，小米推出100T Token的创造者激励计划，为开发者提供免费计算资源以鼓励创新。模型已在Hugging Face平台开源。

Fuli Luo: Just dropped two open-source models: MiMo-V2.5-Pro (Code Agent, 1T total) and MiMo-V2.5 (Multimodal Agent, 310B total). ...

智能体开源/仓库模型发布端侧

推荐理由：小米把万亿参数 MoE 做到开源且百万上下文，MTP 三层原生集成让推理速度翻三倍，这在国内大厂开源里是第一个真正敢放权重的万亿级模型，做 Agent 的值得认真看看。

07:23

Berryxia.AI@berryxia

69

小米开源MiMo-V2.5系列模型，支持百万token上下文

小米正式开源MiMo-V2.5系列模型，采用MIT许可证，允许商业部署、持续训练和微调。两个模型均支持100万token上下文窗口：MiMo-V2.5-Pro专为复杂Agent和编码任务设计，在开源模型的GDPVal-AA和ClawEval基准测试中排名第一；MiMo-V2.5是原生多模态模型，具备强大的Agent能力。小米强调，模型的价值不应仅由排行榜衡量，而应取决于其解决实际问题的能力。

Xiaomi MiMo: Xiaomi MiMo-V2.5 is now officially open-sourced! MIT License, supporting commercial deployment, continued training, and ...

智能体开源/仓库模型发布编码

04:26

AK@_akhaliq

51

小米 MiMo-V2.5 已在 Hugging Face 发布 https://huggingface.co/collections/XiaomiMiMo/mimo-v25

多模态开源/仓库模型发布

03:45

Fuli Luo@_LuoFuli

精选76

小米宣布开源两个大模型：专攻复杂智能体和编码任务的MiMo-V2.5-Pro，以及原生全模态模型MiMo-V2.5。两者均支持100万token的上下文长度，并采用允许商业部署和微调的MIT许可证。同时，小米为开发者和创作者提供了100万亿token的免费额度，鼓励基于此构建应用。模型的价值不仅在于其在GDPVal-AA和ClawEval等基准测试中的排名，更在于其解决实际问题的能力。

Xiaomi MiMo: Xiaomi MiMo-V2.5 is now officially open-sourced! MIT License, supporting commercial deployment, continued training, and ...

智能体开源/仓库模型发布编码

推荐理由：小米这次把 1T 参数的 Code Agent 模型直接 MIT 开源，还送 100T 免费 token，诚意拉满。做 coding agent 的团队值得认真看看，这可能是目前开源阵营里最强的代码智能体基座。

00:24

凡人小北@frxiaobei

34

OpenClaw 这么频繁的发版，我一开始以为他们掌握了什么自动化测试的黑科技，直到我最近做了两次升级。 😤 虽然 AI 时代讲究一个快，但好歹咱尊重下测试环节。

OpenClaw🦞: OpenClaw 2026.4.25 🦞 🔊 TTS got serious 🧩 Plugins start faster 📊 OTEL can see the weird stuff 🛠️ Browser + install/u...

开源/仓库行业动态部署/工程

4月27日

12:00

向阳乔木@vista8

48

全模态测试遇阻，开发者改造开源UI适配多模型

开发者在测试多个Chatbot客户端时，发现普遍不支持上传音视频文件进行对话，这给全模态大模型的测试带来了不便。因此，他选择了一个开源Chatbot UI项目，并计划用Codex对其进行改造以适配需求。该开源项目参考了ChatGPT、Grok、Gemini和Perplexity等主流产品的界面，设计了多个不同的机器人对话界面，目前在GitHub上已获得近1万颗星。

多模态开源/仓库部署/工程

4月26日

23:19

Berryxia.AI@berryxia

60

微软开源TRELLIS.2：单图3秒生成高质量3D模型

微软开源了40亿参数的TRELLIS.2模型，可将单张图片在3秒内转换为具备完整PBR材质（粗糙度、金属度、不透明度）的专业级3D资产。该模型生成的并非粗糙网格，而是直接可用于生产流程的高质量模型，能够准确处理开放表面、空心结构以及复杂几何体，显著提升了图像到3D内容的生成效率与实用性。

Microsoft 多模态开源/仓库

13:51

Peter Steinberger 🦞@steipete

48

总结 📝0.14.0 版本已发布。通过 `--fast` 启用 GPT-5.5 快速模式，浏览器扩展支持 Reddit 帖子提取，本地 PDF `--extract` 功能，以及自动模型配置修复 + Meta 网站兼容性修复。https://github.com/steipete/summarize/releases/tag/v0.14.0

产品更新开源/仓库编码

4月25日

22:44

meng shao@shao__meng

60

Obscura：专为AI Agent与规模化爬取设计的轻量级无头浏览器引擎

Obscura是一个用Rust编写的轻量级无头浏览器引擎，专为AI Agent自动化和大规模网络爬取优化。其核心优势在于极致的性能与资源效率，内存占用仅30MB，页面加载约85毫秒，远超Headless Chrome。项目采用务实架构，复用Servo的DOM与V8引擎，并构建独立网络层。关键特性包括深度反检测的“隐身模式”，能随机化指纹并拦截追踪域名；通过兼容Chrome DevTools Protocol，实现与Puppeteer/Playwright生态无缝对接。此外，它内置了DOM转Markdown等专为AI Agent优化的功能，旨在作为高效的常驻网页感知端点。

Chris Laub: A Rust dev just killed Headless Chrome. It's called Obscura. The open-source headless browser purpose-built for AI agent...

智能体开源/仓库部署/工程

22:17

meng shao@shao__meng

63

腾讯混元发布首个重建基础设施后模型「Hy3 preview」

腾讯混元团队在重建基础设施后，推出首个MoE架构模型Hy3 preview，总参295B，支持256K上下文。团队确立能力体系化、评测真实性、性价比三大原则，推动模型向实用转型。评估显示，Hy3在复杂推理与长上下文任务上进入第一梯队，代码与智能体能力进步显著。其突出亮点是能深度挖掘非结构化对话中的隐含约束，并转化为结构化输出，体现了强大的实际应用潜力。

Tencent Hy: 👋Hi /haɪ/, we're the Tencent Hy /haɪ/ team🐧 Today, we open source Hy3 preview (295B A21B), a leading reasoning and age...

开源/仓库推理模型发布编码

19:13

Berryxia.AI@berryxia

56

开源OCR模型性能突破，支持90余种语言与完整布局解析

一款新的开源OCR模型在olmocr基准测试中达到85.9%的SOTA性能。该模型参数量为40亿，由90亿参数精简而来，支持超过90种语言并附带基准测试。其核心能力包括保留完整的文档布局信息，能从图像和图表中提取并生成说明文字，同时对手写文本、数学公式、表单及表格具备强大的识别与解析支持。

多模态开源/仓库模型发布

18:17

Peter Steinberger 🦞@steipete

62

构建了clawsweeper，它能并行运行50个codex，全天候深度扫描issues和prs，并关闭那些已经实现或毫无意义的内容。今天关闭了约4000个issues，还有几千个正在处理中。（速率限制相当严格）https://github.com/openclaw/clawsweeper

智能体开源/仓库编码

14:13

阿绎 AYi@AYi_AInotes

65

开源工具25秒深度克隆网站设计系统，设计或从"手艺"变为"数据"

开源工具Hyperbrowser能在约25秒内深度解析并克隆网站（如Anthropic官网）的完整设计系统，自动提取颜色、字体、间距等样式，并总结设计语言，生成结构化文档。这标志着设计正从依赖手艺的“像素级模仿”转变为可快速解析、复制的结构化数据，大幅降低了借鉴成熟设计系统的门槛，未来竞争焦点可能转向对设计DNA的快速吸收与再创造。

MCP/工具开源/仓库教程/实践

4月24日

11:44

小互@xiaohu

56

OpenAI 刚发的 Workspace Agent，开源版来了

开源项目 openclaw-managed-agents 提供了类似 OpenAI Workspace Agent 的功能，核心特点是支持接入任意大模型（如 Claude、GPT、Gemini 等）并可自托管于自有服务器，成本可低至每月4欧元。其采用独立 Docker 沙箱架构，确保每个用户会话隔离运行，实现凭证安全与互不影响，且子 agent 调用过程全程可观测。该方案适用于为企业搭建可灵活切换模型的 AI Agent 服务、为 SaaS 产品添加隔离的 AI 助手、构建社交平台机器人或运行内部受控、仅能访问指定 API 的安全 Agent。

Stain Lu: we built an open-source version of workspace agents - any model, self-hosted - per-session sandbox - credential isolatio...

智能体开源/仓库部署/工程

11:24

Ethan Mollick@emollick

54

现在又有了新的DeepSeek模型，而且似乎是完全开放权重的。基准测试成绩不错，但对于开源模型来说，这并不总是那么有意义。应该很快就能实际体验了。

DeepSeek 开源/仓库模型发布

4月23日

01:19

Tibo@thsottiaux

团队正与 @steipete 努力合作，让 OpenAI 模型和生态系统成为享受你的 claw 的显而易见的方式。下周还有更多内容，但提醒一下，你今天已可以作为 ChatGPT 订阅的一部分使用 OpenClaw 了。（今天也还在玩 ChatGPT Images 2.0 玩得很开心）

pash: I've embarked on a new sprint. My mission is to make OpenAI models feel magical in OpenClaw in the next few weeks. Divin...

智能体 OpenAI 开源/仓库编码

00:16

AK@_akhaliq

OpenAI 刚刚在 Hugging Face 上发布了 privacy-filter 一个用于文本中个人身份信息（PII）检测与掩码的双向 token 分类模型模型：https://huggingface.co/openai/privacy-filter

Hugging Face OpenAI 开源/仓库数据/训练

4月22日

08:38

Chubby♨️@kimmonismus

不错：一键部署，你的自我改进 AI agent 全天候运行--主标语完整 Hermes 能力，零终端 43，200+ 星标的 Hermes agent，现已支持原生界面你的全天候同事，上线运行！：））

atomicbot.ai: Hermes Agent by @NousResearch (100k+ ⭐) now inside Atomic Bot: - Free Local models: Qwen, Gemma or - Use your API keys f...

智能体开源/仓库端侧

07:06

Peter Steinberger 🦞@steipete

Sash Zats: made my local CodexBar celebrate every time @thsottiaux hits reset @steipete wanna pr? 😛

OpenAI 开源/仓库编码

04:45

Rohan Paul@rohanpaul_ai

ROBOTIS 本周发布了 AI Sapiens：一款 34 公斤的人形机器人，即使在动态移动和快速抬腿时也能保持平衡。该开源系统旨在作为实体 AI 工作的共享平台，完整的硬件和软件均已公开发布。

具身智能开源/仓库开源生态

03:45

Rohan Paul@rohanpaul_ai

Spectrum统一API打通AI Agent多平台通讯部署

Spectrum by Photon推出开源框架，通过统一API解决AI Agent分发难题。开发者可一次性将agents部署至iMessage、WhatsApp、Telegram及SMS/RCS等主流通讯平台，无需单独适配各平台协议。产品支持原生iMessage蓝色气泡体验，显著提升交互自然度与用户留存。适用于客服、交易提醒、AI伴侣等场景，SDK已开源并配备Beta版管理后台。

Photon: Your agent is ready. The platform shouldn't be the hard part. Introducing Spectrum - an open-source framework that bring...

智能体开源/仓库

00:08

OpenAI Developers@OpenAIDevs

介绍 Euphony，一款用于可视化聊天数据和 Codex 会话日志的开源工具。粘贴公开 URL 或上传本地文件，Euphony 即可将原始数据转换为易于浏览的视图。支持翻译、筛选、编辑等功能。

智能体 OpenAI 开源/仓库编码

4月20日

19:44

Peter Steinberger 🦞@steipete

MCPorter 🧳 0.9.0 发布了。通过 TypeScript 或 CLI 调用 MCP。 - 按服务器工具过滤 - 更稳定的 stdio 关闭 - Windows OAuth URL 引号修复 - OAuth 配置文档 - 工具调用的 schema 声明字符串强制转换 https://github.com/steipete/mcporter/releases/tag/v0.9.0

MCP/工具开源/仓库

4月19日

07:48

Tibo@thsottiaux

开源很棒。试用了 Loopndroll for Codex，很有趣，里面有一些很好的想法，而且完全基于新的 hooks 机制构建。

Alex Barashkov: Codex to Telegram. Infinite loops. Completion checks. All available in Loopndroll. Powered by Codex Hooks. Open source. ...

智能体 OpenAI 开源/仓库编码

03:44

Peter Steinberger 🦞@steipete

🎚️CodexBar 0.21 Abacus AI 提供商、Codex Pro $100 支持、更安全的 OpenAI 网页扩展、修复本地成本扫描、z. ai 5小时配额、Antigravity/Cursor/Ollama 修复、更快的刷新、macOS 26 图标修复等等。 CPU 占用过高的主要问题是 OpenAI 网页获取，现已对新安装禁用。钥匙串问题也已解决。感谢 @RatulSarna 的维护。https://github.com/steipete/CodexBar/releases/tag/v0.21

智能体 GitHub OpenAI 开源/仓库

1…10 111213 14