卧槽，这两个 GitHub 项目必须一起推荐。做AI投研的人可以省几个月功夫了，有人把A股+美港股的全量免费数据，做成了AI原生Skill，不用对接接口，不用处理反爬，几乎全零API Key， Claude Cursor Codex里一句话就能拉行情，研报，资金流，龙虎榜，也就是说一个搞定 A 股全维度数据，一个打通美港股+期权链，装完 Claude Code 一句话就能拉行情、研报、资金流，零 API Key ，这条线程讲两个开源项目，以及和UZI分析引擎的组合杀招 👇

译两个GitHub开源项目分别提供A股和美港股全量免费数据，做成AI原生Skill，无需对接接口、处理反爬，几乎零API Key。在Claude/Cursor/Codex中一句话即可拉取行情、研报、资金流、龙虎榜。项目与UZI分析引擎可组合使用。

宝玉@dotey · 7天前73

如果你 token 多的用不完，又没啥好玩的事情，给你一个项目 decode-codex 玩玩：反编译 Codex App 代码这个项目当前就两个 Skills： 1. codex-app-ref-refresh skill 解包已安装的 http://Codex.app（app.asar）到 ./ref 并格式化./ref/ 2. deobfuscate-javascript skill 把 ref/webview/assets 里打包的 JS 反混淆成命名有意义的可读代码./restored/ 用法很简单，确保你安装了 Codex App。先使用 codex-app-ref-refresh skill 把里面的代码解包提取出来。然后使用 deobfuscate-javascript skill 把提取出来的代码变成可以正常阅读的代码，这一步要配合 /goal，不然还原不了多少文件。项目地址：https://github.com/JimLiu/decode-codex 建议 fork 到自己的Repo，自己测试。

译宝玉分享 GitHub 项目 decode-codex，用于反编译闭源 coding agent Codex App。项目含两个 Skills：codex-app-ref-refresh（解包 app.asar 并格式化）和 deobfuscate-javascript（反混淆 JS 为可读代码）。用法：先解包再反混淆，后者需配合 /goal。用户 @LinearUncle 此前询问反编译模型推荐，宝玉以此项目回应。项目地址：https://github.com/JimLiu/decode-codex

meng shao@shao__meng · 6月25日47

165K ✨ 开源 Skills 系列 Skills For Real Engineers 新添一个 Skill「loop-me」：目前还在 in-progress 阶段，在多轮会话里，用当前目录作有状态工作区，通过「拷问」把想法磨成可落地的工作流规格。 https://github.com/mattpocock/skills/tree/main/skills/in-progress/loop-me loop-me 和 grill-me 共用 grilling 纪律，但产出物不同： · grill-me 对齐任意计划 · loop-me 只产出 workflows/*.md # loop-me 核心概念 Loop 透镜 Loop = 生活中可识别的重复模式：职业节奏、每周节奏、早晨例行、某类固定活动。生活可被看成「大 loop 套小 loop」。价值在于：可预测 → 可委托。Agent 应主动帮用户发现「你没意识到但在重复做的事」，而不只写用户已说出的那几项。 Workflow Workflow = 某一个 loop 的规格说明书；loop 的一次运行 = 该 workflow 的一次实例。规格存放在 workflows/*.md，是唯一真相源。会话过程中可创建、编辑、删除这些文件，随拷问推进而收敛。拷问纪律（grilling） · 一次一问：多问并行会让人迷失 · 每问附带推荐答案：降低回答成本，加速收敛 · 走完整棵决策树：分支依赖逐个解决 · 能查代码库就先查：不把本该自己调研的问题抛给用户 · 有状态：跨会话延续，工作区文件承载进度完成标准（Definition of Done）实现 agent 读 spec 后不需要再问任何问题。拷问未消尽疑点 = 未完成。这与 to-prd（从已有对话合成 PRD）不同：loop-me 是主动挖空未知，直到 spec 自洽。设计哲学（精简） 1. 从重复模式出发，而非从「我要一个 AI agent」出发。 2. 规格是唯一交付物；实现是后续步骤。 3. 人类时间最贵——Push right + Brief，把人的角色压缩为「晚到的单次决策」。 4. 反模板化——结构由场景决定，不由 skill 预设。 5. 状态外置到文件，支持跨会话、可版本化、可 diff。在 Skills 生态中的位置 👇

译开源 Skills 系列（165K stars）新增 in-progress 技能「loop-me」。该技能通过“拷问”采访用户，发现其工作、生活中的重复模式（Loop），并将这些模式打磨成 workflows/*.md 规格文件。核心原则包括：一次一问、附带推荐答案、走完整棵决策树、优先查代码库、状态持久化至文件从而支持跨会话和版本化。loop-me 与已有 grill-me 的区别在于：grill-me 对齐任意计划，loop-me 只产出 workflow 规格。设计哲学强调从重复模式出发，而非直接构建 Agent；规格是唯一交付物，实现留作后续步骤；人类时间最珍贵，将其角色压缩为“晚到的单次决策”。完成标准是 Agent 读取 spec 后无需再提问。

MiniMax (official)@MiniMax_AI · 6月25日40

M3 is now the default builder model in Kimchi Coding by @cast_ai not every coding task should go through the same model. Kimchi routes work based on complexity, cost, and deployment needs. that makes it a natural fit for M3: open weights, 1M context, and strong coding performance with more control. article in the comments. #MiniMaxM3 #AICoding

译M3 现在已成为 @cast_ai 旗下 Kimchi Coding 的默认构建模型。并非所有编码任务都应使用同一个模型。Kimchi 根据复杂度、成本及部署需求来路由任务。这使得 M3 成为自然之选：开放权重、1M 上下文、更强的编码性能且更可控。文章见评论。 #MiniMaxM3 #AICoding

Nathan Lambert@natolambert · 6月25日53

GLM 5.2 being on the Opus frontier for cost of CursorBench is what drives frontier lab margins down

译GLM 5.2 在 CursorBench 上处于 Opus 前沿（在成本方面），这正是导致前沿实验室利润下降的原因。

Lee Robinson@leerob · 6月25日65

You can now try GLM 5.2 in Cursor! Excited to see more useful open models, thank you to Fireworks for partnering here. Results from our evals ↓

译你现在可以在 Cursor 中试用 GLM 5.2！很高兴看到更多有用的开放模型，感谢 Fireworks 在此合作。我们的评估结果如下 ↓

Berryxia.AI@berryxia · 6月25日67

ACL 2026发表，Github 开源斩获7200星！ EverOS 让AI Agent记住一切，27B模型碾压397B！每一个用过AI写代码的人都经历过这件事。早上打开终端，跟AI说"继续昨天的工作"。 AI问你：什么工作？你昨天花了三个小时解释你的代码库结构，你告诉它为什么不用Redux而用Zustand。你让它记住你偏好函数式写法，你花了一个小时调通了一个bug，它帮你找到了根因。今天早上，全部消失了。你需要从头再来。这其实不是Bug，这是当前所有AI Agent的默认状态。它们没有记忆，每次对话都是一张白纸。 2026年，一个叫EverOS的项目在ACL上发表。它不是又一个向量数据库，不是RAG换了更好的Prompt。它是一个完整的记忆操作系统，坐在AI Agent的底层，让它真正记住事情。核心技术叫HyperMem。传统记忆方案是把文本切成块，转成向量，存进数据库，每次对话时搜索最相似的片段还给你。这是平面查找。 EverOS用超图结构组织记忆——主题层、事件层、事实层，一条超边连接多个节点。跨时间关联和多跳推理内建在结构里。结果是，长期对话任务的召回率超过93%。传统RAG大约45%。但真正让人震惊的数据是另一个。他们的基准测试显示，给一个27B参数的模型加上Skills自进化策略，任务成功率提升234.8%。性能追平了397B的模型。一个小15倍的模型，因为有了记忆，打败了没有记忆的巨型模型。这不是在说记忆是一个好功能，这是在说记忆是基础设施。没有记忆的模型就像没有硬盘的电脑，CPU再强，每次重启都归零。安装只需要三行命令。所有记忆以Markdown文件存储，可以用Git版本控制，可以在Obsidian里打开，可以用grep搜索。本地优先，不依赖MongoDB、Elasticsearch或Redis。 GitHub上斩获7200颗星，14个fork。 Apache 2.0协议。支持Claude Code、Codex、OpenClaw等主流Agent框架。有人用它做了阿尔茨海默症辅助记忆系统。有人集成到AI可穿戴设备，25个可运行的用例。问题已经不是AI能不能记住事情。问题是，当AI开始记住一切，你会怎么用它。项目地址：https://github.com/EverMind-AI/EverOS

译ACL 2026发表的EverOS推出HyperMem超图记忆架构，替代传统向量RAG。长期对话召回率达93%（RAG约45%）。27B参数模型借助记忆与Skills自进化策略，任务成功率提升234.8%，性能追平397B模型。本地优先，记忆存为Markdown文件，支持Git版本控制与Obsidian。三行命令安装，Apache 2.0开源，GitHub获7200星，兼容Claude Code、Codex等Agent框架。

Microsoft Research@MSFTResearch · 6月24日42

Talos was built to help resolve a major bottleneck in genomic medicine: human review time. The open-source system recovered 90% of in-scope diagnoses while surfacing just 1.3 candidate variants per patient for expert review. https://msft.it/6014vUBwK

译Talos 旨在帮助解决基因组医学中的一个主要瓶颈：人工审查时间。这个开源系统恢复了 90% 范围内的诊断，同时每个患者仅呈现 1.3 个候选变异供专家审查。

OpenBMB@OpenBMB · 6月24日65

🥳Thanks for sharing this, @MLBoy_DaisukeMajima 🚀 MiniCPM-V 4.6 running at this speed on-device is really impressive — especially under 2B params on Apple Core AI. Great work pushing efficient multimodal AI forward.🫡

译🥳感谢分享，@MLBoy_DaisukeMajima 🚀 MiniCPM-V 4.6 在设备上以这样的速度运行，实在令人印象深刻——尤其是在 Apple Core AI 上以不到 2B 参数跑出。干得漂亮，推动高效多模态 AI 向前发展。🫡

小互@xiaohu · 6月24日61

原样抄写几十页的 PDF，几乎所有模型都做不到一种全新参考滑动窗口注意力（R-SWA）技术能让模型像人类抄书一样“连抄几十页”，而不会造成其记忆混乱。最新开源的 Unlimited OCR 模型：可以模拟人类解析工作记忆的模式 3B大小 500M激活但在标准 32K 上下文上它可以一次前向推理能吞几十页文档，不用切页... 该模型由百度研发，据说是挖走DeepSeek OCR核心贡献者的新作此前所有模型都无法通过一次前向推理完成数十页文档的解析。因为传统 OCR 是一页一页跑，每跑完一页就清空记忆，最后再把各页结果拼起来唯独人类可以连续的抄录数百页书籍而不停歇... Unlimited OCR，就是模拟人类抄书过程，使用了一种叫参考滑动窗口注意力（R-SWA）的技术模型干活的时候,眼前有两样东西: 一样是"原件"(要识别的文档图,加上你给的指令) 一样是"它自己已经写出来的字" R-SWA 的规矩很简单，这两样区别对待：原件，从头到尾一直完整看着，保证抄写位置不出错。正在写的字，只看最近一小段(默认 128 个字)，更早的就不管了，等于边写边忘。好处是，它脑子里要记的东西，始终恒定那么多。不存在需要记的太多，脑子掉线的情况，所以不管文档多少页，显存和算力都不涨。还能一直连续的的抄写文档...

译百度开源全新 Unlimited OCR 模型，采用参考滑动窗口注意力（R-SWA）技术。模型 3B 参数、500M 激活，在标准 32K 上下文下可一次前向推理处理数十页文档，无需切页。R-SWA 将原件与已写文字区分：原件全程保留，已写文字仅关注最近 128 个 token，使显存和算力不随页数增长，有别于传统 OCR 逐页清空拼接的方式。

OpenBMB@OpenBMB · 6月24日63

Big thanks to @JackdeS11 for bringing VoxCPM-0.5B fully on‑device to iPhone! 🎉❤️ The entire stack (MiniCPM4 + LocDiT flow‑matching + AudioVAE) runs on Neural Engine and GPU, with no network required. Great work! 👍👍

译面壁智能（OpenBMB）的扩散式 TTS 模型 VoxCPM-0.5B 已通过 Apple Core AI 完全部署至 iPhone 端侧，无需联网。该模型整合了 MiniCPM4 语言模型、LocDiT flow-matching 和 AudioVAE，每一层均运行于 Neural Engine 和 GPU 上。模型权重和部署代码已开源至 HuggingFace 与 GitHub。

Alibaba Cloud@alibaba_cloud · 6月24日13

🔥 2 DAYS TO GO until #FFA2026! All 11 sub-forum agendas are now live, covering 7 major Data + AI tracks: 🧠 Multimodal & Vector Computing 🤖 AI Agents 🏗️ AI Platform in Practice ⚙️ Intelligent DevOps 🌊 Agentic Lake 📊 Real Time Analytics 🚀 Real-Time Data Powers the Future of AI Plus dedicated industry sessions on Automotive AI and Embodied AI. ✨ Apache Fluss 1.0 debuts with real-time context capabilities for AI Agents. 📅 Jun 26–27 📍 Shenzhen 🔗 Register now: https://hd.aliyun.com/form/8369 #AlibabaCloud #ApacheFlink #ApachePaimon #ApacheFluss #DataAI #AIAgent #RealTimeData

译阿里云宣布距FFA2026大会仅剩2天，全部11个分论坛议程已上线，覆盖7大Data+AI方向：多模态与向量计算、AI智能体、AI平台实践、智能DevOps、Agentic Lake、实时分析与实时数据。同时设汽车AI和具身AI行业专场。Apache Fluss 1.0在大会上首次亮相，具备专为AI智能体设计的实时上下文能力。大会将于6月26-27日在深圳举办。

DogeDesigner@cb_doge · 6月24日32

BREAKING: Elon Musk has just confirmed the official name of the SpaceX AI satellite constellation: 'STARMIND'.

译突发：埃隆·马斯克刚刚确认了SpaceX AI卫星星座的官方名称："STARMIND"。

宝玉@dotey · 6月24日70

http://transitions.dev 这个网站的动画过渡效果很不错👍 还可以安装 Skill，这样 Agent 可以自己为你的网页添加炫酷的动画 npx skills add jakubantalik/transitions.dev

译http://transitions.dev 这个网站的动画过渡效果很不错👍 还可以安装技能，这样 Agent 可以自己为你的网页添加炫酷的动画 npx skills add jakubantalik/transitions.dev

Rohan Paul@rohanpaul_ai · 6月24日70

Agents token burn needs more visibility. Latitude just launched an open-source, MIT licensed monitoring platform that turns AI agent conversations into production debugging data. Most agents already talk to more users than any teammate, but those chats usually sit as raw logs, so teams miss frustration, unmet requests, repeated failures, and churn signals. Latitude organizes that mess into a see, catch, fix loop: see sessions, users, tools, cost, latency, and behaviors; catch repeated failures through Signals; fix them from your editor through MCP. The product is built for production agents, not just model calls, because agent quality depends on tool use, user intent, retries, cost, latency, and the gap between what the user expected and what the system did.

译Latitude 发布 MIT 许可的开源监控平台，将 AI 智能体对话转为生产调试数据。多数智能体已比员工接触更多用户，但对话仅存为原始日志，导致团队错过用户不满、未满足请求、重复失败和流失信号。平台提供 see, catch, fix 循环：查看会话、用户、工具、成本、延迟和 behaviors；通过 Signals 捕获重复失败；通过 MCP 从编辑器直接修复。平台面向生产智能体，关注工具使用、用户意图、重试、成本、延迟等，而非仅模型调用。推文称智能体对话是公司最被低估的数据源，Latitude 正改变此局面。

AYi@AYi_AInotes · 6月24日45

兄弟们，华尔街六位数年费的投研能力，现在一套开源系统免费就能用。 4.6万GitHub星标，8千次分叉，MIT协议完全开源，一分钱不用花。不用凑两万五千美元的开户门槛，不用付彭博终端六位数年费，更不用给对冲基金交百分之二管理费加百分之二十业绩分成，十八位对应不同流派的智能体，直接在你笔记本上跑。巴菲特锚定合理价格的卓越企业，芒格死守每笔交易的安全边际，迈克尔贝瑞逆向挖掘被市场忽略的深度价值，木头姐高信念押注颠覆性成长赛道，还有格雷厄姆达莫达兰比尔阿克曼，外加十一位覆盖技术面情绪面风控基本面的专家，全员独立输出判断。输入一个股票代码，系统自动抓取实时财报资产负债表内幕交易动态与全量市场新闻。每位智能体严格遵循自身投资哲学做分析，风控模块同步排查仓位风险。最终由组合经理整合所有信号给出买卖持有结论，每一步都附完整推理链，全程没有黑箱。打开推理展示模式，相当于坐在上帝视角看这群大佬当场辩论。护城河拆解，风险点揪出，机会挖掘，正反两面全部摊开，所有决策逻辑一目了然。内置完整回测引擎，可用历史数据验证策略收益。配了可视化网页界面，不用敲复杂命令行，上手就能用。支持主流云模型接口，也能通过Ollama完全本地运行，所有数据永远不会离开你的设备。核心标的基础数据永久免费，连API密钥都不用申请。所有AI分析都只是参考，不能替代自主决策，但如果这套系统给你拿了半年的持仓票，发出了明确的卖出信号，你会重新审视这笔投资吗。仓库链接放评论区👇 #美股#AI投资#开源项目

译一个4.6万星标、8千次分叉的MIT协议开源项目，提供免费AI投研系统。输入股票代码后，18位分别模仿巴菲特、芒格、木头姐、格雷厄姆等流派的智能体会自动抓取实时财报、新闻，依据各自投资哲学独立分析，风控模块排查仓位风险，最终由组合经理输出买卖持有结论，推理链完全透明。内置回测引擎、可视化网页界面，支持云模型或通过Ollama完全本地运行，核心基础数据永久免费，无需API密钥。

Chubby♨️@kimmonismus · 6月24日70

Been waiting for someone in agent observability to do this properly. Latitude doesn't just hand you traces. It collapses repeated failures into one issue with frequency and reason, and lets you search production conversations in plain English. Open source, MIT licensed, self-hostable. Rare in this category. (and you know that i love open source) If you run agents in prod, the Claude Code token telemetry is the part I'd try first.

译Latitude 是一款开源的 AI agent 可观测性工具，MIT 许可、可自托管。它不局限于提供 traces，而是将重复失败自动归纳为单个 issue，显示频率和根本原因；还支持用自然语言搜索生产对话。引用推文指出，AI agent 对话是公司最被低估的数据源，Latitude 能改变这一状况。推荐优先尝试其 Claude Code token telemetry 功能。

Berryxia.AI@berryxia · 6月23日63

卧槽，这一波有人直接把DeepSeek的“墙角挖倒了啊”？今天在HuggingFace刷到一个有意思的OCR开源模型和背后有趣的故事。这个OCR模型直接与传统的OCR模型完全不同！先说说背景，熟悉的朋友都知道，我最近做过几次OCR评测（可以翻阅我的前面文章），测过18个文档、6类场景，搭过本地工作流。对OCR的能力边界，算是有点体感。之前评测最头疼的并不是准确率，是多页文档的工作流。所有模型都是逐页处理。每一页清空一次记忆，再用外部调度器拼接结果。本质上是个for-loop （循环），并不是真正的长程理解。而百度这次开源的Unlimited OCR，解法完全不同。它不逐页处理。一次前向推理，几十页文档直接转录完。核心卖点就一句话：One-Shot Long-Horizon Parsing（单次长时解析），也就是说句话说：无需大规模标注数据，低成本实现长文本深度句法理解，适配大语言模型少样本能力。一张图或者一本多页PDF，直接扔进去就能一次性解析完。不用再切成小块反复跑。据说这个模型灵感来源很有意思，人类抄书的时候，不会把整本书都记在脑子里。只关注三个点：原文、刚写完的几个字、下一个要写的字。较早的内容自然淡出。近期的上下文用来追踪进度。这种日常行为揭示了一种与当前模型截然不同的注意力模式。 Unlimited OCR的核心机制R-SWA，参考滑动窗口注意力，就是模拟这个过程。每个token能看到完整图像。但输出端只维护前面128个状态。32K上下文，一次推理几十页。 KV Cache大小恒定，不随文档长度增长。这其实是把OCR从认字工具往文档理解引擎又推进了一步。以前大家觉得长文档处理必须分块。现在越来越清楚：只要上下文够长、模型够强，一镜到底反而更高效、更准确。技术报告的写法也很有意思。故事性极强，想法激进。有种探索者的气质。这种风格此前都是DeepSeek技术报告的专属标签。然后事情就开始变得有趣了。翻了下技术报告的核心贡献者。三位，两个人用真名。唯独技术总监挂了个两字母缩写YY。YY是谁？我顺着线索往回找了一下。您才怎么着？ GitHub致谢栏把DeepSeek-OCR和DeepSeek-OCR-2排在了前两位。 DeepEncoder最初就是在DeepSeek OCR中被引入的。这次Unlimited OCR恰恰完美融合了这一高压缩率编码器。里面提及DeepSeek OCR的部分，语气不像在对标竞品。更像在对自己之前的研究展开反思和优化。国内OCR圈不算大。能做出R-SWA这种级别突破、还对DeepSeek OCR架构有亲手做过级别熟悉的人，一只手数得过来。再看另一个细节。 2026年4月24日，DeepSeek-V4正式发布。58页技术报告末尾，近300个名字按字母顺序排列。其中有10个名字旁边标注了一个小小的星号：已离职。从2025年下半年到2026年初，不到半年，DeepSeek走了五个人。他们去了哪。YY是谁。报告没直说，但越读越觉得答案在字里行间。也明显看出来百度走最近的路子确实不一样了，你可要知道一直最强的OCR 莫属于他们啊，几乎没有什么对手啊！从PaddleOCR到这次的Unlimited OCR，能感觉到在往一个更前沿的方向走。这更新迭代速度，这人才储备的能力，以及发展方向，未来可期。不管八卦，单论技术。一镜到底的长文档OCR这个方向确实是对的。开源了。感兴趣的自己试试。我后面也会进行实测，顺手点个🌟。 GitHub：http://github.com/baidu/Unlimited-OCR Hugging Face：http://huggingface.co/baidu/Unlimited-OCR

译百度在 HuggingFace 开源 Unlimited OCR 模型，核心卖点为 One-Shot Long-Horizon Parsing（单次长时解析），一次前向推理即可转录几十页 PDF 或图像。其创新机制 R-SWA（参考滑动窗口注意力）模拟人类抄写时的注意力模式——每个 token 看到完整图像，输出端只维护前 128 个状态，32K 上下文，KV Cache 大小恒定不随文档长度增长。技术报告披露灵感与 DeepSeek-OCR 架构有密切联系，核心贡献者中技术总监 YY 疑为近期从 DeepSeek 离职的研究者。模型已在 GitHub 和 HuggingFace 开放。

Berryxia.AI@berryxia · 6月23日72

有人把自己的剪辑 Skills 接上 Codex，现在能让Agent从口播素材直接跑到最终成片。成峰之前开源了一个2000+ Star的剪辑Skills，这次和Codex结合后，整个流程打通了。把原始口播视频和文字稿丢给Agent，它就能自动剪辑、分镜、做动画，最后合成完整视频。已经帮他跑出好几条千赞内容。具体流程是这样的：先让Codex安装他的剪辑Skills，然后用斜杠命令 /剪口播把素材和稿子扔进去，Agent会生成审核页，确认后直接输出剪好带字幕的视频。接下来用 /口播成片命令，Agent会生成一个HTML分镜核对页，左边是画面，右边是字幕和任务描述。你可以直接反馈哪一段需要改，Codex用Computer Use自己去调整。确认没问题后进入时间线预览，最后用HyperFrames合成最终MP4。以前做视频是人围着时间线操作，现在是人给方向，Agent围着工作流跑。视频生产正在从“手动执行”变成“流程编排”。地址见评论区👇

译成峰开源了一款2000+ Star的剪辑Skills，与Codex结合后，Agent可自动完成口播视频的剪辑、分镜、动画及合成。流程：先安装Skills，用/剪口播命令上传素材和文稿，生成审核页并输出带字幕视频；再用/口播成片命令生成HTML分镜核对页，用户反馈后Codex通过Computer Use自动调整，最后用HyperFrames合成最终MP4。视频生产从手动执行转向流程编排。

向阳乔木@vista8 · 6月23日48

大聪明（赛博禅心）一直跟我说，做自媒体要研究新智元。喷归喷，但人家起标题真的是一绝。百度在一直OCR方面的技术很强，昨天开源 Unlimited OCR更强，3B参数500M激活，这么小的模型竟然有这么好的效果，出乎意料。先不管作者是不是从DeepSeek出走的，文章提到的参考滑动注意力窗口技术值得关注。技术解读见第二条，后面有项目开源地址。

译百度开源 Unlimited OCR 模型，仅3B参数、500M激活参数，在小参数量下实现极佳效果。推文提到其参考了滑动注意力窗口技术，并附带了技术解读和开源地址。

Berryxia.AI@berryxia · 6月23日73

卧槽，这一波直接把DeepSeek的“墙角挖到了啊”！昨晚看到HuggingFace刷到这个有意思的OCR开源模型和原来背后有趣的故事。这个OCR模型直接与传统的OCR模型完全不同！光着速度和精准度真的就无敌了~~ 先说说背景，熟悉的朋友都知道，我最近做过几次OCR评测（可以翻阅我的前面文章），测过18个文档、6类场景，搭过本地工作流。对OCR的能力边界，算是有点体感。之前评测最头疼的并不是准确率，是多页文档的工作流。所有模型都是逐页处理。每一页清空一次记忆，再用外部调度器拼接结果。本质上是个for-loop （循环），并不是真正的长程理解。而百度这次开源的Unlimited OCR，解法完全不同。它不逐页处理。一次前向推理，几十页文档直接转录完。核心卖点就一句话：One-Shot Long-Horizon Parsing（单次长时解析），也就是说句话说：无需大规模标注数据，低成本实现长文本深度句法理解，适配大语言模型少样本能力。一张图或者一本多页PDF，直接扔进去就能一次性解析完，不用再切成小块反复跑。这特么是真的爽啊！据说这个模型灵感来源很有意思，人类抄书的时候，不会把整本书都记在脑子里。只关注三个点：原文、刚写完的几个字、下一个要写的字。较早的内容自然淡出。近期的上下文用来追踪进度。这种日常行为揭示了一种与当前模型截然不同的注意力模式。 Unlimited OCR的核心机制R-SWA，参考滑动窗口注意力，就是模拟这个过程。每个token能看到完整图像。但输出端只维护前面128个状态。32K上下文，一次推理几十页。KV Cache大小恒定，不随文档长度增长。这其实是把OCR从认字工具往文档理解引擎又推进了一步。以前大家觉得长文档处理必须分块。现在越来越清楚：只要上下文够长、模型够强，一镜到底反而更高效、更准确。技术报告的写法也很有意思，故事性极强，想法激进。有种探索者的气质，这种风格此前都是DeepSeek技术报告的专属标签。然后事情就开始变得有趣了。翻了下技术报告的核心贡献者。三位中，两个人用真名。唯独技术总监挂了个两字母缩写YY。YY是谁？顺着线索往回找下看看？ GitHub致谢栏把DeepSeek-OCR和DeepSeek-OCR-2排在了前两位。 DeepEncoder最初就是在DeepSeek OCR中被引入的。这次Unlimited OCR恰恰完美融合了这一高压缩率编码器。里面提及DeepSeek OCR的部分，语气不像在对标竞品。更像在对自己之前的研究展开反思和优化。国内OCR圈也不算太大哈。能做出R-SWA这种级别突破、还对DeepSeek OCR架构有亲手做过级别熟悉的人，一只手数得过来。我们再看看另一外个细节哈。 2026年4月24日，DeepSeek-V4正式发布。58页技术报告末尾，近300个名字按字母顺序排列。其中有10个名字旁边标注了一个小小的星号：已离职。从2025年下半年到2026年初，不到半年，DeepSeek走了五个人。他们去了哪。YY是谁。报告没直说，但越读越觉得答案在字里行间。也明显看出来百度走最近的路子确实不一样了，你可要知道一直最强的OCR 莫属于他们啊，几乎没有什么对手啊！从PaddleOCR到这次的Unlimited OCR，能感觉到在往一个更前沿的方向走。这更新迭代速度，这人才储备的能力，以及发展方向，未来可期。不管八卦，单论技术。一镜到底的长文档OCR这个方向确实是对的。项目、模型都是开源，感兴趣的自己试试地址评论区👇🏻。

译百度在 HuggingFace 开源 Unlimited-OCR 模型，核心创新 R-SWA 使解码时 KV Cache 恒定，不随页数增长。模型不逐页处理，一次前向推理即可转录多页 PDF，32K 上下文覆盖几十页。在 OmniDocBench 上获 93 分，比 DeepSeek-OCR 高 6 个百分点。技术报告致谢栏将 DeepSeek-OCR 排首位，暗示架构继承；同期 DeepSeek-V4 报告末 10 人标注“已离职”。模型已开源。

Berryxia.AI@berryxia · 6月23日66

这速度真特么离谱啊！卧槽！最新开源的Unlimited-OCR能一次性处理几百页文档，而且速度还很稳。而这个模型来自百度刚刚在hugging face 发布，其核心创新是R-SWA（Reference Sliding Window Attention）。它让模型在解码时KV Cache保持恒定，不会随着文档页数增加而爆炸式增长。结果就是：一张图或者一本多页PDF，直接扔进去就能一次性解析完，速度和稳定性都比传统逐页处理的方式好很多。在OmniDocBench上拿到了93分，比DeepSeek-OCR高出6个百分点。这已经不是简单的准确率提升，而是把长文档OCR的工作流从“分块+外部调度器拼接”变成了真正的端到端一镜到底。以前做多页文档最头疼的就是上下文断裂和格式不一致，现在模型能一次性看到整篇文档的结构、布局和逻辑关系，输出质量自然上了一个台阶。这其实是把OCR从“认字工具”往“长文档理解引擎”又往前推了一大步。技术路线很清晰，也很实用。果然百度现在OCR独树一帜，遥遥领先了。模型地址见评论区～ 👇

译百度PaddlePaddle在HuggingFace发布Unlimited-OCR，核心创新R-SWA（Reference Sliding Window Attention）使解码时KV Cache保持恒定，避免随页数爆炸。该模型可一次性处理数百页文档，速度和稳定性优于逐页处理。在OmniDocBench上得分93%，比DeepSeek-OCR高出6个百分点。这使长文档OCR从“分块+拼接”变为端到端一镜到底，直接理解整篇文档结构与布局。

AYi@AYi_AInotes · 6月22日71

Damn，这个开源工具直接减少了95%token消耗🤯 这可能是今年最狠的LLM降本神器， Netflix工程师开源的Headroom 把本地Agent套在Codex，Cursor，OpenClaw，Hermes或Claude code外面，数据进模型前自动压缩负载，不用改任何代码，就能直接生效，核心能力四个点 1️⃣智能压缩日志 JSON和代码完美保留逻辑准确性， 2️⃣全程100%数据本地化内容不会流出本地环境， 3️⃣避免顶级模型在样板代码上浪费大量令牌， 4️⃣适配主流AI编码工具开箱即用，上线没多久就拿下35k GitHub星标行业认可度拉满，说白了，以前你喂给 Claude code Codex的一大坨上下文里，有一半以上是冗余的， Headroom 在本地帮你剃干净了再发过去，LLM 收到的全是精肉。本质上是把降本的逻辑从改提示词换模型挪到了输入前置处理，不牺牲效果也不碰数据安全是目前最稳妥的降本思路之一，完全免费开源仓库链接放评论区了有需要的直接冲

译Netflix 工程师开源 Headroom，在 Codex、Cursor 等 AI 编码工具外包围本地 Agent，自动压缩日志、JSON 和代码，保留逻辑准确性，减少 95% token 消耗。数据本地化，无需改代码，已获 35k GitHub 星标。核心将降本从改提示词、换模型转向输入前置处理。

Rohan Paul@rohanpaul_ai · 6月22日57

A massive legal datasets just dropped on Huggingface. For the first time, researchers used AI to gather, run optical character recognition, process, and build a database of every law in America. That is 2.2M laws. LocalLaws/LOCUS-v1 - Datasets on Hugging Face.

译一个庞大的法律数据集刚刚在 Huggingface 上发布。研究人员首次使用 AI 收集、运行光学字符识别、处理并构建了全美每一条法律的数据库。那就是 220 万条法律。 LocalLaws/LOCUS-v1 - Hugging Face 上的数据集。

Berryxia.AI@berryxia · 6月22日62

明天拿乔帮主这个去生产几个最近对项目试试看～

译博主转发开源乔木icon Skill，支持两种方案：1）调用Imagen参考数百图标生成；2）搜索2万SVG图标叠加纯色/渐变背景。适用于App或网页快速设计图标，精细打磨仍需设计师。安装命令：`npx skills add joeseesun/qiaomu-icon-generator`。

Berryxia.AI@berryxia · 6月22日65

必须收藏起来了！兄弟们～不废话，按头推荐了！以下是 10 个应该被认定为“非法拥有”的 GitHub 仓库（但实际上它们都是免费且开源的软件）。请将它们收藏起来以备后续使用： 1️⃣ Recordly – 一个免费的屏幕录制工具。支持自动缩放、流畅的鼠标操作、网络摄像头叠加功能，以及无需使用任何编辑器即可制作的精美演示文稿。开源许可证：AGPL-3.0 🔗https://github.com/webadderallorg/recordly) 2️⃣Stirling-pdf – 一个功能强大的 PDF 处理工具集，支持合并、分割、签名、内容编辑、OCR 转换、压缩等操作。所有功能都在本地运行，数据不会离开用户的计算机。开源许可证：MIT 🔗https://github.com/Stirling-Tools/stirling-pdf 3️⃣ Photogimp – 一个将 GIMP 软件升级为类似 Photoshop 功能的工具。它为 GIMP 添加了 Photoshop 的快捷键、布局设计等功能。 🔗: https://github.com/Diolinux/PhotoGimp 4️⃣ Open-notebook – 一个用于创建笔记和总结的工具，支持插入 PDF 文件、URL 或 YouTube 链接，甚至可以生成播客。支持多种数据源（18 种以上）。开源许可证：MIT 🔗: https://github.com/lfnovo/open-notebook 5️⃣ Odysseus – PewDiePie 自己开发的 AI 工作空间工具集，用于处理和分析大量数据。 🔗: https://github.com/pewdiepie/odysseus 这些工具都非常实用且开源，非常适合开发者或日常用户使用。功能列表： - 聊天功能（Chat） - 代理服务（Agent Services） - 深度研究工具（Advanced Research Tools） - 文档管理系统（Document Management） - 邮件功能（Email） - 记忆辅助工具（Memory Assistance） - 优先使用本地资源；支持用户自定义硬件与数据配置。（MIT开发）相关项目链接： 🔗: [pewdiepie-arch](http://github.com/pewdiepie-arch/) 免费资源： 6️⃣ 免费域名服务：为所有人提供免费的域名；可将其指向 Cloudflare 或任意 DNS 服务器，无需支付域名费用。（开源许可协议：AGPL-3.0） 🔗: [DigitalPlatDev](http://github.com/DigitalPlatDev/) 专门用于 AI 技术的工具： 7️⃣ Hyperframes：用于生成 MP4 视频的工具；能将 HTML/CSS 代码及动画内容转换为可预测的 MP4 格式，专为 AI 系统设计。（开源许可协议：Apache-2.0） 🔗: [heygen-com/hyp](http://github.com/heygen-com/hyp/) 网站转换工具： 8️⃣ Web-to-App Converter：可将任何网站直接转换为 Android 应用程序；支持自定义网页视图、APK 签名功能，同时支持 Node.js、PHP、Python 等编程语言的运行环境（无需远程构建）。 🔗: [shiaho777/web-…](http://github.com/shiaho777/web-) 多媒体处理工具： 9️⃣ ReClip：一个用于下载 YouTube、TikTok、X 及 Instagram 等平台视频/音频的工具；支持多种格式（MP4/MP3），基于 yt-dlp 技术实现。 🔗: [averygan/reclip](http://github.com/averygan/reclip) 创新绘图工具： 10️⃣ Excalidraw：一款替代 Miro、FigJam 和 LucidChart 的高效绘图工具，提供无限画布空间。（注：部分链接可能为临时或私有仓库链接，实际可用性请以最新更新为准。）支持手绘图表、线框图（wireframes）的创建；支持实时协作功能；所有数据传输均采用端到端加密技术。这款工具获得了超过 12 万个用户的好评（评价来自 MIT）。 🔗: http://github.com/excalidraw/exc… 实际上，大多数人都需要为那些本就可以免费使用的工具支付费用…… 但你完全没有这个必要。

译推荐10个免费开源GitHub仓库：Recordly（免费屏幕录制，AGPL-3.0）、Stirling-PDF（PDF工具集，50+功能，MIT）、PhotoGIMP（GIMP转Photoshop界面）、Open Notebook（自托管NotebookLM，支持PDF/URL/YouTube，18+数据源，MIT）、Odysseus（PewDiePie开发的AI工作空间，本地优先，MIT）、FreeDomain（免费域名指向Cloudflare，AGPL-3.0）、Hyperframes（HeyGen的HTML/CSS转MP4引擎，Apache-2.0）、Web-to-App（网站转Android应用，支持Node/PHP/Python运行时）、ReClip（基于yt-dlp的多平台视频/音频下载）、Excalidraw（无限画布手绘图表，端到端加密，12万+好评）。

OpenClaw🦞@openclaw · 6月21日36

OpenClaw v2026.6.9 is out, with a focus on paper cuts! 💬 Richer Telegram delivery 👏 Steadier agent recovery 🧬 Stronger Codex integration 📦 Slimmer distribution 👌 Improvements in search and skills https://github.com/openclaw/openclaw/releases/tag/v2026.6.9

译OpenClaw v2026.6.9 发布，专注于小修小补！ 💬 更丰富的 Telegram 投递 👏 更稳定的智能体恢复 🧬 更强的 Codex 集成 📦 更精简的分发包 👌 搜索与技能的改进 https://github.com/openclaw/openclaw/releases/tag/v2026.6.9

向阳乔木@vista8 · 6月21日70

不求设计师！Codex一句话生成App图标，加快项目开发速度。开源乔木icon设计Skill，支持两种方案： 1. Codex内调用Imagen生图能力，参考小耳@xiaoerzhan收集的几百个图标参考生成。 2. 支持搜索 2w SVG图标，加上纯色或渐变背景生成icon。无论开发App，还是网页，都可以快速设计图标，挑选使用。当然，精细打磨还是要靠设计师。 Skill安装方法： npx skills add joeseesun/qiaomu-icon-generator 开源Github地址见评论区

译Vista分享开源乔木icon设计Skill，支持Codex内一句话生成App/网页图标。两种方案：1）调用Imagen生图，参考数百图标示例；2）搜索2万SVG图标，搭配纯色或渐变背景。适用于快速原型开发，精细设计仍需设计师。安装命令：`npx skills add joeseesun/qiaomu-icon-generator`。

Berryxia.AI@berryxia · 6月21日74

榨干Codex的最后一丝能力！有人给Codex做了一个无限画布插件，现在可以用更直觉的方式在画布上标注、修改图片了。钟二信开源了Cowart这个插件，把Codex和无限画布工具结合在一起。你可以直接在画布上用自然语言让Codex标注、修改图片，整个过程更直观，也更容易留痕。甚至GPT Image 2也能比较自由地用起来。以前用AI处理图片，大多还是发prompt、等生成、然后再prompt迭代。现在有了画布工具，过程更像在真实的设计软件里操作一样：选中区域、说修改意见、看到实时反馈、继续迭代。插件已经开源，大家可以直接去试：https://github.com/zhongerxin/cowart 然后可以让Codex继续自我进化了啊～:(

译钟二信发布了开源插件Cowart，结合Codex与无限画布工具，让用户直接在画布上用自然语言标注、修改图片。该过程比传统AI图片处理（发prompt、等生成、再迭代）更直观，也更容易留痕。插件还支持更自由地使用GPT Image 2。Cowart名字来自“Code with Art”。插件已开源至GitHub。

向阳乔木@vista8 · 6月21日65

牛逼，最近看到的最酷的项目。

译开发者 @zhongerxin 发布开源项目 Cowart，将 OpenAI Codex 与无限画布工具结合，作为 VS Code 插件使用。项目名 Cowart 取自 "Code with Art"。代码已托管至 GitHub：https://github.com/zhongerxin/cowart#

Berryxia.AI@berryxia · 6月20日19

兄弟们。搞的差不多了，过2天就给大家开源玩玩。挺有意思的ig项目~😄

译GLM-5.2 已达到 Opus 4.6 水平。主推文称"搞的差不多了，过2天就给大家开源玩玩"。

向阳乔木@vista8 · 6月20日21

前几天去上海，发现飞机上不是在看PPT就是再写PPT。怪不得好友们的PPT skill这么火爆哈哈哈。终于想写一个自己的PPT Skill了，特色： 1. 同时生成可编辑的PPTX格式文档、PDF和HTML。 2. GPT 5.5 Pro调研的PPT写作方法论 3. 判断环境，Codex中调生图设计5-12张PPT背景，不能生图时用SVG设计渐变背景。 4.融入echart、lucide icon、Google Font，让字体和图标更丰富内置抓取，无论X帖子/长文、论文PDF，都能拿内容和图片，作为素材。希望下周能开发测试完成开源。

译Vista 计划开发 PPT 生成 Skill，核心：同时输出可编辑 PPTX、PDF、HTML；基于 GPT 5.5 Pro 方法论；按环境在 Codex 生图或 SVG 渐变背景；集成 echart、lucide icon、Google Font；内置抓取 X 帖子、长文、论文 PDF 素材。预计下周开源。

OpenBMB@OpenBMB · 6月19日54

A developer in our community recently built VoiceGate using VoxCPM2 + ComfyUI for cross-lingual video dubbing and localization.💥 You can upload a video, and it automatically: 🎬 Extract speech and generate subtitles (ASR) 🌍 Translate content using LLMs 🗣 Synthesize multilingual speech with VoxCPM2 (30+ languages + 9 dialects support, plus voice cloning & timbre design) ⏱ Align audio with timestamp-aware SRT scheduling 🎧 Separate and remix voice / background audio for natural output 👍Core innovation The VoiceBridge plugin introduces SRT timestamp-driven TTS alignment into ComfyUI for the first time, enabling fine-grained subtitle-level control over speech generation. 📊SRT-driven audio splitting + TTS generation 📊Timestamp-based audio merging for precise sync 📊ASR + forced alignment for structured subtitles 📊Solves audio-video desynchronization in AI dubbing workflows 💬 Applications 🔷Turn Chinese videos into global languages (EN/JP/KO…) 🔷Bring global videos into Chinese & dialects 🔷Multilingual versions of docs, museums & education 📦Try it now：https://github.com/YanTianlong-01/VoiceGate More info https://huggingface.co/spaces/openbmb/VoxCPM-Demo https://github.com/OpenBMB/VoxCPM/ #VoxCPM2 #OpenBMB #VoiceSynthesis #SpeechModel #AIVoiceCloning

译社区开发者基于 VoxCPM2 与 ComfyUI 构建了 VoiceGate，实现自动语音提取（ASR）、大语言模型翻译、多语言语音合成（支持 30 多种语言和 9 种方言，含语音克隆与音色设计）、时间戳对齐音频以及背景音分离混音。核心创新 VoiceBridge 插件首次在 ComfyUI 中引入 SRT 时间戳驱动的 TTS 对齐，实现字幕级精细控制，解决 AI 配音音视频不同步问题。应用包括中文视频转英/日/韩等多语言，以及全球视频转中文及方言。

elvis@omarsar0 · 6月19日75

YT Videos -> Aritfacts Watch how I use my new /youtube-notetaker skill to generate artifacts from YT videos. Captures slides, notes, transcriptions,... Go try it ↓

译YT 视频 -> Artifacts 看看我如何使用新的 /youtube-notetaker 技能从 YT 视频生成 Artifacts。捕获幻灯片、笔记、转录内容…… 快去试试 ↓

AYi@AYi_AInotes · 6月19日76

这可能是我近期看到的最值得深入研究的一次skills开源和工程脚手架，最后总结的5个工程思路大家可以直接拿去用。 DeepSeek 研究员 Deli Chen 把他的 AutoResearch 协议开源了，同时扔出一篇关于 Self-play 的综述（第四篇）。最炸的地方是，他的代理第一次完全 autonomously 在 285B 模型上跑通了完整的 RL 研究闭环——实验设计、写代码、提交 GPU 任务、debug、到出结论，全程零人工干预。要知道写代码和跑通研究闭环是两件事，就像学会炒菜和开一家每天出品稳定的餐厅，差的不只是一道菜，还有整套后厨流程。至于论文里的结论，我放在评论区。

译DeepSeek研究员Deli Chen将AutoResearch协议开源，并发布Self-play综述论文。其AI智能体首次完全自主地在DeepSeek 285B模型上完成完整RL研究闭环——从实验设计、写代码、提交GPU任务、debug到结论总结，全程零人工干预。系统调用了GRPO工具，被视为持续学习研究的开端。

向阳乔木@vista8 · 6月19日71

Codex产品优秀，但有些场景还是需要Claude Code。比如写作还是用4.6 sonnet，前端网页用4.8 。还有些场景要随时调用国产便宜模型，比如智谱 GLM-5.2，Deepseek V4 Flash等，用于开发、翻译等。开发了个MCP，支持Codex中掉CC干活。也支持多模型N轮讨论，交给Codex总结出方案。项目已免费开源，见评论区

译开发者在Codex基础上开发了一个MCP，支持在Codex中调用Claude Code（用于写作等场景用Claude Sonnet 4.6，前端网页用Claude 4.8），并可随时调用国产廉价模型如智谱GLM-5.2、Deepseek V4 Flash用于开发、翻译等。该MCP还支持多模型多轮讨论，由Codex汇总方案。项目已免费开源。

向阳乔木@vista8 · 6月19日61

道德经配图版已开源，但生图用的Seedream 5，效果还有优化空间，经常图文不相关，但整体阅读体验有提升。在线体验：https://daodejing.qiaomu.ai/ 开源地址：https://github.com/joeseesun/qiaomu-daodejing-comics

译一个将《道德经》每句拆解翻译成大白话并配以AI生图的漫画项目已开源，在线体验和GitHub仓库已公开。生图基于Seedream 5模型，目前效果尚有优化空间（图文相关性不够稳定），但整体阅读体验有所提升。

Berryxia.AI@berryxia · 6月19日71

有人用Codex连续干了38小时、提交301个分支，把自己的“创建skill的skill”升级到了2.0版本。兄弟们，免费🆓开源直接用啊！姚金刚老师把元Skill（yao-meta-skill）做了重构和2.0升级，现在已经完成并推送到GitHub。 Codex在整个过程中持续拆解任务、提交分支、修复问题、迭代优化，最后产出了完整的升级方案和2.0与1.0的详细对比报告。这个元Skill本身就是用来创建其他skill的工具，现在它自己先升级了一版。升级后的版本在结构、可靠性和可扩展性上都有明显提升，而且所有文档和对比都公开了，别人可以直接参考怎么用agent做复杂工程重构。最有意思的是整个升级过程本身就是一个活生生的例子：用高级agent（Codex）来重构“创建agent工具”的元框架。这说明agent的能力已经强到可以自己参与到“如何更好地使用agent”的迭代里了。地址见评论区👇

译姚金刚使用高级agent Codex连续38小时、提交301个分支，将自己创建其他skill的元Skill（yao-meta-skill）重构并升级至2.0版本，已推送到GitHub。Codex持续拆解任务、修复问题，产出完整升级方案与1.0→2.0对比报告。新版本在结构、可靠性和可扩展性上明显提升，所有文档公开。此次升级本身成为典型案例：高级agent已能参与“如何更好地使用agent”的框架迭代。

向阳乔木@vista8 · 6月19日68

有意思，开发一个MCP，连接到网页版的ChatGPT。使用这个MCP就能读取本地的文件。 Codex额度用光，无法重置时，也可以继续用ChatGPT开发。变向获得了双倍codex额度，虽然有点诡异。配置注意事项：打开 ChatGPT网页端，设置->应用->高级模式->开启开发模式，添加MCP

译开发者 @wshxnv 发布 DevSpace——一个 MCP 连接器应用，能将 ChatGPT 网页版变成 Codex。通过 `npm install -g @waishnav/devspace` 安装后，将 MCP 服务器通过互联网隧道，即可享受双倍 Codex 额度。配置时在 ChatGPT 网页端设置→应用→高级模式开启开发模式并添加 MCP。使用场景：用 GPT-5.5 Pro、xHigh 或 High 规划，再交给本地 Codex/pi/opencode/Cursor/Claude Code 执行；也可用于审查代码。DevSpace 利用 OpenAI 给 ChatGPT 和 Codex 分离额度的设计，变相获得双倍额度。开发者提醒节制使用。

Rohan Paul@rohanpaul_ai · 6月19日23

Anthropic appears to have built some lovely libraries. ---- During Dario and Daniela Amodei's interview on Bloomberg Originals" YouTube channel, (link in comment)

译Anthropic 似乎构建了一些不错的库。 ---- 在 Dario 和 Daniela Amodei 接受 Bloomberg Originals YouTube 频道采访时，（评论区中附有链接）