5月19日

11:04

Tencent Hy@TencentHunyuan

精选72

开源了评估视觉大语言模型（VLLM）对古代汉字视觉感知能力的基准测试Chronicles-OCR。该数据集覆盖了从甲骨文到草书的3000年演变历程，包含7种历史书体与2800张均衡图像。评估涵盖字形定位、细粒度识别、古代文本解析和字体分类四项核心任务，旨在探究视觉分布随时间的变化如何影响模型感知。相关论文与代码已开源。

多模态开源生态论文/研究

推荐理由：腾讯混元开源的视觉感知基准，专攻古汉字识别，覆盖从甲骨文到草书的三千年演变，做 OCR 和视觉模型的可以拿来测测自家模型在历史文本上的感知退化。

07:25

karminski-牙医@karminski3

字节跳动开源全模态模型Lance：轻量高效的"拼好模"

字节跳动开源了全模态模型Lance，其激活参数量仅为3B，却能同时处理文本、图片和视频的输入与输出，完成理解、生成与编辑等多种任务。该模型通过模块化拼接构建了Lance_3B与Lance_3B_Video两个版本，其创新在于采用共享交错序列统一语义空间，并引入专用专家模块协调理解与生成的互斥关系，使得小参数模型性能接近更大规模模型。训练仅需128张A100，对端侧部署和多模态Agent应用具有重要价值。

多模态开源生态模型发布

02:12

Rohan Paul@rohanpaul_ai

HiDream开源8B参数统一架构图像模型，挑战传统扩散管线

HiDream开源了8B参数的HiDream-O1-Image模型，其核心创新在于采用像素级统一变换器，用单一架构直接处理原始图像块、文本与任务条件，将文本生成图像、编辑、个性化等任务统一为上下文生成，无需传统的VAE和文本编码器管线。该模型内置推理提示代理，能原生支持最高2048×2048的高分辨率合成。在性能上，它在参数量仅为部分同类模型三分之一的情况下，达到了可比的水平，尤其在文本渲染任务上表现出色，结果接近更大规模的模型。

图像生成开源生态推理模型发布

5月18日

15:32

向阳乔木@vista8

开源Agent IDE ORCA发布：支持移动端与多账号切换

ORCA是一款新开源的Agent IDE，提供iOS及移动端客户端，支持多账号切换（例如多个ChatGPT订阅），并显示Token消耗与5小时重置信息。它能自动检测电脑中已安装的CLI工具，如Claude Code CLI、Codex CLI、Gemini CLI等，支持目录文件拖拽对话及内置Markdown预览。该工具优化了Tui工具的常见痛点，但安装包体积较大。开源地址及官网已公布。

智能体 MCP/工具开源/仓库开源生态

02:01

Yann LeCun@ylecun

推文警告，若西方无法尽快出现可信的开源前沿AI参与者，后果将迅速扩散。这与早期互联网格局相反：过去西方科技巨头主导全球，而中国自建生态；AI时代可能逆转这一态势。若无西方开源力量，能够支撑整个经济体的开源模型将仅由中国提供。若美国以国家安全为由进一步限制获取中国开源模型，其国内市场将仅由两三个封闭系统服务，而全球约60亿人口可能选择免费、强大、可自托管且不受禁运的中国AI技术栈。到2030年，中国开源模型或成为全球默认选择，导致美国在技术上自我孤立于世界大多数AI用户。

Daniel Jeffries: I don't think people understand just how bad it will be if an American open source champion doesn't emerge soon and the ...

Meta 大佬观点开源生态

01:00

向阳乔木@vista8

精选80

开发者姚老师开源了微信读书Skill--yao-weread-skill。该工具能将用户的微信读书数据生成本地可视化报告，核心功能包括分析近两年的阅读时长与节律、书架书籍构成、阅读分类与作者偏好，并对笔记和想法进行语义分析。报告最终通过词云、热力图、雷达图等26种图表形式呈现，所有代码已在GitHub公开。

姚金刚: 写了一个微信读书可视化报告skill:yao-weread-skill,已开源到GitHub 它可以把微信读书数据,生成一份本地可视化读书报告,包括: 1、近2年阅读时长与节律 2、书架书籍分析 3、阅读分类、作者、出版社偏好 4、笔记、划...

GitHub MCP/工具开源/仓库开源生态

推荐理由：姚老师这个开源的微信读书skill，能直接拉取你的阅读数据，生成热力图、词云等26张可视化图表，读完就能装，做个人报告的可以直接抄作业。

5月17日