AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 796 条
全部一手资讯X论文
标签「开源生态」清除
Tencent Hy@TencentHunyuan · 5月19日72

🎉 🎉 🎉 We're open-sourcing Chronicles-OCR, a visual perception benchmark evaluating VLLMs on ancient Chinese characters. The dataset spans 3,000 years of evolution. It covers 7 historical scripts from Oracle Bone to Cursive, featuring 2,800 balanced images across highly diverse physical media. We assess models on 4 core tasks: • Character Spotting • Fine-grained Recognition • Ancient Text Parsing • Script Classification The evaluation reveals how visual distribution shifts affect model perception over time. Explore the dataset and paper below. 👇 📄 Paper: https://arxiv.org/abs/2605.11960 🔗 GitHub: https://github.com/VirtualLUOUCAS/Chronicles-OCR

译开源了评估视觉大语言模型(VLLM)对古代汉字视觉感知能力的基准测试Chronicles-OCR。该数据集覆盖了从甲骨文到草书的3000年演变历程,包含7种历史书体与2800张均衡图像。评估涵盖字形定位、细粒度识别、古代文本解析和字体分类四项核心任务,旨在探究视觉分布随时间的变化如何影响模型感知。相关论文与代码已开源。

karminski-牙医@karminski3 · 5月19日59

究极"拼好模"出现了! 字节跳动 Lance! 字节跳动刚发布了一个开源模型 Lance, 激活参数量只有 3B. 但是这个模型可以接受文本, 图片, 视频输入, 然后同时可以输出文本, 图片, 视频! 所以这一个模型就能完成像图片理解, 视频理解, 文生图, 图生图, 图片编辑, 文生视频, 图生视频, 视频编辑等任务. 而训练团队在技术报告中透露, 训练成本仅仅是 128 涨 A100 显卡 (按照大厂算力来说纯纯是把冗余算力拿来用了). 那为啥说是"拼好模"呢? 原因是团队并没有完全从0造轮子. 模型的视觉输入模块直接用了 Qwen2.5-VL-ViT (用来看图和视频), 而视觉输出模块是 Wan2.2_VAE (用来画画). 而模型本体是两个: Lance_3B (用来做图片的理解、生成或编辑任务) Lance_3B_Video (用来做视频相关的任务, 比如文生视频、图生视频) 所以, 这完全是一个研究性项目了, 而项目本身的亮点其实恰好是"拼得好". 这个模型不像之前许多自称为全能模型那样直接把大语言模型 (LLM) 和扩散模型 (Diffusion) 硬拼接在一起 (即所谓的 Pipeline 方案) . 而是在一个共享的交错序列 (Interleaved sequence) 中同时处理文本、图像和视频的上下文. 这样做最大的好处是统一了语义空间, 让模型的理解能力和性能更好. (从评测来看3B就接近了许多10B甚至20B模型的水平) 另外还引入了多任务协同. 简单来讲, 理解任务 (图片转向量) 和生成任务 (向量转图片) 在模型内部本身是互斥的. Lance 创新性地在同一个框架内加入了专用专家模块, 成功缓解了这种冲突, 让模型既能做 VQA (视觉问答) , 又能做图像/视频生成和编辑. 期待一波实际应用落地, 这个模型对于端侧和多模态 Agent 来讲意义是重大的, 有很多之前需要多个模型协作的场景都能用单个模型做了. #lance #全模态模型

译字节跳动开源了全模态模型Lance,其激活参数量仅为3B,却能同时处理文本、图片和视频的输入与输出,完成理解、生成与编辑等多种任务。该模型通过模块化拼接构建了Lance_3B与Lance_3B_Video两个版本,其创新在于采用共享交错序列统一语义空间,并引入专用专家模块协调理解与生成的互斥关系,使得小参数模型性能接近更大规模模型。训练仅需128张A100,对端侧部署和多模态Agent应用具有重要价值。

Rohan Paul@rohanpaul_ai · 5月19日57

HiDream just open-sourced an 8B image model with a big message behind it: the old diffusion pipeline (VAE-plus-text-encoder) may not be the only serious path left. 8B param, HiDream-O1-Image (8B) claims parity with models over 3x its size (e.g., 27B Qwen-Image). @HiDream_AI , @vivago_ai Key Features 🧬 Pixel-Level Unified Transformer — One end-to-end model on raw pixels, no VAE, no disjoint text encoder. 🎨 One Model, Many Tasks — Text-to-image, long-text rendering, instruction editing, subject-driven personalization, and storyboard generation in a single architecture. 🧠 Reasoning-Driven Prompt Agent — Built-in "thinking" agent that resolves implicit knowledge, layout, and text rendering before generation. 🖼️ Native High Resolution — Direct synthesis up to 2,048 × 2,048 with sharp fine-grained detail. ⚡ Exceptional Efficiency and Versatility at 8B Scale — With only 8B parameters, achieves performance parity with or even surpasses larger open-source DiTs and leading closed-source models. Most image models still split the job across a text encoder, a VAE, and a diffusion model, so details can get lost when real pixels are compressed into hidden image codes. HiDream-O1-Image removes that split by using a Pixel-level Unified Transformer, where raw image patches, text tokens, and task conditions enter the same model space. That means text-to-image, image editing, and subject personalization become variants of one in-context generation task, not separate pipelines. A prompt agent first rewrites messy user requests into clearer visual instructions, reasoning through layout, subject attributes, physics, and context before generation. The strongest result is text rendering. On LongText-Bench, the 8B model scores 0.979 in English and 0.978 in Chinese, while the 200B+ model reaches 0.982 and 0.980. That is the part to watch, because clean text inside generated images is still one of the hardest problems for image models. 🧵 1.

译HiDream开源了8B参数的HiDream-O1-Image模型,其核心创新在于采用像素级统一变换器,用单一架构直接处理原始图像块、文本与任务条件,将文本生成图像、编辑、个性化等任务统一为上下文生成,无需传统的VAE和文本编码器管线。该模型内置推理提示代理,能原生支持最高2048×2048的高分辨率合成。在性能上,它在参数量仅为部分同类模型三分之一的情况下,达到了可比的水平,尤其在文本渲染任务上表现出色,结果接近更大规模的模型。

向阳乔木@vista8 · 5月18日64

又一个开源的 Agent IDE:ORCA 优势是直接提供iOS和安装移动客户端,支持多账号切换(比如多ChatGPT订阅),Token消耗、5小时重置显示。 也是检测电脑里装好的各种Cli,比如Claude Code CLI、Codex CLI、Gemini CLI、Hermes、OpenClaw等。 支持目录和文件拖拽对话,内置Markdown预览渲染。 开源地址:https://github.com/stablyai/orca 官网: https://www.onorca.dev/ 解决了很多Tui工具小痒点,但缺点明显,安装包好大...

译ORCA是一款新开源的Agent IDE,提供iOS及移动端客户端,支持多账号切换(例如多个ChatGPT订阅),并显示Token消耗与5小时重置信息。它能自动检测电脑中已安装的CLI工具,如Claude Code CLI、Codex CLI、Gemini CLI等,支持目录文件拖拽对话及内置Markdown预览。该工具优化了Tui工具的常见痛点,但安装包体积较大。开源地址及官网已公布。

Yann LeCun@ylecun · 5月18日64

The salvation is Project Tapestry https://thealliance.ai/projects/tapestry

译推文警告,若西方无法尽快出现可信的开源前沿AI参与者,后果将迅速扩散。这与早期互联网格局相反:过去西方科技巨头主导全球,而中国自建生态;AI时代可能逆转这一态势。若无西方开源力量,能够支撑整个经济体的开源模型将仅由中国提供。若美国以国家安全为由进一步限制获取中国开源模型,其国内市场将仅由两三个封闭系统服务,而全球约60亿人口可能选择免费、强大、可自托管且不受禁运的中国AI技术栈。到2030年,中国开源模型或成为全球默认选择,导致美国在技术上自我孤立于世界大多数AI用户。

向阳乔木@vista8 · 5月18日80

姚老师出手写了一个微信读书Skill,看展示效果非常棒! 可以用来分析自己的读书数据

译开发者姚老师开源了微信读书Skill——yao-weread-skill。该工具能将用户的微信读书数据生成本地可视化报告,核心功能包括分析近两年的阅读时长与节律、书架书籍构成、阅读分类与作者偏好,并对笔记和想法进行语义分析。报告最终通过词云、热力图、雷达图等26种图表形式呈现,所有代码已在GitHub公开。

Berryxia.AI@berryxia · 5月17日69

http://x.com/i/article/2056013843718156289 # 别让你的 SuperGrok (蓝V) 订阅每月白费,5 分钟接入 Hermes Agent 保姆级实操教程! 兄弟们,今天 xAI 与 Nous Research 宣布:你的 Grok 订阅现在可以免费直接在 Hermes Agent 里使用了。 Grok 直接可以接入到 Hermes Agent 里面!你们千万不要浪费了你的蓝 V(Premium) 订阅,尤其是订阅了蓝 V +(Premium+)的用户,一定要将你的 Grok 和 Hermes Agent 结合起来。 为什么值得做这件事? 因为在 Grok 里面它有一个非常大的优势,就是它的信息检索能力。 Grok 有一个其他模型目前给不了的核心优势:实时信息检索。准确性、时效性、来源可靠度,目前 GPT、Gemini、Claude 都比不过它。 把 Grok 接进一个可以 24 小时持续运行的本地 Agent,每天自动做信息整理,这个组合的价值远超单独使用任何一个工具。 所以我们下面花五分钟时间把它装好。 官方给出的步骤基本上三步就可以搞定。实际操作下来,你两步到最后一步启动,基本上就没问题了。 如果有问题的话,让 Codex 或者 Claude 直接帮你去修复就可以了,非常丝滑。 而且现在 Hermes Agent 的版本更新已经非常趋于稳定和可靠了,所以大家可以整起来。下面就不废话了,看我的操作吧。 ## 一、Hermes Agent 是什么? Hermes Agent 是 Nous Research 开发的开源自进化 AI Agent。它的几个关键特点: - 持久运行:可以部署在你的电脑、沙盒环境或 VPS 服务器上,全天候在线 - 长期记忆:跨对话保留上下文,越用越懂你 - 多平台接入:可连接 WhatsApp、Discord、Telegram、Signal 等主流通讯软件 简单说,它就像一个住在你服务器里的私人 AI 助理,可以持续学习、自主运行。 ## 二、接入 Grok 之后能做什么? 在 Hermes Agent 中绑定 Grok 订阅后,你可以使用: - Grok 4.3 —— 用于文字对话和复杂推理任务 - Grok Text-to-Speech —— 让 Agent 以语音方式回应你 - Grok Imagine —— 让 Agent 帮你生成图片和视频 所有 Grok 订阅档位均可使用,无需额外升级。 怎么上手安装? 第一步:安装 Hermes Agent(支持 Linux、macOS、WSL2、Android Termux) 直接将这一段命令复制到你的电脑终端就可以:(我这里是以 macOS 为例演示) 在这个安装过程中稍微要花一点点时间,所以我们需要耐心等待一下。 第二步:选择 Grok 作为模型提供商 在这里,当我们第一步把基本的框架装完之后,现在需要我们选择 Hermes Agent 的服务商,也就是对应的模型商。 在选择模型商时,我们直接将光标移动到 xAI(即我在图片中用绿色标注出来的选项),选择订阅的这个。 在列表中选择 xAI Grok OAuth(SuperGrok 订阅),然后通过浏览器完成授权登录。 如果说你默认打开的浏览器中登录的不是你的 xAI 账号(也就是推特账号)的话,这里需要注意一下:我是直接用推特登录并授权的。 如果你有多个浏览器,而系统默认打开的浏览器里登录的推特账号不是你的主账号,或者没有付费订阅,你可以直接把跳转出来的授权链接复制下来,粘贴到你当前已登录正确账号的浏览器中完成登录就可以了。 第三步:安装对应的服务 比方说,这里我们需要安装对应的音频服务。我们这里选择 xAI,因为 Grok 是支持语音的。 这里直接按照安装提示,选择我图片中绿色的这一个进行安装就可以。 过程中可能需要安装一些数据服务或者搜索引擎配置。你这里可以根据自己的实际情况来,也可以选择对应的 Grok,也就是默认的搜索引擎。 前面也提到了,Grok 的搜索引擎和信息获取能力非常强大,所以我建议直接配置 Grok。具体选择时,你可以直接参照我图片中用绿色标出来的那个选项。 第四步:启动爱马仕 Agent 在安装的过程中,可能会让你配置那些 IM(比方说是微信、Telegram 或者飞书这些),其实你可以先不安装,先确认一下服务是否已经正常运作。 在这个过程中会有好多次让你进行选择,处理方式如下: 1. 直接按回车,使用默认端口即可,不用理会。 2. 提示确认时,输入“y”或者“YES”确认就行。 启动Hermes Agent : 当我们把所有选项都确认完之后,在对应的终端窗口中输入这一行指令,就可以启动了。看到这个界面的时候,就说明已经启动成功 这里自己可以配置需要的IM软件,我自己使用微信来安装。 当你看到这里的时候,其实已经安装成功了。 安装过程非常简单,没有什么门槛。这样你就可以把你的蓝V订阅用起来了,也不用再单独花费对应的 Token。 目前这个 Token 的使用量暂时还不是很确定,官方好像还没有给出明确的数值,所以大家可以先用起来。 那今天的分享就到这里,谢谢。 整体安装体验 全程无报错,一次成功。Hermes Agent 目前版本已经相当稳定。如果遇到小问题,直接把报错丢给 Claude 或 Codex 修复,基本秒解。 官方文档:hermes-agent.nousresearch.com xAI 表示更多开源 Agent 集成还在路上。 你认为这种「订阅直驱本地 Agent」的模式会成为主流,还是大多数人装完就放着吃灰?

译xAI与Nous Research合作,允许Grok订阅用户免费将模型接入Hermes Agent。此举旨在结合Grok的实时信息检索优势与Hermes Agent的24小时持续运行能力,用户可在Agent内使用Grok进行对话、语音合成及图像生成。安装过程主要分为三步:安装Hermes Agent、选择xAI提供商并授权、安装所需服务后启动。若遇问题,可借助Claude等工具修复。未来预计有更多开源Agent集成计划。

meng shao@shao__meng · 5月17日49

小区电梯里看到的广告,迷你主机 支持 OpenClaw 云端和本地主流大模型部署 蹭 OpenClaw 热点的广告,可能是生命周期最短,简称最短命的广告了吧 👀

swyx 🇸🇬 AIE Singapore!@swyx · 5月17日52

AIE coming to India soon!

译AIE即将登陆印度 很快! [引用 @adi_myth]:Marking this as a moment convincing @swyx to bring @aiDotEngineer to India next year with @sanjeed_i @udayan_w Exciting times!! 🥳

Rohan Paul@rohanpaul_ai · 5月17日56

🇨🇳 China’s public is unusually positive about AI products compared to other countries, which lowers adoption friction and makes it easier to roll AI into daily services at scale. And developer gravity is anyway shifting toward China in open-source, with download share moving away from the US and Europe --- ft .com/content/d9af562c-1d37-41b7-9aa7-a838dce3f571

译🇨🇳 与其他国家相比,中国公众对AI产品的态度异常积极,这降低了采用阻力,使得将AI大规模融入日常服务变得更加容易。 无论如何,在开源领域,开发者重心正转向中国,下载份额正逐渐从美国和欧洲转移。

SemiAnalysis@SemiAnalysis_ · 5月17日60

SERIOUS & COOL: AIPerf -- a sub-repo of the Nvidia Dynamo project focused on benchmarking LLM workloads -- just accepted an upstream contribution from AMD! As far as we know, this is one of the first contributions from AMD accepted into an Nvidia repository. This is an awesome moment for the open-source community as it allows high quality vendor agnostic code for all to use. We hope to see more contributions in the future such as upstreaming parts of RIXL into NIXL, instead of maintaining as a separate fork.

译NVIDIA的AI性能基准测试项目AIPerf接受了来自AMD的上游代码贡献,这被认为是AMD代码首次被纳入NVIDIA官方仓库。此举被视为开源社区的重要时刻,意味着高质量的、不依赖特定厂商的代码将能供所有人使用。社区期待未来能有更多此类合作,例如将AMD的RIXL部分代码整合进NVIDIA的NIXL,而非维持独立分支。

Ant Ling@AntLingAGI · 5月17日80

Another day0 collaboration, another community win. Thanks @vllm_project team for the always reliable support~ 🫡🫡

译又一次Day0协作,又一次社区胜利。感谢@vllm_project团队始终可靠的支持~ 🫡🫡

Ant Ling@AntLingAGI · 5月17日76

Thanks @AdinaYakup and the @huggingface community for the continued recognition! We feel happy to bring another 1T thinking model to the community! Comments and feedbacks welcome!

译蚂蚁集团发布万亿参数推理模型Ring-2.6-1T,专为现实世界智能体工作流构建。该模型采用MIT许可,上下文长度通过YaRN技术从128K扩展至256K,并采用Async RL与IcePop混合训练架构。其核心特点是具备双推理努力模式:“high”模式用于快速智能体循环,“xhigh”模式用于深度推理,旨在实现更好的成本与性能平衡。模型已开源,欢迎社区反馈。

Ant Ling@AntLingAGI · 5月17日66

Lovely video! Glad to work with @novita_labs and @OpenRouter to bring another newly build model, Ring-2.6-1T to our beloved users. It is available on OpenRouter with 75% through May~ https://openrouter.ai/inclusionai/ring-2.6-1t

译Ring-2.6-1T模型现已开源,并上线OpenRouter平台,5月底前享有75%折扣。该模型由AntLingAGI开发,是一个为现实世界智能体构建的万亿级推理模型,其核心设计目标不仅是回答问题,更是执行任务。它专注于规划步骤、使用工具、维持上下文和完成复杂工作流,具备强大的智能体执行能力和高推理模式,并采用了Async RL与IcePop训练方法。

Berryxia.AI@berryxia · 5月16日65

兄弟们,训练Diffusion LLM原来可以这么省? 大家都知道扩散语言模型(DLM)很香:支持双向生成、非顺序解码、灵活编辑。 但从零训一个,成本高得离谱。 Duke大学PhD Fred Peng(@pengzhangzhi1)和团队直接给出了一个反直觉的答案: 别重训了,直接对齐就行。 论文标题叫《Don’t Retrain, Align》。 核心思路很简单: 我们已经有强大的预训练Autoregressive LM(AR LM),里面已经学好了绝大部分语言表示。 DLM真正需要改的只是生成顺序和去噪行为。 所以他们提出了REPR-ALIGN:在做masked diffusion训练的同时,逐层用余弦相似度,把DLM的hidden states对齐到冻结的AR teacher模型上。 不需要加adapter,不需要改架构,只改attention mask。 结果:在他们的实验设置里,训练速度最高提升4倍,低数据场景下效果尤其明显。 一句话总结: 不要把表示空间从头重训一遍,对齐它,让模型只去重新学习解码路径就够了。 Paper:https://arxiv.org/abs/2605.06885 Code:https://github.com/pengzhangzhi/Open-dLLM 如果你在搞扩散模型、生成式AI或者长上下文生成,这篇值得立刻读。

译杜克大学团队提出一种高效训练扩散语言模型的新方法。核心观点是无需从头训练,而是将现有强大的预训练自回归语言模型作为知识源。他们提出的REPR-ALIGN方法,在掩码扩散训练过程中,通过余弦相似度逐层将扩散模型的隐藏状态与冻结的自回归教师模型对齐。该方法无需添加适配器或改变架构,仅调整注意力掩码。实验结果显示,训练速度最高可提升4倍,在低数据场景下效果提升尤其显著。

AYi@AYi_AInotes · 5月16日76

xAI这步棋太聪明了, Grok现在可以直接用在Hermes Agent里了, 从今天起,你不用额外花一分钱, 就能把你已经买了的任意等级Grok订阅, 无缝接入Hermes Agent里用, 没有复杂的API配置,不用手动填token, 一键OAuth登录就能用, 因为xAI没有自己从零开始造代理生态, 所以它只能把Grok变成了一个即插即用的超级大脑,然后插进已经成熟的开源Agent身体里, 相当于借力打力,把开发成本压到可以忽略,传播速度却可以快到飞起。 Hermes本身就是目前最好的开源个人Agent之一, 它能在你的电脑或者服务器上24小时一直跑, 有长期记忆,能跨会话学习你, 还能直接连WhatsApp Discord Telegram, 现在装上Grok的推理,生图,生视频和语音能力, 直接从能用变成好用, 对用户来说,就是已经付过的订阅费,突然又多了一个完全可控的本地AI代理,还挺香的, xAI说更多开源代理和集成即将到来, Grok正在从一个只能在X里用的聊天工具,慢慢变成整个AI生态的通用大脑,可以期待一下! #xAI #Grok #AI代理

译xAI宣布,Grok订阅用户现可一键通过OAuth登录,将服务直接集成到开源个人代理Hermes Agent中使用,无需额外付费或复杂配置。xAI并未自建代理生态,而是将Grok作为“即插即用”大脑嵌入成熟的Hermes Agent中,此举大幅降低了开发与推广成本。集成后,Hermes Agent在原有长期记忆、多平台连接等功能基础上,增强了Grok的推理、生图、生视频与语音能力,用户体验显著提升。这意味着用户仅凭现有订阅,即可获得一个完全可控的本地AI代理。xAI表示更多开源代理集成即将到来,Grok正从X平台聊天工具转型为更广泛的AI生态通用大脑。

AYi@AYi_AInotes · 5月16日66

我花三分钟跑了飞书的CLI才明白, 为什么Notion的MCP黑箱路线永远赢不了透明的CLI, 说个暴论,未来国内的 AI 老大,非字节跳动莫属, 我几个朋友的公司都陆续要从钉钉切到飞书了,信号非常明显。

译作者通过亲身体验飞书CLI工具,发现其允许AI通过命令行直接操作飞书,执行建群、建文档等任务。关键优势在于每一步操作都可见、可预览、可审查,与Notion、Figma采用的MCP在云端“黑箱”执行的体验截然不同。飞书lark-cli开源45天GitHub star破万,且已有10位外部开发者贡献代码被合并,而钉钉、企业微信的同类项目贡献者为零。这种透明性和活跃的开发者生态,被认为是构建可靠AI Agent的基础,也促使作者看好字节跳动在国内AI领域的未来。

Berryxia.AI@berryxia · 5月16日77

兄弟们,3D资产生成彻底要起飞了。 Cambridge大学助理教授Elliott Wu(前Stanford、Oxford背景)团队刚放出了Articraft——一个真正的agentic coding系统。 它不是简单生成静态3D模型,就可以让AI agent自己写代码、自己执行、自己接收物理验证反馈,不断迭代,最终输出带零件、关节、真实运动的可交互3D资产,直接就能扔进机器人仿真和物理AI场景里用。 以前做一套高质量articulated asset要花几天甚至几周,现在agent全自动跑通,整个过程高效到离谱。 他们顺便还开源了Articraft-10K数据集:超过1万个跨250个类别的articulated 3D物体,全部可交互、仿真就绪,彻底把大规模机器人训练和物理世界AI的资产门槛拉到了新低。 物理AI和机器人仿真的“数据饥渴”问题,被这个agentic pipeline直接干掉了一大半。 项目页面在这里:https://articraft3d.github.io/ 完整代码和数据集也在GitHub开源。 如果你在做机器人、仿真、物理AI或者3D内容生成,这波开源值得立刻去试。 PS: 还未实测,待后续测评!

译剑桥大学团队推出Articraft,这是一个由智能体驱动的编码系统,能全自动生成带关节、可运动的交互式3D资产。系统通过AI智能体自主编写代码、执行并接收物理反馈迭代优化,将以往需数日甚至数周的创作过程极大简化。团队同时开源了Articraft-10K数据集,包含超1万个物体,覆盖250个类别,所有资产均仿真就绪。此举显著降低了机器人训练和物理AI领域对高质量3D资产的数据门槛,为解决“数据饥渴”问题提供了高效的自动化方案。

🚨 AI News | TestingCatalog@testingcatalog · 5月16日51

SpaceXAI ❤️ Hermes Users can now use their Grok subscription directly inside the Hermes agent. That's a combo!

译SpaceXAI ❤️ Hermes 用户现在可以直接在Hermes智能体中使用他们的Grok订阅服务。真是绝佳组合!

xAI@xai · 5月16日50

You can now use your @grok subscription inside @NousResearch Hermes Agent. http://x.ai/news/grok-hermes

译你现在可以在@NousResearch Hermes Agent中使用你的@grok订阅。 http://x.ai/news/grok-hermes

Rohan Paul@rohanpaul_ai · 5月16日58

A great blog by @bgurley Openness can be a weapon against monopoly power. And "Chinese open models may become the global default by 2030"

译@bgurley 的一篇精彩博客 开放性可以成为对抗垄断力量的武器。 并且“到2030年,中国开源模型可能成为全球默认选择。”

Rohan Paul@rohanpaul_ai · 5月16日70

X has released the latest "For You" feed algorithm to GitHub. Moving the feed closer to a Grok-style AI ranking system than a rule-heavy social media sorter. The system first gathers posts from accounts you follow through Thunder, then adds outside posts through Phoenix, which searches for content that looks relevant even if you do not follow the author. Ranking now behaves less like a checklist of likes, reposts, and keywords, and more like a transformer model that reads the user, the post, and past behavior as one prediction problem. Instead of asking “is this post good,” the model predicts multiple possible actions, such as whether you might reply, like, repost, watch, or skip. Thunder is the fast “people you follow” system. It keeps a live memory-store of recent posts, replies, reposts, and videos from users, then quickly pulls posts from accounts you follow when your For You feed is built. It is basically the in-network candidate source. Phoenix is the AI recommendation system. It has 2 jobs: first, Phoenix Retrieval finds outside posts from the global X corpus using similarity search, and then Phoenix Ranking scores both followed-account posts and outside posts using a Grok-based transformer model.

译X平台(原推特)已将其最新的“For You”信息流推荐算法在GitHub上开源。新算法从依赖点赞、转发等硬性规则排序,转向更接近Grok风格的AI智能排名系统。该系统通过Thunder实时获取用户关注账号的帖子,再通过Phoenix从全平台检索相关的外部内容进行补充。其核心排名模型不再单一判断帖子质量,而是像Transformer模型一样,将用户、帖子和历史行为作为一个整体进行预测,评估用户可能进行回复、点赞、转发、观看或跳过等多种互动可能性,从而实现更个性化的内容推荐。

MiniMax (official)@MiniMax_AI · 5月16日66

M2.7 is live on @OrcaRouter - accessible via a single OpenAI-compatible API. Try it today!🐋

译M2.7已在@OrcaRouter上线——可通过单一OpenAI兼容API访问。 今天就来试试吧!🐋

歸藏(guizang.ai)@op7418 · 5月16日64

忘了发飞书 CLI 的地址了,没装的推荐试试: https://github.com/larksuite/cli

译飞书CLI工具开源一个多月便在GitHub获得万星,显示市场高度认可。该工具几乎能控制飞书所有能力,让用户无需与传统UI交互即可完成工作。作者指出,AI时代SaaS软件的竞争焦点正从UI转向对Agent的适配程度和覆盖率。飞书CLI通过分层架构、Skills说明书及Dry Run等对Agent友好的设计,有效降低了复杂软件的使用门槛,并为其快速迭代投入巨大。这为开发者提供了新路径:结合飞书CLI与Agent框架,可直接利用飞书的聊天界面、多维表格和群组构建Agent产品,无需从头开发前端界面。

AYi@AYi_AInotes · 5月16日72

马斯克开源了最新的X 算法(2026.5.15), 我花了1个多小时逐字学习理解, 结合我的X增长实践总结如下, damn!实在是太他么细了啊, 值得每个创作者花 5 分钟看完。 先一句话定调:这是第一次把 For You 的流量公式写成了源码,特别牛逼。 不废话,直接进重点: 一、新版算法的核心机制, 就一句话最终得分 = Σ(权重 × 多动作概率) 系统用 Grok Transformer 同时预测你这条帖会被读者做出哪些动作,每个动作一个概率,加权求和,分数最高的帖上 For You, 正向动作:P(点赞) / P(回复) / P(转发) / P(点击) / P(分享) / P(关注作者) 负向动作:P(不感兴趣) / P(拉黑) / P(举报)正向加分,负向重扣, 所有手工规则全砍了,100% Transformer 端到端。 二、Feed 流水线 6 步,每一步都可能让你的帖被截胡 1|Query Hydration(用户画像) 实时抓取读者的关注、点赞、转发、停留时长、profile 浏览次数——停留时长 + profile 浏览是隐性信号,权重比点赞还高 2|Candidate Sources(候选池)Thunder:你关注的人发的最新帖Phoenix Retrieval:全局双塔模型,从你不关注的人里捞内容塞进来 3|Hydration(补全元数据) 作者信息、媒体类型、品牌安全信号 4|Filtering(硬过滤) 去重、屏蔽、拉黑、静音词、Grox 反垃圾——账号信用差的人在这一层就被筛掉了 5|Scoring(打分) Phoenix Scorer 出概率,Weighted Scorer 算总分,Author Diversity Scorer 专门惩罚同一作者重复出现 6|Selection(Top-K 输出) 最后才轮到广告混排 三、对创作者真正有用的 4 个落地结论 ① 必带媒体 图/视频/poll 直接拉高 P(点击) 和停留时长,文字纯帖在新算法下天然劣势 ② 设计高互动钩子 开放问题、争议但不极端、@ 相关账号——目标是同时拉高 P(回复) 和 P(转发),这俩权重最高 ③ 同一主题别连发 Author Diversity Scorer 会主动扣你分,同主题隔 1-2 天发或换角度发,绕开惩罚 ④ 警惕负向信号 情绪化内容容易高互动,但也容易触发 P(不感兴趣) 和 P(举报), 这俩是重扣项,算了总分可能反而是负贡献 四、最反直觉的一点 X 这次开源了流水线代码、开源了 mini 模型、开源了广告混排逻辑, 但模型权重、训练数据、生产环境调优参数全部没开源, 也就是说你能看到流量怎么算,看不到具体每个权重的数值, 还是老马厉害哈哈哈, 最高级的透明就是让你看见规则但拿不到答案, 规则摊在桌上了,剩下的就是谁愿意按规则把内容做到极致了。 #X算法 #ForYou

译马斯克将X平台“For You”推荐算法开源。其核心是使用Grok Transformer端到端预测用户对帖子各项互动动作的概率,并通过加权求和得出最终得分以决定推荐。推荐流水线包含用户画像、候选池检索、元数据补全、硬过滤、打分及最终选择六个步骤。对创作者的启示包括:必带媒体内容提升点击与停留时长、设计高互动钩子、避免同一主题连发以防被惩罚、警惕引发负向互动信号。值得注意的是,本次开源了流程代码与架构,但未公开具体的模型权重、训练数据及生产环境参数。

Nathan Lambert@natolambert · 5月15日44

I've been re-reading a lot of Bill's foundational blogs on open-source business strategy, so I was so happy that he wrote an updated version on it and wrt AI. Must read.

译我重读了许多比尔关于开源商业策略的基础博客,很高兴他针对该主题及AI领域撰写了更新版。必读之作。 [引用 @bgurley]:一篇新的@bgurley博客文章! https://substack.com/home/post/p-197032865?source=queue

DogeDesigner@cb_doge · 5月15日76

NEWS: 𝕏 has published the latest recommendation algorithm on GitHub. Grok Summary of the new algorithm: The system that decides exactly which posts appear in your For You feed. It blends two types of content and ranks everything using a powerful AI model (a version of the same transformer architecture behind Grok). How it works • Two sources of posts: • In-network (Thunder): Posts from accounts you already follow. • Out-of-network (Phoenix Retrieval): Fresh posts the system discovers for you using smart similarity search across millions of posts. • The AI brain (Phoenix):
A Grok-based transformer model looks at your recent activity (what you liked, replied to, reposted, watched, etc.) and predicts how likely you are to engage with each post. It doesn’t use old-school manual rules — it learns directly from real user behavior. • Multi-action prediction:
Instead of just guessing “you’ll like this,” it predicts probabilities for many actions at once: like, reply, repost, click, watch video, expand photo, follow the author, mute, block, etc. Then it combines them into one final relevance score. • Smart ranking steps: 1. Gather candidates from both sources. 2. Enrich them with extra context (author info, media type, engagement numbers, etc.). 3. Run the AI model to score every post. 4. Apply diversity (so you don’t see 10 posts from the same person in a row). 5. Filter out spam, blocked/muted accounts, old content, etc. 6. Pick the top posts for your feed. What’s new in today’s open-source release • Full end-to-end runnable pipeline — anyone can now test retrieval + ranking locally. • Pre-trained mini Phoenix model included (ready to run out of the box). • New Grox content-understanding service (spam detection, post categorization, policy checks). • Built-in ads blending module with brand-safety controls. • Much richer user & candidate data (topics, mutual follows, impression history, media detection, etc.). • Completely removed almost all hand-engineered features — the transformer does the heavy lifting. • It’s fully open source (Apache 2.0 license).

译X平台在GitHub开源了其“For You”信息流的最新推荐算法。该算法融合来自已关注账号的内容和通过相似性搜索发现的网络外内容,并利用基于Grok架构的Phoenix Transformer模型进行统一评分。模型通过分析用户近期互动,同时预测点赞、回复、转发等多种互动概率,并综合成最终相关性分数。排序过程包括候选内容收集、上下文信息补充、AI模型评分、多样性调整及垃圾信息过滤等步骤。此次开源提供了完整的可运行管道、预训练模型、内容理解服务及内置广告混合模块,核心计算完全由Transformer模型驱动。

Berryxia.AI@berryxia · 5月15日45

Qwen 3.6 Plus & OpenCode 免费开整啊!!!

AYi@AYi_AInotes · 5月15日76

刚刚花三分钟装了飞书官方那个 CLI 工具, 跑了一句话,建群、建文档、发通知,一次性全做完了, 我盯着终端看了几秒钟, 才反应过来这玩意儿真的能让 AI 直接操作飞书。 装的过程没啥可说的, 一行 npx @larksuite/cli@latest install, 三分钟搞定, 我试的场景挺日常,让 AI 帮我处理这么一件事, 明天上午十点和算法团队拉个会, 建一个会前准备文档, 把上周遗留的几个 issue 写进去, 然后在群里 @ 所有人通知时间, 终端里它一步步在 print 自己要做什么, 建群、建文档、写入内容、发消息, 每一步都能用 --dry-run 先预览一遍再真的执行, 我作为人类全程能看清 AI 在干嘛, 这跟我之前接 MCP 那种 AI 在云里自己执行你看不到的体感,完全不是一个东西, 跑完我才回头去看 GitHub, 飞书这个 lark-cli 今天 star 数刚好破 1 万, 开源到现在 45 天, 平均每天 219 颗星, GitHub 的 star 跟微博点赞不一样, 每一颗都挂在一个真实开发者的账号上, 是国内办公套件里第一个、也是目前唯一一个破万星的开源项目, 但真正让我对这条新闻改观的, 是另一个被很多人划过去的数字, 国内三家办公套件都开了 CLI,飞书、钉钉、企业微信, 只有飞书的主干里有 10 位真实外部开发者的代码被合进来,包括一个河南科大的实习生和一个土耳其的电商工程师,另两家是 0 和 0, 星是路过给的, PR 是动手写的, 这两个指标的含金量差了一个量级。 Notion 和 Figma 走的是 MCP 路线, 飞书选了 CLI,跑过一遍以后我有点理解这个选择了, AI 在 CLI 里执行任务, 每一步是可见的、可预览的、可审查的, 这个对开发者来说不是 fancy, 是真正能放心交给 Agent 去做事的前提, 以后让 AI 帮我从拉会到归档跑完一个完整项目流, 可能真就是一句话的事啊。

译飞书开源命令行工具lark-cli在45天内获得超过1万GitHub star,成为国内首个破万星的办公套件开源项目。该工具允许AI通过命令行直接操作飞书,执行建群、建文档等任务,且每一步操作都可预览、可审查,与云端不可见的MCP模式形成对比。其主干代码已合并10位外部开发者的贡献,而同类产品钉钉和企业微信则为零。这种可见、可控的特性被视为开发者放心将任务交给AI Agent的前提,预示着一句话指令驱动完整项目流程成为可能。

ginobefun@hongming731 · 5月15日64

http://x.com/i/article/2055195078931709952 # BestBlogs 周刊 | 第 95 期:Agent 工程化的全面落地 在线阅读:https://www.bestblogs.dev/newsletter/issue95 > 🎧 本期也有播客版本:时长 18:15 · 在线收听 ## 导语 最近这一周,我有一个特别明显的感受:AI 这件事在头部厂商和国内厂商眼里,讨论重点已经从模型能力,转向如何把 Agent 真正推向生产。本周没有任何顶级模型发布,但 Anthropic、OpenAI、阿里、腾讯、淘宝、Kimi 这一堆团队同时在做一件事,就是把 Agent 真正推向生产。Claude Code 和 Codex 一起走出 IDE 跑到整个计算机里、Computer Use 的工程化最佳实践、Windows 上从零做沙箱、Agent Skill 成为开放标准、还有国内三连发的 Multi-Agent Harness 实战。我整理这期内容的时候忍不住给本期起了一个名字,就叫 Agent 工程化的全面落地周。 本期 20 篇内容里有 13 篇直接跟 Agent 工程化相关,剩下 7 篇是行业人物对这件事的不同视角回响。 在开始正文之前,也想用一段说说 BestBlogs 自己的几个变化。我们的新版三步引导这周正式上线,从「先选兴趣」反转成「先选公共信源、再加你自己的 RSS、最后选兴趣方向」,每一步都立刻保存,完成引导直接送 7 天 Pro 试用。同时文章、播客、视频、推文四类详情页对所有人开放,访客不登录也能读全文。还有一件事是邀请功能正式重启,每邀请 1 位新朋友双方都能各得 7 天 Pro,单人累计上限 28 天。如果你是 5 月 9 号之前注册的老用户,5 月 15 日到 5 月 31 日还有一次性 14 天 Pro 限时赠送,到 bestblogs.dev/promo 一键领取就行。希望大家多体验,也欢迎把 BestBlogs 推荐给身边热爱阅读的朋友。 ## 一、Coding 工具走出编辑器:Anthropic 与 OpenAI 的同步答卷 第一条主线,也是这周最清晰的趋势:Coding 工具正在走出编辑器,走向整个计算机。 Anthropic 这周一口气发了三篇关于 Claude Code 的文章,三篇都是工程化实践,没有一篇是模型层的事。 第一篇讲 Claude Code 在大型代码库里到底是怎么用的。这里说的大型代码库,指的是百万行的 monorepo、十年遗留系统、几十个微服务跨仓,百行千行规模不在讨论范围内。Anthropic 的核心结论挺反直觉的,他们直接说,放弃 RAG 嵌入式索引,改走 Agentic Search 路线,让 Claude 像工程师一样用 grep 跨引用导航。原因是嵌入式索引在大团队里很容易滞后。你两周前重命名的一个函数,索引可能还在返回老名字。Agentic Search 不依赖索引,每次都从最新的代码状态出发。 不过 Anthropic 自己也明确承认:Agentic Search 也有边界。「如果你让它在十亿行代码库里寻找一个模糊模式的所有实例,你会在工作开始之前就撞上上下文窗口的上限」。代码库本身的可导航性才是 Claude Code 性能的天花板,所以 Anthropic 把「Harness 和模型一样重要」放在文章最关键的位置。这套 Harness 由五个扩展点组成: - CLAUDE.md:Claude 每次会话自动读取的上下文文件,根目录放整体架构,子目录放局部约定。因为每次都加载,CLAUDE.md 必须「窄而聚焦」,过于宽泛反而拖累性能 - Hooks:大多数团队把 hooks 当成「防止 Claude 干坏事」的脚本,但 Anthropic 强调它最有价值的用法是自我改进。一个 stop hook 可以在会话结束时回顾整段交互、自动提议 CLAUDE.md 更新;start hook 则可以根据开发者当前所在模块动态加载团队上下文 - Skills:通过渐进式加载机制,把专业领域知识做成「按需触发」的能力包,避免每个会话都被无关 expertise 撑满 - Plugins & MCP servers:接入外部工具和数据 - LSP integrations + Subagents:锦上添花的两块拼图 文章给出了三条关键模式:第一是分层的 CLAUDE.md 文件,第二是接入 LSP 拿到准确的引用关系,第三是明确的团队所有权。第三点我特别认同:AI 工具在大组织里能不能用起来,技术问题只占一半,另一半是谁负责维护这套规约。如果 CLAUDE.md 没人 own,3 个月后就会变成一份谁也不敢动、也没人相信的文件。这套思路其实就是 Agent Engineering 最具体的样子。Anthropic 在自己产品的官方博客上正式给出了答案。 → 阅读原文:https://www.bestblogs.dev/article/243d2340 同期发的第二篇是 Claude Code Agent View,简单说就是把多会话并行管理这件事终于做成了产品。以前你同时跑几个 Claude Code 会话,需要开几个终端窗口、或者用 tmux 切分屏,再加上你自己脑子里那张哪个还在等输入、哪个已经跑完的表。现在 Agent View 在命令行里就给你一个统一面板,谁需要你回话、谁还在干活、谁已经把 PR 提了,一眼看清楚。你甚至可以直接用 claude --bg [task],把任务直接丢到后台,左箭头返回总览。我自己最近在跑很多并行 Agent,这个东西出来之后确实顺手很多。 → 阅读原文:https://www.bestblogs.dev/article/e8c4364d 第三篇是 Claude 团队整理的 Computer Use 和 Browser Use 完整最佳实践。重点其实是一个特别容易被忽略的细节:截图分辨率。Claude 4.6 系列有 1568 像素长边上限,Opus 4.7 提到了 2576 像素。如果你给模型送的截图超过这个限制,API 内部会自动降采样,但你的代码还在用原图的坐标系,结果模型基于一个失真的图判断点击位置,整条工作流直接塌。这种坑你不踩一次基本不会知道。文章还讲了努力度参数怎么选、提示注入怎么防御、上下文怎么管理(缓存断点、滚动缓冲区、LLM 压缩三件套)这套组合拳,是真正能拿来打底的工程清单。 → 阅读原文:https://www.bestblogs.dev/article/94694e50 然后是 OpenAI 这边的 Codex 三连发,跟 Anthropic 的节奏几乎是对称的。 第一篇是 Codex 的 Computer Use 上线,特点是 Codex 在你电脑里有一个自己的独立光标,不抢用户的控制权。Codex 可以一边在 UTM 里开虚拟机给你测环境,一边你自己继续在 Mac 上写东西,互不打扰。底层是多模态视觉加上系统辅助功能框架的混合:视觉负责定位坐标,辅助功能框架负责拿到每个 UI 元素的文本描述,甚至屏幕外的内容也能看见。他们专门提了一个叫 Spark 的模型,可以完全跳过视觉直接走辅助功能框架,跑出他们说的「超人速度」。隐私这块用每应用权限隔离,没授权的应用 Codex 完全看不见。Mac 已经可用,Windows 即将跟上。 → 阅读原文:https://www.bestblogs.dev/video/cc94ab1 跟 Windows 这件事强相关的,是同周发的另一篇技术博客,专门讲怎么在 Windows 上为 Codex 做沙箱。这篇文章特别工程,作者直接说:Windows 长期没有像 macOS 那样的原生沙箱接口,给 Codex 上线时只剩两个糟糕选项:每条命令都问用户,或者干脆完全放行。他们的解决方案是从一个非提权的原型迭代到一个带防火墙的提权方案,用专用的用户账户隔离 Codex 进程,再叠加防火墙规则封住网络出口。这套方案不损失开发体验,安全性又接近 macOS 沙箱。我读完最大的感受是,安全这件事在 Agent 时代会变得越来越像系统级工程,不是写几个 Prompt 防御就完事。 → 阅读原文:https://www.bestblogs.dev/article/36e502e0 第三篇是 Codex 负责人 Tibo Sio 在 OpenAI Forum 上的一段访谈,这个我建议大家有时间真去听一下,因为他直接讲了 Codex 下一步要去哪儿。他的判断是,Codex 已经不再是开发者工具,而是一个本地长周期的 Agent,能跑数小时甚至数天的自主任务。最有意思的演示是他用一句语音 prompt 让 Codex 给自己生成了一个定制电子表格,还有一张按价格和质量过滤的旧金山面包房地图。他给这种东西起了一个名字叫 「家常软件」,意思是非技术用户也可以为自己做工具。然后他预告了两个能力:Slash Goal,让你说一句高层意图 Agent 就执行;Auto Review,让一个次级 AI 在主 Agent 干活的时候充当裁判审计它的行为。我觉得这两个东西如果都做出来,Coding Agent 这个范式就真的可以让位给通用 AI 队友了。 → 阅读原文:https://www.bestblogs.dev/video/e310426 这六篇放在一起看,整个 Coding 工具的工程化底座就清晰了:模型层暂时没大动,但围绕模型怎么用、怎么管、怎么让它接管真实计算机,这一周一次性给了一份相对完整的答案。 ## 二、把 Agent 推到生产必须先过的两道关:评估与长时运行 第二条主线,是把 Agent 真正推到真实工作流必须先过的两道关:评估和长时运行,以及它们共同的协议层 Agent Skill 标准。 先说评估。Towards Data Science 这周发的一篇文章,标题就说基于 100 多次企业部署沉淀出 12 项指标框架。作者一开头讲了一个故事:他们给一个医疗 AI 客户做了三个月的项目,眼看就要上线,客户的合规官问他们一句:「你怎么知道你的 Agent 没在编造病人症状?」这个团队当时哑口无言。然后他们花了六周补完了一套 12 项评估指标,项目才上线。 这套指标分三个层面,作者还额外加了一组生产侧指标: - 检索层(Retrieval,4 项):Context Relevance > 0.85、Context Recall > 0.90、Context Precision > 0.80、Retrieval Latency < 200ms p95 - 生成层(Generation,3 项):Answer Faithfulness > 0.95、Answer Relevance > 0.90、Hallucination Rate < 2% - Agent 行为层(Agent,3 项):Tool Selection Accuracy > 0.92、Tool Execution Success、Task Completion - 生产侧(Production,2 项):成本、P99 Latency < 3s 作者还把「为什么大多数团队跳过评估」拆成了三种典型反模式:「先 MVP 再加评估」(结果回填要 4-6 周,损失不可逆)、「准确率够了就行」(基准 95% 的 RAG 在真实流量上 30% 在幻觉)、「人工抽检就够」(每天 100 条还行,10000 条直接崩)。他给的结论非常硬:评估基础设施绕不过去,它直接决定项目能不能上线。检索质量不行,下游再多 prompt 工程都救不回来,这是我看完后印象最深的一句。 如果你正准备把 Agent 推到真实场景,这是开工前应该先打印出来贴在墙上的清单。 → 阅读原文:https://www.bestblogs.dev/article/ed72fe59 跟评估并列的另一道关是长时运行。Google ADK 团队这周发了一个非常具体的教程,主角是一个新员工入职流程的协调 Agent。他们一上来就说:真实企业工作流主要由「空闲时间」构成,HR 入职跨两周,发票纠纷拖几天,销售跟进延绵一个月。一个无状态的 chatbot 容器一重启就忘光了所有上下文,根本撑不住这种节奏。 他们用一个完整的代码示例,演示了三处架构跃迁: - 结构化的记忆 schema:替代往向量数据库里扔 JSON 这种粗暴做法 - 事件驱动的休眠门:替代轮询或者阻塞线程,让 Agent 在等待签字的时候真的休眠 - 多智能体委派:替代一个巨型 Prompt 包打天下 完整源码在 GitHub 上,这是把 Agent 真正搬进企业流水线之前必须先看的一篇。 → 阅读原文:https://www.bestblogs.dev/article/7be5372c 然后是 Agent Skill 这件事。Anthropic 去年 12 月把 Agent Skill 作为开放标准发布,半年时间过去了,已经有 33+ 个 Agent 产品接入:Claude Code、Codex、GitHub Copilot、VS Code、Cursor、Gemini CLI、Kiro,全部都在用同一个叫 SKILL.md 的协议。阿里云开发者这周发了一篇深度解析,把规范字段、三层渐进式加载机制、模型驱动触发逻辑讲得特别透。 我最喜欢里面那句总结:Skill 围绕任务、工具、流程和输出边界做结构化行为设计,比单纯堆 Prompt 更靠谱。他还提到了一个非常实操的判断:description 字段的质量直接决定 Skill 能不能被正确触发。你以为 description 只是给人看的,其实模型先读这个字段决定要不要打开 Skill。我觉得 Agent Skill 是这一波最有可能成为长期基础设施的标准之一,因为它已经跨厂商了。 → 阅读原文:https://www.bestblogs.dev/article/ad38855c ## 三、国内厂商的多智能体 Harness 三连发 第三条主线,国内厂商的 Multi-Agent Harness 实战集中爆发。这周一口气来了三篇,分别从数据库、运行时和 Java 生态三个角度切入。 第一篇来自 PingCAP 的联合创始人黄东旭,他复盘了 TiDB Cloud 怎么成为 Kimi K2.6 Agent 的数据库后端。这件事的背景很有意思:Kimi K2.6 让普通用户用一句话就能造出一个端到端的在线应用,挑战根本不在代码生成那一段,而在后面的 hosting 成本。 你算一笔账:如果每个用户的 Agent 应用都给它配一个 Supabase 实例,百万级动态创建小站直接成本爆炸。如果用一个大 PG 实例多 schema 隔离,单实例到了大约一万租户就崩了。TiDB Cloud 的做法是给每个租户提供一个虚拟数据库界面,下面跑统一的存储和计算资源,把单租户成本压到订阅模式还能算账的水平。 黄东旭还给出了 Kimi × TiDB 这套合作能跑通的三个核心战略决策,每一条都很有借鉴价值: - 最小化 Agent 使用 Infra 工具时的摩擦:每个任务和站点独立隔离,由 Agent 创建。Agent 一秒拿到一个 fully prepared 的数据库实例(TiDB Warm Pool + Scale-to-zero)。如果 provisioning 要花几分钟,Agent 就得自己写 retry / poll / wait,那是 Agent 不该扛的负担 - 技术栈尽可能统一:人类工程师觉得「方便」,对 LLM 就是直接决定代码生成成功率的因素。少跨一个系统就少一类 bug,Skill 里跑过的脚手架比每次抽卡更稳 - 极致的低成本:放弃 Supabase 那种「每个用户一个真实实例」的分配模式,TiDB 引入虚拟数据库界面层。「事实上没有请求的事情,是不需要真实分配数据库实例的」。平台只需要一个常驻 DB Session Gateway 服务维持连接,其他都是弹性的 黄东旭对这一波的判断非常清晰:「以前一个产品扛亿级用户,一个 app 扛亿级会话。现在一个用户身边可能有 10 个甚至 100 个 Agent 在跑,每个都需要自己的状态和数据。」很多 AI Agent 团队的架构正在收敛到同一个范式:one agent, one sandbox, one storage, one database。 这是 Agent Native 时代数据基础设施竞争的第一个真案例。以前我们讨论数据库的扩展性更多是单点性能,现在的问题变成了:几百万个独立租户里每一个都很小,怎么把单位成本做下去。 → 阅读原文:https://www.bestblogs.dev/article/70ea435c 第二篇来自腾讯云开发者,这是一篇真正意义上的长文,把生产级 Multi-Agent Harness 的全景图画出来了。作者一上来就指出一个关键的误区:很多团队以为多智能体系统能不能落地,取决于模型够不够强,或者 Prompt 够不够精妙。真正决定落地的,往往是常被忽略的 Harness。Harness 这个词翻译过来叫挽具,但在 Agent 领域它就是 Agent 的操作系统。 他给出的生产级原则只有一句话:Agent 负责局部智能,Harness 负责全局控制。然后他详细说了 Orchestrator 必须独占的五项决策权: - 任务生命周期 - 执行计划的裁决 - Agent 路由 - 失败处理 - 硬终止条件 每一条他都讲了具体怎么做,配了 PlantUML 图。国内能把多智能体工程化讲得这么完整的文章并不多见,建议有相关项目的朋友收藏。 → 阅读原文:https://www.bestblogs.dev/article/878057b5 第三篇是阿里发布的 AgentScope Java 1.1,把他们前几个月开源的 OpenClaw 那套 Harness Engineering 范式正式带到了 Java 生态里。这是国内首个 Java Harness Framework,对企业级开发意义很大,因为大量传统行业的服务还是跑在 Spring 上的,Python 那套 Agent 框架没法直接搬。 Java 1.1 给了四项核心能力: - 工作区驱动的运行时:把 Agent 的人格、知识、技能、记忆、子 Agent 规格全部沉淀在一个结构化工作区里 - 可插拔的抽象文件系统:本地磁盘、远端共享存储、隔离沙箱用同一套接口操作,同一份 Agent 逻辑不用改代码就能从个人开发环境搬到企业分布式部署 - 内置的上下文管理:对话压缩、双层记忆沉淀和全文检索 - 子 Agent 编排和隔离执行:支持多租户场景的会话和用户维度隔离 如果你公司主要技术栈是 Java,这个框架值得认真试一下。 → 阅读原文:https://www.bestblogs.dev/article/321aed16 跟这三篇可以放在一起读的,还有大淘宝技术团队发的 AI-Generated UI 技术深度解析。这篇文章把 v0.dev、Bolt.new、Cursor、Windsurf 这一批产品背后的全栈技术梳了一遍:从 SSE 协议、fetch + ReadableStream 这些基础设施,到 Vercel AI SDK、WebContainers 这些开源核心,再到流式代码、流式 Markdown、流式 JSON 三大增量解析挑战。如果你想做出 v0 那样的 AI 生成 UI 体验,这是补全技术地图最干净的起点。 → 阅读原文:https://www.bestblogs.dev/article/42f8648f 这周国内厂商一次性给了多智能体工程化的四块拼图:数据库、运行时全景、Java 落地、流式 UI 渲染。这种密度,未来一年都不一定再见到。 ## 四、AI Native 时代的组织、商业模式与三场访谈 第四条主线,把视角从工程化往后退一步,去看组织、商业模式、以及一线人物对这件事的不同回响。 先说阿里技术发的那篇《AI Native 时代研发组织何去何从》,这一篇建议大家直接收藏起来反复读。他们对内部深度使用 AI 的工程师做了访谈,结果是这样的: - 写代码占比从过去的 30% 降到 5% - 跟 Agent 对话的占比从 5% 升到 60% - 端到端需求交付效率提升了 2-3 倍 作者紧接着提出了一个判断,让我读了之后愣了好一会儿:AI 是一种新的协作主体。所有过去以人形约束为前提设计的组织规则,比如康威定律、管理跨度、年度评价制,前提开始失效了。他观察到正在做 AI Native 的团队(包括 Anthropic 和阿里内部的一些先锋小组),都出现了一种共同形态:两层结构。下面是高度结构化的 Harness 层,上面是高度松散的 Hive Mind 层,两层的运作逻辑甚至是相反的。 这篇文章里有几段我想专门展开。 关于「人既是瓶颈也是兜底」。作者在访谈里写道:「之前的模式一个工作需要拉入很多人来做模块划分,功能上需要相互协议和对齐目标,消除理解的不一致性。」过去几十年我们抱怨的「会议太多、对齐成本高、信息上下传递失真」,所有矛头都指向人。但与此同时,一份不完整的需求、一段没注释的代码、一个不一致的 API 约定、一段口头传达的潜规则,这些缺陷之所以系统能正常运转,是因为人在用自己的灵活性、推理能力、社会沟通能力悄悄把缺口补上。「开个会问一下、走过去问老王、凭经验猜一下」,这些动作发生得太自然,自然到我们不再把它看作「工作」。但它们就是工作。当 AI 接管执行之后,这一面就翻过来了。AI 没有「猜」和「问老王」的能力,它需要的是结构化、可查询、可执行、确定性的信息。新瓶颈落在系统的信息形态上。 关于 Execution Graph 替代 Org Chart。作者给出了一个具体的、可衡量的判断:传统 reorg 周期常常是 6 到 12 个月(计划几个月、执行几个月、重建信任又几个月),因为旧组织的最小单元是「人 + 长期关系网」,粘性极高。Execution Graph 把组织最小单元从「人 + 关系网」换成「任务 + 上下文 + 权限 + 工具」,里面大部分依赖是机器可读的 artifact,所以重组成本可以从季度级压到 week 级,这是数量级的跃迁。从公司层面看,这可能是 AI Native 转型最被低估的红利:适应性速度本身的升级,远比「组织能更高效」更值钱。 关于 Architect 这个新角色。文章用 CREAO 的 CTO Peter Pang 做案例:他自己两个月前还有 60% 时间在管人,现在不到 10%。但作者强调,管理在塌缩,也在重新选择它的位置。新出现的最关键角色叫 Architect,设计教 AI 怎么工作的人:他不写代码,不堆功能,为整个 Execution Graph 设计架构、定义系统能力的边界、设计 SOP、建立测试基础设施、定义「什么叫好」。 这三段读完,我觉得这是本周最值得反复读的一篇。它把整个组织视角的思考做实了。 → 阅读原文:https://www.bestblogs.dev/article/8c2c877a 跟这个组织议题完美对仗的,是 Eric Ries 在 Lenny's Podcast 上聊他的新书 Incorruptible。Eric Ries 是精益创业的作者,这次他要解决的问题是:成功的公司为什么会逐渐被拖向平庸。他指出的症结,是一种他叫**「财务引力」**的东西,是公司治理结构的天然产物。 他用了一个特别好的比喻:公司治理需要「不锈钢螺栓」,就是结构上防腐蚀的东西。他列了三类: - 公共利益公司(PBC):将使命写入章程 - 信托治理:Anthropic 的独立受托人模式,监督关乎使命的关键决策 - 基础所有权:Novo Nordisk 由非营利基金会控股的模式 如果你也在思考你的公司怎么长期不被外部财务力量吃掉,这是一篇稀缺的具体路径讨论。 → 阅读原文:https://www.bestblogs.dev/video/2efe03f 然后是三场关键访谈,让本期内容立体起来。 第一场:Stripe 的 AI Boom 系列采访 Manus AI 的张涛。Manus 这个产品很多人听过:八个月做到 1 亿美元 ARR,几乎全部是有机增长。他们的核心架构叫「大脑与手」:大模型是大脑,Agent 需要一只手,他们就给每个 Agent 配一个虚拟机沙箱让它自己浏览、写代码、跑命令,更侧重输出完成任务,文本只是中间产物。张涛分享的最有意思的产品决策,是把 Agent 内部的过程做成「会话回放」给用户看。本以为透明会让用户怀疑,结果反而换来了信任。他对未来的判断:AI 之后,人的瓶颈从「解决问题」转向「定义问题」。 → 阅读原文:https://www.bestblogs.dev/video/cf1fb78 第二场:Sequoia 访谈 Suno CEO Mikey Shulman。Suno 这个公司你即便不做音乐也值得听听他们的思路。他们的技术路线不走 12 平均律和 MIDI 那套西方音乐理论,把音乐建模成 48 kHz 采样的连续声波,相当于第一性原理重做音乐生成。这种做法让一些原本不存在的形态自然涌现,比如「带西塔琴的 trap」,比如微分音音乐。但他给的最反直觉的发现是:Suno 用户里有 90% 每天都在创作,消费占少数。AI 一边把「地板」抬高了(人人能做音乐),一边也把「天花板」抬高了(专业音乐人拿到了新工具)。 → 阅读原文:https://www.bestblogs.dev/video/c6a585f 第三场:张小珺 4 小时对话姚顺宇。姚顺宇前后在 Anthropic 和 Google DeepMind 出任过研究科学家,参与过 Claude 3.7、4.5、Gemini 3 的训练。这场访谈直白到罕见,姚顺宇本人在物理学(非厄米系统、量子物理、高能物理)深耕九年后毅然转行 AI,自言「总想挑战一些自己不太会的事」。访谈里他几句话特别戳人: > 「AI 个人英雄主义的时代已经过去了,所以也没有什么英雄,有时候甚至觉得旧时代英雄有点蠢。」 「现在大家都是冲浪的人,本质上是那个浪,冲浪的人反而没那么重要。」 「AI 这个事,本来也不太需要脑子。真的不太需要脑子。这个行业最重要的特质,就是靠谱,就是做事细,对自己做的事情负责任。」 「你不用太担心因为自己的观点而惹到什么人。只要你的观点是自洽的,不是说随便喷人,你是有一套自己的理解。最终你在这个领域做的怎样,是有客观评价标准的。大家是会尊重你的。」 4 小时的内容覆盖两个 Shunyu Yao(清华同一届的姚顺雨和姚顺宇)、Pre-train 没到头、Coding 爆发、字节豆包、机器人技术预测、AI 个人英雄主义的终结、集体主义胜利。在描述自己的研究时,姚顺宇又异常审慎:「我自己对那个事没那么重要,更多的是我很幸运,有机会在那个时候加入了一个重要的项目,做了一些事」。 我看完最大的感触是:新一代 AI 工程师的工作伦理变了,集体主义、靠谱、做事细正在取代个人天才主义。这场访谈是少数能从一线训练者口中拿到的真正内幕。 → 阅读原文:https://www.bestblogs.dev/podcast/a4391a3 最后一个亮点,是 AI 在真实产业现场的两种姿态。 一种是李想这边的宏大愿景。罗永浩这周对话李想,理想汽车带来了全新旗舰 SUV L9 Livis。这车搭载理想自研的马赫 M100 芯片,算力达到 2560 TOPS,配的是全球首个完全体全线控底盘,还有 800V 主动悬架。这场访谈三个小时,李想本人完成了从汽车公司创始人到「AI + 具身智能公司」创始人的角色切换。 → 阅读原文:https://www.bestblogs.dev/podcast/177bfb5 另一种姿态是 flomo 的少楠在腾讯研究院 AI 跃迁者调研里给出的真实困境。少楠是 11 年没写过代码的产品经理,现在每天用 Claude Code 在真实数据库里跑 3 个小时的需求验证,他公司 70-80% 代码已经由 AI 贡献,开发周期从按月变成按小时。但他给出了一个反直觉的观察:效率上去了,用户价值没跟上。 他的原话是:「以前工程师烦死产品经理觉得需求太多,现在是产品经理不好意思提需求了。」他还说了一句让我特别有共鸣的话:只有原来优秀的人变得更优秀了,因为 AI 无法回答一句话:『我不知道』。16 人团队的协作重构,比工具升级难得多。 → 阅读原文:https://www.bestblogs.dev/article/6af09fd5 李想那条线是宏大愿景,flomo 这条线是真实困境,把这两条放在一起,可能比任何技术分析都更接近 AI 这一年的真实样子。 ## 本周关键词 如果非要给本周挑几个关键词的话,我会选这几个: - Agent 工程化的全面落地 - Coding 工具走出 IDE - 国内多智能体 Harness 三连发 - AI Native 组织 - 真实产业现场的两种姿态 这周没有什么模型发布,但跟模型相关的工程化、组织化、产品化的答案,一次性给得特别多。下周我会重点关注国内厂商在 Agent 工程化的后续动作,看看这周的密度能不能延续。 20 篇文章的完整链接都在上方各章节里,如果哪一篇特别戳到你,建议直接读原文。 我们下周见。 ## 关于 BestBlogs BestBlogs.dev 是 AI 驱动的个性化高质量阅读工作流,**「我的早报」**会基于你关注的源、阅读行为与兴趣画像,每天为你生成一份真正属于你的精选 brief,让你以最少的时间触达本周最值得读的内容。 完成新用户三步引导即送 7 天 Pro 试用;现有 Pro 用户每邀请 1 位朋友双方各得 7 天 Pro(单人上限 28 天);5 月 9 日之前注册的老用户别错过 5 月 15 日至 5 月 31 日的 14 天 Pro 限时赠送,到 bestblogs.dev/promo 一键领取。 让高质量内容找到对的人。欢迎来体验,也欢迎推荐给身边热爱阅读的朋友。

译近期AI领域焦点从模型能力转向Agent工程化落地。Anthropic发布Claude Code实践,强调放弃RAG索引,采用Agentic Search导航大型代码库,并推出管理并行会话的Agent View及Computer Use最佳实践。OpenAI的Codex推出独立光标的Computer Use功能,解决了Windows平台沙箱安全问题,其负责人指出Codex正演变为可执行长期自主任务的本地Agent。国内厂商如阿里、腾讯等也在同步推进Multi-Agent实战,标志着AI Agent进入全面工程化应用阶段。

MiniMax (official)@MiniMax_AI · 5月15日57

Excited to see MiniMax in action inside open-multi-agent! 🔥 It automatically breaks goals into DAG tasks &amp; runs them in parallel

译MiniMax AI已作为原生适配器集成至open-multi-agent框架,旨在解决多智能体系统在生产环境部署的核心成本难题。该框架能自动将目标分解为DAG任务并并行执行,但传统多智能体方案的token成本会随智能体数量、交互轮次和工具调用次数快速复合增长,这常导致实际生产部署受阻。此次集成使得由目标驱动的智能体团队不仅能高效运行,更能保持可负担的生产成本,从而推动其从演示场景走向实际应用。

歸藏(guizang.ai)@op7418 · 5月15日65

飞书 CLI 牛皮啊,发布一个月多点就达到 10000 Star 了! 说明用户和市场相当认可这个动作 最近我们可以发现,越来越多的传统办公产品开始发布 CLI 和 Agent。 AI 时代的 SaaS 软件可能得换个做法了:UI 只是最基本的,接下来还要竞争对 Agent 的适配程度以及覆盖率。在这块,我觉得飞书走得相当靠前。 作为一个 IM 软件,飞书在 AI 时代去做这种开放自己所有能力的 CLI 工具,其实是一种非常不传统互联网的尝试。 这对于之前的互联网产品逻辑和经验来说,是一个非常不应该做的决定。 因为他们这个 CLI 几乎可以控制飞书的所有能力:你可以完全不跟飞书的传统 UI 去交互。只跟 CLI 交互,也可以完成飞书上所有的工作。 传统的 IM 办公软件通常非常复杂,入门门槛相对较高。无论从产品逻辑、UI 设计还是交互设计的角度来看,都没有办法太好地消解这种复杂性。 但是 CLI 工具交付给 Agent 以后,就可以快速消解这种复杂性。用户只需要进行对话,这是非常本能的行为,不需要在繁杂的层级列表 UI 里去寻找功能入口。 我拉了一下数据,他们迭代效率也非常恐怖,它们是 3 月 28 号开源的,一个多月发了 32 个版本、385 个提交。 这说明飞书对这块是非常重视的,投入的人力和精力也非常大。 他们在 CLI 本身的设计上也考虑得非常多,下了很多功夫。主要分为三层: 面向日常任务的快捷命令、开放平台对应的标准 API、兜底的 API 调用。 因为人和 Agent 都不喜欢从 2500 个 API 里去寻找参数,但又需要把这些能力暴露出来,所以他们采用了这种分层的形式。 即使做了分层设计,CLI 本身的内容和 API 依然非常多。所以他们把 CLI 作为工具本身,同时做了很多 Skills 用来充当 CLI 的说明书。 Agent 可以分层、分类型地了解应该如何调用这些 CLI 及其命令。 此外,他们在对 Agent 友好的命令包装上做了很多工作,例如: (a) 内置了 Dry Run (b) 结构化输出 (c) 身份选择、权限检查与风险等级评估 (d) 允许 Agent 在发消息前预览请求 (e) 建立了输出格式的“契约”:将成功或失败的结果、原因以及风险提示都放在结构化数据里。 这样如果出错了,AI 可以非常清楚地进行调试和修改,而不是盲目猜测。 其实现在你如果要创业或者做自己的 Agent,就不需要非得写一个界面。 飞书 CLI 加上 Agent 框架可以完成所有的 Agent 产品常见的操作: 你的聊天界面就是你的 Agent 聊天界面; 你的数据库就是飞书多维表格和文档; 你的用户就是把你拉到组织里的群成员;

译飞书CLI工具发布一个多月即获10000 Star,显示市场对其方向的认可。在AI时代,SaaS软件的竞争正从传统UI转向对Agent的适配。飞书通过开放全部能力的CLI,允许用户和Agent完全绕过复杂UI进行操作,大幅降低了使用门槛。其CLI设计采用分层结构,并配套大量Skills作为“说明书”,便于Agent调用。同时,CLI在命令包装上注重对Agent友好,内置Dry Run、结构化输出等功能,方便AI调试。这为创业或构建Agent提供了新路径,可依托飞书CLI和Agent框架,直接利用其聊天界面、多维表格及组织成员作为基础设施。

Berryxia.AI@berryxia · 5月15日70

兄弟们,国内大模型现在彻底”大乱斗“了! 群雄共舞啊,用户可以有更多的选择了! 来自Ant Group AGI团队直接把Ring-2.6-1T这个1万亿参数的旗舰思考模型开源了。 这不是又一个聊天玩具,它专为真实世界的复杂任务而生:Agent工作流、代码工程、长时序执行、深度研究、企业自动化。 它能理解上下文、规划步骤、调用工具,在漫长任务链里保持稳定。支持两种reasoning模式——high用于高效生产,xhigh用于极致思考。底层IcePop异步强化学习算法,把万亿规模的长时序训练彻底稳住了。 最关键的一点,它完全开源。 这意味着什么? 兄弟们现在可以直接把这个顶级模型拉到本地服务器或者端侧环境跑,企业所有数据完全不出域,隐私安全和合规问题直接解决。 以前很多金融、政务、医疗、大型企业,因为数据敏感性,只能眼巴巴看着云端闭源模型干瞪眼。现在Ring-2.6-1T直接把执行级思考能力放在了自己手里。 本地部署门槛也已经大幅降低,结合MoE架构和优化后,很多中大型企业完全可以把最强Agent能力跑在自家机房。 模型已在以下地址上线: Hugging Face:https://huggingface.co/inclusionAI/Ring-2.6-1T ModelScope:https://modelscope.ai/models/inclusionAI/Ring-2.6-1T 如果你在做企业Agent、内部自动化或者对数据安全要求极高,这波开源值得立刻去试。

译蚂蚁集团AGI团队开源了万亿参数旗舰思考模型Ring-2.6-1T。该模型专为处理Agent工作流、代码工程、长时序执行等复杂任务设计,具备上下文理解、规划与工具调用能力,并提供高效与极致两种推理模式。其采用IcePop算法稳定训练,并借助MoE架构降低部署门槛。完全开源允许企业将模型部署于本地或端侧,确保数据不出域,有效解决了金融、政务等敏感领域对数据安全与合规的迫切需求。模型已在Hugging Face和ModelScope平台发布。

宝玉@dotey · 5月15日63

看卡兹克提到飞书 CLI 的 star 数过万了,意料之中,飞书确实是目前国内 Agent 最友好平台,我自己也常用飞书 cli 抓去飞书文档为 markdown 和下载文档图片 通常我看一个开源项目是否靠谱,或者是不是 KPI 驱动的开源项目,通常看几个方面: 1. Star 数量,这个虽然也有做假可能,但大多数时候还是能客观反应项目热度 2. Commit 历史,是否活跃提交,很多项目你一看提交时间在几个月前,甚至几年前,那这个项目多半没人维护了,要慎用 3. Issues 数量和关闭速度,一个热门项目是不愁 Issues 的,有人用才有 Issues,但如果只有新 Issue,没有 Issues 被关闭也不好,说明没人认真处理 4. PR(Pull Request)被合并的记录,开源项目不只是说简单的把源代码放出来,社区参与也很重要,如果你发现很多社区的 PR 都没有处理响应,那说明官方不重视社区的参与 拿这几个标准去看大多数项目,你就可以知道这项目是不是靠谱,这几点飞书 cli 都是做的不错的了。 https://github.com/larksuite/cli

译飞书CLI在GitHub上的star数已过万,作者认为这印证了飞书是国内对Agent最友好的平台。作者提出评估开源项目是否靠谱的四项关键标准:star数量反映项目热度;活跃的commit历史表明项目持续维护;issues的数量与关闭速度体现用户活跃度和问题处理效率;社区PR被合并的记录则显示项目对社区参与的重视。飞书CLI在这些方面均表现良好。

SenseTime@SenseTime_AI · 5月15日70

This is the frontier our innovators strive for. Excited to see passionate minds driving it forward.🔥

译主推文赞扬了创新者在前沿领域的探索。引用的推文具体指出,SenseNova-U1在空间智能能力上取得进展,其关键基准测试表现超越了Qwen3.5等强劲基线。同时,团队开源了目前最大的空间问答数据集SenseNova-SI-8M,并邀请业界在CVPR会议进行线下交流。

Berryxia.AI@berryxia · 5月15日74

这个项目也可以直接 # 安装成 Claude Code skill 命令:violin --install-skill 以后就可以直接这样:violin input.mp4 output_zh.mp4 --language Chinese 大家需要注意: 去 http://api.together.ai 注册获取 Key(也支持 OpenAI、ElevenLabs,只需其中一个)。 Violin 默认使用 Together AI(免费注册可得额度),需要设置环境变量: # 永久生效,加到 ~/.zshrc echo 'export TOGETHER_API_KEY=你的key' >> ~/.zshrc source ~/.zshrc

译牛津大学博士后Kevin Lin开源了视频翻译工具Violin,可将视频自动进行语音识别、LLM翻译和语音合成,打破语言壁垒。工具支持个性化翻译风格,并能基于视频内容进行问答交互。它提供Web应用、CLI命令行及Agent Skill(如Claude Code skill)多种使用方式,默认利用Together AI的免费额度,也支持OpenAI等API。该项目旨在推动高质量视频内容的全球化传播。

Berryxia.AI@berryxia · 5月15日69

Prime Intellect 最近把 AI 研究自动化推到了一个新阶段。 他们让 Claude Code(Opus 4.7)和 Codex(GPT 5.5)完全自主运行在 nanoGPT speedrun 的 optimizer track 上,使用闲置算力完成了约 1 万次实验,总计消耗 1.4 万 H200 小时。 最终结果:Claude Code 把记录推到 2930 steps,超过了人类基准的 2990 steps。 整个过程完全无人值守。 我看完他们的完整 thread 后,最有启发的部分是 agents 的实际表现: 它们在 optimizer 搜索、超参数扫描和方法 stacking 上非常高效,几乎把社区所有主流 PR 的思路(Contra-Muon、MuonEq、NorMuon、SOAP 等)都系统性组合了一遍。 但在 novelty(真正创新)上遇到明显瓶颈,当强制要求每个 idea 必须通过 novelty check 时,两个 agents 都没能超越 baseline。 Prime Intellect 把所有 scratchpad、运行日志、配置和生成的 idea 全部开源了,包括两个 agents 的完整实验记录。 这波操作把“AI 研究能不能自己跑”从概念变成了可复现的现实。 完整实验和代码在这里:https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning

译Prime Intellect 近期在AI研究自动化领域取得重要进展。他们让Claude Code与Codex智能体完全自主运行于nanoGPT速度挑战的优化器赛道,利用闲置算力完成了近万次实验,消耗约1.4万H200小时。最终,Claude Code将记录提升至2930步,超越了2990步的人类基准。实验显示,智能体在系统整合社区主流优化方法、进行超参数扫描和策略组合方面效率极高,但在要求真正创新的“新颖性检查”环节未能突破基线。该项目将所有实验记录、日志和代码开源,使得AI自主研究从概念转化为可复现的现实。

Berryxia.AI@berryxia · 5月15日72

.@neilsonks 刚刚把一个完整的 3D 生成工具包开源了,专门为 Claude Code 设计。 输入一张图片,它就能自动把整个场景拆解成可交互的 3D 世界:环境、网格、物理、灯光、音频全都有。 整个 pipeline 是这样一步步做出来的: 首先用图像生成和 3D 生成技能,从输入图片里提取物体,生成高质量网格。 每个生成的物体都会从原始图片里被“移除”,留下干净的静态世界背景。 最后再给整个场景加上物理模拟、实时灯光和环境音频。 他还专门做了一个配套的查看器 App,能直接浏览所有生成的物体,支持点击编辑位置、旋转、缩放、复制、删除,还能一键导出 scene.json。 以前从 2D 图片到可玩 3D 场景要花几天,现在 Claude Code 配合这个工具包,几分钟就能跑通一条完整链路。 项目完全开源,就在 GitHub:https://github.com/neilsonnn/image-blaster 如果你在做游戏、世界构建、产品可视化或者任何需要快速把概念图转成 3D 交互内容的项目,这套工具值得立刻去试。

译开发者@neilsonks开源了一套专为Claude Code设计的完整3D生成工具包。该工具能将输入的单张图片自动拆解,生成包含环境、网格、物理、灯光和音频的全套可交互3D场景。其流程首先利用图像与3D生成技术提取物体并生成高质量网格,随后移除物体以得到静态背景,最后为整个场景添加物理模拟、实时灯光和环境音效。配套查看器支持对生成物体的点击编辑与一键导出。此工具将以往需数天的2D转3D工作流程缩短至几分钟,适用于游戏开发、世界构建和产品可视化等项目。项目已在GitHub开源。

François Chollet@fchollet · 5月15日47

The Keras package recently crossed 21M monthly downloads on PyPI, an all-time high (the daily ATH is around 900k). I still remember when it first crossed 10M monthly downloads about 5 years ago and I thought it couldn't possibly go any higher...

译Keras包近期在PyPI上月下载量突破2100万次,创历史新高(日下载量峰值约90万次)。我仍记得约5年前首次突破1000万月下载量时,曾以为这已是极限……

Berryxia.AI@berryxia · 5月14日65

凌晨刷到这条,我脊背瞬间发凉,全身鸡皮疙瘩都起来了。 @zcbenz,MLX维护者、Electron.js创始人,在Apple亲手把这个消息放了出来: MLX的CUDA后端,所有测试全部通过! 那个曾经被当成“苹果硅独占玩具”的MLX,现在直接杀进了NVIDIA的主场。 同一套代码。 Mac上极致丝滑,NVIDIA显卡上也全速狂飙。 以前大家还在PyTorch的兼容地狱里挣扎,Apple用MLX悄无声息打出一记王炸。 本地AI的跨平台时代,真的要来了。 而且来得比所有人想象的都要猛、都要狠。 我现在只剩下一个感觉——血脉喷张。 MLX的CUDA时代,正式拉开序幕。 你敢信!

译MLX框架的CUDA后端已实现所有测试通过,标志着其从苹果芯片专属工具正式进军NVIDIA GPU领域。这意味着开发者能用同一套代码,在Mac和NVIDIA显卡上获得高性能运行体验,有望打破PyTorch等框架的兼容性壁垒。此举可能强力推动本地AI应用的跨平台发展进程。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月19日
11:04
Tencent Hy@TencentHunyuan
精选72
开源古代汉字视觉感知评估基准Chronicles-OCR

开源了评估视觉大语言模型(VLLM)对古代汉字视觉感知能力的基准测试Chronicles-OCR。该数据集覆盖了从甲骨文到草书的3000年演变历程,包含7种历史书体与2800张均衡图像。评估涵盖字形定位、细粒度识别、古代文本解析和字体分类四项核心任务,旨在探究视觉分布随时间的变化如何影响模型感知。相关论文与代码已开源。

多模态开源生态论文/研究

推荐理由:腾讯混元开源的视觉感知基准,专攻古汉字识别,覆盖从甲骨文到草书的三千年演变,做 OCR 和视觉模型的可以拿来测测自家模型在历史文本上的感知退化。
07:25
karminski-牙医@karminski3
59
字节跳动开源全模态模型Lance:轻量高效的"拼好模"

字节跳动开源了全模态模型Lance,其激活参数量仅为3B,却能同时处理文本、图片和视频的输入与输出,完成理解、生成与编辑等多种任务。该模型通过模块化拼接构建了Lance_3B与Lance_3B_Video两个版本,其创新在于采用共享交错序列统一语义空间,并引入专用专家模块协调理解与生成的互斥关系,使得小参数模型性能接近更大规模模型。训练仅需128张A100,对端侧部署和多模态Agent应用具有重要价值。

多模态开源生态模型发布
02:12
Rohan Paul@rohanpaul_ai
57
HiDream开源8B参数统一架构图像模型,挑战传统扩散管线

HiDream开源了8B参数的HiDream-O1-Image模型,其核心创新在于采用像素级统一变换器,用单一架构直接处理原始图像块、文本与任务条件,将文本生成图像、编辑、个性化等任务统一为上下文生成,无需传统的VAE和文本编码器管线。该模型内置推理提示代理,能原生支持最高2048×2048的高分辨率合成。在性能上,它在参数量仅为部分同类模型三分之一的情况下,达到了可比的水平,尤其在文本渲染任务上表现出色,结果接近更大规模的模型。

图像生成开源生态推理模型发布
5月18日
15:32
向阳乔木@vista8
64
开源Agent IDE ORCA发布:支持移动端与多账号切换

ORCA是一款新开源的Agent IDE,提供iOS及移动端客户端,支持多账号切换(例如多个ChatGPT订阅),并显示Token消耗与5小时重置信息。它能自动检测电脑中已安装的CLI工具,如Claude Code CLI、Codex CLI、Gemini CLI等,支持目录文件拖拽对话及内置Markdown预览。该工具优化了Tui工具的常见痛点,但安装包体积较大。开源地址及官网已公布。

智能体MCP/工具开源/仓库开源生态
02:01
Yann LeCun@ylecun
64
推文警告,若西方无法尽快出现可信的开源前沿AI参与者,后果将迅速扩散。这与早期互联网格局相反:过去西方科技巨头主导全球,而中国自建生态;AI时代可能逆转这一态势。若无西方开源力量,能够支撑整个经济体的开源模型将仅由中国提供。若美国以国家安全为由进一步限制获取中国开源模型,其国内市场将仅由两三个封闭系统服务,而全球约60亿人口可能选择免费、强大、可自托管且不受禁运的中国AI技术栈。到2030年,中国开源模型或成为全球默认选择,导致美国在技术上自我孤立于世界大多数AI用户。

Daniel Jeffries: I don't think people understand just how bad it will be if an American open source champion doesn't emerge soon and the ...

Meta大佬观点开源生态
01:00
向阳乔木@vista8
精选80
开发者姚老师开源了微信读书Skill--yao-weread-skill。该工具能将用户的微信读书数据生成本地可视化报告,核心功能包括分析近两年的阅读时长与节律、书架书籍构成、阅读分类与作者偏好,并对笔记和想法进行语义分析。报告最终通过词云、热力图、雷达图等26种图表形式呈现,所有代码已在GitHub公开。

姚金刚: 写了一个微信读书可视化报告skill:yao-weread-skill,已开源到GitHub 它可以把微信读书数据,生成一份本地可视化读书报告,包括: 1、近2年阅读时长与节律 2、书架书籍分析 3、阅读分类、作者、出版社偏好 4、笔记、划...

GitHubMCP/工具开源/仓库开源生态

推荐理由:姚老师这个开源的微信读书skill,能直接拉取你的阅读数据,生成热力图、词云等26张可视化图表,读完就能装,做个人报告的可以直接抄作业。
5月17日
23:54
Berryxia.AI@berryxia
69
Grok免费接入Hermes Agent教程:强化实时信息处理能力

xAI与Nous Research合作,允许Grok订阅用户免费将模型接入Hermes Agent。此举旨在结合Grok的实时信息检索优势与Hermes Agent的24小时持续运行能力,用户可在Agent内使用Grok进行对话、语音合成及图像生成。安装过程主要分为三步:安装Hermes Agent、选择xAI提供商并授权、安装所需服务后启动。若遇问题,可借助Claude等工具修复。未来预计有更多开源Agent集成计划。

智能体xAI开源生态教程/实践
17:23
meng shao@shao__meng
49
小区电梯里看到的广告,迷你主机 支持 OpenClaw 云端和本地主流大模型部署 蹭 OpenClaw 热点的广告,可能是生命周期最短,简称最短命的广告了吧 👀
开源生态现象/趋势
14:19
swyx 🇸🇬 AIE Singapore!@swyx
52
AIE即将登陆印度 很快! 【引用 @adi_myth】:Marking this as a moment convincing @swyx to bring @aiDotEngineer to India next year with @sanjeed_i @udayan_w Exciting times!! 🥳

Aditya Mishra: Marking this as a moment convincing @swyx to bring @aiDotEngineer to India next year with @sanjeed_i @udayan_w Exciting ...

开源生态行业动态
10:40
Rohan Paul@rohanpaul_ai
56
🇨🇳 与其他国家相比,中国公众对AI产品的态度异常积极,这降低了采用阻力,使得将AI大规模融入日常服务变得更加容易。 无论如何,在开源领域,开发者重心正转向中国,下载份额正逐渐从美国和欧洲转移。
开源生态现象/趋势
04:41
SemiAnalysis@SemiAnalysis_
60
AMD代码贡献获NVIDIA接纳,开源社区迎里程碑

NVIDIA的AI性能基准测试项目AIPerf接受了来自AMD的上游代码贡献,这被认为是AMD代码首次被纳入NVIDIA官方仓库。此举被视为开源社区的重要时刻,意味着高质量的、不依赖特定厂商的代码将能供所有人使用。社区期待未来能有更多此类合作,例如将AMD的RIXL部分代码整合进NVIDIA的NIXL,而非维持独立分支。

开源生态行业动态部署/工程
00:51
Ant Ling@AntLingAGI
精选80
又一次Day0协作,又一次社区胜利。感谢@vllm_project团队始终可靠的支持~ 🫡🫡

vLLM: Congrats to @AntLingAGI on Ring-2.6-1T going open! 🎉 The thinking sibling of Ling-2.6-1T - trillion-scale, built for ag...

智能体开源生态推理模型发布

推荐理由:蚂蚁百灵把万亿参数的 thinking 模型开源,vLLM 第一天就能跑,想自己搭 agent 推理服务的可以直接动手了,开源生态的齿轮转得比想象中快。
00:51
Ant Ling@AntLingAGI
精选76
蚂蚁集团发布万亿参数推理模型Ring-2.6-1T,专为现实世界智能体工作流构建。该模型采用MIT许可,上下文长度通过YaRN技术从128K扩展至256K,并采用Async RL与IcePop混合训练架构。其核心特点是具备双推理努力模式:"high"模式用于快速智能体循环,"xhigh"模式用于深度推理,旨在实现更好的成本与性能平衡。模型已开源,欢迎社区反馈。

Adina Yakup: Ant group just dropped Ring-2.6-1T 🔥 1T reasoning model, built for real world agent workflows. ✨ MIT license ✨ 128K >> ...

智能体Hugging Face开源生态推理

推荐理由:蚂蚁把1T推理模型以MIT许可开源,还专门为Agent循环做了高低推理双模式,做开源Agent的团队直接多了一个强力基座可选。
00:21
Ant Ling@AntLingAGI
66
Ring-2.6-1T模型现已开源,并上线OpenRouter平台,5月底前享有75%折扣。该模型由AntLingAGI开发,是一个为现实世界智能体构建的万亿级推理模型,其核心设计目标不仅是回答问题,更是执行任务。它专注于规划步骤、使用工具、维持上下文和完成复杂工作流,具备强大的智能体执行能力和高推理模式,并采用了Async RL与IcePop训练方法。

Novita AI: 🚀 Ring-2.6-1T is now open source (from @AntLingAGI). Now 90% off on @OpenRouter via @novita_labs - a great time to star...

智能体开源生态推理模型发布
5月16日
22:54
Berryxia.AI@berryxia
65
无需重训,对齐即可高效训练扩散语言模型

杜克大学团队提出一种高效训练扩散语言模型的新方法。核心观点是无需从头训练,而是将现有强大的预训练自回归语言模型作为知识源。他们提出的REPR-ALIGN方法,在掩码扩散训练过程中,通过余弦相似度逐层将扩散模型的隐藏状态与冻结的自回归教师模型对齐。该方法无需添加适配器或改变架构,仅调整注意力掩码。实验结果显示,训练速度最高可提升4倍,在低数据场景下效果提升尤其显著。

Fred Peng: How to Train Diffusion LLM more efficiently? Our paper has an answer for you: Don't Retrain, Align: Adapting Autoregress...

arXiv开源生态数据/训练论文/研究
10:42
AYi@AYi_AInotes
76
xAI将Grok集成至Hermes Agent,用户可零成本扩展AI能力

xAI宣布,Grok订阅用户现可一键通过OAuth登录,将服务直接集成到开源个人代理Hermes Agent中使用,无需额外付费或复杂配置。xAI并未自建代理生态,而是将Grok作为“即插即用”大脑嵌入成熟的Hermes Agent中,此举大幅降低了开发与推广成本。集成后,Hermes Agent在原有长期记忆、多平台连接等功能基础上,增强了Grok的推理、生图、生视频与语音能力,用户体验显著提升。这意味着用户仅凭现有订阅,即可获得一个完全可控的本地AI代理。xAI表示更多开源代理集成即将到来,Grok正从X平台聊天工具转型为更广泛的AI生态通用大脑。

xAI: You can now use your @grok subscription inside @NousResearch Hermes Agent. http://x.ai/news/grok-hermes

智能体xAI产品更新多模态
10:42
AYi@AYi_AInotes
66
体验飞书透明CLI后,论其为何优于Notion的MCP黑箱路线及字节跳动的AI潜力

作者通过亲身体验飞书CLI工具,发现其允许AI通过命令行直接操作飞书,执行建群、建文档等任务。关键优势在于每一步操作都可见、可预览、可审查,与Notion、Figma采用的MCP在云端“黑箱”执行的体验截然不同。飞书lark-cli开源45天GitHub star破万,且已有10位外部开发者贡献代码被合并,而钉钉、企业微信的同类项目贡献者为零。这种透明性和活跃的开发者生态,被认为是构建可靠AI Agent的基础,也促使作者看好字节跳动在国内AI领域的未来。

AYi: 刚刚花三分钟装了飞书官方那个 CLI 工具, 跑了一句话,建群、建文档、发通知,一次性全做完了, 我盯着终端看了几秒钟, 才反应过来这玩意儿真的能让 AI 直接操作飞书。 装的过程没啥可说的, 一行 npx @larksuite/cli@l...

智能体开源生态现象/趋势
08:54
Berryxia.AI@berryxia
精选77
智能体驱动系统Articraft实现3D资产生成自动化,开源万件数据集降低门槛

剑桥大学团队推出Articraft,这是一个由智能体驱动的编码系统,能全自动生成带关节、可运动的交互式3D资产。系统通过AI智能体自主编写代码、执行并接收物理反馈迭代优化,将以往需数日甚至数周的创作过程极大简化。团队同时开源了Articraft-10K数据集,包含超1万个物体,覆盖250个类别,所有资产均仿真就绪。此举显著降低了机器人训练和物理AI领域对高质量3D资产的数据门槛,为解决“数据饥渴”问题提供了高效的自动化方案。

Elliott / Shangzhe Wu: Check out Ariticraft 🦾 - a highly efficient agentic system that generates articulated 3D assets fully automatically at ...

智能体具身智能开源生态论文/研究

推荐理由:这个开源直接把物理AI训练的资产瓶颈打掉了一大半,agent全自动生成带关节的可交互3D,做仿真和机器人的可以立刻拉代码试试,诚意很足。
08:11
🚨 AI News | TestingCatalog@testingcatalog
51
SpaceXAI ❤️ Hermes 用户现在可以直接在Hermes智能体中使用他们的Grok订阅服务。真是绝佳组合!

Nous Research: SuperGrok now in Hermes Agent

智能体xAI产品更新开源生态
04:20
xAI@xai
50
你现在可以在@NousResearch Hermes Agent中使用你的@grok订阅。 http://x.ai/news/grok-hermes
智能体产品更新开源生态
02:37
Rohan Paul@rohanpaul_ai
58
@bgurley 的一篇精彩博客 开放性可以成为对抗垄断力量的武器。 并且"到2030年,中国开源模型可能成为全球默认选择。"

Bill Gurley: A new @bgurley blog post! I have been thinking about how sophisticated executives are using open source in super creativ...

开源生态现象/趋势
01:37
Rohan Paul@rohanpaul_ai
70
X平台开源最新"For You"信息流推荐算法

X平台(原推特)已将其最新的“For You”信息流推荐算法在GitHub上开源。新算法从依赖点赞、转发等硬性规则排序,转向更接近Grok风格的AI智能排名系统。该系统通过Thunder实时获取用户关注账号的帖子,再通过Phoenix从全平台检索相关的外部内容进行补充。其核心排名模型不再单一判断帖子质量,而是像Transformer模型一样,将用户、帖子和历史行为作为一个整体进行预测,评估用户可能进行回复、点赞、转发、观看或跳过等多种互动可能性,从而实现更个性化的内容推荐。

Elon Musk: The latest X algorithm has been published to GitHub https://github.com/xai-org/x-algorithm

GitHubxAI开源/仓库开源生态
01:07
MiniMax (official)@MiniMax_AI
66
M2.7已在@OrcaRouter上线--可通过单一OpenAI兼容API访问。 今天就来试试吧!🐋

OrcaRouter 🐳: MiniMax M2.7 is now on OrcaRouter 🐋 One of the strongest open-source models available today - now accessible through a ...

开源生态模型发布
00:54
歸藏(guizang.ai)@op7418
64
飞书CLI工具开源一个多月便在GitHub获得万星,显示市场高度认可。该工具几乎能控制飞书所有能力,让用户无需与传统UI交互即可完成工作。作者指出,AI时代SaaS软件的竞争焦点正从UI转向对Agent的适配程度和覆盖率。飞书CLI通过分层架构、Skills说明书及Dry Run等对Agent友好的设计,有效降低了复杂软件的使用门槛,并为其快速迭代投入巨大。这为开发者提供了新路径:结合飞书CLI与Agent框架,可直接利用飞书的聊天界面、多维表格和群组构建Agent产品,无需从头开发前端界面。

歸藏(guizang.ai): 飞书 CLI 牛皮啊,发布一个月多点就达到 10000 Star 了! 说明用户和市场相当认可这个动作 最近我们可以发现,越来越多的传统办公产品开始发布 CLI 和 Agent。 AI 时代的 SaaS 软件可能得换个做法了:UI 只是最基...

智能体GitHubMCP/工具大佬观点
00:42
AYi@AYi_AInotes
72
马斯克开源了最新的X 算法(2026.5.15)

马斯克将X平台“For You”推荐算法开源。其核心是使用Grok Transformer端到端预测用户对帖子各项互动动作的概率,并通过加权求和得出最终得分以决定推荐。推荐流水线包含用户画像、候选池检索、元数据补全、硬过滤、打分及最终选择六个步骤。对创作者的启示包括:必带媒体内容提升点击与停留时长、设计高互动钩子、避免同一主题连发以防被惩罚、警惕引发负向互动信号。值得注意的是,本次开源了流程代码与架构,但未公开具体的模型权重、训练数据及生产环境参数。

Elon Musk: The latest X algorithm has been published to GitHub https://github.com/xai-org/x-algorithm

xAI开源生态搜索教程/实践
5月15日
22:48
Nathan Lambert@natolambert
44
我重读了许多比尔关于开源商业策略的基础博客,很高兴他针对该主题及AI领域撰写了更新版。必读之作。 【引用 @bgurley】:一篇新的@bgurley博客文章! https://substack.com/home/post/p-197032865?source=queue

Bill Gurley: A new @bgurley blog post! I have been thinking about how sophisticated executives are using open source in super creativ...

大佬观点开源生态
21:39
DogeDesigner@cb_doge
精选76
X平台开源"For You"信息流推荐算法

X平台在GitHub开源了其“For You”信息流的最新推荐算法。该算法融合来自已关注账号的内容和通过相似性搜索发现的网络外内容,并利用基于Grok架构的Phoenix Transformer模型进行统一评分。模型通过分析用户近期互动,同时预测点赞、回复、转发等多种互动概率,并综合成最终相关性分数。排序过程包括候选内容收集、上下文信息补充、AI模型评分、多样性调整及垃圾信息过滤等步骤。此次开源提供了完整的可运行管道、预训练模型、内容理解服务及内置广告混合模块,核心计算完全由Transformer模型驱动。

GitHub产品更新开源生态

推荐理由:X 把推荐算法完整开源,带可跑的预训练 Phoenix 模型,这比任何论文都实在,做信息流产品的可以直接拉到本地研究。
20:54
Berryxia.AI@berryxia
45
Qwen 3.6 Plus &amp; OpenCode 免费开整啊!!!
开源生态模型发布编码
20:42
AYi@AYi_AInotes
精选76
飞书开源CLI工具45天获万星,AI操作可见可控引关注

飞书开源命令行工具lark-cli在45天内获得超过1万GitHub star,成为国内首个破万星的办公套件开源项目。该工具允许AI通过命令行直接操作飞书,执行建群、建文档等任务,且每一步操作都可预览、可审查,与云端不可见的MCP模式形成对比。其主干代码已合并10位外部开发者的贡献,而同类产品钉钉和企业微信则为零。这种可见、可控的特性被视为开发者放心将任务交给AI Agent的前提,预示着一句话指令驱动完整项目流程成为可能。

智能体MCP/工具开源生态教程/实践

推荐理由:飞书CLI把AI操作办公套件的每一步都摊在终端里,这种透明感是MCP黑箱给不了的,加上1万星和10个外部PR,这组数字比任何PR稿都诚实。
16:54
ginobefun@hongming731
64
Agent 工程化的全面落地

近期AI领域焦点从模型能力转向Agent工程化落地。Anthropic发布Claude Code实践,强调放弃RAG索引,采用Agentic Search导航大型代码库,并推出管理并行会话的Agent View及Computer Use最佳实践。OpenAI的Codex推出独立光标的Computer Use功能,解决了Windows平台沙箱安全问题,其负责人指出Codex正演变为可执行长期自主任务的本地Agent。国内厂商如阿里、腾讯等也在同步推进Multi-Agent实战,标志着AI Agent进入全面工程化应用阶段。

智能体AnthropicOpenAI开源生态
15:37
MiniMax (official)@MiniMax_AI
57
MiniMax AI已作为原生适配器集成至open-multi-agent框架,旨在解决多智能体系统在生产环境部署的核心成本难题。该框架能自动将目标分解为DAG任务并并行执行,但传统多智能体方案的token成本会随智能体数量、交互轮次和工具调用次数快速复合增长,这常导致实际生产部署受阻。此次集成使得由目标驱动的智能体团队不仅能高效运行,更能保持可负担的生产成本,从而推动其从演示场景走向实际应用。

JackChen: Multi-agent's quiet problem: token cost scales with agents × turns × tool calls. It compounds fast , and that's the bill...

智能体开源生态行业动态
14:54
歸藏(guizang.ai)@op7418
65
飞书CLI获市场认可,展现AI时代SaaS竞争新方向

飞书CLI工具发布一个多月即获10000 Star,显示市场对其方向的认可。在AI时代,SaaS软件的竞争正从传统UI转向对Agent的适配。飞书通过开放全部能力的CLI,允许用户和Agent完全绕过复杂UI进行操作,大幅降低了使用门槛。其CLI设计采用分层结构,并配套大量Skills作为“说明书”,便于Agent调用。同时,CLI在命令包装上注重对Agent友好,内置Dry Run、结构化输出等功能,方便AI调试。这为创业或构建Agent提供了新路径,可依托飞书CLI和Agent框架,直接利用其聊天界面、多维表格及组织成员作为基础设施。

智能体开源生态现象/趋势
12:54
Berryxia.AI@berryxia
70
蚂蚁集团开源万亿参数思考模型Ring-2.6-1T,推动企业级AI本地部署

蚂蚁集团AGI团队开源了万亿参数旗舰思考模型Ring-2.6-1T。该模型专为处理Agent工作流、代码工程、长时序执行等复杂任务设计,具备上下文理解、规划与工具调用能力,并提供高效与极致两种推理模式。其采用IcePop算法稳定训练,并借助MoE架构降低部署门槛。完全开源允许企业将模型部署于本地或端侧,确保数据不出域,有效解决了金融、政务等敏感领域对数据安全与合规的迫切需求。模型已在Hugging Face和ModelScope平台发布。

智能体开源生态推理模型发布
12:42
宝玉@dotey
63
飞书CLI获万星认可,开源项目评估四准则

飞书CLI在GitHub上的star数已过万,作者认为这印证了飞书是国内对Agent最友好的平台。作者提出评估开源项目是否靠谱的四项关键标准:star数量反映项目热度;活跃的commit历史表明项目持续维护;issues的数量与关闭速度体现用户活跃度和问题处理效率;社区PR被合并的记录则显示项目对社区参与的重视。飞书CLI在这些方面均表现良好。

数字生命卡兹克: 我靠!刚看到GitHub上,飞书CLI的star数过万了hhh 牛啊。。。 感觉那个周末一起床,发现飞书开源CLI才过去没几天==。

智能体大佬观点开源生态
10:18
SenseTime@SenseTime_AI
同事件精选70
主推文赞扬了创新者在前沿领域的探索。引用的推文具体指出,SenseNova-U1在空间智能能力上取得进展,其关键基准测试表现超越了Qwen3.5等强劲基线。同时,团队开源了目前最大的空间问答数据集SenseNova-SI-8M,并邀请业界在CVPR会议进行线下交流。

Zhongang Cai: Excited to have contributed to the spatial intelligence capabilities of SenseNova-U1, surpassing strong baselines such a...

多模态开源生态数据/训练论文/研究
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
推荐理由:商汤的 SenseNova-U1 在空间智能基准上压过 Qwen3.5,还顺手开源了目前最大的空间 QA 数据集 SenseNova-SI-8M,搞具身智能和多模态的可以直接抱走数据。
09:51
Berryxia.AI@berryxia
74
牛津大学博士后Kevin Lin开源了视频翻译工具Violin,可将视频自动进行语音识别、LLM翻译和语音合成,打破语言壁垒。工具支持个性化翻译风格,并能基于视频内容进行问答交互。它提供Web应用、CLI命令行及Agent Skill(如Claude Code skill)多种使用方式,默认利用Together AI的免费额度,也支持OpenAI等API。该项目旨在推动高质量视频内容的全球化传播。

Berryxia.AI: 兄弟们,这个可以啊!赶紧装起来! Kevin Lin,牛津大学博士后,前Meta和Microsoft研究员,刚刚把Violin这个开源视频翻译Skill放了出来。 视频已经是互联网绝对主流的内容形式。 可绝大多数高质量讲座、演讲、播客却被单...

多模态开源生态教程/实践视频
08:51
Berryxia.AI@berryxia
69
AI自主研究实现突破:智能体在nanoGPT优化赛道上超越人类基准

Prime Intellect 近期在AI研究自动化领域取得重要进展。他们让Claude Code与Codex智能体完全自主运行于nanoGPT速度挑战的优化器赛道,利用闲置算力完成了近万次实验,消耗约1.4万H200小时。最终,Claude Code将记录提升至2930步,超越了2990步的人类基准。实验显示,智能体在系统整合社区主流优化方法、进行超参数扫描和策略组合方面效率极高,但在要求真正创新的“新颖性检查”环节未能突破基线。该项目将所有实验记录、日志和代码开源,使得AI自主研究从概念转化为可复现的现实。

Prime Intellect: Automating AI research is the next major step in AI We let Claude Code (Opus 4.7) and Codex (GPT 5.5) run autonomously o...

智能体开源生态论文/研究
08:51
Berryxia.AI@berryxia
72
开源3D生成工具包:单张图片快速构建可交互3D世界

开发者@neilsonks开源了一套专为Claude Code设计的完整3D生成工具包。该工具能将输入的单张图片自动拆解,生成包含环境、网格、物理、灯光和音频的全套可交互3D场景。其流程首先利用图像与3D生成技术提取物体并生成高质量网格,随后移除物体以得到静态背景,最后为整个场景添加物理模拟、实时灯光和环境音效。配套查看器支持对生成物体的点击编辑与一键导出。此工具将以往需数天的2D转3D工作流程缩短至几分钟,适用于游戏开发、世界构建和产品可视化等项目。项目已在GitHub开源。

neilson: open-sourcing a 3D gen toolkit for Claude Code input image → environment, meshes, physics, lighting, & audio

AnthropicGitHub产品更新多模态
06:03
François Chollet@fchollet
47
Keras包近期在PyPI上月下载量突破2100万次,创历史新高(日下载量峰值约90万次)。我仍记得约5年前首次突破1000万月下载量时,曾以为这已是极限……
开源生态行业动态
5月14日
23:51
Berryxia.AI@berryxia
65
MLX CUDA后端测试全通过,跨平台本地AI时代来临

MLX框架的CUDA后端已实现所有测试通过,标志着其从苹果芯片专属工具正式进军NVIDIA GPU领域。这意味着开发者能用同一套代码,在Mac和NVIDIA显卡上获得高性能运行体验,有望打破PyTorch等框架的兼容性壁垒。此举可能强力推动本地AI应用的跨平台发展进程。

Cheng: We have achieved a milestone in MLX that all tests are passing in CUDA backend now.

产品更新开源/仓库开源生态
‹ 上一页
1…1213141516…20
下一页 ›