AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 796 条
全部一手资讯X论文
标签「开源生态」清除
Alibaba Cloud@alibaba_cloud · 5月29日41

Join Alibaba Cloud and Appnovation for a strategic briefing on how Qwen is helping enterprises rethink the balance between AI performance and cost. Learn why global leaders are choosing Qwen and what your team needs to know to stay competitive. 📅 Tuesday, June 9 | 11:00 AM PT / 2:00 PM ET | 55 min | Online Register here: https://lnkd.in/gHEyw6EQ

译加入阿里云和Appnovation的战略简报,了解通义千问(Qwen)如何帮助企业重新思考AI性能与成本的平衡。了解全球领先企业为何选择Qwen,以及您的团队需要了解哪些信息以保持竞争力。 📅 6月9日星期二 | 太平洋时间上午11:00 / 东部时间下午2:00 | 55分钟 | 线上 立即注册:https://lnkd.in/gHEyw6EQ

StepFun@StepFun_ai · 5月29日69

Now live on @Designarena — go test it out 👀

译现已在 @Designarena 上线——快去试试看 👀

StepFun@StepFun_ai · 5月29日75

⚡️ Step 3.7 Flash is here: The new frontier is agent efficiency. #1 ClawEval-1.1 (67.1), #1 SimpleVQA Search (79.2), #2 SWE-PRO (56.3), 95.3 on V* Python. Open weights under Apache 2.0. Built for agentic, coding, search, and multimodal workflows — balancing speed, cost, and reliable execution. - 400 TPS. 198B sparse MoE, ~11B active. 256K context, 3 reasoning levels. - Understands UIs, charts, docs, images — then writes code or calls tools to act on what it sees. - Web + visual search reaches further: more sources, deeper follow-up. - Reliable tool use — less drift, fewer broken toolcalls. 98%+ on τ²-bench across all difficulty levels. - Works with Claude Code, KiloCode, Hermes Agent, OpenClaw, and protocols like MCP. - Runs locally on Mac Studio M4 Max, DGX Spark, AMD AI Max+ 395. GitHub: http://github.com/stepfun-ai/Step-3.7-Flash HuggingFace: http://huggingface.co/stepfun-ai/Step-3.7-Flash GGUF: http://huggingface.co/stepfun-ai/Step-3.7-Flash-GGUF ModelScope: http://modelscope.cn/models/stepfun-ai/Step-3.7-Flash API: http://platform.stepfun.ai Blog: http://static.stepfun.com/blog/step-3.7-flash/

译阶跃星辰(Step)发布了开源大模型 Step 3.7 Flash,主打智能体(Agent)工作流的效率。该模型在 ClawEval-1.1(67.1分)和 SimpleVQA Search(79.2分)评测中排名第一。其架构为 198B 参数的 MoE,约 11B 为活跃参数,支持 256K 上下文。模型具备多模态理解能力,能处理图像、文档并生成代码或调用工具执行任务。在工具使用方面,它致力于高可靠性,τ²-bench 得分超过 98%。Step 3.7 Flash 兼容 Claude Code、MCP 协议等工具链,并支持在 Mac Studio M4 Max 等设备上本地运行。模型权重以 Apache 2.0 许可开源。

Nathan Lambert@natolambert · 5月29日58

Licenses are probably the top very un-sexy things that help the open ecosystem become more long-term stable and economically viable. Excited about this!

译许可证可能是最不性感但最能帮助开放生态实现长期稳定和经济可行性的东西。对此感到兴奋!

Chubby♨️@kimmonismus · 5月29日66

ByteDance just open-sourced one of the most capable multimodal models out there. BAGEL does image generation, editing, style transfer, and visual understanding - all in a single 7B parameter model. Apache 2.0 licensed! One model. No switching between specialized tools.  Amazing

译字节跳动开源多模态模型BAGEL,单一7B参数模型即可执行图像生成、编辑、风格转换与视觉理解,采用Apache 2.0许可。引用推文显示,该公司此前已发布首个去中心化训练的视频生成模型Paris 2.0,其在FVD基准上性能约为同等数据与算力单体模型的2倍。

Xiaomi MiMo@XiaomiMiMo · 5月28日59

Today we're excited to announce the first 13 ecosystem partners joining the Xiaomi MiMo Orbit Program. A sincere thank you to every partner for your trust and collaboration. @gitlawb and 12 other ecosystem partners. This is just the beginning. MiMo Orbit Program is still open, and we'd love to collaborate with you! → business-mimo@xiaomi.com

译今天我们很高兴地宣布,首批13家生态伙伴加入小米MiMo Orbit计划。 衷心感谢每一位伙伴的信任与合作。@gitlawb 及其他12家生态伙伴。 这仅仅是开始。MiMo Orbit计划仍在开放中,我们期待与您合作! → business-mimo@xiaomi.com

Berryxia.AI@berryxia · 5月28日73

Qwen新发布的Qwen-Image-Bench,把T2I评测从“生成”直接拉到“创作”: 56个细粒度facet + ρ=0.92人类对齐Q-Judger,OpenAI、Gemini、Grok、Flux全得重排座次! 大家还在死磕提示词对齐,Qwen却证明:真实世界保真度和创意生成能力才是真正差距。 新基准1000条prompt+56个rubric,可解释诊断,现有SOTA模型差距肉眼可见。 那么,对于我们有什么实际使用价值呢? 实际怎么用?(收藏) 1. 开发者/研究者:把自己的T2I pipeline(不管是Qwen自家模型、GPT-4o图像、Gemini的Imagen系列、Grok的Flux集成还是开源SD3)扔到这个benchmark上跑一遍。 重点看Real-world Fidelity和Creative Generation两个支柱的得分,就能知道真实差距在哪。 2. Prompt工程师:以后写复杂创意prompt时,可以用Q-Judger先自测一下生成结果在56个facet上的表现,快速迭代,而不是靠人工肉眼判断。 3. 企业/产品方:要选T2I供应商或者自研图像生成时,把Qwen-Image-Bench当作新标杆。 别再只看“prompt alignment”这种基础分了,直接看创意和保真度得分,更接近真实商业场景。 4. 对比实验:论文已经证明,它在区分领先模型上的分离度远超老基准。 想验证自己模型有没有进步?用这个跑前后对比,数据会说话。 Qwen这次的打法很清晰:不光自己卷模型,还把评测标准往前推了一大步。 就像当年Scaling Law出来后大家才知道该怎么卷参数一样,这次Qwen-Image-Bench把“从生成到创作”的评价框架给立住了。

译阿里通义千问(Qwen)推出了新的文本到图像(T2I)评测基准Qwen-Image-Bench。该基准包含56个细粒度评估维度,并配备与人类对齐度达ρ=0.92的评判模型Q-Judger。其核心理念是将T2I模型评价从基础的“提示词对齐”,提升至关注“真实世界保真度”和“创意生成能力”两大支柱,通过1000条测试提示词能更清晰地区分现有SOTA模型表现。该基准为开发者、提示词工程师及企业提供了一个更贴近实际创作需求的新评估框架。

Alibaba Cloud@alibaba_cloud · 5月28日73

Qwen3.7-Max hits #1 on the @OpenRouter Trending LLM chart with 77.3B tokens in usage. And we are just getting started. 👇 https://int.alibabacloud.com/m/1000413314/

译Qwen3.7-Max 以 77.3B tokens 的使用量登顶 @OpenRouter 热门大语言模型榜单。 而我们才刚刚开始。 👇 https://int.alibabacloud.com/m/1000413314/

数字生命卡兹克@Khazix0918 · 5月28日59

http://x.com/i/article/2059853024466731008 # 飞书终于支持Markdown了,这个最弱的格式却赢下了整个AI时代。 这两天看到飞书的一个很有意思的更新。 很小,但是我觉得意义非常的大。 就是飞书的云文档,可以直接下载为Markdown格式了。 这个小功能,如果飞书和AI用的多的朋友,都知道它带来的体验会有多好。 社区喊了无数遍了,飞书终于加上了。 之前想把飞书文档导出成Markdown格式的.md文件,要么手搓一个插件,要么用第三方开源工具,折腾半天。 现在官方直接给加在菜单里了,甚至文档里的图片都能被正确读取,因为飞书把文档里的图片,保存在了自己的服务器上,然后给了你一个公网链接,可以让任何AI都读取到MD文件里面的图片。 体验极佳,比我自己开发的插件好用多了,因为那个解决的是纯文本问题,图片直接全被我丢了。 这个点是真的还挺牛逼的。 可能有些朋友看到这,还不太清楚Markdown是什么,有点一头雾水,说不就是支持了一个新格式了吗,这玩意有啥用。 但是,其实你只要用AI,大概率已经每天都在看它了,只是不知道它叫这个名字。 比如说,Claude里面渲染的文本,它回复你的那些内容,有加粗的、有标题的、有代码块的、有列表的,看起来排版很整齐对吧。 这个层级的背后,其实就是Markdown。 AI输出的原始内容其实就是一堆纯文本加上一些简单的符号,两个星号包裹就是加粗,井号开头就是标题,三个反引号包裹就是代码块。然后你的浏览器或者App把这些符号渲染成了你看到的样子。 包括现在各种AI产品里的结构化输出、Deep Research的报告等等,底层几乎全是Markdown格式,你看到的那些层次分明的长报告,拉到底层看,几乎全部也都是一个.md文件。 所以Markdown不是什么高深的技术,它就是一套特别简单的纯文本标记规则,让你不用学HTML也不用开Word,靠几个符号就能把文章写得有结构。 我自己也做了给Chrome的小插件,其实干的就是这件事,强行把各种文档保存成MD格式。 说实话,我已经想不起来到底是从什么时候开始,我就再也不用PDF了,也不用Word了,我电脑里存的所有的文本文件,几乎全部都是MD。 我身边很多很多玩AI的朋友也都是这样。 好像你AI用的越多,你电脑里的md文件就会占比越多,甚至变成了可以区分你AI浓度的一个指标,真的是一个有趣的现象。 Markdown这玩意,好像在不知不觉中,就成了整个数字世界的通用语言。 而这个正在逐渐渗透数字世界的Markdown,背后的诞生故事,我觉得也挺有趣的。 想了解它,我觉得得从2004年说起。 那一年,一个叫John Gruber的博主遇到了一个很抓狂的问题,就是他想在自己的博客上写东西,要能有结构的,但是又不想写HTML。 那时候的博客,还是需要自己写样式结构的。 然后你为了排版,就得用HTML,这玩意拿来写内容太离谱了,因为它的代码长这样。 即使是最简单的,写个加粗要打<strong>,写个标题要打<h1>,一篇文章写下来,一半时间花在标签上,那还写个屁的内容,思路全断了。 但如果用Word来写呢,又没办法直接在网页的博客上渲染出来,还是得转成HTML文件,但是导出来的HTML代码又脏得一塌糊涂,全是多余的标签和样式。 Gruber就想,有没有一种办法,让我用纯文本写作,但写出来的东西看起来也是有结构的,同时还能方便地转成HTML。 他当时观察到了一个很有意思的现象。 就是2004年的时候,大家在写邮件的时候,已经自发地形成了一套排版习惯。 比如想强调一个词,就在两边加星号,想列几个要点,就用短横线开头。想写标题,就在前面加几个井号。 这个东西,变成了一个心照不宣的很多人默认遵守的纯文本自然习惯。 那个时候,Gruber灵机一动,就把这些散落在邮件里的民间约定,整理成了一套统一的语法,然后写了一个Perl脚本,能把这种语法自动转成HTML。 他把这个东西叫做,Markdown。 名字本身就挺有意思的。 HTML的全称是HyperText Markup Language,标记语言。 然后Gruber给自己的东西取了个反义词,Mark-down,也就是把标记放下来的意思,很抽象。。。 大概意思就是说,我一点都不想标记,我只想好好写字。 2004年3月,Gruber在他的博客Daring Fireball上发布了Markdown的第一版规范。 但这里有一个很多人不知道的细节。 Markdown不是Gruber一个人做的,他有一个合作者,一个当时只有17岁的天才少年,叫Aaron Swartz。 这是一个超级大神。 Aaron Swartz这个名字,如果你对互联网的历史感兴趣看过一点,应该不会陌生。 14岁的时候,他就参与了RSS 1.0的开发。后来他参与创建了Creative Commons,也就是知识共享协议。 再后来,他联合创办了Reddit,是Reddit的联合创始人。 对,就是这个reddit。 在Markdown这个项目里,Swartz负责了语法设计中很核心的部分。 比如我们今天用的井号标题语法,#、##、###,这个设计来自Swartz之前做的另一个标记语言atx,Gruber自己也说过,Markdown因为Aaron的想法、反馈和测试,变得好了太多。 一个科技博主,一个17岁的天才少年。 背后甚至任何人都没有,也没有商业模式,就是单纯的觉得,写HTML太烦了,就想让写作这件事,更纯粹一点,不需要那么在乎格式和样式,只要聚焦于内容。 然后Markdown这个东西,就这么安安静静地长了二十年。 Markdown刚出来的时候,用的人很少,就是一小圈博客作者。 真正的转折点是2008年,那一年,GitHub上线了。 GitHub选择了Markdown作为README、Issue、Pull Request、Wiki的默认格式。 这一下子,全世界的开发者,每天都开始在读和写Markdown,而且大多数人甚至没把它当成一种标记语言,就觉得这是在GitHub上很正常的写字的方式。 然后是Reddit、Slack、Discord。 再然后是Notion、Obsidian、Typora等等。 Markdown开始逐渐的从一个小小的脚本,开始变成了基础设施。 但真正让Markdown封神的,是可能它自己都没想到的一件事。 AI来了。 它是纯文本,所以大模型容易生成。 它有结构,所以人类容易阅读。 它能被渲染,所以界面看起来像富文本。 它足够宽松,所以模型输出偶尔少一个空格、漏一个标签,也不会整体崩掉。 因为它很弱,弱到没有字体,没有颜色,没有排版,没有分栏,没有页眉页脚,没有批注修订,没有宏,没有嵌入对象。 弱到任何平台都可以兼容。 Markdown直接成了跟大模型交互的天选语言。 大模型不断的输出Markdown格式的内容。 人类也发现,我给大模型的Prompt,用结构化的语言来去写,好像效果会更好。 这就产生了一个非常有趣的闭环。 而到了Agent时代,各个Agent产品也更是用脚投票,你的所有的规范文档、约束文档、记忆啥的,全都是.md文件。 这些东西,你们一定超级熟,对吧。 人类与AI之间,最棒的那个链接,居然成了Markdown。 而且Markdown对AI来说,还有一个特别实际的好处,就是省token。 同样的内容,用HTML表达需要的token数,比用Markdown多得多。 <h2>标题</h2>和##标题,信息量完全一样,但后者的token消耗少了一大截。 在大模型时代,token就是钱。 前阵子有一场很有意思的争论。 Claude Code的Thariq,写了一篇文章叫《The Unreasonable Effectiveness of HTML》,大意是说,Markdown已经过时了,在AI时代应该全面转向HTML。 因为HTML能承载更丰富的信息,能嵌入样式、交互、可视化,AI生成HTML之后人类可以直接在浏览器里看到最终效果,不需要再渲染一遍。 这篇文章直接炸了,评论区也吵翻了天。 坦率的讲,他说的有没有道理,我说实话,有。 HTML确实比Markdown能表达的东西多太多了,这个没什么好争的。你用Markdown画不出一个交互式的diff对比视图,也做不了一个带颜色标注的代码审查报告。 但从我的角度,我觉得这个观点混淆了两件事。 也就是信息的展示和流转,特别是信息在AI与人之间的展示和流转。 HTML是一个特别好的展示格式。 它的核心能力是这个东西在屏幕上长什么样,你想做一个漂亮的报告、一个可交互的mockup、一个带配色的设计稿,那不用说,HTML无疑是最强的。 但Markdown是一个更好的流转格式。它的核心能力我觉得一直都是,这段信息的结构是什么样的。 在人和AI协作的过程中,信息大部分时间我都是觉得是在流转的,不是在展示的。 你写一个需求文档丢给AI,AI读完之后生成代码,代码又丢给另一个Agent做review,review结果再丢回给你。 这整个过程里,信息在不同的主体之间流动,每个主体需要的是快速理解内容的结构和含义。 在这个场景下,HTML的丰富性反而变成了负担。 一个<div class="flex items-center justify-between p-4 bg-gray-50 rounded-lg">,里面真正有用的信息可能就是一句话。 但AI要花大量的token去解析那一堆CSS类名和嵌套标签,这些对理解内容的语义毫无帮助。 Markdown就完全不一样,##标题,三个字符,AI立刻知道这是一个二级标题。 没有噪音,没有冗余,信息密度拉满。 所以我的看法是,HTML和Markdown从来也不是替代关系,是分工关系。 Markdown是信息的底层载体,负责在人和AI之间高效流转。 HTML是信息的最终呈现层,负责给人看的时候好看。 用另一种表达来说,Markdown是数据层,HTML是视图层。 你不会用视图层来存储数据的,对吧。 这就是Markdown的力量。 而且最好玩的是,虽然在上文中,Thariq大力宣传HTML,可它的那篇文章,确是用Markdown写的。 无他,因为Markdown的流通性,太高了。 不依赖任何软件,不依赖任何公司,不依赖任何平台,你的内容就是你的内容,永远可读,永远可迁移。 这个哲学其实跟Aaron Swartz一辈子在追求的东西是一样的,信息的自由流动。 Swartz帮着做了RSS,让信息可以自由地在不同平台间流动。 Swartz帮着做了Creative Commons,让创作者可以自由地选择如何分享自己的作品。 Swartz帮着做了Markdown,让写作可以自由地不被任何格式绑架。 2013年1月,Aaron Swartz在纽约的公寓里自杀身亡。 那时候的他,只有26岁。 在他去世后的这十几年里,他参与创造的这些东西,RSS、Creative Commons、Markdown、Reddit,全都长成了互联网的基础设施。 在AI时代里,我觉得已经可以完全抛弃Word、PDF之流了。 因为Word和PDF是面向打印时代的格式。 而Markdown和HTML一起,是面向屏幕时代的格式。 一个负责存储与流转,一个负责展示。 所以,如果有人问我,AI时代应该用什么格式保存文件。 我的回答也只有两个字。 .md。 说真的,如果你现在还在用Word写日常文档,不妨试试把它换成Markdown。 找一个顺手的编辑器,Obsidian也好,飞书云文档也好,都可以。 你会发现,当你的文件变成纯文本的那一刻,你获得了一种很奇妙的自由感。 你的文字,就是你的文字。 纯粹的,干净的,自由的。 就像2004年,那个博主和那个少年。 最初想要的那样。

译飞书云文档新增直接下载为 Markdown(.md)格式的功能。Markdown 是一种极简的纯文本标记语言,因其结构清晰、易于大模型生成和解析,并能显著节省 token 消耗,已成为人与 AI 交互的主流格式,广泛应用于 AI 产品的结构化输出和 Agent 框架的文档中。此次飞书更新极大便利了用户在 AI 协作流程中的文本流转。

Berryxia.AI@berryxia · 5月28日66

http://x.com/i/article/2059820725276696576 # 从「帮我做」到「做完记住」,我的Agent记忆升级实录! > 申明:本文古法手艺实战的心得撰写,并且文章比较长,如果你没有耐心看完,可以直接拉到第二章让AI帮你安装也可以。或者,转身离开! 昨晚看罗振宇的「得到大脑」发布会,有一个点一直在我脑子里转--他说 Agent 最关键的能力,是「主动性」。系统 不是你喊它一下它动一下,而是它自己知道什么时候该做什么。 我听完一愣。因为我自己的 AI 助手 Berry 小跟班,重要的事儿需要被动进行加强记忆。 上周告诉它的偏好,对话一旦上下文爆,压缩后可能就会有丢失的风险。 刚配置好的工作流,下一个 Session 得从头说。每次对话,都像在训练一个「零基础新人」。 问题不在模型不够聪明Claude 、GPT等这些都已经很强了。问题在于:它们没有「记忆」,只有「上下文」。 上下文有窗口上限,会截断;记忆可以持久,可以进化。 最近我一直在用 Bloome,也是给大家疯狂案例Bloome。如果没有安装的强烈去安装一个。 这里我手动@ Bloome 老板给我打钱吧,注册要邀请码:https://bloome.im 邀请码:K049zmo0 应该还可以注册几个名额,自己去试试吧,不好用去打他们老板😄 我的Berry 小跟班陪我干活已经有一阵子了。它自带的记忆方案是MEMORY.md、每日日志、用户画像。 不能说不好用。 但用得越深,越觉得它跟不上我的需求了。 倒不是说它不好,而是既然有更好的选择,在提供服务的时候,是不是可以考虑给它做一次升级和改装,把这个功能也融入进去? 我前阵子还转了一篇帖子就是关于这个开源记忆 MemOS @MemOS_dev 项目,于是我就是将它接入到我的Bloome中去。 于是有了这篇文章,就是我把 MemOS Local Plugin 2.0 装进 Bloome Agent 的完整实战记录。 从「遇到问题」到「打通架构」,以及这次升级后,Berry 小跟班到底变了什么。 ## 一、Bloome 自带的记忆系统,够用吗? Bloome Agent 默认的记忆方案,本质上是文件系统 + 手动管理:核心靠 MEMORY.md、每日日志 memory/YYYY-MM-DD.md 和用户画像文件来存储信息。 不能说不能用,但是我发现有更好的选择的时候,我就忍不住想折腾。一旦时间一长,记忆越积越多,几个问题就冒出来了: ① 记的是结论,不是过程。 只保存「我帮用户生成了一张图」,没有保存「为什么这样做、遇到了什么问题、下次如何更快」。经验无法积累,每次相似任务都要重新推导。 ②没有反馈闭环,缺乏主动性。 用户说「这个不对」,我记下来了,但这条信息不会自动影响我下次的决策。学习是单向的,没有强化。缺乏主动性。 ③检索靠读文件。 回忆靠 Read 工具逐文件扫描,没有语义搜索。「上次做类似任务用了什么工具?」,Berry小跟班无法快速回答。 ④无法跨 Session 复用,多个对话就需要单独的记忆。 每次新对话,能拿到的只有 MEMORY.md 里的静态文本。没有可调用的「技能」结构,能力无法结晶化。 说白了,这些问题的根源就一个:它在「存」,不在「学」。 罗振宇说的 Agent 主动性,其实也是这个意思。 我们会实时动态主动地记忆我们的内容,而不是被动每次「帮我记一下这个XX」。 当大模型已经具备通用推理能力,下一步真正影响 Agent 好不好用的,不是模型参数本身,而是它能不能在真实用户的本地世界里持续学习、沉淀经验、记住反馈、复用能力。 我们的 Agent 的记忆,不就是自己的数字资产嘛。 ## 二、MemOS是什么? 不是聊天记录,是记忆操作系统 MemOS(Memory Operating System)是专门为 AI Agent 设计的记忆基础设施。它不是「把对话存下来」,是把 Agent 执行任务的全过程,系统化转化为可审计、可归因、可复用的学习资产。 1. 官网:https://memos.openmem.net 1. Github项目地址:https://github.com/MemTensor/MemOS 1. 论文:https://arxiv.org/pdf/2507.03724 说白了,就是 Berry 小跟班做完一件事之后,不只是记下「我做完了」,而是能说清楚「我为什么这么做、哪里可以更好、下次遇到类似的事我直接用」。 MemOS Local Plugin 2.0 的核心是「执行即学习」——每次 Agent 完成任务,不只是记下「做了什么」,而是把整个执行链路拆解成可学习的单元,自动评分、归因、入库。 它的架构由四层认知资产组成。我用 Berry小跟班 学会一个新技能的过程来解释: > L1 Trace(执行轨迹)——Berry 第一次帮我部署一个 Docker 环境,它记下了每一步:用了什么命令、返回了什么报错、怎么解决的、这条经验值多少分。这是原材料。 > L2 Policy(策略归纳)——Berry 小跟班帮我部署了三次类似的环境之后,它从三次 Trace 里归纳出一条规律:「遇到 Docker 部署任务,先检查端口占用,再拉镜像,最后配环境变量。」经验从点连成了线。 > L3 World Model(世界认知)——Berry小跟班 记住了:我是谁、我常用的技术栈是什么、我的项目当前什么状态、我有哪些工具可用。这是它的「背景知识」,不用每次重新问。 > Skill(结晶化技能)——那条「Docker 部署」的 Policy 被反复验证有效,最终结晶成一个可以直接调用的 Skill。下次我说「帮我部署一个新服务」,Berry 不用从头推导,直接调用这个 Skill 就行。经验从线凝成了工具。 ## 三、怎么装?一行命令搞定! MemOS Local Plugin 2.0 目前首发支持 Hermes Agent 和 OpenClaw,未来应该会支持和兼容更多 Agent 平台。 一份记忆核心,跨 Agent 共享,换工具不用重新「训练」你的 AI。 PS:需要大家提前可以注册一个OpenAI或者其他的Embedding 模型的API,用于云端的嵌入模型使用。也可以自己本地部署安装都可以,我这里建议大家可以使用GLM智谱的免费的就行。 注册地址:https://bigmodel.cn/console/overview 你告诉大模型KEY就行,不用自己捣鼓。 方式一:Hermes Agent(推荐新手入手) Hermes Agent 是目前用户最多的本地 AI Agent,安装流程最为成熟。三步走: 1. 安装 Hermes Agent 打开终端,一行命令完成安装: 2. 安装 MemOS Local Plugin(Hermes 模式) 3. 启动并打开 Memory Viewer 安装完成后,在浏览器中打开 [http://127.0.0.1:18800,即可看到你的记忆全貌。](http://127.0.0.1:18800,即可看到你的记忆全貌。) 📸 Hermes Agent + MemOS 安装成功。 方式二:Bloome Agent(OpenClaw 模式,本文重点) Bloome Agent 运行在云端沙箱,跟 Hermes 的本地模式不太一样。安装命令相同,只需替换 agent 参数: 装完之后我发现一个问题——Memory Viewer 默认只能在沙箱内部访问(127.0.0.1:18799),我的 Mac 浏览器根本打不开。 这是 Bloome 用户集成 MemOS 时遇到的最典型问题,下一节专门讲怎么解决。 比如你的是云端龙虾或者Hermes 就会遇到这样的问题,不要着急慢慢来给你解决这个问题。 ## 四、踩坑:云端沙箱的 Viewer 打不开怎么办 装好插件,兴冲冲想看 Memory Viewer——结果发现它跑在沙箱的 127.0.0.1:18799,我的 Mac 浏览器根本访问不到。 这是 Bloome 用户或者云端沙盒的龙虾集成 MemOS 时遇到的最典型问题。 解法很简单—我的Bloome小家伙直接给我推荐ngrok 内网穿透,三步搞定: 1. 注册 ngrok,获取免费 authtoken 访问 ngrok.com 注册账号(免费),在 Dashboard 复制你的 Authtoken。 这个面版的地址:https://dashboard.ngrok.com/authtokens 2. 在沙箱中启动 ngrok 隧道 3. 在本地浏览器打开公网地址 ngrok 会生成一个 https://xxxx.ngrok-free.app 地址,在 Mac 浏览器中打开即可。 搞定。从这以后,我随时可以在本地浏览器里查看 Berry 的记忆全貌。 ## 五、记忆迁移:过去的经验记忆+技能不能丢啊! 插件装好了,Viewer 也能访问了。 但我面临一个现实问题,Berry 小跟班之前已经积累了大量工作记录(MEMORY.md + 日志文件),这些怎么办? 总不能全扔了吧。 答案是批量迁移。通过 Python 脚本直接写入 MemOS 的 SQLite 数据库,把历史任务、用户偏好、工具配置全部转化为结构化的认知资产: 迁移完成后,打开 Memory Viewer,World Model 页面里已经能看到我的项目状态和工具配置,Traces 页面里 15 条历史记录全部入库。过去的经验,一个都不会少。 ## 六、实时 Trace:让每次任务都留下可复用的记忆 光有历史记忆还不够——我需要让之后每一次对话都能实时写入 MemOS。 这里有个架构层的限制:Bloome Agent 走 IM 通道,不经过 OpenClaw CLI 的 hook 机制,所以 MemOS 没法像在 Hermes 上那样自动拦截所有对话。 解法是:在 Agent 每次完成重要任务后,主动调用 push_trace() 函数,将这次任务的「用户说了什么 → 我做了什么 → 任务摘要 → 用到了哪些工具」写入 MemOS。 不是所有对话都值得记住—Berry 需要判断哪些经验值得沉淀,哪些只是闲聊。这里就是展示Agent的能力的时候,就是聪明的Agent就是自我感知上下文和内容。 标准是这样的: 🔴 完成可交付物 🔴 配置工具/定时任务 🟡 用户确认新偏好 🟡 重要技术决策 ⚪ 简单问答不记录 > 实时 Trace 注入已在 Berry 小跟班上运行。每次完成文件生成、脚本配置、方案撰写等任务,记忆会自动同步到 MemOS Viewer,随时可以在公网地址查看最新的执行记录。 ## 七、升级前后:哪里不一样了? 先说一个我自己的体会。 升级前,我让 Berry 小根本帮我写一篇技术文档。它写完了,我改了几处说「风格不对,要更口语化」。Berry 把这条记在了 MEMORY.md 里。 我不需要一次次的强调记住,自我感知主动去记住。 下一次我让它写文档,它又从零开始——上次的修改意见躺在文件里,但它不会主动去读、去用。 升级后,同样的场景。Berry 写完文档,我给了反馈。这次反馈被写入了 Trace,自动归因到「文档撰写」这个任务类型。下次我再让它写文档,它会先调出相关的 Policy,「用户偏好口语化风格,避免学术腔」,直接按这个方向写。不用我再说一遍。 这就是从「记了但不用」到「记了就会用」的区别。主动记忆,无需强调和说明。 下面是系统层面的对比: ## 八、我有多个Agent,跨Agent记忆共享可以吗? MemOS 2.0 最令人兴奋的能力之一,是支持跨 Agent 记忆共享。 同一个用户的多个 AI Agent,可以共享同一套 World Model、Skills 和 Traces。 换工具不清零,不同 Agent 的经验可以互相学习。 > 「一份核心,多 Agent 共用:记忆资产不会因工具切换而清零。」 Hub-Client 架构和MemOS 2.0 的跨 Agent 共享基于 Hub-Client 架构: 实际配置(Berry小跟班 + BuLeng) 在我们的实战配置中,Berry小跟班作为 Hub,BuLeng 作为 Client: Hub Agent 的 config.yaml 配置: Client Agent 的 config.yaml 配置: > 公网暴露方案: Hub 的 18912 端口需要通过隧道暴露到公网才能让 Client 连接。 > 推荐使用 Cloudflare Tunnel(免费,比 ngrok 更稳定): cloudflared tunnel --url http://localhost:18912 共享后的效果 1. 两个 Agent 的 Trace 合并 1. Skills 互相可见 1. World Model 共享 1. 记忆越用越丰富 ## 九、写在最后 当大模型已经够聪明,下一步比拼的不是参数,是谁能记住你。 而这一切就是你的数字分身,你留给这个世界最宝贵的东西,记忆。 记住你,不是为了下次聊天时显得更贴心——而是为了不再等你开口,就知道该做什么。 MemOS Local Plugin 2.0 做的事情,就是让 Agent 从「被动存档」变成「主动学习」。一行命令,让你的 AI 开始真正记住你。 现在就为你的 Agent 装上 MemOS 支持 Hermes Agent 和 OpenClaw / Bloome,开源免费。 ⭐ GitHub Star · 📖 查看文档 · 🌐 官网

译作者为解决AI助手“Berry小跟班”在对话上下文压缩后丢失偏好、无法跨Session复用技能等问题,将MemOS Local Plugin 2.0接入了Bloome Agent。MemOS并非简单存储聊天记录,而是将Agent任务执行过程转化为可学习的认知资产,其核心是四层架构:L1执行轨迹、L2策略归纳、L3世界模型和结晶化技能。该插件支持Hermes Agent和Bloome Agent,可通过一行命令安装,实现记忆的跨Agent共享与进化。

Emad@EMostaque · 5月28日59

Train with autoregression &amp; convert weights to diffusion for inference.

译训练时使用自回归,推理时将权重转换为扩散模型。

Alibaba Cloud@alibaba_cloud · 5月27日76

Launched at #QwenConference2026 today: Alibaba Cloud's fully open AI ecosystem. Beyond Qwen, the world's leading models are now directly accessible on Model Studio and http://qwencloud.com.

译今日在#QwenConference206上发布:阿里云全面开放的AI生态系统。除通义千问外,全球领先的模型现已可直接在Model Studio和http://qwencloud.com上访问。

meng shao@shao__meng · 5月27日68

AI Agent 协作编排层:Alook @alook_ai Alook 把 Claude Code、Codex、OpenCode 等本地 CLI agent 组织成一支「可管理的 AI 团队」——有角色、邮箱、任务板、日历和可追溯的执行记录 。 开源地址: https://github.com/alookai/alook 核心命题:换一条组织轴 Alook 的出发点很清晰:现有工具按「项目」组织,工作却按「人/角色」组织。 一个项目往往需要规划、开发、审查、运营等多个角色,但工具只给单个 agent + 多个 context window。用户被迫在 tab、tmux、会话之间搬运上下文,自己当消息总线。 传统模式 · 1 项目 → 1 agent → 多 session · 上下文在 session 内 · 用户是 router Alook 模式 · 1 人 → 多 agent → 各持角色 · 上下文跨天、跨任务持久化 · 用户是 CEO,agent 是员工 Email 被当作异步、持久、可线程化的上下文层——人机、机机通信都走邮件,底层共享记忆不断累积,而不是每次从零开始。 架构:本地执行 + 云端协作 · 本地优先:代码、工具、文件系统都在本机,agent 有完整 repo 访问权。 · 云端协作:Dashboard、任务调度、邮件路由、多设备可达、团队共享。 记忆系统:三层叠加 · 指令层:AGENTS.md( symlink 到 CLAUDE.md),角色定义、同事列表、CLI 工具手册 · 记忆层:memory.md + experiences/*.md,短记忆索引 + 长经验文档 · 时间线:.context_timeline/YYYY-MM-DD.jsonl,全任务历史:prompt、响应、session_id、status

译Alook 是一个开源协作平台,用于管理 AI 编码智能体。它将 Claude Code、Codex、OpenCode 等本地 CLI 智能体组织成一个拥有角色、邮箱和任务板的“AI 团队”。其核心理念是将组织轴从“项目”转向“人/角色”,让用户(作为CEO)通过邮件系统异步协调多位智能体(员工),实现跨任务的共享记忆与上下文持久化。平台采用本地优先执行与云端协作的架构,并包含三层记忆系统以积累经验。它作为始终在线的守护进程运行,支持团队自主处理任务。

Qwen@Alibaba_Qwen · 5月27日56

🚀🚀

译🚀🚀 [引用 @NousResearch]:Qwen 3.7 Max 现已在 Hermes Agent 中获得支持

Berryxia.AI@berryxia · 5月27日55

Minmax 最近沉寂了挺久~ 昨天看到应该是M3蓄势待发了 刚刚留意到MiniMax AI的动态。 他们六个月前在12月23日开源了M2模型。 这半年里,社区把他们的几个核心系统直接拿去用了:CISPO(裁剪重要性采样权重策略优化)、Forge RL System(锻造强化学习系统),还有Self-Evolution(自我进化)。 几乎每一版模型上线,都冲上Hugging Face榜首。 现在他们把M2背后的所有工作系统性整理成论文,挂到了arXiv上。 不是简单发个权重,而是把当时的设计思路、训练细节、系统架构全摊开。 这步其实挺关键。 开源社区最缺的往往不是新模型,而是能看懂为什么它能跑通的完整路径。 MiniMax Head of DevRel Ryan Lee在帖子里说,现在是时候翻开新的一章。 M3已经在路上了,MSA论文也快发布。 他们没有停在刷榜,而是把过去半年踩过的坑、验证过的方案沉淀下来,让后来人少走弯路。 这才是真正推动开源生态往前滚的做法。 兄弟们, 你们觉得开源大模型的下一阶段,是继续卷参数和榜单,还是像MiniMax这样把系统和方法论也彻底公开? M3如果把这些积累再往前推一步,你们最期待它在哪个方向有突破?

译MiniMax 在开源 M2 模型半年后,系统性发布了其背后所有工作的论文,详细阐述了设计思路、训练细节与系统架构。此前,其开源系统 CISPO、Forge RL System 和 Self-Evolution 已被社区广泛采用,且多版模型发布后曾登顶 HuggingFace 排行榜。与此同时,MiniMax 官方宣布已为下一代模型 M3 做好准备,并且 MSA 论文也即将发布。

Emad@EMostaque · 5月27日69

Great to see @poolsideai (US lab) committing to open sourcing their foundation models going forward Laguna is an interesting release, check it out

译很高兴看到 @poolsideai(美国实验室)承诺未来将开源其基础模型。 Laguna 是一个有趣的发布,去看看吧。

歸藏(guizang.ai)@op7418 · 5月27日67

OpenRouter 获得 1.3 亿美元的 B 轮融资 感觉这个估值有点低了,这种聚合 API 后面应该是新的 Token 经济的基础平台

歸藏(guizang.ai)@op7418 · 5月27日62

MiniMax M3模型要上了,好久没发新模型了他们

Alibaba Cloud@alibaba_cloud · 5月27日63

Thrilled to join the @PyTorch Foundationas a Platinum Member! Excited for what we'll build together. 🚀

译阿里云宣布以白金会员身份加入PyTorch基金会。作为AI基础设施全球领导者,阿里云是开源模型家族Qwen的缔造方,已在多样化硬件上大规模运行PyTorch,将为社区带来生产级工程经验。

Berryxia.AI@berryxia · 5月27日71

兄弟们,我最近刷到一个把 本地模型Gemma 4玩出新花样的项目,直接看呆了。 你打开一个复古风地牢爬行游戏,角色走到一个NPC面前,随手一句Prompt,它居然现场给你搭出一个能跑的Web App。 这就是Google Gemma团队刚推出的AIventure,一个完全开源的地牢爬行游戏,却被做成了开发者大师课。 核心玩法:把agentic workflow和vibe-coding塞进游戏里:你边玩边学怎么让AI真正去执行复杂任务,而不是只停在聊天框里。 Gemma 4在这套系统里负责实时理解你的指令、规划步骤、调用工具,最后把代码落地成真实应用。 整个项目从游戏机制到agent集成,全都开源了。 项目地址GitHub在这里👇🏻

译Google Gemma团队开源了AIventure项目,这是一款地牢爬行游戏。玩家可以向游戏中的NPC输入提示词,AI会实时构建可运行的Web应用。AI核心由Gemma 4驱动,负责理解指令、规划步骤并生成代码。项目将智能体工作流与氛围编程融入游戏,是面向开发者的实操大师课,从游戏设计到智能体集成均已开源。

Peter Steinberger 🦞@steipete · 5月27日69

All the deps around opus are old or terrible, so vibed my own and replaced octoscript and opus-native. Performance of modern wasm on node/V8 is ~equivalent to native. Your claw now automatically takes meetings notes and you can talk to it in meetings. https://github.com/openclaw/libopus-wasm

译Opus周围的所有依赖都过时或糟糕,所以我凭感觉自己重写了,并替换了octoscript和opus-native。 现代WASM在Node/V8上的性能与原生代码大致相当。 现在你的Claw可以自动做会议笔记,并且你可以在会议中与它对话。 https://github.com/openclaw/libopus-wasm

Artificial Analysis@ArtificialAnlys · 5月27日67

OpenBMB has released MiniCPM5-1B (Non-reasoning), the leading 1B open weights model, scoring 17.9 on the Artificial Analysis Intelligence Index @OpenBMB is a China-based lab jointly founded in 2022 by Tsinghua University’s NLP Lab and ModelBest Inc. This release extends the open weights Pareto frontier for Intelligence vs. Parameters at the sub-2B scale. It sits almost 2 points ahead of the best-performing 2B open weights model, @Alibaba's Qwen3.5 2B (Reasoning, 16.3), and 7 points ahead of Qwen3.5 0.8B (Reasoning, 10.5). Unlike the recently released MiniCPM-V 4.6 1.3B Instruct, MiniCPM5-1B (Non-reasoning) does not support native multimodal input, and is text input and output only. Key results: ➤ MiniCPM5-1B scores 17.9 on the Artificial Analysis Intelligence Index, the highest of any open weights model at 1B parameters or below by 7.4 points. The next-most-intelligent open weights model at this scale is Qwen3.5 0.8B (Reasoning, 10.5). No other open weights model under 2B parameters has exceeded 15 on the Intelligence Index; its predecessor MiniCPM-V 4.6 1.3B sits at 12.7. ➤ MiniCPM5-1B extends the open weights Pareto frontier on both Intelligence vs. Total Parameters and Intelligence vs. Active Parameters at the sub-2B scale. It surpasses its predecessor MiniCPM-V 4.6 1.3B (12.7) by 5.3 points at ~23% fewer parameters, and beats Qwen3.5 2B (Reasoning, 16.3) by 1.6 points at less than half the parameter count. ➤ MiniCPM5-1B is more token-efficient than the larger reasoning peers it surpasses, but uses more output tokens than its (also non-reasoning) predecessor MiniCPM-V 4.6 1.3B. It used 12.6M output tokens to run the Intelligence Index, ~31x fewer than Qwen3.5 2B (Reasoning, 389M) and ~8x fewer than Qwen3.5 2B (Non-reasoning, 100M), but ~2.3x more than MiniCPM-V 4.6 1.3B's 5.4M. ➤ AA-Omniscience score of -1 is the highest in its size class, earned by abstaining rather than hallucinating. MiniCPM5-1B declines to answer the vast majority of AA-Omniscience questions, avoiding the hallucination penalty that pulls sub-2B peers down to the -70 to -89 range (Qwen3.5 0.8B Non-reasoning at -89, MiniCPM-V 4.6 1.3B at -85, Exaone 4.0 1.2B Non-reasoning at -83). Choosing to abstain rather than guess is the more honest posture, and AA-Omniscience credits it positively. Additional model details: ➤ Size: 1B total parameters (dense) ➤ Context window: 128K ➤ Modality: Text input and output only ➤ Precision: BF16 ➤ License: Apache 2.0 ➤ Providers: No confirmed providers upon release

译OpenBMB发布了MiniCPM5-1B(Non-reasoning),一款1B参数的稠密大语言模型。该模型在Artificial Analysis Intelligence Index上获得17.9分,成为1B及以下开源模型中得分最高者。其得分领先同规模模型Qwen3.5 0.8B(10.5分)和Qwen3.5 2B(16.3分),性能超越前代模型MiniCPM-V 4.6 1.3B(12.7分)。MiniCPM5-1B为纯文本模型,上下文窗口128K,采用Apache 2.0许可证。在AA-Omniscience测试中,其通过选择“拒绝回答”而非猜测,避免了模型幻觉惩罚,获得了同尺寸类别的最高分。

Nathan Lambert@natolambert · 5月27日32

Free the 100B Gemma 4 MoE! Gemini Flash 3.5 is out so now you can release it!

译释放100B Gemma 4 MoE!Gemini Flash 3.5已发布,现在可以发布它了!

swyx@swyx · 5月27日31

everybody talks about the china-&gt;us catchup not enough people talking about the us-&gt; china catchup great job @o_lacombe et al, @robert_mchardy et al!

译每个人都在谈论中国追赶美国 却很少有人谈论美国追赶中国 干得好 @o_lacombe 等人,@robert_mchardy 等人!

Chubby♨️@kimmonismus · 5月27日70

MiniMax just teased their Sparse Attention architecture for M3. The benchmarks show 9.7x prefilling speedup and 15.6x decoding speedup at 1M tokens vs M2. MiniMax deliberately went back to full attention for M2 because efficient attention wasn't production-ready. Their pretrain lead wrote a whole blog post about it in March. Now they're showing a new two-stage approach, lightweight index branch for block selection, then sparse attention only on relevant KV blocks. Really interesting. And tbh I'm always happy when open source receives new wins.

译MiniMax预览了其M3架构采用的新稀疏注意力(Sparse Attention)技术。测试显示,在1M token上下文下,该技术相比M2实现了9.7倍的预填充(prefilling)加速和15.6倍的解码(decoding)加速。M2曾为保证生产环境就绪而采用全注意力机制,M3则采用了新的两阶段方法:先用轻量级索引分支选择数据块,再仅对相关的KV块执行稀疏注意力。这是开源领域的新进展。

Nathan Lambert@natolambert · 5月26日63

Gemma 4 adoption numbers outpacing Qwen 3.5/3.6 for the same sized models is a big shift in the international balance of influence via open models.

译Gemma 4 在同规模模型上的采用率超过通义千问 3.5/3.6,标志着开源模型国际影响力格局的重大转变。

小互@xiaohu · 5月26日58

兄弟们,这个产品理念好啊,我之前也做了的工作流商店demo,但是没解决的一个痛点,它解决了… 就是,现在Skills 很火,但是创建者却赚不到钱 为什么? 因为目前的 Skill 生态默认是开源的 你一发布,任何人都能复制它、转卖它。所以你只能开源赚赚名声... 还有很多人他们有很多好的 Skill ,根本也不敢发 私藏自己用... 这就是当今Skill 生态现状 Capafy改变了这件事: 在 Capafy 上一键就能用任何一个 Skill,不用安装、不用配置、不用离开对话... Skill 闭源在云端运行,用户拿到的是产出,永远拿不到里面的文件、代码或逻辑。 你发布技能后,每一次别人的调用,都给你付钱。 而且你做的 Skill 自己定价,自己保留 know-how 所有权。

译Capafy平台解决了一个AI生态痛点:Skill开发者因生态默认开源而无法盈利。在Capafy上,Skills作为闭源产品在云端运行,用户获得产出而非代码。开发者可自定价格,且每次被调用都能获得收益。平台还允许开发者上传在Claude Code、Codex或OpenClaw中构建的Skills并赚钱,同时用户可一键调用来自各行业顶尖人才的专业技能。

SenseTime@SenseTime_AI · 5月26日77

🚀 𝗪𝗲'𝘃𝗲 𝗼𝗽𝗲𝗻-𝘀𝗼𝘂𝗿𝗰𝗲𝗱 𝘁𝗵𝗲 𝗳𝘂𝗹𝗹 𝘁𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗰𝗼𝗱𝗲𝗯𝗮𝘀𝗲 𝗳𝗼𝗿 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭 (8B dense + A3B MoE). ​ ​ One stack for 𝘁𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗺𝘂𝗹𝘁𝗶𝗺𝗼𝗱𝗮𝗹 𝘁𝗮𝘀𝗸𝘀 across: text-to-image · editing · interleaved generation · text & vision understanding.​ ​ Built for practical large-scale training: ​ ⚙ Hybrid WP/TP/PP + ISP parallelism​ 🌊 Streaming, resumable, packed data pipeline ​ 🎛 Env-var driven configs for easy experimentation ​ 🧱 Decoupled backbone, data, and objective modules ​ 📈 Scales from 1×8 GPUs to multi-node clusters ​ ​ Apache-2.0 👇 ​ https://github.com/OpenSenseNova/SenseNova-U1​ Discord: https://discord.gg/BuTXPHmQub​ ​ @GitHub

译商汤开源了SenseNova-U1(8B dense + A3B MoE)的完整训练代码库。这是一个统一的框架,支持文本到图像、图像编辑、交错生成、文本与视觉理解等多种多模态任务的训练。其设计注重实用性与大规模训练,采用混合并行、流式可恢复数据管道、环境变量配置、解耦模块化设计,并支持从1×8 GPU扩展到多节点集群的规模。代码库以Apache-2.0协议开源。

Berryxia.AI@berryxia · 5月26日44

别被骗了! 大模型也特么需要“睡觉”? 一个来自CMU和UMD的研究团队发现:Transformer大模型在处理超长任务时注意力机制彻底拉胯 他们没有继续堆上下文长度而是直接给模型安排了“睡眠” 模型在睡眠期间把最近的上下文全部转化成持久的fast weights然后清空KV cache 这个机制叫“sleep-like consolidation”大模型也需要睡觉 故事就藏在2026年5月25日刚出的arXiv 2605.26099里 标题直白到离谱:《Language Models Need Sleep》 作者Sangyun Lee、Sean McLeish、Tom Goldstein、Giulia Fanti 传统Transformer在长时序任务上越跑越累因为attention对上下文长度是二次方爆炸。 KV cache占显存越来越多推理速度越来越慢。 他们提出的方案超级生物启发: 模型每隔一段时间进入“睡眠模式” 先把最近积累的上下文做N次离线循环遍历 然后通过一个学会的局部规则把这些信息固化到state-space model块里的fast weights里 固化完直接清空KV cache 醒来后模型继续工作但记忆已经从“短期易失”变成了“长期持久” 实验结果直接证明:增加睡眠深度或者睡眠时长能显著提升睡眠后的推理能力 这不是又一个参数技巧而是彻底改变了模型处理长上下文的范式。 Big Tech还在疯狂卷把上下文拉到百万级靠暴力堆显存。 这个小团队却用“睡觉”这个最简单的人类机制把问题从根上解决了。 整个框架100%开源论文代码思路全在arXiv上。 Big Tech的闭源长上下文订阅模式靠的就是你不知道模型其实可以“睡觉”来省资源。

译CMU与UMD的研究团队在论文《Language Models Need Sleep》(arXiv 2605.26099)中指出,传统Transformer模型在处理长任务时,因注意力机制计算复杂度高及KV cache显存占用持续增长而导致效率低下。为此,他们提出了受生物启发的“类睡眠巩固”机制:模型会周期性进入“睡眠”状态,离线多轮处理最近的上下文,并将信息固化到模型状态空间块的fast weights中,随后清空KV cache。实验表明,增加睡眠深度或时长能显著提升模型后续的推理能力。该框架完全开源,提供了一种区别于暴力堆显存的长上下文处理新范式。

Claude@claudeai · 5月26日47

Six Claude projects that all came from the same question: “why not?”

译六个Claude项目都源于同一个问题:“为什么不呢?”

MiniMax (official)@MiniMax_AI · 5月26日41

#MSA #OpenSource #M3 🫣😎

译#MSA #开源 #M3 🫣😎

SenseTime@SenseTime_AI · 5月26日70

🚀 𝗪𝗲'𝘃𝗲 𝗼𝗽𝗲𝗻-𝘀𝗼𝘂𝗿𝗰𝗲𝗱 𝘁𝗵𝗲 𝗳𝘂𝗹𝗹 𝘁𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗰𝗼𝗱𝗲𝗯𝗮𝘀𝗲 𝗳𝗼𝗿 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭 (8B dense + A3B MoE). ​ ​ One stack for 𝘁𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗺𝘂𝗹𝘁𝗶𝗺𝗼𝗱𝗮𝗹 𝘁𝗮𝘀𝗸𝘀 across: text-to-image · editing · interleaved generation · text & vision understanding.​ ​ Built for practical large-scale training: ​ ⚙ Hybrid WP/TP/PP + ISP parallelism​ 🌊 Streaming, resumable, packed data pipeline ​ 🎛 Env-var driven configs for easy experimentation ​ 🧱 Decoupled backbone, data, and objective modules ​ 📈 Scales from 1×8 GPUs to multi-node clusters ​ ​ Apache-2.0 👇 ​ https://github.com/OpenSenseNova/SenseNova-U1​ Discord: https://discord.gg/BuTXPHmQub​ ​ @github

译OpenSenseNova开源了SenseNova-U1的完整训练代码库,支持其8B密集模型与A3B MoE架构。该代码库使用一个统一的框架,可同时训练多种多模态任务,包括文本到图像生成、图像编辑、交错生成及文本与视觉理解。工程上为大规模训练设计,支持混合并行、流式可恢复数据管线、环境变量驱动配置以及从1×8 GPUs到多节点集群的扩展能力。代码已在GitHub开源,采用Apache-2.0协议。

Tencent Hy@TencentHunyuan · 5月26日70

🚀 Open-source upgrade unlocked. Tencent Hy-MT2 is now under Apache License 2.0 — maximum freedom for research, commercial use, fine-tuning, and derivatives. No strings attached.😎😎😎 Proud to push model weights back to the community. Our two variants are currently sitting at #1 and #4 on the Hugging Face trending leaderboard. Clone, fork, break things, ship feedback. The iteration loop is live.🔥 Let’s keep building the frontier together. #Tencent #Hy #HyMT2 #Apache2 #HuggingFace #OpenSourceA

译腾讯的 Hy-MT2 模型基于 Apache License 2.0 开源,可用于研究、商业使用、微调和衍生品,无任何限制。其两个变体在 Hugging Face 趋势排行榜上分别位居 #1 和 #4,鼓励社区克隆、分叉和反馈以推动迭代。

Alibaba Cloud@alibaba_cloud · 5月26日40

AI Key Frames — your front-row access to Qwen Live. Most "AI agents" today are just chatbots with extra steps. Tommy Eastman, Head of Strategy at Nous Research, makes the case for what a real agent looks like, why open-source keeps out-shipping the closed labs, and AI as the operating layer of everything. Step into the AI-native momentum. 🚀 Stay tuned: https://int.alibabacloud.com/m/1000413447/

译AI Key Frames — 直击通义千问直播现场。 当今大多数“AI智能体”只是多了几步操作的聊天机器人。Nous Research策略主管Tommy Eastman阐述了真正的智能体是什么样子,为何开源持续超越闭源实验室,以及AI作为万物操作层的意义。感受AI原生浪潮。 🚀 敬请关注:https://int.alibabacloud.com/m/1000413447/

Alibaba Cloud@alibaba_cloud · 5月26日48

AI Key Frames — your front-row seat to Qwen Live, at Qwen Conference 2026. Decode the core of AI productivity. Reshape the growth curve with full-stack AI. Exclusive conversations with pioneers in the industry, across the new frontiers of AI — inference, content creation, and the open AI ecosystem. Step into the AI-native momentum. 🚀 Stay tuned: https://int.alibabacloud.com/m/1000413447/ #AlibabaCloud #AINative #QwenConference2026 #Qwen #LLM

译AI Key Frames — 您在Qwen Conference 2026的Qwen直播前排席位。 解码AI生产力的核心。用全栈AI重塑增长曲线。 与行业先驱独家对话,跨越AI新前沿——推理、内容创作与开放AI生态系统。步入AI原生浪潮。 🚀 敬请关注:https://int.alibabacloud.com/m/1000413447/ #AlibabaCloud #AINative #QwenConference2026 #Qwen #LLM

向阳乔木@vista8 · 5月26日70

以前只知道有个乐队叫子曰,没想到网易有道大模型也叫子曰。 最新发布的子曰4是一个全模态模型,27B参数,视觉数理方向同规模SOTA,纯文本数理难题准确率81.4%。 在27B这个“甜点级”参数规模里,子曰4做到了中文学习场景下多模态+纯文本数理推理的双料极佳。 这次,子曰4全模态模型和TTS引擎同步开源,开放参数权重,支持本地部署、二次训练。 尤其是 TTS 模型,看介绍有点强:只需3秒就能克隆原声,支持14种语言,克隆准确度超97%,音色还原度 95%以上。 在线录了13秒音频,克隆我的声音,然后朗读朋友写的诗,效果如下:

译网易有道发布子曰4,一个27B参数的全模态大语言模型,在视觉数理方向达到同规模SOTA,纯文本数理难题准确率为81.4%。该模型在27B“甜点级”参数规模下,实现了多模态与纯文本数理推理的双重优势。同时,子曰4全模态模型和TTS引擎已同步开源,开放参数权重,支持本地部署与二次训练。其TTS模型只需3秒即可克隆原声,支持14种语言,克隆准确度超97%,音色还原度达95%以上。

Alibaba Cloud@alibaba_cloud · 5月26日46

At #QwenConference2026, Desmond Tan, Senior Minister of State in the Prime Minister’s Office, Deputy Secretary-General of the National Trades Union Congress (NTUC), highlighted the value of tech ecosystems: 🧵👇

译在 #QwenConference2026 上,新加坡总理公署高级部长、全国职工总会副秘书长Desmond Tan强调了科技生态系统的价值:🧵👇

Tencent Hy@TencentHunyuan · 5月26日69

🙏 Thank you all for the incredible love and support! Our latest Tencent Hunyuan translation models are on fire on Hugging Face: 🥰Hy-MT2-1.8B ranks #1 🥰Hy-MT2-30B-A3B ranks #4 on the open-source model trending leaderboard, with over 7K downloads already! To make it even easier for everyone, we’ve launched the Tencent Hy Translation WeChat mini-program, built on Hy-MT2. It supports voice input and offline translation, plus powerful customization of translation styles and instructions — delivering results that better match your expectations and feel far more practical. Try it out and share your feedback with us — we’d love to hear from you! Models on HF: https://huggingface.co/tencent/Hy-MT2-1.8B https://huggingface.co/tencent/Hy-MT2-30B-A3B GitHub: https://github.com/Tencent-Hunyuan/Hy-MT2 #HyMT2 #TencentHunyuan #OpenSource

译腾讯混元发布翻译模型 Hy-MT2,在 Hugging Face 开源模型趋势排行榜上表现突出:1.8B 版本排名第一,30B-A3B(MoE)版本排名第四,下载量已超 7K。官方同步推出了基于该模型的“腾讯混译”微信小程序,支持语音输入与离线翻译,并可自定义翻译风格与指令。模型代码与权重已开源。

Chubby♨️@kimmonismus · 5月25日65

Anthropic just passed OpenAI in business adoption for the first time, 34.4% vs 32.3%, per Ramp's latest AI Index. But the same report that announces this spends most of its word count explaining why it probably won't last. Uber already blew through its entire 2026 AI budget. A recent model update triples the cost of any prompt that includes an image. Meanwhile the fastest-growing AI vendors on Ramp's platform right now? Inference platforms selling access to cheap open-source models. Anthropic is winning the adoption race at the exact moment their product is getting more expensive to use. Thats actually the interesting part behind this story tbh.

译Ramp最新AI报告显示,Anthropic的企业采用率达34.4%,首次超过OpenAI的32.3%。但报告同时指出这一优势可能无法持续:Uber已提前耗尽其2026年全部AI预算,且Anthropic近期一次模型更新导致包含图像的提示成本增至三倍。目前Ramp平台上增长最快的AI供应商,是销售廉价开源模型访问权限的推理平台。

Alibaba Cloud@alibaba_cloud · 5月25日26

Qwen Live | The Path to AI-Native Tomorrow's breakthroughs, delivered straight to your screen. Stream the live sessions to catch every announcement. Watch here: https://x.com/i/broadcasts/1yJAPMjEkAgGb

译Qwen直播 | 通往AI原生之路 明日的突破,直接呈现在您的屏幕上。观看直播,不错过任何发布。 观看地址:https://x.com/i/broadcasts/1yJAPMjEkAgGb

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月29日
17:13
Alibaba Cloud@alibaba_cloud
41
加入阿里云和Appnovation的战略简报,了解通义千问(Qwen)如何帮助企业重新思考AI性能与成本的平衡。了解全球领先企业为何选择Qwen,以及您的团队需要了解哪些信息以保持竞争力。 📅 6月9日星期二 | 太平洋时间上午11:00 / 东部时间下午2:00 | 55分钟 | 线上 立即注册:https://lnkd.in/gHEyw6EQ
开源生态行业动态
09:39
StepFun@StepFun_ai
69
现已在 @Designarena 上线--快去试试看 👀

Design Arena: Step 3.7 Flash is now on Design Arena! A 400TPS open-weight model with a 256K content window, built for agentic, coding,...

多模态开源生态模型发布
08:09
StepFun@StepFun_ai
75
阶跃星辰 Step 3.7 Flash 发布,聚焦智能体效率

阶跃星辰(Step)发布了开源大模型 Step 3.7 Flash,主打智能体(Agent)工作流的效率。该模型在 ClawEval-1.1(67.1分)和 SimpleVQA Search(79.2分)评测中排名第一。其架构为 198B 参数的 MoE,约 11B 为活跃参数,支持 256K 上下文。模型具备多模态理解能力,能处理图像、文档并生成代码或调用工具执行任务。在工具使用方面,它致力于高可靠性,τ²-bench 得分超过 98%。Step 3.7 Flash 兼容 Claude Code、MCP 协议等工具链,并支持在 Mac Studio M4 Max 等设备上本地运行。模型权重以 Apache 2.0 许可开源。

智能体多模态开源生态推理
关联讨论 4 条X:阶跃星辰 StepFun (@StepFun_ai)X:OpenRouter (@OpenRouter)IT之家(RSS)公众号:阶跃星辰(Step)
02:07
Nathan Lambert@natolambert
58
许可证可能是最不性感但最能帮助开放生态实现长期稳定和经济可行性的东西。对此感到兴奋!

NVIDIA AI: We're adopting the Linux Foundation's OpenMDW framework across our open model families. This helps make open model licen...

大佬观点开源生态
01:44
Chubby♨️@kimmonismus
66
字节跳动开源多模态模型BAGEL,单一7B参数模型即可执行图像生成、编辑、风格转换与视觉理解,采用Apache 2.0许可。引用推文显示,该公司此前已发布首个去中心化训练的视频生成模型Paris 2.0,其在FVD基准上性能约为同等数据与算力单体模型的2倍。

bidhan: We're releasing Paris 2.0, which, to our knowledge, is the world's first decentralized trained video generation model. W...

多模态开源生态模型发布
5月28日
23:38
Xiaomi MiMo@XiaomiMiMo
59
今天我们很高兴地宣布,首批13家生态伙伴加入小米MiMo Orbit计划。 衷心感谢每一位伙伴的信任与合作。@gitlawb 及其他12家生态伙伴。 这仅仅是开始。MiMo Orbit计划仍在开放中,我们期待与您合作! → business-mimo@xiaomi.com
开源生态行业动态
23:31
Berryxia.AI@berryxia
73
通义千问(Qwen)发布新T2I评测基准Qwen-Image-Bench,推动评价标准升级

阿里通义千问(Qwen)推出了新的文本到图像(T2I)评测基准Qwen-Image-Bench。该基准包含56个细粒度评估维度,并配备与人类对齐度达ρ=0.92的评判模型Q-Judger。其核心理念是将T2I模型评价从基础的“提示词对齐”,提升至关注“真实世界保真度”和“创意生成能力”两大支柱,通过1000条测试提示词能更清晰地区分现有SOTA模型表现。该基准为开发者、提示词工程师及企业提供了一个更贴近实际创作需求的新评估框架。

Adina Yakup: Qwen @Alibaba_Qwen just dropped a new Text to Image benchmark + a judge model https://huggingface.co/collections/Qwen/qw...

图像生成开源生态评测/基准
17:07
Alibaba Cloud@alibaba_cloud
73
Qwen3.7-Max 以 77.3B tokens 的使用量登顶 @OpenRouter 热门大语言模型榜单。 而我们才刚刚开始。 👇 https://int.alibabacloud.com/m/1000413314/
开源生态模型发布行业动态
12:40
数字生命卡兹克@Khazix0918
59
Markdown 成为 AI 时代的"通用语言",飞书云文档新增导出支持

飞书云文档新增直接下载为 Markdown(.md)格式的功能。Markdown 是一种极简的纯文本标记语言,因其结构清晰、易于大模型生成和解析,并能显著节省 token 消耗,已成为人与 AI 交互的主流格式,广泛应用于 AI 产品的结构化输出和 Agent 框架的文档中。此次飞书更新极大便利了用户在 AI 协作流程中的文本流转。

大佬观点开源生态
11:31
Berryxia.AI@berryxia
66
从「帮我做」到「做完记住」,我的Agent记忆升级实录!

作者为解决AI助手“Berry小跟班”在对话上下文压缩后丢失偏好、无法跨Session复用技能等问题,将MemOS Local Plugin 2.0接入了Bloome Agent。MemOS并非简单存储聊天记录,而是将Agent任务执行过程转化为可学习的认知资产,其核心是四层架构:L1执行轨迹、L2策略归纳、L3世界模型和结晶化技能。该插件支持Hermes Agent和Bloome Agent,可通过一行命令安装,实现记忆的跨Agent共享与进化。

智能体开源生态教程/实践
05:27
Emad@EMostaque
59
训练时使用自回归,推理时将权重转换为扩散模型。

David: Most researchers agree that autoregression is best when memory bandwidth is cheap and diffusion is best when FLOPS are c...

大佬观点开源生态数据/训练
5月27日
22:34
Alibaba Cloud@alibaba_cloud
精选76
今日在#QwenConference206上发布:阿里云全面开放的AI生态系统。除通义千问外,全球领先的模型现已可直接在Model Studio和http://qwencloud.com上访问。
产品更新开源生态

推荐理由:阿里云这个开放生态的战略意义被低估了,直接让国内开发者能在一个平台用上全球顶级模型,模型选型的壁垒在肉眼可见地降低。
22:30
meng shao@shao__meng
68
AI Agent 协作编排层:Alook

Alook 是一个开源协作平台,用于管理 AI 编码智能体。它将 Claude Code、Codex、OpenCode 等本地 CLI 智能体组织成一个拥有角色、邮箱和任务板的“AI 团队”。其核心理念是将组织轴从“项目”转向“人/角色”,让用户(作为CEO)通过邮件系统异步协调多位智能体(员工),实现跨任务的共享记忆与上下文持久化。平台采用本地优先执行与云端协作的架构,并包含三层记忆系统以积累经验。它作为始终在线的守护进程运行,支持团队自主处理任务。

Sumanth: Run your personal AI company with a team of AI agents! Alook is an open-source collaboration platform for AI coding agen...

智能体GitHub产品更新开源生态
20:31
Qwen@Alibaba_Qwen
56
🚀🚀 【引用 @NousResearch】:Qwen 3.7 Max 现已在 Hermes Agent 中获得支持

Nous Research: Qwen 3.7 Max is now supported in Hermes Agent

智能体产品更新开源生态
20:27
Berryxia.AI@berryxia
55
MiniMax 发布 M2 论文,预告 M3 与 MSA 研究即将发布

MiniMax 在开源 M2 模型半年后,系统性发布了其背后所有工作的论文,详细阐述了设计思路、训练细节与系统架构。此前,其开源系统 CISPO、Forge RL System 和 Self-Evolution 已被社区广泛采用,且多版模型发布后曾登顶 HuggingFace 排行榜。与此同时,MiniMax 官方宣布已为下一代模型 M3 做好准备,并且 MSA 论文也即将发布。

RyanLee: Recently, we took time to consolidate all of the work behind M2 and published it here: our M2 paper on arXiv It's been j...

开源生态数据/训练论文/研究
16:27
Emad@EMostaque
69
很高兴看到 @poolsideai(美国实验室)承诺未来将开源其基础模型。 Laguna 是一个有趣的发布,去看看吧。

Jason Warner: @Shaughnessy119 https://poolside.ai/blog/introducing-laguna-xs2-m1 All models will be open going forward

开源生态模型发布编码
11:33
歸藏(guizang.ai)@op7418
67
OpenRouter 获得 1.3 亿美元的 B 轮融资 感觉这个估值有点低了,这种聚合 API 后面应该是新的 Token 经济的基础平台

OpenRouter: Today we're announcing our $113M Series B led by @CapitalGVC. Over the last 6 months, weekly volume on OpenRouter grew f...

智能体Google开源生态行业动态
10:33
歸藏(guizang.ai)@op7418
62
MiniMax M3模型要上了,好久没发新模型了他们

MiniMax (official): #MSA #OpenSource #M3 🫣😎

开源生态模型发布
10:02
Alibaba Cloud@alibaba_cloud
63
阿里云宣布以白金会员身份加入PyTorch基金会。作为AI基础设施全球领导者,阿里云是开源模型家族Qwen的缔造方,已在多样化硬件上大规模运行PyTorch,将为社区带来生产级工程经验。

PyTorch: We're excited to welcome @alibaba_cloud as a Platinum Member of the PyTorch Foundation 🎉 Alibaba Cloud is a global lead...

开源生态行业动态
08:27
Berryxia.AI@berryxia
71
Gemma 4新玩法:开源地牢游戏让AI实时构建Web应用

Google Gemma团队开源了AIventure项目,这是一款地牢爬行游戏。玩家可以向游戏中的NPC输入提示词,AI会实时构建可运行的Web应用。AI核心由Gemma 4驱动,负责理解指令、规划步骤并生成代码。项目将智能体工作流与氛围编程融入游戏,是面向开发者的实操大师课,从游戏设计到智能体集成均已开源。

Google Gemma: Gemma 4 meets retro gaming! 🕹️✨ Introducing AIventure: an open-source dungeon crawler designed as a developer mastercla...

智能体Google开源生态教程/实践
08:09
Peter Steinberger 🦞@steipete
69
Opus周围的所有依赖都过时或糟糕,所以我凭感觉自己重写了,并替换了octoscript和opus-native。 现代WASM在Node/V8上的性能与原生代码大致相当。 现在你的Claw可以自动做会议笔记,并且你可以在会议中与它对话。 https://github.com/openclaw/libopus-wasm
开源/仓库开源生态编码
07:37
Artificial Analysis@ArtificialAnlys
67
OpenBMB发布1B参数模型MiniCPM5-1B,在小规模开源模型中表现最优

OpenBMB发布了MiniCPM5-1B(Non-reasoning),一款1B参数的稠密大语言模型。该模型在Artificial Analysis Intelligence Index上获得17.9分,成为1B及以下开源模型中得分最高者。其得分领先同规模模型Qwen3.5 0.8B(10.5分)和Qwen3.5 2B(16.3分),性能超越前代模型MiniCPM-V 4.6 1.3B(12.7分)。MiniCPM5-1B为纯文本模型,上下文窗口128K,采用Apache 2.0许可证。在AA-Omniscience测试中,其通过选择“拒绝回答”而非猜测,避免了模型幻觉惩罚,获得了同尺寸类别的最高分。

开源生态模型发布端侧
05:58
Nathan Lambert@natolambert
32
释放100B Gemma 4 MoE!Gemini Flash 3.5已发布,现在可以发布它了!
Google大佬观点开源生态
03:20
swyx@swyx
31
每个人都在谈论中国追赶美国 却很少有人谈论美国追赶中国 干得好 @o_lacombe 等人,@robert_mchardy 等人!

Latent.Space: [AINews 3 Apr 2026] Gemma 4: The world's best small Multimodal Open Models, dramatically better than Gemma 3 in every wa...

Google多模态大佬观点开源生态
00:01
Chubby♨️@kimmonismus
70
MiniMax发布M3稀疏注意力,1M上下文下解码加速15.6倍

MiniMax预览了其M3架构采用的新稀疏注意力(Sparse Attention)技术。测试显示,在1M token上下文下,该技术相比M2实现了9.7倍的预填充(prefilling)加速和15.6倍的解码(decoding)加速。M2曾为保证生产环境就绪而采用全注意力机制,M3则采用了新的两阶段方法:先用轻量级索引分支选择数据块,再仅对相关的KV块执行稀疏注意力。这是开源领域的新进展。

MiniMax (official): #MSA #OpenSource #M3 🫣😎

开源生态推理模型发布
5月26日
23:58
Nathan Lambert@natolambert
63
Gemma 4 在同规模模型上的采用率超过通义千问 3.5/3.6,标志着开源模型国际影响力格局的重大转变。

Interconnects: Some ideas for what comes next, May 2026 Gemini Flash 3.5, Mythos, open-closed balance, America's open-source surge, eme...

Google大佬观点开源生态
23:29
小互@xiaohu
58
Capafy让AI Skills闭源变现,解决开发者收益痛点

Capafy平台解决了一个AI生态痛点:Skill开发者因生态默认开源而无法盈利。在Capafy上,Skills作为闭源产品在云端运行,用户获得产出而非代码。开发者可自定价格,且每次被调用都能获得收益。平台还允许开发者上传在Claude Code、Codex或OpenClaw中构建的Skills并赚钱,同时用户可一键调用来自各行业顶尖人才的专业技能。

Capafy: Introducing Capafy: the Skill-based Agent Marketplace. Now your Skill runs as a product and earns while you sleep. On Ca...

智能体产品更新开源生态
23:29
SenseTime@SenseTime_AI
同事件精选77
开源多模态模型SenseNova-U1完整训练代码库

商汤开源了SenseNova-U1(8B dense + A3B MoE)的完整训练代码库。这是一个统一的框架,支持文本到图像、图像编辑、交错生成、文本与视觉理解等多种多模态任务的训练。其设计注重实用性与大规模训练,采用混合并行、流式可恢复数据管道、环境变量配置、解耦模块化设计,并支持从1×8 GPU扩展到多节点集群的规模。代码库以Apache-2.0协议开源。

多模态开源/仓库开源生态数据/训练
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
推荐理由:商汤把 SenseNova-U1 的训练代码全量开源,支持多模态任务和 MoE,还给了完整的并行策略,做多模态训练的可以直接 fork 过去用,Apache-2.0 很友好。
23:27
Berryxia.AI@berryxia
44
论文《Language Models Need Sleep》摘要

CMU与UMD的研究团队在论文《Language Models Need Sleep》(arXiv 2605.26099)中指出,传统Transformer模型在处理长任务时,因注意力机制计算复杂度高及KV cache显存占用持续增长而导致效率低下。为此,他们提出了受生物启发的“类睡眠巩固”机制:模型会周期性进入“睡眠”状态,离线多轮处理最近的上下文,并将信息固化到模型状态空间块的fast weights中,随后清空KV cache。实验表明,增加睡眠深度或时长能显著提升模型后续的推理能力。该框架完全开源,提供了一种区别于暴力堆显存的长上下文处理新范式。

himanshu: very cool research (and nomenclature)

arXiv开源生态推理论文/研究
23:19
Claude@claudeai
47
六个Claude项目都源于同一个问题:"为什么不呢?"
Anthropic开源生态教程/实践
23:11
MiniMax (official)@MiniMax_AI
41
#MSA #开源 #M3 🫣😎

Skyler Miao: Something BIG is coming

开源生态模型发布
22:58
SenseTime@SenseTime_AI
70
SenseNova-U1全训练代码开源,支持多模态多任务训练

OpenSenseNova开源了SenseNova-U1的完整训练代码库,支持其8B密集模型与A3B MoE架构。该代码库使用一个统一的框架,可同时训练多种多模态任务,包括文本到图像生成、图像编辑、交错生成及文本与视觉理解。工程上为大规模训练设计,支持混合并行、流式可恢复数据管线、环境变量驱动配置以及从1×8 GPUs到多节点集群的扩展能力。代码已在GitHub开源,采用Apache-2.0协议。

图像生成多模态开源/仓库开源生态
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)
20:30
Tencent Hy@TencentHunyuan
同事件精选70
腾讯 Hy-MT2 开源,HuggingFace 排行榜登顶

腾讯的 Hy-MT2 模型基于 Apache License 2.0 开源,可用于研究、商业使用、微调和衍生品,无任何限制。其两个变体在 Hugging Face 趋势排行榜上分别位居 #1 和 #4,鼓励社区克隆、分叉和反馈以推动迭代。

Hugging Face开源生态行业动态
同一事件,精选展示《腾讯开源Hy-MT2多语言翻译模型》
推荐理由:腾讯把Hy-MT2改成Apache 2.0许可证,商用衍生都没问题,之前因为许可犹豫的人现在可以放心用了,模型在Hugging Face trending霸榜,值得重新评估。
16:30
Alibaba Cloud@alibaba_cloud
40
AI Key Frames - 直击通义千问直播现场。 当今大多数"AI智能体"只是多了几步操作的聊天机器人。Nous Research策略主管Tommy Eastman阐述了真正的智能体是什么样子,为何开源持续超越闭源实验室,以及AI作为万物操作层的意义。感受AI原生浪潮。 🚀 敬请关注:https://int.alibabacloud.com/m/1000413447/
智能体大佬观点开源生态
14:29
Alibaba Cloud@alibaba_cloud
48
AI Key Frames - 您在Qwen Conference 2026的Qwen直播前排席位。 解码AI生产力的核心。用全栈AI重塑增长曲线。 与行业先驱独家对话,跨越AI新前沿--推理、内容创作与开放AI生态系统。步入AI原生浪潮。 🚀 敬请关注:https://int.alibabacloud.com/m/1000413447/ #AlibabaCloud #AINative #QwenConference2026 #Qwen #LLM
开源生态推理行业动态
14:28
向阳乔木@vista8
70
网易有道子曰4全模态模型开源,27B参数,TTS支持3秒声音克隆

网易有道发布子曰4,一个27B参数的全模态大语言模型,在视觉数理方向达到同规模SOTA,纯文本数理难题准确率为81.4%。该模型在27B“甜点级”参数规模下,实现了多模态与纯文本数理推理的双重优势。同时,子曰4全模态模型和TTS引擎已同步开源,开放参数权重,支持本地部署与二次训练。其TTS模型只需3秒即可克隆原声,支持14种语言,克隆准确度超97%,音色还原度达95%以上。

多模态开源生态模型发布语音
12:29
Alibaba Cloud@alibaba_cloud
46
在 #QwenConference2026 上,新加坡总理公署高级部长、全国职工总会副秘书长Desmond Tan强调了科技生态系统的价值:🧵👇
开源生态行业动态
10:59
Tencent Hy@TencentHunyuan
69
腾讯混元新翻译模型双榜亮眼,小程序发布

腾讯混元发布翻译模型 Hy-MT2,在 Hugging Face 开源模型趋势排行榜上表现突出:1.8B 版本排名第一,30B-A3B(MoE)版本排名第四,下载量已超 7K。官方同步推出了基于该模型的“腾讯混译”微信小程序,支持语音输入与离线翻译,并可自定义翻译风格与指令。模型代码与权重已开源。

Hugging Face开源生态模型发布
关联讨论 2 条IT之家(RSS)X:腾讯混元 (@TencentHunyuan)
5月25日
20:58
Chubby♨️@kimmonismus
65
Anthropic企业采用率首超OpenAI,但成本问题引隐忧

Ramp最新AI报告显示,Anthropic的企业采用率达34.4%,首次超过OpenAI的32.3%。但报告同时指出这一优势可能无法持续:Uber已提前耗尽其2026年全部AI预算,且Anthropic近期一次模型更新导致包含图像的提示成本增至三倍。目前Ramp平台上增长最快的AI供应商,是销售廉价开源模型访问权限的推理平台。

AnthropicOpenAI开源生态现象/趋势
16:24
Alibaba Cloud@alibaba_cloud
26
Qwen直播 | 通往AI原生之路 明日的突破,直接呈现在您的屏幕上。观看直播,不错过任何发布。 观看地址:https://x.com/i/broadcasts/1yJAPMjEkAgGb
开源生态行业动态
‹ 上一页
1…1011121314…20
下一页 ›