AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 796 条
全部一手资讯X论文
标签「开源生态」清除
Krea@krea_ai · 6月3日57

Krea 2 is now on @ArtificialAnlys #1 image model from an independent research lab and #6 globally on text-to-image leaderboard. open-source cooking and coming soon.

译Krea 2 现已上线 @ArtificialAnlys 独立研究实验室排名第一的图像模型,全球文本到图像排行榜第六。 开源版本正在制作中,即将推出。

Rohan Paul@rohanpaul_ai · 6月3日65

Another brilliant launch removing friction from front-end development. Kombai just launched a frontend-specific AI coding agent and it beats general coding agents on real repo tasks. The problem with generic agents is that they often fail frontend work because UI code mixes visual judgment, component reuse, CSS behavior, browser bugs, accessibility etc. Kombai is attacking that problem with specialization: it reads design context, browser state, existing components, hooks, design tokens, and DevTools data so the agent can edit the product the way a frontend engineer would. checkout their demo, where it adds a complex feature to an OSS codebase with 500K+ lines of code. They also open-sourced the dataset that anyone can use to benchmark agents for complex front-end tasks.

译Kombai 推出了首个专用于前端开发的AI编程智能体。针对通用智能体在处理前端任务时的不足,Kombai 通过读取设计上下文、浏览器状态、组件等数据,像前端工程师一样进行代码编辑。推文称,Kombai 在真实代码库任务上的表现超越了 SOTA 模型和通用编程助手,并在一个超过 50 万行的开源代码库中演示了添加复杂功能。此外,Kombai 还开源了一个可用于评测复杂前端任务的基准数据集。

Nathan Lambert@natolambert · 6月2日75

My time at Ai2 / @allen_ai has come to an end. Ai2 is a wonderful place. The last 2.5+ years building Olmo, Tulu, and other projects will be one of the peaks of my entire career. I'm extremely thankful for my teammates and the open community who made this work possible. For me, it's time to try something different. I will still be working in the open model & open science spaces (more news on that soon). In the meantime I'll be spending a few months learning, chatting with a broader network, getting married (!!) and most importantly recharging from pouring my soul into this place. I've attached the note I shared with the team and some fun photos from our time together. I'll keep cheering for Ai2 and am excited to see what you build next.

译Ai2(Allen Institute for AI)研究员Nathan Lambert宣布离职。他在Ai2工作超过2.5年,期间主导或参与了OLMO和Tulu等开源模型项目,称其为职业生涯的巅峰。他表示将暂时休息,未来仍会继续深耕开源模型与开放科学领域。

Chubby♨️@kimmonismus · 6月2日50

At @Google I/O, I sat down with @osanseviero and @DynamicWebPaige from Google DeepMind to talk about Gemma, open models, AI Studio, on-device AI, sovereign AI and the future of AI development. A great conversation on how building with AI is becoming more open, local and accessible.

译在 Google I/O 上,我与 Google DeepMind 的 @osanseviero 和 @DynamicWebPaige 坐下来,聊了聊 Gemma、开源模型、AI Studio、端侧 AI、主权 AI 以及 AI 开发的未来。 一场关于 AI 构建如何变得更开放、更本地化、更易获取的精彩对话。

SenseTime@SenseTime_AI · 6月2日73

Thanks for using our model to create these complex charts and diagrams. It's great to see challenging information transformed into clear, accurate, and readable visuals. That's what we aim for. 😄

译感谢使用我们的模型来创建这些复杂的图表和图表。 看到具有挑战性的信息被转化为清晰、准确和可读的视觉效果真是太棒了。这就是我们的目标。😄

MiniMax (official)@MiniMax_AI · 6月2日78

Watch open source reach the frontier. 🚀

译MiniMax宣布推出首个开源权重模型M3。该模型结合了三大前沿能力:在编程与智能体方面,它在SWE-Bench Pro等评测上取得了具体分数;通过MiniMax Sparse Attention技术,其上下文窗口可扩展至1M tokens;并且模型从零开始原生支持多模态。模型的权重与技术报告将在约10天后发布。

Berryxia.AI@berryxia · 6月2日49

有朋友问我这个翻译工具是什么? 日常使用的翻译相关软件Memo和沉浸式翻译高频使用的。 这里我使用的主要是 Memo 软件,它是一个免费开源的剪辑转录翻译一体软件,功能非常强大。 目前我日常主要在两个场景中使用转录+剪辑+翻译工具: 1. Memo 软件 (a) 场景:主要用于处理下载到本地的视频。 (b) 流程:这软件可以下载了 Whisper 的本地大模型,下载完视频后先进行转录,不再烧Token。 (c) 翻译:虽然也可以用本地模型翻译,但速度和效果可能没有 API 快,所以我接入了 DeepSeek-V4 -Flash 来进行翻译,价格便宜又好用。 (d) 体验:Memo就可以完成烧录字幕,编辑,导出整个片子的剪辑其实都挺快的,但在 X 上发布时速度贼慢,搞了一整晚才上传完毕。 2. 沉浸式翻译 (a) 场景:主要用于网页、YouTube 视频以及一些图书的翻译。 (b) 优点:它能保持比较不错的格式,方便后面做分享。 我觉得这两个工具都挺好的,自由度比较高。 你可以接入自己订阅的 API 模型,自由切换,非常方便。 此外,Memo的这个时间戳总结关键内容的功能还挺不错的。

译用户日常使用Memo和沉浸式翻译两款工具。Memo用于本地视频处理,先调用Whisper本地模型转录,再接入DeepSeek-V4-Flash进行翻译,最后在软件内完成字幕烧录与编辑导出。对于网页和在线视频,则使用沉浸式翻译,因其能较好保持原文格式。用户强调这两个工具自由度高,允许接入并自由切换不同的API模型。

Berryxia.AI@berryxia · 6月2日51

记得4月我们内部Apple 给大家介绍ComfyUI工作流时,很多人一脸懵逼! 因为他们平时都是玩豆包、DeepSeek 的! 压根没有接触过ComfyUI 这玩意,但是也和客户,以及周围干业务的人接触知道。 其实这玩意在工作流生产环节中使用的频率非常高! 我也发现一个趋势越来越明… 5月他们悄无声息地集成了11个跨图像、3D、音频、视频和多模态的新模型。 最亮眼的几个直接可以把项目效率拉高了一个量级。 Krea 2 把风格优先的图像生成直接拉进来,第一天就以Partner Node形式上线。 它不再只拼画面里有什么,是把整个画面的感觉做到极致。 VOID来自Netflix,能把对象连同它带来的阴影、反射、物理交互全部干净移除,Apache 2.0开源,原生支持。 Tripo 3.1加TripoSplat,则实现了一张图直接出完整3D Gaussian资产,全流程端到端。 此外Gemma 4、Stable Audio 3、BiRefNet、MoGe、Claude、OpenRouter、Luma UNI-1也同步上线。 这些模型以前可能还得单独开云端账号、调API、处理格式兼容。 现在全变成ComfyUI里的节点,随手拖拽就能串成复杂工作流。 这其实戳破了一个共识:AI进步不是靠单一模型越来越大,而是靠本地工具把最新能力快速变成可组合、可重复的生产力。 ComfyUI把前沿研究直接转化成每个人都能本地跑的节点,真正让创作者把控制权握在自己手里。

译ComfyUI在5月集成了11个涵盖图像、3D、音频、视频和多模态的新模型,将前沿AI能力转化为可本地运行的节点。亮点包括:Krea 2以Partner Node形式上线,专注于风格优先的图像生成;来自Netflix的VOID可干净移除对象及其引发的阴影、反射等物理交互;Tripo 3.1与TripoSplat结合,实现单图端到端生成3D Gaussian资产。此外,Gemma 4、Stable Audio 3等模型也已同步上线。用户无需单独调用API或处理兼容性,通过节点拖拽即可构建复杂工作流。

Chubby♨️@kimmonismus · 6月2日66

God f*cking damn, i love it.

译我真他妈爱死这个了。

Artificial Analysis@ArtificialAnlys · 6月2日77

NVIDIA's Cosmos 3 lands at #1 among open weights models in both Text to Image and Image to Video on the Artificial Analysis Leaderboards! Cosmos 3 is a family of omnimodal world models for Physical AI from @nvidia, unifying language, image, video, audio and action in a single Mixture-of-Transformers architecture that pairs an autoregressive reasoner with a diffusion generator. The family comes in four variants: base Nano (16B: 8B reasoner tower + 8B generator tower) and Super (64B: 32B reasoner tower + 32B generator tower) models, with the Super model also having Text2Image and Image2Video fine-tuned variants, which are the versions listed in the Artificial Analysis Arena Leaderboards. Cosmos3-Super-Text2Image (agentic) runs through an agentic prompt-upsampling harness, and takes the #1 open weights spot in Text to Image, surpassing HiDream-O1-Image-Dev-2604, Alibaba's Qwen Image Max 2512 and Black Forest Labs' FLUX.2 [dev]. Cosmos3-Super-Image2Video takes #1 open weights in Image to Video (No Audio), ahead of Lightricks' LTX-2, and Alibaba's Wan 2.2 A14B. Cosmos 3 generators take structured JSON prompts rather than plain text, so prompt upsampling is needed to reproduce these results. This upsampling can be handled by an external harness or by the model's own reasoner branch, so it can also run self-contained. Cosmos 3 is fully open under the OpenMDW 1.1 license, shipping with weights, code, curated datasets and fine-tuning recipes available on @huggingface. First-party and third-party APIs are expected over the next few weeks, with pricing to follow. See the thread below for example generations and a link to try Cosmos 3 in our arena 🧵

译NVIDIA 的 Cosmos 3 全模态世界模型在 Artificial Analysis 排行榜的开放权重类别中,同时夺得文本生成图像和图像生成视频两项第一。该模型基于 Mixture-of-Transformers 架构,结合自回归推理器与扩散生成器,提供 16B 参数的 Nano 和 64B 参数的 Super 等变体。其中,Cosmos3-Super-Text2Image 与 Cosmos3-Super-Image2Video 版本分别超越了 HiDream-O1-Image-Dev-2604、通义千问(Qwen)Image Max 2512、FLUX.2 [dev] 以及 LTX-2、万相(Wan)2.2 A14B 等模型。Cosmos 3 的生成器接受结构化 JSON 提示词,可通过外部工具或模型自身的推理器分支进行提示词上采样。该模型完全开源,采用 OpenMDW 1.1 许可,提供权重、代码、精选数据集和微调方案。

Chubby♨️@kimmonismus · 6月2日82

MiniMax just dropped M3! It hits 59% on SWE-Bench Pro, edging out GPT-5.5 (58.6%) and beating Gemini 3.1 Pro (54.2%). Trails Opus 4.7 on coding, but leads it on autonomous browsing at 83.5% on BrowseComp. First open model to pack frontier coding, a 1M-token context, and native multimodality into one system. I mean, let that sink in: Roughly 12x cheaper per token than GPT-5.5, with weights and a full tech report promised in about 10 days.

译MiniMax发布开源模型M3,它是首个将前沿编码能力、1M token上下文窗口与原生多模态集成于单一系统的开源模型。M3在SWE-Bench Pro上得分为59.0%,略高于GPT-5.5(58.6%)与Gemini 3.1 Pro(54.2%);在BrowseComp自主浏览任务中以83.5%领先Opus 4.7。此外,模型在Terminal Bench 2.1(66.0%)、MCP Atlas(74.2%)等基准上表现优异。其每token成本约为GPT-5.5的十二分之一,模型权重及技术报告预计在10天后发布。

Runway@runwayml · 6月1日60

Today we're announcing London as Runway's new European headquarters and our newest research hub focused on general world models. Over the next 18 months, we plan to invest $100M into the UK AI ecosystem, and that figure will more than double through 2028 as we scale our European operations. Learn more and explore open roles at the link below.

译今天我们宣布伦敦将成为Runway新的欧洲总部,以及我们专注于通用世界模型的最新研究枢纽。未来18个月,我们计划向英国AI生态系统投资1亿美元,随着我们扩大欧洲业务,这一数字到2028年将翻倍以上。 了解更多并探索开放职位,请点击下方链接。

Nathan Lambert@natolambert · 6月1日60

Can closed labs can create margins with very high cost services in the long-term? Yes, but only in niches like high end knowledge work. This’ll propel OpenAI/Anthropic to huge valuations soon, while the open model economy slowly grows to be bigger & enable the long-tail of use.

译推文探讨了闭源模型与开源模型未来不同的发展轨迹。观点认为,闭源实验室可以通过提供成本高昂的高端服务(如高端知识工作)来创造并维持利润,这将推动 OpenAI、Anthropic 等公司获得高估值。与此同时,开源模型经济体将逐步发展并壮大,服务于更广泛的长尾应用市场。这表明两种模型体系将在不同的维度上增长,其中闭源模型在边际智能价值驱动溢价的领域优势明显,而开源模型则在其他场景下逐步扩大影响。

向阳乔木@vista8 · 6月1日80

http://x.com/i/article/2061439796745297920 # 氪200刀,乔帮主开源8个工具、5个精选Skill,六一宠粉节 最近 AI 圈有点沉寂,前有 Gemini 3.5 Flash 拉胯,后有 Opus 4.8 不及预期。 唯有 Codex App 最近几次更新深得我心。 冲了 200 刀会员后,Vibe Coding了一堆自用小工具,做了几个新 Skill。 下面逐个介绍,免费开源送给大家,工具超多,页面很长,建议收藏再看。 ## Chrome插件 乔木快捷提示词 发现身边很多朋友还是不太会写提示词。 于是写了个Chrome插件,把我和姚老师过去一年多写的提示词都放进去了。 另外收录了好友苍何(canghe)整理的几百套 GPT-Image-2 提示词,自带效果预览。 最后从 Github 精选了500个常用提示词,覆盖开发、设计、营销场景。 你只需要一键复制粘贴,或简写自动补全就能在任意网站和 AI 平台用。 也能添加日常快捷语,比如收货地址、邮箱等,任何有输入框的地方都能用。 果然,能让人偷懒的东西才是好工具。 一周过去,已有1000多人安装,全五星好评。 插件安装地址: > https://chromewebstore.google.com/detail/%E4%B9%94%E6%9C%A8%E5%BF%AB%E6%8D%B7%E6%8F%90%E7%A4%BA%E8%AF%8D/ndfmbdiaclladmoeifbhlkacllmfhjej 项目开源地址: > https://github.com/joeseesun/Qiaomu-QuickPrompt 乔木 Tab 每天上网,打开浏览器的次数是最多的,每次都要新开 Tab,这个页面值得好好利用。 除了添加常用网站,也支持创建Todo、添加便签、查看天气预报、搜索查看最近关掉的 Tab页面、收藏夹等。 每个模块都可以控制显示与否,也支持 Command + K 唤起,快速搜索或设置。 如果选了ChatGPT,输入内容后按Enter,自动跳转官网获得答案,不需要二次复制回车。 一个输入框解决了传统搜索、AI对话、添加Todo等操作,交互优雅。 > 彩蛋:开启音乐模块,能收听到乔帮主用 Suno 制作精选的各种风格音乐。 开源地址: https://github.com/joeseesun/qiaomu-tab 预计本周上架 Chrome 应用商店。 乔木 X 发布器 X(前Twitter)的文章发布工具太难用了,不支持Markdown表格渲染,图片要手动一张张传,相当耗时。 小小东出手做了一个Chrome插件,而且开源了代码。 他的插件正式上架了,强烈推荐安装: > https://chromewebstore.google.com/detail/xposter/iimkimodgdjnnmdopeolboakhjmhfbbj?authuser=0&hl=zh-CN 基于他的源代码,根据自己需求改造了一版。 把插件和自己的博客打通,同步博客文章,一键发布到 X。 如果你有自己的网站,也可以让 AI 帮你改造实现类似功能。 另外强烈推荐关注小小东,发布了很多优秀的生图提示词,开发的工具也都很实用,很有工匠精神。 > https://x.com/xiaoxiaodong01 乔木单词学习 开发插件不必从零开始,有很多优秀的开源可以用。 基于开源的类沉浸式翻译插件 read-frog,让Codex开发了一套单词学习系统。 每天阅读英文网页收藏的单词,变成闪卡可复习,基于艾宾浩斯曲线遗忘曲线。 增加单词学习模式,根据单词难度(如CET6+)旁边加上中文翻译,标记掌握情况。 这种单词学习方式最早灵感来自 Relingo,现在已有不少类似产品。 这个 Read-frog项目非常优秀,基本可以替代沉浸式翻译了,目前已有7k多Star。 https://github.com/mengxi-ream/read-frog 官方也在计划增加单词学习功能。 不着急的话可以等官方,应该比我 Vibe Coding 的质量好。 乔帮主改造版: > https://github.com/joeseesun/qiaomu-english-learn ## 各种网站 艺术家风格网 不知道你有没有类似困惑,写生图提示词时经常词穷,只能复制别人的提示词。 对于生图模型来说,一个艺术家名字就是一种风格的高度压缩。 这是非常好的学习素材,也是最好的提示词类型之一。 于是,调用 GPT-image-2 API,用几百个艺术家名字生图,然后整理成一个网站。 https://style.qiaomu.ai/ 提示词相同,变量只有艺术家名字。 > 远处是山,近处是深林和小溪,{artist} 风格的一幅画 远山近水和小树林,据说这种画面最能给人带来安全感,意味着食物、水源和庇护所。 网站可点击任意一张图片,按左右方向键查看图片,收藏艺术家和提示词。 上面都是风景画,不知道生成人物效果。 另外也想对比下即梦 4.5,换了一个包含人物和动物的新提示词,又做了个网站。 https://jm-style.qiaomu.ai/ > 一个女子坐在窗边读书,一只猫趴在她腿上,窗外是花园,用{artist}的风格绘制 你也可以换提示词,调用 API 生图制作自己的提示词对比参考网,开源代码: > https://github.com/joeseesun/qiaomu-artist-style 乔木音乐网 可能有些朋友不知道,我以前是摇滚青年,组织过北京高校乐队演出。 也曾在「无名高地」酒吧打工过一年,听遍了中国所有地下乐队。 毕业后开始搞互联网,但一直热爱音乐。 AI 生成音乐技术这几年发展特别快,虽然生成歌曲离专业水平还有距离,但自娱自乐足够。 开发了个网站,放几十首自己精选的 Suno 生成音乐,后面歌曲会持续更新。 https://music.qiaomu.ai/ 开源地址 > https://github.com/joeseesun/qiaomu-music-player-web 乔木博客 前段时间手术恢复期写的网站,目前是我的核心学习、内容分发阵地。 通过 CLI 发布,后台阅读编辑后,精选部分公开。 乔木博客网址 > https://blog.qiaomu.ai/ 乔木HTML分享 自己去年的第一个 Vibe Coding 作品,目前加密后,只给身边朋友用。 > https://www.32kw.com/ 不过有很多朋友有类似需求,于是抽空改造了一版开源出来。 把 AI 生成的 HTML、Markdown、SVG、Mermaid 变成一个微信里能阅读的网页。 一键免费部署到你的 Cloudflare 账号。 开源地址: > https://github.com/joeseesun/quickshare-cloudflare ## 乔木Skill 乔木论文解读 之前写的 Skill,最近升级,支持原始 TeX Source 格式。 抽取图表会更精准,比 AI 截图质量要好。 另外,只需要提供 Huggingface 和 Arxiv 论文网页地址就行,不需要提供 PDF 地址也能解读。 强烈推荐每周看下Huggingface 的 AI 论文榜。 https://huggingface.co/papers/ 安装指令 开源地址 > https://github.com/joeseesun/qiaomu-paper-interpreter 乔木阅读助手 用飞书 + AI 辅助读书,划线就能对话!非常有趣的读书方法探索。 1. 让 Codex或Claude Code 把Epub电子书按章节写入飞书文档。 1. 人肉阅读,有感触的地方划线、加粗,最好评论。 1. 让 Codex 读飞书文档中的标记和评论,让AI解释回复你。 安装指令 开源地址 https://github.com/joeseesun/qiaomu-read-helper Suno音乐制作 把任意想法变成一首歌,不用登录网站,通过CLI或Computer Use方式创作。 Skill内置了5000多种音乐风格和Suno歌词创作提示词。 支持下载任意Suno歌曲(哪怕不是自己生成的),下载时可以带 LRC 歌词,方便后续制作 MV。 > https://github.com/joeseesun/qiaomu-suno-master 安装指令: 乔木音乐网的音乐,多数用这个Skill生成。 Suno 音乐 MV 略有遗憾的是,现在视频生成模型太贵了。 只能用 Codex 生成图片,再结合 Hyperframe 生成幻灯片感 MV,不过配合 GASP 动效和字幕,看起来也还可以接受。 安装指令: NotebookLM 处理器 基于朋友的CLI扩展,支持任意内容传到NotebookLM处理成播客、PPT、思维导图等。 目前快 5k Star 了,还挺刚需的。 开源地址: > https://github.com/joeseesun/qiaomu-anything-to-notebooklm ## 其他工具和资料 乔木脚本 有时候觉得开发一个Chrome插件还是太麻烦了。 一些小需求,更适合写油猴脚本,有奇效。 比如: - 在Youtube网页加一个按钮,一键复制字幕。 - 给小宇宙网页版加上倍速播放。 - 让小红书支持粘贴图片上传等等 - 给公众号加一个按钮,跳转即梦生成封面。 开源地址: > https://github.com/joeseesun/qiaomu-userscripts GEO相关 今年我和姚老师出版了《AI营销:从SEO到GEO》(京东搜索有售),也顺利举办了中国第一届GEO大会。 起源于去年我们一起整理的《GEO白皮书》,主要用于GEO科普。 最近,我们又整理了《GEO红皮书》(警示规避黑帽 GEO)、《GEO蓝皮书》(帮助识别靠谱GEO供应商)。 前几天还在 WayToAGI 开了第一场GEO公开课,课程PPT和资料免费下载: > https://xiangyangqiaomu.feishu.cn/wiki/Bvx6wmAqAirtR1kWejmcFFrGn6f ## 两个小技巧 让你的Codex越来越聪明 灵感来自于跟tw93的直播访谈,让Codex更理解你的编程偏好。 打开Codex,设定目标或直接对话,提示词如下: 制作PPT小技巧 最近受邀参加一些线下分享,需要制作PPT,目前实践下来效果比较满意的方法。 从自己 X 历史8000条帖子总结的规律,生成的PPT页面: PPT生成提示词: https://xiangyangqiaomu.feishu.cn/wiki/QUmxwep0diOUOnkrdGscVa1PnE7 ## 写在后面 为什么有这么一篇文章,是因为我笃信的幸运公式:做很多事 * 让很多人知道 上面是我觉得值得分享给更多人的工具和产品。 希望其中有些可以帮你的工作、生活和学习增加一点点便利。

译作者分享了使用 Codex App 等工具开发的一系列开源项目,包括4个 Chrome 插件(如快捷提示词、新标签页)、4个网站(如艺术家风格对比、音乐展示)和5个 AI Skill(如论文解读、阅读助手)。项目基于 GPT-Image-2 API、Suno 等技术,并整合了 Read-frog、Hyperframe 等开源项目。

AYi@AYi_AInotes · 6月1日50

说个暴论:信息差是普通人最后的红利。 希望大家认清一个现实:现在真正的贫富差距早就不是钱多钱少了,是信息差,同一件事,信息玩家和普通人活在两个世界: 买东西,普通人直接全新价下单, 信息玩家先翻一遍闲鱼,常常五折拿到几乎全新的; 用 AI,普通人月月烧几百刀订阅, 信息玩家知道学生能白嫖 1 年 Cursor、开源作者能领半年 ChatGPT Pro、初创自助就能拿几万刀云额度; 学东西,普通人到处买盗版课, 信息玩家知道官方文档和一堆顶级免费资源,就明晃晃摆在那。 呐,钱一样,信息不一样,结果差了十倍。 而且信息差这个东西在AI 时代只会越拉越大—— 因为免费的、高杠杆的通道越来越多, 但它们从不主动找你,全靠你知不知道、搜不搜、问不问。 所以宝子们,与其焦虑赚得不够多, 不如先把我是不是又当冤种了这句, 养成每次花钱前的本能反应。 毕竟信息差永远不会消失, 它只会从知道的人,流向不知道的人。

译推文指出,在AI时代,真正的贫富差距已转变为信息差。信息玩家能通过各种渠道节省开支或获取免费资源,例如以五折价购得几乎全新的商品、利用学生身份免费使用一年Cursor、作为开源项目维护者领取半年ChatGPT Pro,或为初创公司获取数万美元云额度。推文引用的具体福利显示,任何公开开源项目的维护者,均可申请免费获得价值$1200的6个月ChatGPT Pro。这些高杠杆的免费通道不会主动出现,因此推文建议养成在消费前先审视自身是否为“冤种”的习惯,以抓住信息差带来的红利。

MiniMax (official)@MiniMax_AI · 6月1日62

I could watch SVG tests all day! Send me more with M3 👀

译我可以整天看SVG测试!快用M3多发点给我 👀

MiniMax (official)@MiniMax_AI · 6月1日64

It truly is 😎 #M3

译确实如此 😎 #M3

Berryxia.AI@berryxia · 6月1日71

刚刚在Hugging Face刷新模型时,看到KwaiKeye放出了Keye VL 2.0-30B-A3B。 这个多模态模型总参数30B,活跃参数只有3B,Apache 2.0完全开源。 它直接用DeepSeek Sparse Attention实现了256K上下文。 最有意思的是视频理解部分的表现。 你喂给它的帧数越多,模型准确率反而稳步上升。 这和我们以前觉得长视频容易让模型迷失的直觉完全相反。 它在多个长视频基准上已经和Qwen3 VL、Gemini 3 Flash打成平手。 以前大家总觉得多模态模型要么上下文够长,要么理解够深,二者很难兼得。 现在KwaiKeye把稀疏注意力真正落地,把这两件事同时推到一个新水平。 实际效果如何,后面看看真实case册书。

译KwaiKeye开源了多模态大模型Keye VL 2.0-30B-A3B,采用Apache 2.0许可。该模型总参数为30B,但仅激活3B参数。其核心亮点是通过DeepSeek稀疏注意力技术实现了256K的上下文长度。该模型的视频理解能力表现出一个反直觉的特性:喂入的帧数越多,其准确率反而持续上升。在基准测试中,其表现已与Qwen3 VL、Gemini 3 Flash等模型相当。

Emad@EMostaque · 6月1日54

With Nemotron & Cosmos NVIDA gonna commoditise everyone's complement

译借助Nemotron与Cosmos,NVIDIA将把所有人的互补能力商品化。

🚨 AI News | TestingCatalog@testingcatalog · 6月1日80

MINIMAX 🔥: A new open-weights model, MiniMax M3, has been released to the public on APIs and MiniMax Agent. MiniMax M3 scores 59% on SWE Bench Pro (on par with GPT-5.5), supports a 1M context window via MiniMax Sparse Attention, and is natively multimodal. MiniMax Agent Updates 👀 > Meet M3: Our most intelligent and responsive model designed to handle any task. > Persistent Memory: Your Agent remembers what you've shared, so you never have to repeat yourself. > Evolving Skills: It learns as you collaborate, turning complex tasks into skills made just for you. > Unified Billing: Fully integrated with Token Plan for a smoother, more consistent experience.

译MiniMax发布了新开源权重模型M3,现已通过API和MiniMax Agent提供服务。该模型在SWE-Bench Pro上得分59.0%,在Terminal Bench 2.1上得分66.0%,并支持高达1M的上下文窗口。同时,MiniMax Agent更新了持久记忆与进化技能等能力。此外,MiniMax Code也已发布,模型权重与技术报告将在约10天后公开。

Runway@runwayml · 6月1日69

Introducing the Cosmos Coalition A new global initiative with NVIDIA and leading AI labs to build and open-source frontier world models for physical AI. Runway joins as a founding member, working alongside NVIDIA and a set of leading AI labs to build, share and accelerate world model research and development through a common open ecosystem.

译介绍Cosmos联盟 一项与NVIDIA及领先AI实验室合作的新全球倡议,旨在构建并开源用于物理AI的前沿世界模型。Runway作为创始成员加入,与NVIDIA及一系列领先AI实验室共同工作,通过一个共同的开放生态系统来构建、共享并加速世界模型的研究与开发。

swyx@swyx · 6月1日66

just a small zoom out on the vibe shift: in Feb 2025 @soumithchintala was talking about his dream of personal, local, private agents, most people didn't believe him. it's June 2026 and @pewdiepie has just released his vibecoded @opencode wrapper that is a complete personal AI productivity suite including email, docs, and calendar. top of HN, easily >1m views, >10k stars in a day. if your Knowledge Work Agents startup can't beat pewdiepie you might as well pack up and go home at this point, his is the benchmark for what you can DIY.

译2025年2月,soumithchintala关于个人、本地、私有AI智能体的愿景曾遭质疑。而至2026年6月,知名玩家PewDiePie已基于opencode封装发布了一款vibecoded的个人AI生产力套件,功能涵盖邮件、文档和日历。该产品在Hacker News上迅速获得超过1百万次浏览和超过10k星标。推文指出,这一成果为知识工作智能体初创公司设立了新的DIY基准。

Artificial Analysis@ArtificialAnlys · 6月1日74

HiDream-O1-Image-Dev-2604 debuts as the leading open weights Text to Image model in the Artificial Analysis Image Arena, with the base HiDream-O1-Image and HiDream-O1-Image-Dev also available open weights but landing lower on the leaderboard @HiDream_AI's O1-Image family spans three models: the 8B HiDream-O1-Image, its distilled HiDream-O1-Image-Dev, and HiDream-O1-Image-Dev-2604, a fine-tune of Dev with a prompt-enhancement pipeline, previously listed pseudonymously as Peanut. The base and Dev models accept text plus up to 10 image inputs, spanning generation and instruction-based image editing. On the Artificial Analysis Text to Image Arena, HiDream-O1-Image-Dev-2604 leads all open weights models, delivering quality similar to proprietary models like ByteDance's Seedream 4.0 and Black Forest Labs' FLUX.2 [max]. In Image Editing, HiDream-O1-Image is the second-highest open weights model, behind only Tencent's HunyuanImage 3.0 Instruct. Weights and the full inference pipeline (including HiDream's prompt refiner used during evaluation for HiDream-O1-Image-Dev-2604) are open-source on Hugging Face and GitHub under the MIT license. HiDream-O1-Image and HiDream-O1-Image-Dev are also available across third-party API providers including Fal, priced on Fal at $10/1k images and $5/1k images respectively. Congratulations to @HiDream_ai on the releases! See below for comparisons between the HiDream-O1-Image family and other leading models in the Artificial Analysis Image Arena 🧵

译HiDream发布O1-Image系列文生图模型,包含8B参数的HiDream-O1-Image、其蒸馏版本HiDream-O1-Image-Dev,以及基于Dev微调并集成提示增强管线的HiDream-O1-Image-Dev-2604。在Artificial Analysis Text to Image Arena榜单上,Dev-2604版本在所有开源权重模型中排名第一,生成质量接近Seedream 4.0和FLUX.2 [max]等闭源模型。在图像编辑任务中,HiDream-O1-Image是排名第二高的开源模型,仅次于腾讯的HunyuanImage 3.0 Instruct。所有模型的权重及完整推理管线均以MIT许可证开源。HiDream-O1-Image与HiDream-O1-Image-Dev也通过Fal等第三方API提供,价格分别为$10/1k images和$5/1k images。

Peter Steinberger 🦞@steipete · 5月31日61

The idea of OpenClaw is always that it should be yours. It's modular and lean, only add what you need. Fewer skills, fewer tools = your agent can work more efficiently.

译OpenClaw的理念始终是它应该属于你。 它是模块化且精简的,只添加你需要的功能。更少的技能,更少的工具 = 你的智能体可以更高效地工作。

向阳乔木@vista8 · 5月31日73

每月一场GEO公开课,第一期的干货在这里~ 上个月,姚老师 @yaojingang 说想开GEO公开课。 跟AJ商定,每个月最后一周的周六作为直播时间。 昨天第一场,飞书几百人在线,视频号几千人,效果不错,不少朋友觉得获益匪浅。 直播PPT、免费开源GEOflow系统和提示词在评论区

译首期GEO公开课于上周末直播,由姚老师主讲,吸引了飞书和视频号数千人在线参与。课后已将直播PPT、免费开源的GEOflow系统及全部提示词等干货资源在评论区开放分享。

Nathan Lambert@natolambert · 5月31日50

The debate on if open or closed models win comes down to if there is disproportionate value to marginally better intelligence. The believers of this sit across from the open models will be good enough camp. Closed models will stay slightly smarter. Open models will be cheaper.

译关于开源还是闭源模型会胜出的争论,归结于边际智能提升是否带来不成比例的价值。 相信这一点的人,与认为开源模型“足够好”的阵营相对而立。 闭源模型将保持略微更智能。开源模型将更便宜。

AYi@AYi_AInotes · 5月30日75

免费领6个月ChatGPT Pro, 价值$ 1200🤩 这可能是今年对开发者最实在的福利了, 没有硬性Star数要求, 有项目链接基本都能过, 只要你是任何一个公开开源项目的维护者,哪怕只有你一个人在维护, 都可以去申请试试: http://openai.com/form/codex-for-oss/

译OpenAI为开源项目维护者提供福利,可免费领取6个月ChatGPT Pro(价值$1200),申请无硬性Star数要求,有项目链接即可。同时,文章引用讨论了AI工具的分类:一类是“agent型”(如Claude Code、Codex),可自主运行;另一类是“实习生型”(如Cursor),需人工决策,有助于使用者以术入道、培养判断力,但受限于需人在场。作者推荐了网易的UU远程工具,称其免费两年,支持4K 144帧无延迟连接Mac并可使用原生终端,解决了“实习生型”工具的地点限制问题。

Ethan Mollick@emollick · 5月30日61

I think Epoch does a great job benchmarking, but I continue to believe that open weights models are much more fragile, especially out-of-distribution, than their benchmarks indicate. Vibe-wise, I don’t think they were only 3 months behind last year or only 4 months behind today.

译Epoch AI 使用其综合指标 Epoch Capabilities Index 测量发现,开源模型与闭源模型的能力差距平均约为三个月。但主推文作者对此表示怀疑,认为开源大语言模型的实际表现(尤其是在分布外任务上)比评测分数所显示的更为脆弱,真实的体感差距可能远不止三四个月。

向阳乔木@vista8 · 5月30日72

如果你最近发现 x 的互动,展现都降了,可以看看这篇的算法分析。 跟打通翻译有一定关系,也跟新算法有关系。 比如你的所有帖子之间也会互相竞争权重和(这个好像以前也有)等

译近期X平台用户互动下降,主要受两大因素影响。一是全球自动翻译功能于2026年4月7日上线,打破了语言壁垒,使得同主题内容(如地缘政治)的潜在竞争者数量从约5000个英语账户剧增至约5万个全语言账户,大幅降低了单个帖子的能见度。二是推荐算法根本性转变:粉丝权重降低,每条帖子需基于预测互动独立赢得受众。新算法采用两阶段机制:先通过语义匹配从全平台筛选出约1500个候选帖,再通过一个Grok模型基于15项预测互动指标(如点赞、回复、停留时间等)进行排序。其中,负面互动(如标记不感兴趣、屏蔽)会被负向加权,直接影响展示优先级。

SemiAnalysis@SemiAnalysis_ · 5月30日76

BREAKING NEWS: JAX NVIDIA GPU & XLA: GPU's biggest customer just announced that they have dropped JAX GPUs and would rather vibe code an C training framework with Grok Build. Reportedly xAI's JAX stack had MFU lower than 10%. NVIDIA JAX team entire main 996 focus for the past 2 years was to support xAI yet has failed, I guess they can rest & vest now.

译突发新闻:JAX NVIDIA GPU & XLA:GPU最大客户刚刚宣布已放弃JAX GPU,宁愿用Grok Build“氛围编程”一个C训练框架。据报道xAI的JAX堆栈MFU低于10%。NVIDIA JAX团队过去两年全部主力996专注于支持xAI却失败了,我想他们现在可以休息并兑现期权了。

Nathan Lambert@natolambert · 5月30日56

I'd go further and say most of open science defines a lot of how AI is discussed (e.g. our Tulu 3 project coining RLVR). There's a lot of value in this sort of level setting and cutting out future noise in science by establishing methods publicly.

译推文强调开放科学在AI讨论和研究中的基础性作用,以Tulu 3项目创建RLVR(基于强化学习的验证与推理)为例,说明公开研究方法能为领域设定标准并减少未来冗余。同时指出一个关键现象:AI前沿实验室的创新常被学术界独立重现,但外部人员无法接触这些内部工作,唯一的参考来源就是公开分享的研究。因此,开放科学对推动整个领域进步至关重要。

OpenRouter@OpenRouter · 5月30日72

Now you can use your OpenRouter models directly inside @ComfyUI workflows!

译现在你可以直接在ComfyUI工作流中使用你的OpenRouter模型了! [引用 @ComfyUI]:ComfyUI刚刚添加了@OpenRouter支持。 你不再局限于单一的大语言模型,现在可以直接在Comfy中访问20多个模型。 更多灵活性,更少摩擦,同样的工作流。 工作流链接在下方👇

Chubby♨️@kimmonismus · 5月30日56

According to research by EpochAI, open-weight models lag behind frontier closed-source models by four months. Four months. That's very little. And impressive at the same time.

译根据 EpochAI 的研究,开源权重模型落后于前沿闭源模型四个月。 四个月。这非常短暂。同时也令人印象深刻。

Chubby♨️@kimmonismus · 5月30日65

NVIDIA is moving all four open model families - Cosmos, Isaac GR00T, Ising, Nemotron - onto the Linux Foundation's OpenMDW-1.1. Right now open-weight models come with a patchwork of software licenses that were never meant for AI plus bespoke terms with usage limits, so anyone serious has to run legal on each one before they build. OpenMDW puts weights, code, docs and data under a single permissive license, so that becomes one review instead of ten. It makes a lot of sense -for NVIDIA in particular. Their business is mainly on compute, so getting more people to deploy and fine-tune open weights is a very good business case.

译NVIDIA 宣布将其四个开放模型系列(Cosmos、Isaac GR00T、Ising、Nemotron)迁移至 Linux 基金会的 OpenMDW-1.1 框架下。此举旨在解决当前开放模型因许可杂乱和附加限制导致的法律审查负担。OpenMDW 框架为模型权重、代码、文档和数据提供了统一的宽松许可证,使得开发者和企业从多次审查简化为一次。这符合 NVIDIA 以算力为核心的业务逻辑,能够促进更多人部署和微调其开放模型。

Epoch AI@EpochAIResearch · 5月30日65

We took another look at the capability gap between open-weight and proprietary models. Since the start of the year, open-weight models have lagged the state of the art by four months.

译我们再次审视了开放权重模型与专有模型之间的能力差距。自今年年初以来,开放权重模型落后于最先进水平四个月。

Berryxia.AI@berryxia · 5月30日69

最近开发了一个OCR的 工具,疯狂给干法律的客户案例! 效果非常好,很合适~ 但也遇到有些错乱和不好的结果 金融合同、法律文件、研究报告、历史档案,这些东西里公式、表格、印章、稀有字符混在一起,传统工具经常认错或者直接漏掉,导致后续LLM输出质量直接拉低。 今天PaddlePaddle把PaddleOCR-VL 1.6正式发布了。 它在OmniDocBench上刷到96.33%的SOTA,把开源和商业方案同时甩在身后。 表格识别、经典文本、稀有字符都有明显提升,印章检测、图表理解也更稳。 最实用的是,它和1.5版本完全架构兼容,零迁移成本,拿来就能用。 以前大家总觉得RAG的瓶颈在模型参数或者检索算法,现在看,真正决定上限的往往是输入数据的干净程度。 这份高精度解析能力,直接把文档智能喂给LLM的门槛又往下拉了一大截。

译飞桨发布了PaddleOCR-VL 1.6版本。该版本在OmniDocBench评测基准上取得了96.33%的新SOTA成绩,在该榜单及Real5-OmniDocBench上均排名第一。在表格、经典文本和稀有字符识别能力上均有显著提升,并增强了印章检测与图表理解能力。该版本与1.5版本架构完全兼容,实现了零迁移成本,方便直接部署使用,旨在为大语言模型和检索增强生成等系统提供更高质量的输入数据。

AK@_akhaliq · 5月30日62

Qwen-VLA Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

译Qwen-VLA 跨任务、环境与机器人具身的统一视觉语言动作建模

AK@_akhaliq · 5月30日58

81k models available through huggingface inference api

译81k 模型可通过 HuggingFace 推理 API 使用

AK@_akhaliq · 5月30日69

minWM A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models

译minWM 一个用于实时交互视频世界模型的全栈开源框架

Peter Steinberger 🦞@steipete · 5月29日57

No LLMs for finding bugs even?

译多个知名开源项目正在全面禁止AI/大语言模型相关的代码贡献。QEMU的政策是拒绝任何被认为包含或源自AI生成内容的贡献;NetBSD将AI生成的代码推定为污点代码,不得提交;Zig对AI实施完全禁令,明确禁止使用大语言模型生成内容、翻译、查找bug,甚至禁止讨论使用聊天机器人/大语言模型服务;OBS Studio则要求代码必须由人类编写。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月3日
01:14
Krea@krea_ai
57
Krea 2 现已上线 @ArtificialAnlys 独立研究实验室排名第一的图像模型,全球文本到图像排行榜第六。 开源版本正在制作中,即将推出。
图像生成开源生态评测/基准
00:15
Rohan Paul@rohanpaul_ai
65
Kombai 发布前端专用 AI 编程智能体

Kombai 推出了首个专用于前端开发的AI编程智能体。针对通用智能体在处理前端任务时的不足,Kombai 通过读取设计上下文、浏览器状态、组件等数据,像前端工程师一样进行代码编辑。推文称,Kombai 在真实代码库任务上的表现超越了 SOTA 模型和通用编程助手,并在一个超过 50 万行的开源代码库中演示了添加复杂功能。此外,Kombai 还开源了一个可用于评测复杂前端任务的基准数据集。

Dipanjan Dey: Introducing Kombai, the first AI agent built for frontend development. Kombai vastly outperforms SOTA models + generic a...

智能体产品更新开源生态编码
6月2日
22:33
Nathan Lambert@natolambert
精选75
Nathan Lambert离开Ai2,结束2.5年OLMO等项目工作

Ai2(Allen Institute for AI)研究员Nathan Lambert宣布离职。他在Ai2工作超过2.5年,期间主导或参与了OLMO和Tulu等开源模型项目,称其为职业生涯的巅峰。他表示将暂时休息,未来仍会继续深耕开源模型与开放科学领域。

开源生态行业动态

推荐理由:Olmo 和 Tulu 的核心推手离开 Ai2,对开放模型圈是个不小的人事地震,他下一步去哪,可能比这条离职声明更值得盯。
20:44
Chubby♨️@kimmonismus
50
在 Google I/O 上,我与 Google DeepMind 的 @osanseviero 和 @DynamicWebPaige 坐下来,聊了聊 Gemma、开源模型、AI Studio、端侧 AI、主权 AI 以及 AI 开发的未来。 一场关于 AI 构建如何变得更开放、更本地化、更易获取的精彩对话。
DeepMindGoogle大佬观点开源生态
12:35
SenseTime@SenseTime_AI
同事件精选73
感谢使用我们的模型来创建这些复杂的图表和图表。 看到具有挑战性的信息被转化为清晰、准确和可读的视觉效果真是太棒了。这就是我们的目标。😄

The AI Colony: SenseNova U1 just released an infographic-specialized version and +18.2 on IGenBench Q-ACC isn't a rounding error. It me...

Hugging Face图像生成开源生态模型发布
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
推荐理由:SenseNova U1 这波信息图特化不是刷分,+18.2 Q-ACC 证明模型真的懂了排版,做汇报、做图表的可以直接上 Hugging Face 扒下来用。
11:53
MiniMax (official)@MiniMax_AI
78
MiniMax宣布推出首个开源权重模型M3。该模型结合了三大前沿能力:在编程与智能体方面,它在SWE-Bench Pro等评测上取得了具体分数;通过MiniMax Sparse Attention技术,其上下文窗口可扩展至1M tokens;并且模型从零开始原生支持多模态。模型的权重与技术报告将在约10天后发布。

MiniMax (official): Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities - Coding & Agentic Frontier:...

开源生态模型发布编码
关联讨论 10 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)IT之家(RSS)
11:47
Berryxia.AI@berryxia
49
有朋友问我这个翻译工具是什么?

用户日常使用Memo和沉浸式翻译两款工具。Memo用于本地视频处理,先调用Whisper本地模型转录,再接入DeepSeek-V4-Flash进行翻译,最后在软件内完成字幕烧录与编辑导出。对于网页和在线视频,则使用沉浸式翻译,因其能较好保持原文格式。用户强调这两个工具自由度高,允许接入并自由切换不同的API模型。

Berryxia.AI: 特么终于搞完了,太费劲了! 整整花了1晚上才把它翻译中文、剪辑、上传完毕。 富人也有富人的烦恼,只是我们的烦恼不一样罢了! 这两天刷屏的Ivanka Trump (特朗普的长女千金)的长播客采访。 整个播客中有些观点不能说多么锐利,但是也从...

开源生态教程/实践
08:47
Berryxia.AI@berryxia
51
ComfyUI 5月工作流更新:集成11个新模型

ComfyUI在5月集成了11个涵盖图像、3D、音频、视频和多模态的新模型,将前沿AI能力转化为可本地运行的节点。亮点包括:Krea 2以Partner Node形式上线,专注于风格优先的图像生成;来自Netflix的VOID可干净移除对象及其引发的阴影、反射等物理交互;Tripo 3.1与TripoSplat结合,实现单图端到端生成3D Gaussian资产。此外,Gemma 4、Stable Audio 3等模型也已同步上线。用户无需单独调用API或处理兼容性,通过节点拖拽即可构建复杂工作流。

ComfyUI: In May, we integrated 11 new models spanning image, 3D, audio, video, and multimodal. The highlights: → Krea 2 - style-f...

产品更新图像生成多模态开源生态
03:41
Chubby♨️@kimmonismus
66
我真他妈爱死这个了。

Nous Research: We have been working closely with @nvidia to ensure Hermes Agent works smoothly on their new @NVIDIARTXSpark superchip a...

智能体Microsoft开源生态端侧
01:11
Artificial Analysis@ArtificialAnlys
77
NVIDIA Cosmos 3 荣登开放权重模型图像与视频生成双榜榜首

NVIDIA 的 Cosmos 3 全模态世界模型在 Artificial Analysis 排行榜的开放权重类别中,同时夺得文本生成图像和图像生成视频两项第一。该模型基于 Mixture-of-Transformers 架构,结合自回归推理器与扩散生成器,提供 16B 参数的 Nano 和 64B 参数的 Super 等变体。其中,Cosmos3-Super-Text2Image 与 Cosmos3-Super-Image2Video 版本分别超越了 HiDream-O1-Image-Dev-2604、通义千问(Qwen)Image Max 2512、FLUX.2 [dev] 以及 LTX-2、万相(Wan)2.2 A14B 等模型。Cosmos 3 的生成器接受结构化 JSON 提示词,可通过外部工具或模型自身的推理器分支进行提示词上采样。该模型完全开源,采用 OpenMDW 1.1 许可,提供权重、代码、精选数据集和微调方案。

Hugging Face多模态开源生态模型发布
关联讨论 10 条X:Kim (@kimmonismus)HuggingFace Daily Papers(社区热门论文)IT之家(RSS)Hugging Face:Blog(RSS)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)LMSYS:Blog(Chatbot Arena 团队)
00:10
Chubby♨️@kimmonismus
82
MiniMax发布开源模型M3,它是首个将前沿编码能力、1M token上下文窗口与原生多模态集成于单一系统的开源模型。M3在SWE-Bench Pro上得分为59.0%,略高于GPT-5.5(58.6%)与Gemini 3.1 Pro(54.2%);在BrowseComp自主浏览任务中以83.5%领先Opus 4.7。此外,模型在Terminal Bench 2.1(66.0%)、MCP Atlas(74.2%)等基准上表现优异。其每token成本约为GPT-5.5的十二分之一,模型权重及技术报告预计在10天后发布。

MiniMax (official): Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities - Coding & Agentic Frontier:...

智能体多模态开源生态模型发布
关联讨论 10 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)IT之家(RSS)
6月1日
22:33
Runway@runwayml
60
今天我们宣布伦敦将成为Runway新的欧洲总部,以及我们专注于通用世界模型的最新研究枢纽。未来18个月,我们计划向英国AI生态系统投资1亿美元,随着我们扩大欧洲业务,这一数字到2028年将翻倍以上。 了解更多并探索开放职位,请点击下方链接。
开源生态行业动态
关联讨论 1 条Runway:News(网页)
22:28
Nathan Lambert@natolambert
60
推文探讨了闭源模型与开源模型未来不同的发展轨迹。观点认为,闭源实验室可以通过提供成本高昂的高端服务(如高端知识工作)来创造并维持利润,这将推动 OpenAI、Anthropic 等公司获得高估值。与此同时,开源模型经济体将逐步发展并壮大,服务于更广泛的长尾应用市场。这表明两种模型体系将在不同的维度上增长,其中闭源模型在边际智能价值驱动溢价的领域优势明显,而开源模型则在其他场景下逐步扩大影响。

Interconnects: Open and closed models are on different exponentials Where marginally higher intelligence drives value, and where it doe...

大佬观点开源生态
22:04
向阳乔木@vista8
精选80
作者分享使用 Codex App 开发的开源项目合集

作者分享了使用 Codex App 等工具开发的一系列开源项目,包括4个 Chrome 插件(如快捷提示词、新标签页)、4个网站(如艺术家风格对比、音乐展示)和5个 AI Skill(如论文解读、阅读助手)。项目基于 GPT-Image-2 API、Suno 等技术,并整合了 Read-frog、Hyperframe 等开源项目。

开源生态教程/实践编码

推荐理由:乔木一口气开源了8个工具和5个Skill,从提示词插件到Suno音乐制作,看完就能直接用,做内容和开发的读完可以少写半个月代码。
19:48
AYi@AYi_AInotes
50
说个暴论:信息差是普通人最后的红利。

推文指出,在AI时代,真正的贫富差距已转变为信息差。信息玩家能通过各种渠道节省开支或获取免费资源,例如以五折价购得几乎全新的商品、利用学生身份免费使用一年Cursor、作为开源项目维护者领取半年ChatGPT Pro,或为初创公司获取数万美元云额度。推文引用的具体福利显示,任何公开开源项目的维护者,均可申请免费获得价值$1200的6个月ChatGPT Pro。这些高杠杆的免费通道不会主动出现,因此推文建议养成在消费前先审视自身是否为“冤种”的习惯,以抓住信息差带来的红利。

AYi: 免费领6个月ChatGPT Pro, 价值$ 1200🤩 这可能是今年对开发者最实在的福利了, 没有硬性Star数要求, 有项目链接基本都能过, 只要你是任何一个公开开源项目的维护者,哪怕只有你一个人在维护, 都可以去申请试试: http...

OpenAI开源生态教程/实践
19:17
MiniMax (official)@MiniMax_AI
62
我可以整天看SVG测试!快用M3多发点给我 👀

WorldofAI: Minimax M3 is excellent at SVG generation, reaching close to Gemini 3.5 Flash levels and beating Opus 4.7 on SVG-Bench. ...

图像生成开源生态评测/基准
18:47
MiniMax (official)@MiniMax_AI
64
确实如此 😎 #M3

Arif: MiniMax M3 scores 90.3% GPT 5.5 Scores 92.4% Just a 2.1% gap now at @convex. Incredible to see the open-source models cl...

开源生态推理模型发布
18:42
Berryxia.AI@berryxia
71
KwaiKeye开源多模态大模型Keye VL 2.0-30B-A3B

KwaiKeye开源了多模态大模型Keye VL 2.0-30B-A3B,采用Apache 2.0许可。该模型总参数为30B,但仅激活3B参数。其核心亮点是通过DeepSeek稀疏注意力技术实现了256K的上下文长度。该模型的视频理解能力表现出一个反直觉的特性:喂入的帧数越多,其准确率反而持续上升。在基准测试中,其表现已与Qwen3 VL、Gemini 3 Flash等模型相当。

Adina Yakup: Keye VL 2.0-30B-A3B 🔥 New multimodal model from @KwaiKeye ✨ 30B/3B active - Apache 2.0 ✨ 256K context via DeepSeek Spar...

多模态开源生态推理模型发布
15:48
Emad@EMostaque
54
借助Nemotron与Cosmos,NVIDIA将把所有人的互补能力商品化。
大佬观点开源生态
13:36
🚨 AI News | TestingCatalog@testingcatalog
80
MiniMax发布开源模型M3

MiniMax发布了新开源权重模型M3,现已通过API和MiniMax Agent提供服务。该模型在SWE-Bench Pro上得分59.0%,在Terminal Bench 2.1上得分66.0%,并支持高达1M的上下文窗口。同时,MiniMax Agent更新了持久记忆与进化技能等能力。此外,MiniMax Code也已发布,模型权重与技术报告将在约10天后公开。

MiniMax (official): Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities - Coding & Agentic Frontier:...

多模态开源生态模型发布编码
关联讨论 10 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)IT之家(RSS)
13:31
Runway@runwayml
69
介绍Cosmos联盟 一项与NVIDIA及领先AI实验室合作的新全球倡议,旨在构建并开源用于物理AI的前沿世界模型。Runway作为创始成员加入,与NVIDIA及一系列领先AI实验室共同工作,通过一个共同的开放生态系统来构建、共享并加速世界模型的研究与开发。
具身智能开源生态行业动态
关联讨论 1 条Runway:News(网页)
09:25
swyx@swyx
66
PewDiePie发布个人AI生产力套件,成为DIY新标杆

2025年2月,soumithchintala关于个人、本地、私有AI智能体的愿景曾遭质疑。而至2026年6月,知名玩家PewDiePie已基于opencode封装发布了一款vibecoded的个人AI生产力套件,功能涵盖邮件、文档和日历。该产品在Hacker News上迅速获得超过1百万次浏览和超过10k星标。推文指出,这一成果为知识工作智能体初创公司设立了新的DIY基准。

智能体开源生态现象/趋势
04:55
Artificial Analysis@ArtificialAnlys
74
HiDream发布O1-Image系列文生图模型

HiDream发布O1-Image系列文生图模型,包含8B参数的HiDream-O1-Image、其蒸馏版本HiDream-O1-Image-Dev,以及基于Dev微调并集成提示增强管线的HiDream-O1-Image-Dev-2604。在Artificial Analysis Text to Image Arena榜单上,Dev-2604版本在所有开源权重模型中排名第一,生成质量接近Seedream 4.0和FLUX.2 [max]等闭源模型。在图像编辑任务中,HiDream-O1-Image是排名第二高的开源模型,仅次于腾讯的HunyuanImage 3.0 Instruct。所有模型的权重及完整推理管线均以MIT许可证开源。HiDream-O1-Image与HiDream-O1-Image-Dev也通过Fal等第三方API提供,价格分别为$10/1k images和$5/1k images。

Hugging Face图像生成开源生态模型发布
5月31日
21:20
Peter Steinberger 🦞@steipete
61
OpenClaw的理念始终是它应该属于你。 它是模块化且精简的,只添加你需要的功能。更少的技能,更少的工具 = 你的智能体可以更高效地工作。

EdgeDimi: @theo Seeing different paths ioenclaw started as a heavy package and became lean now hermes becomes the heabty trash pac...

智能体大佬观点开源生态
08:44
向阳乔木@vista8
73
GEO公开课首期举办,全套资料开放获取

首期GEO公开课于上周末直播,由姚老师主讲,吸引了飞书和视频号数千人在线参与。课后已将直播PPT、免费开源的GEOflow系统及全部提示词等干货资源在评论区开放分享。

开源/仓库开源生态搜索
05:43
Nathan Lambert@natolambert
50
关于开源还是闭源模型会胜出的争论,归结于边际智能提升是否带来不成比例的价值。 相信这一点的人,与认为开源模型"足够好"的阵营相对而立。 闭源模型将保持略微更智能。开源模型将更便宜。
大佬观点开源生态
5月30日
23:34
AYi@AYi_AInotes
精选75
免费领取6个月ChatGPT Pro及AI工具思考

OpenAI为开源项目维护者提供福利,可免费领取6个月ChatGPT Pro(价值$1200),申请无硬性Star数要求,有项目链接即可。同时,文章引用讨论了AI工具的分类:一类是“agent型”(如Claude Code、Codex),可自主运行;另一类是“实习生型”(如Cursor),需人工决策,有助于使用者以术入道、培养判断力,但受限于需人在场。作者推荐了网易的UU远程工具,称其免费两年,支持4K 144帧无延迟连接Mac并可使用原生终端,解决了“实习生型”工具的地点限制问题。

AYi: 今天,把一件关于 AI 很底层的事,彻底想透了。 使用 AI 的最佳方式是以道御术,但前提是你得先以术入道。 就像黄仁勋说的--真正会用 AI 的人,都是极高认知的提问者,带着自己的认知去提问,让 AI 帮你叩开未知的边界,而不是让它替你思...

OpenAI其他开源生态

推荐理由:OpenAI 给开源维护者送 6 个月 Pro,没 Star 要求,有项目链接就行,我觉得这是今年最实在的开发者福利,手慢无。
23:14
Ethan Mollick@emollick
61
Epoch AI 使用其综合指标 Epoch Capabilities Index 测量发现,开源模型与闭源模型的能力差距平均约为三个月。但主推文作者对此表示怀疑,认为开源大语言模型的实际表现(尤其是在分布外任务上)比评测分数所显示的更为脆弱,真实的体感差距可能远不止三四个月。

Epoch AI: We measure the gap using the Epoch Capabilities Index, our aggregate measure of model capability. Compared to our last a...

大佬观点开源生态评测/基准
13:11
向阳乔木@vista8
72
近期X平台用户互动下降,主要受两大因素影响。一是全球自动翻译功能于2026年4月7日上线,打破了语言壁垒,使得同主题内容(如地缘政治)的潜在竞争者数量从约5000个英语账户剧增至约5万个全语言账户,大幅降低了单个帖子的能见度。二是推荐算法根本性转变:粉丝权重降低,每条帖子需基于预测互动独立赢得受众。新算法采用两阶段机制:先通过语义匹配从全平台筛选出约1500个候选帖,再通过一个Grok模型基于15项预测互动指标(如点赞、回复、停留时间等)进行排序。其中,负面互动(如标记不感兴趣、屏蔽)会被负向加权,直接影响展示优先级。

Arnaud Bertrand: So I spent some time studying the new Twitter/X algorithm today since the latest version was published about a week ago ...

开源生态现象/趋势
12:18
SemiAnalysis@SemiAnalysis_
精选76
突发新闻:JAX NVIDIA GPU & XLA:GPU最大客户刚刚宣布已放弃JAX GPU,宁愿用Grok Build"氛围编程"一个C训练框架。据报道xAI的JAX堆栈MFU低于10%。NVIDIA JAX团队过去两年全部主力996专注于支持xAI却失败了,我想他们现在可以休息并兑现期权了。
xAI开源生态行业动态

推荐理由:xAI 这个 GPU 最大客户突然甩了 JAX,要自研 C 训练框架,理由是 JAX 利用率太低。如果连万亿参数集群都搞不定,JAX 的底层缺陷可能比想象的大,做大规模训练的团队得认真评估了。
08:08
Nathan Lambert@natolambert
56
推文强调开放科学在AI讨论和研究中的基础性作用,以Tulu 3项目创建RLVR(基于强化学习的验证与推理)为例,说明公开研究方法能为领域设定标准并减少未来冗余。同时指出一个关键现象:AI前沿实验室的创新常被学术界独立重现,但外部人员无法接触这些内部工作,唯一的参考来源就是公开分享的研究。因此,开放科学对推动整个领域进步至关重要。

Rishabh Agarwal: Someone once told me: "You should be the last one to reinvent something" -- not sure how useful this is, but this is a c...

大佬观点开源生态现象/趋势
08:06
OpenRouter@OpenRouter
精选72
现在你可以直接在ComfyUI工作流中使用你的OpenRouter模型了! 【引用 @ComfyUI】:ComfyUI刚刚添加了@OpenRouter支持。 你不再局限于单一的大语言模型,现在可以直接在Comfy中访问20多个模型。 更多灵活性,更少摩擦,同样的工作流。 工作流链接在下方👇

ComfyUI: ComfyUI just added @OpenRouter support. Instead of being locked into a single LLM, you can now access 20+ models directl...

产品更新多模态开源生态

推荐理由:ComfyUI 首次直接集成 LLM 路由服务,等于给图像管线加了个「外挂大脑」,做自动化工作流的人可以直接在节点里调用 20+ 模型,省掉一堆 API tinker 环节。
04:46
Chubby♨️@kimmonismus
56
根据 EpochAI 的研究,开源权重模型落后于前沿闭源模型四个月。 四个月。这非常短暂。同时也令人印象深刻。

Epoch AI: We took another look at the capability gap between open-weight and proprietary models. Since the start of the year, open...

开源生态评测/基准
04:46
Chubby♨️@kimmonismus
65
NVIDIA 将四个开放模型系列迁移至 OpenMDW 框架

NVIDIA 宣布将其四个开放模型系列(Cosmos、Isaac GR00T、Ising、Nemotron)迁移至 Linux 基金会的 OpenMDW-1.1 框架下。此举旨在解决当前开放模型因许可杂乱和附加限制导致的法律审查负担。OpenMDW 框架为模型权重、代码、文档和数据提供了统一的宽松许可证,使得开发者和企业从多次审查简化为一次。这符合 NVIDIA 以算力为核心的业务逻辑,能够促进更多人部署和微调其开放模型。

NVIDIA AI: We're adopting the Linux Foundation's OpenMDW framework across our open model families. This helps make open model licen...

开源生态行业动态
04:08
Epoch AI@EpochAIResearch
65
我们再次审视了开放权重模型与专有模型之间的能力差距。自今年年初以来,开放权重模型落后于最先进水平四个月。
开源生态现象/趋势
00:34
Berryxia.AI@berryxia
69
PaddleOCR-VL 1.6 发布,文档解析SOTA提升

飞桨发布了PaddleOCR-VL 1.6版本。该版本在OmniDocBench评测基准上取得了96.33%的新SOTA成绩,在该榜单及Real5-OmniDocBench上均排名第一。在表格、经典文本和稀有字符识别能力上均有显著提升,并增强了印章检测与图表理解能力。该版本与1.5版本架构完全兼容,实现了零迁移成本,方便直接部署使用,旨在为大语言模型和检索增强生成等系统提供更高质量的输入数据。

PaddlePaddle: 🚀PaddleOCR-VL 1.6 Officially Released! We are thrilled to announce the official release of PaddleOCR-VL 1.6 - this vers...

多模态开源生态模型发布
00:15
AK@_akhaliq
62
Qwen-VLA 跨任务、环境与机器人具身的统一视觉语言动作建模
具身智能多模态开源生态论文/研究
00:15
AK@_akhaliq
58
81k 模型可通过 HuggingFace 推理 API 使用
Hugging Face产品更新开源生态部署/工程
00:15
AK@_akhaliq
69
minWM 一个用于实时交互视频世界模型的全栈开源框架
开源/仓库开源生态视频
5月29日
22:19
Peter Steinberger 🦞@steipete
57
多个知名开源项目正在全面禁止AI/大语言模型相关的代码贡献。QEMU的政策是拒绝任何被认为包含或源自AI生成内容的贡献;NetBSD将AI生成的代码推定为污点代码,不得提交;Zig对AI实施完全禁令,明确禁止使用大语言模型生成内容、翻译、查找bug,甚至禁止讨论使用聊天机器人/大语言模型服务;OBS Studio则要求代码必须由人类编写。

The Lunduke Journal: While the Linux Kernel is quickly becoming "Vibe Coded", many other Open Source projects are outright banning all AI / L...

大佬观点开源生态编码
‹ 上一页
1…910111213…20
下一页 ›