AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「开源生态」清除
6月5日周五
00:00LMSYS:Blog(Chatbot Arena 团队)62精选不再遗漏任何Token:解析Miles中的Token-In-Token-Out(TITO)
6月4日周四
23:23Chubby♨️81NVIDIA Nemotron 3 Ultra 发布:完全开源 550B MoE 模型
23:15Nathan Lambert60狭窄控制安全屡败,需前沿透明开放
22:46SenseTime69同事件精选SenseNova U1 开源统一模型:原生图文生成同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
22:22elvis74NVIDIA 发布 Nemotron 3 Ultra 550B 开源模型
22:15Hacker News 热门(buzzing.cc 中文翻译)51VoidZero 将加入 Cloudflare
21:54Artificial Analysis74NVIDIA 发布 Nemotron 3 Ultra,成美国开源权重模型智能新标杆
20:52LMSYS:Blog(Chatbot Arena 团队)81SGLang 和 Miles 即日支持 NVIDIA Nemotron 3 Ultra
16:21MarkTechPost(RSS)61Miso Labs 发布 MisoTTS:8B 参数情感文本转语音模型,开放权重
16:11IT之家(RSS)55转战闭源遇挑战:消息称 Meta 一再推迟上线 AI 模型 Muse Spark
14:51MarkTechPost(RSS)71精选Meet OpenJarvis:一个本地优先的设备端个人AI智能体框架,支持工具、记忆与学习
14:28🚨 AI News | TestingCatalog63HeyGen 推出 FRAME.md:将品牌指南转为视频生成规范
14:11IT之家(RSS)75Ideogram 4.0 开源文生图模型发布
11:52Artificial Analysis67StepFun 开源 Step 3.7 Flash 模型,性能与速度并进
10:23Jeff Dean75Gemma 4 12B 开源模型,可在笔记本运行
09:58MiniMax (official)71MiniMax M3 回归 OpenCode 免费层
09:40小互73Ideogram 4.0 开源:边界框控制+多语言文字渲染
08:40小互71Google 发布 Gemma 4 12B 开源模型
08:00HuggingFace Daily Papers(社区热门论文)54BloomBench: 基于认知的英-阿双语多模态基准
04:31fofr61Ideogram v4 开放权重,图像清晰出色
04:17The Decoder:AI News(RSS)72Google DeepMind 发布 Gemma 4 12B:开源多模态模型,16GB 内存笔记本即可运行
03:58MiniMax (official)65MiniMax-M3加入NVIDIA与微软本地LLM阵容
03:40Sundar Pichai73同事件精选Gemma 4 12B发布:笔记本本地运行的多步推理模型同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
03:20Chubby♨️71Google 开源 Gemma 4 12B:无编码器架构,本地 16GB VRAM 运行
02:49Google Research:Blog(网页)72精选洪水韧性新篇章:Google 开源水文建模框架
02:47The Decoder:AI News(RSS)66Ideogram 4.0 发布:开放权重模型,原生2K分辨率与改进文本渲染
02:36Demis Hassabis74同事件精选Gemma 4 12B 发布:150M+ 下载量里程碑,16GB VRAM 本地运行同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
02:16AYi70Ideogram 4.0 开源图像模型仅次于前两名
01:48elvis76Miso One 8B开源情感TTS模型发布
00:55🚨 AI News | TestingCatalog74Ideogram 4.0 发布,开源图像生成新 SOTA
00:50Chubby♨️75精选Miso One 开源语音模型:8B 参数、110ms 延迟、一次语音克隆
00:42HuggingFace Daily Papers(社区热门论文)76精选Ultralytics YOLO26:统一实时端到端视觉模型
00:19Google AI Developers77Google推出Gemma 4 12B无编码器多模态模型
6月3日周三
22:37Nathan Lambert40开放模型教训:空谈廉价,行动关键
22:09IT之家(RSS)69欧盟提出"技术主权"一揽子方案,强调"数字自主性"与"韧性"
21:51Ars Technica:AI(RSS)61Meta 追赶 AI 竞争对手的努力
20:10Alibaba Cloud53Hermes Agent成功秘诀:可复现行动
20:00公众号:昆仑万维(天工)53昆仑万维方汉:智力与能源是中国AI底层逻辑,香港可做数据合规沙盒与学术桥梁
19:37Hacker News 热门(buzzing.cc 中文翻译)60Rsync 与公愤
18:05X.PIN66DeepSeek启动大规模首轮融资,目标募资约74亿美元
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月5日
00:00
LMSYS:Blog(Chatbot Arena 团队)
精选62
不再遗漏任何Token:解析Miles中的Token-In-Token-Out(TITO)

Miles框架提出Token-In-Token-Out(TITO)原则,解决智能体强化学习中训练-推理不匹配:确保rollout过程token序列与训练器评估序列逐位一致。TITO将多轮轨迹视为一个连续序列(每任务一个样本),节省一个数量级计算开销并维持on-policy性。三种破坏场景:反分词-再分词不匹配、聊天模板修剪推理内容、有损模板重新渲染。Miles通过推理会话服务器、三级只追加保证、可插拔TITO分词器和序列比较器实现。典型任务(如SWE-Bench)轨迹含30-50轮。

开源生态数据/训练论文/研究

推荐理由:LMSYS团队把agent RL里最隐秘的训练-推理不一致问题解释透了,TITO原则直接告诉你为什么之前训练不稳,做agent训练的都该看看这篇。
6月4日
23:23
Chubby♨️@kimmonismus
81
NVIDIA Nemotron 3 Ultra 发布:完全开源 550B MoE 模型

NVIDIA 正式发布 Nemotron 3 Ultra,550B 总参数(55B 活跃)的完全开源 MoE 模型,权重、训练数据和完整配方全部公开。采用混合 Mamba-Attention 架构,专为长上下文快速解码和轻内存占用设计。在长输出智能体工作负载上,吞吐量约为可比开源模型的 6 倍(推理速度提升 5 倍),复杂智能体任务成本降低最多 30%。该模型在 4-bit(NVFP4)精度下预训练 20T tokens,后训练使用 MOPD 技术,由十余个专家教师模型蒸馏技能至学生模型。这是首个达到前沿水平且可完全复现的开源模型。

NVIDIA AI: Today we're shipping Nemotron 3 Ultra. A 550B MoE frontier-intelligence open model built for long-running agents. It del...

智能体开源生态推理模型发布
关联讨论 9 条X:Kim (@kimmonismus)HuggingFace Daily Papers(社区热门论文)IT之家(RSS)Hugging Face:Blog(RSS)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)
23:15
Nathan Lambert@natolambert
60
狭窄控制的安全已多次证明会失败。在绝对前沿上需要更多透明度,开放紧随其后。

Lisan al Gaib: I found another API that offers claude-oceanus-v1-p the pricing and tps make a lot more sense to me Mythos pricing might...

Anthropic安全/对齐开源生态
22:46
SenseTime@SenseTime_AI
同事件精选69
SenseNova U1 开源统一模型:原生图文生成

商汤 SenseTime 推出 SenseNova U1 开源多模态模型,实现原生理解与生成文本和图像,可一键将提示词转化为专业信息图。该模型被开发者 @gurru_tech 评价为“非常令人印象深刻”。项目已开源,提供 SenseNova Studio 在线试用,并公开 HuggingFace 模型集合、GitHub 源码仓库及 Discord 社区入口。

图像生成多模态开源生态模型发布
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
推荐理由:商汤这回把图文统一模型开源了,SenseNova U1的infographic功能比市面上大多数文生图工具更懂文字和布局,做内容的朋友可以上手试试。
22:22
elvis@omarsar0
74
NVIDIA 今日发布 Nemotron 3 Ultra,一个 550B MoE 前沿智能开源模型,专为长时间运行智能体设计。相比其他开源前沿模型,推理速度提升 5 倍,复杂智能体任务成本降低 30%。

NVIDIA AI: Today we're shipping Nemotron 3 Ultra. A 550B MoE frontier-intelligence open model built for long-running agents. It del...

智能体开源生态模型发布
22:15
Hacker News 热门(buzzing.cc 中文翻译)
51
VoidZero 将加入 Cloudflare

Cloudflare 官方博客发布消息,宣布 VoidZero 将加入公司。该博客文章标题为“VoidZero

开源生态行业动态
21:54
Artificial Analysis@ArtificialAnlys
74
NVIDIA 发布 Nemotron 3 Ultra,成美国开源权重模型智能新标杆

NVIDIA 发布 Nemotron 3 Ultra,为目前最智能的美国开源权重模型。在 Artificial Analysis Intelligence Index 得分 47.7,领先 Gemma 4 31B(39.2)、Nemotron 3 Super(36.0)和 gpt-oss-120b(33.3),但低于中国开源模型 Kimi K2.6(53.9)。模型总参数约 550B,激活 55B,推理速度超 400 tokens/s,较 gpt-oss-120b 略快且智能显著更高。NVFP4 精度得分 47.7,BF16 得分 48.2,精度差异极小。

开源生态推理模型发布评测/基准
20:52
LMSYS:Blog(Chatbot Arena 团队)
81
SGLang 和 Miles 即日支持 NVIDIA Nemotron 3 Ultra

SGLang 与 Miles 在发布首日即支持 NVIDIA Nemotron 3 Ultra。该模型为开放前沿推理模型,总参数 550B、激活参数 55B,采用混合 Transformer-Mamba 架构的 MoE,支持最长 1M token 上下文。针对长运行自主智能体优化,具备工具调用、编码、深度研究与编排能力,后训练使用多环境强化学习(NeMo RL)。SGLang 提供高性能推理,支持 NVFP4 和 BF16 精度,NVFP4 检查点可在 Blackwell GPU 运行;Miles 支持强化学习工作流。模型权重、数据与配方均开源。在智能体生产力、指令遵循与长上下文任务上准确率领先,成本节省高达 30%。

智能体开源生态推理模型发布
关联讨论 9 条X:Kim (@kimmonismus)HuggingFace Daily Papers(社区热门论文)IT之家(RSS)Hugging Face:Blog(RSS)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)
16:21
MarkTechPost(RSS)
61
Miso Labs 发布 MisoTTS:8B 参数情感文本转语音模型,开放权重

Miso Labs 推出 MisoTTS,一款开放权重的 8B 参数文本转语音模型。该模型采用残差向量量化(RVQ)在不增加参数量的情况下扩展声音范围,并同时基于文本和音频上下文来响应用户语调。架构由 7.7B 主骨干与 300M 深度解码器组成。

开源生态模型发布语音
16:11
IT之家(RSS)
55
转战闭源遇挑战:消息称 Meta 一再推迟上线 AI 模型 Muse Spark

Meta 公司 AI 模型 Muse Spark 多次推迟向开发者发布 API 调用计划。该模型是 Meta 超级智能实验室(Meta Superintelligence Labs)的首款产品,由汪滔(Alexandr Wang)掌管。内部评测称 Muse Spark 可与 OpenAI、Anthropic 竞争,并在多数测试中领先 xAI 的 Grok。原计划 4 月发布 API,后推迟至 5 月,又推迟至 6 月,原因包括测试漏洞和基础设施扩建。目前仅少数第三方评测机构能验证其能力。

Meta开源生态模型发布行业动态
14:51
MarkTechPost(RSS)
精选71
Meet OpenJarvis:一个本地优先的设备端个人AI智能体框架,支持工具、记忆与学习

Stanford 研究人员发布 OpenJarvis,一个完全在设备端运行推理、智能体、记忆与学习的开源框架。它将个人 AI 系统分解为五个可组合原语:Intelligence、Engine、Agents、Tools & Memory 和 Learning。该框架与最佳云端模型的性能差距在 3.2 points 以内,边际 API 成本降低约 800 倍。

智能体产品更新开源生态端侧

推荐理由:斯坦福这个框架把云端模型能力拉到本地,成本降了800倍,所有想做离线个人助理的开发者该试试看,开源实现比PPT有说服力。
14:28
🚨 AI News | TestingCatalog@testingcatalog
63
HeyGen 宣布了新的 FRAME.md 格式,可将品牌指南文件 DESIGN.md 转换为专为视频和动态设计的规范。原有 DESIGN.md 适用于静态屏幕,但应用到视频时,AI 智能体会误将其解读为网页和幻灯片。FRAME.md 教会智能体如何生成真正的品牌视频。该项目已以开源仓库发布,任何品牌均可使用,通过 FRAME.md 文件来引导视频生成智能体。

HeyGen: Introducing frame.md, a spec built for videos & motion design.md kept your brand consistent across screens but when appl...

智能体产品更新开源生态视频
14:11
IT之家(RSS)
75
Ideogram 4.0 开源文生图模型发布

Ideogram 6月3日发布开源文生图模型 Ideogram 4.0,核心规模 9.3B 参数,采用单流架构,文本 tokens 与图像 tokens 共享自注意力序列。模型使用 Qwen3-VL-8B-Instruct 文本编码器、34 层单流 DiT、Euler 流匹配采样器及冻结 KL 自动编码器。擅长文字绘制,能准确呈现较长文本;通过对象和文本边界框训练,配合结构化 JSON 字幕数据,支持用提示词指定版式和布局。在 DesignArena 人类评价排名中位列全球第 4。

图像生成开源生态模型发布
关联讨论 1 条X:Krea AI (@krea_ai)
11:52
Artificial Analysis@ArtificialAnlys
67
StepFun 开源 Step 3.7 Flash 模型,性能与速度并进

StepFun 开源 Step 3.7 Flash(Apache 2.0),总参数 198B、激活 11B(MoE),上下文 256K。在 Artificial Analysis 智能指数上得分 42.6,较 Step 3.5 Flash 提升 4 分,输出速度超 400 tokens/s,通过 Multi-Token Prediction(3 个 token)加速。新增 1.8B 视觉编码器支持原生多模态,MMMU-Pro 得分 75.3%。代理能力提升:GDPval-AA Elo 从 1070 升至 1298,TerminalBench Hard 达 35.6%,AA-LCR 63.7%。知识/幻觉仍弱:AA-Omniscience 准确率 25.4%,幻觉率 84.4%。提供 BF16、FP8、NVFP4 精度权重以降低部署成本。

多模态开源生态推理模型发布
10:23
Jeff Dean@JeffDean
75
来看看我们的 Gemma 4 12B 模型:它是一个功能非常强大的开源权重模型,可以直接在你的笔记本电脑上运行。

Google Gemma: Meet Gemma 4 12B! A unified, encoder-free multimodal model designed to bring high-performance intelligence directly to y...

Google多模态开源生态模型发布
关联讨论 4 条X:Google AI for Developers (@googleaidevs)Google Developers Blog(RSS)Google DeepMind:Blog(RSS)Hacker News 热门(buzzing.cc 中文翻译)
09:58
MiniMax (official)@MiniMax_AI
71
MiniMax M3 即将推出,现在即可在 OpenCode 免费试用。M3 已回到免费层,快来体验!

OpenCode: MiniMax M3 will be launching soon You can try it right now in OpenCode For free

开源生态模型发布
09:40
小互@xiaohu
73
Ideogram 4.0 开源:边界框控制+多语言文字渲染

Ideogram 发布首个开源 AI 图像模型 Ideogram 4.0,主推文字渲染与版面控制。模型引入 bounding box(边界框)控制,允许用坐标精确指定元素位置;支持结构化 JSON 提示词格式,不再仅限纯文本;英文 OCR 准确率达 0.97(X-Omni 基准),支持跨语言密集文字渲染,涵盖中日韩等非拉丁文字。

图像生成开源生态模型发布
08:40
小互@xiaohu
71
Google 发布 Gemma 4 12B 开源模型

Google 发布 Gemma 4 12B 开源模型,采用无编码器 Unified 架构,可直接处理文本、图像、音频、视频,无需独立编码器。16GB 显存可运行,4-bit 量化后低至 8GB。支持 256K token 上下文、140+ 语言,内置 Thinking 模式和 Function Calling。

Google多模态开源生态模型发布
08:00
HuggingFace Daily Papers(社区热门论文)
54
BloomBench: 基于认知的英-阿双语多模态基准

研究团队提出 BloomBench(Almieyar 基准系列的一部分),首个基于人类认知的英-阿双语多模态基准。以布鲁姆分类学为框架,系统评估视觉语言模型在记忆、理解、应用、分析、评价、创造六个认知层级的表现。采用半自动化流程构建和分层混合质量保证协议,确保可扩展性与文化包容性。对现有 SOTA 模型的测试揭示:语义理解能力强,但事实回忆和创造性合成严重不足;阿拉伯语与英语之间存在显著性能差距。基准框架与数据集已开源。

GitHub多模态开源生态论文/研究
04:31
fofr@fofrAI
61
Ideogram v4 表现出色,开放权重。图像清晰,感觉焕然一新。

fofr: Ideogram v4 is really good, and open weights. Images are crisp and feel fresh.

图像生成开源生态模型发布
04:17
The Decoder:AI News(RSS)
72
Google DeepMind 发布 Gemma 4 12B:开源多模态模型,16GB 内存笔记本即可运行

Gemma 4 12B 是 Google DeepMind 推出的开源模型,原生支持处理文本、图像和音频,仅需 16GB RAM 即可在笔记本上运行。在基准测试中几乎追平两倍参数规模的 26B 模型,采用 Apache 2.0 许可证,可用于商业用途。

Google多模态开源生态模型发布
关联讨论 4 条X:Google AI for Developers (@googleaidevs)Google Developers Blog(RSS)Google DeepMind:Blog(RSS)Hacker News 热门(buzzing.cc 中文翻译)
03:58
MiniMax (official)@MiniMax_AI
65
我们已加入 @nvidia 和 @Microsoft 在 #GTC Taipei 的本地 LLM 阵容。🔥 PC 正围绕本地、智能体、开放权重模型重新定义。 MiniMax-M3 正是为此未来而打造: 开放权重。 1M 上下文。 强编码能力。 原生多模态。 对接下来的一切充满期待!
Microsoft开源生态端侧行业动态
03:40
Sundar Pichai@sundarpichai
同事件精选73
Gemma 4 系列累计下载量突破1.5亿次,Google随之推出新成员Gemma 4 12B。该模型仅12B参数,可在16GB VRAM笔记本上本地运行,兼顾尺寸与性能,支持多步推理和智能体工作流。采用Apache 2.0开源许可,供社区使用。

Demis Hassabis: Celebrating the milestone of a massive 150+ million downloads of Gemma 4 with the release of the new Gemma 4 12B model! ...

Google开源生态模型发布端侧
同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
推荐理由:Gemma 4 12B 把多步推理塞进笔记本能跑的尺寸,Apache 2.0 开源,对想做本地 agent 的开发者是实实在在的新弹药,小模型的可用性正在逼近临界点。
03:20
Chubby♨️@kimmonismus
71
Google 开源 Gemma 4 12B:无编码器架构,本地 16GB VRAM 运行

Google 开源 Gemma 4 12B(密集参数,Apache 2.0 许可),采用全新无编码器架构:移除独立的视觉(550M 参数、27 层 Transformer)和音频(300M 参数、12 层 Conformer)编码器。视觉改为 35M 嵌入层(约缩小 15 倍),音频以 40ms 帧直接投影到大语言模型。模型在 16GB VRAM 笔记本上即可运行智能体推理、视觉和音频任务,性能接近 26B 参数模型。共享权重支持一次 LoRA 调优覆盖视觉、音频和文本。

Google: Today we're introducing Gemma 4 12B - our latest open model that brings advanced agentic reasoning, vision and audio dir...

Google多模态开源生态模型发布
02:49
Google Research:Blog(网页)
精选72
洪水韧性新篇章:Google 开源水文建模框架

Google Research 在 GitHub 开源了其水文建模框架,这是一个基于 PyTorch 的 Python 包,采用与 Flood Hub 河段洪水预报相同的模型架构和训练数据。该框架允许研究者和预报员训练 AI 洪水预报模型、添加新模型与数据,并已与捷克水文气象研究所(CHMI)等合作测试。开放模型架构和训练管线旨在让各国气象水文部门在保留数据完全控制权的同时,整合基于 AI 的洪水预报。

Google开源/仓库开源生态数据/训练

推荐理由:谷歌开源的水文模型框架,是少数真正能救命的AI应用。不是秀参数,而是把工具直接塞给一线预报员,让他们用本地数据训练。务实,值得给赞。
02:47
The Decoder:AI News(RSS)
66
Ideogram 4.0 发布:开放权重模型,原生2K分辨率与改进文本渲染

Ideogram 发布 4.0 版本文本到图像模型,采用开放权重,支持原生2K分辨率、边界框控制和改进的文本渲染。在 DesignArena 排行榜上,该模型位列所有开放模型之首;仅 OpenAI 和 Google 的闭源系统得分更高。商业使用需购买付费许可证。

图像生成开源生态模型发布
02:36
Demis Hassabis@demishassabis
同事件精选74
Demis Hassabis 宣布 Gemma 4 系列下载量突破 1.5 亿,并正式发布新版 Gemma 4 12B 模型。该模型是一个统一的、无编码器的多模态模型,兼具边缘端效率与高级推理能力。尽管参数规模仅为 12B,但性能强劲,且足够小巧,可在仅需 16GB VRAM 的笔记本上本地运行。采用 Apache 2.0 开源许可证,方便开发者自由构建。

Google Gemma: Meet Gemma 4 12B! A unified, encoder-free multimodal model designed to bring high-performance intelligence directly to y...

Google开源生态模型发布端侧
同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
推荐理由:Gemma 4 12B 用 Apache 2.0 许可把多模态模型压进笔记本,16GB 显存就能跑,端侧智能的性价比又一次被 Google 拉高,做本地推理的可以马上试试。
02:16
AYi@AYi_AInotes
70
世界最好的开源图像模型, 仅次于GPT-image-2和Nanobanana2

Ideogram: Introducing Ideogram 4.0: the best open image model in the world. Think it. Make it. Own it. Download the weights, fine-...

图像生成开源生态模型发布
01:48
elvis@omarsar0
76
Miso One 8B开源情感TTS模型发布

Miso Labs 开源 8B 参数文本转语音模型 Miso One,专注于生成富有情感的表达,如温暖、犹豫或兴奋,告别机械音。模型专为短视频、播客和教育内容等旁白场景设计,推理延迟仅 110 毫秒,快于人类反应时间。模型权重完全开源,支持自托管、微调和数据私有化,API 即将开放。

Aoden Teo: Today, we're excited to introduce Miso One, the most emotive voice model in the world. Miso One is an 8-billion-paramete...

开源生态模型发布语音
00:55
🚨 AI News | TestingCatalog@testingcatalog
74
Ideogram 4.0 开源图像生成模型发布,在 LM Arena 文生图类别排名第 8,Design Arena 第 5,评分 1204,成为该领域排名最高的开放模型,性能接近 Nano Banana Pro。主要特性包括密集准确的文本渲染、原生 2K 分辨率、活动背景透明度及精确布局控制。

Arena.ai: New open model Ideogram-4.0-Quality has landed at #8 in the Text-to-Image Arena. This makes the new model by @ideogram_a...

图像生成开源生态模型发布
00:50
Chubby♨️@kimmonismus
精选75
Miso One 正式发布,一个 8B 参数的开源权重语音模型(TTS),旨在模拟真实人类朗读的温暖与节奏。它支持一次语音克隆(只需短样本),推理延迟仅 110ms。模型权重已开源至 GitHub,无需 API 即可自托管,音频数据不离开本地。API 访问即将推出。演示已上线,可先试听再克隆仓库。

Aoden Teo: Today, we're excited to introduce Miso One, the most emotive voice model in the world. Miso One is an 8-billion-paramete...

开源生态模型发布语音

推荐理由:Miso One这种8B参数、110ms延迟的情感TTS模型,直接把声音克隆和自托管做成了开箱即用,做语音产品的可以马上 clone 一个玩玩,比等 API 爽多了。
00:42
HuggingFace Daily Papers(社区热门论文)
精选76
Ultralytics YOLO26:统一实时端到端视觉模型

Ultralytics YOLO26 采用双头设计实现原生无 NMS 的端到端推理,彻底移除 DFL,获得更轻检测头与无约束回归范围。训练结合混合 Muon-SGD 优化器 MuSGD、转向推理头的 Progressive Loss 及保证小物体正样本的 STAL 标签分配。支持检测、实例分割、姿态估计、定向检测和分类,提供 5 种尺度(n/s/m/l/x)及开放词汇扩展 YOLOE-26。全部尺度在 COCO 上达 40.9–57.5 mAP,T4 TensorRT 延迟 1.7–11.8 ms;YOLOE-26x 在 LVIS minival 文本提示下达 40.6 AP。代码已开源。

开源生态端侧论文/研究部署/工程

推荐理由:这次YOLO26把NMS和DFL都拿掉了,还把大模型训练的Muon优化器改成MuSGD,在COCO上的速度精度平衡比上一代强不少,做实时检测的应该拿来跑一跑。
00:19
Google AI Developers@googleaidevs
77
Google推出Gemma 4 12B无编码器多模态模型

Google发布Gemma 4 12B,一款无编码器的统一多模态模型,可直接将视觉和音频输入送入LLM主干,无需传统多模态编码器。该模型填补了移动端E4B模型与26B MoE模型之间的空白,封装前沿推理与原生音频能力,采用Apache 2.0许可。在16GB VRAM下即可本地运行复杂多步骤智能体工作流,性能接近26B模型。

Google多模态开源生态模型发布
关联讨论 4 条X:Google AI for Developers (@googleaidevs)Google Developers Blog(RSS)Google DeepMind:Blog(RSS)Hacker News 热门(buzzing.cc 中文翻译)
6月3日
22:37
Nathan Lambert@natolambert
40
过去一年构建开放模型的一个关键教训,当美国明显落后这一点已变得如此清晰时,就是空谈是廉价的。 许多人说他们在帮助/想要帮助,但实际上什么都没做。找到那些真正推动开放进步的人是至关重要的。
大佬观点开源生态
22:09
IT之家(RSS)
69
欧盟提出"技术主权"一揽子方案,强调"数字自主性"与"韧性"

欧盟委员会6月3日公布“欧洲技术主权一揽子方案”,涵盖《云与人工智能发展法案》《芯片法案2.0》、“开源战略”和“能源领域数字化与人工智能战略路线图”。《云与人工智能发展法案》目标在未来5至7年内将欧洲数据中心容量提高3倍;《芯片法案2.0》旨在基于欧洲芯片优势建设尖端半导体能力。但“数字欧洲”组织认为,“含欧量”要求可能割裂供应链,削弱竞争力。

开源生态政策/监管
21:51
Ars Technica:AI(RSS)
61
Meta 追赶 AI 竞争对手的努力

外界对 Meta 能否缩小与 AI 竞争对手的差距仍存疑虑。

Meta开源生态现象/趋势
20:10
Alibaba Cloud@alibaba_cloud
53
阿里云CTO李飞飞博士与Nous Research战略主管Tommy Eastman:当我们大规模编排智能、重塑知识工作时,赋予智能体自主性需要可复现的行动--这是Hermes agent成功背后的核心秘诀。
智能体开源生态行业动态
20:00
公众号:昆仑万维(天工)
53
昆仑万维方汉:智力与能源是中国AI底层逻辑,香港可做数据合规沙盒与学术桥梁

近日,昆仑万维董事长兼CEO方汉在2026年香港科创主题研讨会上指出,中国AI的底层逻辑是智力与能源,中国具备明显优势,全球最好的开源大模型DeepSeek已能在多个垂直领域与美国产品竞争。公司2026年第一季度营收25.70亿元,同比增长45.69%;海外收入24.87亿元,同比增长49.29%;短剧及AI短剧平台月流水超4800万美元,ARR超5.7亿美元。方汉认为香港可扮演数据合规“沙盒”与学术交流桥梁角色,并呼吁长期资本重视AI应用层,称生成式AI将内容制作成本压低至几万分之一,传统渠道将被重做,订阅制将被免费模式取代。

大佬观点开源生态
19:37
Hacker News 热门(buzzing.cc 中文翻译)
60
Rsync 与公愤

一篇关于 Rsync 及其引发的社区争议的评论文章,发布于 Medium,讨论了该工具近期变化带来的用户不满。

大佬观点开源生态
18:05
X.PIN@thexpin
66
DeepSeek启动大规模首轮融资,目标募资约74亿美元

DeepSeek启动首轮大规模融资,目标募资约74亿美元,投后估值520亿至590亿美元,创中国AI行业融资纪录。创始人梁文锋个人出资约30亿美元,腾讯投资约15亿美元,宁德时代投资约7亿美元(同时布局AI数据中心供电)。网易、京东、中国国家人工智能基金等也在洽谈中。交易预计两周内完成。长期自筹资金的DeepSeek首次接受外部资本,梁文锋仍是最大单一股东。(来源:Reuters报道)

DeepSeek开源生态行业动态
‹ 上一页
1…1415161718…37
下一页 ›