AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 470 条
全部一手资讯X论文
标签「开源/仓库」清除
6月9日周二
22:34Google DeepMind:Blog(RSS)80同事件精选Google DeepMind 发布 Gemma 4 12B:统一的无编码器多模态模型同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
10:28蚂蚁 inclusionAI:GitHub 新仓库47蚂蚁 inclusionAI 开源 AReno:单节点加速强化学习后训练工具包
08:00HuggingFace Daily Papers(社区热门论文)45WebChallenger:不依赖模型规模、通过架构设计提升自主网页导航的智能体框架
6月8日周一
21:50Hugging Face:Blog(RSS)62精选开源社区支持 OpenEnv 用于智能体强化学习
08:12Simon Willison 博客62datasette-agent-edit 0.1a0 发布
08:00HuggingFace Daily Papers(社区热门论文)62SearchSwarm:面向长周期深度研究的代理大语言模型委托智能
6月7日周日
21:28Hacker News 热门(buzzing.cc 中文翻译)67Symbolica 2.0:适用于 Python 和 Rust 的可编程符号系统
08:00HuggingFace Daily Papers(社区热门论文)56PaperMentor:面向AI研究论文的以人为中心的多智能体写作导师(基于Overleaf)
6月6日周六
21:17IT之家(RSS)70精选OpenCV 5 发布:升级全新 DNN 引擎、原生支持大模型
19:48Hugging Face:Blog(RSS)58精选Persona Atlas:Hugging Face 上的开源人物思维映射工具
18:59The Decoder:AI News(RSS)68Audio Interaction:开源语音模型持续监听,每0.4秒决定是否说话或保持沉默
12:06Simon Willison 博客67Simon Willison 发布 micropython-wasm:基于 WebAssembly 的 Python 沙箱执行方案
08:00HuggingFace Daily Papers(社区热门论文)55MuJoCo-Drones-Gym:面向控制与强化学习的GPU加速多无人机仿真环境
08:00HuggingFace Daily Papers(社区热门论文)43基于集合的 Transformer 用于远距离 LWIR 高光谱成像的大气补偿
07:51Hacker News 热门(buzzing.cc 中文翻译)34Ask HN:你在使用生成式人工智能时,有哪些让你惊呼"天啊"的时刻?
07:21Hacker News 热门(buzzing.cc 中文翻译)66Lowfat--一款可插拔的CLI过滤器,帮我节省了91.8%的LLM token
6月5日周五
21:15IT之家(RSS)69腾讯混元提出 Stem 稀疏注意力算法,首字延迟降低 3.6 倍
20:06Simon Willison 博客60Ladybird 浏览器不再接受公开 Pull Request:代码责任归属优先于生成方式
19:27MarkTechPost(RSS)62NVIDIA AI 发布 Dynamo Snapshot:基于 CRIU 的 Kubernetes AI 推理快速启动系统
12:47HuggingFace Daily Papers(社区热门论文)53复杂度平衡扩散分裂(CBS):基于函数逼近理论的时间容量分配框架
10:24公众号:龙猫LongCat(美团)55ACL'26美团技术团队6篇论文入选:聚焦大模型评测与推理优化
06:17Hacker News 热门(buzzing.cc 中文翻译)69KVarN:华为开发的用于 KV-cache 量化的原生 vLLM 后端
05:47Hacker News 热门(buzzing.cc 中文翻译)76精选Anthropic 开源 AI 驱动漏洞发现框架
03:43Hugging Face:Blog(RSS)78精选Nemotron 3.5 Content Safety:面向全球企业AI的可定制多模态安全
00:53LMSYS:Blog(Chatbot Arena 团队)77精选Boson AI 与 LMSYS 发布基于 SGLang-Omni 的 Higgs Audio v3 TTS 端到端服务
6月4日周四
22:43HuggingFace Daily Papers(社区热门论文)62KletterMix:面向高质量德语预训练数据的构建与验证
20:42Hugging Face:Blog(RSS)65精选EVA-Bench Data 2.0 发布:覆盖三大领域、121 个工具、213 个场景
02:49Google Research:Blog(网页)72精选洪水韧性新篇章:Google 开源水文建模框架
02:48MarkTechPost(RSS)68Google DeepMind 发布 Gemma 4 12B:无需编码器的多模态模型,支持原生音频,可在16GB笔记本上运行
6月3日周三
23:10IT之家(RSS)67京东开源 JoyAI-Echo 长音视频生成框架,支持对话式编辑与 5 分钟角色一致
22:09IT之家(RSS)47上海海思一站式集成开发环境 HiSpark Studio 开源
20:57Simon Willison 博客66datasette-agent-micropython 0.1a0 发布
19:16The Decoder:AI News(RSS)58Nous Research 发布开源 AI 智能体 Hermes Desktop,支持多平台
13:09IT之家(RSS)52智元开源行业首个聚焦物理交互的具身数据集
13:09IT之家(RSS)37Vim Classic 8.3.0 编辑器发布:100% 不含 LLM 生成代码
12:42HuggingFace Daily Papers(社区热门论文)70精选世界模型与语言模型:论具体推理与抽象推理的互补性
02:07TechCrunch:AI(RSS)66微软为开发者提供更优方式控制AI智能体行为
6月2日周二
22:40Hugging Face:Blog(RSS)73精选Holo3.1:快速本地计算机使用智能体
12:40HuggingFace Daily Papers(社区热门论文)68多智能体计算机使用
12:34Hacker News 热门(buzzing.cc 中文翻译)67Chipotlai Max 项目在 Hacker News 获得关注
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月9日
22:34
Google DeepMind:Blog(RSS)
同事件精选80
Google DeepMind 发布 Gemma 4 12B:统一的无编码器多模态模型

Gemma 4 12B 是 Google DeepMind 最新推出的中等规模多模态模型,采用无编码器统一架构,原生支持音频输入。其基准测试性能接近 26B MoE 模型,但内存占用不到一半,仅需 16GB 显存或统一内存即可在消费级笔记本上本地运行。模型内置多 token 预测(MTP)drafter 以降低延迟,基于 Apache 2.0 开源许可发布,已累计超过 1.5 亿次下载。

Google多模态开源/仓库推理
同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
推荐理由:统一无编码器架构让 12B 模型在消费级笔记本上跑出接近 26B 的多模态 Agent 体验,开源 + Apache 2.0,本地部署门槛又压低了。
10:28
蚂蚁 inclusionAI:GitHub 新仓库
47
蚂蚁 inclusionAI 开源 AReno:单节点加速强化学习后训练工具包

蚂蚁 inclusionAI 在 GitHub 上开源了 AReno,一个易用且快速的工具包,可在单节点上扩展强化学习后训练(RL post-training)。

开源/仓库数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
45
WebChallenger:不依赖模型规模、通过架构设计提升自主网页导航的智能体框架

WebChallenger 围绕核心模块 PageMem(从 DOM 确定性构建的带摘要语义层次页面结构)设计三种机制:分而治之的观测管线(让智能体扫读摘要、仅提取任务相关区域细节)、轻量级网站探索与记忆系统(遍历一次网站即可复用页面与元素行为地图)、以及将多步交互压缩为单步智能体动作的工作流。使用未经微调的开源模型,在 WebArena 上达 56.3%、VisualWebArena 48.7%、Online-Mind2Web 51.0%、WorkArena 70.9%,接近前沿闭源系统但成本极低。代码已开源。

智能体GitHub开源/仓库论文/研究
6月8日
21:50
Hugging Face:Blog(RSS)
精选62
开源社区支持 OpenEnv 用于智能体强化学习

今日,Hugging Face 宣布 OpenEnv 项目进一步开放,由 Meta-PyTorch、Reflection、Unsloth 等组成的委员会协调,并获得 PyTorch Foundation、vLLM、SkyRL(UCB)等机构支持。OpenEnv 是创建终端、浏览器等智能体执行环境的工具,定位为训练器与环境间的互操作层,标准化环境的发布、部署和消费,但不定义奖励或训练循环。它基于客户端/服务器架构提供 Gymnasium 风格 API(reset()、step()、state()),支持 HTTP、WebSocket、Docker 打包,并将 MCP 作为一等公民,使环境在模拟和生产模式下行为一致。未来将聚焦任务集对接数据集、外部奖励、Harness 集成及自动验证,以推动开源智能体 RL 基础建设。

智能体Hugging FaceMCP/工具Meta

推荐理由:开源社区在 agent RL 环境上终于开始合流,Meta、Nvidia、Hugging Face 等联合推动 OpenEnv 成为接口标准,不做奖励框架,只做插线板。搞开源 agent 训练的人,这是少有的统一基础设施的机会。
08:12
Simon Willison 博客
62
datasette-agent-edit 0.1a0 发布

datasette-agent-edit 0.1a0 插件发布,为 Datasette Agent 提供智能体编辑文本的核心工具。其设计借鉴 Claude text editor,实现三个工具:view(按行号查看文件片段)、str_replace(精确替换唯一字符串)、insert(在指定行号后插入文本)。该插件作为基础组件,可供其他协作 Markdown 编辑、SQL 查询更新、SVG 编辑等插件复用。

智能体MCP/工具开源/仓库
08:00
HuggingFace Daily Papers(社区热门论文)
62
SearchSwarm:面向长周期深度研究的代理大语言模型委托智能

研究团队提出SearchSwarm,通过设计引导框架将长周期任务分解与委托决策编码为高质量轨迹,并用作监督微调数据,将委托智能内化到模型权重中。由此训练的SearchSwarm-30B-A3B模型在BrowseComp上达到68.1分,在BrowseComp-ZH上达到73.3分,均为同规模最佳。团队将开源引导框架、模型权重和训练数据。

智能体开源/仓库论文/研究
6月7日
21:28
Hacker News 热门(buzzing.cc 中文翻译)
67
Symbolica 2.0:适用于 Python 和 Rust 的可编程符号系统

Symbolica 2.0 发布,这是一款可编程符号系统,支持 Python 和 Rust 语言。该版本在 Hacker News 上获得 100 点热度。

产品更新开源/仓库编码
08:00
HuggingFace Daily Papers(社区热门论文)
56
PaperMentor:面向AI研究论文的以人为中心的多智能体写作导师(基于Overleaf)

PaperMentor是一个开源的写作辅导系统,在Overleaf中以内联评论形式提供可操作的建议,而不替代作者写作。系统集成了专家技能库和12个专门智能体,覆盖格式规范、措辞准确性、术语一致性等论文写作方面。用户研究(n=14)中,90.6%的评论被评为可操作,67.5%的评论有效,显著优于不使用技能库的GPT-5.2基线。代码以AGPL-3.0许可证公开。

智能体arXiv开源/仓库论文/研究
6月6日
21:17
IT之家(RSS)
精选70
OpenCV 5 发布:升级全新 DNN 引擎、原生支持大模型

OpenCV 5 正式发布,采用基于图的 DNN 引擎,ONNX 算子覆盖率从 4.x 的不到 23% 提升至超 80%,原生支持 Transformer、视觉语言模型(VLM)和大语言模型(LLM)。其他更新包括:更好的 Python 集成与命名参数、更紧凑核心代码、清晰硬件加速层、原生 FP16/BF16、规范化 0D/1D 张量、扩展 3D 视觉及现代化文档。该库 GitHub 拥有超 86,000 stars,每日安装量超一百万次。

多模态开源/仓库推理部署/工程

推荐理由:OpenCV 5 是一次架构级大更新,DNN 引擎重写、ONNX 覆盖率从 23% 跳到 80%,原生支持大模型推理,做模型部署的该关注了。
19:48
Hugging Face:Blog(RSS)
精选58
Persona Atlas:Hugging Face 上的开源人物思维映射工具

Persona Atlas 是一个运行在 Hugging Face Inference Providers 上的开源项目。它通过工具调用代理执行真实网络搜索,生成公众人物的资料、事实清单和风格假设,然后让该人物回答十个关于身份、伦理等开放式问题。每个回答被转化为嵌入向量,从而在向量空间中对不同人物进行距离比较,并基于十个特质锚点绘制热力图。前端采用 Gradio,提供研究、比较和检查代理完整追溯三个标签页,预设多个人物角色,无需 token 即可直接体验。

智能体Hugging Face开源/仓库

推荐理由:把苏格拉底和乔布斯放在一起比思维方式,这个实验更像智力玩具,但背后用小模型跑 agent 搜索做嵌入比较的流程,做角色扮演的人可以学研究方法。
18:59
The Decoder:AI News(RSS)
68
Audio Interaction:开源语音模型持续监听,每0.4秒决定是否说话或保持沉默

Audio Interaction是一个开源语音模型,持续监听环境,每0.4秒判断是否应该说话或保持沉默。与GPT-4o或Qwen3.5-Omni不同,它无需等待录音结束,可在单个流中同时进行翻译、转录、对话并识别咳嗽等日常噪音。代码和模型权重已在GitHub上以Apache 2.0开源许可发布,训练数据稍后公布。

开源/仓库模型发布语音
12:06
Simon Willison 博客
67
Simon Willison 发布 micropython-wasm:基于 WebAssembly 的 Python 沙箱执行方案

Simon Willison 发布 alpha 包 micropython-wasm,用于在 Python 应用中安全执行代码。该包将 MicroPython 编译为 WebAssembly,通过 wasmtime 库运行,实现内存和 CPU 限制、严格的文件与网络访问控制,并支持主机函数交互。它可作为 Datasette Agent 的沙箱插件 datasette-agent-micropython。

开源/仓库部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
55
MuJoCo-Drones-Gym:面向控制与强化学习的GPU加速多无人机仿真环境

MuJoCo-Drones-Gym是一个开源多无人机仿真环境,兼容Gymnasium接口,基于MuJoCo物理引擎,支持任意数量Bitcraze Crazyflie 2.x四旋翼。模块化API可选刚体/Python动力学/地面效应、桨叶阻力与下洗流等物理模型,动作接口包括电机转速、归一化推力、速度设定点和PID航点。观测空间含运动学状态、RGB/深度/分割相机图像和邻域信息。内置PettingZoo ParallelEnv支持多智能体强化学习,并提供悬停、速度跟踪、多无人机悬停、航点导航、编队飞行、绕杆竞速、通用多智能体模板七个任务环境。利用MuJoCo改进的接触处理、渲染与并行能力,适用于无人机控制算法开发与强化学习训练。

开源/仓库论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
43
基于集合的 Transformer 用于远距离 LWIR 高光谱成像的大气补偿

论文提出一个轻量级基于集合的深度学习框架(Set-Based Transformer),以多个不同远距离辐射测量值为输入,联合估计透射率、大气路径辐射和下行谱。使用稀疏自编码器分析学习到的表示,发现若干潜在特征在测试数据的地理一致子集上激活,尽管训练时未使用位置监督。在 MODTRAN 生成的远距离 LWIR 数据集上,所有估计产品均实现低光谱失真。代码和数据集已公开。

开源/仓库论文/研究
07:51
Hacker News 热门(buzzing.cc 中文翻译)
34
Ask HN:你在使用生成式人工智能时,有哪些让你惊呼"天啊"的时刻?

Hacker News 上一条“Ask HN”帖子向用户征集使用生成式人工智能(GenAI)时令人惊呼“天啊”的震撼时刻,该帖于 6 月 5 日发布,获得 105 个点赞。

开源/仓库现象/趋势
07:21
Hacker News 热门(buzzing.cc 中文翻译)
66
Lowfat--一款可插拔的CLI过滤器,帮我节省了91.8%的LLM token

Lowfat是一款可插拔的命令行界面(CLI)过滤器,可在LLM使用场景中节省约91.8%的模型token消耗。项目已开源并托管在GitHub上。

智能体GitHub开源/仓库
6月5日
21:15
IT之家(RSS)
69
腾讯混元提出 Stem 稀疏注意力算法,首字延迟降低 3.6 倍

腾讯混元提出 Stem 稀疏注意力算法,已被机器学习顶会 ICML-26 收录。该算法从因果信息流重新审视块级稀疏,引入 Token 位置衰减(TPD)和输出感知度量(OAM),仅用 25% 算力即逼近稠密注意力精度。配套的 HPC 开源 Stem+BSA 算子将稀疏收益转化为实际加速,在 128K 上下文下首字延迟降低 3.6 倍。

开源/仓库推理论文/研究
20:06
Simon Willison 博客
60
Ladybird 浏览器不再接受公开 Pull Request:代码责任归属优先于生成方式

Ladybird 浏览器项目宣布不再接受公开 pull request。维护者 Andreas Kling 指出,过去提交大量补丁意味着付出实质性努力,可作为善意的合理代理,但这一假设已不再成立。代码是手工输入还是由 AI 生成已无关紧要,关键是谁对进入浏览器的代码负责。Ladybird 正成为面向真实用户的浏览器,引入变更的人必须是决定该变更属于项目并承担后果的人。

开源/仓库开源生态
19:27
MarkTechPost(RSS)
62
NVIDIA AI 发布 Dynamo Snapshot:基于 CRIU 的 Kubernetes AI 推理快速启动系统

NVIDIA Dynamo Snapshot 使用 CRIU 和 cuda-checkpoint 工具,在 Kubernetes 上对 vLLM 推理工作节点进行检查点和恢复,实现快速启动。

开源/仓库推理部署/工程
12:47
HuggingFace Daily Papers(社区热门论文)
53
复杂度平衡扩散分裂(CBS):基于函数逼近理论的时间容量分配框架

标准连续时间生成模型需处理从各向同性噪声到复杂数据分布的不同信号状态,统一架构效率低下。本文提出复杂度平衡分裂(CBS)框架,基于函数逼近理论和de Boor均衡分布原理,将扩散时间线划分为等近似负担的片段,为生成动力学难建模区域分配更多表示容量。通过两种互补监测函数——基于流Dirichlet能量的空间测度和基于采样轨迹加速度的几何测度——估算局部复杂度,无需启发式分割或搜索。在SiT、JiT、UNet等架构及数据集上,CBS不增加每步推理成本,持续提升合成质量:在SiT-XL上使用CFG时,相比朴素时间划分,FID改善约35%。

图像生成开源/仓库数据/训练论文/研究
10:24
公众号:龙猫LongCat(美团)
55
ACL'26美团技术团队6篇论文入选:聚焦大模型评测与推理优化

美团技术团队在ACL'26上分享6篇论文,涵盖代码评测、复杂流程推理、数学竞赛、过度思考分析、推理后训练优化及生成式推荐。CoreCodeBench从12个开源库生成1524个结构化任务,有效性达78.55%;SOP-Maze基于真实业务构建397个流程实例,测试显示前沿模型存在流程遵循、对话脆弱性和计算错误三类短板;AMO-Bench含50道高难度数学题,最强模型准确率仅52.4%;The Evolution of Thought提出推理完成点(RCP)检测器减少冗余生成;MASPO通过软高斯门控等优化推理后训练,提升Avg@32和Pass@32;FLR将隐式推理分解为多维偏好因子,平均提升3.2%。

开源/仓库推理论文/研究评测/基准
06:17
Hacker News 热门(buzzing.cc 中文翻译)
69
KVarN:华为开发的用于 KV-cache 量化的原生 vLLM 后端

华为发布 KVarN,一个原生 vLLM 后端,专门用于键值缓存(KV-cache)量化。项目已在 GitHub 上公开,在 Hacker News 上获得 100 点热度。

开源/仓库推理部署/工程
05:47
Hacker News 热门(buzzing.cc 中文翻译)
精选76
Anthropic 开源 AI 驱动漏洞发现框架

Anthropic 将其用于 AI 驱动漏洞发现的开源框架代码托管在 GitHub 上。该框架借助 AI 技术进行漏洞发现,旨在帮助识别软件中的安全缺陷。

智能体Anthropic安全/对齐开源/仓库

推荐理由:Anthropic 把用 Claude 做自主漏洞挖掘的完整流水线开源了,从侦察到修复全链路都有,安全团队可以把它接到自己代码库里跑起来。虽然本质是给 Claude Security 带货,但 pipeline 设计和 prompt 对做 AI 安全自动化很有参考价值。
03:43
Hugging Face:Blog(RSS)
精选78
Nemotron 3.5 Content Safety:面向全球企业AI的可定制多模态安全

Nemotron 3.5 Content Safety基于Gemma 3 4B IT,提供128K上下文窗口,支持用户提示、可选图像与助手响应的统一多模态安全评估。新增自定义策略执行,允许企业用自然语言定义专属安全规则;THINK模式可输出可审计的逐步推理痕迹。显式训练覆盖12种语言,并借助基座模型零样本泛化至约140种语言。输出提供低延迟二分类、带分类标签、THINK推理痕迹三种模式。安全分类遵循Aegis 2.0框架(13核心类别+10细分类别)。同步发布多模态、多语言安全数据集,可在8GB+ VRAM GPU上实时部署。

Hugging Face多模态安全/对齐开源/仓库

推荐理由:Nemotron 3.5 把内容安全从「单模态英文」拉到「多语言多模态可定制」,自定义策略和推理 trace 让企业能审计决策,做安全平台的值得细看。
00:53
LMSYS:Blog(Chatbot Arena 团队)
精选77
Boson AI 与 LMSYS 发布基于 SGLang-Omni 的 Higgs Audio v3 TTS 端到端服务

Boson AI 与 LMSYS 联合推出基于 SGLang-Omni 推理框架的 Higgs Audio v3 TTS 端到端服务。该模型约 4B 参数,基于 Qwen3-4B 骨干,支持 100 种语言(内部评测覆盖 111 种),在 Seed-TTS、CV3、MiniMax-Multilingual 及 Higgs-Multilingual 零样本语音克隆任务中达到单字级 WER/CER。开发者可通过文本内控制标签实时调整情感(20+种)、风格、韵律(语速/音高/停顿)及音效。模型支持流式合成,文本未完整时即可开始生成语音并保持一致性。SGLang-Omni 专为多阶段生成模型设计,统一调度 AR 解码与轻量计算,实现低延迟推理。

开源/仓库教程/实践语音部署/工程

推荐理由:Higgs v3 把多语言和实时可控制整合进一个流式 TTS 模型,SGLang-Omni 为它搭好了多阶段推理的底座,做语音 Agent 的可以直接抄作业,这比多数论文落地快半拍。
6月4日
22:43
HuggingFace Daily Papers(社区热门论文)
62
KletterMix:面向高质量德语预训练数据的构建与验证

针对德语预训练数据资源匮乏且缺乏系统验证的问题,研究团队构建了KletterMix——一个高质量德语语料库,用于大语言模型预训练与退火阶段。KletterMix通过翻译一份最优英语预训练语料生成,保留了原文档边界、元数据、来源结构和主题多样性。COMETKiwi评估表明翻译文档在多个领域保持语义与风格丰富性。在受控预训练和退火实验中,基于KletterMix训练的模型在德语下游评测中取得可衡量性能提升,证实精心策划的翻译数据能有效增强德语预训练数据生态。

开源/仓库数据/训练论文/研究
20:42
Hugging Face:Blog(RSS)
精选65
EVA-Bench Data 2.0 发布:覆盖三大领域、121 个工具、213 个场景

EVA-Bench Data 2.0 将评估范围从单一企业领域扩展至航空公司客户服务管理(CSM)、企业 IT 服务管理(ITSM)和医疗 HR 服务交付(HRSD)三个领域,共涵盖 121 个工具、213 个场景,场景数较原始版本增长约 4 倍。每个场景均经 OpenAI GPT-5.4、Google Gemini 3.1 Pro 和 Anthropic Claude Opus 4.6 验证可解性。数据集遵循语音优先、真实性、多样性、认证流程和可复现性五项设计原则,包含单意图、多意图(最多 4 个意图)和对抗性呼叫类型。所有三个数据集已开源,可通过 load_dataset 从 Hugging Face 直接下载。后续将推出多语言扩展。

开源/仓库论文/研究评测/基准

推荐理由:语音代理评测缺的就是这种真实场景的数据集,EVA-Bench 2.0 把航空、IT、医疗三个最棘手的领域打包了,生成流水线也开源,做评测的可以直接拿来用。
02:49
Google Research:Blog(网页)
精选72
洪水韧性新篇章:Google 开源水文建模框架

Google Research 在 GitHub 开源了其水文建模框架,这是一个基于 PyTorch 的 Python 包,采用与 Flood Hub 河段洪水预报相同的模型架构和训练数据。该框架允许研究者和预报员训练 AI 洪水预报模型、添加新模型与数据,并已与捷克水文气象研究所(CHMI)等合作测试。开放模型架构和训练管线旨在让各国气象水文部门在保留数据完全控制权的同时,整合基于 AI 的洪水预报。

Google开源/仓库开源生态数据/训练

推荐理由:谷歌开源的水文模型框架,是少数真正能救命的AI应用。不是秀参数,而是把工具直接塞给一线预报员,让他们用本地数据训练。务实,值得给赞。
02:48
MarkTechPost(RSS)
68
Google DeepMind 发布 Gemma 4 12B:无需编码器的多模态模型,支持原生音频,可在16GB笔记本上运行

Gemma 4 12B 是 Google DeepMind 发布的无需编码器的多模态模型,直接将视觉和音频输入大语言模型骨干,支持原生音频,可在 16 GB 笔记本电脑上本地运行,采用 Apache 2.0 开源许可。

Google多模态开源/仓库模型发布
6月3日
23:10
IT之家(RSS)
67
京东开源 JoyAI-Echo 长音视频生成框架,支持对话式编辑与 5 分钟角色一致

京东发布并开源 JoyAI-Echo 长音视频生成框架。其内置记忆库可在长达 5 分钟的视频中保持角色身份、视觉形象和声音音色高度一致。框架采用记忆驱动后训练流程,结合 SFT、跨模态 RLHF 与 Distribution Matching Distillation(DMD)技术,DMD 带来约 7.5 倍推理速度提升。JoyAI-Echo 还引入 Director Agent,支持自然语言需求自动拆分为剧本、角色、场景和镜头,实现对话式编辑。配套实时超分模块支持 736×1280 → 1152×1920 及 736×1280 → 1472×2560 两档分辨率提升。京东称该项目标志着其在长视频生成领域进入全球第一梯队。

多模态开源/仓库
22:09
IT之家(RSS)
47
上海海思一站式集成开发环境 HiSpark Studio 开源

上海海思 HiSpark Studio 正式在 GitCode 平台开源。该 IDE 基于 VS Code 扩展架构,集成工程管理、代码编辑、编译构建、烧录调试、图形化配置等全链路开发能力,支持智能设备、星闪(NearLink)、嵌入式 AI 开发。核心亮点包括 SDK 一键下载、一键编译与烧录、GDB 调试、图形化工具集(图片解压缩、视频首帧提取、3D 建模、蒙版工具)、系统配置工具、AI 模型处理(量化压缩、格式转换、一键部署验证)及远程开发模式。

开源/仓库端侧
20:57
Simon Willison 博客
66
datasette-agent-micropython 0.1a0 发布

Datasette Agent 推出的新子项目 datasette-agent-micropython 0.1a0 发布,旨在让 Datasette Agent 能够安全地生成和执行 Python 代码。该 alpha 版本采用沙箱隔离机制,目前 GPT-5.5 尚未能逃逸出沙箱。

智能体开源/仓库部署/工程
19:16
The Decoder:AI News(RSS)
58
Nous Research 发布开源 AI 智能体 Hermes Desktop,支持多平台

Nous Research 推出开源 AI 智能体应用 Hermes Desktop,采用 MIT 许可证,可跨平台运行。

智能体开源/仓库
13:09
IT之家(RSS)
52
智元开源行业首个聚焦物理交互的具身数据集

智元正式开源 AGIBOT WORLD 2026 数据集第二期“多样交互(Rich Interaction)”。这是行业首个聚焦物理交互的开源具身数据集,系统记录机器人与真实物理世界之间复杂、高密度的交互过程,面向世界模型、神经仿真器等具身智能研究。该数据集将数据范式从“学习成功动作”推进到“理解完整的物理分布”,目前已在 Hugging Face 平台开放下载。

Hugging Face具身智能开源/仓库数据/训练
13:09
IT之家(RSS)
37
Vim Classic 8.3.0 编辑器发布:100% 不含 LLM 生成代码

Vim Classic 发布首个稳定版 8.3.0 编辑器,明确承诺代码库完全不含 LLM 生成内容。该版本基于 Vim 8.2.0148 构建,旨在避免 Vim9 Script 带来的长期维护负担,使代码更简洁,但也导致部分现代 Vim 插件无法正常使用。团队已针对上游安全补丁进行评估以覆盖已知漏洞,但提醒早期用户系统可能存在隐藏 Bug,更适合愿意接受兼容性与稳定性风险的用户尝鲜。

产品更新开源/仓库
12:42
HuggingFace Daily Papers(社区热门论文)
精选70
世界模型与语言模型:论具体推理与抽象推理的互补性

本研究探讨了世界模型与多模态大语言模型在预测未来状态时的互补性。世界模型可生成具体的视觉未来轨迹,但可能视觉合理却任务错误;多模态大语言模型则擅长抽象推理。为此,研究提出了“受控的具体推理”框架,并构建了VRQABench和OpenWorldQA两个基准。同时,提出了Privileged-Future On-Policy Self-Distillation(PF-OPSD)方法,该方法在训练时利用真实未来视频作为特权上下文评估推理轨迹,但部署时无需真实未来。实验结果显示,PF-OPSD在两个基准上分别比基线高出10.6%和10.9%,并提升了对噪声或冲突轨迹的鲁棒性。

智能体多模态开源/仓库推理

推荐理由:世界模型靠视觉预测,语言模型靠抽象推理,这篇把两者真正拧在一起了。用未来视频做自我蒸馏提升 10%,还给全开源,做 agent 决策的可以认真看看‘什么时候不信自己的眼睛’是怎么训出来的。
02:07
TechCrunch:AI(RSS)
66
微软为开发者提供更优方式控制AI智能体行为

微软发布了一项AI智能体控制规范,允许开发者、合规与安全团队在可移植的策略文件中为智能体定义行为准则。

智能体Microsoft产品更新开源/仓库
6月2日
22:40
Hugging Face:Blog(RSS)
精选73
Holo3.1:快速本地计算机使用智能体

Holo3.1 是基于 Qwen 模型家族的计算机使用智能体系列,旨在提升在桌面、网页和移动环境中的鲁棒性。新模型提供 0.8B、4B、9B 和 35B-A3B 四种尺寸,并首次发布量化检查点,包括 FP8、Q4 GGUF 和 NVFP4,以优化本地推理。在 AndroidWorld 基准测试中,35B-A3B 模型得分从 67% 提升至 79.3%。在 DGX Spark 上,NVFP4 量化相比 BF16 实现 1.74 倍 token 吞吐量提升,并将平均步骤时间从 6.8 秒缩短至 3.3 秒。模型支持函数调用协议,可在第三方智能体框架中部署。

智能体Hugging Face开源/仓库模型发布

推荐理由:Holo3.1 把计算机使用代理从桌面扩展到了移动端,还首次放出了量化版,让本地运行真正快了起来。想做 GUI 自动化的开发者可以立刻跑起来了。
12:40
HuggingFace Daily Papers(社区热门论文)
68
多智能体计算机使用

当前单智能体计算机使用智能体在复杂长时程任务中存在不足。为此,本研究提出了多智能体计算机使用系统。该系统由一个管理器模型将任务分解为有向无环图,并行派遣子智能体执行,并根据新信息动态调整该图。实验表明,该系统在桌面和网页导航基准测试上的性能持续优于强单智能体基线3.4-25.5%,并在长时程网页导航任务上将平均任务完成时间缩短约1.5倍。研究结论是,多智能体协调是扩展计算机使用智能体能力的一个有前景方向。

智能体开源/仓库论文/研究
12:34
Hacker News 热门(buzzing.cc 中文翻译)
67
Chipotlai Max 项目在 Hacker News 获得关注

“Chipotlai Max”项目在 Hacker News 上获得了 102 点热度,并提供了其 GitHub 仓库地址。

GitHub开源/仓库编码
‹ 上一页
12345…12
下一页 ›