AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「开源/仓库」清除
6月9日周二
08:43meng shao75精选GitHub 122K⭐的Skills推出新技能「Teach」:把工作目录变有状态学习空间
08:00HuggingFace Daily Papers(社区热门论文)45WebChallenger:不依赖模型规模、通过架构设计提升自主网页导航的智能体框架
02:21jason40Jason Liu 用 poke 追踪 codex 发布
6月8日周一
23:12Chubby♨️78精选Hivemind推出面向AI编程智能体的持续学习功能,即日起开放
22:46OpenBMB75精选VoxCPM2 技术报告发布
21:50Hugging Face:Blog(RSS)62精选开源社区支持 OpenEnv 用于智能体强化学习
21:40meng shao60邵猛开源 Markdown 转 X Article 格式 Skill
21:36小互79精选小互开源视频翻译工具:一句话自动下载、转写、翻译、烧字幕
19:40Rohan Paul68Kocoro:开源 Mac AI agent 框架,本地化记忆管理
18:10Alibaba Cloud66AgentScope Java 2.0 发布
16:38meng shao78精选邵猛开源 Brand to DESIGN.md 技能,提醒复刻易生新"AI Slop"
08:12Simon Willison 博客62datasette-agent-edit 0.1a0 发布
08:00HuggingFace Daily Papers(社区热门论文)62SearchSwarm:面向长周期深度研究的代理大语言模型委托智能
6月7日周日
21:28Hacker News 热门(buzzing.cc 中文翻译)67Symbolica 2.0:适用于 Python 和 Rust 的可编程符号系统
12:30宝玉75宝玉发布Claude Design解析工具
08:00HuggingFace Daily Papers(社区热门论文)56PaperMentor:面向AI研究论文的以人为中心的多智能体写作导师(基于Overleaf)
00:58Berryxia.AI66mlx-audio v0.4.4 发布:新增 15+ 个 TTS/ASR/VAD 模型及服务器改进
6月6日周六
23:26向阳乔木70Open Design:用本地Agent替代Figma的开源设计工具
23:25宝玉48Hermes Desktop 下个版本支持多语言及中文界面
21:17IT之家(RSS)70精选OpenCV 5 发布:升级全新 DNN 引擎、原生支持大模型
19:48Hugging Face:Blog(RSS)58精选Persona Atlas:Hugging Face 上的开源人物思维映射工具
18:59The Decoder:AI News(RSS)68Audio Interaction:开源语音模型持续监听,每0.4秒决定是否说话或保持沉默
18:24AYi53OpenCut:GitHub 5万星开源AI剪辑工具,本地优先、永久免费、无水印无会员
12:24宝玉67《图解Skill》发布,GitHub 开源多个 Skills
12:06Simon Willison 博客67Simon Willison 发布 micropython-wasm:基于 WebAssembly 的 Python 沙箱执行方案
09:11eric zakariasson42tokenmaxxing 需至少20个函数副本
09:01Artificial Analysis52Gemma 4 12B 语音转录表现不佳,落后于专有转录模型
08:00HuggingFace Daily Papers(社区热门论文)55MuJoCo-Drones-Gym:面向控制与强化学习的GPU加速多无人机仿真环境
08:00HuggingFace Daily Papers(社区热门论文)43基于集合的 Transformer 用于远距离 LWIR 高光谱成像的大气补偿
07:59Rohan Paul68Google 发布 Gemma 4 QAT 检查点,最小模型从 11.4GB 压缩至 1.1GB
07:51Hacker News 热门(buzzing.cc 中文翻译)34Ask HN:你在使用生成式人工智能时,有哪些让你惊呼"天啊"的时刻?
07:21Hacker News 热门(buzzing.cc 中文翻译)66Lowfat--一款可插拔的CLI过滤器,帮我节省了91.8%的LLM token
03:19Perplexity69Nemotron 3 Ultra 上线 Perplexity
02:58elvis67AI Wrapped: 用npx standout查看AI使用排名
01:52宝玉74Hermes Agent Desktop 新增中文支持
00:59Google AI Developers72同事件精选谷歌发布 Gemma 4 QAT 检查点,支持消费级 GPU 和移动设备本地运行同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
6月5日周五
21:15IT之家(RSS)69腾讯混元提出 Stem 稀疏注意力算法,首字延迟降低 3.6 倍
20:06Simon Willison 博客60Ladybird 浏览器不再接受公开 Pull Request:代码责任归属优先于生成方式
19:27MarkTechPost(RSS)62NVIDIA AI 发布 Dynamo Snapshot:基于 CRIU 的 Kubernetes AI 推理快速启动系统
19:20AYi27X创作者收益预测平台将开源
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月9日
08:43
meng shao@shao__meng
精选75
GitHub 122K⭐的Skills推出新技能「Teach」:把工作目录变有状态学习空间

GitHub 122K⭐的Skills仓库推出新技能Teach,可将当前工作目录变为有状态学习空间。设计理念从Knowledge(概念事实)→Skills(动手操作)→Wisdom(真实判断)。工作区以文件即学习状态:MISSION.md定目标、lessons/提供课程、learning-records/记录已会内容、reference/生成速查手册。五个关键机制:Mission定方向、ZPD根据记录调整难度、Lesson一课一事+即时反馈、Learning Record记“会了什么”而非“讲了什么”、Reference形成长期可回看手册。可通过npx skills add mattpocock/skills --skill teach安装,适用于从魔方到软件基础等学习场景。

Matt Pocock: /teach is live Learn anything, from rubik's cube to vocal harmonies to software fundamentals. npx skills add mattpocock/...

GitHub开源/仓库部署/工程

推荐理由:mattpocock 这个 Teach Skill 把学东西从看文章变成写代码,用文件作为学习状态机,做开发者的可以立刻用起来,思想比同类教程工具高一个档次。
08:00
HuggingFace Daily Papers(社区热门论文)
45
WebChallenger:不依赖模型规模、通过架构设计提升自主网页导航的智能体框架

WebChallenger 围绕核心模块 PageMem(从 DOM 确定性构建的带摘要语义层次页面结构)设计三种机制:分而治之的观测管线(让智能体扫读摘要、仅提取任务相关区域细节)、轻量级网站探索与记忆系统(遍历一次网站即可复用页面与元素行为地图)、以及将多步交互压缩为单步智能体动作的工作流。使用未经微调的开源模型,在 WebArena 上达 56.3%、VisualWebArena 48.7%、Online-Mind2Web 51.0%、WorkArena 70.9%,接近前沿闭源系统但成本极低。代码已开源。

智能体GitHub开源/仓库论文/研究
02:21
jason@jxnlco
40
如果你用 poke,可以看看我的自动化工具,用来跟踪 codex 的发布。 也许有一天你会在其中看到 @interaction 被提及。 http://poke.com/r/7ZaRDldAw3s
OpenAI开源/仓库编码
6月8日
23:12
Chubby♨️@kimmonismus
精选78
Hivemind推出面向AI编程智能体的持续学习功能,即日起开放

Hivemind发布面向AI编程智能体的持续学习功能,即日起开放。该工具收集团队运行的每个智能体(Claude Code、Codex、Cursor、Hermes、Pi)的轨迹,转化为可复用技能并推送到所有智能体,数据存储在用户自己的云存储中。内置SkillOpt使技能持续训练:Claude Code准确率提升+19.1分,Codex提升+24.8分,在全部52个测试设置中最佳或持平。开源,一行命令安装。

Davit: Coding agents that actually get better the more your team uses them. Introducing Hivemind: continual learning for AI cod...

智能体开源/仓库编码

推荐理由:Hivemind 让 Claude Code、Cursor 等不同 AI 编码助手互相学习,团队用得越多代理越准,开源一行安装,做工程管理的值得立刻试试。
22:46
OpenBMB@OpenBMB
精选75
VoxCPM2 技术报告发布

面壁智能 OpenBMB 发布 VoxCPM2 技术报告。该模型为最新语音生成模型,拥有 2B 参数,基于超 200 万小时多语言语音数据训练,支持 30 种语言和 9 种中文方言。具备自然语言语音设计、可控及高保真延续性语音克隆能力。技术报告涵盖架构设计、统一序列公式、AudioVAE 高保真语音重建、大规模训练评估,以及零样本和指令跟随 TTS 基准结果。采用 16kHz 语义编码 + 48kHz 波形重建,在公开 TTS 基准上达到 SOTA 或极具竞争力。模型权重、微调代码和推理工具以 Apache 2.0 开源。

多模态开源/仓库模型发布语音

推荐理由:面壁把语音生成压进2B参数,支持30种语言加方言克隆,还附完整技术报告和Apache 2.0开源,做语音产品的可以直接拉代码跑起来了。
21:50
Hugging Face:Blog(RSS)
精选62
开源社区支持 OpenEnv 用于智能体强化学习

今日,Hugging Face 宣布 OpenEnv 项目进一步开放,由 Meta-PyTorch、Reflection、Unsloth 等组成的委员会协调,并获得 PyTorch Foundation、vLLM、SkyRL(UCB)等机构支持。OpenEnv 是创建终端、浏览器等智能体执行环境的工具,定位为训练器与环境间的互操作层,标准化环境的发布、部署和消费,但不定义奖励或训练循环。它基于客户端/服务器架构提供 Gymnasium 风格 API(reset()、step()、state()),支持 HTTP、WebSocket、Docker 打包,并将 MCP 作为一等公民,使环境在模拟和生产模式下行为一致。未来将聚焦任务集对接数据集、外部奖励、Harness 集成及自动验证,以推动开源智能体 RL 基础建设。

智能体Hugging FaceMCP/工具Meta

推荐理由:开源社区在 agent RL 环境上终于开始合流,Meta、Nvidia、Hugging Face 等联合推动 OpenEnv 成为接口标准,不做奖励框架,只做插线板。搞开源 agent 训练的人,这是少有的统一基础设施的机会。
21:40
meng shao@shao__meng
60
邵猛开源 Markdown 转 X Article 格式 Skill

邵猛批评 X Article 编辑器难用、不支持 Markdown 格式,并用 Codex 创建了一个 Skill「md-to-x-article-skill」,可将 Markdown 自动转换为 X Article 展示格式。该工具已开源在 GitHub(shaom/md-to-x-article-skill),用户可 Fork 后按需微调。

GitHub开源/仓库
21:36
小互@xiaohu
精选79
小互开源视频翻译工具:一句话自动下载、转写、翻译、烧字幕

小互(@xiaohu)开源视频翻译工具(xiaohu-video-translate),只需说一句“把链接翻译成中文字幕视频”即可全自动完成下载、Whisper本地转写、AI翻译润色、烧字幕、出文稿。转写本地运行,不花API费。支持YouTube、Bilibili、抖音等链接及本地文件,英语、日语、韩语、法语、西班牙语等均可转成中文字幕。字幕精确到词级时间戳,按语义断句,每行不超过12字,双语模式下中文大英文小。提供纯中文与中英双语模式。工具由三个子技能组成,可单独或串联使用,适配Claude Code、Codex、OpenClaw等AI编程工具。已开源,附安装指南。

GitHub开源/仓库视频语音

推荐理由:小互把自己用了半年的视频翻译工具开源了,本地Whisper转写加AI润色,下载、翻译、烧字幕一句话搞定,做海外视频搬运或想省时间的,装一下就能省掉大半天手工。
19:40
Rohan Paul@rohanpaul_ai
68
Kocoro:开源 Mac AI agent 框架,本地化记忆管理

Kocoro 是一个引擎级的开源 Mac AI agent 框架。它通过本地 agent 读取用户的过往会话、文件、应用、浏览器、屏幕和终端,将有用事实压缩为记忆,使 agent 无需重复上下文即可继续工作。安全模型以本地优先:工具操作需授权,危险命令被拦截或二次确认,行为可审计,秘密自动脱敏,记忆/同步默认不上传。其“情景记忆”将历史会话转化为项目事实、决策、协作者、截止日期和习惯。每晚自动将工作日蒸馏成本地知识图谱,次日直接恢复进度。

Wayland Zhang: The models keep getting smarter. The users keep turning into assistants. You paste the file. Re-explain the project. Nar...

智能体MCP/工具开源/仓库端侧
18:10
Alibaba Cloud@alibaba_cloud
66
阿里云发布AgentScope Java 2.0,面向企业级AI智能体开发。新版本主要特性:分布式无状态架构,支持K8s弹性扩缩容与会话恢复;多租户隔离,通过Workspace抽象实现安全数据分离;长期稳定性,HarnessAgent负责上下文管理与容错;安全执行,提供细粒度权限控制和Human-in-the-Loop支持。适用于JVM生产环境。开源地址见推文链接。
智能体开源/仓库部署/工程
16:38
meng shao@shao__meng
精选78
邵猛开源 Brand to DESIGN.md 技能,提醒复刻易生新"AI Slop"

邵猛关注 Design Skill、Taste Skill、Anti-AI-slop design skill,并开源 Brand to DESIGN.md Skill(GitHub: shaom/brand-to-design-md-skill),让 Agent 学习设计品味后复刻网站。但他指出,这种复刻看多了反而从 Anti-AI-slop 衍生新“AI Slop”,缺少设计精髓,仅皮毛相仿。

智能体GitHub开源/仓库

推荐理由:邵猛这个 skill 把品牌手册一键转成 Agent 可用的 DESIGN.md,虽然 AI 复刻设计仍缺灵魂,但至少能让 Agent 立刻有规范可循,做设计的可以直接套用。
08:12
Simon Willison 博客
62
datasette-agent-edit 0.1a0 发布

datasette-agent-edit 0.1a0 插件发布,为 Datasette Agent 提供智能体编辑文本的核心工具。其设计借鉴 Claude text editor,实现三个工具:view(按行号查看文件片段)、str_replace(精确替换唯一字符串)、insert(在指定行号后插入文本)。该插件作为基础组件,可供其他协作 Markdown 编辑、SQL 查询更新、SVG 编辑等插件复用。

智能体MCP/工具开源/仓库
08:00
HuggingFace Daily Papers(社区热门论文)
62
SearchSwarm:面向长周期深度研究的代理大语言模型委托智能

研究团队提出SearchSwarm,通过设计引导框架将长周期任务分解与委托决策编码为高质量轨迹,并用作监督微调数据,将委托智能内化到模型权重中。由此训练的SearchSwarm-30B-A3B模型在BrowseComp上达到68.1分,在BrowseComp-ZH上达到73.3分,均为同规模最佳。团队将开源引导框架、模型权重和训练数据。

智能体开源/仓库论文/研究
6月7日
21:28
Hacker News 热门(buzzing.cc 中文翻译)
67
Symbolica 2.0:适用于 Python 和 Rust 的可编程符号系统

Symbolica 2.0 发布,这是一款可编程符号系统,支持 Python 和 Rust 语言。该版本在 Hacker News 上获得 100 点热度。

产品更新开源/仓库编码
12:30
宝玉@dotey
75
最近为了研究Claude Design,专门写了一个工具,可以解析HAR文件,解密Claude Design传输的二进制内容,这样可以方便的看到请求的Prompt

宝玉: Cursor's new browser + element annotation turns it into a design studio. Meet Cursor Design 🎨 - Claude Design, running ...

MCP/工具开源/仓库
关联讨论 1 条X:宝玉 (@dotey)
08:00
HuggingFace Daily Papers(社区热门论文)
56
PaperMentor:面向AI研究论文的以人为中心的多智能体写作导师(基于Overleaf)

PaperMentor是一个开源的写作辅导系统,在Overleaf中以内联评论形式提供可操作的建议,而不替代作者写作。系统集成了专家技能库和12个专门智能体,覆盖格式规范、措辞准确性、术语一致性等论文写作方面。用户研究(n=14)中,90.6%的评论被评为可操作,67.5%的评论有效,显著优于不使用技能库的GPT-5.2基线。代码以AGPL-3.0许可证公开。

智能体arXiv开源/仓库论文/研究
00:58
Berryxia.AI@berryxia
66
mlx-audio v0.4.4 发布:新增 15+ 个 TTS/ASR/VAD 模型及服务器改进

mlx-audio v0.4.4 发布,所有模型均运行在 Apple Silicon。新增 15+ 个模型:TTS 包括 VoxCPM2(2B 参数、48kHz、30 种语言)、MOSS-TTS、Higgs Audio v3 等;ASR 包括 Mega-ASR(基于 Qwen3-ASR-1.7B + LoRA 路由)、Nemotron 3.5 ASR(实时流式)、Cohere ASR(长文本转录速度提升 1.7 倍)等;VAD 新增 Silero VAD、FSMN-VAD、Step-Audio 2。服务器改进支持 OpenAI 兼容的 response_format、/v1/audio/voices 接口及逐词时间戳。安装命令:uv pip install -U mlx-audio。

Prince Canuma: 🚀 mlx-audio v0.4.4 is out - our biggest model drop yet. 15+ new TTS, ASR & VAD models, faster long-form transcription, ...

开源/仓库开源生态语音
6月6日
23:26
向阳乔木@vista8
70
Open Design:用本地Agent替代Figma的开源设计工具

Open Design 是一个用本地 Agent 驱动的开源设计工具。一个月内获得近 60K GitHub Star(20 天达 50k+),全球 30 多国用户,340 名贡献者。它识别本地的 Claude Code、Codex 等 Code Agent 作为设计引擎,生成 HTML 单文件而非

智能体开源/仓库开源生态教程/实践
23:25
宝玉@dotey
48
Hermes Desktop 下个版本支持多语言及中文界面

开发者 @dotey 提交的 PR 已被合并,Hermes Desktop(Hermes Agent Desktop)将在下个版本支持多语言。该 PR 将硬编码文字替换为多语言支持,并把语言选择改为可检索的 Dropdown List,解决语言数量多时无法一屏显示的问题。为测试语言支持,加上了完整繁体中文和日文。翻译借助 Web 版和 AI 辅助,可能存在错误,鼓励用户自行提交 PR 修正。

宝玉: 感谢 @Teknium 合并了 PR,现在 Hermes Agent Desktop 支持中文了,还不够完整,会继续贡献 PR,以及修复一些因此带来的错误。

GitHub产品更新开源/仓库
21:17
IT之家(RSS)
精选70
OpenCV 5 发布:升级全新 DNN 引擎、原生支持大模型

OpenCV 5 正式发布,采用基于图的 DNN 引擎,ONNX 算子覆盖率从 4.x 的不到 23% 提升至超 80%,原生支持 Transformer、视觉语言模型(VLM)和大语言模型(LLM)。其他更新包括:更好的 Python 集成与命名参数、更紧凑核心代码、清晰硬件加速层、原生 FP16/BF16、规范化 0D/1D 张量、扩展 3D 视觉及现代化文档。该库 GitHub 拥有超 86,000 stars,每日安装量超一百万次。

多模态开源/仓库推理部署/工程

推荐理由:OpenCV 5 是一次架构级大更新,DNN 引擎重写、ONNX 覆盖率从 23% 跳到 80%,原生支持大模型推理,做模型部署的该关注了。
19:48
Hugging Face:Blog(RSS)
精选58
Persona Atlas:Hugging Face 上的开源人物思维映射工具

Persona Atlas 是一个运行在 Hugging Face Inference Providers 上的开源项目。它通过工具调用代理执行真实网络搜索,生成公众人物的资料、事实清单和风格假设,然后让该人物回答十个关于身份、伦理等开放式问题。每个回答被转化为嵌入向量,从而在向量空间中对不同人物进行距离比较,并基于十个特质锚点绘制热力图。前端采用 Gradio,提供研究、比较和检查代理完整追溯三个标签页,预设多个人物角色,无需 token 即可直接体验。

智能体Hugging Face开源/仓库

推荐理由:把苏格拉底和乔布斯放在一起比思维方式,这个实验更像智力玩具,但背后用小模型跑 agent 搜索做嵌入比较的流程,做角色扮演的人可以学研究方法。
18:59
The Decoder:AI News(RSS)
68
Audio Interaction:开源语音模型持续监听,每0.4秒决定是否说话或保持沉默

Audio Interaction是一个开源语音模型,持续监听环境,每0.4秒判断是否应该说话或保持沉默。与GPT-4o或Qwen3.5-Omni不同,它无需等待录音结束,可在单个流中同时进行翻译、转录、对话并识别咳嗽等日常噪音。代码和模型权重已在GitHub上以Apache 2.0开源许可发布,训练数据稍后公布。

开源/仓库模型发布语音
18:24
AYi@AYi_AInotes
53
OpenCut:GitHub 5万星开源AI剪辑工具,本地优先、永久免费、无水印无会员

OpenCut 是一个 GitHub 5 万星的开源 AI 剪辑工具,主打本地优先,视频无需上传服务器,永久免费、无水印、无会员墙。目前处于 Early Beta 阶段,网页版支持基础剪辑(导入视频、时间线、切割),但导出、特效、转场等功能仍在开发。路线图包括 Rust 重写核心、Web+桌面+移动统一、插件系统、Editor API 及 MCP Server(让 AI Agent 直接调用工具),目标是成为可编程的视频底座,而非对标剪映的封闭工具。

AYi: http://x.com/i/article/2060717603987791878

GitHubMCP/工具开源/仓库开源生态
12:24
宝玉@dotey
67
《图解Skill》发布,GitHub 开源多个 Skills

宝玉的新书《图解Skill》已出版,配套 GitHub Repo 开源了书中涉及的所有可复制粘贴的 Skills,包括之前未公开的播客文字稿转访谈稿 Skill。读者理论上可以不买书直接使用 Repo 内容。电子书版本同步上线,方便读者复制粘贴。

Leon.ai: @xiaohu @dotey 这类书只想看电子版,毕竟适合复制粘贴

智能体GitHub开源/仓库
12:06
Simon Willison 博客
67
Simon Willison 发布 micropython-wasm:基于 WebAssembly 的 Python 沙箱执行方案

Simon Willison 发布 alpha 包 micropython-wasm,用于在 Python 应用中安全执行代码。该包将 MicroPython 编译为 WebAssembly,通过 wasmtime 库运行,实现内存和 CPU 限制、严格的文件与网络访问控制,并支持主机函数交互。它可作为 Datasette Agent 的沙箱插件 datasette-agent-micropython。

开源/仓库部署/工程
09:11
eric zakariasson@ericzakariasson
42
如果你仓库里没有至少20个这个函数的副本,你就不是tokenmaxxing。

Christoph Nakazawa: You are not tokenmaxxing if you don't have at least 20 copies of this function in your repo.

开源/仓库编码
09:01
Artificial Analysis@ArtificialAnlys
52
Gemma 4 12B 语音转录表现不佳,落后于专有转录模型

Google DeepMind 发布开源权重模型 Gemma 4 12B,支持语音转录,在 AA-WER 基准上得分为 8.8%(排名第 58),远低于专注转录的开源模型 Voxtral Mini Transcribe 2(4B 参数,WER 3.6%)和 Voxtral Small(12B 参数,WER 2.8%)。该模型是 Gemma 4 系列中支持转录的最大型号(另有 E4B、E2B),而 31B 和 26B A4B 仅支持文本、图片和视频输入。Google 同步推出本地听写应用 Eloquent(MacOS/iOS)。模型已在 Hugging Face、Ollama 和 LMStudio 上架。

Google开源/仓库评测/基准语音
08:00
HuggingFace Daily Papers(社区热门论文)
55
MuJoCo-Drones-Gym:面向控制与强化学习的GPU加速多无人机仿真环境

MuJoCo-Drones-Gym是一个开源多无人机仿真环境,兼容Gymnasium接口,基于MuJoCo物理引擎,支持任意数量Bitcraze Crazyflie 2.x四旋翼。模块化API可选刚体/Python动力学/地面效应、桨叶阻力与下洗流等物理模型,动作接口包括电机转速、归一化推力、速度设定点和PID航点。观测空间含运动学状态、RGB/深度/分割相机图像和邻域信息。内置PettingZoo ParallelEnv支持多智能体强化学习,并提供悬停、速度跟踪、多无人机悬停、航点导航、编队飞行、绕杆竞速、通用多智能体模板七个任务环境。利用MuJoCo改进的接触处理、渲染与并行能力,适用于无人机控制算法开发与强化学习训练。

开源/仓库论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
43
基于集合的 Transformer 用于远距离 LWIR 高光谱成像的大气补偿

论文提出一个轻量级基于集合的深度学习框架(Set-Based Transformer),以多个不同远距离辐射测量值为输入,联合估计透射率、大气路径辐射和下行谱。使用稀疏自编码器分析学习到的表示,发现若干潜在特征在测试数据的地理一致子集上激活,尽管训练时未使用位置监督。在 MODTRAN 生成的远距离 LWIR 数据集上,所有估计产品均实现低光谱失真。代码和数据集已公开。

开源/仓库论文/研究
07:59
Rohan Paul@rohanpaul_ai
68
Google 发布 Gemma 4 QAT 检查点,最小模型从 11.4GB 压缩至 1.1GB

Google 发布 Gemma 4 的 QAT(量化感知训练)检查点,将最小模型从 11.4GB 缩小至 1.1GB(纯文本版 0.84GB),便于手机和笔记本运行。常规 PTQ(训练后量化)因模型未学会应对舍入而损伤质量;QAT 在训练中模拟压缩,让模型在权重被挤压时学习,压缩版不易丢失推理能力。Google 还构建了移动端优化格式,包含静态激活、通道量化、定向 2-bit 量化及 KV 缓存优化,减少手机缩放计算并防止长对话过快消耗内存。

Google开源/仓库模型发布端侧
07:51
Hacker News 热门(buzzing.cc 中文翻译)
34
Ask HN:你在使用生成式人工智能时,有哪些让你惊呼"天啊"的时刻?

Hacker News 上一条“Ask HN”帖子向用户征集使用生成式人工智能(GenAI)时令人惊呼“天啊”的震撼时刻,该帖于 6 月 5 日发布,获得 105 个点赞。

开源/仓库现象/趋势
07:21
Hacker News 热门(buzzing.cc 中文翻译)
66
Lowfat--一款可插拔的CLI过滤器,帮我节省了91.8%的LLM token

Lowfat是一款可插拔的命令行界面(CLI)过滤器,可在LLM使用场景中节省约91.8%的模型token消耗。项目已开源并托管在GitHub上。

智能体GitHub开源/仓库
03:19
Perplexity@perplexity_ai
69
Nemotron 3 Ultra 现已面向 Perplexity 和 Computer 上的 Pro 和 Max 订阅用户开放。 这是@nvidia 为长期运行的智能体打造的全新开源模型。
智能体产品更新开源/仓库
关联讨论 9 条X:Kim (@kimmonismus)HuggingFace Daily Papers(社区热门论文)IT之家(RSS)Hugging Face:Blog(RSS)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)LMSYS:Blog(Chatbot Arena 团队)
02:58
elvis@omarsar0
67
不错的小工具! 跑了一下我的 AI Wrapped,本以为会被打击。前 1%。不错! 我整天都用编程智能体做所有事。 试试 `npx standout`

Alexis Aftalion: Are you really tokenmaxxing? We shipped your AI wrapped Everyone's bragging about their token usage having 45 agents run...

智能体开源/仓库编码
01:52
宝玉@dotey
74
感谢 @Teknium 合并了 PR,现在 Hermes Agent Desktop 支持中文了,还不够完整,会继续贡献 PR,以及修复一些因此带来的错误。

宝玉: @Teknium @_HermesAgent PR for localization, please review https://github.com/NousResearch/hermes-agent/pull/38241

智能体开源/仓库
00:59
Google AI Developers@googleaidevs
同事件精选72
谷歌发布 Gemma 4 QAT 检查点,支持消费级 GPU 和移动设备本地运行

谷歌发布 Gemma 4 量化感知训练 (QAT) 检查点,支持在消费级 GPU 和移动设备上本地运行,质量损失极小。新检查点提供 GGUF(Q4_0)格式,覆盖所有尺寸及起草模型,实现最佳本地性能。自定义移动模式采用混合精度方案,将 Gemma 4 压缩至 1GB 以下,包含 2-bit 解码层、优化 KV 缓存和静态激活。通过在训练中模拟压缩(而非训练后量化),大幅降低内存占用并加速解码,同时保持推理质量。

Google开源/仓库模型发布端侧
同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
推荐理由:Gemma 4 的量化版把模型压到 1GB 以下,手机本地跑大模型的门槛又低了一大截。Google 这次没用传统的训练后量化,而是把压缩直接嵌进训练里,效果比 PTQ 好一截,搞端侧部署的可以拿 checkpoint 试起来了。
6月5日
21:15
IT之家(RSS)
69
腾讯混元提出 Stem 稀疏注意力算法,首字延迟降低 3.6 倍

腾讯混元提出 Stem 稀疏注意力算法,已被机器学习顶会 ICML-26 收录。该算法从因果信息流重新审视块级稀疏,引入 Token 位置衰减(TPD)和输出感知度量(OAM),仅用 25% 算力即逼近稠密注意力精度。配套的 HPC 开源 Stem+BSA 算子将稀疏收益转化为实际加速,在 128K 上下文下首字延迟降低 3.6 倍。

开源/仓库推理论文/研究
20:06
Simon Willison 博客
60
Ladybird 浏览器不再接受公开 Pull Request:代码责任归属优先于生成方式

Ladybird 浏览器项目宣布不再接受公开 pull request。维护者 Andreas Kling 指出,过去提交大量补丁意味着付出实质性努力,可作为善意的合理代理,但这一假设已不再成立。代码是手工输入还是由 AI 生成已无关紧要,关键是谁对进入浏览器的代码负责。Ladybird 正成为面向真实用户的浏览器,引入变更的人必须是决定该变更属于项目并承担后果的人。

开源/仓库开源生态
19:27
MarkTechPost(RSS)
62
NVIDIA AI 发布 Dynamo Snapshot:基于 CRIU 的 Kubernetes AI 推理快速启动系统

NVIDIA Dynamo Snapshot 使用 CRIU 和 cuda-checkpoint 工具,在 Kubernetes 上对 vLLM 推理工作节点进行检查点和恢复,实现快速启动。

开源/仓库推理部署/工程
19:20
AYi@AYi_AInotes
27
X创作者收益预测平台将开源

博主@AYi_AInotes研究X平台算法后,称已掌握底层收益算法逻辑,正计划构建X创作者收益预测平台。为打磨预测模型,博主公开征集用户近两周的创作数据,承诺完成后将开源该平台,供创作者分析自身收益数据。

AYi: http://x.com/i/article/2060717603987791878

开源/仓库开源生态
‹ 上一页
1…56789…25
下一页 ›