AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 470 条
全部一手资讯X论文
标签「开源/仓库」清除
5月26日周二
11:11IT之家(RSS)52Perplexity 开源内部安全扫描工具 Bumblebee,助力行业应对软件供应链投毒
08:00HuggingFace Daily Papers(社区热门论文)64GradSentry: 用于大语言模型微调中后门样本过滤的梯度谱熵方法
05:36MarkTechPost(RSS)55Together AI开源OSCAR:面向长上下文大语言模型服务的注意力感知2位KV缓存量化系统
5月25日周一
18:48蚂蚁 inclusionAI:HuggingFace 新模型69同事件精选蚂蚁 inclusionAI 发布策略自适应多模态安全护栏模型 Sing-Guard-8b同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》
16:06MarkTechPost(RSS)58WorkOS 发布 auth.md:一种基于 OAuth 标准的开放智能体注册协议
12:28Hacker News 热门(buzzing.cc 中文翻译)70精选感知图像编解码器:实用学习型图像压缩中的关键因素
00:27Hacker News 热门(buzzing.cc 中文翻译)57DeepSeek reasonix,一款具有高缓存效率和低成本的 DeepSeek 本机编码代理
5月24日周日
17:06MarkTechPost(RSS)62微软研究院推出Webwright终端原生浏览器代理框架
03:35MarkTechPost(RSS)69腾讯开源TencentDB Agent Memory:面向AI智能体的四层本地记忆流水线
5月23日周六
16:35MarkTechPost(RSS)72Perplexity 开源 Bumblebee:面向开发者端点的只读供应链扫描器
12:14美团 LongCat:HuggingFace 新模型49美团-LongCat/WBench权重模型
09:57Hacker News 热门(buzzing.cc 中文翻译)70精选Models.dev:一个关于人工智能模型规格、定价和功能的开源数据库
05:57Hacker News 热门(buzzing.cc 中文翻译)63一款开源的看板桌面应用,可在每张卡片上运行并行代理
5月22日周五
10:14HuggingFace Daily Papers(社区热门论文)64TerminalWorld:在真实终端任务上评测智能体
08:00HuggingFace Daily Papers(社区热门论文)40语音识别中面向低资源与口音鲁棒性的凸语言检测
04:30Simon Willison 博客60datasette-agent-charts 0.1a1
04:30Simon Willison 博客46datasette-agent-sprites 0.1a0版本发布
04:30Simon Willison 博客71精选Datasette Agent
00:07美团 LongCat:HuggingFace 新模型73精选LongCat-Video-Avatar-1.5:升级版音频驱动数字人视频生成框架
5月21日周四
05:42MarkTechPost(RSS)65介绍Turbovec:一个基于Google TurboQuant算法的Rust向量索引,支持Python绑定
02:15Simon Willison 博客52每秒10个token到底有多快?
5月20日周三
23:56IT之家(RSS)71精选Stability AI 推出音频模型 Stability Audio 3.0,可生成最长 6 分钟专业级歌曲
20:56IT之家(RSS)27BOSS直聘 2026财年首季净利大幅增长,用户与客户指标持续提升
11:05HuggingFace Daily Papers(社区热门论文)68AutoResearchClaw: 具备自我强化与人机协作的自主研究系统
10:05HuggingFace Daily Papers(社区热门论文)65CEPO:基于对比证据的策略优化方法
09:31Hacker News 热门(buzzing.cc 中文翻译)64Remove-AI-Watermarks - 用于从图像中移除 AI 水印的命令行工具和库
08:10Simon Willison 博客38datasette-llm 0.1a8
08:10Simon Willison 博客58llm-gemini 0.32a0发布
08:10Simon Willison 博客62llm-gemini 0.32
05:59Hacker News 热门(buzzing.cc 中文翻译)77Show HN: Forge - Guardrails 将 8B 模型在代理任务中的准确率从 53% 提升至 99%
05:41Hacker News:AI 热帖89精选Forge:通过防护机制大幅提升8B模型性能的可靠性层
03:03Hugging Face:Blog(RSS)44OlmoEarth v1.1:更高效的地球观测模型家族
00:39Hacker News:AI 热帖70精选InsForge:面向编程智能体的一体化开源后端平台
5月19日周二
23:01Hugging Face:Blog(RSS)60精选引入 Ettin Reranker 系列
5月18日周一
22:52Hugging Face:Blog(RSS)64精选Hugging Face 推出开放 AI 智能体排行榜(Open Agent Leaderboard)
08:00HuggingFace Daily Papers(社区热门论文)46SENSE:基于卫星的能量合成促进可持续环境
07:33Hacker News 热门(buzzing.cc 中文翻译)67Show HN: Semble--一款面向代理的代码搜索工具,其使用的令牌数量比 grep 少 98%
5月17日周日
15:59The Decoder:AI News(RSS)69Oppo 开源 Android AI 代理 X-OmniClaw,无需离开手机即可调用摄像头、屏幕与语音
15:32Hacker News 热门(buzzing.cc 中文翻译)52在8位微控制器上托管网站
09:02Hacker News 热门(buzzing.cc 中文翻译)74精选Zerostack--一款采用纯Rust语言编写、受Unix启发的编程代理
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月26日
11:11
IT之家(RSS)
52
Perplexity 开源内部安全扫描工具 Bumblebee,助力行业应对软件供应链投毒
开源/仓库部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
64
GradSentry: 用于大语言模型微调中后门样本过滤的梯度谱熵方法

GradSentry是一种基于单样本梯度谱熵的后门样本过滤方法,用于防御大语言模型微调中的数据投毒攻击。其核心发现是中毒样本产生的梯度谱熵高于干净样本。该方法通过分析单样本的梯度谱来捕获后门特征,避免了成对比较或聚类,且具有训练无关性,适用于LoRA等参数高效微调及全参数微调。GradSentry在1%到90%的投毒比例下均有效,为7B模型引入的计算开销仅为每样本20-50毫秒。在四个问答数据集和四种攻击类型上的评估验证了其有效性。

安全/对齐开源/仓库数据/训练论文/研究
05:36
MarkTechPost(RSS)
55
Together AI开源OSCAR:面向长上下文大语言模型服务的注意力感知2位KV缓存量化系统

Together AI开源OSCAR,一种用于长上下文大语言模型服务的注意力感知2位KV缓存量化方法。该方法在离线状态下,从注意力感知的协方差结构中为键和值推导出独立的旋转。在2.28 bits per KV element的量化精度下,OSCAR将通义千问(Qwen3-4B-Thinking-2507)和通义千问(Qwen3-8B)的BF16精度差距分别缩小至3.78点和1.42点,同时实现约8倍的KV内存缩减,并在100K上下文长度下带来高达3倍的解码速度提升。

开源/仓库推理部署/工程
5月25日
18:48
蚂蚁 inclusionAI:HuggingFace 新模型
同事件精选69
蚂蚁 inclusionAI 发布策略自适应多模态安全护栏模型 Sing-Guard-8b

SingGuard 是蚂蚁 inclusionAI 推出的策略自适应多模态大语言模型安全护栏模型族(版本 Sing-Guard-8b),支持纯文本、纯图像、图文混合、多语言查询与回复的安全评估。其核心设计将安全策略作为运行时输入,部署团队可基于默认分类或自定义自然语言规则评估内容,无需重新训练模型。模型内置 fast-slow 动态推理流程:首 token 路由快速输出安全信号,需深度推理时继续生成更精确的最终判断。在涵盖多模态安全、纯图像安全、文本查询与回复安全、多语言查询与回复安全的六大基准测试上取得平均 SOTA 性能,并已开源至 HuggingFace 与 ModelScope。

Hugging Face多模态安全/对齐开源/仓库
同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》
推荐理由:蚂蚁集团开源的多模态内容审核模型,最大亮点是运行时动态注入安全策略而不需重训,对需要灵活定制审核规则的团队是低门槛的高分工程实现。
16:06
MarkTechPost(RSS)
58
WorkOS 发布 auth.md:一种基于 OAuth 标准的开放智能体注册协议

WorkOS 推出 auth.md 协议,为 AI 智能体提供标准化注册流程。这是一个部署在应用域名的 Markdown 文件,告知智能体支持哪些注册流程、请求哪些权限范围以及如何获取绑定真实用户的凭证,无需人工填写表单。该协议建立在现有 OAuth 标准之上。

智能体开源/仓库部署/工程
12:28
Hacker News 热门(buzzing.cc 中文翻译)
精选70
感知图像编解码器:实用学习型图像压缩中的关键因素

苹果公司的研究探讨了感知图像编解码器,分析其在实用学习型图像压缩中的关键作用。该研究聚焦于提升压缩效率与视觉质量平衡的实际需求。

开源/仓库论文/研究部署/工程

推荐理由:苹果官方把学习型图像压缩落地时真正重要的几个因素讲透了,附带代码,做视频编码和图像传输的同行值得看。
00:27
Hacker News 热门(buzzing.cc 中文翻译)
57
DeepSeek reasonix,一款具有高缓存效率和低成本的 DeepSeek 本机编码代理

DeepSeek reasonix是DeepSeek推出的本机编码代理,以高缓存效率和低成本为特点,在Hacker News获得102分。

DeepSeek开源/仓库编码
5月24日
17:06
MarkTechPost(RSS)
62
微软研究院推出Webwright终端原生浏览器代理框架

微软研究院近日发布了Webwright,这是一个终端原生的浏览器代理框架。它通过可复用的Playwright脚本取代传统点击追踪的网页自动化方式,基于包含三个模块的单一代理循环构建,代码量约1000行。由GPT-5.4驱动的Webwright在长周期Odysseys基准测试中取得60.1%的得分,较基线模型的33.5%提升近一倍;同时在Online-Mind2Web基准测试中达到86.7%,成为当前开源工具中自动评估得分最高的方案。

智能体Microsoft开源/仓库论文/研究
03:35
MarkTechPost(RSS)
69
腾讯开源TencentDB Agent Memory:面向AI智能体的四层本地记忆流水线

腾讯近期开源了TencentDB Agent Memory,这是一个基于MIT许可证的本地化AI智能体记忆系统。该系统创新地将工具日志处理为符号化的短期记忆,并采用由“会话→原子→场景→人格”构成的四层长期记忆金字塔。它以OpenClaw插件和Hermes Docker镜像形式发布,默认使用本地SQLite与sqlite-vec数据库,并融合了混合BM25与向量检索策略。性能基准测试表明,该系统在WideSearch任务中实现了超过60%的token节约和51%以上的相对通过率提升,同时将人格记忆的准确率从48%显著提高至76%。

智能体开源/仓库部署/工程
5月23日
16:35
MarkTechPost(RSS)
72
Perplexity 开源 Bumblebee:面向开发者端点的只读供应链扫描器

Perplexity 将其内部安全工具 Bumblebee 开源,该工具旨在保护其搜索产品 Comet 和 Computer 背后的开发者系统。Bumblebee 是一个面向 macOS 和 Linux 开发者端点的只读库存收集器,可扫描 npm、PyPI、Go 模块、MCP 配置、编辑器扩展及浏览器扩展,其扫描过程不调用任何包管理器,也不运行任何代码。

开源/仓库
关联讨论 1 条X:Perplexity (@perplexity_ai)
12:14
美团 LongCat:HuggingFace 新模型
49
美团-LongCat/WBench权重模型

美团开源了用于WBench评估框架的预训练模型权重仓库,将这些权重整合至单一仓库,旨在方便社区快速部署WBench评估环境。该权重仅重新分发用于学术研究和评估用途,所有权利归属原作者。用户可参考WBench GitHub获取安装与评估指南,具体模型许可证详见LICENSE_NOTICE.md文件。

Hugging Face开源/仓库数据/训练
09:57
Hacker News 热门(buzzing.cc 中文翻译)
精选70
Models.dev:一个关于人工智能模型规格、定价和功能的开源数据库

近期发布了开源数据库Models.dev,专门收录人工智能模型的各项规格、定价及功能信息。该项目在GitHub公开,便于开发者查询和比较不同AI模型。其在Hacker News社区获得101点关注度,显示出技术社区对这类集中化、透明化的模型信息资源的较大兴趣。

GitHub开源/仓库搜索

推荐理由:做AI产品选型最烦的就是到处翻定价和规格页,这个开源数据库把常用模型的底细都摊开摆明了,实用,建议存为浏览器首页。
05:57
Hacker News 热门(buzzing.cc 中文翻译)
63
一款开源的看板桌面应用,可在每张卡片上运行并行代理

开源看板桌面应用KanBots正式发布,其核心功能是允许用户在每张看板卡片上运行并行代理。该应用旨在通过AI代理自动化任务流程,提升项目管理效率。项目在Hacker News社区获得102个点赞,展现了开发者社区对AI辅助工作流工具的浓厚兴趣。

智能体产品更新开源/仓库
5月22日
10:14
HuggingFace Daily Papers(社区热门论文)
64
TerminalWorld:在真实终端任务上评测智能体

研究团队发布了TerminalWorld,一个可扩展的数据引擎,能自动从大量真实终端录制中逆向工程生成高保真的评估任务。该引擎处理了80,870份录制,产出了涵盖18个类别、1,280个唯一命令的1,530个任务基准。其中包含一个经过人工复核的200个任务子集。测试显示,当前先进的模型与智能体在真实终端工作流上表现欠佳,最高通过率仅为62.5%。该基准衡量的能力与现有专家设计基准的相关性很弱(r=0.20),凸显其独特价值。引擎的自动化设计使其具备真实性与可扩展性,数据与代码已开源。

智能体开源/仓库论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
40
语音识别中面向低资源与口音鲁棒性的凸语言检测

全球语音多样性导致现有语音对话系统在处理方言和口音时易误识别语言,引发下游任务失败。为此,研究提出Convex Language Detection框架,将凸优化技术集成到系统中。该方法基于多GPU ADMM在JAX中高效实现,具有全局最优性保证和快速训练能力,并从理论上证明了其稳定性与鲁棒性。实验表明,在低资源场景下,该框架实现了97-98%的语言检测准确率,展现出高样本效率。相关开源工具包已发布。

开源/仓库论文/研究
04:30
Simon Willison 博客
60
datasette-agent-charts 0.1a1

开源数据可视化插件 datasette-agent-charts 发布了 0.1a1 预览版。该版本主要增强了图表呈现:无颜色列的柱状图与华夫图改用连续色阶按数值大小着色,含文本值的颜色列则采用 observable10 分类配色方案。此外,新增了查询前的 execute-sql 权限检查、交互式图表提示信息,并修复了 waffleY 图表类型未被正确描述的问题。

智能体MCP/工具开源/仓库
04:30
Simon Willison 博客
46
datasette-agent-sprites 0.1a0版本发布

Datasette Agent生态推出了一款新插件datasette-agent-sprites的首个预览版本(0.1a0)。该插件的核心功能是允许Agent在Fly Sprites提供的安全沙盒环境中执行命令,旨在增强数据处理与交互过程中的隔离性与安全性。此次发布标志着沙盒技术在AI Agent工具链中的进一步集成与应用。

智能体开源/仓库部署/工程
04:30
Simon Willison 博客
精选71
Datasette Agent

Datasette Agent是Datasette推出的首个可扩展AI助手,为用户提供对话式界面以查询数据,并支持通过插件生成图表。该工具基于其LLM Python库构建,是LLM与Datasette整合的重要成果。目前提供图表生成、AI图像创建和沙箱代码执行等官方插件。它既可运行于Gemini 3.1 Flash-Lite等云端模型,也支持通过LM Studio连接本地开源模型,具备可靠的工具调用与查询能力。

智能体产品更新开源/仓库数据/训练

推荐理由:Simon 终于把 Datasette 和 LLM 接上了,自然语言查 SQL 数据库有了现成方案,插件生态和本地模型支持让这工具的可玩性极高,做数据分析的值得试试。
00:07
美团 LongCat:HuggingFace 新模型
精选73
LongCat-Video-Avatar-1.5:升级版音频驱动数字人视频生成框架

美团LongCat团队发布了LongCat-Video-Avatar-1.5,一个专注于音频驱动数字人视频生成的开源框架。其核心升级在于采用Whisper-Large音频编码器,显著优化了唇部动态的流畅度与自然度。该版本实现了精准的唇形同步、全身时序稳定性以及长视频中的身份一致性,并能泛化应用于动漫、动物及多人交互等复杂场景。通过基于DMD2的步蒸馏技术,模型仅需8步即可高效推理。团队还构建了一个涵盖多场景、多语言的人工评估基准,通过大规模主观评分与专家分析,验证了其在多项关键维度上的优异性能。

Hugging Face图像生成多模态开源/仓库
关联讨论 1 条IT之家(RSS)
推荐理由:美团把数字人模型升级到1.5版,换了Whisper做音频编码,唇形同步比之前自然不少,而且开源了训练代码,做电商直播和虚拟博主的朋友可以直接拿过来跟商业方案掰手腕。
5月21日
05:42
MarkTechPost(RSS)
65
介绍Turbovec:一个基于Google TurboQuant算法的Rust向量索引,支持Python绑定

Google Research的TurboQuant算法已通过Turbovec项目应用于向量搜索领域。该工具以Rust语言构建,提供Python绑定接口,可直接集成到RAG流水线中。Turbovec实现了16倍的向量压缩率,同时无需进行任何码本训练,显著降低了部署和使用门槛。

Google检索增强开源/仓库部署/工程
02:15
Simon Willison 博客
52
每秒10个token到底有多快?

开发者Mike Veerman创建了一个名为tokenspeed的HTML应用程序,可模拟从每秒5个到800个token的LLM文本输出速度。用户能够直观感知模型广告中常见速度指标(如30 tokens/秒)的实际生成效果。该工具源代码公开,信息来源于Hacker News,适用于需要理解生成式AI响应速度的开发者与普通用户。

开源/仓库推理
5月20日
23:56
IT之家(RSS)
精选71
Stability AI 推出音频模型 Stability Audio 3.0,可生成最长 6 分钟专业级歌曲

Stability AI 推出 Stability Audio 3.0 音频生成模型家族,包含四款不同规格模型,参数从45900万到27亿。小型模型专注设备端运行,可本地生成两分钟以内的音频;中型和大型模型支持创作超过6分20秒的完整音乐,

多模态开源/仓库模型发布

推荐理由:Stability Audio 3.0 把AI音乐从几十秒的demo拉到了六分钟的完整歌曲,而且中小模型直接开源,任何一个能跑模型的设备都能玩,音乐创作的门槛继续被踩低。
20:56
IT之家(RSS)
27
BOSS直聘 2026财年首季净利大幅增长,用户与客户指标持续提升

BOSS直聘发布2026财年第一季度业绩,营收20.69亿元,同比增长7.6%;归母净利润达11.57亿元,同比大幅增长123.24%。经营现金流为11.90亿元,同比增长18.6%。用户与客户规模稳健增长:过去12个月总付费企业客户数达710万,同比增长10.9%;本季度平均月活用户为609万,同比增长5.7%,并在3月突破7200万。公司持续推进AI技术应用,并积极进行股份回购与股东回报。展望第二季度,公司预计总收入将达23.8亿元至24.2亿元。

开源/仓库行业动态
11:05
HuggingFace Daily Papers(社区热门论文)
68
AutoResearchClaw: 具备自我强化与人机协作的自主研究系统

AutoResearchClaw是一种旨在突破现有系统线性流程局限的多智能体自主研究系统。其核心在于五大机制:结构化多智能体辩论用于假设生成与分析;具备自修复能力的执行器可将失败转化为信息;可验证的结果报告防止数据伪造与引用幻觉;提供从全自动到逐步监督的七种人机协作模式;以及能将过往经验转化为未来保障的跨运行进化能力。实验表明,该系统性能显著优于基线模型,且精准、定向的人机协作模式始终优于完全自主或穷举式监督。它被定位为一种增强而非取代人类科研判断力的研究放大器。

智能体arXiv开源/仓库论文/研究
10:05
HuggingFace Daily Papers(社区热门论文)
65
CEPO:基于对比证据的策略优化方法

针对强化学习(RLVR)中对所有生成token给予相同奖励导致的信用分配问题,本文提出对比证据策略优化(CEPO)。该方法通过对比正确与错误答案对每个token的偏好,精准区分关键推理步骤与普通填充token,从而获得更细粒度的奖励信号。CEPO利用训练批次中已有的拒绝样本构建错误答案教师模型,不产生额外采样成本。实验表明,在2B和4B参数规模下,CEPO在多个数学推理基准上分别取得43.43%和60.56%的平均准确率,优于GRPO等基线方法。

开源/仓库推理论文/研究
09:31
Hacker News 热门(buzzing.cc 中文翻译)
64
Remove-AI-Watermarks - 用于从图像中移除 AI 水印的命令行工具和库

GitHub 上出现了开源项目 Remove–AI–Watermarks,提供命令行工具与库两种形式,可自动识别并移除图像中由 AI 生成的隐藏水印。该项目旨在提供便捷的技术方案,以应对 AI 内容标识带来的编辑与再利用限制,目前在开发者社区已获得较高关注。

GitHub图像生成开源/仓库
08:10
Simon Willison 博客
38
datasette-llm 0.1a8

datasette-llm 发布 0.1a8 版本。本次更新主要修复了 llm_prompt_context() 钩子未能完整收集响应链的 bug,该问题对应 GitHub 问题 #7。此次版本发布为用户提供了更稳定和可靠的交互体验。

GitHub开源/仓库
08:10
Simon Willison 博客
58
llm-gemini 0.32a0发布

llm-gemini发布了0.32a0版本。此次更新要求llm版本不低于0.32a0的alpha版,其核心变化是新增了流式处理推理token的功能。

GitHub开源/仓库推理
08:10
Simon Willison 博客
62
llm-gemini 0.32

项目 llm-gemini 发布了 0.32 版本,本次更新主要新增了对谷歌最新发布的模型 gemini-3.5-flash 的支持。发布信息同步提供了关于 Gemini 3.5 Flash 的技术笔记,以及作者使用升级后的插件绘制的图像示例,展示了该模型的实际应用效果。

Google产品更新开源/仓库
05:59
Hacker News 热门(buzzing.cc 中文翻译)
77
Show HN: Forge - Guardrails 将 8B 模型在代理任务中的准确率从 53% 提升至 99%

Forge – Guardrails 是一个开源工具,通过集成防护栏机制,将8B参数AI模型在代理任务中的准确率从53%大幅提升至99%。这一改进显著增强了模型在复杂任务中的可靠性和效率,降低了错误率。该工具于2026年5月19日在Hacker News社区发布,获得100个点赞,代码已托管在GitHub上供开发者使用。

智能体开源/仓库
05:41
Hacker News:AI 热帖
精选89
Forge:通过防护机制大幅提升8B模型性能的可靠性层

Forge 是一个为自托管大语言模型设计的可靠性层,专注于提升工具调用能力。它通过错误解析、重试提示、步骤强制等防护机制以及高效的上下文管理,成功将8B参数模型在复杂多步骤智能体任务中的表现从53%大幅提升至99%。其核心配置(Ministral-3 8B模型)在自建的26项评估中综合得分达86.5%。Forge 提供三种集成方式:作为全托管工作流运行器、多智能体架构的共享调度器,或嵌入自有编排循环的防护中间件,并附带一个可透明接入的OpenAI兼容代理服务器。

智能体开源/仓库

推荐理由:这个小工具用 guardrails 把本地 8B 模型从 53% 拉升到 99% 的稳定度,对玩自托管 Agent 的人来说像是换了条命,值得一试。
03:03
Hugging Face:Blog(RSS)
44
OlmoEarth v1.1:更高效的地球观测模型家族

OlmoEarth v1.1 是新一代地球观测模型家族,将计算成本降低最多 3 倍,同时保持与 v1 相近的性能。通过将 Sentinel‑2 不同分辨率(10m、20m、60m)的 token 合并为单个 token,大幅缩短输入序列长度,从而减少预训练、微调和推理所需算力。提供 Base、Tiny、Nano 三种尺寸,权重与训练代码已开源。该模型已在红树林变化追踪、森林退化成因分类、国家级作物图绘制等任务中得到验证。

Hugging Face开源/仓库数据/训练模型发布
00:39
Hacker News:AI 热帖
精选70
InsForge:面向编程智能体的一体化开源后端平台

InsForge是一个专为AI编码智能体设计的一站式开源后端平台。它通过MCP Server和CLI+Skills两种接口,让智能体能像后端工程师一样直接操作数据库、认证、存储、边缘函数、模型网关等全套后端服务,从而端到端地构建全栈应用。平台支持云托管与基于Docker的自托管,可一键部署至Railway、Zeabur等主流平台。

智能体MCP/工具开源/仓库部署/工程

推荐理由:这个项目把后端全家桶变成 MCP 工具,AI 代理可以直接管理数据库和部署,对于正在折腾 agent 的团队,比东拼西凑要快得多。
5月19日
23:01
Hugging Face:Blog(RSS)
精选60
引入 Ettin Reranker 系列

Hugging Face 发布六个 Ettin Reranker 重排序模型(17m、32m、68m、150m、400m、1b),基于 Ettin ModernBERT 编码器,蒸馏 self-mxbai-rerank-large-v2 分数训练,在 MTEB(eng, v2) Retrieval 达各自规模 SOTA。模型以 Sentence Transformers CrossEncoder 接口提供,三行代码可调用。同时发布 train-sentence-transformers Agent Skill(v5.5.0),允许 AI 编码智能体在用户数据上微调模型。训练配方、数据集和脚本已全部开源。

Hugging Face检索增强开源/仓库搜索

推荐理由:从17M到1B的全尺寸reranker家族,每个量级都是SOTA,而且训练数据和代码全开放,做搜索和RAG的开发者可以无痛替换旧模型。
5月18日
22:52
Hugging Face:Blog(RSS)
精选64
Hugging Face 推出开放 AI 智能体排行榜(Open Agent Leaderboard)

Hugging Face 发布开放 AI 智能体排行榜,用于比较完整智能体系统而非仅底层模型,并同时报告成功率和每次任务成本。排行榜统一了六项已有基准测试(SWE-Bench Verified、BrowseComp+、AppWorld、tau2-Bench Airline & Retail、tau2-Bench Telecom),覆盖代码修复、网络研究、个人任务、客服和技术支持。通过统一协议,各智能体系统以相同接口连接所有基准。结果显示相同模型搭配不同智能体系统会产生显著不同的分数和成本。配套 Exgentic 框架用于运行和复现评估,相关论文开源。

智能体开源/仓库评测/基准

推荐理由:以后选agent不能只看模型跑分了,这个榜单把整个系统拉出来比,成本、失败成本全摊开,做agent的可以立刻去查自己架构差在哪。
08:00
HuggingFace Daily Papers(社区热门论文)
46
SENSE:基于卫星的能量合成促进可持续环境

针对现有城市建筑能耗建模多为预测性、缺乏生成能力且数据稀缺的问题,本文提出了一个名为SENSE的统一生成式框架。该框架能够基于可控扩散模型,联合合成逼真的城市卫星图像以及与之对齐的高质量建筑能耗与高度图。其通过道路网络和城市密度指标进行条件控制,并利用大型视觉模型在潜在空间生成标注信息。在纽约等四个城市的实验表明,SENSE生成的图像视觉保真度高,且符合物理标准。该模型能利用少量标注数据生成合成数据集,显著提升了下游预测任务的性能并降低了误差,为城市可持续规划提供了新方案。

GitHubHugging Face图像生成开源/仓库
07:33
Hacker News 热门(buzzing.cc 中文翻译)
67
Show HN: Semble--一款面向代理的代码搜索工具,其使用的令牌数量比 grep 少 98%

Semble是一款面向AI代理的代码搜索工具,其核心优势在于比传统工具grep节省98%的令牌使用量。该工具已在GitHub开源,并在Hacker News上获得106点热度。这一效率提升旨在降低AI代理处理代码搜索时的计算资源消耗与成本。

智能体GitHub开源/仓库搜索
5月17日
15:59
The Decoder:AI News(RSS)
69
Oppo 开源 Android AI 代理 X-OmniClaw,无需离开手机即可调用摄像头、屏幕与语音

Oppo 的 Multi-X 团队发布了开源 AI 代理 X-OmniClaw,该代理可直接在 Android 设备上运行。它整合摄像头、屏幕和语音输入,在真实应用程序中实时处理任务。系统主要依赖本地传感器执行操作,仅将推理任务交由云端计算。用户的操作路径可被克隆为可复用技能,代理下次能通过深度链接直接跳转到应用深层页面,无需重复操作。

智能体多模态开源/仓库端侧
15:32
Hacker News 热门(buzzing.cc 中文翻译)
52
在8位微控制器上托管网站

一个技术项目成功在8位微控制器上托管了网站,突破了此类设备资源有限、难以运行网络服务的传统限制。该项目在Hacker News上获得102点高分,引发技术社区广泛关注。实现基于代码优化和资源压缩,以适应微控制器的低内存和处理能力,为物联网和嵌入式开发提供了新思路。详细内容可通过maurycyz.com链接访问,展示了实际部署和性能指标。

其他开源/仓库
09:02
Hacker News 热门(buzzing.cc 中文翻译)
精选74
Zerostack--一款采用纯Rust语言编写、受Unix启发的编程代理

Zerostack是一款采用纯Rust语言编写、受Unix哲学启发的编程代理工具,已正式发布1.0.0版本并在Rust包管理平台crates.io上提供。该发布在技术社区Hacker News上获得115点关注,反映出开发者对其的高度兴趣。Rust语言以内存安全和性能见称,Unix设计强调简洁与模块化,Zerostack结合两者优势,旨在提升编程效率,为代码辅助领域带来新选择。

智能体开源/仓库编码

推荐理由:不走 IDE 插件的老路,Zerostack 把编程代理做成命令行管道,Rust 纯血、Unix 哲学,适合喜欢拼接工具的开发者尝鲜。
‹ 上一页
1…34567…12
下一页 ›