AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 2139 条
全部一手资讯X论文
标签「Agent」清除
4月19日周日
06:06Hacker News 热门(buzzing.cc 中文翻译)关于克劳德设计的思考与感受
4月18日周六
17:36The Decoder:AI News(RSS)自我改进型AI初创公司Recursive Superintelligence成立仅四个月即融资5亿美元
13:31Hacker News 热门(buzzing.cc 中文翻译)扫描您的网站,了解其是否已做好迎接人工智能代理的准备
09:43Claude Code:GitHub Releases(RSS)v2.1.114 版本发布
08:00HuggingFace Daily Papers(社区热门论文)GenericAgent:基于上下文信息密度最大化的Token高效自我进化LLM智能体
07:59Simon Willison 博客PyCon US 2026将在长滩举办,新增AI与安全专题
03:43Claude Code:GitHub Releases(RSS)Claude Code v2.1.113 发布
4月17日周五
22:58Hacker News 热门(buzzing.cc 中文翻译)Show HN: SPICE 仿真 示波器 使用 Claude Code 进行验证
21:58Hacker News 热门(buzzing.cc 中文翻译)艾萨克·阿西莫夫:《最后的问题》
21:05Cloudflare BlogAgent Readiness 评分正式发布:你的网站是否已做好 agent 准备?
21:02Cloudflare Blog共享字典:适应代理式网络的压缩技术
21:00Cloudflare Blog会记忆的智能体:Cloudflare 推出 Agent Memory
19:30The Decoder:AI News(RSS)OpenAI 发布面向生命科学研究的推理模型 GPT-Rosalind
18:53HuggingFace Daily Papers(社区热门论文)RadAgent:用于逐步解读胸部CT的工具使用型AI智能体
17:53HuggingFace Daily Papers(社区热门论文)无需检索,只需导航:将企业知识蒸馏为可导航的 Agent 技能用于 QA 和 RAG
17:30The Decoder:AI News(RSS)北京斥 Meta 收购 Manus 为"阴谋"并禁止创始人离境
12:01Simon Willison 博客datasette 1.0a28 发布
11:28Hacker News 热门(buzzing.cc 中文翻译)男子用胶带、旧相机和数控机床打造出由人工智能驱动的硬件"黑客手臂"
10:53HuggingFace Daily Papers(社区热门论文)MM-WebAgent:用于网页生成的分层多模态网页代理
10:53HuggingFace Daily Papers(社区热门论文)UniDoc-RL:基于层次化动作与密集奖励的由粗到细视觉RAG
09:00公众号:智谱(GLM)30不用研究Hermes!AutoClaw开启自进化
08:58Hacker News 热门(buzzing.cc 中文翻译)Android CLI:使用任意代理将 Android 应用的构建速度提升 3 倍
08:00HuggingFace Daily Papers(社区热门论文)Stargazer:天体物理约束下AI智能体模型拟合可扩展基准环境
08:00HuggingFace Daily Papers(社区热门论文)GTA-2:从原子级工具使用到开放式工作流的通用工具智能体基准测试
04:42Claude Code:GitHub Releases(RSS)发布 v2.1.112 版本
04:37Simon Willison 博客llm-anthropic 0.25 版本发布
04:27Hacker News 热门(buzzing.cc 中文翻译)Artifacts:支持 Git 的版本化存储
00:53The Decoder:AI News(RSS)印度每年150万IT毕业生面临一个正在抛弃他们的行业
00:39Hacker News 热门(buzzing.cc 中文翻译)Laravel 筹集了资金,现在会直接在你的代理中插入广告
00:23The Decoder:AI News(RSS)Google 推出原生 Gemini Mac 应用
00:09Hacker News 热门(buzzing.cc 中文翻译)人工智能网络安全并非工作量证明
4月16日周四
23:53The Decoder:AI News(RSS)苹果派遣 Siri 开发者参加 AI 编程训练营
22:39Hacker News 热门(buzzing.cc 中文翻译)Codex 破解了一台三星电视
22:05Cloudflare BlogCloudflare AI 平台:专为智能体设计的推理层
21:01Cloudflare BlogArtifacts:兼容 Git 的版本化存储
21:00Cloudflare BlogAI Search:面向智能体的搜索原语
17:08Hacker News 热门(buzzing.cc 中文翻译)Show HN: Libretto - 让 AI 浏览器自动化操作具有确定性
13:47HuggingFace Daily Papers(社区热门论文)记忆迁移学习:编程智能体中的跨域记忆迁移机制
11:47HuggingFace Daily Papers(社区热门论文)MERRIN:嘈杂网络环境中的多模态证据检索与推理基准
11:46Hermes Desktop:GitHub Releases(RSS)51Hermes 桌面客户端 v0.1.0
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
4月19日
06:06
Hacker News 热门(buzzing.cc 中文翻译)
关于克劳德设计的思考与感受

samhenri.gold 于 2026 年 4 月 18 日发布了一篇关于 Claude Design 的深度思考文章,作者结合个人使用体验,分享了对 Claude 界面设计与交互逻辑的观察与感受,探讨了该 AI 产品在视觉呈现、功能布局及用户体验方面的设计特点。该内容在 Hacker News 上获得 105 点热度关注,引发了关于 AI 产品设计理念的讨论。

智能体Anthropic大佬观点
4月18日
17:36
The Decoder:AI News(RSS)
自我改进型AI初创公司Recursive Superintelligence成立仅四个月即融资5亿美元

成立仅四个月的AI初创公司Recursive Superintelligence完成超5亿美元融资,投后估值达40亿美元。该公司由前Google DeepMind与OpenAI研究人员创立,核心目标是开发具备递归自我改进能力的AI系统。此次巨额融资创下早期AI公司估值纪录,反映出资本市场对下一代自主进化人工智能技术的强烈信心与激进押注。

智能体DeepMindOpenAI行业动态
13:31
Hacker News 热门(buzzing.cc 中文翻译)
扫描您的网站,了解其是否已做好迎接人工智能代理的准备

网站 AI 就绪度扫描工具 isitagentready.com 正式上线,可自动检测并评估站点对人工智能代理(AI agents)的技术准备情况。该工具在 Hacker News 社区获得 101 个赞,帮助开发者快速识别网站在 AI 时代的适配性与潜在优化空间。

智能体开源/仓库
09:43
Claude Code:GitHub Releases(RSS)
v2.1.114 版本发布

v2.1.114 版本发布,修复了权限对话框在 Agent Teams 队友请求工具权限时发生的崩溃问题。此次更新解决了多智能体协作场景中的关键稳定性故障,当团队成员发起工具权限申请时,系统不再出现异常退出,确保了协作流程的顺畅进行。

智能体Anthropic产品更新编码
08:00
HuggingFace Daily Papers(社区热门论文)
GenericAgent:基于上下文信息密度最大化的Token高效自我进化LLM智能体

GenericAgent(GA)提出上下文信息密度最大化原则,解决长程LLM Agent中冗余信息挤占决策空间的瓶颈。系统通过最小原子工具集、分层按需记忆、自我进化机制(将验证轨迹转化为可复用SOP与可执行代码)及上下文截断压缩层,在有限上下文预算内维持关键决策信息。实验表明,GA在任务完成、工具效率及网页浏览等维度持续优于主流Agent系统,显著降低Token与交互消耗,并具备随时间持续进化的能力。

智能体arXiv论文/研究
07:59
Simon Willison 博客
PyCon US 2026将在长滩举办,新增AI与安全专题

PyCon US 2026将于5月13日至19日在加州长滩举办,为2017年来首次回归西海岸。本届大会新增AI与安全专题轨道,AI专题于周五举行,含8场演讲,涵盖AI辅助开发、模型量化部署、浏览器端推理等,由Anthropic的Zac Hatfield-Dodds等联合主持。预计超2000名开发者参会,另设开放空间、闪电演讲和项目冲刺等社区活动。

智能体Anthropic端侧行业动态
03:43
Claude Code:GitHub Releases(RSS)
Claude Code v2.1.113 发布

Claude Code v2.1.113 将CLI改为通过原生二进制文件运行,替代原有JavaScript捆绑包。新增 deniedDomains 设置实现域名精确拦截,并强化Bash工具安全策略,将macOS系统路径列为危险删除目标,修复命令包装器绕过限制的问题。交互方面优化全屏选择、多行输入快捷键及长URL点击体验,改进/loop和/ultrareview命令性能。此外修复30余项Bug,涵盖MCP调用超时、表格渲染、远程控制会话及插件安装冲突等问题。

智能体Anthropic产品更新编码
4月17日
22:58
Hacker News 热门(buzzing.cc 中文翻译)
Show HN: SPICE 仿真 示波器 使用 Claude Code 进行验证

开发者使用 Claude Code 完成了 SPICE 仿真示波器的验证工作,并在 Hacker News Show HN 板块展示。该项目利用 AI 编程助手对电路仿真数据与示波器结果进行比对验证,获得 102 点数关注。这项工作展示了 AI 工具在硬件测试验证领域的应用潜力。

智能体Anthropic开源/仓库编码
21:58
Hacker News 热门(buzzing.cc 中文翻译)
艾萨克·阿西莫夫:《最后的问题》

艾萨克·阿西莫夫经典科幻短篇《最后的问题》的在线阅读版本已发布于 hex.ooo 网站。该链接于 2026 年 4 月 17 日在 Hacker News 平台分享,获得 104 个赞。这部小说被视为阿西莫夫最具代表性的短篇作品之一,现可通过该链接直接访问阅读。

智能体其他
21:05
Cloudflare Blog
Agent Readiness 评分正式发布:你的网站是否已做好 agent 准备?

Cloudflare 推出 Agent Readiness 评分体系,帮助网站所有者量化评估其网站对 AI agent 的支持能力。该体系建立全新技术标准,并基于 Radar 数据监测分析。Cloudflare 通过重构文档站点,将其打造为全网对 agent 最友好的网站,为行业提供了可复现的优化范例,推动网站基础设施向 AI 代理友好型架构升级。

智能体产品更新部署/工程
21:02
Cloudflare Blog
共享字典:适应代理式网络的压缩技术

技术团队预告了共享压缩字典功能的上线计划,这项压缩技术专为适应代理式网络的发展需求而设计,能够显著缩短页面加载时间并提升传输效率。该功能目前处于预览阶段,具体的 beta 测试开放时间即将公布,用户很快就能亲自体验这项新技术。

智能体产品更新部署/工程
21:00
Cloudflare Blog
会记忆的智能体:Cloudflare 推出 Agent Memory

Cloudflare 发布 Agent Memory 托管服务,为 AI 智能体提供持久化记忆能力。该服务支持智能体长期保留关键上下文、自动过滤并遗忘无关信息,同时基于交互历史持续学习优化。开发者无需自建基础设施,即可快速部署具备长期记忆、能随使用时间增长而变聪明的 AI 应用。

智能体产品更新
19:30
The Decoder:AI News(RSS)
OpenAI 发布面向生命科学研究的推理模型 GPT-Rosalind

OpenAI 推出专为生命科学领域打造的推理模型 GPT-Rosalind,旨在加速研究人员从假设到实验的转化流程。该模型目前处于严格管控的访问阶段。作为针对生命科学研究场景优化的 AI 系统,GPT-Rosalind 试图缩短科研周期,帮助科学家更快验证理论假设。

智能体OpenAI推理模型发布
18:53
HuggingFace Daily Papers(社区热门论文)
RadAgent:用于逐步解读胸部CT的工具使用型AI智能体

研究团队推出RadAgent,一款用于胸部CT解读的工具使用型AI智能体。该系统通过逐步推理生成报告,提供可审查的决策轨迹与工具交互记录。相比3D VLM基线CT-Chat,其临床准确性macro-F1提升6.0分(36.4%)、micro-F1提升5.4分(19.6%),对抗鲁棒性提升24.7分(41.9%),并首次实现37.0%的忠实度指标,显著提升了放射学AI的透明度与可靠性。

智能体arXiv多模态论文/研究
17:53
HuggingFace Daily Papers(社区热门论文)
无需检索,只需导航:将企业知识蒸馏为可导航的 Agent 技能用于 QA 和 RAG

Corpus2Skill 通过迭代聚类与分层摘要生成,将企业文档语料库离线蒸馏为树状可导航技能目录,使 LLM 智能体在 serving 时能够全局浏览语料结构、主动深入主题分支并回溯优化检索路径,实现从被动消费证据到主动导航探索的范式转变。在 WixQA 企业客服基准测试中,该系统在所有质量指标上均超越密集检索、RAPTOR 及 agentic RAG 基线。

智能体arXiv检索增强论文/研究
17:30
The Decoder:AI News(RSS)
北京斥 Meta 收购 Manus 为"阴谋"并禁止创始人离境

中国国家安全委员会将 Meta 斥资 20 亿美元收购 AI 初创公司 Manus 的交易定性为"阴谋性"企图,指责其旨在掏空中国技术基础。据《金融时报》报道,该委员会由习近平领导,目前已禁止 Manus 创始人离境。这一罕见定性标志着北京对关键技术外流的国家安全审查显著升级,该笔巨额收购面临重大政治阻碍。

智能体Meta行业动态
12:01
Simon Willison 博客
datasette 1.0a28 发布

datasette 发布 1.0a28 版本,主要修复 1.0a27 引入的兼容性缺陷。更新包括:修复 execute_write_fn() 回调函数参数命名错误导致的异常;database.close() 方法现可关闭写入连接;新增 datasette.close() 方法用于释放所有数据库资源;内置 pytest 插件自动清理测试实例,防止文件描述符耗尽。此次更新多数代码由 Claude Code 配合 Claude Opus 4.7 完成。

智能体Anthropic开源/仓库编码
11:28
Hacker News 热门(buzzing.cc 中文翻译)
男子用胶带、旧相机和数控机床打造出由人工智能驱动的硬件"黑客手臂"

一名开发者利用胶带、旧相机和数控机床,自制了一款名为AutoProber的AI驱动硬件"黑客手臂"。该项目已开源在GitHub(gainsec/autoprober),相关技术展示在Hacker News上获得104个积分关注。这一低成本解决方案通过人工智能控制机械臂,展示了如何利用现成材料构建自动化硬件安全测试工具。

智能体具身智能开源/仓库
10:53
HuggingFace Daily Papers(社区热门论文)
MM-WebAgent:用于网页生成的分层多模态网页代理

MM-WebAgent 是一个面向多模态网页生成的分层代理框架,通过分层规划与迭代自我反思协调 AIGC 元素生成,解决直接集成 AIGC 工具导致的风格不一致与全局连贯性问题。该框架联合优化全局布局、局部多模态内容及其集成,并配套推出多模态网页生成基准与多级评估协议。实验表明,MM-WebAgent 在多模态元素生成与集成方面优于代码生成及代理基线方法。

智能体多模态论文/研究
10:53
HuggingFace Daily Papers(社区热门论文)
UniDoc-RL:基于层次化动作与密集奖励的由粗到细视觉RAG

针对现有视觉RAG系统忽略细粒度视觉语义的问题,本文提出UniDoc-RL统一强化学习框架。该方法将视觉信息获取建模为层次化顺序决策过程,通过从粗粒度文档检索到细粒度图像选择再到主动区域裁剪的渐进式策略,使大型视觉语言模型智能体联合执行检索、重排序与推理。引入密集多奖励方案为每个动作提供任务感知监督,并基于GRPO算法实现端到端训练而无需价值网络。在三个基准测试中,该方法相比现有基于RL的方法性能提升最高达17.7%。

智能体arXiv检索增强论文/研究
09:00
公众号:智谱(GLM)
30
不用研究Hermes!AutoClaw开启自进化

智谱(GLM)AutoClaw项目宣布开启自进化,无需研究Hermes。该进展聚焦于AI模型自主进化能力,具体技术细节尚未披露。

智能体产品更新
08:58
Hacker News 热门(buzzing.cc 中文翻译)
Android CLI:使用任意代理将 Android 应用的构建速度提升 3 倍

Google 正式发布 Android CLI 命令行工具,允许开发者通过任意代理构建 Android 应用,官方数据显示构建速度较传统方式提升 3 倍。该工具为 Android 应用开发提供了更高效的构建方案,支持灵活的代理配置,能够显著缩短开发迭代周期,提升整体开发效率。

智能体Google产品更新编码
08:00
HuggingFace Daily Papers(社区热门论文)
Stargazer:天体物理约束下AI智能体模型拟合可扩展基准环境

研究团队发布Stargazer基准测试环境,用于评估AI智能体在径向速度时间序列数据上的物理模型拟合能力。该环境包含120个任务(含20个真实档案案例),分三个难度等级,涵盖单行星到复杂多行星系统场景。对8个前沿智能体的测试显示,尽管智能体能实现良好的统计拟合,却频繁无法恢复正确的物理参数,且增加测试时计算仅带来边际收益,过度token使用往往反映递归失败循环而非有效探索。

智能体数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
GTA-2:从原子级工具使用到开放式工作流的通用工具智能体基准测试

研究团队发布GTA-2基准测试,用于评估通用工具智能体从原子级操作到开放式工作流的综合能力。该基准包含GTA-Atomic(短期封闭任务)和GTA-Workflow(长期开放任务),采用递归检查点机制分解目标并评估端到端完成度。实验显示,前沿模型在原子任务上成功率不足50%,在工作流任务中仅达14.39%。分析表明,检查点反馈及Manus、OpenClaw等执行框架可显著提升性能,凸显执行架构设计比底层模型能力更为关键。

智能体MCP/工具论文/研究
04:42
Claude Code:GitHub Releases(RSS)
发布 v2.1.112 版本

发布 v2.1.112 版本更新,重点修复自动模式下 claude-opus-4-7 模型提示"temporarily unavailable"的可用性故障。此次补丁解决了该模型在自动模式调用时的服务中断问题,消除错误提示,恢复其正常响应功能,确保用户可稳定使用该 AI 模型进行交互。

智能体Anthropic产品更新编码
04:37
Simon Willison 博客
llm-anthropic 0.25 版本发布

llm-anthropic 插件发布 0.25 版本,新增 Claude Opus 4.7 模型支持,该模型配备 xhigh 级别的 thinking_effort 参数。同时引入 thinking_display 与 thinking_adaptive 布尔选项,其中 thinking_display 的摘要功能目前仅限 JSON 输出或日志格式。此外,默认 max_tokens 已上调至各模型允许的最大值,并移除了旧模型使用的 structured-outputs-2025-11-13 废弃测试头。

智能体Anthropic开源/仓库编码
04:27
Hacker News 热门(buzzing.cc 中文翻译)
Artifacts:支持 Git 的版本化存储

Cloudflare 发布 Artifacts 测试版,这是一个原生兼容 Git 协议的版本化存储服务,专为 AI Agent 设计。开发者可直接使用标准 Git 命令管理代码、配置和模型文件的版本历史,支持分支、合并等完整操作。该服务提供与 Git 完全兼容的接口,无需额外工具适配。项目在 Hacker News 获得 101 个赞,目前处于 Beta 阶段,技术细节已在官方博客公布。

智能体产品更新部署/工程
00:53
The Decoder:AI News(RSS)
印度每年150万IT毕业生面临一个正在抛弃他们的行业

彭博社报告显示,代理式AI正深刻重塑印度IT行业格局。该国每年150万IT毕业生面临教育与市场需求脱节的困境,Infosys等科技巨头不得不投入数周时间重新培训新员工,以弥补高校课程与行业现实之间的差距,反映出传统人才培养模式在技术快速迭代下的失效。

智能体现象/趋势编码
00:39
Hacker News 热门(buzzing.cc 中文翻译)
Laravel 筹集了资金,现在会直接在你的代理中插入广告

Laravel 近期完成融资后,宣布将在用户的 AI 代理中直接插入广告。这一消息在 Hacker News 上获得 104 个赞,引发开发者社区热议。作为流行的 PHP 开发框架,Laravel 此举标志着其商业化策略的转变,通过向开发者的 AI 工作流植入广告探索新的盈利途径,但也引发了关于用户体验的争议。

智能体开源生态行业动态
00:23
The Decoder:AI News(RSS)
Google 推出原生 Gemini Mac 应用

Google 推出原生 Gemini Mac 端应用,这是该 AI 助手首次发布桌面版本,打破了此前仅支持智能手机端的局限。作为 Google 桌面 AI 战略的重要一步,该应用专为 macOS 系统原生开发,与现有移动端应用形成互补。此次发布标志着 Gemini 正式完成从移动平台到桌面平台的关键跨越,用户现可直接在 Mac 设备上获得完整的本地 AI 助手体验。

智能体Google产品更新
00:09
Hacker News 热门(buzzing.cc 中文翻译)
人工智能网络安全并非工作量证明

技术专家antirez(Redis创始人)撰文指出,人工智能网络安全并非工作量证明机制。该观点在技术社区Hacker News获得101个赞。文章辨析了AI安全防护与区块链工作量证明的本质差异,强调将网络安全视为算力竞赛是一种认知误区,真正的AI安全需要持续的策略投入而非简单的资源堆砌。

智能体安全/对齐
4月16日
23:53
The Decoder:AI News(RSS)
苹果派遣 Siri 开发者参加 AI 编程训练营

苹果正派遣不到 200 名 Siri 工程师参加为期数周的 AI 编程训练营,学习使用 Anthropic 的 Claude Code 和 OpenAI 的 Codex 等 AI 编码工具。据 The Information 报道,此次培训旨在帮助开发者掌握最新的 AI 辅助编程技术,以适应快速变化的技术环境并提升开发效率。

智能体Anthropic编码行业动态
22:39
Hacker News 热门(buzzing.cc 中文翻译)
Codex 破解了一台三星电视

OpenAI 编程智能体 Codex 被成功用于破解一台三星电视,通过自动化漏洞挖掘实现了对硬件设备的非授权访问。该技术案例详细记录了 AI 辅助安全研究的全过程,发布于 Calif 技术博客后在 Hacker News 平台获得 101 点热度。事件展示了大型语言模型在消费电子设备渗透测试中的实际应用能力,引发业界对 AI 安全工具监管的关注。

智能体OpenAI教程/实践编码
22:05
Cloudflare Blog
Cloudflare AI 平台:专为智能体设计的推理层

Cloudflare 将 AI Gateway 重构为统一的 AI 推理层,开发者可通过单一接口调用 14 家以上提供商的模型。新版本集成 Workers AI 绑定功能,并扩充了多模态模型目录,专为 AI 智能体优化设计。该平台旨在简化跨服务商的模型调用流程,降低多模型集成的技术门槛。

智能体产品更新部署/工程
21:01
Cloudflare Blog
Artifacts:兼容 Git 的版本化存储

Artifacts 正式发布,这是一款专为智能体(agents)打造的版本化存储服务,完全兼容 Git 协议。该平台支持创建数千万个仓库,允许从任意远程仓库 fork,并可通过 URL 提供给任何 Git 客户端访问。Artifacts 旨在为智能体、开发者和自动化工具提供代码与数据的统一存储空间,实现大规模仓库管理与无缝的 Git 操作集成。

智能体产品更新部署/工程
21:00
Cloudflare Blog
AI Search:面向智能体的搜索原语

AI Search 作为面向智能体的搜索基础组件发布,支持动态创建实例、上传文件,并基于混合检索与相关性增强技术实现跨实例搜索。用户只需完成创建搜索实例、上传文档、执行检索三步操作,即可为 Agents 快速构建高效的知识检索能力,满足智能体对信息查询与知识管理的核心需求。

智能体检索增强产品更新
17:08
Hacker News 热门(buzzing.cc 中文翻译)
Show HN: Libretto - 让 AI 浏览器自动化操作具有确定性

Libretto 是一款开源 AI 浏览器自动化工具,通过技术手段解决传统 AI 自动化中的不确定性问题,使浏览器操作具备确定性和可预测性。该项目已在 GitHub 发布,并在 Hacker News 获得 100 点关注,为开发者提供了更可靠的 AI 驱动浏览器自动化方案。

智能体开源/仓库
13:47
HuggingFace Daily Papers(社区热门论文)
记忆迁移学习:编程智能体中的跨域记忆迁移机制

研究人员提出记忆迁移学习方法,利用跨异构域的统一记忆池突破编程智能体的单域限制。在6个代码基准测试中,跨域记忆平均提升性能3.7%,主要转移元知识(如验证例程)而非任务特定代码。研究表明抽象程度决定可迁移性:高层洞察泛化良好,低层轨迹因过度具体常引发负迁移。迁移效果随记忆池规模扩大而提升,且记忆可在不同模型间转移。该研究为跨域记忆利用确立了经验设计原则。

智能体arXiv编码论文/研究
11:47
HuggingFace Daily Papers(社区热门论文)
MERRIN:嘈杂网络环境中的多模态证据检索与推理基准

研究团队发布MERRIN基准,评估搜索增强智能体在嘈杂网络环境中的多模态证据检索与推理能力。该基准涵盖视频、音频等未充分探索模态,要求智能体在无明确模态提示的查询下检索复杂且常含噪声或冲突的证据。测试显示,10个模型(包括GPT-5.4-mini、Gemini 3/3.1及Qwen3系列)平均准确率仅22.3%,最佳达40.1%。研究发现,强智能体虽表现更优,但因过度探索导致资源消耗高而准确率提升有限,且相比人类存在信源选择低效和过度依赖文本模态的问题。

智能体arXiv检索增强多模态
11:46
Hermes Desktop:GitHub Releases(RSS)
51
Hermes 桌面客户端 v0.1.0

NousResearch 发布了 Hermes Agent 的桌面客户端 v0.1.0,提供一键安装体验。该客户端内置了 Python 3.11 和 Node.js 22 等运行环境,实现零依赖部署。它集成了 hermes-webui 聊天界面,支持会话管理、文件上传与技能编辑。安装向导支持 Anthropic、OpenAI、Google 等 7 种 AI 服务商,并特别优化了 Ollama 本地模型的使用(无需 API Key)。客户端适用于 macOS (Apple Silicon) 和 Windows (x64) 平台,可通过系统托盘后台运行,并会自动安装 hermes CLI 命令。

智能体GitHub产品更新开源生态
‹ 上一页
1…4344454647…50
下一页 ›