AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 253 条
全部一手资讯X论文
标签「搜索」清除
6月5日周五
18:52公众号:百度智能云(文心)48百度伐谋走进北工大实验室:从制氢安全到空间站监测,加速科研探索
08:00HuggingFace Daily Papers(社区热门论文)55Struct-Searcher:结构化智能体工作流推动多模态深度信息搜索
08:00HuggingFace Daily Papers(社区热门论文)54DuMate-DeepResearch:具有递归搜索与准则推理的多智能体可审计深度研究框架
08:00HuggingFace Daily Papers(社区热门论文)61ECI_{sem}:面向困难负样本评估的语义残差有效对比信息方法
08:00HuggingFace Daily Papers(社区热门论文)59RISE:面向智能体搜索的交互空间检索方法
06:54MarkTechPost(RSS)56基于ResearchMath-14k数据集构建语义搜索引擎与开放状态分类器
03:22The Decoder:AI News(RSS)57Cloudflare CEO 称机器人流量已超人类流量,网络未来将是"pay to crawl"
6月4日周四
04:52Ars Technica:AI(RSS)65Google 被要求修改 AI Overviews:用户不想要"大量来源"
03:47The Decoder:AI News(RSS)59Google让网站可选择退出AI搜索结果,但深知多数别无选择
00:15TechCrunch:AI(RSS)31亚马逊将在搜索结果中展示AI生成的产品图片
6月3日周三
23:15TechCrunch:AI(RSS)54英国新规要求谷歌提供工具,允许出版商选择退出 AI 搜索
23:10IT之家(RSS)86精选谷歌:Gemini App 月活超 9 亿同比翻倍,是其增长最快的产品之一
21:34Google Blog:AI(RSS)50Google Search 提升二手和复古购物体验的5种方式
17:16The Verge:AI(RSS)61英国监管机构要求谷歌允许出版商选择退出AI搜索功能
16:09IT之家(RSS)57谷歌:将允许网站所有者自行决定,是否出现在生成式 AI 搜索中
02:09IT之家(RSS)61微软发布 Web IQ:AI 智能体专用搜索 API
00:40HuggingFace Daily Papers(社区热门论文)61Harness-1:面向搜索智能体的强化学习与状态外部化框架
6月2日周二
18:42The Decoder:AI News(RSS)53OpenAI将ChatGPT打造为职业平台:新增职位搜索与简历编辑功能
11:40HuggingFace Daily Papers(社区热门论文)69K-BrowseComp:基于韩语语境的网页浏览智能体基准测试
5月31日周日
23:48TechCrunch:AI(RSS)53理解关于AI迷狂的争论
16:17The Decoder:AI News(RSS)60AI 搜索代理往往只是确认其已知信息,而非真正研究网络
09:49MarkTechPost(RSS)65使用 SkillNet 构建用于搜索、评估、图分析和任务规划的技能增强型 AI 智能体
5月30日周六
17:21IT之家(RSS)34微信鸿蒙版 App 获 8.0.18.34 尝鲜升级
08:00HuggingFace Daily Papers(社区热门论文)43Critic-R:利用自然语言内省反馈改进智能体搜索的检索模型
02:00OpenRouter:Announcements(RSS)77精选OpenRouter融合预算模型性能超越GPT-5.5与Claude Opus 4.7
5月29日周五
22:30HuggingFace Daily Papers(社区热门论文)69Xetrieval: 机制性地解释密集检索
17:21IT之家(RSS)41微信鸿蒙版 App 获 8.0.18.33 尝鲜升级,折叠屏 / 平板分栏显示功能上线
15:43公众号:腾讯元宝41元宝助手正式入驻QQ浏览器,底层模型升级至Hy3 preview
11:29HuggingFace Daily Papers(社区热门论文)50OmniRetrieval:跨异构知识源的统一检索
08:44TechCrunch:AI(RSS)55Glean 收入突破 3 亿美元,AI 预算削减成其主要卖点
08:00HuggingFace Daily Papers(社区热门论文)57搜索智能体遮蔽陈旧观察的机制图与效果边界
5月28日周四
22:12The Verge:AI(RSS)61CNN 起诉 Perplexity '逐字'抄袭文章
21:19IT之家(RSS)55先睹为快:苹果 iOS 27 全新 Siri 界面示意图曝光
20:47Mistral AI:News(网页)77精选发布 Search Toolkit
19:28HuggingFace Daily Papers(社区热门论文)60针对LLM生成代码片段的可扩展高效溯源追踪
17:15IT之家(RSS)61YouTube 将用 AI 改造你的首页:可根据需求生成个性化视频列表
15:15IT之家(RSS)52谷歌 AI 摘要频现低级拼写错误,大语言模型固有缺陷难根治
12:28HuggingFace Daily Papers(社区热门论文)65LiveBrowseComp:搜索智能体是在真正搜索,还是在验证既有知识?
11:28HuggingFace Daily Papers(社区热门论文)73精选VibeSearchBench:面向真实世界中长期主动搜索的评测基准
11:15IT之家(RSS)47小米招聘 Agent 上线官网:提供政策解答、职位智能推荐、招聘进展查询等服务
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月5日
18:52
公众号:百度智能云(文心)
48
百度伐谋走进北工大实验室:从制氢安全到空间站监测,加速科研探索

百度伐谋进入北京工业大学苗扬团队实验室,辅助解决PEM电解槽制氢故障诊断、空间站空气监测和液体表面波可视化等难题。在制氢安全中,模型准确率从92.26%提升至95.04%,探索周期从“周级”缩短至“小时级”;在空间站色谱柱优化中,72小时内生成方案,体积缩小40%、分离效率提升3倍、误差降低8.17%;海外运维场景预计节省70%–80%维修等待时间。伐谋不替科研人员“写答案”,而是围绕目标、变量和评价标准进行大规模搜索试错。

推理搜索行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
55
Struct-Searcher:结构化智能体工作流推动多模态深度信息搜索

现有深度研究智能体多基于证据累积模型线性聚合信息,缺乏处理跨模态矛盾信息的机制。为此提出的Struct-Searcher是一种基于信念修正理论的结构化智能体工作流,在推理过程中显式维护一个不断演化的多模态结构图,实现冲突感知的多模态深度信息检索。实验表明,Struct-Searcher即插即用、模型无关,在BrowseComp-VL上对五种骨干模型的平均相对准确率提升17.2%;同时在MM-BrowseComp、HLE-VL、BrowseComp-VL上分别比次优方法高3.7%、1.5%和0.7%。

智能体多模态搜索论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
DuMate-DeepResearch:具有递归搜索与准则推理的多智能体可审计深度研究框架

DuMate-DeepResearch 基于千帆智能体工厂构建,将负责任务理解、规划与调度的 Agent Core 与可扩展工具生态解耦,使中间决策与工具调用可追溯。框架引入三种机制:基于图的动态规划策略实现研究路线图由粗到细扩展与持续修正;递归两层执行将复杂搜索子任务委托给内层 Search Agent,隔离噪声并稳定长程执行;基于准则的测试时优化动态生成质量标准,作为证据合成与自适应停止的推理支架。在 DeepResearch Bench 和 DeepResearch Bench II 上分别取得 58.03% 和 61.95% 的最高总分,并在信息召回与分析维度排名第一。

智能体推理搜索论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
ECI_{sem}:面向困难负样本评估的语义残差有效对比信息方法

提出ECI_{sem},一种无需训练的语义残差变体,利用冻结目标编码器嵌入对密集检索候选负样本源排序。每个评分需查询、标注正例及显式候选负例。ECI_{sem}从目标一致性、语义局部性、词汇残差性和对数行列式多样性构建加权残差信息矩阵。在MS MARCO上,族内ECI_{sem}将LLM负样本(非混合)和Dense+LLM(混合源)排为最高,与DistilBERT、E5-base、Contriever在BEIR上的最强聚合迁移结果一致。消融实验表明对齐依赖目标编码器族,且在样本量、温度等扰动下稳定。

检索增强搜索论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
59
RISE:面向智能体搜索的交互空间检索方法

RISE 方法提出用 BM25 为智能体搜索构建一个有边界的交互空间,并在索引时处理文档以支持 shell 式导航。在 BrowseComp-Plus 上,RISE 搭配 gpt-5.4-mini 达到 78% 准确率,每查询成本约为纯 shell DCI 基线的四分之一。当语料库扩充至 100 万文档时,RISE-BM25 在 gpt-5.4-mini 上准确率提升至 81%,而 DCI 在 gpt-5.4-nano 上准确率降至 60%,且 33% 的查询因超时失败。

智能体检索增强搜索论文/研究
06:54
MarkTechPost(RSS)
56
基于ResearchMath-14k数据集构建语义搜索引擎与开放状态分类器

该教程展示了面向研究级数学问题的完整NLP流水线:利用ResearchMath-14k数据集,通过TF-IDF提取领域关键词、生成句子嵌入,使用UMAP进行问题景观可视化,并结合K-Means聚类。进一步构建语义搜索引擎,训练分类器预测每个问题的开放状态,并基于相似性发现近似重复问题。

搜索教程/实践数据/训练
03:22
The Decoder:AI News(RSS)
57
Cloudflare CEO 称机器人流量已超人类流量,网络未来将是"pay to crawl"

Cloudflare CEO Matthew Prince 表示,互联网上机器人流量已超过人类流量,这一转折点比他此前预测的 2027 年底提前数年。他将流量激增归因于 AI 智能体,并得出结论:网络的未来将是“pay to crawl”(付费爬取)。

智能体大佬观点搜索
6月4日
04:52
Ars Technica:AI(RSS)
65
Google 被要求修改 AI Overviews:用户不想要"大量来源"

Google 必须修改 AI Overviews,因其声称用户不想要“大量来源”。同时,Google 被要求在 AI 搜索中展示更清晰的链接,并允许英国出版商选择退出。

Google搜索政策/监管
03:47
The Decoder:AI News(RSS)
59
Google让网站可选择退出AI搜索结果,但深知多数别无选择

Google 首次在 Search Console 中为网站运营者提供关闭 AI Overviews 和 AI Mode 等 AI 搜索功能的开关,这两项功能已覆盖超过 35 亿月活用户。新的表现报告将展示次数单独列出。此举由英国竞争与市场管理局(CMA)推动,该机构认为网站运营者在当前局面下处于严重劣势。

Google产品更新搜索
00:15
TechCrunch:AI(RSS)
31
亚马逊将在搜索结果中展示AI生成的产品图片

亚马逊将利用视觉搜索与AI技术,在用户搜索时生成并展示匹配查询的AI产品图片。该零售商表示,此举旨在帮助引导用户找到对应商品。

产品更新图像生成搜索
6月3日
23:15
TechCrunch:AI(RSS)
54
英国新规要求谷歌提供工具,允许出版商选择退出 AI 搜索

英国监管机构要求谷歌提供一项工具,允许网站出版商选择退出生成式AI搜索功能。该选项将先在英国测试,随后在全球范围内推出。

Google搜索政策/监管
23:10
IT之家(RSS)
精选86
谷歌:Gemini App 月活超 9 亿同比翻倍,是其增长最快的产品之一

谷歌母公司 Alphabet 公布投资者演示文稿显示,Gemini App 月活跃用户超 9 亿,一年内翻倍超过一倍。Gemini 已为谷歌 13 款超 10 亿用户产品提供支持,其中 5 款用户量超 30 亿(搜索、Gmail、Android、Chrome、YouTube)。谷歌搜索 AI Overviews 月活跃用户超 25 亿。自 Gemini 3 推出,核心 AI 响应成本降低 30% 以上。谷歌预计本月推出 Gemini 3.5 Pro 模型。

Google搜索行业动态

推荐理由:9亿月活且一年翻倍,AI Overviews月活25亿,这些数字比任何benchmark都更能说明问题。谷歌本月还要推Gemini 3.5 Pro,进度比预期快,做搜索和产品的需要盯紧。
21:34
Google Blog:AI(RSS)
50
Google Search 提升二手和复古购物体验的5种方式

Google Search 和 Google Shopping 中的 AI 工具帮助用户在二手和复古购物中发现好物。

Google多模态搜索教程/实践
17:16
The Verge:AI(RSS)
61
英国监管机构要求谷歌允许出版商选择退出AI搜索功能

英国竞争与市场管理局(CMA)出台新行为规则,要求谷歌允许网站所有者将其内容排除在AI Overviews等AI搜索功能之外,并防止内容被用于“微调”谷歌的AI模型。CMA称这是全球首创,出版商将拥有有效工具阻止其内容用于驱动AI搜索功能,从而在谈判中占据更有利地位。

Google搜索政策/监管
16:09
IT之家(RSS)
57
谷歌:将允许网站所有者自行决定,是否出现在生成式 AI 搜索中

谷歌正在测试一项新功能,允许网站所有者通过Search Console中的退出开关,管理其内容是否出现在谷歌的生成式AI搜索产品(如AI Overviews、AI Mode)中。谷歌称,AI Overviews月活跃用户已超25亿,AI Mode月用户超10亿。该功能不影响网站在常规搜索中的排名。据9To5Google报道,此设置不适用于Gemini应用。

Google产品更新搜索
02:09
IT之家(RSS)
61
微软发布 Web IQ:AI 智能体专用搜索 API

微软推出 Microsoft Web IQ,一套专为 AI 智能体设计的搜索 API。它基于必应经验全新重构,能返回高度浓缩的信息页面,以减少 Token 消耗。该 API 在 Token 效率与响应速度上领先,95% 的请求可在 165 毫秒内响应,速度约为同类产品的 2.5 倍。目前该 API 已被 Copilot 和 OpenAI 的 ChatGPT 使用。

智能体Microsoft产品更新搜索
00:40
HuggingFace Daily Papers(社区热门论文)
61
Harness-1:面向搜索智能体的强化学习与状态外部化框架

Harness-1是一个20B参数的检索子智能体,通过强化学习训练。其核心创新是将状态管理外部化至环境侧的框架中,该框架负责维护包括候选池、重要性标注的精选集、证据链与验证记录等工作记忆,使策略本身专注于搜索语义决策。在八个涵盖网页、金融、专利等领域的检索基准测试中,Harness-1取得了0.730的平均精选召回率,超越了次优的开源搜索子智能体11.4个点,并与规模更大的前沿模型保持竞争力。其代码已开源。

智能体检索增强搜索论文/研究
6月2日
18:42
The Decoder:AI News(RSS)
53
OpenAI将ChatGPT打造为职业平台:新增职位搜索与简历编辑功能

OpenAI为ChatGPT推出新的职业相关功能。该功能可展示来自Indeed、Upwork和Appcast的个性化职位列表,目前仅在美国推出。用户还可以直接在ChatGPT中创建简历,并针对特定职位进行定制。

OpenAI产品更新搜索
11:40
HuggingFace Daily Papers(社区热门论文)
69
K-BrowseComp:基于韩语语境的网页浏览智能体基准测试

K-BrowseComp 是一个针对韩语语境的网页浏览智能体基准,包含400个问题,其中300个为人工构建验证的子集。在此子集上,GPT-5.5、DeepSeek-V4-Pro 和 GLM-5.1 等前沿大语言模型仅达到30.00%–45.67%的准确率,而韩国本土大模型得分仅为0.00%–10.33%。此外构建的100题合成对抗测试集中,最强模型得分仅为26.00%。数据集与代码已公开。

智能体arXiv搜索论文/研究
5月31日
23:48
TechCrunch:AI(RSS)
53
理解关于AI迷狂的争论

在最新一期的“Equity”播客中,节目对科技公司的CEO们是否“尤其容易陷入AI迷狂”这一话题进行了辩论。

搜索现象/趋势
16:17
The Decoder:AI News(RSS)
60
AI 搜索代理往往只是确认其已知信息,而非真正研究网络

哈尔滨工业大学研究人员发现,包括 GPT-5.4 和 Kimi K2.6 在内的领先 AI 搜索代理,在已有的基准测试上并未进行太多真正的网络研究。它们主要利用网络来确认其在训练阶段已学到的知识。研究团队使用名为 LiveBrowseComp 的新基准测试得出了该结论,此测试仅涉及过去 90 天内的事件。当模型无法依赖既有记忆时,其表现显著下降,现有的性能排名也随之改变。

搜索论文/研究评测/基准
09:49
MarkTechPost(RSS)
65
使用 SkillNet 构建用于搜索、评估、图分析和任务规划的技能增强型 AI 智能体

本教程展示如何实现 SkillNet 用例,将其作为一个实用框架,用于发现、安装、检查、评估和组织可重用的 AI 技能,以构建技能增强型 AI 智能体。

智能体MCP/工具搜索教程/实践
5月30日
17:21
IT之家(RSS)
34
微信鸿蒙版 App 获 8.0.18.34 尝鲜升级

微信鸿蒙版 App 在华为应用市场推出 8.0.18.34 版本尝鲜升级,测试期为 2026/5/30 至 2026/6/29。该应用安装量已超 5000 万次。本次更新主要包括:将“歌曲制作”变更为“音乐回声”,并引入 AI 翻唱模型;聊天界面图片/视频支持横屏自动旋转;新增 AI 搜索功能(部分场景可用);以及视频号、通讯录、设置等多处界面与功能优化。

产品更新搜索语音
08:00
HuggingFace Daily Papers(社区热门论文)
43
Critic-R:利用自然语言内省反馈改进智能体搜索的检索模型

Critic-R 框架在推理和训练阶段显式连接推理智能体与检索模型的反馈循环。它引入批评模型评估智能体的内省推理轨迹,判断上下文是否充分支持下一步推理。框架包含两种机制:Critic-R-Zero 在推理时迭代重写查询与检索指令;Critic-Embed 利用成功与失败的细化轨迹自动监督检索模型训练,无需人工标注。在 HotpotQA、2WikiMultihopQA、MuSiQue 和 Bamboogle 上的实验表明,Critic-R 显著提升了检索质量和答案准确率。

智能体检索增强搜索论文/研究
02:00
OpenRouter:Announcements(RSS)
精选77
OpenRouter融合预算模型性能超越GPT-5.5与Claude Opus 4.7

一组预算模型通过OpenRouter平台进行模型融合,在包含100个复杂研究任务的评估中,得分超过了GPT-5.5与Claude Opus 4.7。

智能体产品更新推理搜索
关联讨论 1 条OpenRouter:Announcements(RSS)
推荐理由:OpenRouter 的 Fusion 功能把模型融合做成了 API 调用,实测用便宜模型组合就能逼近 Fable 5 的性能,成本却只有一半,这对做复杂推理和深度研究的开发者来说是个很实用的新工具。
5月29日
22:30
HuggingFace Daily Papers(社区热门论文)
69
Xetrieval: 机制性地解释密集检索

Xetrieval是一种用于解释密集检索行为的嵌入级别的机制性框架。它首先引入轻量级推理内化器,通过单次前向传播在嵌入空间近似链式推理,以增强句子嵌入的推理信息。随后,框架将这些推理增强的嵌入分解为稀疏的、人类可解释的特征,并为每个特征赋予自然语言描述。通过聚合多个文档侧视图的稀疏特征重叠,Xetrieval能够为单个检索决策提供特征级别的解释。实验表明,该方法在不同检索器和基准上能发现连贯的可解释特征,并支持任务级的特征引导。

开源生态搜索论文/研究
17:21
IT之家(RSS)
41
微信鸿蒙版 App 获 8.0.18.33 尝鲜升级,折叠屏 / 平板分栏显示功能上线
产品更新搜索端侧
15:43
公众号:腾讯元宝
41
元宝助手正式入驻QQ浏览器,底层模型升级至Hy3 preview

元宝助手正式入驻QQ浏览器,搜索栏、划词等AI入口全面升级为元宝助手,底层模型同步升级至Hy3 preview。新功能包括搜索栏唤起提问、跨标签读取多个网页与文件、拍照搜题分步解析、长网页一键转音频,以及写作、改文章、出图等。元宝助手已同步嵌入微信、腾讯会议、QQ音乐等腾讯系应用,Mac版本已更新,其他版本逐步放量。

产品更新多模态搜索
11:29
HuggingFace Daily Papers(社区热门论文)
50
OmniRetrieval:跨异构知识源的统一检索

现实世界的信息需求需要访问结构多样的知识源,但现有检索器一次只能处理单一类型源。OmniRetrieval 框架能接收自然语言查询,识别合适知识源,并向各源的本地执行引擎发送原生查询。在涵盖文本、关系型和图结构知识源的13个数据集与309个知识库的广泛基准测试中,OmniRetrieval 的性能超越了单源基线,证明其可以作为异构知识源的通用接口,同时保留了每个源独特的结构优势。

arXiv搜索论文/研究
08:44
TechCrunch:AI(RSS)
55
Glean 收入突破 3 亿美元,AI 预算削减成其主要卖点

企业AI搜索初创公司Glean的年收入增长至3亿美元,即使在科技巨头进入该领域的情况下,其收入仍实现三倍增长。同时,帮助企业削减AI成本已成为其核心卖点。

搜索行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
57
搜索智能体遮蔽陈旧观察的机制图与效果边界

该研究系统评估了观察遮蔽策略在不同规模(4B至284B参数)模型骨干与三种检索器上的效果。发现其准确率增益相对于模型无管理时的准确率呈非对称倒U型曲线:弱检索器下效果平缓,强检索器与中等容量模型结合时达到峰值,模型能力饱和后性能急剧下降。其机制源于检索器召回率与模型隐式过滤能力的交互。遮蔽本质上是一种用轮次换token的权衡,它移除了模型已基本忽略的观察;当新增轮次能将失败转化为成功时有益,但当移除模型本会使用的证据时则会失效。

智能体搜索论文/研究
5月28日
22:12
The Verge:AI(RSS)
61
CNN 起诉 Perplexity '逐字'抄袭文章

CNN 在纽约法院起诉 AI 搜索引擎 Perplexity,指控其工具“逐字”复制了 CNN 的文章内容。诉讼称,Perplexity 无视 CNN 试图阻止其爬虫抓取的努力,不仅未经授权使用内容,还为用户提供本应订阅才能访问的信息。CNN 主张这些内容由人类记者采写编辑,而 Perplexity 未获许可或补偿便加以使用。

搜索行业动态
21:19
IT之家(RSS)
55
先睹为快:苹果 iOS 27 全新 Siri 界面示意图曝光
产品更新多模态搜索端侧
20:47
Mistral AI:News(网页)
精选77
发布 Search Toolkit

Mistral AI 发布了 Search Toolkit 的公共预览版。这是一个用于构建 AI 应用生产级搜索管道的可组合框架。该框架旨在解决团队在搭建搜索基础设施时,因数据摄取、检索和评估工具分散而耗费过多工程时间的问题。Search Toolkit 将这三者整合到单一框架与共享接口中,使团队能更专注于提升搜索质量。该工具开源,可部署在云端、本地或边缘环境,并支持企业搜索、RAG 等多种检索场景。

MCP/工具检索增强产品更新搜索

推荐理由:做 RAG 的团队都该看一眼,它把 ingestion、retrieval、evaluation 揉进一个开源框架,省下的大把集成时间够你调几次检索策略了。
19:28
HuggingFace Daily Papers(社区热门论文)
60
针对LLM生成代码片段的可扩展高效溯源追踪

针对大语言模型生成代码可能无意识复制训练数据并引发版权问题,研究提出了SOURCETRACKER编码器及混合溯源流水线HYBRIDSOURCETRACKER。该系统在THESTACKV2数据集子集上训练与评估,在包含改编片段的10万片段搜索空间中,对于60-token及以上的窗口,其性能稳定超越传统Winnowing算法达5.4%,并保持对数时间查询复杂度。基于LLM的评估显示,许多检索到的片段仍与预期源代码高度相似,具有实用价值。

arXiv搜索编码论文/研究
17:15
IT之家(RSS)
61
YouTube 将用 AI 改造你的首页:可根据需求生成个性化视频列表
Google产品更新搜索
15:15
IT之家(RSS)
52
谷歌 AI 摘要频现低级拼写错误,大语言模型固有缺陷难根治

谷歌AI摘要(AI Overview)频繁出现基础拼写错误,如将“Google”字母数答错、拼错常见单词。谷歌称大语言模型在单词字母计数上存在难题。研究人员解释,因模型基于Transformer架构,将文本拆分为词元(token)处理而非逐字母识别,此属固有缺陷,难以彻底根治。这类错误提醒用户需核实AI生成内容的准确性。

Google搜索现象/趋势
12:28
HuggingFace Daily Papers(社区热门论文)
65
LiveBrowseComp:搜索智能体是在真正搜索,还是在验证既有知识?

研究揭示基于LLM的搜索智能体存在“内在知识依赖”:在BrowseComp基准测试中,智能体在无需工具时仍能回答高达44.5%的问题,超过半数的搜索查询源于模型内部假设而非检索线索,移除支撑证据时其表现甚至差于闭卷基准。这表明静态基准可能奖励的是基于记忆的验证。为此,研究引入深度搜索基准LiveBrowseComp,包含335个依赖于基准构建前90天内发布事实的人工问题。在LiveBrowseComp上,所有智能体的闭卷准确率低于2%,搜索增强得分显著下降,且先前模型排名不再可靠。

智能体arXivHugging Face搜索
11:28
HuggingFace Daily Papers(社区热门论文)
精选73
VibeSearchBench:面向真实世界中长期主动搜索的评测基准

基于LLM的智能体在现有搜索基准上表现优异,但真实用户体验不佳,这源于现有基准依赖于高度明确的查询、单轮交互和固定格式评估,无法反映用户与智能体通过多轮对话协同澄清模糊意图的真实搜索行为。为此,研究提出了“VibeSearch”范式并发布了VibeSearchBench,该基准包含200个手工策划的双语任务,覆盖20个领域,分为专业与日常生活两个子集。评估通过用户模拟器和图匹配框架进行。对七个前沿模型的测试显示,所有模型在VibeSearch任务上表现均不充分(最佳F1分数为30.30),凸显了在长期上下文推理、主动意图激发等方面取得根本进展的必要性。

arXiv推理搜索论文/研究

推荐理由:所有前沿模型在长程主动搜索上都翻车了,最高F1才30,说明现在AI离真正理解你的模糊需求还有距离,做搜索的同学该重新想想架构了。
11:15
IT之家(RSS)
47
小米招聘 Agent 上线官网:提供政策解答、职位智能推荐、招聘进展查询等服务

小米招聘Agent正式上线官网,依托Xiaomi MiMo大模型为求职者提供政策解答、职位智能推荐、招聘进展查询等服务。

智能体产品更新搜索
‹ 上一页
1234567
下一页 ›