本文研究开放世界视觉感知,提出“感知深度研究”挑战,即需先借助外部事实、事件或长尾知识解析可见对象身份,再进行像素级定位。为此,作者发布了WebEye基准,包含120张图像、473个对象实例及三个任务视图,并提出了Pixel-Searcher智能搜索工作流。该工作流通过代理搜索解析目标身份并将其绑定至边界框、掩码或答案。实验表明,Pixel-Searcher在开源模型中性能最优,主要失败源于证据获取、身份解析和视觉实例绑定环节。
本文研究开放世界视觉感知,提出“感知深度研究”挑战,即需先借助外部事实、事件或长尾知识解析可见对象身份,再进行像素级定位。为此,作者发布了WebEye基准,包含120张图像、473个对象实例及三个任务视图,并提出了Pixel-Searcher智能搜索工作流。该工作流通过代理搜索解析目标身份并将其绑定至边界框、掩码或答案。实验表明,Pixel-Searcher在开源模型中性能最优,主要失败源于证据获取、身份解析和视觉实例绑定环节。
据报道,苹果 iOS 27 将对相机 App 进行重大升级,支持用户完全自定义界面控件布局。Siri 将重构为全天候智能体,集成于灵动岛,并新增可切换第三方 AI 服务的系统搜索功能。Safari 浏览器将更新起始页设计,天气应用新增集成信息面板。此外,多个系统应用的底部标签栏将调整,主屏幕编辑新增撤销/重做功能。该系统预计于2026年6月9日WWDC正式发布。
本研究探讨在大型语言模型(LLM)代理循环中词法检索器的有效性,引入Pi-Serini搜索代理,配备检索、浏览和阅读工具。通过将优化配置的BM25与前沿LLMs(如gpt-5.5)配对,在BrowseComp-Plus数据集上的实验显示,该方法支持深度研究,实现83.1%答案准确率和94.7%表面证据召回率,优于使用密集检索器的搜索代理。消融实验表明,BM25调优比默认设置提升答案准确率18.0%和表面证据召回率11.1%,增加检索深度比浅层检索进一步提升表面证据召回率25.3%。源代码已公开。
Grok现已支持连接Gmail,用户可通过自然语言指令对收件箱进行智能查询与管理。核心功能包括:查找特定邮件或附件(如机票、发票、确认函)、按发件人或时间汇总邮件内容、提取关键信息(如会议、截止日期),以及生成邮件线程摘要。该集成旨在将传统收件箱转化为可智能交互的信息库,提升邮件处理效率与实用性。
DeepSeek已上线聊天记录搜索功能,目前正处于灰度测试阶段。用户将DeepSeek App更新至2.1.0版本后,可在侧边栏顶部使用“搜索聊天内容”搜索框,输入关键词即可查找并定位到多条相关历史对话。网页版用户也可通过点击左上角的放大镜按钮进行搜索。该功能尚未全量推送,未被覆盖的用户需检查应用是否为最新版本。
一款名为“TikTok for scientific papers”的新工具上线,它借鉴TikTok的短视频信息流模式,专门用于浏览和发现学术论文。用户可以通过快速滑动的交互方式,高效接触多篇论文的核心内容。该平台旨在改变传统线性阅读习惯,提升科研信息获取的效率和广度,目前已在GitHub页面发布并获得了103个Hacker News社区点赞。
科技媒体发现,谷歌正测试将Pixel Screenshots应用从手机拓展至桌面设备。该应用目前仅支持Pixel 9和10系列,利用端侧AI自动整理截图内容,构建可搜索的资料库。代码中出现了桌面版版本号及2026年的更新时间,表明开发已在进行中。预计其将登陆传闻中的谷歌桌面系统Aluminum OS,但目前仅完成底层适配,完整界面与交互尚未就绪。
百度发布其对话机器人Ernie的最新版本5.1。该模型采用“Once-For-All”方法,仅使用前代模型三分之一的参数量,其预训练成本仅为同类模型的6%,实现了94%的成本削减。在Search Arena排行榜上,Ernie 5.1位列全球第四,排名仅次于两个Claude Opus变体和GPT-5.5 Search。
在英特尔AI NAS与雷电解决方案峰会上,威联通展示了基于“Panther Lake”处理器的新款AI NAS产品线。该系列包括高配的八盘位QAI-8300 Pro,搭载酷睿Ultra X7 358H处理器,以及定位较低的六盘位QAI-6300,预计采用酷睿Ultra 5 325。两款产品均配备双10GbE网口、HDMI输出、M.2 NVMe插槽和高速USB接口,并支持PCIe扩展。它们集成了英特尔Helicon Search智能检索技术,旨在为专业创作者和中小企业提供高效的AI私有云解决方案。
阿里巴巴计划深度整合其AI平台“千问”与淘宝,旨在以对话式购物替代传统关键词搜索。整合后,用户可在千问App中通过对话完成浏览、比价和购买全流程,该应用将接入淘宝、天猫超40亿款商品库,并提供物流、售后及个性化推荐服务。淘宝站内也将上线由千问赋能的AI购物助手,提供虚拟试穿、价格追踪等工具。此举凸显了阿里巴巴将AI深度嵌入交易环节的战略,与海外平台如亚马逊、Shopify更为分散或谨慎的AI布局形成对比。
百度发布的ERNIE 5.1模型基于ERNIE 5.0预训练基础,宣称在搜索、推理、知识问答、创意写作和智能体能力方面获得提升,而其预训练成本仅为同类可比模型的约6%。该模型在Arena搜索排行榜以1223分位列第四,ERNIE 5.1 Preview在LMArena Text上取得1476分,全球排名第十三。推文作者指出目前未见技术论文,需验证其宣称的低成本高性能表现,但若属实将意义重大。
ERNIE 5.1 just dropped. Built on ERNIE 5.0's pre-training foundation, our latest foundation model upgrades search, reaso...
Google推出的“Preferred Sources”功能声称旨在提升搜索中的新闻质量,实则将责任转移至几乎无人使用的手动设置选项。这一举措使Google能够以“用户选择”为由应对用户和监管机构,同时继续边缘化开放网络,转而优先推广其自身的人工智能界面。该功能实质上为低质量内容进入搜索结果提供了便利,并未真正解决信息质量管控问题。
2027款宝马i7 M70真车图片曝光,此次改款被官方称为品牌史上规模最大的车型改款。新车前脸和车尾设计更新,内饰则完全重做仪表台,核心变化包括配备17.9英寸中控屏、首次标配14.6英寸副驾触控屏,后排可选31.3英寸触控式Theatre Screen。此外,前风挡下沿新增Panoramic Vision全景投影显示,取代传统仪表盘。i7 M70将于7月在丁戈尔芬工厂投产,预计销售至2030年,后续还将推出M760和ALPINA版本。
ERNIE 5.1 ranked No. 4 globally on @arena's Search Leaderboard, with a score of 1,223. That ranking reflects stronger mu...
百度发布新一代基础大模型文心大模型5.1,并已在千帆模型广场等平台上线。该模型采用“多维弹性预训练”技术,仅以业界同规模模型约6%的预训练成本,实现了基础效果的领先。在国际权威竞技场LMArena的搜索榜上,文心5.1位列国内第一、全球第四。其综合能力显著提升,Agent能力实现超越,创意写作与推理能力已接近或达到业界领先水平。
微软发布 Edge 148 稳定版,核心更新是将工作区迁移至 V2 架构,数据从 OneDrive 转移至 Edge Sync 服务,并移除了协作功能,新建工作区仅本地保存。AI 方面,上线了整合搜索、聊天与个性化内容的 Copilot 新标签页,并更新了侧边栏 Copilot Chat 容器页。此外,密码自动填充功能得到改进,新增对护照、驾照等证件类型的支持。
距离谷歌I/O大会仅11天,公司本周推出了一系列AI产品更新。Google Health应用集成Gemini,利用穿戴设备、健康应用和医疗记录提供个性化健康指导。Gemma 4引入多令牌预测技术,可将工作流速度提升高达3倍。NotebookLM新增自动源文件整理和可定制思维导图功能。Gemini API的文件搜索工具升级,支持多模态、自定义元数据和页面引用,并加入Webhooks推送通知以替代轮询。此外,Nano Banana、Veo和Google Photos Remix等热门AI功能现已登陆Google TV平台。
我们的第一份《GEO红皮书》发布了 去年,和 @vista8 向阳老师一起发布了GEO白皮书,收到不少朋友的正向反馈 大半年过去了,国内GEO行业发展得很快,但乱象也比较多,比如黑帽GEO横行、各种割韭菜、虚假承诺... 很多人,对GEO也...
作者与姚老师继年初发布《GEO白皮书》后,观察到行业在2025年出现严重变质,黑帽GEO手段泛滥、服务商良莠不齐、虚假承诺盛行,甚至被央视315点名。为促使行业回归理性,帮助中小企业有效利用AI进行营销,他们结合前沿学术论文、相关法规及自身实战经验,整理发布了《GEO红皮书》。该书旨在揭露黑帽GEO手法、提供服务商甄别指南,并给出风险自查清单,以协助企业规避陷阱,目前可免费获取。
一家传媒公司因AI搜索平台结果置顶其版权剧集的盗版网盘链接而提起诉讼。平台辩称其仅为搜索服务提供者,未人为干预结果,并在收到通知后及时断开链接。法院审理认为,平台基于大语言模型的搜索引擎无法避免索引公共网页内容,现有证据无法证明其存在人为编辑或推荐行为,主观上无过错。平台已履行算法备案义务,提供顺畅投诉渠道并及时处理,尽到了法定义务。最终,法院驳回原告全部诉讼请求,二审维持原判。判决强调,平台胜诉核心在于尽到义务,若明知盗版仍刻意推荐或拖延处理,则需承担责任。
Ramp Labs在Ramp Sheets的Spreadsheet Agent中深度集成了Fast Ask检索子代理,解决了传统表格Agent因读取范围不当导致的效率低下和成本高昂问题。该子代理能自动导航并读取最相关数据范围,仅返回精炼答案,减少上下文污染与token消耗。其基于开源Qwen3.5-35B-A3B模型,通过与Prime Intellect合作进行RL后训练优化。实际应用中,它消除了主代理17.8%的无效工具调用,延迟接近Claude Haiku 4.5,准确率比Claude Opus 4.6高4个百分点,实现了更快、更准、更经济的系统性能。
http://x.com/i/article/2052422965019439105
现有信息检索评估主要关注语义相关性,忽视了检索结果语言对用户实用性的影响。为解决此问题,研究提出MLAIRE评估协议。该协议通过构建跨语言平行段落对照集合,能够同时测量跨语言语义检索准确率与查询语言偏好度,并引入语言偏好率、Lang-nDCG等指标进行四类分解。对31种检索器的评估显示,标准指标会掩盖不同检索器的行为差异:语义能力强的检索器可能返回非查询语言内容,而语言偏好强的检索器可能牺牲语义相关性。该协议为评估多语言检索系统的真实效用提供了新维度。
针对自回归模型生成多代表词元效率低下的问题,DiffRetriever提出了一种基于扩散语言模型的检索方法。它通过在提示后添加K个掩码位置,并利用扩散模型的双向前向传播一次性生成所有代表词元,从而避免了顺序生成的延迟瓶颈。实验表明,在多类扩散骨干模型上,其多词元版本在领域内及跨领域评估中均显著优于单词元版本,而自回归的多词元方法则效果不佳且延迟随K线性增加。经监督微调后,基于Dream骨干的DiffRetriever在BEIR-7基准上超越了PromptReps、同骨干的编码式基线以及对比微调的RepLLaMA。研究还发现,在冻结基础模型上采用自适应预算选择策略能取得更优效果。
现有基准测试未能充分评估视觉证据在交错搜索轨迹中的作用。为此,研究团队推出InterLV-Search基准,专门评估语言与视觉证据在搜索过程中反复交错使用的智能体能力。该基准包含2,061个示例,涵盖主动视觉证据搜寻、受控离线及开放网络交错多模态搜索三个层级,并首次引入涉及多实体比较的多模态多分支样本。实验表明,当前最先进的多模态智能体在此任务上整体准确率仍低于50%,在视觉证据定位、搜索控制和多模态证据整合方面面临显著挑战。基准数据与评估代码已开源。
和 @vista8 讨论了下,决定将我们的新书《AI营销:从SEO到GEO》里配套的25个AI营销与GEO相关的提示词,也开源到GitHub 另外补充了部分短视频和文案相关的提示词,欢迎下载使用或重新拉取 1、提示词合集地址: https:...
和 @vista8 讨论了下,决定将我们的新书《AI营销:从SEO到GEO》里配套的25个AI营销与GEO相关的提示词,也开源到GitHub 另外补充了部分短视频和文案相关的提示词,欢迎下载使用或重新拉取 1、提示词合集地址: https:...
OpenRouter 向所有支持工具调用的模型开放自主网络搜索与页面内容抓取能力,并允许用户从多个搜索引擎和抓取引擎中自行选择。
同一事件,精选展示《OpenRouter 通过 API 引入网页搜索功能》OpenRouter 推出新功能,允许任何工具调用模型自主进行网页搜索并抓取页面内容,支持多种搜索引擎和抓取引擎供选择。
同一事件,精选展示《OpenRouter 通过 API 引入网页搜索功能》腾讯混元联合多所高校开源了OpenSearch-VL多模态训练方案,旨在通过强化学习解决前沿多模态搜索智能体的高质量训练数据瓶颈。该方案提供了从数据构建、工具集成到训练算法的完整开源框架。其核心是构建了高质量数据管道,通过维基百科路径采样与模糊实体重写等技术,产出高质量数据集,抑制检索捷径,鼓励智能体进行多跳搜索与推理。工具环境集成了文本/图像搜索、OCR及多种图像处理功能。实验结果显示,其模型将基线平均得分从47.8显著提升至61.6。
公众号顶流千万粉丝博主 @Khazix0918 卡兹克把他每天看的优质信息源放出来了: - 无需登录,直接看 - 时间线形式,好查找 - 区分了官方信源、优质博主、推友 - 甚至还有公众号监测和 AI 日报 从此你的 AI 信息源和顶流博主...
本研究提出了一种仅通过监督微调(SFT)训练前沿搜索智能体的高效方法。该方法基于三项关键数据合成改进:扩展知识图谱规模、增加工具集以及进行严格的低步数过滤。仅使用1.06万条数据训练的OpenSeeker-v2,在四个基准测试中均取得了领先性能,全面超越了采用复杂CPT+SFT+RL流程训练的同类模型。这是首个由纯学术团队仅通过SFT实现的、在同等模型规模与范式下的顶尖搜索智能体,其模型权重将开源以促进社区研究。
Google NotebookLM的思维导图功能正进行重大升级,新功能从今天起推出。核心更新包括自定义功能,用户可通过特定提示词引导MindMap的生成方向;组织功能支持立即重命名和分享MindMap,提升管理效率;导航功能优化了节点之间的过渡,实现更丝滑的交互体验。此次升级旨在增强工具的灵活性和用户体验,并邀请用户反馈意见。
本文提出了CoREB,一个旨在避免数据污染、涵盖代码检索与重排序全流程的多任务基准,并发布了微调后的重排序模型CoREB-Reranker。该基准基于五个编程语言的LiveCodeBench问题构建,采用定时发布和分级相关性标注。研究在文本到代码、代码到文本和代码到代码三个任务上评估了11个嵌入模型和5个重排序器。主要发现包括:专用代码嵌入在代码到代码检索上优势显著(约2倍于通用编码器),但无单一模型全胜;接近真实开发者搜索的短关键词查询会使所有模型性能骤降;现有重排序器存在任务不对称性,而CoREB-Reranker首次在所有任务上实现了一致的性能提升。相关数据与模型已开源。