Introducing a more powerful NotebookLM 🚀 Massive upgrades deliver agentic capabilities in chat, more advanced reasoning...
Introducing a more powerful NotebookLM 🚀 Massive upgrades deliver agentic capabilities in chat, more advanced reasoning...
宝玉 (@dotey) 对比各模型 Deep Research 表现:ChatGPT 的 DeepResearch 最好,Gemini 搜索能力强、表现也不错,Claude 做得很差。引用推文补充:在写代码、工程工作及需联网搜索数据并分析得出结论的任务上,Claude 的“5.5”版本远超 Opus,Opus 搜索能力几乎不可用。
@dotey 但是写代码,工程工作,以及所有需要上网搜索数据计算得出分析结论的事项,5.5 比 opus 强很多,opus基本不可用,它的搜索能力几乎等于没发用
Jina AI 提供免费 Reader 服务,在网址前加上 https://r.jina.ai/ 即可让 Claude 等 AI 模型抓取并读取被限制的网页。原理是请求从 Jina 国外服务器发出,绕过 IP 限制,并将网页清洗为干净的 Markdown 文本(去除广告、导航、代码),省 token 效果好。局限性:无法绕过强力 Cloudflare 验证、登录墙/付费墙,对重度依赖 JavaScript 的现代网站效果打折。
Claude 教会了我,打不开的网站可以用 http://r.jina.ai 突破限制(
http://x.com/i/article/2062762354149146624
BestBlogs 发布第一期订阅源分享,整理并接入了 375 个仍在更新的微信公众号 RSS 源,覆盖人工智能(71 个)、投资财经(63 个)、商业科技(57 个)、软件编程(50 个)等方向。所有来源已整理成 OPML 文件,可在 GitHub 下载并导入 RSS 阅读器。后续还将分享 X/Twitter 高质量账号、播客与 YouTube 频道等。BestBlogs 的核心思路是让用户先选择长期关注的来源,再由 AI 帮助筛选和排序。
Harness-1 将大语言模型的记忆工作转移到外部辅助系统(harness),解决传统搜索智能体需在同一上下文窗口内处理语义决策与状态记录导致的效率低下问题。模型仅负责搜索、验证等关键语义选择,而可恢复状态(候选池、证据链接、去重记录、预算感知记忆等)由 harness 追踪。这一分离使一个 20B 参数模型实现了更好的搜索表现。在强化学习中,外部化状态避免了失败原因混淆,有助于策略学习。Harness-1 在未见 benchmark 上提升更大,表明模型学到了可复用的搜索策略而非记忆领域习惯。论文 arXiv:2606.02373。
Firecrawl在两年内已抓取80亿+网页,拥有125万+开发者、15万+公司客户,GitHub星标125K+(全球前100仓库),npm和PyPI周下载量超250万。主推文指出,这一数据表明AI竞争正从模型参数转向“将互联网转化为可供AI直接消费的上下文”——Firecrawl通过API提供干净、结构化、可规模化的实时网页数据,填平了智能体获取最新内容的瓶颈,成为AI时代的基础设施层。
We've now fetched 8,000,000,000+ pages at Firecrawl 🔥 A few other milestones in 2 short years: - 1.25M+ developers - 15...
Cloudflare Radar 实时统计显示,过去一周(5月28日至6月4日)全球所有 HTML 网页请求流量中,57.5% 来自机器人(爬虫、AI 抓取、自动化脚本),仅42.5%来自真人浏览器,机器人流量首次超过人类。按所有 HTTP 流量返回内容分类,JSON(API 机器通信)占33.1%居首,HTML 仅12%。互联网流量主体已从人类浏览网页转向机器间通信和机器人抓取。
关联讨论 2 条X:SemiAnalysis (@SemiAnalysis_)IT之家(RSS)to be underestimated is to be free
Codex now has more than 5M weekly active users. But the bigger story is what people are using it for: not just writing c...
开源项目 BigSet 允许用户用自然语言描述数据需求,从实时网络中构建并定期刷新结构化数据集。研发团队负责人邵猛在实际工作中使用它,自动生成了一份 B2B SaaS 产品清单,内容涵盖产品分类、免费方案说明及官方定价页面链接,省去了逐一查找官网的繁琐工作。该项目已在 GitHub 上开源。
What if you and your agent had all the data that always stays fresh? Structured, on demand, never stale. Introducing Big...
What if you and your agent had all the data that always stays fresh? Structured, on demand, never stale. Introducing Big...
该论文评估了商业AI聊天机器人作为新闻中介的能力。研究发现,当以多选题形式提问时,最佳系统对数小时前新闻的准确率已超过90%,这表明检索增强生成技术正从静态知识库迈向实时信息处理。然而,这种高准确性并不稳定。当要求系统自由生成回答、新闻为印地语,或用户提问包含错误预设时,其表现显著下降。超过70%的错误源于检索失败或来源偏差,即系统检索到了近似但不精确的信息,随后基于错误的来源、语言或时间戳生成了回答。论文标题为《Evaluating Commercial AI Chatbots as News Intermediaries》(arxiv.org/abs/2605.22785)。
首期GEO公开课于上周末直播,由姚老师主讲,吸引了飞书和视频号数千人在线参与。课后已将直播PPT、免费开源的GEOflow系统及全部提示词等干货资源在评论区开放分享。
用户指出,Claude在普通聊天中(特别是技术搜索)表现较懒散,但通过Claude Code编程智能体,却能精准获取所需论文图表并完成任务。相比之下,GPT 5.5和OpenAI近期模型表现得极为彻底和坚持不懈,而Codex harness(编程工具框架)对模型的改造相对更轻量。核心对比在于不同模型与不同工具框架结合后,在搜索与研究任务上的表现差异。
法国创业者Arnaud Bertrand通过分析X在GitHub公开的最新算法代码,揭示创作者触达率暴跌的核心原因。其一是2026年4月上线的自动翻译功能,使同一话题下的内容竞争者数量级激增。其二是新版算法采用两阶段排序:先基于话题语义从数十亿帖子中筛选约1,500条候选帖,再由Grok模型依据15个预测行为打分,其中粉丝量与账号历史权重被大幅削弱。5月15日更新进一步引入一次性曝光过滤、作者多样性评分等机制。结论是算法结构性偏爱带媒体、情绪化、强话题性的内容,每条内容需独立竞争,话题选择比账号积累更重要。
X平台近期算法更新导致众多用户(包括大V)帖子触达量显著下降。核心原因在于平台推出自动翻译功能,使内容竞争从单一语言圈扩大至全球范围,竞争池倍增。同时,粉丝数的流量分配作用被大幅削弱,每条帖子都需通过预测互动率单独争取读者。算法分两步工作:先从全平台约1500个候选帖中检索,再由基于Grok的模型通过预测约15种用户互动行为(如喜欢、回复、停留、屏蔽等)的概率来排序打分。最关键的逻辑是,算法打分完全基于预测的互动可能性,不考量内容质量、作者专业性或资历。因此,长文流量下滑是多重机制叠加的结果。
So I spent some time studying the new Twitter/X algorithm today since the latest version was published about a week ago ...
今晚八点,会通过WaytoAGI做第一场GEO直播分享,会把GEO的底层逻辑、方法、系统原理及理念做一轮讲解,相关的一些资料和系统如下,分享给大家: 1、GEOFlow,今晚主讲的系统和背后的GEO原理 https://github.com...
本文记录了与Google搜索产品副总裁Robby Stein在Google I/O的访谈,核心探讨Google Search向“AI原生”模式的重大转变。讨论话题包括AI Mode是进化还是重塑、如何将复杂问题拆解为多轮搜索、AI搜索的高运行成本、Google TPU及基础设施的优势、AI时代搜索量不减反增的原因,以及优质AI回答与出版商流量之间的张力。访谈还涉及Google决定展示哪些信息源与链接的逻辑,并围绕一个核心问题展开:如果Google直接给出答案,传统的基于链接的网页生态将走向何方?
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》文章的核心论点是 Google 凭借其分发优势,在 AI 分发竞赛中占据了有利位置。目前 Gemini 拥有 9 亿用户,这主要归功于向 Android 用户进行的默认应用替换,以及向 Google 搜索用户推送的 AI 概览。其大语言模型 token 用量在 12 个月内从 480 万亿增长至 3.2 千万亿。为支撑此规模,Google 计划今年投入 1900 亿美元用于基础设施。Google 的关键优势在于能够利用庞大的 Android 设备基础,通过其搜索和 AI 模式免费向用户推广 Gemini。这一策略的部分成本优势源于自研的 TPU 芯片,使其在推理和训练上更独立,并能基于自身盈利补贴免费 AI 服务。尽管游戏远未结束,但 Google 的开局位置非常出色。
分享AI自媒体从0到4万粉的实战经验。核心在于精准筛选内容信号:建议设置X平台阈值为转发≥500或点赞≥2000,聚焦Claude/GPT/Cursor/Agent/MCP等关键词,定位“已验证未饱和”的黄金区间(100-500转发)。强调避开泛流量陷阱与低质AI洗稿,需结合作者权重判断。同时提供一套经多轮迭代的实用提示词模板,用于自动化信息搜集,直接可部署使用。
http://x.com/i/article/2058381329318682624
介绍了一个由HuggingFace开源团队成员开发的网站PapersWithCode,该网站能实时收录最新的AI论文和GitHub代码库。它提供了优秀的导航功能,支持按领域浏览论文,并能直接展示模型的benchmark数据和HuggingFace页面,为AI从业者提供了高效的一站式信息聚合服务。
开源GEO系统GEOFlow 2.0发布,一个月内GitHub星标超1.6k。此次关键版本升级,使其从内容生产工具演进为“GEO内容工程基础设施”。核心变化包括基于Laravel重构,实现多站点与多Agent管理;强化AI知识库与向量化检索;新增统一的数据分析页面,构建运营闭环。系统旨在帮助用户持续建设“可信内容资产”,并秉承“利他就是利己”的开源理念。
经过一个月的持续迭代,第一套GEO系统"GEOFlow 2.0"正式上线,GitHub地址见文末 一个月前,GEOFlow 1.0 上线,到现在,刚好过去一个月,Star数已经超过1.6k,这一个月来,收到了不少朋友的反馈和落地实践案例 这...
一次性开源17套GEO Skill 把这一年来对GEO的研究、学习、实践与思考,大都融合了进去 欢迎下载使用 这套Skill的一些说明: 1、其中14套Skill,覆盖了目前大部分的GEO相关场景,另外3套Skill,与GEOFlow这个系...
Exa raised $250M at a $2.2B valuation, led by a16z, to continue organizing the web for agents: - Exa now serves search t...
We're bringing generative UI to everyone, free of charge, thanks to Google @Antigravity and the agentic coding capabilit...
本文推荐了一套针对独立站的便捷SEO优化方案。核心是名为“seo-audit”的AI技能,可安装在Codex或Claude Code等编程助手环境中,自动抓取网站并生成初步诊断报告,高效识别Sitemap、301重定向、noindex与canonical标签等常见配置问题。此外,文章还推荐了两项关键辅助工具:使用PageSpeed Insights测试并提升移动端访问速度(建议90分以上),以及利用在线工具检测网站中的404错误与死链。这套组合方案为独立站运营者提供了从技术审计到体验优化的实用入口。
如果你的网站SEO收录不好,可安装这个Skill:seo-audit 让 AI 抓取网站做一个初步分析,能发现不少基础问题。 安装指令:npx skills add https://github.com/coreyhaines31/mark...
本周,公司尝试了包括Devin、Mistral、Grok、Perplexity在内的多种AI工具,大多数因价值有限将被快速淘汰。但Perplexity AI的企业Slack集成表现惊人,优于Claude,能直接在Slack中发送图像并返回详细研究报告与可视化内容。目前,公司96%的token预算仍流向Anthropic(Claude提供商),但基于使用模式,部分预算可能转向Perplexity。作者希望Claude的Slack集成也能添加类似功能,以提升效率。
研究指出,在编码智能体需精确定位证据(如符号、函数名、错误信息)的任务中,基于grep的精确字符串搜索比向量检索更具优势。关键在于,检索性能高度依赖智能体的设计框架——结果呈现方式(内联、文件或CLI)会极大影响搜索效果。论文挑战了“智能体栈必须始于嵌入”的默认假设,强调应区分任务类型:是语义发现问题,还是证据定位问题。对于后者,为模型提供原始工具、清晰上下文和精确搜索的框架,往往比构建复杂索引更有效。向量数据库在模糊语义搜索和大规模场景中仍有价值。