介绍如何使用基于 Qwen3、参数规模为 4B 的交叉编码器重排器 Zerank-2 Reranker 构建检索-重排流水线。该流水线先通过快速双编码器检索候选文档,再由 Zerank-2 进行重排以提升检索精度。
Anthropic披露三种Claude隔离架构,发现93%权限弹窗被无脑通过,因此转向容器化隔离以限制智能体能力边界。阿里通义AgentScope 2.0升级至生产级,涵盖模型重试容错、三级权限判断系统和结构化上下文管理,其Workspace抽象支持多执行环境无缝切换。腾讯云提出上下文卸载方案,配合Mermaid图谱,将超长Session的Token消耗降低61%,任务通过率提升52%。三者共同指向智能体工程落地的关键:可靠的隔离边界、稳定的容错机制以及高效的状态管理。
早报聚焦Agent系统工程,介绍三篇实践。Anthropic披露Claude的三种隔离架构,并指出93%权限弹窗被无感通过。阿里AgentScope 2.0将调试升级为涵盖权限边界、容错机制的生产级系统工程。腾讯云通过上下文卸载与Mermaid结构化图谱,将超长Session的Token消耗降低60%,任务通过率提升52%。三者共同强调,Agent时代的核心在于支撑稳定运行的工程基础。
Google 发布了其多模态模型 Gemini Omni 的视频生成功能使用指南。该模型可通过 Gemini 应用、Google Flow 等平台体验。指南包含五项提示词技巧:利用模型已有的现实世界知识进行简洁描述;精确控制文本在视频中的渲染与排版;使用专业镜头指令(如推拉摇移)像电影摄影师一样调度画面;通过迭代编辑高效修改视频;以及在生成中直接调整角色的动作节奏或情绪。其核心在于通过精准的提示词引导模型生成复杂且可控的视频内容。
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》ICML 2026论文揭示,长上下文大语言模型的性能并非随错误信息增加而线性下降,而是呈现“第一滴墨水”效应。研究发现,仅当上下文包含10%的高难度错误文本时,损害就已基本完成。例如,在一个128K-token的Qwen2.5设置中,这最初的10%错误文本造成了58%的性能损失。其机制在于softmax注意力机制会赋予与问题相近但错误的文本过高权重,仅这10%的高难度干扰文本就能贡献约97%的干扰压力。因此,过滤文档带来的提升可能主要源于缩短了有效上下文,而非移除“坏内容”。
🤖 We often talk about "context rot": LLMs get worse as context grows. But once distracting information enters, is it ju...
Pressed Petals 是一个用 Claude 构建的 iOS 应用,概念诗意,用户外出散步采集花朵,App 将花压成标本并制作成数字压花页面。界面模拟手工压花纸张,支持查看花朵详情。应用已在 App Store 上线,作者为 @yescynfria。它属于六个 Claude 项目之一,均源于“why not?”这个问题,鼓励创意探索。
Six Claude projects that all came from the same question: "why not?"
该提示词构建了一个以纳瓦尔·拉维康特思想为核心的财富创造操作系统。其核心是“财富 = 专属知识 × 杠杆 × 判断力 × 责任感”的公式,并明确了杠杆的优先级:代码、媒体、资本、劳动力。系统强调运用第一性原理、二阶思维、非对称回报(至少3:1)等框架进行决策,致力于识别个人专属知识并利用杠杆将其产品化。思维模式追求长期复利效应(如每天进步1%),要求以十年为单位进行思考与行动,最终实现资产构建而非单纯时间换金钱。
http://x.com/i/article/2057300084354670592
so Codex on iPad acts like a Codex mobile phone, which gives you the full desktop UI/UX. meaning, you can use your iPad ...
Over the weekend, I asked Codex to analyze my Slack message history and recommend a better way to organize my growing nu...
Just press Cmd + Shift + Ctrl + 3, then Cmd + V paste the screenshot directly into Grok Build and ask it to inspire, gui...
藏师傅的小红书图文排版 Skill 预览 完全靠 HTML 和实拍图片,不会被标注 AI AI 会去高质量图片网站帮你寻找对应的主题图片,让你的图文告别只有生硬文字的尴尬情况
用户让Codex分析自己过去3年在X上的约3.4G发帖数据,总结出几点规律:最爆内容为编程/产品/创业、资源推荐合集、学习方法论类;爆款公式是“真实工具+明确场景+三步内路径”;发帖时间上,周五至周日、及每日三个时段(下午5-11点、上午10-下午1点、凌晨0-2点)数据更好,周一最差;内容形式上,带媒体和链接、篇幅在101-180字的表现更优。
有朋友问:什么样的内容在 X 上受欢迎,如何做 X 的运营增长? 我先让 Codex 把自己三年的 X 数据分析一遍,看有什么发现。
百度伐谋2.0产业决策智能体落地排产场景,业务人员用自然语言描述优先级和现场变化(如设备故障、工人请假),系统自动将约束转化为优化模型并迭代求解,将顾问数小时的建模压缩到对话内完成。每次纠偏实时调整方案,隐性经验被结构化沉淀为企业可复用模型。在日均数百订单、十几条产线的大型家具制造企业中,产能提升20%。
藏师傅的小红书图文排版 Skill 预览 完全靠 HTML 和实拍图片,不会被标注 AI AI 会去高质量图片网站帮你寻找对应的主题图片,让你的图文告别只有生硬文字的尴尬情况
该教程以 TuringEnterprises/Open-MM-RL 数据集为实践基础,构建多模态推理与可验证奖励强化学习(RLVR)流程。内容涵盖数据集加载、结构分析(包括领域、格式、问题长度、答案类型和图像分布),并可视化各领域示例。同时实现了一个轻量级奖励函数,用于检查精确匹配等条件,并演示了如何将流程导出为 GRPO 格式。
这是一条面向非技术用户的 Grok Build 安装与使用教程视频。教程演示了如何通过一行命令快速安装 Grok Build,并展示了如何用它创建真实可用的网站。其核心功能包括:利用 Grok Imagine 自动生成图片与视频,以及支持在多个文件夹中同时运行不同的项目。在使用过程中,Grok 会自动执行所需命令,无需用户具备任何编程经验。该教程由原作者 Daniel_Farinax 制作,以解答朋友们的疑问,并获得了马斯克的转发认可。
Beginner video: How to install & use Grok Build (made for non-technical SuperGrok and X Premium+ users) I got so many qu...
博主实测商汤日日新SenseNova Skills Agent,用其完成了AI大模型市场调研报告,从生成到转为PDF和PPT耗时约两小时。该项目在GitHub已获2400颗星,当前处于免费公测阶段,支持多轮迭代与任务续接。博主演示了从安装到生成的全流程教程,并接入了Hermes Agent进行体验。该工具尤其擅长生成国内相关的调研报告,适合处理免费的小型任务。
SenseNova Skills Agent 正处于公测期,提供限时免费的 Token Plan(0元)。用户可从官网领取 API,并在 GitHub 开源项目(已获 2400 星)中将其接入 Hermes Agent 等工具。通过自然语言对话即可使用,支持多轮迭代,能执行如撰写市场调研报告等任务(用户实测约两小时完成),并支持将 Markdown 格式转换为 PDF 或 PPT。
兄弟们,上次我分享了SenseNova Skills Agent 免费可以领取Token Plan 后,自己也拿来实战了一把。 此项目已经在 Github 斩获 2400Star⭐️ 我让它跑了个AI大模型市场调研报告,从开始到结束差不多花...
藏师傅的小红、小绿书组图生成器 Skill 与 Codex 搭配,用户只需提供拼接图片,它便能自动识别内容并匹配对应页数,无需手动指定。生成结果还会分格标注以确保对齐。该技能可一键生成封面及 3:4 组图,并自动处理截图素材进行匹配。
不吵架了,预告一下下一个 Skill 项目 基于 PPT Skill 可以帮你一键生成微信公众号和小红书封面 也可以基于文档生成小绿书和小红书图文所需的 3:4 组图 会自动处理你的截图素材,自动进行匹配
推文指出,仅安装Waza技能集不够,需将其配置写入Agent.md文件,以便AI智能体更好地触发和应用。Waza是一个将工程习惯转化为技能的集合,近期吸收了大量真实项目经验,现已适用于Mac原生应用、CLI工具、Rust及Web开发。它支持Claude Code、Codex、Cursor和Pi作为智能体运行时,包含25个反模式,具备破坏性命令安全防护,并将获取内容视为不信任数据。其特点为8个技能、无框架、无遥测。安装更新可访问其GitHub仓库。
🥷 Engineering habits you already know, turned into skills AI agents can run. Waza absorbed a mass of real project lesso...
这条推文的含金量还在上升 Follow Builders, Not Influencers~ @karpathy - 前 OpenAI/Tesla AI,现 Eureka Labs,AI 教育传奇 @swyx - AI Engineer 运...
Beginner video: How to install & use Grok Build (made for non-technical SuperGrok and X Premium+ users) I got so many qu...
同一事件,精选展示《Grok Build 0.1 on API》Some new improvements to performance just went in. Python gets a bad wrap for performance but we aint looking to shabby ...
5 patterns for building long-running AI Agents 1. Checkpoint-and-Resume → Save progress in batches (like every 50 docume...
Join us live tomorrow, Tuesday, May 26th at 11am PT / 2pm ET for "How I Build an AI Superhero Series" with Aharon Rabino...
i had codex audit my entire macbook to see how much space we can save and it's found 500 GB to save, AWESOME prompt was:...
from prompt to context to harness engineering. three terms keep coming up in AI engineering, and they get conflated all ...
本教程展示如何使用 NVIDIA FLARE 框架构建一个联邦学习实验,以比较 FedAvg 和 FedProx 两种算法。实验在非独立同分布(non-IID)的 CIFAR-10 数据集上进行,通过狄利克雷分布划分客户端数据,以模拟现实联邦场景中的标签不平衡问题。内容涵盖如何利用 NVFlare Job API 来定义和启动联邦学习任务。
本推文汇总了 42 位在深度学习、大语言模型(LLM)、AI 编程、视频生成等核心赛道上备受关注的知名人士。名单整合了多位业界人士的推荐,既包括图灵奖得主 @ylecun、LLM 专家 @karpathy、Cursor 创始人 @alexgraveley、英伟达首席科学家 @drjimfan、OpenAI 资深研究员 @lilianweng 等行业标杆,也补充了如 @simonw(LLM 工具)、@chuan_en(大模型实战)等实战派人物。推文旨在为读者提供一份全面的行业关注列表,并邀请更多补充。
http://x.com/i/article/2058381329318682624
本文旨在厘清 AI 智能体领域中易混淆的关键术语。文章指出,模型(如 Claude、GPT)本身是无记忆、无循环的大语言模型。其行为由“Scaffolding”(行为定义层,如系统提示、工具描述)塑造,而“Harness”(执行层)负责调用模型、处理工具调用与控制循环,是智能体运行的核心。两者结合,模型才能成为智能体。文章以 Claude Code、Codex 为例,说明同一模型搭配不同 Harness 会产生迥异体验,并提出了 Agent = Model + Harness 的常见理解框架。术语尚未统一,本文旨在提供一个实用的心智模型。
推文预告了一个基于PPT技能的新项目,该技能能够一键生成适用于微信公众号和小红书平台的封面图。同时,它也能根据文档内容,自动生成符合小红书图文所需的3:4比例的多张图片。该技能的一个核心特点是自动化处理能力,可以自动处理用户提供的截图素材并进行内容匹配。
用户通过Codex在VPS上自部署了umami统计工具,可为网站添加无限量流量监控。相比官方版有限制,自部署方案支持对任意网站通过指令快速启用统计功能。整个过程包括网站搭建、域名配置及数据统计均可由Codex通过SSH自动化完成,体现了“口喷建站”的便捷性。