MCP(模型上下文协议)推出了全新的欢迎页面,旨在为用户提供更直观的入门体验。该页面整合了关键文档、工具和社区资源,帮助开发者快速理解并集成MCP。页面设计简洁,重点突出了协议的核心概念与最新动态。此举是MCP提升开发者体验、推动协议更广泛采用的重要一步。该页面发布后在Hacker News上获得了101点关注度。
MCP(模型上下文协议)推出了全新的欢迎页面,旨在为用户提供更直观的入门体验。该页面整合了关键文档、工具和社区资源,帮助开发者快速理解并集成MCP。页面设计简洁,重点突出了协议的核心概念与最新动态。此举是MCP提升开发者体验、推动协议更广泛采用的重要一步。该页面发布后在Hacker News上获得了101点关注度。
微信读书Cli安装和配置教程。 1. 官方指令,复制发给Codex或Claude Code 下载 https://cdn.weread.qq.com/skills/weread-skills.zip 安装 skill 2. 或者用 X 上网...
AI正重塑创业格局,大幅降低技术门槛,催生“AI原生”初创公司。创始人角色从执行者转变为AI智能体的指挥者,无需传统技术背景即可开发软件或制定商业策略。初创生命周期被重新定义为构思、MVP、发布和扩展四个阶段,核心是利用AI工具(如研究、智能体编程和流程自动化)来压缩时间。成功关键在于创始人需掌握使用AI的时机与方法,尤其在构思阶段应通过深入研究验证痛点与方案的匹配度,而非盲目开发。
企业AI的竞争维度正从模型性能转向智能体控制平面,即管理AI任务规划、工具调用、数据访问与安全权限的基础设施层。VentureBeat调查显示,微软以38.6%份额领先,OpenAI占25.7%,Anthropic首次以5.7%进入榜单,标志其Claude从被调用模型转变为编排基础设施。企业选择编排平台时,安全与权限管理已超越模型性能成为首要考量,反映企业更重视部署AI时的合规、审计与责任归属。
OpenAI计划将Codex升级为个人AI设备网络。用户可在多台设备上安装Codex,将Mac Mini、工作站甚至闲置旧电脑连接成“Codex network”。通过主设备即可远程调用这些设备的Computer Use能力,执行任务、处理文件和自动化操作。配合即将推出的“Locked Use”设置,该功能在提升控制权的同时保障了安全性。此举使用户能从单一设备运行单个Agent,转变为随时调度分布式Agent集群,从而将闲置硬件转化为生产力,标志着个人算力时代的到来。
OPENAI 🔥: In the future, Codex will be able to control other desktop devices with the Codex installation. All your Mac ...
MagicPath AI CEO @skirano 演示了其产品与Codex的深度整合。用户现可将MagicPath作为原生画布直接在Codex中运行,通过拖拽设计UI,Codex能实时感知项目并自动生成、编辑代码,实现设计与开发的无缝衔接,无需在Figma和IDE间切换。安装简便,只需在Codex中粘贴一条命令即可完成配置。此举将“设计-开发-迭代”流程整合于单一窗口,显著缩短了从创意到可运行应用的距离。
You can now run MagicPath as a native canvas inside Codex to design and build functional apps. It's pretty incredible. H...
该可解释性论文聚焦工具使用代理,通过探测隐藏状态发现模型常能识别应调用工具,但实际调用失败,不匹配率达26%-54%。问题完全集中于认知到行动的过渡阶段,而非认知本身。内部探测方向可解码,但后期层的最后令牌机制使信号旋转,几乎与产生的行动正交。研究旨在预测干预措施效果,指出常见归因如提示或训练不足可能忽略后期层几何结构,这为工具使用提示A/B测试中的性能上限提供了合理解释。
OPENAI 🔥: In the future, Codex will be able to control other desktop devices with the Codex installation. All your Mac ...
Greg Brockman转发的Codex Skill "Complexity Optimizer"通过一行npx命令安装,能在几秒内扫描代码库,精准定位O(n²)、N+1查询等性能问题,并提供文件、行号、优化建议和风险等级。其核心设计是仅报告问题而不自动修改,将决策权留给开发者。这标志着AI的关注点正从“更快地写代码”转向“发现人类难以察觉的复杂问题”,将十年项目经验才能积累的诊断能力封装成可一键调用的技能。未来,类似的安全审计、架构检测等工具将大量涌现。资深开发者的护城河因此被重新定义:从依靠个人眼力发现问题,转向依靠业务判断力来评估和落地AI提供的解决方案。
codex for improving computational complexity
CODEX SKILL THAT FINDS COMPLEXITY HOTSPOTS IN YOUR CODEBASE! I made a Codex skill that analyzes your codebase and report...
刚刚花三分钟装了飞书官方那个 CLI 工具, 跑了一句话,建群、建文档、发通知,一次性全做完了, 我盯着终端看了几秒钟, 才反应过来这玩意儿真的能让 AI 直接操作飞书。 装的过程没啥可说的, 一行 npx @larksuite/cli@l...
DeepSeek招聘Agent Harness产品经理,旨在将其前沿模型能力转化为领先的Agent产品。该职位需规划产品路线图,连接研究员、工程师与社区,定义并衡量Agent帮助用户的核心指标,推动模型与Harness共同进化。候选人需是Agent产品高强度用户,熟悉Claude Code、GitHub Copilot等工具,理解LLM与Agent技术原理,并具备数据分析和产品设计能力。
新插件 datasette-llm-limits 0.1a0 发布,需与 datasette-llm 及 datasette-llm-accountant 配合使用。该插件允许在 Datasette 内为每位用户或全局配置大语言模型(LLM)使用的支出限额。配置示例显示,可为用户设置滚动24小时窗口内的使用额度,金额上限为1.00美元。这为团队管理LLM调用成本提供了细粒度的控制工具。
针对智能体在真实工作流中需处理多模态输入、调用工具并自我修正的需求,研究团队推出了MM-ToolBench基准。该基准包含来自客户服务与智能创作两大类共100个可执行任务,覆盖20个细分领域,由27个MCP服务器提供324个工具支持。其核心设计理念是“闭环多模态验证”,即智能体必须执行工具、检查输出制品并在不符合要求时进行自我修正。实验表明,该基准极具挑战性,例如Claude Opus 4.6的成功率仅为32.0%,远低于94.0%的人类基准。它旨在为评估和推进下一代全模态工具使用智能体奠定基础。
OpenAI 正在将 ChatGPT 转变为个人财务助手。美国地区的 Pro 用户现已能通过 Plaid 连接银行账户,基于真实交易数据获得个性化财务分析。该功能运行于 GPT-5.5 Thinking 模型,未来将向所有用户开放。OpenAI 同时提醒,ChatGPT 并非持牌财务顾问,其分析仅供参考。
飞书 CLI 牛皮啊,发布一个月多点就达到 10000 Star 了! 说明用户和市场相当认可这个动作 最近我们可以发现,越来越多的传统办公产品开始发布 CLI 和 Agent。 AI 时代的 SaaS 软件可能得换个做法了:UI 只是最基...
开源项目OpenSquilla通过智能路由架构,在保持与OpenClaw相近性能(0.9251分)的同时,将复杂AI任务处理成本从6美元大幅降至0.68美元。其核心是将简单任务分配给廉价模型,仅复杂任务调用Opus等顶级模型。系统具备四层记忆结构模拟人脑认知,支持按需加载16种工具,并设有三档代码沙箱安全防护。项目提供统一后端,支持网页、命令行及Slack、飞书等平台接入,兼容OpenAI、Claude、Gemini、DeepSeek等20余家主流模型。
CODEX SKILL THAT TURNS LOCAL SEARCH INTO CLIENT LEADS! I made a Codex skill that helps find local businesses that may ne...
泄露的Gemini Spark内部截图显示,新模型整合了Agent与Chat模式,重点提升高级工具使用和Skills创建流程。然而,当前Skills仅支持复制粘贴MD文件创建,缺乏直接导入选项,且未见Browser或Computer Use功能。这表明Google在推进AI工具能力时采取了渐进策略,优先打磨核心流程,而非一步到位开放激进功能。
GOOGLE 🔥: New Gemini Spark screenshots featuring advanced tool use and Skills creation flow. It seems like there won't ...
飞书开源命令行工具lark-cli在45天内获得超过1万GitHub star,成为国内首个破万星的办公套件开源项目。该工具允许AI通过命令行直接操作飞书,执行建群、建文档等任务,且每一步操作都可预览、可审查,与云端不可见的MCP模式形成对比。其主干代码已合并10位外部开发者的贡献,而同类产品钉钉和企业微信则为零。这种可见、可控的特性被视为开发者放心将任务交给AI Agent的前提,预示着一句话指令驱动完整项目流程成为可能。
这个项目也可以直接 # 安装成 Claude Code skill 命令:violin --install-skill 以后就可以直接这样:violin input.mp4 output_zh.mp4 --language Chinese ...
Kimi WebBridge 是一款面向本地 AI Agent 的浏览器插件,使智能体能够直接操控浏览器,执行网页导航、数据提取等任务。
The new Gemini Spark model will have Agent mode / Chat mode. New advanced use of tools.
Codex 终于支持手机上的 ChatGPT 远程控制了! 可以自动同步你绑定的 Codex 设备上的所有对话,而且可以直接发送指令、审批权限、监控进度。 我写一下设置的教程: 1. 点击桌面端 Codex 客户端左侧的"设置 Codex ...
Codex现已支持通过手机上的ChatGPT应用远程控制绑定的桌面设备。该功能可实现对话自动同步,并允许用户直接发送指令、审批权限及监控进度。设置需在桌面端Codex客户端内启动,并建议使用Google Authenticator完成多重因素验证。绑定后,手机ChatGPT应用将出现Codex侧边栏,用于访问和控制桌面端对话。目前该功能仅支持Mac版Codex,Windows版本仍在开发中。
Codex 终于支持手机上的 ChatGPT 远程控制了! 可以自动同步你绑定的 Codex 设备上的所有对话,而且可以直接发送指令、审批权限、监控进度。 我写一下设置的教程: 1. 点击桌面端 Codex 客户端左侧的"设置 Codex ...
针对视觉推理中直接生成图像计算成本高、代理方法存在切换延迟、潜在方法泛化性差等问题,本研究提出ATLAS框架。其核心是引入“功能词元”这一离散单元,它同时作为智能体操作和潜在视觉推理单元。每个词元对应一个内化的视觉操作,无需视觉监督,仍作为标准词元存在于词表中,可通过下一词元预测生成。这避免了生成冗余的中间视觉内容,且与标准的可扩展SFT和RL训练兼容。为应对RL中功能词元的稀疏性问题,研究引入了潜在锚定GRPO(LA-GRPO)以稳定训练。实验表明,ATLAS在多项挑战性基准测试中取得了优异性能,并保持了良好的可解释性。
飞书CLI工具在GitHub上已获超1万Star,成为连接AI工作流的关键工具。它允许用户将AI助手(如Codex和Claude Code)的产出直接整合到飞书生态中,实现自动化操作。典型应用包括:让AI搜索整理资料并自动写入飞书文档、通过对话安排出差日程、以及读取飞书妙记自动生成会议纪要和待办事项。该工具通过指令npx @larksuite/cli@latest install即可安装,官方文档提供了更多进阶使用案例。
本期早报重点推荐了三项内容。Anthropic发布了Claude Code在大型代码库中的官方实践指南。OpenAI则公开了GPT-Realtime-2的实现细节并提供了开发演示视频。此外,少楠探讨了在大模型时代,当效率大幅提升(效率溢出)之后所带来的深层思考。
Figma创始人发布2026年第一季度财报,回应了市场对其在AI设计工具冲击下生存状况的质疑。财报显示营收达3.33亿美元,同比增长46%,且连续两个季度加速增长。净美元留存率升至139%,为两年多来最高。增长主要来自席位扩张、AI Credit货币化及AI产品矩阵的渗透。AI Credit自3月启动货币化后,75%的超额用户选择付费续用,显示真实需求。公司同时上调了2026年全年营收指引。
Quick update: not dead. $FIG Q1 results: → 46% YoY revenue growth, accelerating for the 2nd straight quarter → Net Dolla...
χ-Bench是一个针对医疗运营自动化的基准测试,评估AI智能体在策略密度、多角色协作和多边交互三项关键能力上的表现。测试涵盖授权、用率管理和护理管理三大领域,要求智能体在模拟20个医疗应用、提供87个工具接口的高保真环境中,依据超过1290份文档的操作手册完成任务。结果显示,在30种配置中,最佳智能体仅解决28%的任务,严格标准下成功率不足20%,且全量任务性能骤降至3.8%。这表明AI在处理复杂、不可逆的企业级应用时仍面临显著挑战。
xAI正式发布Grok Build的早期Beta版本,这是一个专为编码、构建应用和自动化工作流设计的agentic命令行界面。它支持并行子代理、计划视图及团队共享市场,并能集成MCP skills等扩展功能。目前仅面向SuperGrok Heavy订阅者开放。xAI选择深耕CLI,旨在让开发者直接在终端驱动agent团队,推动agent技术从演示融入实际工作流。
中国移动近日发布了专有的350亿参数非推理模型JT-35B-Flash,其Artificial Analysis智能指数达到36,较前代JT-MINI大幅提升11分。该模型在面向电信客服场景的工具使用评测τ²-Bench中以99%的得分领先,并展现出较高的令牌效率,运行智能指数仅消耗约1700万输出令牌。JT-35B-Flash拥有256K上下文窗口,目前主要面向企业客户提供。作为全球主要电信运营商,此举标志着中国移动在开发更强大专有模型方面的持续投入。
Codex is getting easier to automate and customize around your code. 🪝 Hooks customize the Codex loop with scripts that ...
Codex正变得更易于围绕用户代码实现自动化与定制。其核心更新包括“钩子”功能,允许在任务关键节点运行脚本,以进行工作验证、扫描密钥、记录对话或按仓库定制行为。同时,面向商业和企业团队推出“程序化访问令牌”,提供范围化凭证,可从ChatGPT工作区设置创建,用于CI/CD、发布流程和内部自动化,支持设置过期或撤销,并将使用情况关联回工作区。
Mixpanel is live in the Replit MCP marketplace! Devs building on @Replit can pull product analytics into their agent wor...
Claude Code已成功部署于数百万行的单体仓库、遗留系统及分布式架构中。其核心在于围绕模型构建的“工具套件”,而非仅依赖模型本身。该套件包含五个关键扩展点:提供代码库概览的CLAUDE.md文件、实现持续改进的钩子、按需加载专业知识的技能、插件以及MCP服务器。它采用智能体搜索模式,直接在开发者本地实时代码库上操作,无需构建和维护集中式索引,从而避免了传统RAG系统在活跃大型代码库中索引过时的问题。团队对代码库设置的投入程度直接决定了其导航效果。