网站 In the Weights 通过查询多个大语言模型,判断特定人物是否出现在模型的权重中——即模型训练时认为该人物足够重要而记住。网站聚合结果并给出强度评分,最高分996对应莫扎特、莎士比亚、泰勒·斯威夫特等名流。由两位前OpenAI员工Joey Flynn和Thomas Dimson创建。较小模型更难出现,因此能在Meta的10亿参数模型Llama中出现的人被视为高度相关。网站也指出了LLM的明显局限:模型可能幻觉传记细节、拼写错误会降低分数、常见姓名结果通常较差。
网站 In the Weights 通过查询多个大语言模型,判断特定人物是否出现在模型的权重中——即模型训练时认为该人物足够重要而记住。网站聚合结果并给出强度评分,最高分996对应莫扎特、莎士比亚、泰勒·斯威夫特等名流。由两位前OpenAI员工Joey Flynn和Thomas Dimson创建。较小模型更难出现,因此能在Meta的10亿参数模型Llama中出现的人被视为高度相关。网站也指出了LLM的明显局限:模型可能幻觉传记细节、拼写错误会降低分数、常见姓名结果通常较差。
长城汽车董事长魏建军宣布,6月25日将举办长城H10造型美学直播,实车正式亮相。新车为归元平台首款方盒子车型,采用“方鼎美学”设计,搭载Coffee Pilot 3高阶智驾辅助系统,全系标配激光雷达并支持NOA智驾。动力方面采用2.0T+4挡DHT Hi4混动架构,2.0T发动机最大功率175千瓦。提供五座和六座版本,轴距均为3000mm。此外还首发一体化嵌入式大梁及“九横六纵”笼式车身。
In beta now with Okta and connectors from Asana, Atlassian, Canva, Figma, Granola, Linear, Slack and Supabase, with Slac...
nothing gets admins more excited than enterprise spend controls and we're happy to deliver! admins can now manage spend ...
Codex 推出 Record & Replay 功能,用户可在电脑上演示一次操作流程,Codex 观察并自动生成可复用的 Skill。下次遇到同类任务,Codex 即可自动执行。官方以“发 YouTube 视频”演示:手动走完拉元数据、配缩略图和字幕、上传存为私密、核对等流程,新对话中 Codex 自动完成无差错。该功能适用于报销贴票、文件批量重命名归档、每周数据填报表、网上订票等重复性电脑操作,实现从“每次写提示词”到“演示一次就够”的跨越。
阿里开源内部向量数据库Zvec,pip install zvec免费使用,对标Pinecone每月70美元能力。支持十亿向量毫秒级检索,无需单独起服务,全平台兼容;v0.5.0新增原生全文混合搜索。UCSD黄碧薇教授(causal-learn作者)提出AI四代范式:相关性小模型→因果小模型→相关性大模型(LLM)→因果大模型,认为当前正站在第四代门口。其创立的Aether AI完成首轮融资,致力于从视频中自动抽取物理规律,探索下一代因果AI范式。
人类到今天都写不出一颗煎蛋的物理方程, 一颗鸡蛋打进热油锅,它怎么凝固、怎么摊开、边缘怎么变焦, 没有任何一个公式能描述清楚,这种例子在物理世界里多到数不过来。 而这恰恰是当下通用 AI 范式的天花板,视频生成、VLA 学的都是像素层面的统...
一个将《道德经》每句拆解翻译成大白话并配以AI生图的漫画项目已开源,在线体验和GitHub仓库已公开。生图基于Seedream 5模型,目前效果尚有优化空间(图文相关性不够稳定),但整体阅读体验有所提升。
你可能和我一样,经典古籍实在读不下去。 以《道德经》为例,拆解每句翻译成大白话 + AI生图,一下就Get了。 项目正在开发中,预计本周开源。
TesterArmy 是一个 AI 代理程序,持续监控网站和移动应用的关键用户流程,并在出现问题时向团队发出警报。只需粘贴 URL 即可创建项目,无需 SDK、测试脚本或基础设施维护。用户用自然语言描述测试场景,AI 代理自动导航页面、填写表单、处理 OAuth 和 OTP 登录流程。支持通过 GitHub App 自动 PR 检查、定时运行生产监控或通过 webhook 触发。每次运行后提供截图、录屏和可操作的 bug 报告,可通过仪表盘、CLI 或 Pull Request 查看。设置只需不到 2 分钟。
Enterprise-Managed Authorization (EMA) 扩展现已稳定。该扩展允许组织通过受信任的身份提供商(如 Okta)集中控制 MCP 服务器的访问权限。终端用户首次登录即可自动连接所有已授权的 MCP 服务器,无需逐个执行 OAuth 授权。Anthropic 已在 Claude、Claude Code 和 Cowork 中实现该扩展,Visual Studio Code 也已支持。Asana、Atlassian、Canva、Figma、Granola、Linear、Supabase 等服务器已启用 EMA,Slack 正在添加支持。Microsoft、Okta 等也参与了采用。
Claude Code v2.1.183 增强了自动模式安全性:未经请求时阻止 git reset --hard、git commit --amend(非本轮提交)、terraform destroy 等破坏性命令。新增 attribution.sessionUrl 设置,可省略 claude.ai 会话链接;/config --help 列出所有速记键;/config 切换行为改为 Enter/Space 变更、Esc 保存退出。修复了 thinking 块导致 400 错误、子智能体 WebSearch 空结果、vim 模式光标滞留、Windows Terminal TUI 错乱、多插件技能重复、MCP 认证存根暴露、tmux 面板启动失败、后台任务被杀、定时任务/Webhook 误判为键盘输入、focus mode 额外计时行等问题。
姚金刚使用高级agent Codex连续38小时、提交301个分支,将自己创建其他skill的元Skill(yao-meta-skill)重构并升级至2.0版本,已推送到GitHub。Codex持续拆解任务、修复问题,产出完整升级方案与1.0→2.0对比报告。新版本在结构、可靠性和可扩展性上明显提升,所有文档公开。此次升级本身成为典型案例:高级agent已能参与“如何更好地使用agent”的框架迭代。
终于完成了对元Skill(创建skill的skill)的2.0升级 已推送到GitHub 这两天又进行了一些微调和测试,欢迎体验 相关资源与文档分享: 1、元skill仓库:https://github.com/yaojingang/yao...
今日发布的 datasette-apps 插件允许用户在 Datasette 实例中运行自包含的 HTML+JavaScript 应用。这些应用运行在严格 iframe 沙盒内,配合 CSP 头阻止外发 HTTP 请求,无法访问 cookies 或 localStorage。应用可通过 JavaScript 对 Datasette 数据执行只读 SQL 查询,也可通过配置存储查询执行写入操作。通信采用 postMessage() 后迁移至更安全的 MessageChannel()。所有查询和 CSP 错误均可在父框架中记录。该功能源自作者对 Claude Artifacts 机制的探索,现已独立为 Datasette 核心特性。演示实例可通过 GitHub 登录 agent.datasette.io 体验。
Excited to announce Viktor in Microsoft Teams. This week we crossed $20M in annualized revenue run rate. In Slack. One a...
Excited to announce Viktor in Microsoft Teams. This week we crossed $20M in annualized revenue run rate. In Slack. One a...
Browser Use 开源了基于 Vercel Eve 构建的浏览器 agent 模板 B。该模板让任意 agent 接入真实云端浏览器(Browser Use Cloud),实现网页浏览、点击、填表等操作,并通过 browser-harness 实时可视化执行过程,支持调试。模板已发布在 GitHub,可直接 clone 使用,支持初始化 skills 和 MCPs。开源免费,降低了开发可观测、可干预的 browser agent 的门槛。
Introducing B, a browser agent template! Built on Eve by @vercel. Give any agent a real Browser Use Cloud browser. Watch...
Cursor 推出 /automate 技能,开发者用自然语言描述任务即可自动配置触发器、指令和工具,生成可运行的 automation。支持 Slack emoji 触发、GitHub issue/review/workflow 触发,新增 cloud agents 的 computer use 能力。以前需手动配置,现在只需描述目标,Cursor 自动生成完整流程。该功能降低了 agent workflow 的搭建门槛,将 agent 从一次性聊天工具推向长期运行的自动化系统。
Midjourney 发布名为“Midjourney Scanner”的全身超声计算断层扫描设备技术视频。该设备利用超声波阵列进行计算断层成像,目标是实现比传统 MRI 更快、更便宜、辐射更低的 3D 全身扫描方案。原本专注 AI 图像生成的公司直接下场造医疗硬件,试图用计算成像思维重构传统医疗设备领域。马斯克也对这一跨界表示赞赏。
A technical dive inside our new "Midjourney Scanner"
Artificial Analysis 推出新基准 AA-Briefcase,用于评估模型在长期知识工作项目中的智能体能力。基准包含 4 个私有场景(每项目需处理 25000+ Slack 消息、3500+ 邮件等碎片化上下文)及一个公开演示场景。评测结果:Claude Fable 5 以 Elo 1587 领先,其次为 Claude Opus 4.8(1356)、Opus 4.7 及智谱 GLM 5.2(max,1266)。成本方面,Claude Fable 5 平均每任务 $31,Opus 4.8 为 $10.40,GPT-5.5 (xhigh) 为 $3.68,GLM 5.2 (max) 为 $2.40,DeepSeek V4 Flash (max) 仅约 $0.04。所有模型中仅 3% 的任务满足全部标准,31/91 个任务无模型得分超 50%,显示真实世界复杂性仍是挑战。最佳性价比为开源权重模型 GLM-5.2 (max) 和 DeepSeek V4 Pro (max)。
一个名为 IN THE WEIGHTS 的网站上线,允许用户查询自己的名字是否出现在 GPT-5.5、GPT-5.4 Mini、Opus 4.8、Haiku 4.5、Grok 4.20、Gemini 3.1 Lite、Kimi K2 0905、DeepSeek V4、Llama 3.3 70B、Llama 3.2 1B、GLM 4.7 Flash、Mistral 3.2 24B 和 Qwen3 8B 共13款大语言模型的训练数据中。网站同时公布“今日重量级”排行榜,莫扎特、莎士比亚、泰勒·斯威夫特等20位知名人物均获得996的“强度”评分。
Show Codex a workflow once. Reuse it as a skill. Record & Replay lets you show Codex a recurring task, like filing an ex...
Claude Code 新增 Artifacts 功能(Team 和 Enterprise 计划 beta 版)。用户可从 coding session 生成交互页面(如 PR 演示、项目 dashboard),通过私有链接分享给团队;页面随 session 自动刷新,调用代码库、插件、技能等全部上下文。该更新旨在将 Claude Code 从单人工具拓展为团队实时协作平台,解决上下文传递和版本同步痛点。
New in Claude Code: Artifacts. Interactive pages built from your session, like a PR walkthrough or a living project dash...
Matthew Berman推出Loop Library,一个专门收集可直接复用的agent循环流程的社区库。库中收录从简单任务自动化到复杂多步工作流的各种loop模板,开发者可直接搜索使用,也可提交自己的循环。该库由http://here.now合作托管,旨在解决agent开发中循环结构设计(退出、验证、失败处理)的重复劳动,推动agent开发从“每次重新发明轮子”转向“搭积木”模式。
Just launched Loop Library - a curated list of agent loops you can use right now. Find loops, submit your own, tokenmaxx...
OpenAI Codex 推出 Record & Replay 功能。用户录制一次工作流(如报销、请假),Codex 自动将其转化为可检查、可编辑的 skill(技能)。后续同类任务可直接调用该 skill,无需重复教学。用户控制录制起止,技能可继续编辑优化。目前仅支持 macOS,欧洲国家暂不支持。该功能将“示范教学”直接转化为可积累的 agent 技能,降低了从手写 prompt 到“演示即交付”的门槛。
Show Codex a workflow once. Reuse it as a skill. Record & Replay lets you show Codex a recurring task, like filing an ex...
In 2025, attackers stole corporate data from Microsoft 365 Copilot. The victim clicked nothing. They got an email. The A...
Perplexity 为其智能体产品 Computer 推出名为 Brain 的自我改进记忆系统。Brain 构建可追溯的上下文图(LLM wiki),记录代理完成的工作、成功、失败及用户修正,并在夜间自动增量合成会话、连接器结果、文档变更和修正结果。该系统通过递归自改进实现性能提升:答案正确性 +25%、召回 +16%、成本 -13%(基于 Perplexity 内部测试)。Brain 今日以 Research Preview 形式面向 Perplexity Max 和 Enterprise Max 订阅用户开放。
Claude Code 新增 Artifact 功能,可将终端会话中的 PR 走查、调试时间线等过程生成实时更新的交互页面,并通过私有链接分享给团队成员。Artifact 利用当前会话的完整上下文(代码库、外部工具、对话),随会话自动更新,支持历史版本回溯。默认私有,仅同组织认证成员可见。该功能以 beta 形式向 Claude Team 和 Enterprise 组织开放,通过 CLI 和桌面应用生成,个人用户暂不可用。Anthropic 内部测试显示调试场景最高频。
New in Claude Code: Artifacts. Interactive pages built from your session, like a PR walkthrough or a living project dash...
Artifacts draw on the full context of your session: codebase, plugins, skills, connected tools. They're private until yo...
New in Claude Code: Artifacts. Interactive pages built from your session, like a PR walkthrough or a living project dash...
OpenAI Codex 新增 Record & Replay 功能。用户在 Mac 上演示一遍重复性操作(如报销填单),Codex 自动生成可检查、可编辑的 Skill 文件,内含触发条件、输入参数、执行步骤和验证方式。重放时,用户在新对话中指定该 Skill 并提供不同参数,Codex 即结合 Computer Use、浏览器和已连接 plugin 完成任务。目前仅支持 macOS,欧盟地区暂不可用,使用前需开启 Computer Use。该功能无需精确指令,通过“做一遍”替代“写说明书”实现工作流复用。
Show Codex a workflow once. Reuse it as a skill. Record & Replay lets you show Codex a recurring task, like filing an ex...
Show Codex a workflow once. Reuse it as a skill. Record & Replay lets you show Codex a recurring task, like filing an ex...
Atomic Mail 发布 API-first 邮箱,专供 AI 智能体独立使用,不再借用人类邮箱。智能体通过 MCP、Agent Skill 或 JMAP/REST API 一键获取收件箱,支持 Claude Desktop、Cursor、OpenAI 等主流 Agent。典型场景包括新闻监控、求职、发票处理和客户支持。防滥用机制采用 PoW(工作量证明)+ 声誉系统:智能体发信前需执行小额计算,对合法 Agent 成本低,但批量垃圾发送成本高昂;声誉随行为动态调整,可疑发送者被限速或封禁。目前免费公测中。
API-first email built for AI agents One prompt to plug in via MCP or Agent Skill Your agent gets its own inbox - and can...
API-first email built for AI agents One prompt to plug in via MCP or Agent Skill Your agent gets its own inbox - and can...
xAI 将 Grok 引入 Microsoft Word,推出免费 365 插件。用户可将笔记转为结构化文档、重写文本以提升清晰度与简洁性,也能通过插件搜索网页、X 平台或生成图表。插件支持连接 SharePoint 和 Google Drive 等外部来源,还可用于 PowerPoint 和 Excel。
关联讨论 3 条IT之家(RSS)X:cb_doge (@cb_doge)xAI:News(网页)Claude Code 现已支持 Artifacts,可将编程会话结果转为交互式网页并分享给团队。网页包含完整会话上下文(代码、工具、聊天记录),自动更新并保留版本历史。用户只需在会话中提出请求即获得链接,用于 PR 审查、事故时间线等场景。Artifacts 默认私有,仅组织内认证成员可见,管理员通过角色和保留策略控制访问。该功能以 beta 版向 Claude Team 和 Enterprise 客户提供,支持 CLI 和桌面应用。
Wisedocs 发布 Medical Long Context Reasoning (MLCR) 基准,测试 LLM 对真实医疗档案的长文档推理能力。评测包含 250 个问题,横跨 6 个难度等级,另设私有保留集,涵盖复杂医学推理、幻觉检测及单次查询中的并行提问。Wisedocs 同步开源 10 个合成病例、低三级问题及评估工具。Artificial Analysis 将合作上线该基准。
Introducing MLCR, a novel Medical Long Context Reasoning benchmark. Our eval measures the ability of LLMs to answer real...