马斯克在 X 平台回复称,Grok 语音控制特斯拉 FSD(监督版)功能预计约三个月后上线,今年秋季推送全系车辆。此前 Grok 已作为车载助手上线,通过 2025 假日版本更新增加导航语音指令,2026 春季更新新增“嘿 Grok”唤醒与位置提醒。新功能将允许用户用自然语言设定 FSD 行驶逻辑,无需手动打转向灯;停车场景提升显著,可实时口述精准泊车指令,弥补 14.1 版本“抵达目的地自动泊车”模式有限。
马斯克在 X 平台回复称,Grok 语音控制特斯拉 FSD(监督版)功能预计约三个月后上线,今年秋季推送全系车辆。此前 Grok 已作为车载助手上线,通过 2025 假日版本更新增加导航语音指令,2026 春季更新新增“嘿 Grok”唤醒与位置提醒。新功能将允许用户用自然语言设定 FSD 行驶逻辑,无需手动打转向灯;停车场景提升显著,可实时口述精准泊车指令,弥补 14.1 版本“抵达目的地自动泊车”模式有限。
Cowart:Codex + 无限画布工具插件开源,大家可以来试试啦,这个插件先取名叫 Cowart,别问为什么叫这个,我只能说 Code with Art 这种冠冕堂皇的理由:https://github.com/zhongerxin/c...
思科 AI 推出 FAPO,一个由 Claude Code 驱动的多步 LLM 流水线自动化优化系统,基于 Apache 2.0 开源。FAPO 通过步骤级故障归因,从提示词、参数到链式结构逐级升级优化。在六项基准测试中,以 GPT-4.1-mini、GPT-5.4-mini 和 Gemma 3-12B 为任务模型,与 SOTA 优化器 GEPA 对比:18 个模型-基准比较中赢下 15 个,平均增益 +14.1 个百分点;在 HoVer 和 IFBench 上触发结构升级时六组全胜,平均增益达 +33.8 个百分点;仅在 AIME 上略逊 3.1 个百分点,在采样噪声范围内。防过拟合机制包括仅检查训练集、不可变文件及独立审查。
Nous Research 为其开源 AI 智能体框架 Hermes Agent 新增 Blank Slate 设置模式。该模式默认仅开启 provider & model、File Operations 和 Terminal 三项,Web、浏览器、代码执行、视觉、记忆、委托、cron、技能、插件及 MCP 等全部禁用。配置被写入 `platform_toolsets.cli` 和 `agent.disabled_toolsets` 并固化到磁盘,即使执行 `hermes update` 也不会静默启用未选工具。用户可在极简基线后选择完全禁用或逐项启用。该模式适用于安全敏感部署、可复现团队设置和教学审计场景。本地运行要求模型至少 64K 上下文窗口。
Cloudflare 上线面向 AI 智能体的临时账户。智能体无需注册,直接运行 `wrangler deploy --temporary` 即可部署 Worker,部署持续 60 分钟,期间可通过链接认领为永久账户,超时自动删除。专为无人类参与的后台 AI
前OpenAI员工Thomas Dimson和Joey Flynn创建了In the Weights网站。该网站向Grok、Gemini、多个GPT版本(包括GPT-5.4 Mini)、Claude、Llama等模型提问“Who is [姓名]?”,聚类描述后生成强度分数,以衡量一个人被AI模型“记住”的程度。测试显示作者得分641(前6%),榜首Macaulay Culkin得分988。网站还会列出返回结果的模型并标注潜在幻觉,例如GPT-5.4 Mini对Anthony Ha的描述。该工具意在替代传统Google vanity search,因为流量正转向大语言模型。
现在 Codex 能将代码线程从笔记本无缝 handoff 到远程服务器,再随时接回。过程自动打包 Git 状态、未提交变更、分支、工作树等全部上下文,无需手动 sync 或重建环境。该功能消除了本地开发与远程重型计算之间的摩擦,让 agent 自动管理状态流动,用户可根据需要自由切换场景。
Codex can now hand off threads between local and remote hosts. Start work on your laptop, send it to a remote box before...
开发者 @vista8 推出新项目:只需输入微信公众号文章 URL,即可自动将其转换为 PPT,并保留文章中的图片。支持导出 PPTX(可任意编辑)、HTML 和 PDF 格式。项目仍在开发中,排版尚需优化,预计下周开源。该功能吸收了此前将公众号 URL 转为 Markdown 并下载图片的能力,实现了从文章到演示文档的自动化转换。
发现卡比一个库也很实用,只需微信公众号URL,就能转成Markdown,还能下载网页中的图片。 发现内置会用一个叫camoufox的浏览器,看介绍叫Anti-detect 亲测好用,把能力吸收,让公众号文章也能转PPT。 地址见评论区
OpenAI 为 macOS 版 Codex 新增 Record & Replay 功能。用户可先演示一次操作(如上传 YouTube 视频并添加元数据、缩略图和字幕),Codex 将其录制成可复用的“skill”,随后自主重复执行。该功能需开启 Computer Use,在欧盟、英国和瑞士不可用;Computer Use 自 6 月 16 日起已在欧盟上线。版本 26.616 还新增了 Automations 历史批量操作及本地与远程主机间线程交接能力。Codex 是 OpenAI 面向编程和白领工作自动化的 AI 智能体,应用免费下载,但需付费 ChatGPT 账号才能实际使用。
LandingAI Agentic Document Extraction(ADE)现支持在 Parse 或 Parse Jobs 调用中传入 password 参数,同一请求完成解密、解析及结构化输出。该功能要求启用 Zero Data Retention(ZDR)模式,文档仅在内存处理,不持久化,适用于 HIPAA/PHI/PII 合规场景。支持 PDF、DOC、DOCX、ODT、PPT、PPTX、XLSX 格式。集成成本低:单一可选参数,非加密文件不受影响;缺密码返回 422 错误。密码经 HTTPS 传输,ZDR 下服务端不持久化,建议配合最小权限 API Key 与审计日志。REST API 及 Python/TypeScript 库均可用。
Parse password-protected documents! Agentic Document Extraction (ADE) accepts a password parameter directly in the Parse...
http://x.com/i/article/2053655813877870592
Data2Story是牛津和斯坦福研究人员基于Claude Code构建的技能,通过Detective、Analyst、Editor、Designer、Programmer、Auditor、Inspector七个专用AI智能体,将CSV文件自动生成包含研究背景、统计图表和可追溯来源的交互式在线文章。核心“检查员”面板为每个声明和图表提供结构化证据,93%的可见陈述可溯源(人类文章基线为25%)。在53位读者对18个数据集的评测中,AI文章在视觉设计、叙事节奏、数据透明度、可验证性和洞察力五个类别均胜出,74%的读者更偏好AI版本。但人类在编辑视角、创意设计和密集图形方面仍保持优势。项目已开源。
微信原生 AI 助手“小微”今日扩大灰度测试,支持文字或语音操作微信原生功能(调整设置、发送消息、拨打电话、点外卖、生成图片等),集成文件总结、提醒设置、音乐推荐。用户可一句话生成小程序(仅限个人使用,暂不支持分享),并可通过多轮对话修改风格。该功能由微信技术架构负责人周颢带队推进,计划 2026 年第三季度向更多用户推出。此前微信开放平台已于 6 月 8 日开放 AI 生态接入能力,微信支付同步发布 AI 专属卡。
关联讨论 2 条IT之家(RSS)公众号:数字生命卡兹克OpenAI 为 ChatGPT 新增「Scheduled」侧边栏页面,集中管理所有定时任务。用户可查看、暂停、编辑或删除任务。研究任务可搜索网页和已连接应用,仅在内容变化时发送提醒。所有任务速度更快、可靠性更高,用户可按具体时间或早晨、下午、晚间时段触发。该功能面向 Plus、Pro、Business、Enterprise 用户,活跃任务数量因套餐而异,最多每小时执行一次,用户不活跃时自动暂停。原有「Pulse」功能已整合进定时任务中。
6月19日,马斯克旗下SpaceXAI面向微软Word、Excel、PowerPoint推出Grok扩展。安装后Office应用右侧出现侧边栏,支持自然语言指令操控。Word中,Grok可根据草稿和格式自动生成文档,识别语法错误并提出表述建议,还能调用X平台及互联网实时信息补充数据。Excel中,Grok可分析选中区域数据,进行统计、趋势识别并一键生成图表。PowerPoint中,输入主题、页数和风格,Grok自动生成幻灯片框架并填充内容。
关联讨论 2 条X:cb_doge (@cb_doge)xAI:News(网页)Netflix 高级工程师 Tejas Chopra 开发的开源工具 Headroom(v0.26.0)在 AI 应用与 LLM 间建立本地透明压缩层,通过压缩 JSON、代码、RAG 片段和对话历史等冗余数据减少 Token 消耗,支持可逆压缩与 CCR 缓存机制。实测代码搜索场景 Token 从 17765 降至 1408(节省 92%),SRE 事故调试场景从 65694 降至 5118(同样节省 92%)。累计帮助用户节省约 70 万美元成本、释放超 2000 亿 Token。提供 Python/TypeScript 库、智能体代理模式、直接包装现有 AI 编程智能体以及 MCP 服务器模式,并可精简 AI 回复中客套话进一步降低成本。
金山办公副总裁王少康在“2026人民数据大会”上透露,将于下月(7月)正式推出组织级AI办公产品“企业大脑”WPS Comate,后续将规模化交付。该产品面向知识密集的中大型组织,主打复杂业务场景,整合并激活组织内结构化与非结构化数据,利用AI理解组织结构与协作关系,生成数字员工等AI产品融入业务运营与决策,帮助员工跨工具协同完成专业任务。后续金山办公将对接客户,根据不同公司情况定制专属“企业大脑”,实现数据、系统、流程和知识资源的高效连接,打造AI统一入口。
Codex 推出 Handoff 功能,支持用自然语言指令将正在进行的任务连同完整 Git 状态(未提交代码、当前分支)从笔记本迁移到远程服务器继续运行,之后可再拉回本地。前提:本地需在 Settings > Connections > SSH 配置远程主机;远程也需安装 Codex 并开启“允许其他设备连接”,双方登录同一 ChatGPT 账号;远程需有同一 Git 仓库的克隆并保存为项目,子目录路径需匹配。该功能解决了 AI 编程中途离开时任务进度的托管问题。
Codex can now hand off threads between local and remote hosts. Start work on your laptop, send it to a remote box before...
Cascadeur 取消 AI 动画 token 计费,实现全本地运行,无 token、无 credits、无云端排队,支持无限生成。演示用低多边形 blockout rig 直接生成复杂奔跑动画,多场景秒切。核心功能:导入自定义 rig、AI 补帧与智能摆姿、物理工具自动计算重量感和接触。全程不联网,本地算力即可运行,将动画迭代变为像 Photoshop 滤镜一样随意尝试。
Vista 计划开发 PPT 生成 Skill,核心:同时输出可编辑 PPTX、PDF、HTML;基于 GPT 5.5 Pro 方法论;按环境在 Codex 生图或 SVG 渐变背景;集成 echart、lucide icon、Google Font;内置抓取 X 帖子、长文、论文 PDF 素材。预计下周开源。
Codex can now hand off threads between local and remote hosts. Start work on your laptop, send it to a remote box before...
visionOS 27 将于今秋推送。M5 Vision Pro 独占 Siri 语音定制(Voice Customization),用户可自由调整语气表现力和语速;同时独占搭载 AFM 3 Core Advanced 本地 AI 模型,该模型支持原生多模态能力并采用稀疏架构,需 M5 芯片算力支撑。M2 款 Vision Pro 可共享 visionOS 27 大部分升级,包括 Siri AI、全景照片转空间场景、重新设计的控制中心、更智能的自然语言理解及语音操作交互等。苹果承诺未来通过云端计算为 M2 设备提供部分 AI 功能的折中方案,具体细节尚未公布。
NVIDIA Research 发布 SpatialClaw,一个免训练的空间推理框架。它通过将代码作为动作接口,让智能体调用感知工具(Depth Anything 3、SAM 3)并自由组合输出,解决视觉语言模型在 3D 空间判断上的弱点。在 20 项基准测试中平均准确率达 59.9%,比近期智能体 SpaceTools 高 11.2 个百分点,比无工具基线高 6.5 点,比结构化工具调用高 3.2 点。框架无需重新训练,同一提示词和工具集可跨所有基准和骨干网络运行,支持 Qwen3.5/3.6 及 Gemma4 等 26B 至 397B 参数的模型。
Codex can now hand off threads between local and remote hosts. Start work on your laptop, send it to a remote box before...
DeepAdapt 发布 ACI(自适应持续智能)运行时学习层,通过将重复工作负载从 GPU 转移至标准 CPU,实现运营成本降低 82%、推理速度提升 33 倍(中位延迟 159 ms)。ACI 在推理时实时学习模型决策、人工修正与反馈,已知请求直接本地 CPU 处理,仅不确定或复杂请求回传底层 LLM。基准测试:token 消耗降 90%、生产级成本降 5.7 倍、准确率 96%(对比无 ACI 的 85%)、每千次决策能耗降 85.7%、规则违规减 4.8 倍。无需微调或重训,即插即用,GPU 依赖随系统成熟递减。该架构先用于云端 LLM 智能体,未来对个人设备同样重要。
Claude Code新增Artifacts功能,可将整个工作会话(代码、上下文、工具调用)打包成独立网页,后台持续迭代时页面自动同步更新。生成的私密链接可共享给团队成员,支持切换历史版本,适用于PR走查、系统架构图、交互式数据分析仪表盘等场景。目前以beta版面向Team和Enterprise计划开放。作者认为,该功能的核心价值在于将AI产出从静态文本升级为可共享、可实时更新的数字资产,降低技术方案向非技术人员解释的成本,让AI更顺畅地融入团队协作流程。
New in Claude Code: Artifacts. Interactive pages built from your session, like a PR walkthrough or a living project dash...
信实工业在年度股东大会上发布 AI 通话助手 Jio Call Agent,直接嵌入 Jio 电信网络,可转录对话、生成摘要,并帮助用户叫车、点餐和预订,用户通过“Hey Jio”唤醒,预计今年晚些上线,覆盖超 5 亿用户。同时推出 AI 版 MyJio,支持自然语言指令完成开通 eSIM、选漫游套餐等操作;TeleFrame 可利用 AI 智能体主动显示天气预警、日程和家庭提醒。信实还通过 Reliance Intelligence 为消费者、企业和政府开发支持印度 22 种语言的 AI 基础设施。安巴尼强调印度不能只做 AI 消费者,而应成为创造者和全球领导者。
印度信实工业在年度股东大会上发布AI服务:Jio Call Agent可加入电话会议转录、总结并执行叫车、订餐等任务,通过“Hey Jio”激活,今年晚些时候面向超5亿用户上线;MyJio应用新增AI版,支持自然语言激活eSIM、选择漫游套餐;家庭显示设备TeleFrame利用AI智能体推送天气、日程提醒;还推出医疗、教育、农业和中小企业AI套件,支持22种印度语言。公司计划投资1100亿美元建设AI基础设施,并与Google、Meta、Nvidia合作。此外,Jio Platforms董事会批准IPO草案,拟发行最多2.7亿股新股。
商汤 SenseNova U1 具备行业首创的文本-图像交错生成能力。用户上传客厅照片后,U1 可瞬间将其风格转变为温馨阅读角。该演示由 @eigi_and_ai 完成。U1 现已通过 SenseNova Studio、HuggingFace 模型库、GitHub 源码及 Discord 社区开放体验。
Cloudflare 在 Workers 上推出临时账户(Temporary Accounts),允许 AI 智能体直接运行 `wrangler deploy --temporary`,在数秒内获取一个可用的实时 Worker,无需绕开面向人类设计的部署流程。该功能旨在降低智能体部署门槛。