5月13日
10:34
10:13
09:49
ginobefun@hongming731
精选76
OpenAI Codex新增Computer Use能力,AI助手操作桌面软件

OpenAI为Codex引入Computer Use能力,使其从操作代码扩展到本地GUI应用。Codex拥有独立光标,不接管用户输入,允许用户并行工作。技术架构混合视觉模态截图和无障碍框架API,Spark模型依赖无障碍数据加速任务执行。安全层面采用逐应用权限授权,在用户允许前无法访问任何应用,保护隐私。目前该功能已在Mac上可用,Windows支持即将推出。

智能体MCP/工具OpenAI产品更新

推荐理由:Codex 这件事的关键不在新功能,而在独立光标的并行设计,让 AI 从「接手」变成「队友」。混合视觉与无障碍的架构也很实在,开发者可以看看 Agent 下一步怎么走进所有桌面软件。
09:30
Alibaba Cloud@alibaba_cloud
精选65
AI的未来是智能体原生的。 很高兴能与Hermes Agent及@NousResearch社区共同开启这段旅程。 Qwen 3.6 Plus现于Nous Portal限时免费--快来尝试吧。⚡

Nous Research: Qwen 3.6 Plus by @Alibaba_Qwen is now FREE for a limited time on Nous Portal! Nous Portal is one easy subscription that ...

智能体产品更新
关联讨论 1X:通义千问 / Qwen (@Alibaba_Qwen)
推荐理由:Qwen 3.6 Plus 本身不算新,但阿里云和 Nous 联手搞限免,对 agent 开发者是个无脑试用的窗口,想省成本的可以冲。
08:49
Berryxia.AI@berryxia
69
Google DeepMind推出AI化鼠标指针,实现手势语音操控Gemini

Google DeepMind近日发布了一项创新功能,将传统鼠标指针AI化。用户可通过手势(如指向、悬停)、语音及自然简写,在屏幕任意位置直接指挥Gemini模型,无需切换应用或编写复杂指令。该功能已集成于Google AI Studio和Chrome Gemini,能实时识别光标下的文字、图片、代码等内容语义,结合上下文理解用户意图,实现如将PDF内容转为邮件要点、表格转为图表等智能操作。这标志着人机交互从基于“坐标”的操控向基于“意图”的理解迈出了重要一步,尤其便于Agent开发者、UI设计师等用户提升效率。

智能体Google产品更新多模态
08:49
Berryxia.AI@berryxia
61
Claude Code推出/goal功能,实现任务自动化

Claude Code推出/goal功能,允许用户通过一行命令让Claude持续工作直至任务完成,无需额外指令。该功能旨在实现开发任务的自动化,减少人工干预,提高工作效率。

AnthropicMCP/工具产品更新编码
08:49
Berryxia.AI@berryxia
56
Meta推出实时语音视觉AI,即将登陆Ray-Ban眼镜

Meta发布了由Muse Spark驱动的Meta AI Voice Conversations,实现实时语音与视觉交互。该功能支持打断对话、切换话题,在聊天过程中生成图像和拉取内容,并能通过相机对准现实世界进行实时视觉问答。这一技术即将集成到Ray-Ban Meta智能眼镜中,提升穿戴设备的AI体验。

Meta产品更新多模态语音
08:41
meng shao@shao__meng
65
Gemini Intelligence 登陆 Android,系统升级为主动型AI平台

Google将Android重新定位为主动型AI系统,推出Gemini Intelligence。其核心在于深度软硬件结合,首发于三星Galaxy和Google Pixel手机,后续将扩展至手表、汽车等设备。五大核心能力包括:跨应用多步骤任务自动化、Chrome浏览器内的智能研究与代办、基于上下文理解的智能填表、将口语实时整理成书面稿的“Rambler”功能,以及用自然语言生成自定义主屏幕Widget。这些功能均在用户指令下执行,并注重隐私与控制权。

Sundar Pichai: Today at the @Android Show (I/O edition) we announced Gemini Intelligence - bringing the best of Gemini to our most adva...

智能体Google产品更新多模态
08:41
meng shao@shao__meng
71
Google 发布首款 AI 优先笔记本 Googlebook,集成 Gemini 智能

Google 正式推出首款为 Gemini Intelligence 设计的笔记本 Googlebook,标志着从“云优先”的 Chromebook 时代进入“AI 优先”新阶段。其核心创新包括:Magic Pointer 将系统光标变为 AI 交互入口,可直接触发上下文建议与任务;Create Your Widget 允许通过自然语言生成聚合多源信息的动态桌面小组件;深度整合 Android 生态,实现手机 App 无缝调用与文件跨设备快速访问。该产品以 Gemini 为核心,旨在将 AI 能力下沉至系统级交互,降低使用门槛,并强化跨设备协同体验。

Google: Introducing Googlebook, the first laptop designed for Gemini Intelligence. It's crafted for heavyweight performance, bui...

Google产品更新端侧
08:22
小互@xiaohu
59
Google将Gemini升级为Android系统级AI大脑

Google将Gemini从聊天机器人升级为Android的“系统级大脑”,重新定义了下一代Android的架构。新架构从过去的“App + 系统”转变为“AI理解层 + 系统 + App”。Gemini作为主动式AI,能主动理解用户当前行为、潜在意图、可协同的App,并自动执行下一步任务。其核心目标是改变“人操作App”的传统手机逻辑,让AI直接理解用户意图并实现跨App的自动执行。

Google产品更新多模态
08:13
Satya Nadella@satyanadella
68
微软推出多模型AI安全系统,集成超百智能体高效发现漏洞

微软推出新型多模型智能体安全系统,整合了超过100个基于前沿和定制模型的专用智能体,用于发现可利用的安全漏洞。该系统在CyberGym基准测试中取得了顶级性能。在最近的Patch Tuesday之前,该系统已帮助发现并修复了16个漏洞。微软宣布客户现可申请加入该系统的私有预览测试。

智能体Microsoft产品更新部署/工程
08:00
07:52
小互@xiaohu
60
Google发布AI笔记本平台Googlebook,Gemini驱动智能操作

Google推出新平台Googlebook,这是一个以Gemini AI为核心的笔记本电脑系统,旨在超越传统操作系统概念。Gemini被集成到鼠标指针中,能主动理解用户当前屏幕内容,并提供智能动作建议,如自动创建会议、生成图像搭配效果或总结改写内容。这标志着电脑操作逻辑的根本转变:从用户手动打开应用执行功能,变为AI基于上下文主动组织并执行操作,体现了向AI驱动平台的演进。

智能体Google产品更新多模态
07:06
宝玉@dotey
65
Anthropic开源"Claude for Legal"项目,为法律行业推出定制化AI工具集

Anthropic正式开源“Claude for Legal”项目,针对法律行业推出12个具体岗位的AI插件和超过20个连接行业常用软件的MCP连接器。用户通过简短的“冷启动访谈”定制本地CLAUDE.md文件,使插件能遵循团队特定的风格与标准,解决AI法律工具输出内容过于通用的问题。插件功能覆盖合同审阅、NDA分级、专利侵权对比表生成等重复性工作,并深度集成Thomson Reuters CoCounsel、iManage、DocuSign等主流平台。项目基于Claude Opus 4.7模型,但强调所有输出仅为律师审阅的草稿,不能替代专业法律判断。

AnthropicMCP/工具产品更新
06:38
Demis Hassabis@demishassabis
精选81
团队正在用AI重新构想鼠标指针,成果非常酷!在@GoogleAIStudio尝试原型版本,体验相当神奇。 【引用 @GoogleDeepMind】:我们正用AI重新构想这个存在50年的界面--鼠标指针。🖱️ 这些实验演示展示了人们如何通过动作、语音和自然简写,在屏幕上直观操控Gemini完成任务🧵

Google DeepMind: We're reimagining a 50-year-old interface - the mouse pointer - with AI. 🖱️ These experimental demos show how people ca...

Google产品更新多模态语音

推荐理由:用了50年的鼠标指针第一次被AI改造,这个原型让你在屏幕上随手画圈、说话、打缩写就能控制Gemini,产品经理和设计师都该去玩一下。
05:05
🚨 AI News | TestingCatalog@testingcatalog
63
Meta推出Muse Spark驱动的AI语音对话与实时视觉交互功能

Meta宣布推出由Muse Spark驱动的AI语音对话功能,支持自然语言交流、实时生成图像及从Reels、地图等多源获取信息。该功能将整合至Meta AI应用的新语音模式和实时摄像头视图中,用户可通过摄像头对现实世界进行实时问答。购物模式新增了搜索Facebook Marketplace等能力。Muse Spark将逐步在Ray-Ban Meta等智能眼镜上于美加推出,并于今夏登陆Meta Ray-Ban Display,其智能能力也将扩展至WhatsApp、Instagram等全平台的多类场景中。

Meta Newsroom: Today we're introducing Meta AI Voice Conversations powered by Muse Spark that let you talk naturally to Meta AI (interr...

Meta产品更新图像生成多模态
05:02
05:02
04:33
OpenAI Developers@OpenAIDevs
精选70
计算机使用让Codex能在你的应用间工作而不占用你的Mac。 @AriX与@romainhuet探讨当代理程序能点击、输入并在后台持续工作时将带来哪些改变。
智能体MCP/工具OpenAI产品更新

推荐理由:Codex 这个「computer use」不接管整台 Mac,只在后台帮你点、帮你打字,对用过 Cursor 接管全屏后心里发毛的开发者来说,是个更让人放心的设计,但有没有宣传的那么顺还得等实测。
03:27
03:24
PixVerse@PixVerse_
26
@Kawaiizice 这些滑板者太强了👀

Kawaiizice: Nossa raposinha skatista levou a Clover pra dar um passeio de skate! 🦊🛹🍀 "Rumo aos céus!" (aos céus? sim!) (ꏿ ω ꏿ) ps...

产品更新图像生成视频
02:38
阿绎 AYi@AYi_AInotes
63
Obsidian全新社区上线,重构插件生态解决安全与审核难题

Obsidian全新社区站点正式上线,对其插件生态进行了彻底重构。新社区为每个插件提供公开的安全记分卡,自动扫描版本更新的恶意代码,并一次性处理了2300多个积压提交。此举旨在应对AI编程工具大幅降低插件创建门槛后可能出现的数量激增,通过自动化持续扫描平衡生态发展速度与安全风险。新系统还提供了开发者仪表盘和更好的用户体验,增强了其作为可信生产力平台、吸引企业客户的能力。

Obsidian: http://x.com/i/article/2054219318758703104

产品更新开源生态
02:33
01:33
OpenAI Developers@OpenAIDevs
精选71
Symphony:每个开放任务都有一个正在运行的Codex智能体

George: http://x.com/i/article/2031521021342388224

智能体OpenAI产品更新编码

推荐理由:OpenAI 让每个开启的任务都自动配上一个 Codex agent,这不是单个功能的更新,是开发者 workflow 的一次静默接管。
01:27
Chubby♨️@kimmonismus
64
Google DeepMind用AI重塑鼠标指针,开启人机交互新范式

Google DeepMind基于Gemini模型,对沿用五十余年的鼠标指针进行了AI化革新。新的智能指针能实时识别屏幕内容、理解上下文,并响应语音指令,用户通过指向和自然语言即可直接操作,无需复制粘贴或与聊天窗口交互。该技术已推出实验性演示,集成于Chrome和Google AI Studio,旨在提供更直观的交互方式,可能推动传统聊天机器人界面的变革。

Google DeepMind: We're reimagining a 50-year-old interface - the mouse pointer - with AI. 🖱️ These experimental demos show how people ca...

产品更新多模态
00:54