谷歌宣布其Gemini应用现已支持直接生成并下载多种格式文件。用户仅需输入一条提示词,即可在对话中创建PDF、Microsoft Word、Excel、谷歌Workspace文档等,无需离开应用即可完成从构思到成文的流程。该功能已面向全球所有Gemini用户开放,生成的文件可直接下载至设备或导出至谷歌云端硬盘。支持的格式包括谷歌文档、表格、幻灯片、PDF、Word(docx)、Excel(xlsx)、CSV、LaTeX、Markdown、纯文本(TXT)和富文本格式(RTF)。
谷歌宣布其Gemini应用现已支持直接生成并下载多种格式文件。用户仅需输入一条提示词,即可在对话中创建PDF、Microsoft Word、Excel、谷歌Workspace文档等,无需离开应用即可完成从构思到成文的流程。该功能已面向全球所有Gemini用户开放,生成的文件可直接下载至设备或导出至谷歌云端硬盘。支持的格式包括谷歌文档、表格、幻灯片、PDF、Word(docx)、Excel(xlsx)、CSV、LaTeX、Markdown、纯文本(TXT)和富文本格式(RTF)。
宇树科技发布新款双臂人形机器人,起售价2.69万元。该机器人主打上半身双臂操作,配备视觉双目算力模组,支持15至31个自由度,手臂自由度可选5x2或7x2。机身和头部各搭载8核CPU,头部模组算力达10TOPS。下半身可选固定底座或移动底盘,末端执行器可更换为双指、三指或五指灵巧手。产品提供四个不同配置版本。
微软于4月29日宣布,为拥有Microsoft 365 Copilot许可的用户在Windows、macOS及iOS平台的OneNote应用推出AI功能更新。新版内置Copilot AI突破纯文本限制,新增对表格、图像及标签的理解与分析能力。例如在规划旅行时,AI可综合分析行程表格、检查清单和景点照片,智能排查行程漏洞并提供优化建议。该更新通过服务器端推送自动部署,用户无需手动更新,只需确保设备版本符合要求即可。
三星智能眼镜 Galaxy Glasses 产品信息近日曝光。该眼镜外观类似太阳镜,重量约50克,搭载高通骁龙AR1处理器和1200万像素索尼IMX681传感器,支持Wi-Fi与蓝牙5.3,内置155mAh电池。设备一侧设有摄像头,另一侧有LED指示灯,并集成麦克风、扬声器及触控区,支持快速配对与电量查询。据悉,它未配备内置显示屏,主打音频与AI体验,预计运行Android XR系统并集成Gemini AI助手,可通过语音唤醒。
ASUSTOR宣布将推出新一代全闪存NAS产品Flashstor Gen3系列,包括Flashstor 6 Gen3和Flashstor 12 Pro Gen3两款型号。新品均搭载AMD锐龙5 PRO 8640U处理器,提供16 TOPS的NPU AI算力,支持本地边缘计算和智能影像识别。该系列分别提供6个和12个M.2 NVMe SSD盘位,最高支持PCIe Gen4,并配备USB4、HDMI等接口。其支持双USB网络直连,传输效率可超越10GbE。同期推出的还有12盘位存储扩充设备Xpanstor 12R Gen2,配备550W白金效率冗余电源和热插拔风扇,可为特定NAS系列提供额外存储空间。
Simon Willison 发布了其命令行工具 LLM 的 0.32a0 版本。此次更新为 alpha 预发布版本,主要变更与详细说明可通过 GitHub 的发布页面及作者博客上的注解式发布说明获取。该版本标志着 LLM 工具在功能或兼容性上的进一步迭代,通常涉及对大型语言模型(如 GPT、Claude、LLaMA 等)进行访问或操作的改进。
llm 发布了 0.32a1 版本,修复了 0.32a0 版本中存在的一个关键缺陷。该缺陷会导致从 SQLite 数据库重新加载时,工具调用对话无法正确恢复。此次更新解决了 GitHub 上的 issue #1426。
苹果计划在 iOS 27 版相机应用中新增 Siri 模式,整合 Visual Intelligence 功能。该模式将与现有拍照模式并列显示,使智能视觉能力更易访问。功能包括扫描食品营养标签记录卡路里数据并同步至健康应用,识别名片信息添加联系人,以及扫描活动门票和会员卡生成数字版本存入钱包。此前需长按按钮激活的隐蔽操作被直接集成,提升用户使用便捷性。
<谷歌相册推出AI衣橱规划功能,通过人工智能自动提取用户照片中的服装图像,整理到数字衣橱。用户可按类别筛选服装,混搭单品设计穿搭,并支持虚拟试穿预览;还可保存穿搭到数字情绪板,适用于不同场合。该功能预计今年夏季首发于安卓平台,随后登陆iOS设备。>
OpenRouter 四月发布涵盖视频生成、工作区(workspaces)、Agent SDK、重排序模型(reranker models)以及一批前沿模型(frontier model)的推出。
OpenRouter 在四月推出多项更新,涵盖视频生成、工作区功能、Agent SDK、Reranker 模型以及一批前沿模型。
本月发布聚焦视频生成、工作空间、智能体SDK与重排序模型。多家公司推出前沿大模型,包括GPT、Claude和LLaMA系列的新版本。核心变化体现在模型多模态能力增强,特别是视频生成功能成为竞争焦点。部分新模型在标准基准测试中性能提升超过15%,同时上下文窗口扩展至百万token级别。开发者工具方面,新的智能体SDK支持更复杂的任务编排,而重排序模型显著提升了检索精度。
Anthropic发布《企业级Claude Cowork部署指南》,旨在帮助非技术岗位员工规模化应用AI。该指南基于内部团队及Thomson Reuters等客户实践,提供了从试点到全面推广的完整路径。核心内容包括一个五级成熟度模型、试点用例评估方法以及为期六个月的组织级部署路线图。Claude Cowork作为桌面应用,能深度集成本地文件、Slack、Google Drive及浏览器,并结合Claude for Excel/PPT实现跨文档工作流,适用于金融、法律、销售等多行业的生产场景。
Cloudflare 宣布 AI 代理现可作为独立客户直接使用其服务。代理能够自主创建 Cloudflare 账户、开通付费订阅、注册域名,并立即获取 API 令牌以部署代码。人类用户可保留授权监督权限,但无需手动操作控制台、复制粘贴 API 令牌或输入信用卡信息。这一更新使代理能够以自动化流程完成从账户开设到服务部署的全链路操作。
Claude API技能现已扩展集成至CodeRabbit、JetBrains、Resolve AI和Warp四款开发工具中,使开发者能在其常用环境中直接获得生产就绪的Claude API代码支持。该技能能自动捕获API最佳实践细节,如适配的智能体模式、参数变更与提示缓存规则,从而减少错误并简化模型迁移。开发者可在工具内直接指示Claude执行“提高缓存命中率”或“升级至最新Claude模型”等任务。此开源技能会随SDK更新自动同步,帮助团队更快采用新功能,避免因API知识过时导致的生产问题。
Google Gemini 新增了在聊天界面内直接创建完整办公文档的功能。用户现可基于PDF、Word文件等源材料,让AI生成对应的文档、电子表格和演示文稿。这一集成将内容创建流程进一步简化,用户无需切换应用即可在对话中完成多种办公文件的制作。
Google Cloud推出了一项高性能集成方案,通过fsspec接口将Rapid Storage直接连接至PyTorch,以消除AI训练瓶颈。该方案利用Google的Colossus架构和双向gRPC流技术,可提供高达15 TiB/s的聚合吞吐量,并显著降低延迟。开发者仅需更新存储桶类型而无需修改代码,即可将总训练时间缩短23%。
华为鸿蒙“龙虾”小艺 Claw 迎来11.6.3.300版本更新。核心升级包括上线“自进化”能力,可学习用户长期偏好以减少重复沟通;并正式接入DeepSeek V4模型,获得百万级上下文处理能力,在信息搜集、文档处理等任务中具备更强推理能力。此外,更新引入了社区与生态伙伴的精选技能,覆盖金融、办公等多领域。该智能体已获得信通院首个终端厂商权威安全认证。目前,支持该功能的小艺App已开启尝鲜升级。
Gemini 现已具备记忆用户偏好的能力,并支持从其他人工智能应用导入聊天历史记录。该功能率先在欧洲市场推出,允许用户将外部数据(例如来自 ChatGPT 的对话记录)迁移至 Gemini,以提升服务的个性化体验。
运行 stripe projects add openrouter/api 即可从命令行获取 OpenRouter 账户、API 密钥和 Stripe 计费,AI 智能体同样可以执行此操作。
运行 stripe projects add openrouter/api 即可从命令行创建 OpenRouter 账户、获取 API 密钥并配置 Stripe 计费。AI 智能体同样可自动化完成该操作,无需手动注册。
Cursor 正式推出 SDK 公开测试版,开发者仅需几行 TypeScript 代码即可构建和部署智能体。该 SDK 提供与 Cursor 应用相同的运行时、框架及前沿模型(如 GPT-5.5)支持,并允许将智能体部署于本地或 Cursor 云的专用虚拟机。借助其生产级云基础设施,如安全沙箱和持久状态管理,智能体正从个人工具演变为组织的可编程基础设施。许多团队已将其集成至 CI/CD 流水线、工作流自动化及核心产品中。
运行 stripe projects add openrouter/api 命令,即可直接从命令行创建 OpenRouter 账户、获取 API 密钥并开通 Stripe 计费功能。该操作支持自动化代理执行,实现了账户开通与支付配置的一站式集成。
通用汽车宣布在美国为约400万辆2022款及更新的凯迪拉克、雪佛兰、别克和GMC车型推送谷歌Gemini AI助手,这是Gemini在汽车行业内规模最大的部署之一。该助手将与车辆信息娱乐系统中的谷歌服务及OnStar连接能力深度集成,提供增强的AI体验。此外,Gemini更新未来将逐步扩展到其他市场并支持更多语言。
砺算科技宣布其国产显卡砺算科技7G100将于5月20日在京东首发开售。为回应“画大饼”质疑,官方通过视频展示了该显卡的制造与测试产线。该GPU采用TrueGPU架构,基于6nm工艺,宣称从核心到架构均为自主研发。同系列消费级型号LX 7G106配备12GB GDDR6显存,兼容主流图形API,可运行《赛博朋克2077》等游戏并支持AI PC大模型,且7G100已通过微软WHQL认证。
三星在法国发布了新款Windows 11 Arm笔记本Galaxy Book 6 Edge。该机配备16英寸Dynamic AMOLED 2X屏幕,支持120Hz刷新率,并搭载了算力更强的骁龙X2 Elite处理器,NPU算力最高达80 TOPS。机身厚度显著缩减至12.3毫米。其续航表现突出,满电可播放视频22小时,并支持65W快充。提供512GB和1TB存储版本,冰川灰配色,预计5月初开售,起售价约为2199欧元。
DeepSeek已灰度测试“识图模式”,新增多模态图片理解功能,用户可上传图片并获取描述。该模式与“快速模式”“专家模式”并列,并非简单OCR文字识别。部分测试用户反馈响应速度很快,类似flash;但亦有用户遇到“识图模式暂不可用”提示。网络响应内容显示该功能模型类型为“vision”,状态为“图片理解功能内测中”。
华为为MateBook 14鸿蒙版推送了HarmonyOS 6.1更新。核心更新包括新增对单个应用进行音量调节的功能,以及全新的沉浸光感视效。智慧助手小艺获得增强,新增联网分析、投喂感应区和深度解题智能体等功能。多屏协同能力提升,支持同时打开多个手机协同窗口。此外,更新还带来了Dock栏高度自定义、触控板快捷返回、浏览器双击关闭标签页、文件直接拖拽解压等多项系统与应用优化。
蚂蚁数科在2026数字中国建设峰会上发布DataX智能体数据生态平台。该平台通过接入模型上下文协议(MCP)和专用智能体DTClaw,旨在降低数据使用门槛、缩短数据价值转化周期。DataX汇聚隐私计算、数据加工等Skills库,将传统数据服务转化为标准MCP协议以提升AI接入效率。DTClaw可将复杂的数据处理逻辑封装为即用型Skill与Agent,实现“开箱即用”。平台还构建了基于数据的图谱知识库,支持通过自然语言进行智能编排与高效检索,帮助企业快速构建专业智能体。
特斯拉在最新软件更新中,将FSD系统的接管反馈菜单里的“其他问题”选项替换为专门的“导航问题”选项。此举旨在更精准地收集因导航故障(如限速错误、路线规划不合理)导致的人工接管数据,直接回应了车主长期以来的集中反馈。通过这一分类优化,特斯拉希望为神经网络模型提供更纯净的数据,以优先改进其自动驾驶系统的导航算法和地图精度。
腾讯公关总监张军宣布,腾讯文档已正式集成至全场景AI智能体WorkBuddy中,成为其一个真正的原子组件。此次整合后,WorkBuddy支持直接连接腾讯文档,用户修改文档后可即时保存至云端。同时实现了小程序与电脑端的能力体验同步,用户可通过手机指挥AI处理云端文档,提升了办公场景下的易用性和效率。
Adobe于4月29日更新了Photoshop和Lightroom。Photoshop引入了全新的AI“旋转对象”工具,用户可在3D空间中实时旋转、倾斜和翻转素材,点击“协调”按钮可自动调整光照和阴影以匹配背景。同时,Photoshop还推出了“图层清理”工具,能智能清理、组织并自动重命名图层,移除空图层。Lightroom的搜索功能现支持自然语言描述查找照片,新增多款胶片风格预设,且辅助筛选速度更快,交互式滑块性能提升最高达5倍。
微软正测试Windows 11新版时钟应用,重点升级“专注”功能并集成任务管理与AI辅助。新界面采用圆角设计,任务面板占据半屏,支持排序并深度联动Microsoft To Do。专注模式可最小化运行,允许自定义时长与休息间隔,新增“反思”环节供用户记录专注状态。AI能为任务步骤提供智能建议,可能依托本地NPU运行。当前测试版尚不完善,基础模块如闹钟暂缺,且运行时内存占用接近旧版两倍。
本次更新修复了一个关键的OAuth身份验证故障。当环境变量CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS被设置为1时,系统此前会陷入401错误的重试循环,导致认证失败。此问题现已得到解决,确保了在该特定配置下身份验证流程的正常运行。
Anthropic 近期将其AI编程助手Claude Code的token成本悄然翻倍。根据官网最新说明,每个开发者每个活跃日的平均成本从约6美元升至约13美元,90%用户每日成本上限也从12美元提高到30美元。每个开发者月成本现约为150-250美元。此次未发公告的涨价反映了AI使用成本全面上升的行业趋势。公司增长负责人承认,现有订阅计划已无法适应当前用户的高使用强度。
据爆料,谷歌预计于2026年发布的Pixel 11系列手机将搭载Tensor G6芯片。该芯片的CPU架构将改为1+4+2的7核设计,大核升级为ARM C1 Ultra或C1 Pro,主频达4.11GHz。但其GPU被指将沿用2021年发布的PowerVR CXT-48-1536,被称为“古董级”图形技术。为弥补GPU弱势,谷歌增强了NPU以优化AI负载,并集成了全新的Titan M3安全协处理器以提升硬件级数据保护。这一“重NPU、轻GPU”的策略被认为有助于控制成本,但可能影响游戏体验。
谷歌翻译迎来20周年,目前支持近250种语言和逾6万个语言对,覆盖全球约95%人口。官方推出发音练习功能,在安卓版应用中利用AI分析用户语音并提供即时反馈,帮助改善发音,该功能已在美国和印度上线,支持英语、西班牙语和印地语。数据显示,谷歌翻译最常用短语为“谢谢”,其他热门查询包括“你好吗?”、“我爱你”、“你好”和“请”。
特斯拉宣布将于6月底在美国为搭载HW3硬件的车辆推出FSD v14 Lite软件更新。该版本是完整v14的压缩蒸馏版,旨在让老款车型体验最新的全自动驾驶功能,如自主驶出车位、城市道路导航等,其行为逻辑与HW4车辆相同,但反应速度和决策全面性可能稍逊。特斯拉计划将此更新后续扩展至更多国际市场,但暂无确切时间表。对于硬件瓶颈,公司正筹备名为“AI4”或“AI4-plus”的硬件升级方案,并为老车主提供摄像头升级或以旧换新折扣。
ChatGPT 已开始展示广告,并公开了完整的广告归因流程。该流程详细描述了广告从展示、用户互动到转化跟踪的全链条机制,确保广告效果可准确测量和优化。文章源自 buchodi.com,在 Hacker News 上获得 114 点关注,探讨了这一商业化功能的技术实现与行业影响。