语音克隆技术上线 真假难辨
两种声音。一种来自人类。一种来自AI。你能猜出哪个是AI克隆的吗?👇 具备丰富自然情感的声音克隆功能,现已在Grok Voice API上线。 http://x.ai/news/grok-custom-voices
两种声音。一种来自人类。一种来自AI。你能猜出哪个是AI克隆的吗?👇 具备丰富自然情感的声音克隆功能,现已在Grok Voice API上线。 http://x.ai/news/grok-custom-voices
管理API密钥是我们从客户那里听到的最主要的安全顾虑之一。 今天我们为Claude平台推出无密钥认证:通过CLI在浏览器中进行身份验证,或让工作负载使用其现有的云身份(AWS、GCP、Azure或任何OIDC令牌提供者)。
KroWork是一款创新的桌面AI智能体,其核心在于“应用固化”能力,能将对话直接转化为持久可用的本地软件。它不止于生成代码建议,而是端到端自主执行任务,并将完整工作流保存为名为“Kro App”的独立应用。用户一键安装后,该应用即可像常规软件一样运行,无需重复消耗tokens或重建流程。所有操作均在本地设备完成,无需编程背景,且数据完全脱离云端。这标志着AI从对话助手向能构建并交付实体软件的工具转变。
Cursor官方团队将其内部使用的开发工作流打包成名为“cursor-team-kit”的插件。该插件集成了17个核心Skills、1个Agent和2条Rules,旨在提升团队协作与代码质量。核心Skills涵盖五大领域:CI/合并循环自动化、PR全流程管理、验证与测试、总结复盘以及代码治理。其中,ci-watcher Agent可后台监听CI状态,而两条Rules则强制规定了TypeScript的代码风格。该插件是团队用于构建Cursor产品自身经验的封装,专注于验证变更、驱动本地工具和交付可评审的PR。
OpenClaw 2026.5.3 🦞 📁 配对节点间的文件传输 🧭 使用 /steer + /side 进行实时智能体控制 🔌 插件安装/更新已加固 🛠️ 频道与升级修复 重大发布,减少琐碎问题。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.3
在行业标准推理引擎vLLM上的测试显示,NVIDIA GB300 NVL72的实测端到端性能已达GB200 NVL72的2.7倍。尽管其纸面参数仅显示NVFP4算力提升约1.5倍、HBM容量增加1.5倍且带宽相同,但在大多数服务商实际运行的中段负载区间,凭借全栈优化的复合增益,GB300实现了远超理论算力提升的性能飞跃。此次测试基于NVIDIA、Inferact和CoreWeave为开源项目提供的临时GB300系统完成,结果印证了端到端实测性能才是衡量硬件效能的黄金标准,而非单纯的纸面理论算力。
Gemini API 引入了事件驱动的 Webhook 功能,这是一种基于推送的通知系统。它旨在消除低效的轮询需求,为长时运行的任务(如文件处理或复杂推理)提供更优的解决方案。当任务完成时,系统会自动将结果推送到用户指定的端点,从而显著降低延迟并减少资源消耗,提升开发效率与响应速度。
从构想到原型,借助Gemini中的Nano Banana 2,将您独特的产品愿景变为现实。🪀
OpenAI成立了名为“部署公司”的百亿美元合资公司,筹集超40亿美元,旨在帮助企业克服AI部署障碍。核心观点是,当前企业采用AI的主要瓶颈已非模型质量,而是缺乏整合团队、工作流程、数据访问和安全规则的能力。该公司通过联合TPG、Brookfield等私募股权投资者,打包软件、咨询和部署方案,直接触达超2000家投资组合公司,实现规模化分发。同时,Anthropic也正与Blackstone、Goldman Sachs等华尔街机构组建类似合资公司,为私募股权支持的企业部署Claude并重建工作流程。这标志着AI实验室的竞争焦点正从模型性能演示转向工业化部署速度与路径控制的争夺。
Anthropic联合黑石、Hellman & Friedman和高盛等顶级投资机构,共同成立一家专注于企业AI服务的新公司。该公司旨在帮助各行业的中型企业将其Claude AI深度集成至核心运营流程,弥补其缺乏前沿AI部署能力的缺口。Anthropic的应用AI工程师将与客户紧密合作,定制开发解决方案并提供长期支持。此举与现有面向大型企业的Claude合作伙伴网络形成互补,首例应用已涉及医疗健康领域的自动化文档处理,以提升诊疗效率。
OpenAI 与普华永道宣布合作,旨在通过AI智能体帮助企业自动化财务工作流程、改进预测、强化控制并实现首席财务官职能的现代化。双方将把OpenAI的企业版ChatGPT等工具整合到普华永道的服务中,为数千名员工提供高级AI访问权限,以处理财务分析、税务、咨询等任务。这一合作标志着专业服务公司首次大规模应用生成式AI,目标是提升效率、减少人工错误并推动财务职能的战略转型。
谷歌于2026年4月宣布多项AI进展。核心包括推出新一代多模态模型Gemini 2.0,其上下文窗口大幅扩展至200万tokens,并增强了对实时视频和音频的理解能力。同时,AI深度集成至搜索与Workspace产品中,提供智能规划与自动化助手功能。公司还开源了轻量级模型Gemma 2系列,并升级了AI开发平台Vertex AI,强调实用性、可访问性及负责任部署。
OpenClaw 社区将于微软 Build 2026 大会期间,在 GitHub 总部举办线下聚会。活动将包含项目演示和交流环节。参与者可选择亲临现场,或通过 Twitch 平台观看线上直播。
MolmoAct2 是一个为实际部署设计的全开放动作推理模型,在五个方面取得进展。其核心是专为空间与具身推理训练的 VLM 骨干 MolmoER,基于 330 万样本语料库训练。团队发布了三个新数据集,包括迄今最大开放双手数据集 MolmoAct2-BimanualYAM(720 小时遥操作轨迹),并开源了动作分词器 OpenFAST。模型采用层间 KV 缓存条件化架构,嫁接连续动作专家,还引入自适应深度推理变体 MolmoThink,以极低延迟保持几何基础。在广泛实证研究中,MolmoAct2 在 7 个仿真与真实世界基准上超越 Pi-05 等基线,MolmoER 在 13 个具身推理基准上超过 GPT-5 和 Gemini Ro…
Sakana AI在ICLR 2026上发表研究,提出一个仅70亿参数的“指挥者”模型。该模型不直接解决问题,而是通过强化学习训练,专注于为混合开源与闭源模型的工作者智能体设计通信拓扑结构,并为每个工作者生成精准指令以发挥其特长。经随机化智能体池训练后,它能在推理时适应任意智能体组合。其关键创新在于,当允许指挥模型将自己也选为工作者时,系统会形成递归拓扑,实现动态测试时扩展。该模型在GPQA-Diamond和LiveCodeBench上达到SOTA水平,在AIME25和GPQA-D上的性能比最佳单体工作者提升约3%,这相当于前沿模型一个代际的改进幅度,且增益完全来源于协同优化。
研究焦点:AI代理泄露企业数据、为云端部署打造更智能的操作系统,以及关于如何在工作中实际构建AI应用的新研究。https://msft.it/6016vKxQm
研究团队提出PORTool算法,以解决多工具集成推理中仅依靠结果奖励导致的信用分配模糊问题。该方法通过重要性感知策略优化,在结果级监督下强化智能体的工具使用能力,同时实现步骤级奖励分配。PORTool生成奖励树来明确关键决策步骤,从而更精确地引导模型学习有效的工具调用序列,提升复杂任务解决的效率和可靠性。
借助Algrow的MCP平台,Claude现已能直接分析YouTube等平台的视频内容,自动生成包含数据表格、爆款拆解与留存曲线的深度报告。这标志着大模型竞争重点转向生态建设,第三方开发者通过工具链迅速弥补了Claude的原生视频短板。该功能为内容创作者提供了高效分析竞品、提炼爆款公式的生产力工具,并预示视频研究Agent时代的开启。目前处于免费试用阶段,未来订阅定价亲民。
Redis创始人Salvatore Sanfilippo提交了为Redis新增数组数据类型的PR,引入了包括ARCOUNT、ARDEL、ARGREP等在内的18个新命令。其中最引人注目的是ARGREP命令,它利用新集成的TRE正则表达式库,可直接在服务器端对数组值进行正则搜索。目前该功能已在一个分支中实现,开发者Simon Willison借助Claude Code构建了一个交互式在线沙盒,通过运行在浏览器中的WASM版Redis子集,供用户体验这些新命令。Salvatore还撰文详细介绍了在AI辅助下开发此功能的历程。
我撰写《Deep Learning with Python》旨在成为理解深度学习工作原理及最佳应用方式的权威指南。数以万计的人通过这本书开启了职业生涯。已售出12万册,更有数百万人下载阅读。 现在可以免费在线阅读:https://deeplearningwithpython.io/
这是一个名为 Ableton Live MCP 的开源项目,它通过模型上下文协议(MCP)将 Ableton Live 音乐制作软件与大型语言模型(如 GPT、Claude)连接起来。该项目在 Hacker News 上获得了 100 点热度,其核心功能是让 LLM 能够读取和控制 Ableton Live 的会话数据,从而可能实现基于自然语言指令的音乐创作与自动化流程。
针对AI编程工具常犯的“默默假设”、“过度自信”和“无效重构”等问题,一份名为CLAUDE.md的文档被整理出来,旨在为AI设定工程纪律。其核心四条原则是:编码前先思考并澄清歧义;优先用最简代码实现需求;仅修改与需求直接相关的代码;为任务设定明确、可验证的目标。这套规则旨在约束AI行为,使其更接近靠谱工程师的作风,解决其“太积极、太爱脑补、太喜欢顺手优化”的痛点。
DeepClaude项目在GitHub上发布,它是一个结合了DeepSeek V4 Pro模型的Claude代码代理循环工具。该工具的核心优势在于显著降低了使用成本,其价格仅为原Claude方案的1/17,即便宜了约17倍。这一开源方案为开发者提供了一个高性能且极具成本效益的代码生成与处理替代选择。
迪士尼内部上线AI使用看板,追踪员工调用Claude的频率和token消耗。数据显示,一名员工在9个工作日内调用Claude约46万次,平均每1.7秒一次。与此同时,迪士尼正裁员约1000人。硅谷正流行“tokenmaxxing”文化,比拼AI token消耗量。Meta内部统计显示,其8.5万名员工在30天内消耗了60万亿token,价值约900亿美元;Uber的年度34亿美元AI预算在4个月内耗尽。报告显示,Claude用户中非程序员用途已超半数。
你可以在 Replit 中构建完整的商业计划书演示文稿,无需触碰任何幻灯片。 只需描述你想要的内容,在聊天中迭代修改,可视化编辑,然后导出为 PPTX、Google Slides 或 PDF(或发布实时链接)。 以下是具体操作方式👇