在超大规模编码代理推理中,乱码和生僻字异常伴随低spec_accept_length,复读异常伴随高spec_accept_rate,均因KV Cache状态偏差导致。通过修复KV Cache竞态和加载时序缺失,引入显式同步约束及分层存储优化,提升了推理稳定性和效率。
关联讨论 1 条X:智谱 Z.ai (@Zai_org)Claude产品经理Jess Yan分享了处于测试版的Claude Managed Agents如何改变其工作流程。这套可组合的API能大规模构建和部署云端智能体,使她能在短时间内将想法转化为可运行的原型。她的日常工作由此分流:使用Claude进行开放式探索,然后利用Claude Code基于Managed Agents编写定制智能体来自动化特定任务,如采用分析和舆情监控。这些智能体接管了以往难以规模化的操作性工作,让她能将更多时间投入到与团队和用户的创造性合作中。
关联讨论 3 条Claude:Blog(网页)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)团队通过采用前沿模型Opus,成功降低了大型语言模型(LLM)的运营成本。这一升级不仅提升了模型性能,还实现了成本的反向下降,具体成本降幅未在摘要中明确,但整体费用得到有效控制。此举证明了选用更先进的模型架构可以在不增加开支的前提下获得更好的技术服务效果。
OpenAI 研究人员在播客中指出,数学能力已成为衡量人工智能向通用人工智能(AGI)发展进程的关键测试。AI 模型在短短两年内,已从掌握小学算术进步到能应对奥林匹克竞赛乃至研究级别的数学问题。这种在复杂数学推理上的快速突破,被视为模型泛化能力和抽象思维提升的重要标志,是迈向 AGI 的核心路径之一。
IBM Granite团队在Hugging Face上发布了Granite 4.1系列大型语言模型的构建细节。该系列模型专注于代码与自然语言任务,采用多阶段训练流程,包括大规模代码数据预训练、多样化指令微调以及强化学习对齐。模型架构基于改进的Transformer解码器,并针对长序列和工具使用进行了优化。新版本在多项基准测试中性能显著提升,特别是在代码生成与数学推理任务上,部分指标超越了同规模的开源模型。团队同时公开了部分训练数据集构建方法与评估框架。
关联讨论 1 条X:Artificial Analysis (@ArtificialAnlys)OpenAI 正在扩展其代号为“Stargate”的计算基础设施项目,旨在为通用人工智能(AGI)的研发提供核心算力支持。该项目通过增加新的数据中心容量,以应对全球范围内持续增长的 AI 算力需求。这一举措标志着 OpenAI 在构建下一代大规模计算集群方面进入实质性推进阶段,旨在为未来 AGI 系统所需的巨大计算资源打下硬件基础。
意大利轮胎制造商倍耐力收购瑞典公司Univrses 30%的股份,并获得未来增持至控股权的选择权。双方合作旨在将Univrses的三维人工智能计算机视觉技术整合进倍耐力的智能轮胎系统。该技术结合轮胎内置传感器,可提升车辆安全与自动驾驶能力,并为交通管理部门提供实时道路监测数据。2025年,双方技术已在意大利普利亚大区的道路监测项目中联合应用。交易具体财务细节未披露。
华为鸿蒙“龙虾”小艺 Claw 迎来11.6.3.300版本更新。核心升级包括上线“自进化”能力,可学习用户长期偏好以减少重复沟通;并正式接入DeepSeek V4模型,获得百万级上下文处理能力,在信息搜集、文档处理等任务中具备更强推理能力。此外,更新引入了社区与生态伙伴的精选技能,覆盖金融、办公等多领域。该智能体已获得信通院首个终端厂商权威安全认证。目前,支持该功能的小艺App已开启尝鲜升级。
一项测试显示人工智能在计算碳水化合物摄入量时存在显著不一致性。测试要求AI进行27000次计算,结果每次答案均不相同,无法保证重复性。这一发现突显了AI系统在精确计算任务中的不可靠性,尤其对医疗健康管理等需要高可靠性的领域构成挑战。测试基于糖尿病技术网站的文章,相关讨论在Hacker News上获得116点关注,引发对AI算法稳定性的质疑。
白宫正在起草指导文件,旨在允许联邦机构恢复与人工智能公司Anthropic的合作,包括获取其新模型Mythos。此举是为了解决此前因安全审查等问题导致的合作僵局,意味着Anthropic的技术将重新对美国政府部门开放。
华盛顿大学计算机科学教授丹·格罗斯曼指出,AI编程工具正重塑编程学习。过去教学重点在于语法细节如分号和逗号,如今AI能替非专业和专业人士处理这些琐碎工作。关键能力转向精确描述算法运行和创造性设计应用。艾伦学院已调整教学方式,毕业生就业比例大体稳定,但更多学生进入非传统科技公司。未来软件发展潜力巨大,工程师需求依然旺盛,编程方式持续演变,核心概念仍需掌握。
AI 编程热潮推动 GitHub 用户规模爆发式增长,平台频发故障后启动底层基础设施重构。2025年10月,GitHub 计划扩容至原有承载能力的10倍,但预计未来业务规模将达当前30倍。增长压力导致稳定性问题,如4月23日故障影响658个代码仓库和2092个合并请求。GitHub 正优先保障服务可用性,迁移算力至微软 Azure,物理隔离 Git 等核心服务,并推进多云架构以提升抗故障能力。
微软与 OpenAI 解除了独家合作协议。次日,亚马逊云科技(AWS)便在其 Bedrock 平台上推出了三项新的 OpenAI 服务,其中包括一项双方共同构建的智能体服务。此举标志着 OpenAI 模型正式结束了在微软 Azure 云上的独家托管状态,开始通过 AWS 向更广泛的客户提供。
关联讨论 6 条IT之家(RSS)OpenAI:官网动态(RSS · 排除企业/客户案例)Hacker News 热门(buzzing.cc 中文翻译)X:宝玉 (@dotey)X:Testing Catalog (@testingcatalog)X:Rohan Paul (@rohanpaul_ai)埃隆·马斯克与OpenAI CEO山姆·奥特曼之间备受关注的审判在奥克兰联邦法院开庭,焦点是OpenAI从非营利组织转向营利性公司的争议。双方在法庭上陈述了关于该AI实验室早期历史的截然不同版本:马斯克指控OpenAI违背了最初的非营利使命,而奥特曼则辩护称转型是为了更有效地推进人工智能发展。此案涉及AI伦理与商业化的核心辩论,可能对行业监管和未来创新方向产生深远影响。
关联讨论 3 条X:Kim (@kimmonismus)IT之家(RSS)X:阿易 AI Notes (@AYi_AInotes)美团室内外智能配送机器人“小黄蜂”在重庆江北国际机场T3航站楼投入运营。旅客通过美团App下单机场内商家商品后,可选择该机器人提供登机口直达配送服务,最快10分钟收货。机器人搭载美团自研“星眸”垂域多模态模型,能同时理解视觉、语言及环境信息,并依托“海雀”AIoT物联网平台实现高效协同。据悉,下一代“小黄蜂”将配备机械臂,抓取标准包装成功率超95%,未来接入大语言模型后,还能通过语音指令接收任务,并提供航班查询等便民服务。
Cursor 正式推出 SDK 公开测试版,开发者仅需几行 TypeScript 代码即可构建和部署智能体。该 SDK 提供与 Cursor 应用相同的运行时、框架及前沿模型(如 GPT-5.5)支持,并允许将智能体部署于本地或 Cursor 云的专用虚拟机。借助其生产级云基础设施,如安全沙箱和持久状态管理,智能体正从个人工具演变为组织的可编程基础设施。许多团队已将其集成至 CI/CD 流水线、工作流自动化及核心产品中。
运行 `stripe projects add openrouter/api` 命令,即可直接从命令行创建 OpenRouter 账户、获取 API 密钥并开通 Stripe 计费功能。该操作支持自动化代理执行,实现了账户开通与支付配置的一站式集成。
Gemini 现已具备记忆用户偏好的能力,并支持从其他人工智能应用导入聊天历史记录。该功能率先在欧洲市场推出,允许用户将外部数据(例如来自 ChatGPT 的对话记录)迁移至 Gemini,以提升服务的个性化体验。
英国帝国理工学院、斯坦福大学及互联网档案馆的研究显示,自ChatGPT推出至2025年中,全球互联网约35%的新增内容带有AI生成痕迹,占比从近零快速跃升。研究验证了AI内容存在“语义收缩”和“情绪单一且正面”的现象,其语义相似度比人工内容高33%,正面情绪评分高107%。但其他如事实质量下降等负面影响未获统计支持。目前,生成式AI主要影响了文字多样性和情绪表达,对信息可信度的冲击尚未明确证实。
三星在法国发布了新款Windows 11 Arm笔记本Galaxy Book 6 Edge。该机配备16英寸Dynamic AMOLED 2X屏幕,支持120Hz刷新率,并搭载了算力更强的骁龙X2 Elite处理器,NPU算力最高达80 TOPS。机身厚度显著缩减至12.3毫米。其续航表现突出,满电可播放视频22小时,并支持65W快充。提供512GB和1TB存储版本,冰川灰配色,预计5月初开售,起售价约为2199欧元。
砺算科技宣布其国产显卡砺算科技7G100将于5月20日在京东首发开售。为回应“画大饼”质疑,官方通过视频展示了该显卡的制造与测试产线。该GPU采用TrueGPU架构,基于6nm工艺,宣称从核心到架构均为自主研发。同系列消费级型号LX 7G106配备12GB GDDR6显存,兼容主流图形API,可运行《赛博朋克2077》等游戏并支持AI PC大模型,且7G100已通过微软WHQL认证。
通用汽车宣布在美国为约400万辆2022款及更新的凯迪拉克、雪佛兰、别克和GMC车型推送谷歌Gemini AI助手,这是Gemini在汽车行业内规模最大的部署之一。该助手将与车辆信息娱乐系统中的谷歌服务及OnStar连接能力深度集成,提供增强的AI体验。此外,Gemini更新未来将逐步扩展到其他市场并支持更多语言。
Nvidia 发布了开源多模态模型 Nemotron 3 Nano Omni,该模型能够处理文本、图像、视频和音频。其引人关注之处不仅在于性能表现,更在于其训练数据的构成。模型的部分训练数据来源于 Qwen、GPT-OSS、Kimi 和 DeepSeek OCR 等多个知名项目,这揭示了构建现代多模态模型所需数据集的多样性与复杂性。
腾讯混元开源了手机端离线翻译模型Hy-MT1.5-1.8B-1.25bit,其体积仅440MB,可在手机本地离线运行。该模型支持33种语言及1056个翻译方向,基于1.8B参数原型通过极致量化压缩实现。其1.25-bit版本采用稀疏高效三值量化技术,将原始3.3GB模型大幅缩减。官方称其翻译质量优于谷歌翻译等主流系统,并提供了2-bit和1.25-bit两种量化方案以适配不同机型。模型完全离线工作,不收集用户数据,相关资源已全面开源。
德国在弹药生产能力上已超越美国。这一变化源于德国自俄乌冲突后大幅扩张其弹药产能,而美国的生产扩张则相对滞后。目前,德国的155毫米炮弹月产量达到约10万枚,预计到2025年底将提升至每月约20万枚。相比之下,美国的月产量约为8万枚,计划到2025年底增至每月约10万枚。产能逆转凸显了欧洲在冲突压力下加速国防生产的趋势。
DeepSeek已灰度测试“识图模式”,新增多模态图片理解功能,用户可上传图片并获取描述。该模式与“快速模式”“专家模式”并列,并非简单OCR文字识别。部分测试用户反馈响应速度很快,类似flash;但亦有用户遇到“识图模式暂不可用”提示。网络响应内容显示该功能模型类型为“vision”,状态为“图片理解功能内测中”。
教育部近日批准中国科学技术大学增设全国首个“商业人工智能”本科专业,计划于2026年秋季招收首届学生。该专业定位非纯技术导向,聚焦人工智能与商业管理的深度融合,旨在培养掌握AI技术、工商管理等多学科知识的复合型人才。此次增设是教育部优化专业设置、服务国家战略与产业发展的一部分,同期获批的还包括能源科学与工程、生物制造、具身智能等一批新兴专业。
在2026数字中国建设峰会上,腾讯展示了其Agent智能体生态。其中,WorkBuddy桌面智能体工作台可根据一句话描述自动完成任务;专为中国用户优化的AI技能社区“SkillHub”已集成腾讯核心产品能力,并收录超3.5万个技能。最新发布的混元Hy3 preview语言模型首次亮相,该模型为混合专家模型,总参数295B,支持256K上下文,在复杂推理、代码等能力上大幅提升,旨在助力中小企业低成本快速搭建AI应用,并已在腾讯云、元宝等多款产品中上线。
马斯克在起诉OpenAI的庭审中作证,称OpenAI是其构想并资助创立,初始投入约3800万美元。他指控OpenAI从非营利组织转变为营利巨头,违背了造福人类的初衷,要求其恢复非营利状态并索赔。OpenAI方反驳称,马斯克早年曾推动公司营利化,转型是为获取算力、留住人才并与谷歌竞争。微软作为主要投资者表示是负责任伙伴。法官已提醒马斯克控制社交媒体言论。案件仍在审理中。
华为为MateBook 14鸿蒙版推送了HarmonyOS 6.1更新。核心更新包括新增对单个应用进行音量调节的功能,以及全新的沉浸光感视效。智慧助手小艺获得增强,新增联网分析、投喂感应区和深度解题智能体等功能。多屏协同能力提升,支持同时打开多个手机协同窗口。此外,更新还带来了Dock栏高度自定义、触控板快捷返回、浏览器双击关闭标签页、文件直接拖拽解压等多项系统与应用优化。
开源项目Auto-Architecture实现了针对CPU优化的Karpathy's Loop算法,该算法原由AI研究员安德烈·卡帕西提出,常用于神经网络训练与推理的优化循环。项目将这一循环方法专门适配于CPU架构,旨在提升计算效率与资源利用率。该项目已在GitHub开源,并在Hacker News上获得103个点赞,展示了社区对其技术思路的关注。
科大讯飞总裁吴晓如宣布,公司计划于今年10月在华为昇腾950平台上发布国产旗舰大模型,该模型将直接对标业界最先进主流模型。此前,科大讯飞已发布星火X2-Flash模型,采用MoE架构,总参数达30B,最大支持256K上下文,基于华为昇腾910B集群训练完成。财务数据显示,2026年第一季度营业总收入为52.74亿元,同比增长13.23%;归母净利润为-1.70亿元,同比增长12.17%。
艺电(EA)首席执行官安德鲁・威尔逊透露,公司85%的质检工作已由AI和机器学习算法完成,主要用于检测游戏闪退等基础问题。尽管自动化比例高,但质检部门的招聘人数却创下新高,因为AI的检测结果仍需大量人工进行分析,反而增加了就业需求。威尔逊强调,目前AI只起辅助增效作用,但鉴于EA已将AI定为发展方向,未来不排除其更深度替代人力的可能。同时,行业普遍应用AI已成趋势,九成游戏工作室已在开发中使用AI技术。
《全国数据资源调查报告(2025年)》在第九届数字中国建设峰会上发布。报告显示,2025年我国数据生产总量达52.26泽字节,同比增长27.28%,占全球总量的27.44%,相当于全国所有算力中心存储容量的近30倍。我国数据生产已连续三年加速提升,此高增速主要来源于企业数据。此外,用于人工智能训练和推理的数据总量为199.48艾字节,同比增长42.86%,其中推理数据量首次超过训练数据量。
日本村田制作所、早稻田大学与tmsuk等机构于4月28日公开了国产人形机器人“SEIMEI”的初期验证机。该机器人高140厘米、重49公斤,以阴阳师安倍晴明命名。演示临近时突发故障,未能展示行走,计划修复后于5月底再次亮相。项目目标是在2029年3月底前开发出用于受灾现场等的量产型号,目前已有2所大学和14家企业参与,耗时4个月完成原型机。其身体部件均为日本国产,但控制核心GPU采用了英伟达产品。
科大讯飞正式发布星火 X2-Flash 模型并开放API。该模型采用MoE架构,总参数300亿,支持256K上下文,基于华为昇腾910B集群训练。其在智能体、代码等能力上大幅提升,在深度研究报告、Skill管理等多项任务上效果接近业界万亿参数模型,而整体token消耗不到主流大尺寸模型的三分之一。通过结合DSA与MTP技术,模型在国产芯片上的训练效率从同规模A800集群的20%提升至90%,并解决了长交互场景采样效率低的问题,为大规模强化学习训练扫清障碍。AstronClaw、Loomy等已率先接入。
新一代WPS多维表格通过AI能力升级,实现了零代码搭建办公管理系统。用户可用一句话描述需求(如“搭建编辑部稿件管理系统”),AI即可自动生成包含字段、视图和仪表盘的完整表格,大幅提升效率。系统还支持AI字段总结内容、自动生成社交媒体脚本,并能设置自动化工作流,例如在稿件截止前自动发送催稿提醒,实现智能管理。该产品基于海量办公场景洞察,深度贴合实际工作流程。
特斯拉在最新软件更新中,将FSD系统的接管反馈菜单里的“其他问题”选项替换为专门的“导航问题”选项。此举旨在更精准地收集因导航故障(如限速错误、路线规划不合理)导致的人工接管数据,直接回应了车主长期以来的集中反馈。通过这一分类优化,特斯拉希望为神经网络模型提供更纯净的数据,以优先改进其自动驾驶系统的导航算法和地图精度。
漫步者发布其首款带屏旗舰耳机Lolli5 ANC,首发价539元,将于5月6日开售。该耳机充电盒配备智能触控屏,可显示时间并控制音乐、拍照。采用第4代半入耳前腔设计,支持ANC自适应降噪与3+3麦智能通话降噪,通过双Hi-Res金标认证,具备IP55级防尘防水。搭载13mm双复合LCP液晶振膜单元,支持豆包与DeepSeek双AI问答、会议录音及App实时互译功能,采用蓝牙6.0并支持双设备连接。
马斯克在起诉OpenAI案中作证时披露,其联合创立OpenAI的核心动机之一是与谷歌联合创始人拉里·佩奇在AI安全问题上决裂。马斯克称,佩奇对AI可能毁灭人类的警告不以为然,认为只要AI能存续,人类消亡也无所谓,并指责马斯克是“物种歧视者”。两人曾关系密切,但2015年马斯克招揽谷歌顶尖AI学者共同创办OpenAI,佩奇视此为背叛,导致友谊破裂。此次是马斯克首次在宣誓作证的正式场合公开此事。