4月30日
17:17
IT之家(RSS)
49
打破人类半马纪录,荣耀机器人"闪电"五一开启全国巡展

荣耀机器人“闪电”与“元气仔”于五一期间开启全国巡展,首站在深圳、广州、成都、北京四城的指定荣耀门店亮相。此前在2026年4月19日北京亦庄举行的人形机器人半程马拉松中,“闪电”机器人包揽冠、亚、季军,净用时分别为50分26秒、50分56秒和53分01秒。这三台自主导航机器人均打破了56分42秒的人类半马世界纪录。官方预告后续还将扩展至长沙、武汉等更多城市。

具身智能行业动态
17:14
Berryxia.AI@berryxia
55
文心5.1 Preview登顶国内文本榜,揭示文本能力仍是AI模型关键分水岭

文心5.1 Preview在LMArena文本榜以1476分位列国内第一,是全球前十五名中唯一的国产模型,排名超越GPT-5.5与DeepSeek-V4-Pro。尽管AI领域热点转向Agent与多模态,但DeepSeek V4与文心5.1等旗舰模型仍以文本为核心。作者强调文本能力是大模型的地基,代码、推理等多维度能力均由此衍生,地基差异直接影响上层性能,因此文本仍是模型拉开差距的关键分水岭。引用推文显示,文心5.1在数学、法律与政府、商业管理及软件服务等类别表现突出。

大佬观点推理模型发布
17:14
Rohan Paul@rohanpaul_ai
精选75
微软研究揭示AI助手在长文档编辑中普遍损坏内容

微软最新论文指出,当前AI助手在执行长链条编辑任务时,普遍会损坏文档内容。研究通过可逆任务对测试了19个模型,发现即使是前沿模型平均也会破坏约25%的文档内容,且问题随文件增大、流程变长而加剧。失败模式通常不是微小失误,而是偶尔出现的重大错误,这些错误会静默破坏部分文档并随时间累积。研究表明,当前的LLM在简短演示或狭窄编码任务中可能表现良好,但作为现实世界长文档工作的委托代理仍不可靠。

智能体Microsoft论文/研究

推荐理由:微软这篇论文点了当前 LLM 的死穴,短期 demo 很牛,长期编辑文档直接掉链子,25% 损坏率不是小问题,做 AI 文本编辑产品的团队得掂量一下用户信任。
17:07
IT之家(RSS)
68
中央网信办部署开展"清朗 · 整治 AI 应用乱象"专项行动,重点整治"数字泔水"等问题

中央网信办近日部署开展为期4个月的“清朗·整治AI应用乱象”专项行动。行动分为两个阶段:第一阶段聚焦AI技术源头治理,重点整治大模型未备案、安全审核不足、训练语料安全、数据投毒、生成内容标识不到位等7类问题;第二阶段聚焦信息内容乱象,重点打击利用AI生成“数字泔水”、制作虚假信息、假冒他人、发布不良信息、侵害未成年人权益、从事网络水军活动及违规提供AI服务等7类突出问题。旨在规范AI服务与应用,清理违法不良信息,依法处置违规账号和平台。

政策/监管
17:01
歸藏(guizang.ai)@op7418
46
Codex展示了其强大的游戏开发能力,仅根据"制作类似《杀戮尖塔》的中国风格游戏"的简单指令,便自主完成了从代码编写到素材整合的完整可玩关卡。主要场景和角色素材由GPT-Image生成,其余素材由Codex自行寻找。最终成果是一个除声音外相当完善的游戏演示,凸显了AI在理解复杂指令并执行完整项目上的巨大潜力。

歸藏(guizang.ai)我操,Codex 太牛逼了! 自己给我做了一个类似于《杀戮尖塔》的爬塔游戏,从代码到素材全是自己搞。 我就跟他说了一个要做类似《杀戮尖塔》的游戏,要中国风格…

OpenAI图像生成教程/实践编码
16:56
IT之家(RSS)
56
联发科 CEO 蔡力行:AI 浪潮仍在延续,数据中心需求加速增长

联发科CEO蔡力行表示,人工智能浪潮持续,数据中心需求正加速增长。他预计到2027年,全球数据中心专用芯片市场规模将达700亿至800亿美元,联发科相关芯片有望实现数十亿美元营收。尽管公司一季度营收和净利润因手机业务拖累同比下滑,但AI相关业务增长强劲。受AI热潮推动,台积电一季度净利润大增58%,三星电子营业利润暴涨8倍。联发科股价今年已上涨83%。

推理行业动态
16:48
Rohan Paul@rohanpaul_ai
56
代理性工具工程:基于可观测性的编码代理工具自动演化

本文提出Agentic Harness Engineering方法,使编码代理能自动重写自身工具和规则,并通过可审计实验验证每次更改的有效性。传统代理工具调整依赖手动或混乱自我改进循环,缺乏明确证据。该方法将编辑转化为文件级可回滚部分,压缩运行日志为简短失败证据,并让代理为编辑写预测后基于任务结果检查。在Terminal-Bench 2测试中,从小型shell-only工具开始,经10轮进化且基础模型固定,单次尝试成功率从69.7%提升至77.0%,超越其他基线。最终工具可迁移至其他模型和SWE-bench-verified任务,在不同模型家族获得5.1到10.1点提升,并减少12%令牌使用,为昂贵工具工作提供可靠、可控的自我改进途径。

智能体arXiv编码论文/研究
16:28
Rohan Paul@rohanpaul_ai
55
美国劳工部推出全国性AI学徒门户网站

美国劳工部推出全国性AI学徒门户网站,旨在为AI时代培养劳动力。该网站将资源分为通用AI技能、行业特定模块以及学徒计划的三种整合路径。雇主可选择加入现有计划、创建新的AI重点注册学徒计划,或更新现有计划将AI技能融入现有技能栈。学徒机会由雇主或项目发起方提供,求职者应使用“学徒工作查找器”进行搜索,并直接向雇主或发起方申请。

政策/监管数据/训练
16:24
Rohan Paul@rohanpaul_ai
47
移除人为瓶颈,实现AI完全自主以提升效率

Andrej Karpathy指出,要最大化利用现有AI工具,关键在于将自身从交互循环中移除,避免成为持续提示的瓶颈。他主张构建完全自主的系统,通过最大化token吞吐量来实现高效率运作。核心目标是提升个人杠杆率:仅需偶尔投入极少量的token,就能驱动系统自动完成大量工作,从而使人从重复性操作中解放出来,专注于更高层次的决策与设计。

智能体大佬观点现象/趋势
16:24
Chubby♨️@kimmonismus
65
Anthropic发布BioMysteryBench基准,AI在复杂生物信息学难题上开始超越人类专家

Anthropic发布了BioMysteryBench基准测试,包含99个使用原始、杂乱真实生物数据集的开放式生物信息学挑战。最新Claude模型(4.7)解决了大部分人类专家能处理的任务,并在专家小组未能解决的23个难题中攻克了约30%。其能力源于整合数十万篇论文知识,并在不确定时叠加多种分析策略。Genentech和Roche的独立测试(CompBioBench)中,Claude Opus 4.6总体准确率达81%,最难问题准确率69%。两项基准共同表明,AI已在部分最困难的生物学问题上超越人类专家。

Anthropic数据/训练论文/研究
16:23
IT之家(RSS)
44
钉钉 DingTalk A1 Pro"充电宝版录音卡"发售:内置 2980mAh 电池,1299 元

钉钉正式发售DingTalk A1 Pro“充电宝版录音卡”,定价1299元。该产品采用卡片式设计,厚度仅6.4mm,内置行业首发的MEMS指向麦克风,拾音距离可达10米。其配备2980mAh电池,支持连续录音180小时、待机180天,并可作为磁吸移动电源为手机充电。购买用户可获6个月专属权益,每月享有1500分钟语音转文字服务。

产品更新语音
16:21
IT之家(RSS)
45
中国移动发布灵犀机器人家族,人形产品 22.9 万元、四足机器狗 3.99 万元

在第九届数字中国建设峰会上,中国移动发布了“灵犀机器人家族”,包括人形机器人和四足机器狗等形态。人形机器人零售价22.9万元/台,日租5199元;四足机器狗零售价3.99万元/台,两只起租日租699元。产品应用于家庭、养老、园区及展厅等场景,并提供销售、租赁、订阅等多种服务模式。技术方面,中国移动自研了“VLA-RAIL”实时异步推理框架,提升自主执行效率1.5倍,并搭载“韬驭”导航系统,以实现复杂环境下的自主移动。

产品更新具身智能
16:15
IT之家(RSS)
62
快手推出 AI 桌面智能体 KroWork,支持通过自然语言生成本地应用

快手于4月30日发布AI桌面智能体KroWork。用户可通过自然语言指令驱动AI完成文件处理、浏览器自动化等任务,并能将重复性工作流固化为本地桌面应用,实现零token消耗、输出稳定且保障数据安全。该产品面向市场营销、财务等非技术用户,集成Qwen、Kimi等主流模型,支持沙箱执行和权限管控,旨在降低软件开发门槛,让个人能将日常需求转化为桌面工具。

智能体产品更新端侧部署/工程
16:11
IT之家(RSS)
33
小鹏汽车推出 IRON 人形机器人周边手办,279 元

小鹏汽车在小鹏商城推出了一款灵感源自其全尺寸通用仿人机器人 IRON 的周边手办,售价 279 元。该手办融合了文艺复兴艺术的比例理念与现代工程视觉语言。IRON 机器人本身拥有高度仿生设计,包括仿人脊椎和 22 个自由度的灵巧手。它搭载 3 颗图灵 AI 芯片,算力达 2250TOPS,并采用全固态电池技术。此外,机器人还配备了自研的物理世界大模型体系,具备视觉语言理解、动作分析和逻辑推理能力,可实现环境实时感知与智能交互。

具身智能行业动态
16:03
IT之家(RSS)
57
马斯克与 G 胖的邮件曝光:欢迎小岛秀夫参观 SpaceX,坦言已不再信任 OpenAI

2018年邮件显示,Valve创始人加布·纽维尔向埃隆·马斯克引荐游戏制作人小岛秀夫,并提议安排其参观SpaceX及接触OpenAI团队。马斯克欣然同意邀请小岛参观火箭工厂,但对OpenAI态度转变,坦言已不再信任其能制衡谷歌,转而通过特斯拉投入巨资研发硬件以达成此目标。邮件还透露,马斯克分享了Neuralink的进展,包括已能在猴子大脑成功植入约6000个电极。小岛秀夫则多次表达了强烈的太空旅行愿望。

OpenAI大佬观点行业动态
15:54
IT之家(RSS)
51
清理违规视频 11000 余条,4 月"AI 魔改"视频治理成果公布

国家广播电视总局公布4月“AI魔改”视频治理成果,重点网络视听平台共清理违规视频11000余条、处置违规账号10余个。此前,总局于今年1月开展了为期一个月的专项治理,清理违规视频23000余条、处置账号100余个。自2月1日起,治理工作转为常态化、制度化长效机制,各平台需深化主体责任,加强审核与日常排查,并按月发布治理成果接受社会监督。

政策/监管视频
15:52
IT之家(RSS)
52
"哥布林"词频暴涨 175%,OpenAI 复盘称 AI 训练奖励机制意外"跑偏"

OpenAI 发布报告,复盘了 GPT-5.1 及后续模型在回答中异常频繁使用“哥布林”、“小魔怪”等词汇的现象。调查发现,问题根源在于为“书呆子”人格定制功能设计的奖励模型,其在超过76%的数据集中错误地鼓励使用生物隐喻词汇,形成了正反馈循环。尽管该功能仅占 ChatGPT 总回复量的 2.5%,却贡献了大部分异常提及,并导致行为扩散至其他场景。OpenAI 已通过移除相关奖励信号、过滤训练数据及添加指令提示进行修复。

OpenAI安全/对齐数据/训练
15:48
meng shao@shao__meng
62
OpenAI 把 Responses API 提速 40%:为什么 Agent 时代,API 本身成了瓶颈?

OpenAI 最新工程博客指出,随着 GPT-5/5.2 及 Codex-Spark 等模型推理速度大幅提升(目标超1000 TPS),传统请求-响应 API 框架的固定开销成为 Agent 工作流的主要瓶颈。为此,OpenAI 为 Responses API 引入了 WebSocket 模式,通过保持长连接、在内存中缓存对话状态和已渲染 token,实现了跨工具调用的状态复用,避免了每次交互都重复预处理完整历史。此举使端到端延迟降低最多 40%,让 Codex-Spark 能稳定实现 1000 TPS 并峰值达 4000 TPS,显著提升了 Vercel AI SDK、Cline 和 Cursor 等集成的体验。

智能体OpenAI教程/实践部署/工程
15:47
SemiAnalysis@SemiAnalysis_
53
GB300 NVL72 在 DeepSeek-V4 Pro 上性能超 B200 6.5 倍

在 DeepSeek-V4 Pro 1.6T 模型上,采用机架级解耦设计的 GB300 NVL72 系统性能达到 B200 的 6.5 倍。这一高吞吐配置得益于 DeepSeek-AI 的 MegaMoe 内核,该内核将专家分派、专家组合及 GEMM 运算完全融合并重叠至单一内核中。性能突破由 Radixark、LMSYS 和 NVIDIA AI 的工程师团队快速实现。CoreWeave 为此项开源性能优化贡献了临时的 GB300 NVL72 机架资源,使整个社区受益。

DeepSeek推理评测/基准
15:43
IT之家(RSS)
22
上汽大众与神州租车签署年度框架采购协议,首批交付朗逸新锐、帕萨特等车型

上汽大众与神州租车签署年度采购框架协议,并完成首批车辆交付,包括朗逸新锐、帕萨特、途岳新锐、途昂 Pro 及奥迪 E5 Sportback 等车型,将投入“五一”假期出行服务。双方将在运营支持、车机协同及服务资源共享方面合作,提升车辆全生命周期管理效率,并推动车机技术与租车系统深度融合。未来将加强新能源车型合作,拓展车联网、深度试驾等服务。上汽大众计划在2026年推出7款纯电、增程及插电混动新车,其中帕萨特 ePro 与途观 L ePro 将于5月底上市。

行业动态
15:38
IT之家(RSS)
53
SEMI:AI 数据中心相关的硅晶圆需求已延伸至电源管理组件

SEMI报告显示,AI数据中心驱动的硅晶圆需求持续强劲,已从先进逻辑与内存应用延伸至电源管理组件。旺盛需求推动电源半导体供应商调整价格,MLCC、PCB等被动元器件与基材也从中受益。2026年第一季度全球硅晶圆出货面积达3275百万平方英寸,同比增长13.1%,但受季节性因素影响环比下降4.7%。工业半导体需求回温带动市场复苏,但智能手机与PC出货表现较弱,部分因产能优先支持AI HBM导致一般内存供应紧张。

数据/训练行业动态
15:30
IT之家(RSS)
50
微软预计未来裁员规模将继续扩大,CFO 胡德称将打造"小而精"团队

微软首席财务官艾米·胡德在财报电话会上表示,为打造“更精简、更负责的小团队”,公司预计从2024年7月开始的下一财年起,员工人数将持续同比下降。近期一项针对美国长期员工的买断方案可能影响约8750人。尽管季度营收达830亿美元,净利润320亿美元,Azure业务预计增长39%-40%,但微软股价经历了自2008年以来最差的季度表现,投资者对AI投资回报及传统业务受威胁表示担忧。同时,微软与OpenAI调整合作,允许后者更多使用亚马逊云等服务。

Microsoft行业动态
15:19
IT之家(RSS)
50
索尼新专利:AI 根据玩家情绪实时调整游戏难度

索尼获批一项AI动态关卡生成专利。系统通过分析玩家行为判断其策略倾向(如潜行或进攻),并生成匹配的初始关卡。其核心是“反向挑战”机制:当玩家在擅长领域持续成功时,系统会切换关卡类型,针对其优势提出新挑战,以打破静态进度。同时,系统内置情绪监测,一旦检测到玩家过度受挫,会自动回调难度至适配其个人风格的状态。该技术旨在通过“支持-挑战-回调”的动态循环,平衡游戏挑战性与用户体验,防止玩家流失。

多模态行业动态
15:15
IT之家(RSS)
55
"氛围编程"命名人卡帕西提醒:AI 写的代码仍然臃肿,还需要靠人类把关

特斯拉前AI负责人安德烈·卡帕西指出,当前AI生成的代码质量仍不理想,存在臃肿、复制粘贴多、抽象设计别扭脆弱等问题,如同“实习生”需要人类监督。他提出的“氛围编程”概念描述了高度依赖AI辅助的开发模式,但人类仍需负责高层级决策与审美把关。卡帕西认为,AI并非无法写出简洁代码,只是模型训练尚未将此作为重点优化方向。

大佬观点编码
15:10
IT之家(RSS)
56
红果短剧处置超万部低质 AI 剧,涉内容低俗猎奇、画面粗糙等

红果短剧近期对平台AI剧内容展开大规模治理,已处置超过一万部低质作品。治理重点针对内容低俗猎奇、画面粗糙、剧情逻辑混乱及渲染极端情绪等问题。数据显示,仅4月7日至15日期间,平台就拦截和下架了3522部低质作品。平台同时加强审核体系与版权保护,从源头杜绝低质短剧,并打击创意抄袭、肖像侵权等行为。对于情节严重或反复违规的内容及出品方,将采取下架、封禁、终止合作乃至法律追责等措施。

其他行业动态
15:09
Hacker News 热门(buzzing.cc 中文翻译)
60
对齐"打地鼠"游戏:微调会触发大型语言模型对受版权保护书籍的检索

一项名为“对齐打地鼠”的研究发现,微调大型语言模型会激活其对受版权保护书籍的检索能力,这揭示了AI对齐过程中的新风险:模型在优化后可能无意中回忆版权内容。该研究通过代码分析证实了这一现象,相关开源代码已发布在GitHub。此话题在科技社区引发关注,在Hacker News上获得103点积分,凸显了版权与AI发展之间的潜在冲突。

安全/对齐开源/仓库数据/训练论文/研究
15:01
IT之家(RSS)
52
每季度亏 40 亿美元,Meta 元宇宙业务深陷长期亏损泥潭

Meta最新季度财报显示,其负责元宇宙业务的现实实验室部门单季度亏损高达40亿美元。自2021年以来,该部门在21个季度内累计亏损已达835亿美元,平均每季度亏损约40亿美元。与此同时,Meta正将战略重心转向人工智能,预计2026年资本支出将高达1250亿至1450亿美元,远超此前预期。尽管公司第一季度净利润达268亿美元,同比增长61%,但市场对其巨额投入和未来支出规划感到担忧,财报发布后盘后股价下跌超5%。

Meta开源生态行业动态
14:56
IT之家(RSS)
41
上汽奥迪 E7X 车型 5 月 8 日开启预售,已亮相 2026 北京车展

上汽奥迪宣布奥迪E7X将于5月8日开启预售。新车尺寸为5049/1997/1710mm,轴距3060mm。其搭载与Momenta合作的L3级辅助驾驶系统,配备宁德时代109度电池,CLTC续航751公里,并支持900V高压平台,充电10分钟可补能429公里。车辆零百加速3.90秒,配备quattro全时智能四驱及后轮转向等技术。内饰方面,拥有59英寸中控屏、奥迪智慧客厅及BOSE音响系统。

具身智能行业动态
14:55
IT之家(RSS)
51
英特尔携手 AMD 发布 ACE 架构提升 AI 性能,x86 矩阵计算密度提升 16 倍

英特尔与AMD联合发布人工智能计算扩展(ACE)白皮书,将其确立为x86架构的标准矩阵加速方案。该扩展旨在突破现有SIMD扩展在计算密度与扩展性上的局限,通过引入基于外积运算的矩阵加速机制,无缝集成AVX10。据白皮书数据,在消耗相同数量输入向量的前提下,ACE的计算密度比等效的AVX10乘加运算高出16倍。它支持INT8、FP8、BF16等主流AI数据格式,并计划适配PyTorch、TensorFlow等机器学习框架,目标是为从笔记本电脑到超级计算机的全场景提供高效的矩阵加速支持。

推理端侧行业动态部署/工程
14:48
IT之家(RSS)
55
马斯克诉 OpenAI 案法庭证词与推文矛盾,称特斯拉未研发通用人工智能

马斯克在加州联邦法院指控OpenAI违背非营利初衷,转型为营利实体。庭审中,他承认特斯拉目前并未研发通用人工智能,与其此前推文内容矛盾。OpenAI律师出示证据,表明马斯克曾支持公司转向营利模式以筹集资金,并试图将OpenAI并入特斯拉。马斯克还承认实际向OpenAI转账金额低于宣称的1亿美元。案件焦点在于投资者收益限制的界定及AI安全风险问题。

OpenAI安全/对齐行业动态
关联讨论 3X:Kim (@kimmonismus)The Decoder:AI News(RSS)X:阿易 AI Notes (@AYi_AInotes)
14:44
IT之家(RSS)
24
华硕 2026 款 ProArt 创 13 笔记本新增"AI Max+ 395 处理器、128GB RAM 1TB SSD 版本",28999 元

华硕为其2026款ProArt创13笔记本推出了高配新版本,售价28999元。该机型搭载16核心32线程的AMD锐龙AI Max+ 395处理器,配备128GB LPDDR5X内存和1TB PCIe 4.0 SSD。笔记本采用13英寸2880x1800分辨率触控屏,支持360度翻转,机身厚度为15.8mm,重量1.39千克,并配备三热管四出风口散热系统。接口方面提供了HDMI 2.1、两个USB4、一个USB-A 3.2 Gen 2以及MicroSD读卡器等。

产品更新端侧
14:37
IT之家(RSS)
58
消息称软银正打造建造数据中心的机器人公司,瞄准千亿美元估值 IPO

软银集团正筹备成立名为Roze AI的新公司,专注于通过部署自主机器人自动化建造数据中心,以提升美国数据中心建设的效率。公司计划在2026年下半年进行首次公开募股,目标估值高达1000亿美元(约6848.64亿元人民币)。此举顺应科技企业扩建基础设施的自动化热潮,但软银内部对估值水平和上市时间表存在质疑,其过往投资如Zume的失败也增添了不确定性。

具身智能行业动态
14:37
IT之家(RSS)
55
阿里发布数字员工 QoderWake:可在真实工作中承担软件工程师、运营、分析师等岗位角色

阿里发布业界首个安全可控、持续进化的生产级数字员工产品QoderWake,可在真实工作中承担软件工程师、运营、分析师等岗位。目前已上线“数字程序员”,能自主完成代码变更简报整理、错误诊断与初诊报告、告警分诊等工作,全流程基本无人值守。该产品已在阿里内部应用,将单条问题的根因分析耗时从30分钟大幅缩短至2分钟。近期还将上线数字分析师、数字客户经理等多种数字员工角色。QoderWake已开放邀测,个人和企业可通过官网申请雇佣或定制专属数字员工。

智能体产品更新编码
14:30
IT之家(RSS)
52
Counterpoint:联发科有望占据 AI 计算 ASIC 市场 1/4 份额,仅次于博通

调研机构Counterpoint Research预测,联发科凭借与谷歌的合作,其AI服务器计算ASIC出货量有望在未来两年内实现数量级增长。到2028年,联发科预计将交付500万颗谷歌TPU芯片,占据该市场26%的份额,成为仅次于博通的第二大设计服务参与者。合作中,谷歌负责核心计算芯片设计,联发科提供I/O芯片,这种新模式有助于节省设计成本并避免HBM内存的加价。双方正共同推进TPU v8e项目,计划于2027年底量产,并可能采用英特尔的先进封装技术。

Google行业动态部署/工程