5月2日
10:18
小互@xiaohu
51
GitHub Copilot推出代码宠物功能,可自定义形态与状态

GitHub Copilot的Codex功能新增“宠物”特性。用户可通过输入“/pet”或在设置中启用该功能。宠物提供8种不同形态,并会实时显示三种状态:运行中、等待输入、等待代码审查。系统内置宠物可直接选择,也支持用户自定义生成。自定义宠物能根据用户近期编写的代码语言自动生成相应形象,例如频繁使用Rust可能生成螃蟹形态的宠物。

产品更新编码
10:09
阿绎 AYi@AYi_AInotes
57
Anthropic CEO的万亿营收警告:AI行业的生存赌局与提示工程本质转变

Anthropic CEO Dario Amodei警告,若2027年营收未达万亿美元,公司将破产。这揭示了AI行业依赖指数级增长的经济脆弱性——技术可行不等于经济可行,行业正进行一场“俄罗斯轮盘赌”。同时,GPT与Claude进化方向相反:Claude Opus趋于字面化执行,而GPT-5.5更自主化。这标志着提示工程的核心转变:从教导模型转向要求人类先结构化自身思考,真正的瓶颈在于人的思考清晰度而非模型能力。

阿绎 AYi我终于明白为啥最近很多人都在说,GPT和Claude突然变笨了, 昨天OpenAI和Anthropic同时发布了官方提示工程指南, 看完我才发现,并不是模型变…

Anthropic大佬观点现象/趋势
09:58
09:43
向阳乔木@vista8
49
本周 HuggingFace 热度第一的论文:RecursiveMAS(递归多Agent系统)

RecursiveMAS提出递归多Agent系统,革新传统AI协作模式。其核心是让Agent直接传递模型内部的数值向量,而非低效的文字token,从而形成递归闭环进行迭代打磨,仅末轮输出文本。该方法连接模块轻量,底层模型参数固定,仅训练中间传递模块,极大提升了效率。在AIME数学竞赛上,性能显著超越基线13-18%,推理速度提升2.4倍,Token消耗减少75%,且训练成本低于LoRA。递归轮次增加,其效率优势更为明显。

智能体推理论文/研究
09:33
09:19
09:15
Hacker News 热门(buzzing.cc 中文翻译)
60
通晓一切

GitHub上开源了“Understand Anything”项目,这是一个AI驱动的工具,旨在帮助用户理解和解释各类复杂概念与信息。该项目发布后在Hacker News社区获得102个积分,反映出科技开发者对其技术潜力的高度关注。工具可能整合自然语言处理等技术,以提升知识获取与理解的效率。

智能体多模态开源/仓库
09:14
IT之家(RSS)
52
苹果 macOS 27 系统新功能前瞻:Siri 升级独立应用、新增触控界面,抛弃 Intel Mac

据报道,苹果将在WWDC 26发布macOS 27系统,首个开发者测试版于演讲后立即提供。主要新功能包括:Siri将升级为独立应用,支持查看会话历史,操作逻辑类似ChatGPT,个性化功能也将扩展至Mac;系统将为预计2027年初发布的触屏版MacBook Pro开发专属触控界面,优化手指交互体验;此外,该系统将专注于稳定性与性能改进。macOS 27将仅支持M1或更高芯片的Mac,彻底抛弃Intel平台,同时不再兼容使用AFP协议的旧存储设备如AirPort Time Capsule。

产品更新语音
09:00
SemiAnalysis@SemiAnalysis_
62
NVIDIA Vera Rubin VR NVL72:从价值输送到价值宣告的激进转变

NVIDIA的Vera Rubin VR NVL72标志着其销售策略的根本性转变。公司过去如同无私的供应商,向生态系统输送巨大价值,自身却未充分实现杠杆效应。如今,VR NVL72以其在性能成本比上的可验证飞跃,彻底颠覆了旧有定价模式。从总拥有成本角度看,其价值提取变得鲜明且不可避免,使以往隐性的价值流速显性化、意图化。这宣告了NVIDIA正从一个价值的“担保者”转变为主动的“价值售卖者”。“V”在此象征着指向价值的矢量、誓言与判决。

推理现象/趋势
08:38
向阳乔木@vista8
41
Pi创始人谈未来软件:动态自我改造的AI代理

Pi创始人Mario Zner提出,未来的软件将不再是静态的、依赖官方更新的产品。他认为,以Pi为代表的AI编程代理展示了新的方向:软件应能根据每个用户的特定需求,进行动态的自我改造和扩展。Pi本身是一个极简且可自我修改的AI编程代理,同时也是个人AI助手OpenClaw的核心引擎,其设计理念正体现了这种向个性化、自适应系统演进的关键趋势。

智能体大佬观点
08:22
IT之家(RSS)
精选70
美国五角大楼与 SpaceX、OpenAI、谷歌、英伟达、微软等 8 家公司合作,在机密网络部署 AI、用于作战

美国五角大楼宣布与SpaceX、OpenAI、谷歌、英伟达、Reflection、微软、亚马逊AWS及甲骨文八家领先AI公司达成协议,将在其机密网络(IL6和IL7环境)中部署AI能力,用于“合法的作战使用”。此举旨在加速美军向AI优先作战力量转型,通过集成安全的边界AI能力来简化数据合成、提升态势感知并增强复杂环境下的决策优势。此前,五角大楼因与Anthropic就AI模型使用限制产生争议并诉诸法律,加速了供应商多元化进程。

GoogleOpenAI安全/对齐行业动态
关联讨论 1X:Rohan Paul (@rohanpaul_ai)
推荐理由:五角大楼把 OpenAI、谷歌、英伟达等 8 家公司拉进机密网络做作战 AI,Anthropic 因为限制条款被排除,AI 军事化正式进入快车道,伦理分歧已经变成真金白银的站队。
08:11
IT之家(RSS)
57
亚马逊 AWS CEO:AI 并未让程序员丢饭碗,今年计划招聘 11000 名实习生

亚马逊 AWS 首席执行官 Matt Garman 表示,人工智能不会让程序员失业,公司今年计划招聘 11000 名软件开发工程师实习生。他指出,尽管 AI 工具正在改变开发者工作流,但亚马逊对软件开发人员的招聘需求与以往一样多,甚至加速增长。软件工程师角色在变化,未来编写 Java 代码的能力可能不那么重要,但需学习构建应用程序、解决客户问题等技能,同时技术知识仍不可或缺。

大佬观点行业动态
08:03
Orange AI@oran_ge
48
百变怪

算法工程师周远因AI系统“百变怪”能自主完成设计、调参等工作而被裁员。失业后,他受启发开发了一款元游戏系统C.O.L.A.,允许玩家通过自然语言描述生成个性化游戏。产品上线后迅速获得百万用户,形成了活跃的创作者经济生态。周远最终领悟到,AI作为封闭系统需要人类注入“上下文”(信息/负熵)来获得生命力,而真正的创造源于热爱与主动选择。

大佬观点现象/趋势
08:03
meng shao@shao__meng
57
OpenAI Codex 也有陪伴宠物 (Pets) 了,内置了 8 种宠物,支持自定义

OpenAI Codex 推出Pets功能,提供8种内置宠物并支持自定义。用户可通过设置、输入/pet或命令面板启用。其核心价值在于“环境感知”:宠物悬浮层能持续显示当前活跃线程、Codex运行状态(如运行中或等待输入)及进度提示,充当异步任务的环境指示器,使后台长耗时任务保持可见。自定义宠物通过hatch-pet skill实现,该skill能基于用户项目语境生成专属宠物,表明Pets是接入Codex skill体系的可扩展功能,而非简单装饰。官方推文确认该功能已集成,用户可使用/pet指令唤醒宠物。

智能体OpenAI产品更新
08:00
HuggingFace Daily Papers(社区热门论文)
58
TT4D:基于单目视频的乒乓球4D重建流程与数据集

TT4D是一个大规模高保真乒乓球数据集,包含超过140小时从单目转播视频重建的单打与双打比赛数据,提供高质量相机标定、精确3D球位、球旋转、时间分割以及随时间变化的3D人体网格等多模态标注。该数据集通过新颖的重建流程实现规模与精度的结合:传统方法依赖2D球轨进行时间分割,易受遮挡和多视角影响;TT4D则首先通过学习的提升网络将未分割的2D球轨全程提升至3D,再基于3D轨迹可靠分割时间,并能推断球旋转、处理漏检,在高遮挡情况下成功重建轨迹。该流程是目前唯一能从通用视角单目转播视频重建乒乓球比赛的方法。数据集已应用于球拍击球姿态速度估计、竞技对抗回合生成模型训练等下游任务。

数据/训练视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
59
ESARBench:面向无人机具身搜索与救援的智能体基准

研究团队提出了具身搜索与救援新任务,并发布首个综合性基准ESARBench,用于评估多模态大语言模型驱动的无人机智能体。该基准基于Unreal Engine 5和AirSim构建了四个从真实世界GIS数据映射的高保真、大规模开放环境,包含动态天气、昼夜变化和随机线索布置。基准包含600个基于真实救援案例建模的任务及一套评估指标。实验评估了从传统启发式方法到基于MLLM的导航智能体等多种基线,结果揭示了该任务在空间记忆、空中适应性及搜索效率与飞行安全权衡方面的关键瓶颈。

具身智能多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
证据链:面向迭代检索增强生成的像素级视觉归因框架

针对迭代检索增强生成在解析文本时存在的证据定位粗粒度与视觉语义丢失问题,本研究提出了“证据链”框架。该框架与检索器无关,直接利用视觉语言模型对检索到的文档截图进行推理,无需针对特定格式进行解析,并能输出精确的边界框以可视化完整推理链条。在Wiki-CoE和SlideVQA两个基准上的实验表明,经微调的Qwen3-VL-8B-Instruct模型表现稳健,在需要视觉布局理解的场景中显著优于基于文本的基线方法,为像素级可解释的iRAG提供了一个通用解决方案。代码已开源。

arXiv检索增强多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
60
SplAttN:通过高斯软光栅化和注意力桥接2D与3D的点云补全

多模态点云补全中,硬投影易导致跨模态熵崩溃,阻碍视觉先验传播。为此,SplAttN提出一种新方法,以可微分高斯光栅化替代硬投影,将投影转化为连续密度估计,生成密集连续的图像平面表示。这避免了稀疏支持问题,改善了梯度流动与跨模态连接学习能力。实验显示,SplAttN在PCN和ShapeNet-55/34数据集上达到最先进性能。在KITTI真实场景基准测试中,反事实评估表明,SplAttN能保持对视觉线索的强健依赖,而基线模型则退化为对视觉移除不敏感的单模态模板检索器,验证了其有效建立跨模态连接。代码已开源。

arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
63
自主AI系统应设计为边际token分配经济体

本文主张将具备自主能力的AI系统设计和评估为边际token分配经济体,而非按单位定价的文本生成器。通过一个编码代理修复失败测试的案例,文章揭示了当前被孤立设计的四个经济层级(路由层、代理层、服务层和训练层)实际上都在遵循相同的核心经济原则:边际收益等于边际成本加上延迟与风险成本。这一框架解释了为何局部最小化token的系统会在全局层面错误分配资源,并预测了一系列重复出现的故障模式,如过度路由、验证不足和服务拥堵等。研究最后指出了token感知评估、自主定价等具体研究方向。

智能体论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
57
幻觉损害信任;元认知是前进方向

尽管生成式AI的事实可靠性已提升,但幻觉错误仍是核心问题,即使在简单问答中前沿模型仍会产生幻觉。当前事实性改进主要源于扩大模型的知识边界,而非增强对边界的认知能力。模型可能难以完美区分已知与未知,导致消除幻觉与保持实用性之间存在权衡。若将幻觉理解为“自信的错误”,则可通过表达不确定性开辟新路径——忠实不确定性,即语言表达与内在不确定性保持一致。这是元认知的一个方面,对于直接交互需诚实传达不确定性,对于智能体系统则成为控制层,决定何时搜索与信任何种信息。元认知是实现大语言模型既可信又有能力的关键。

arXiv安全/对齐论文/研究
08:00
IT之家(RSS)
56
奥斯卡明确规定:AI 演员和剧本没资格获奖

奥斯卡奖发布新规,明确禁止人工智能生成的表演和剧本获奖。美国电影艺术与科学学院规定,从2027年3月举行的下一届颁奖典礼开始生效。规则指出,电影制作中虽可使用AI工具,但“合成”表演者不能获得任何奖项,获奖剧本必须是“人类创作的”。学院可要求提交作品提供更多信息,以验证人类创作身份。这一变化旨在维护奖项对人类创意的认可,回应行业对AI替代演员的担忧。

行业动态视频
07:33
07:23
xAI@xai
精选67
语音克隆功能现已通过 xAI API 上线! 不到2分钟即可创建自定义语音,或从我们涵盖28种语言的80多种语音库中选择,为您的语音助手、有声读物、视频游戏角色等注入个性化色彩。 http://x.ai/news/grok-custom-voices
xAI产品更新语音
关联讨论 1X:xAI (@xai)
推荐理由:xAI 正式下场语音克隆,2 分钟克隆加 80 多种声音库,API 直接可调,做语音 agent 和有声书的团队得多关注一下,这对 ElevenLabs 们是个不大不小的冲击。
07:11
IT之家(RSS)
56
谷歌将为 Gemini 投放广告,目前处于准备阶段

谷歌在财报电话会议中透露,计划为人工智能助手Gemini引入广告。首席商务官Philipp Schindler强调,广告是规模化产品、覆盖数十亿用户的重要手段,公司决心已定。目前谷歌处于准备阶段,将在合适时机公布计划,测试顺利后Gemini移动端可能出现广告。类似OpenAI为ChatGPT投放广告的做法,早有传闻称谷歌可能在2026年实施该计划。

Google行业动态