有人做了一个很好玩的研究,用冷知识来给大模型称体重,得出结论:GPT-5.5 约 9.7T、Opus 4.7 约 4T、Grok-4 约3.2T。。。 Pin…
本文介绍了2026年构建高效团队LLM知识库必须掌握的六个核心术语。LLM知识库是让大语言模型处理原始资料并自主检索回答的系统,难点在于团队适配。持续数据摄取能自动从Slack、CRM等工作工具同步信息。来源可信度分级帮助区分官方决策与聊天观点等不同价值信息。时效性监控可主动发现信息矛盾并降低过时内容权重。自主维护实现文档随工作进展自动更新。这些技术共同对抗知识漂移,即文档与现实间缓慢产生的信息偏差,这是导致AI代理给出错误答案的主要根源。
推文介绍了一种利用AI工具链快速创建360度全景沉浸式小游戏体验的方法。核心流程是:首先,向图像生成AI(Agent)提供一个简单提示,例如让其研究AI公司吉祥物并生成一个360度全景动物园图像。然后,将生成的全景图输入Codex,即可获得相应的3D视图,从而构建出游戏场景。这种方法旨在简化沉浸式内容的创作门槛,标志着一种新的内容生成时代的到来。
本期IT早报主要内容包括:追觅科技CEO要求全体员工开通社交媒体账号并发布视频;OPPO计划下半年推出效仿苹果风格的四曲面设计手机;iPhone 18 Pro系列或将迎来史上最大相机硬件升级。此外,极越汽车关联主体进入合并重整程序,DeepSeek发布多模态模型技术报告,央视曝光部分充电头功率虚标,宇树发布起售价2.69万元的双臂人形机器人,比亚迪与高德地图达成充电合作,支付宝等17家支付机构牌照获续展,华为鸿蒙新版本占比提升,以及小米大屏旗舰手机预计5月下旬发布。
OpenAI 的 Codex CLI 编码代理最新版本 0.128.0 引入了类似 Ralph 循环的功能。用户可通过设置 `/goal` 指令,让 Codex 持续循环执行任务,直至系统判定目标完成或达到预设的 token 预算上限。该功能主要通过自动注入的 `goals/continuation.md` 和 `goals/budget_limit.md` 提示模板实现,标志着 Codex CLI 在自主任务执行与预算控制方面的能力得到增强。
Karpathy指出,2025年12月AI生成代码从需修改变为直接可用,标志进入Vibe Coding状态。软件开发进入Software 3.0大语言模型时代,编程核心转为通过prompt等操纵LLM。LLM能力呈锯齿状智能,在可验证、RL优化领域强,但常识任务上易犯错。他区分Vibe Coding(提高开发下限)与Agentic Engineering(守住质量、安全上限),强调人类理解、品味和判断仍最宝贵。未来可能转向神经计算机,基础设施需Agent-first。
Mistral AI 被列入 TIME100 2026 年最具影响力公司名单,并在人工智能类别中排名前十。公司强调其客户能够根据自己的条件在自有基础设施上运行前沿模型,这体现了自主性和数据控制优势。Mistral AI 感谢客户的信任和全球团队成员的贡献,同时祝贺所有今年被认可的企业。
英国人工智能安全研究所发布了对 OpenAI GPT-5.5 网络安全能力的评估结果。该模型在发现安全漏洞方面的能力与 Claude Mythos 相当,但不同于仍处于预览阶段的 Mythos,GPT-5.5 目前已可公开使用。此次评估是继该研究所先前对 Claude Mythos 进行评估后的又一重要测评。
关联讨论 2 条X:Rohan Paul (@rohanpaul_ai)The Decoder:AI News(RSS)AI 安全机构宣布 OpenAI 的 GPT-5.5-cyber 成功完成多步网络攻击模拟,成为继 Anthropic 的 Mythos 后第二个端到端完成攻击链的模型。David Sacks 回应指出,此类模型并非魔法或末日武器,仅是能自动化网络安全任务的工具,且所有前沿模型(包括中国模型)预计将在约6个月内达到同等水平。他强调模型不创造漏洞,而是发现并帮助修补已有漏洞,从而增强系统安全。从“前AI”到“后AI”网络安全将经历重大升级,最终达到AI驱动攻防的新平衡。关键在于确保防御方优先获得模型访问权,且需加速此进程。GPT-5.5-cyber 因无token限制,可能成为首个防御方可实际使用的模型。
xAI推出Grok 4.3模型,其在Artificial Analysis智能指数得分达53,超越Muse Spark等模型,较前代提升4分。模型在显著降低成本的同时保持智能水平,输入与输出价格分别降低约40%和60%。在真实世界智能体任务上表现突出,GDPval-AA基准得分大幅提升至1500 ELO,超越Gemini 3.1 Pro Preview等多款模型,但仍落后于GPT-5.5 (xhigh)。其在指令遵循和客服任务上表现强劲,但AA-Omniscience非幻觉率略有下降。
关联讨论 2 条X:Elon Musk (@elonmusk, xAI)X:xAI (@xai)Stripe 发布 Link CLI 工具,旨在为 AI Agent 提供安全的支付解决方案。该工具允许 Agent 通过命令行生成一次性支付凭证,每次消费时用户会收到实时推送,并需通过 FaceID 等方式进行同步人工批准,从而确保每笔交易都经过用户确认,有效解决了 Agent 自主支付的信任问题。Claude 已成功使用该工具在 Gumroad 上自主购买礼物,完成了支付闭环。Link CLI 为 Agent 时代的应用提供了关键的支付基础设施,开发者可便捷集成,让 Agent 在受控前提下安全执行交易任务。
关联讨论 1 条X:Berry Xia (@berryxia)Suno公司最新发布的音乐生成模型V5.5,在Artificial Analysis的器乐和人声排行榜上均位列第一,性能较前代V5模型有显著提升。本次更新重点聚焦个性化与身份特征,推出了三项新功能:用户可通过上传人声样本生成定制演唱音色;可个性化定制最多三个反映自身风格的模型版本;系统还能学习用户偏好的音乐流派、情绪和风格,以提供个性化推荐。该模型已通过Suno平台向Pro和Premier订阅用户开放,年费订阅起价为每月8美元(约含500首歌曲生成额度),且包含商业使用权。
苹果CEO蒂姆·库克在财报电话会议上表示,Mac mini和Mac Studio将在未来数月内持续供不应求,预计需几个月才能达到供需平衡。苹果低估了两款产品的需求,因其作为AI和智能体工具的优秀平台,客户认知速度快于预期。目前部分型号发货延迟已达数月,苹果已停售512GB RAM版Mac Studio,并停止接受某些大内存型号订单,基础款Mac mini在美国官网已显示缺货。
这几天,有好几个小伙伴@我说,我的一些作品在他们问 AI 的时候主动被推荐了,很神奇,我想了想感觉啥也没有做,居然可以被收录,那要不要做点更体系化的事情来整一整…
Zig 语言创始人 Andrew Kelley 反驳了“无法识别谁在使用 LLM”的常见误解。他指出,尽管可能未捕获所有由 AI 辅助的拉取请求,但人类错误与 LLM 的幻觉存在本质区别,使得后者易于识别。他进一步比喻道,习惯于使用 AI 代理编程的人带有一种“数字气味”,就像吸烟者进入房间时,不吸烟者能立刻察觉一样。Kelley 澄清自己并非反对使用 LLM,但明确禁止在 Zig 项目中使用 AI 辅助生成的代码。