5月1日
07:36
OpenRouter@OpenRouter
精选68
@xai 的新模型 Grok-4.3 现已在 OpenRouter 上线! Grok-4.3 以比 Grok-4.2 更低的价格发布,同时在代理性能上实现大幅跃升:在 @ArtificialAnlys 的 GDPval-AA 基准上 ELO 分数提升 321 点至 1500,尽管价格更低,但仍超越了其他顶级模型。
智能体xAI模型发布评测/基准
关联讨论 1Hacker News 热门(buzzing.cc 中文翻译)
推荐理由:Grok-4.3 降价但性能反升,agentic 跑分直接到 1500,如果之前觉得 Grok 贵而没试过,这次可以上车了。
07:30
Berryxia.AI@berryxia
53
2026年你必须了解的6个大语言模型(LLM)知识库专业术语!

本文介绍了2026年构建高效团队LLM知识库必须掌握的六个核心术语。LLM知识库是让大语言模型处理原始资料并自主检索回答的系统,难点在于团队适配。持续数据摄取能自动从Slack、CRM等工作工具同步信息。来源可信度分级帮助区分官方决策与聊天观点等不同价值信息。时效性监控可主动发现信息矛盾并降低过时内容权重。自主维护实现文档随工作进展自动更新。这些技术共同对抗知识漂移,即文档与现实间缓慢产生的信息偏差,这是导致AI代理给出错误答案的主要根源。

检索增强教程/实践
07:25
Berryxia.AI@berryxia
68
利用AI工具链快速生成360度沉浸式游戏场景

推文介绍了一种利用AI工具链快速创建360度全景沉浸式小游戏体验的方法。核心流程是:首先,向图像生成AI(Agent)提供一个简单提示,例如让其研究AI公司吉祥物并生成一个360度全景动物园图像。然后,将生成的全景图输入Codex,即可获得相应的3D视图,从而构建出游戏场景。这种方法旨在简化沉浸式内容的创作门槛,标志着一种新的内容生成时代的到来。

图像生成多模态教程/实践
07:25
IT之家(RSS)
45
IT早报 0501:追觅 CEO 要求员工开通社媒账号;OPPO 将推四曲面手机;iPhone 18 Pro 相机大升级

本期IT早报主要内容包括:追觅科技CEO要求全体员工开通社交媒体账号并发布视频;OPPO计划下半年推出效仿苹果风格的四曲面设计手机;iPhone 18 Pro系列或将迎来史上最大相机硬件升级。此外,极越汽车关联主体进入合并重整程序,DeepSeek发布多模态模型技术报告,央视曝光部分充电头功率虚标,宇树发布起售价2.69万元的双臂人形机器人,比亚迪与高德地图达成充电合作,支付宝等17家支付机构牌照获续展,华为鸿蒙新版本占比提升,以及小米大屏旗舰手机预计5月下旬发布。

DeepSeek多模态推理行业动态
07:23
Simon Willison 博客
64
Codex CLI 0.128.0 新增 /goal 指令

OpenAI 的 Codex CLI 编码代理最新版本 0.128.0 引入了类似 Ralph 循环的功能。用户可通过设置 `/goal` 指令,让 Codex 持续循环执行任务,直至系统判定目标完成或达到预设的 token 预算上限。该功能主要通过自动注入的 `goals/continuation.md` 和 `goals/budget_limit.md` 提示模板实现,标志着 Codex CLI 在自主任务执行与预算控制方面的能力得到增强。

智能体OpenAI产品更新编码
07:16
Berryxia.AI@berryxia
62
在这场访谈中,Karpathy 分享了他作为程序员在 AI 时代的亲身经历与深刻洞见

Karpathy指出,2025年12月AI生成代码从需修改变为直接可用,标志进入Vibe Coding状态。软件开发进入Software 3.0大语言模型时代,编程核心转为通过prompt等操纵LLM。LLM能力呈锯齿状智能,在可验证、RL优化领域强,但常识任务上易犯错。他区分Vibe Coding(提高开发下限)与Agentic Engineering(守住质量、安全上限),强调人类理解、品味和判断仍最宝贵。未来可能转向神经计算机,基础设施需Agent-first。

智能体大佬观点现象/趋势编码
07:06
Mistral AI@MistralAI
58
Mistral AI 入选 TIME100 2026 年 AI 领域前十最具影响力公司

Mistral AI 被列入 TIME100 2026 年最具影响力公司名单,并在人工智能类别中排名前十。公司强调其客户能够根据自己的条件在自有基础设施上运行前沿模型,这体现了自主性和数据控制优势。Mistral AI 感谢客户的信任和全球团队成员的贡献,同时祝贺所有今年被认可的企业。

开源生态行业动态
07:03
Simon Willison 博客
51
我们对 OpenAI GPT-5.5 网络能力的评估

英国人工智能安全研究所发布了对 OpenAI GPT-5.5 网络安全能力的评估结果。该模型在发现安全漏洞方面的能力与 Claude Mythos 相当,但不同于仍处于预览阶段的 Mythos,GPT-5.5 目前已可公开使用。此次评估是继该研究所先前对 Claude Mythos 进行评估后的又一重要测评。

AnthropicOpenAI安全/对齐
关联讨论 2X:Rohan Paul (@rohanpaul_ai)The Decoder:AI News(RSS)
07:03
Berryxia.AI@berryxia
55
David Sacks 回应 AI 安全机构公告,解读 GPT-5.5-cyber 的网络攻击模拟能力

AI 安全机构宣布 OpenAI 的 GPT-5.5-cyber 成功完成多步网络攻击模拟,成为继 Anthropic 的 Mythos 后第二个端到端完成攻击链的模型。David Sacks 回应指出,此类模型并非魔法或末日武器,仅是能自动化网络安全任务的工具,且所有前沿模型(包括中国模型)预计将在约6个月内达到同等水平。他强调模型不创造漏洞,而是发现并帮助修补已有漏洞,从而增强系统安全。从“前AI”到“后AI”网络安全将经历重大升级,最终达到AI驱动攻防的新平衡。关键在于确保防御方优先获得模型访问权,且需加速此进程。GPT-5.5-cyber 因无token限制,可能成为首个防御方可实际使用的模型。

AnthropicOpenAI大佬观点安全/对齐
06:59
Artificial Analysis@ArtificialAnlys
66
xAI发布Grok 4.3模型:智能指数提升且成本大幅降低

xAI推出Grok 4.3模型,其在Artificial Analysis智能指数得分达53,超越Muse Spark等模型,较前代提升4分。模型在显著降低成本的同时保持智能水平,输入与输出价格分别降低约40%和60%。在真实世界智能体任务上表现突出,GDPval-AA基准得分大幅提升至1500 ELO,超越Gemini 3.1 Pro Preview等多款模型,但仍落后于GPT-5.5 (xhigh)。其在指令遵循和客服任务上表现强劲,但AA-Omniscience非幻觉率略有下降。

智能体xAI推理模型发布
关联讨论 2X:Elon Musk (@elonmusk, xAI)X:xAI (@xai)
06:53
Berryxia.AI@berryxia
65
Stripe 重磅推出 Link CLI!

Stripe 发布 Link CLI 工具,旨在为 AI Agent 提供安全的支付解决方案。该工具允许 Agent 通过命令行生成一次性支付凭证,每次消费时用户会收到实时推送,并需通过 FaceID 等方式进行同步人工批准,从而确保每笔交易都经过用户确认,有效解决了 Agent 自主支付的信任问题。Claude 已成功使用该工具在 Gumroad 上自主购买礼物,完成了支付闭环。Link CLI 为 Agent 时代的应用提供了关键的支付基础设施,开发者可便捷集成,让 Agent 在受控前提下安全执行交易任务。

智能体GitHub产品更新
关联讨论 1X:Berry Xia (@berryxia)
06:47
Artificial Analysis@ArtificialAnlys
54
Suno发布V5.5音乐生成模型,登顶双榜并推出个性化新功能

Suno公司最新发布的音乐生成模型V5.5,在Artificial Analysis的器乐和人声排行榜上均位列第一,性能较前代V5模型有显著提升。本次更新重点聚焦个性化与身份特征,推出了三项新功能:用户可通过上传人声样本生成定制演唱音色;可个性化定制最多三个反映自身风格的模型版本;系统还能学习用户偏好的音乐流派、情绪和风格,以提供个性化推荐。该模型已通过Suno平台向Pro和Premier订阅用户开放,年费订阅起价为每月8美元(约含500首歌曲生成额度),且包含商业使用权。

模型发布语音
06:39
IT之家(RSS)
50
苹果 CEO 库克:Mac Studio 和 Mac Mini 将在未来数月内供不应求

苹果CEO蒂姆·库克在财报电话会议上表示,Mac mini和Mac Studio将在未来数月内持续供不应求,预计需几个月才能达到供需平衡。苹果低估了两款产品的需求,因其作为AI和智能体工具的优秀平台,客户认知速度快于预期。目前部分型号发货延迟已达数月,苹果已停售512GB RAM版Mac Studio,并停止接受某些大内存型号订单,基础款Mac mini在美国官网已显示缺货。

端侧行业动态
06:04
06:00
Microsoft Research@MSFTResearch
精选71
安全的智能体并不能保证由相互连接的智能体组成的生态系统是安全的。微软研究院研究了当AI智能体交互时会出现什么问题,以及为什么网络层面的风险需要新的方法。了解更多:https://www.microsoft.com/en-us/research/blog/red-teaming-a-network-of-agents-understanding-what-breaks-when-ai-agents-interact-at-scale/
智能体Microsoft安全/对齐论文/研究

推荐理由:大多数 Agent 安全研究还在测单个模型,微软这篇把场景放大到多个 Agent 交互的网络,发现了只靠单体安全挡不住的生态风险,做多 Agent 系统的人最好读一下。
05:57
05:24
Simon Willison 博客
50
Zig 语言创始人 Andrew Kelley 谈如何识别 AI 生成的代码

Zig 语言创始人 Andrew Kelley 反驳了“无法识别谁在使用 LLM”的常见误解。他指出,尽管可能未捕获所有由 AI 辅助的拉取请求,但人类错误与 LLM 的幻觉存在本质区别,使得后者易于识别。他进一步比喻道,习惯于使用 AI 代理编程的人带有一种“数字气味”,就像吸烟者进入房间时,不吸烟者能立刻察觉一样。Kelley 澄清自己并非反对使用 LLM,但明确禁止在 Zig 项目中使用 AI 辅助生成的代码。

大佬观点开源生态编码
05:06