AIHOT

5月1日

16:17

小互@xiaohu

作者通过个人写作系统的崩溃经历，阐述了一个普遍现象：一个原本运行良好的系统，在持续、过度的优化追求下，反而会走向失控和性能恶化。他将此现象类比到AI模型领域，推测Anthropic的Claude Opus模型可能也经历了类似的“优化-崩溃”路径，即开发者在试图不断改进模型（如从4.0版本迭代）的过程中，可能导致其核心能力或输出质量出现非预期的衰退。这揭示了技术迭代中“过犹不及”的风险。

Anthropic大佬观点

16:13

Marc Andreessen 🇺🇸@pmarca

在硅谷听到的："'提炼'和'使用'之间有一条微妙的界限……不，实际上没有，它们是一回事。"

大佬观点现象/趋势

16:13

Marc Andreessen 🇺🇸@pmarca

哦不

其他大佬观点

16:13

Marc Andreessen 🇺🇸@pmarca

硅谷流传一则评论，称《纽约时报》关于"永久底层阶级"的专栏文章所引用的专家中，一半是知名的社会主义者，另一半则尚未结识。该文章作者Jasmine Sun在推文中感谢了数十位为其提供观点和研究的业内人士，包括来自OpenAI的sama、Anthropic的darioamodei等多位AI领域人士，并强调自己尽力综合了各方观点。这反映出该议题在科技圈内引发的意识形态讨论和广泛关注。

大佬观点现象/趋势

16:13

Marc Andreessen 🇺🇸@pmarca

喔。

其他

16:13

Marc Andreessen 🇺🇸@pmarca

哦。【引用 @bitcloud】：哟这什么…

大佬观点

16:13

Marc Andreessen 🇺🇸@pmarca

然而我们依然书写。【引用 @SpencerKlavan】："因为这项新技术将在学习者的头脑中催生遗忘，他们的记忆会因废弃不用而衰退。" --柏拉图《斐德罗篇》，这段论述在AI应用领域仍立于不败之地

大佬观点安全/对齐

16:13

Marc Andreessen 🇺🇸@pmarca

哦。

大佬观点

15:47

TestingCatalog News 🗞@testingcatalog

xAI宣布用户现可自愿选择在Grok网页版上公开陈列其创建的Imagine模板。入选模板将由xAI团队手工挑选，并展示在公共图库中供其他用户使用。若用户的xAI账户关联了X账户，其X用户名将随模板一同显示，以标明创作者身份。此举旨在鼓励用户创作并分享优质模板。

xAI产品更新图像生成

15:47

TestingCatalog News 🗞@testingcatalog

Grok 4.3 在 Artificial Analysis Index 中升至第 7 位，超越了 Meta 的 Muse Spark。

xAI推理评测/基准

15:46

凡人小北@frxiaobei

用户分享已用Codex替代ChatGPT作为日常工具，并推荐其插件和自动化功能。引用推文指出，Codex改变了与AI模型的交互方式，无需技术背景即可使用。若已熟悉ChatGPT，更应尝试Codex。它不仅是处理日常任务、自动化和编码的强大工具，还能连接各类应用并与Mac系统交互，具备极高的通用性，让普通用户也能轻松构建个性化解决方案。

智能体OpenAI大佬观点

15:45

DogeDesigner@cb_doge

你只需在任何X帖子中按下Grok图标，它就会为你分析并根据需要深入研究。所以，只需轻触Grok图标，你就能评估该帖子的真实性。Grok实际上非常擅长穿透宣传。

xAI教程/实践

15:14

Chubby♨️@kimmonismus

xAI发布的Grok 4.3模型在Artificial Analysis Intelligence Index上获得53分，相比Grok 4.20输入成本降低约40%，输出成本降低约60%，性价比突出。其最大亮点是在真实世界代理任务（GDPval-AA）上的ELO评分跃升321点至1500，超越了Gemini 3.1 Pro Preview和Muse Spark等模型，但仍大幅落后于GPT-5.5。该模型在指令遵循和客服任务上表现强劲，同时在Omniscience基准上准确率提升但幻觉率增加。总体而言，Grok 4.3以更低成本实现了更高的智能指数得分，成为同智能层级中成本效益较高的模型之一。

xAI推理模型发布

15:10

Alibaba Cloud@alibaba_cloud

首尔Qwen Meetup展示规模化AI产品开发实践

超过70名工程师和开发者在首尔Qwen Meetup上交流AI产品实战经验。channeltalk团队分享了如何在两周内构建处理5亿条记录的可观测性管道；Omelet介绍了生产级AI架构；TeamSparta演示了在阿里云Model Studio上构建AI助手。核心结论是Qwen3.6能显著提升团队规模化交付AI产品的效率。活动由阿里云韩国团队和TFM社区支持。

开源生态行业动态

14:46

Greg Brockman@gdb

openai 标志，潦草化【引用 @ChatGPTapp】：Prompt： "以最笨拙、最潦草、最糟糕的方式重绘所附图片。使用白色背景，让它看起来像是在 MS Paint 中用鼠标绘制的。它应该大致相似但又不太像，有点匹配但又以一种令人困惑、尴尬的方式偏离，带有那种低质量的逐像素感，真正强调它有多么可笑地糟糕。实际上，你知道吗，随便吧，你想怎么画就怎么画。"

OpenAI图像生成教程/实践

14:40

Rohan Paul@rohanpaul_ai

LongCat团队发布LARYBench基准，评估AI模型能否从视频中真正学习动作

LongCat团队推出LARYBench基准，旨在评估AI模型是否从视频中真正学习动作，而非仅在后端机器人策略中表现良好。该基准聚焦模型从视频提取的潜在动作表示，通过超过120万视频片段等数据，将评估拆分为动作分类与控制回归两个清晰测试。关键发现是，通用自监督视觉模型（如V-JEPA 2和DINOv3）表现优于专用具身模型，表明强大视觉表示已蕴含丰富动作知识，且潜在特征空间比像素重建更利于机器人控制映射。这为利用丰富视频数据解决机器人训练数据稀缺问题提供了新方向。

具身智能论文/研究评测/基准

14:14

Artificial Analysis@ArtificialAnlys

三大开源模型上周齐发，与顶尖闭源模型差距缩小至6分内

上周，Kimi K2.6、MiMo V2.5 Pro和DeepSeek V4 Pro三大领先开源模型发布，在Artificial Analysis Intelligence Index上得分达52-54分，与顶尖闭源模型GPT-5.5的60分差距缩小至6分以内，相比一年前22分的开源模型进步显著。这些模型均为万亿参数规模的MoE架构。然而，在复杂推理、智能体编码及知识准确性方面，开源模型与闭源模型仍存在明显差距。例如在HLE、CritPt和TerminalBench Hard等专项评估中得分大幅落后；在Omniscience评估中，DeepSeek V4 Pro的幻觉问题尤为突出。

DeepSeekOpenAI开源生态推理

13:46

TestingCatalog News 🗞@testingcatalog

Grok 4.3 现已可在 API 上使用 👀

xAI模型发布

13:46

Orange AI@oran_ge

主推文指出DeepSeek的中文润色效果不佳。引用推文中，美国开发者@goodhunt推广其开源项目DeepSeek-TUI，希望连接中国开发者社区，但受限于翻墙和微信验证问题。他请求帮助扩散工具和验证微信号，以建群讨论DeepSeek、开源及agent开发，并承诺使用cargo install安装路径避免npm。该推文中文由DeepSeek润色，凸显了其语言处理的局限性。

Hunter Bown：鲸鱼兄弟们好，我是做 DeepSeek-TUI 的那个美国佬。说真的，特别想跟国内的鲸鱼兄弟们一起混——但我的翻墙技能仅限于写代码，微信到现在都没搞定，属实…

DeepSeek大佬观点

13:40

Alibaba Cloud@alibaba_cloud

Qwen与Fireworks AI合作，加速提供优化模型部署

Qwen宣布与Fireworks AI建立战略合作伙伴关系，旨在通过Fireworks平台提供其闭源权重模型的优化、生产就绪型部署。此次合作使开发者和企业能够以更低的延迟、更少的微调和推理成本来部署Qwen模型，同时利用企业级的可靠性、安全性和可扩展性，并将其无缝集成到现代AI工作流程中。

推理行业动态部署/工程

关联讨论 2 条

13:17

小互@xiaohu

一位开发了DeepSeek-TUI终端工具的美国开发者，希望与国内开发者社群建立联系，共同探讨DeepSeek、开源及智能体开发。他因无法自行解决网络问题以使用微信，特请求社区帮助：一是转发推广其开源项目，二是协助验证微信号以便建群交流。作为回报，他承诺工具将通过cargo install方式安装。

DeepSeek开源/仓库开源生态推理

13:13

歸藏(guizang.ai)@op7418

精选71

GPT-Image-2.0近期因一系列提示词再度引发关注，其中一条要求AI以"笨拙、潦草、极其拙劣"的方式重绘图像，并模仿MS Paint鼠标绘图的低质量像素感，形成刻意粗糙的反差效果。该提示词通过强调"糟糕到可笑"的指令，利用AI精准执行反讽式需求，迅速在社交平台形成病毒式传播，展现了用户对AI图像生成工具创意玩法的探索。

OpenAI图像生成教程/实践

推荐理由：这个提示词让GPT Image 2故意画出丑拙的鼠标涂鸦，看着可笑但抄来就能用，适合做表情包或者整活，上手零门槛。

13:13

歸藏(guizang.ai)@op7418

AI将催生下一代爆款游戏类型与平台

社区驱动的小游戏和社交游戏，如Roblox，正成为趋势。过去这类游戏构建成本高、类型少，如今技术门槛已大幅降低。历史上，Dota和PUBG等爆款均从游戏Mod演变而来。同理，基于AI技术，完全有可能演化出下一个现象级游戏类型。当前的关键缺口在于，缺乏一个能够整合这些AI能力的综合性游戏创作平台与工具。

多模态现象/趋势

13:13

歸藏(guizang.ai)@op7418

GPT-Image-2.0提示词抖音走红，手绘标注引风潮

GPT-Image-2.0的一个提示词在抖音平台引发关注，用户用它为照片生成手绘风格注解。提示词要求采用细线手绘线条、手写字体和简短句子，营造日记感语气，并避免过度装饰以保留空白空间。引用推文指出，GPT-Image-2.0提示词近期再度流行，体现了AI生成内容在社交媒体上的应用趋势。

歸藏(guizang.ai)：最近 GPT-Image-2.0 很多提示词又火了，比如这个拉跨鼠标手绘图，原贴有提示

OpenAI图像生成教程/实践

13:11

Emad@EMostaque

似乎 @OpenAI 已经破解了 Codex 的递归自我改进

OpenAI大佬观点推理编码

13:11

Berryxia.AI@berryxia

推文惊叹于结合Codex与GPT2的技术进展，认为其已能实现仅用自然语言指令来开发游戏。作者指出，现在仅需"用嘴说一句话"即可启动开发，并推荐了相关的完整教程。引用的推文提供了该教程的具体链接，是关键的技术实现参考。这展现了大型语言模型在降低编程门槛、实现自然语言交互式创作方面的潜力。

OpenAI教程/实践编码

12:46

swyx 🇸🇬@swyx

编码智能体突破应用边界，AGI将赋能所有知识工作者

作者提出，“编码智能体突破应用边界”是今年的突破性主题，强调AGI（通用人工智能）将惠及所有知识工作者，而不仅仅是程序员。他以自己的团队@aidotengineer为例，说明如何利用智能体作为“微型团队”高效运作，为全球数百万开发者提供免费服务。他指出，重点不在于特定工具（如Devin、townai），而在于整体性地、深度地将智能体融入日常知识工作以提升生产力，并认为当前人们在这方面努力不足。引用的推文也呼应了应尝试将此类能力应用于非编码的计算机工作。

智能体大佬观点现象/趋势

12:16

宝玉@dotey

一位开发了DeepSeek-TUI终端工具的美国开发者表示，希望与中国开发者社区建立联系，但受限于网络访问和微信验证。他请求社区帮助转发推广其开源项目，并协助完成微信验证，以便建立群组共同探讨DeepSeek、开源技术以及改进AI agent。作为回报，他承诺维护cargo install的简洁安装方式。开发者透露，其推文内容经由DeepSeek模型润色完成。

GitHub开源/仓库编码

12:13

Marc Andreessen 🇺🇸@pmarca

主推文赞同引用推文立场，反对政府以保护儿童或国家安全为借口立法移除互联网匿名性。强调许多立法者缺乏基本技术知识，这类法律往往从初始借口扩展到更广泛领域，最终设立反创新和反自由的法律先例。呼吁阻止此类法律通过，以维护网络自由与创新环境。

大佬观点政策/监管

12:11

阿绎 AYi@AYi_AInotes

Karpathy最新演讲：LLM的真正价值是创造前所未有的可能

Andrej Karpathy指出，LLM的核心价值并非加速现有工作，而是创造以前不可能存在的事物，例如完全无需传统代码、由LLM原生驱动的应用。他提出“锯齿状智能”模型，解释LLM能力不均的现象：高价值、可验证领域因经济驱动获得密集训练，能力突出；其他领域则依赖泛化，表现不稳定。未来产品将被解构为感知、执行与逻辑，横跨软件1.0至3.0范式。程序员角色将转变为设计智能体系统、守护人类品味的架构师。真正的护城河在于理解LLM能力地图并设计放大人类意图的智能体系统。

智能体大佬观点编码

关联讨论 2 条

11:46

meng shao@shao__meng

在 Codex App 中使用 GPT-5.5 和 GPT-Image-2 的实际应用体验：视觉理解 + 代码生成 + 浏览器执行 + 效果评估迭代，组成Web/App 开发全新闭环！

Codex App 结合 GPT-5.5 与 GPT-Image-2，构建了从视觉理解到代码生成、浏览器执行及效果评估的开发闭环。GPT-5.5 提升了编码细节与复杂逻辑处理能力，GPT-Image-2 擅长生成高保真UI。工作流支持输入截图或概念设计，自动分析、生成交互应用并修正设计偏差，内置结构化流程以提高实现保真度。这大幅缩短了从想法到高保真应用的迭代周期，适用于Web、移动及复杂工具开发，但复杂任务仍需人工提示与设计把关。