AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 1470 条
全部一手资讯X论文
标签「现象/趋势」清除
Rohan Paul@rohanpaul_ai · 5月2日56

Recent Harvard Business Review study found the same thing . AI use did not shrink work, it intensified it, and made employees busier. Fron a 8-month field study at a US tech company with about 200 employees Task expansion happened because AI filled in gaps in knowledge, so people started doing work that used to belong to other roles or would have been outsourced or deferred. That shift created extra coordination and review work for specialists, including fixing AI-assisted drafts and coaching colleagues whose work was only partly correct or complete. Boundaries blurred because starting became as easy as writing a prompt, so work slipped into lunch, meetings, and the minutes right before stepping away. Multitasking rose because people ran multiple AI threads at once and kept checking outputs, which increased attention switching and mental load. Over time, this faster rhythm raised expectations for speed through what became visible and normal, even without explicit pressure from managers.

译《哈佛商业评论》一项为期8个月的美国科技公司研究发现,AI应用并未减少工作量,反而加剧了工作强度与员工忙碌程度。由于AI填补了知识空白,员工开始承担原本属于其他角色或外包的任务,这增加了专家协调与审查的负担。工作边界因AI提示的便捷性而模糊,任务侵入非工作时间;同时,多线程运行AI提升了多任务处理频率,加剧了注意力切换与心智负荷。持续的加速节奏无形中提高了对工作速度的预期。尽管存在转型期,但长期来看“工作末日论”可能错误,未来人们可能更忙碌,且工作形态将显著不同。

Chubby♨️@kimmonismus · 5月2日56

Google's CEO just named three companies as TPU customers on the Alphabet earnings call. Problem: Two of the three don't actually use TPUs. A Google Cloud spokesperson confirmed this to @erinkwoo but declined to explain how the error occurred. Even better: one of those companies, Thinking Machines Lab (Mira Muratis company, ex OpenAI CTO), is actually running NVIDIA GB300 NVL72 on Google Cloud. Per Google's own press release from April 22. So Google's best example of a TPU customer… is an NVIDIA GPU customer. NVIDIA and Google Cloud have partnered for over a decade across infrastructure, libraries, and managed services. That partnership is clearly paying off, just not for TPUs. Very interesting.

译谷歌CEO在财报电话会上点名三家TPU客户,但其中两家实际上并未使用TPU,谷歌云发言人已确认此错误但未解释原因。更值得注意的是,被点名的Thinking Machines Lab(由前OpenAI CTO创立)实际上在谷歌云上运行的是NVIDIA GB300 NVL72 GPU。这显示NVIDIA与谷歌云的长达十年的合作伙伴关系正在取得成效,但并非体现在TPU的推广上。

SemiAnalysis@SemiAnalysis_ · 5月2日48

In the early stages, ODM server assembly mainly focused on manufacturing. ODM produced standardized racks, motherboards, and server systems on a large scale. Their primary advantages were cost efficiency, capacity, and yield. In the AI era, IT racks have become much more complex. GPU/ ASIC, high-power systems, liquid cooling, high-speed connections, and rack management all need to work together within the rack. To simplify cabling and maintenance, cableless designs may also become more common. As a result, ODM are no longer just manufacturers. They are evolving into partners in design, integration, and mass production. Moving forward, they will support various GPU / ASIC platforms and data center designs, and help vendors build the broader AI infrastructure ecosystem.

译早期,ODM服务器组装的核心在于大规模制造标准化硬件,优势在于成本、产能与良率。进入AI时代,服务器机架因GPU/ASIC、高功率系统、液冷及高速互联等技术而变得高度复杂,需确保各子系统协同工作,无线缆设计也可能兴起以简化部署。这促使ODM角色发生根本转变,从纯制造商演变为涵盖设计、集成与大规模生产的合作伙伴。未来,ODM将支持多元GPU/ASIC平台与数据中心设计,助力厂商构建更广阔的AI基础设施生态。

阿绎 AYi@AYi_AInotes · 5月2日48

之前看到过一些X要凉的言论, 加上中推区为了赚创作者收益各种低质搬运内容,信息噪音很大, 说实话我也曾经觉得X可能很难发展起来, 直到今天看到Nikita Bier发的这张图。 4月App Store下载量,比历史最高纪录还高出40%, 对你没看错,40%! 并不是小幅波动,直接断层式的跳跃增长🚀 让龙虾爬了下相关数据,过去两年很多人都在唱衰X 说它混乱,说它bug多,说用户都跑去Bluesky和Threads了, 甚至说说Elon把一个好好的产品毁了, 但其实下载量是不会骗人的, 这是用户用脚投出来的最硬的票。 很多人都想知道到底发生了什么? 其实没啥惊天动地的大事, 就是Nikita团队过去18个月, 一件事一件事地改, Grok深度集成了,视频体验变好了,社区功能也慢慢完善了, 再加上4月的新闻周期,X又变回了那个有大事第一时间去刷的地方。 有意思的是很多回复里都在说,Bluesky玩了一圈又回来了, 也不是Bluesky不好, 而是当全世界所有人都在讨论同一件事的时候,你只能来X, 我觉得这个东西就是实时社交网络的护城河,别人真的很难抄走。 但转念一想,这才只是开始, 下载量是领先指标,留存才是生死线。 现在的X问题依然很多: bot泛滥到影响体验,创作者变现政策反复横跳,app切后台就重载,reach像过山车一样不稳定。 如果这些问题解决不了, 这次的爆发可能只是昙花一现。 但如果Nikita团队能在接下来半年把留存和变现同步拉上来,那X就真的进入了一个全新的增长周期。 我感觉这件事对整个行业的冲击其实挺大的, 一个是它证明了,"安全、可控、算法投喂"不是唯一的答案。 其次是"言论自由、实时、开放",这个被很多人说过时的组合,依然有极强的生命力。 Nikita说,我们才刚刚热身, 讲真这个我信。 但真正的考验其实并不是拉新, 关键是怎么把这些兴冲冲进来的新用户真正留下来。 所以接下来的6到12个月, 才是见真章的时候, X是我心里全球最好的实时社交网络平台,有着最好的社区氛围和创作者支持体系,希望越来越好,感谢@nikitabier 团队过去18个月的努力和付出,respect🫡🫡🫡

译尽管长期存在唱衰言论,X在4月的App Store下载量却创下历史新高,较此前峰值增长40%,呈现断层式跳跃。这反驳了用户流向Bluesky、Threads或产品被毁的论调,下载量被视为用户“用脚投票”的最硬指标。增长归因于团队过去18个月对Grok集成、视频体验、社区功能的持续改进,以及4月新闻周期让X重回“刷大事”的核心场景。许多用户从Bluesky回流,凸显了“实时、开放、全球共时讨论”的护城河效应。然而,下载量只是领先指标,bot泛滥、创作者变现政策不稳定、应用性能等问题若不能解决,增长可能昙花一现。未来6-12个月的关键在于提升留存与变现,若能实现,X将进入全新增长周期。此事冲击行业认知,证明“安全可控的算法投喂”并非唯一答案,“言论自由、实时、开放”的模式依然拥有强大生命力。

Chubby♨️@kimmonismus · 5月2日41

I think Sam Altman's point is quite accurate in this respect. There will be disruption, social changes brought about by AI, and this isn't being discussed enough. It's something I'd like to research further. The social transformation is already underway. The question is how (!) we can ensure and guarantee a good life for everyone.

译作者赞同Sam Altman的观点,认为AI带来的社会变革与冲击尚未被充分讨论,且转型已在进行中。核心问题在于如何确保每个人在未来都能拥有良好的生活。引用推文补充指出,尽管转型期会出现岗位更替与工作形态剧变,但长期来看,人们可能比以往更忙碌且充实,对就业的悲观预测可能是错误的。

elvis@omarsar0 · 5月1日41

I often don't agree with Sam Altman, but I appreciate this tweet. You can believe it. But it's important to also say it. So many of the AI narratives are around job doomerism, which I find outright lazy and dishonest. Let's all try to build AI and tooling to elevate and augment us. I feel like it's the more challenging path, but it feels right. Most of the AI models and harnesses are not built like that today. But it doesn't mean we can't mold it to help augment the work we do. Wrote more about this here: https://x.com/omarsar0/status/2043771925621572089?s=20 Terence Tao's "Copernican view of intelligence" feels right, and it's totally achievable with proper alignment and effort.

译作者赞赏Sam Altman的推文,其中强调“构建工具以增强和提升人们,而非取代他们”。作者批评当前AI叙事中常见的工作毁灭论是懒惰且不诚实的,主张应努力构建AI和工具来提升和增强人类,这虽更具挑战性但方向正确。尽管目前大多数AI模型和工具并非如此设计,但通过适当的对齐和努力,可以将其塑造为辅助人类工作的力量。Terence Tao的“Copernican view of intelligence”支持这一愿景,并认为其完全可实现。

Ethan Mollick@emollick · 5月1日49

We need more work on AI inequality, but this study is not about GenAI, the survey was fielded in 2022. “In this study, we selected items from Wave 119 (N = 10,087), which were collected from December 12 to December 18, 2022.”

译我们需要更多关于AI不平等的工作,但这项研究不是关于GenAI的,调查是在2022年进行的。“在这项研究中,我们选择了来自Wave 119(N = 10,087)的项目,这些数据是在2022年12月12日至12月18日收集的。”

歸藏(guizang.ai)@op7418 · 5月1日22

有些游戏圈的朋友总是觉得,AI没办法做数值,好游戏不是靠这个,还要有玩法。 那什么时候才能分享呢?AI 能做所有的事?一句话让 AI 做个 3A? 不然我就不能让 AI 做游戏,也不能分享我的体验? 当 AI 能做一个非常完整的好游戏的时候,要人干嘛呢? 我只是向大家展示一下这个可能性,做个 demo。 也没说我这个游戏很好,也没说 AI 能够一下完成游戏的所有工作,没承诺过这个吧? 怎么这游戏圈的人就开始疯狂输出了呢?

译针对游戏圈认为AI无法处理数值和玩法设计的观点,作者反驳称自己仅是在展示AI参与游戏开发的可能性,并未承诺AI能独立完成3A游戏或替代人类。他强调当前演示只是demo,旨在探索技术潜力,但相关展示仍引发了游戏从业者的激烈批评。

Ethan Mollick@emollick · 5月1日49

Organizations are already superhuman intelligences. The University of Pennsylvania or Walmart or whatever is far more capable than any human. That is why the focus on AIs as individual productivity tools hits a natural limit, many benefits of AI depend on integration with firms.

译组织已经是超人类智能。宾夕法尼亚大学或沃尔玛等机构的能力远超任何个人。 这就是为什么将AI作为个人生产力工具的关注存在天然局限,AI的诸多益处取决于其与企业的整合。

阿绎 AYi@AYi_AInotes · 5月1日42

Damn, 十六个工程师,六周时间, 完成互联网史上最复杂的底层重构🤨🤨🤨 X这次把堆积十五年的老旧广告推荐系统全部推倒重写, 把100万行陈年Scala代码砍到5万行, 六百万CPU核心压缩至一万,等效600倍效率跃升, 过往大厂这种同等架构的迁移, 通常动辄数百工程师,耗时半年乃至一年, 然而X 这支极小的顶尖工程师团队,六周就走完全部的流程重构,上线和适配, 本质上是把十五年堆积的技术债,一次性清零了,真的牛逼! 把整个底层全部换成Rust加Grok原生Transformer模型, 最关键的战略动作是把信息流推荐和广告推荐,共用同一个Grok神经中枢, 以往是两套割裂独立的系统,逻辑分散,资源浪费, 现在同源模型统一调度, 信息流广告不再是生硬插入的硬广,而是通过算法理解用户偏好后自然流出的内容,使得基础设施成本大幅下跌,用户体验同步上涨, 这件事表层是精简代码,但深层内核其实是压缩算力,从而彻底完成AI原生底层置换, 让Grok不再只是一个聊天模型, 而是直接成为X全部商业流量的底层操作系统, 这样一来,马斯克的全栈闭环彻底成型,包括算力硬件,底层大模型,社交流量商业场景等全部打通! 反观传统社交大厂还在堆砌老旧机器学习架构,大量消耗海量服务器维持臃肿遗留代码, X已经直接跳过所有内卷, 用极小数量的精英工程师团队,完成了降维跃迁, 如果说旧系统是烧钱负重运转的机械齿轮, 那么新系统就是由AI驱动的轻量化神经引擎, 维护成本暴跌,迭代速度拉满,利润空间会被直接放大, 意味着往后所有功能更新,从月度迭代直接压缩至天级。 这从侧面也印证一个残酷的行业真相, 未来的AI工程价值, 光靠堆砌人力堆砌代码很难产出高质量产品, 一定是用顶尖极简团队,依靠大模型底层,推翻陈旧规则,重构整个技术堆栈, 不得不说,那些臃肿的旧时代基建,已经彻底过时了。

译X公司一支16人的顶尖工程师团队,仅用六周时间,将堆积了十五年的老旧广告推荐系统彻底重构。他们将100万行Scala代码精简至5万行,底层全部替换为Rust和Grok原生Transformer模型,并将信息流与广告推荐整合到同一个Grok神经中枢进行统一调度。此举大幅降低了基础设施成本,提升了用户体验,使Grok从聊天模型转变为驱动X全部商业流量的底层操作系统,标志着马斯克实现了从算力硬件、底层大模型到商业场景的全栈闭环。

meng shao@shao__meng · 5月1日49

最近和 20+ 大厂工程师沟通后,有一个个人判断: 除了 qwen, seed 这种大厂超核心部门中的核心岗位,对其他绝大部分工程师来讲,离开大厂,才是真正靠近 AI 的开始。

阿绎 AYi@AYi_AInotes · 5月1日51

Karpathy今天抛出的这个观点,很可能改写整个计算机科学史的走向🤯🤯🤯 从此以后CPU作为计算机主芯片的时代可能要正式结束了, 因为未来神经网络会成为计算的宿主进程, CPU会彻底退化成一个协处理器, 现在正在发生的是第三次主芯片翻转, 前两次每一次,都彻底摧毁了旧的霸主, 第一次是1980年代的FPU, 以前浮点计算是要额外插卡的附加功能, 后来被集成进CPU,独立FPU行业十年内彻底消失, 第二次是1990年代的GPU, 以前3D加速是游戏玩家的小众玩具, 后来CUDA把它变成通用计算平台, 深度学习爆发之后,GPU的价值直接超越了主机, 所有的旧霸主都犯了同一个错误, 他们一直在优化昨天的工作负载, 而没有看到新的主导力量正在崛起, 现在第三次翻转就在我们眼前, 主导工作负载已经从传统计算,变成了语言推理和多模态, 就像现在大多数人打开电脑, 90%的时间都在和一个文本框聊天, 模型自动调用工具,生成代码,渲染界面, 目前市场已经在为这个转变疯狂定价,比如Nvidia市值5万亿美元,Intel只有4250亿,甚至微软把全部闲置的CPU库存都卖给了OpenAI和Anthropic, 就连AWS今年CPU采购量翻了三倍还是供不应求🤣😆 这就不能说是CPU短缺了, 意味着全世界的钱都在疯狂追逐推理能力, 其中最颠覆的是软件3.0时代的到来, 以前的软件是你下载安装的Photoshop,但以后的软件是你说一句话, 模型瞬间给你生成一个定制的UI, 用完就扔, 再也没有预先写死的应用, 所有的功能都是临时生成的, 尽管很多人说CPU不会死, 没错啊,CPU确实不会死, 但它的地位会会慢慢降级, 就像当年的FPU和GPU一样, 从计算机的核心,变成一个辅助加速器, 那么未来的服务器架构, 会是海量的GPU加一个极精简的CPU调度层,所以真正的权力已经从芯片厂商,转移到了拥有模型的公司手里, Karpathy说, 早期计算机先驱曾经在计算器和神经网络之间犹豫过, 最后选了经典计算的路, 现在历史终于绕回了另一个选项, 作为写了三十年代码的程序员, 他自己每天都觉得在落后, 当最顶尖的人都觉得跟不上的时候, 说明范式真的已经变了, 兄弟们可以考虑是否还要再优化旧世界的代码,毕竟新世界的主芯片很可能就是模型。

译Karpathy提出计算机科学正经历第三次主芯片翻转,神经网络将成为计算的宿主进程,CPU则退化为协处理器,类似历史上FPU和GPU的变革。主导工作负载转向语言推理与多模态,市场正疯狂定价推理能力。软件3.0时代到来,应用将临时生成,模型驱动。LLM的核心价值在于创造前所未有的新事物,其能力呈现经济学驱动的“锯齿状智能”。范式迁移下,程序员角色转变为设计代理系统,护城河从编写代码转向理解LLM与设计能放大人类品味的智能体。

歸藏(guizang.ai)@op7418 · 5月1日45

类似 Roblox 这样的社区型游戏和社交驱动的小游戏产品会很火。 以前构建这种游戏的类型非常少,而且成本也比较高。但现在其实每个人都能构建各种游戏。 像早期的 Dota 和 PUBG 的原始玩法,其实都是一些游戏的Mod演变出来的。 所以理论上,现在基于 AI 也可以演变出非常可能是下一个爆款的游戏类型,目前只是缺一个将这些能力整合到一起的游戏平台和工具。

译社区驱动的小游戏和社交游戏,如Roblox,正成为趋势。过去这类游戏构建成本高、类型少,如今技术门槛已大幅降低。历史上,Dota和PUBG等爆款均从游戏Mod演变而来。同理,基于AI技术,完全有可能演化出下一个现象级游戏类型。当前的关键缺口在于,缺乏一个能够整合这些AI能力的综合性游戏创作平台与工具。

swyx 🇸🇬@swyx · 5月1日67

i said on @jacobeffron's pod recently that "coding agents breaking containment" is the breakout theme of the year. i meant it - this is the year all knowledge workers, not just coders, get AGI-pilled. for the AIE EU closing note (https://www.youtube.com/watch?v=zepu8Kk6FBQ), I gave a short talk on how we use agents to run @aidotengineer as a Tiny Team that now serves ~1m unique developers a month for free all around the world, for everything from CMS to renting lobster inflatables. yes I use @openclaw personally and as a team we use @cognition's Devin and @townai, but this isn't about any one agent; it's about all of them, and how you are probably not trying hard enough to use them for daily knowledge work. i hope this gives you agent productivity ideas for you and your team.

译作者提出,“编码智能体突破应用边界”是今年的突破性主题,强调AGI(通用人工智能)将惠及所有知识工作者,而不仅仅是程序员。他以自己的团队@aidotengineer为例,说明如何利用智能体作为“微型团队”高效运作,为全球数百万开发者提供免费服务。他指出,重点不在于特定工具(如Devin、townai),而在于整体性地、深度地将智能体融入日常知识工作以提升生产力,并认为当前人们在这方面努力不足。引用的推文也呼应了应尝试将此类能力应用于非编码的计算机工作。

Orange AI@oran_ge · 5月1日27

如果最近感觉世界越来越快了,可能是已经在逼近奇点了

歸藏(guizang.ai)@op7418 · 5月1日40

最近 AI 参与的高品质游戏内容越来越多了。 又发现一个,这个看起来会上架 Steam,是一个国风的恐怖探案类游戏。

译AI参与的高品质游戏内容正快速增加,例如即将上架Steam的国风恐怖探案游戏Strange Rites。该游戏设定于1920年代,融合超自然侦探与黑色电影风格,受中国古典哥特文学启发。玩家扮演拥有鬼视能力的记者,在战争背景下调查相互关联的案件,探索人性之恶的主题。游戏完全由AI生成,提供互动式神秘剧体验,涉及犯罪现场调查、线索拼凑和道德模糊的选择。目前已在Steam开放愿望单。

SemiAnalysis@SemiAnalysis_ · 5月1日58

AI Value Capture - The Shift To Model Labs Vera Rubin VR NVL72: V for Value - Rubin delivers a step jump in performance per TCO. ROI accruing to users, Neoclouds, Hyperscalers, AI Labs, Memory Vendors or GPU Manufacturers? READ NOW: https://newsletter.semianalysis.com/p/ai-value-capture-the-shift-to-model

译AI价值捕获——向模型实验室的转变 Vera Rubin VR NVL72:V代表价值—— Rubin在每单位总拥有成本性能上实现了阶跃式提升。投资回报将累积给用户、Neoclouds、超大规模云商、 AI实验室、内存供应商还是GPU制造商? 立即阅读:https://newsletter.semianalysis.com/p/ai-value-capture-the-shift-to-model

Orange AI@oran_ge · 5月1日52

昨天下午藏师傅给我看录屏的时候 我就被彻底震撼了 以前这种东西没有一个工作室没有个把月的做不出来 现在一个人一下午就搞出来了 feel the AGI…

译作者看到他人展示的录屏后感到震撼,因为过去需要工作室耗时月余才能完成的复杂项目,现在借助Codex,一个人仅用一个下午就开发出了一个非常完整的、类似《杀戮尖塔》的卡牌游戏。该游戏的代码和客户端均已开源。此事让作者深切感受到了AGI(通用人工智能)带来的生产力变革。

Ethan Mollick@emollick · 5月1日18

I think everyone would be okay with this, though.

译我觉得大家应该都能接受这一点。

ginobefun@hongming731 · 5月1日61

http://x.com/i/article/2050006014297346048 # BestBlogs 每日早报 · 2026-05-01 · 软件 3.0、Vibe Coding 与 Prompt Caching 早报链接:https://www.bestblogs.dev/explore/brief ## 导语 AI 的坐标系正在被重画。Karpathy 在 Sequoia Capital 的访谈里把软件推进到 3.0 时代,编程核心从写代码变成喂上下文,并区分了 Vibe Coding 与 Agentic Engineering 两种姿态;OpenAI 总裁 Greg Brockman 把真正的瓶颈从算力挪到了人类注意力,并估算 AGI 已经走完八成路。落到工程层面,Anthropic 公开了 Claude Code 把 Prompt Caching 命中率当 SLA 监控的实战经验,把"上下文是新代码"翻译成了一条条可执行的工程纪律。今天这一期,我们从这三场对话出发,再把视野延伸到 Long-running Agents 的范式、RAG 之争、京东 GRAM 的 50ms 生成式推荐、DeepSeek 识图与一系列基础设施动作,给你一份能按图索骥读完的早报。 ## 精讲一 · 卡帕西红杉访谈:从 Vibe Coding 到 Agentic Engineering,软件 3.0 时代已来 OpenAI 联合创始人、特斯拉前 Autopilot 负责人 Andrej Karpathy 这次走进 Sequoia Capital 演播室,给当下的软件开发画了一张新地图。他把过去一二十年的实战经验压缩成一段时间线:Software 1.0 是人类一行行写下的显式规则,编译器和操作系统都属于这一层;Software 2.0 是用神经网络权重替代人写规则,编程变成数据集和网络结构的编排,深度学习时代的计算机视觉、语音识别都在这条线上;进入 Software 3.0,LLM 成了那台真正在跑的"计算机",上下文窗口才是主要的控制杆,编程不再是写代码,而是把对的 prompt、对的上下文喂进去,再用工具调用把外部世界接回来。 在这个新地图上,Karpathy 给两种姿态打了清晰的标签。Vibe Coding 是"抬升地板",让任何人都能凭一段描述让 AI 把原型跑出来,门槛被压到几乎为零;Agentic Engineering 则是专业团队的纪律,要求工程师协调多个能力参差不齐、行为带有随机性的 spiky 智能体,在面对生产环境的质量、安全、合规和性能时仍然保持系统级的可靠性。他还提醒,AI 进步本身是 jagged 的——在数学、代码这种可被强化学习自动验证的领域峰值很高,模型可以重构十万行代码,却可能在"该走路还是开车去洗车"这种生活化判断上翻车,因为后者落在了奖励信号之外,根本没机会被打磨。 Karpathy 还把人类工程师的角色重新做了定义。当智能体接管了那些"实习生级别"的活儿——比如记住 reshape 和 permute 的差别——人类应当向上一层走,承担起 director 的职责。他点名了三种最值钱的能力:第一是品味与判断力,要能决定什么值得做、做出来的审美是否过关;第二是系统设计,能写出高层规格说明,让一群智能体按照计划去执行;第三是真正的理解力,他原话是"你可以外包思考,但你没办法外包理解",理解力会成为引导 AI 价值的最终方向盘。 为什么这一段对今天的工程师重要?因为它直接对应到第三篇精讲里的 Prompt Caching 实践——当 LLM 真的成了一台计算机,prompt 就是程序,prompt 缓存就是 CPU cache,工程化的核心从此转向"如何稳定、可缓存地喂上下文"。Karpathy 的判断也呼应了 Brockman 那场对谈的主旋律:人类的角色正在从写代码的 coder 变成定义意图、把握品味、承担系统设计责任的 director。 如果你只听一段,请关注他对 2026 年的预测:神经网络可能成为主机进程,CPU 退化为协处理器,UI 由扩散模型按需即时渲染——这意味着用户每一次打开界面,看到的都是模型为他这一刻量身渲染出来的瞬时形态。这同时意味着我们今天写的产品形态、UI 框架、甚至 SaaS 的边界,都可能在两年内被重新定义。完整访谈见 BestBlogs · Karpathy 红杉访谈。 ## 精讲二 · OpenAI 总裁布罗克曼红杉访谈:算力套利、Scaling Laws 没有墙、人类注意力是新瓶颈 如果说 Karpathy 给的是新地图,OpenAI 总裁 Greg Brockman 给的就是这张地图背后的商业模型。他直白地说,OpenAI 的本质就是一桩算力套利生意:买、租、自建算力,然后用更高的毛利卖出去;只要这个毛利还为正,公司就会持续扩张,因为人类对"解决问题"的需求几乎是无穷的,对应到 AI 上就是对智能的无穷需求。即便 OpenAI 已经是 GPU 市场的大客户,Brockman 仍坦言他们"始终在猎更多算力",自 ChatGPT 发布以来,需求始终跑赢硬件爬坡。 他对 Scaling Laws 的描述更激进。他把 Scaling Laws 比作牛顿定律一样的物理事实——往神经网络里多倒算力,模型能力就线性变强,这条规律目前还没有看到墙。他甚至追溯到神经网络在 1940 年代被设计出来的时候,那时连真正的计算机都还没普及,但同一套数学结构等到算力跟上之后立刻迸发出新的意义。他给出一个粗略估算:人类已经走完了通向 AGI 八成的路,并用内部模型在一夜之间自动完成系统优化、profiling、迭代闭环的实例作为佐证——模型在没人盯着的情况下,可以一晚上完成一套基础设施的性能调优工作。他还提到 OpenAI 内部的 Chronicle 工具,让模型直接看见用户整台电脑上发生的事,把上下文问题硬解决——他反问道:"你为什么要去给计算机解释正在发生什么?这件事本身就不合理。"这正回应了 Karpathy 关于"Software 3.0 的核心是上下文工程"的论断。 更值得敲黑板的是 Brockman 对瓶颈位置的迁移:当 AI 把"做事"变得便宜,真正稀缺的资源从执行能力变成人类注意力和判断力。重要的问题不再是"怎么做",而是"做这件事是否对、是否对齐我们想要的方向、是否就是我们真正想要的结果"。除此之外,Brockman 还分享了一个让他兴奋的观察:OpenAI 内部某个模型最近独立推导出了一条与量子引力相关的物理公式,过去专家普遍认为这种问题超出了现有 AI 的能力范围。他预测科学领域会迎来一次文艺复兴,因为模型正在学会在生物学、物理学这些"杂乱真实世界"里找路。这条线索把今天的另外几篇文章串起来了:DeepMind 的 Hassabis 也把目光放在 2030 年的 AGI 与科学黄金时代,京东 GRAM 选择把生成式推荐压进 50ms,本质都是在抢人类愿意分给系统的那点注意力。 如果你是创业者或工程负责人,Brockman 的建议很简单:lean in。把 AI 系统应有的上下文、应有的工具、应有的可观察性今天就配齐,等模型继续变好,你才能跟着这股加速浪潮一起前进,而不是事到临头再补课。他的话翻译成产品语言,就是不要等下一代模型,而是把今天能做到的体验先完整地交付给用户,把"上下文齐整、动作可解释、效果可衡量"的基础底盘搭起来。完整访谈见 BestBlogs · Brockman 红杉访谈。 ## 精讲三 · Claude Code 实战经验:Prompt Caching 就是一切,把缓存命中率当 SLA 来监控 Anthropic 这篇 Claude Code 团队的工程文章,正好是前两场对话的落地版。作者一开篇就引用工程界的老话——"cache rules everything around me",这句话对长程 Agent 同样成立。Claude Code 整套 harness 是围绕 Prompt Caching 设计的,因为高命中率直接降低成本,也让 Anthropic 能给订阅用户更宽的 rate limit。所以他们把缓存命中率当 SLA 来盯,命中率掉了就直接拉 SEV——把曾经的"性能优化技巧"上升到了线上故障级别的指标。 文章里给了几条非常硬核的工程纪律。第一是 prompt 的物理布局:Prompt 缓存的本质是前缀匹配,API 会把请求从开头一直缓存到每个 cache_control 断点,所以静态 system prompt 和工具定义放最前,CLAUDE.md 紧随其后,再是 session 上下文,最后才是会话消息。这样不同 session 之间能尽可能共享前缀缓存,把命中率拉满。Anthropic 团队曾经踩过的坑也很真实——把精确时间戳写进 system prompt、工具顺序非确定地洗牌、给 Agent 工具加新可调用的子智能体,都会让前缀失效。第二是更新机制:信息过期了不要去改 prompt,而是把更新追加到下一条 user message 或 tool result 的 <system-reminder> 里,这样就不会破坏已经热起来的缓存,模型也能在下一轮自然地读到新状态。 第三条是反直觉的"不要中途换模型"。Prompt 缓存是按模型独立维护的,所以如果你已经在 Opus 上跑了 100k token 的会话,遇到一个简单问题改用 Haiku 回答反而更贵,因为得给 Haiku 重新建一份缓存,这笔重建成本会一次性抵消掉小模型本身省下的钱。正确做法是派一个 subagent 让 Opus 准备 hand-off 给小模型——这套思路也已经用在 Claude Code 的 Explore agent 里,它专门用 Haiku 做大规模代码搜索。第四条是不要在会话中途增减工具,因为工具属于缓存前缀的一部分,加一个、减一个就把整段会话的缓存全部失效。直觉告诉我们应该"模型现在需要什么工具就给什么工具",但这正是大家最常踩的坑。Plan Mode 的实现就是个范例:他们没有去切换工具集,而是新增一个 EnterPlanMode 工具,把"我现在处于计划态"作为一个动作表达出来,模型在 Plan Mode 内只允许调用只读工具,但工具集本身一直保持稳定,缓存因此不被打破。最后一条针对超长会话的 compaction:当对话太长需要做摘要压缩时,新会话必须复用父会话的 system prompt 才能命中前缀缓存,否则压缩本身就先吃掉一大笔成本。 把这三条精讲连起来看:Karpathy 告诉我们编程的对象变了,Brockman 告诉我们瓶颈在注意力,Anthropic 告诉我们做长程 Agent 的真功夫是把上下文管理工程化,并把缓存命中率作为一条可监控、可报警的硬指标。如果你正在构建自己的 Coding Agent 或长程 Agent,这篇文章值得逐条复盘到自己的 harness 里,再把每一条做成 SLA 告警跑起来。完整内容见 BestBlogs · Claude Code Prompt Caching。 ## 速览 长周期 AI Agent 工程拆解:跨上下文窗口和沙箱持续推进任务的五种生产模式 Addy Osmani 把过去两年"Agent = 聊天窗口 + 工具循环"那种范式正式翻篇。他指出真正的下一阶段是 long-running agent:能跨多个上下文窗口、跨多个沙箱持续推进任务,可恢复、可中断、并能留下结构化产物。文章对比了 Anthropic、Cursor 和 Google 三家的实现,把它们抽象成五种生产级模式,从执行计划的持久化、到对外可观测的产物层、再到多智能体之间的协作协议,每一种都给出了具体的取舍和落地代价。如果你正在落地长程 Agent,这是当前最系统的工程地图,配合精讲三的 Prompt Caching 经验一起读会有更立体的视角。原文见 BestBlogs · Long-running AI agents。 RAG 已死?不,是 Grep 回归了 腾讯云开发者基于 Claude Code 泄露源码,给"RAG 是不是过时了"这个问题提供了一份具体答案。文章拆解了 Claude Code 在代码搜索场景下放弃向量检索、改用 LLM 驱动 Grep 多轮循环搜索的设计:模型像一个老练的工程师那样,先用关键字 Grep 大致定位,再读懂目录结构、缩小范围、精读片段,必要时再换关键字回头复查,最后给出答案。作者再把它和 Cursor、Codex 横向对比,论证在代码这种"结构高度规则、噪声低、变更频繁"的场景下,零索引方案的可行性、可解释性、对仓库变更的鲁棒性都更高,也避免了向量库的离线索引和漂移问题。读完你大概率会重新审视自己手里那套向量库到底解决的是什么问题。原文见 BestBlogs · RAG 已死?Grep 回归。 OpenAI 反思:GPT-5.1 之后突然冒出的"小妖怪"从哪来 OpenAI 这篇官方博文调查了一个非常生动的小事故:从 GPT-5.1 开始,他们的模型越来越爱在比喻里塞 goblin、gremlin 这种小妖怪。和那种"指标暴跌、训练 loss 飙升"的明显 bug 不同,这种奇怪的口头禅没法靠监控直接抓住,也不会指向某次具体的 commit 或某条数据。OpenAI 顺着内部日志一路回溯,最后追到了 Nerdy 个性化训练里一条被无意奖励的"用生物比喻"信号——一个微小的奖励倾斜,借模型迭代被放大成了可观察的群体性偏好,最终在用户对话里变成了大家都能看见的口头禅。这是一个很好的警示:当模型规模和迭代速度都进入新阶段,奖励工程里的微小偏置会以你想不到的方式表达自己,需要用更系统的"行为漂移"监控去配合传统的指标告警。原文见 BestBlogs · OpenAI 小妖怪反思。 DeepMind 创始人哈萨比斯红杉访谈:通向 AGI 的精确路径与科学黄金时代 把这一期 Sequoia Capital 三场访谈拼齐的,是 DeepMind 创始人 Demis Hassabis。他把自己的人生从国际象棋神童一路讲到 AGI 路线设计师,强调 AI 是描述生物学这种"高度复杂自然系统"最好的语言,并把 AGI 与一个真正意义上的"科学黄金时代"放在 2030 年这个时间点。他对路线的描述非常工程化:今天的多模态、规划、记忆、世界模型,每一块都对应一个明确的研究路标,缺哪一块、什么时候补上都有清晰的判断。配合 Karpathy、Brockman 的两段,你可以把当下三家头部实验室的方法论在脑子里拼成一张完整的时间线:DeepMind 偏向科学问题、OpenAI 偏向算力套利与产品扩张、Anthropic 偏向工程纪律与可观察性。完整访谈见 BestBlogs · Hassabis 红杉访谈。 Stripe Docdb:用零停机数据迁移平台支撑万亿美元支付的工程实战 InfoQ 这篇文章揭开了 Stripe 自研 DocDB 的内幕。他们基于开源 MongoDB 重做了一整套零停机数据迁移平台,把数据库分片从过去那种"得人工照看的宠物"变成了"可自动化、可水平扩展的群",整个迁移、扩容、回滚都在线上无感完成,DBA 团队再也不用半夜爬起来照顾某一台异常的分片。这套系统支撑着 Stripe 一年处理万亿美元规模支付的核心存储栈,每一笔交易都从这套平台的可用性里受益。对所有还在为大表迁移、分片改造头疼的工程团队来说,这是一份难得的"工业级"参考,给出了从控制面到数据面的一整套设计取舍。原文见 BestBlogs · Stripe Docdb。 DeepSeek 识图模式是个新模型?!一手实测在此 量子位拿到了 DeepSeek 灰度测试中的识图模式,做了一份扎实的一手实测。作者发现这个识图模式背后很可能不是 V4 的视觉分支,而是一个独立训练的新视觉模型——在 OCR、HTML 复原这类"高确定性"任务上表现亮眼,能把截图原样复刻成接近像素级的页面,连一些细小的图标和文字层级都能复原回来;但在空间推理、找不同等需要长链条视觉推理的任务上,依然会出现幻觉、思考过长,模型有时会自我纠结到失去结论。这条信息既是对 DeepSeek 路线的及时补充,也提醒我们多模态评测要分清"看清楚"和"看明白"两件事,前者更像是更高分辨率的视觉编码器,后者考的是真正的视觉推理能力。原文见 BestBlogs · DeepSeek 识图实测。 京东广告大模型实战:GRAM 架构如何在 50ms 内完成生成式推荐? InfoQ 中文这篇来自京东广告团队的实战分享,把"生成式推荐能不能进推荐主链路"这个老问题给出了肯定答案。GRAM 架构通过让用户意图与商品在语义空间里直接对齐,再叠加快慢双链路、知识工程与一系列工程优化,把生成式推荐压进了 50ms 以内的延迟预算,同时有效抑制了大模型在商品推荐场景里特别容易出现的幻觉问题。文章对预训练、后训练、业务领域微调的两年实践节奏也给了清晰描述,强调"从 2023 年底到 2025 年底"这条从基础能力到业务落地的演进路径走得越来越顺。对所有正在把 LLM 推进到电商、广告主链路的团队来说,这是一份能直接对照自家系统去打分的硬核工程文章。原文见 BestBlogs · 京东 GRAM。 ## 扩展阅读 Scaling Pain:超大规模 Coding Agent 推理实践 智谱团队复盘了在超大规模 Coding Agent 推理场景中遇到的三类异常输出——乱码、复读、生僻字,详细讲了如何在高并发与长上下文叠加下做异常检测、定位与修复。其中复读相对容易抓,但乱码和生僻字尤其棘手,正则表达式和字符集匹配会漏判,纯模型判别又跟不上消融实验的效率。最终他们用投机采样指标作为异常检测的重要参考,并给出了 KV Cache 分层存储的优化方案。适合所有正在为推理稳定性头疼的基础设施团队。原文见 BestBlogs · 智谱 Scaling Pain。 Generalist 之后,罗剑岚团队推出 LWD,也要变革具身智能训练范式 机器之心介绍了智元机器人联合上海创智学院推出的 LWD(Learning While Deploying)系统。它首次让具身 VLA 策略走通了大规模分布式强化学习的预训练 + 后训练闭环,让机器人在真实世界部署中持续自主进化,5 分钟长程操作任务能做到 91% 的成功率。文章里那段机器人切水果、把梨和黄瓜打成饮料的演示也直接说明了:具身智能正在跨过"演示视频"的门槛,进入"日常作业"的阶段。具身智能从业者必读。原文见 BestBlogs · LWD。 Stripe 发布 288 项新功能,构建 AI 时代的经济基础设施 量子位整理了 Stripe 年度大会一次性放出的 288 项新功能,从 AI Agent 支付、流式支付、风控升级到全球企业账户。Stripe 联合创始人兼 CEO Patrick Collison 直接表态:"AI 是继互联网以来对经济影响最深远的平台变革,不远的未来绝大多数线上交易将由 AI 智能体完成。"对照本期 Brockman 那段对算力套利的论述一起看,这份清单是观察"AI 原生支付基础设施"的好窗口。原文见 BestBlogs · Stripe 288。 营收增长 33%、Meta 股价却大跌:扎克伯格宣布再烧 100 亿 腾讯科技解读了 Meta 这份"超预期但被市场惩罚"的财报。营收同比增长 33%,是 2021 年以来最快的营收增速,但因为扎克伯格把 2026 年资本支出上限拉到 1450 亿美元,市场担心 AI 投入回报周期被拉长、自由现金流被压缩。文章还提醒读者,本季净利润中藏着一笔一次性税务收益,剥离后的真实盈利能力没有看上去那么夸张。对于关注大厂 AI 资本支出节奏的读者,这是一份直接的现实读数。原文见 BestBlogs · Meta 财报。 刚刚,DeepSeek 最新成果,节前发布 Datawhale 报道了 DeepSeek 在五一节前突袭发布的论文《Thinking with Visual Primitives》,由 DeepSeek 联合北大、清华开源。论文提出在思维链中嵌入坐标 token 作为"视觉原语",专门解决多模态模型在拓扑推理任务上的引用差距问题,让模型在生成推理过程时能直接"指着图说话"。值得搭配前面那篇 DeepSeek 识图实测一起读,能更完整理解 DeepSeek 在视觉理解这条线的最新动作。原文见 BestBlogs · DeepSeek Visual Primitives。 ## 今日阅读路径 如果你今天只能读三篇,我们推荐: 1. Karpathy 红杉访谈(精讲一)——拿到这张新地图,后面所有内容才放得下位置:BestBlogs · Karpathy。 1. Claude Code Prompt Caching 实战(精讲三)——把"上下文是新代码"这件事变成你今天就能动手的工程动作:BestBlogs · Prompt Caching。 1. Long-running AI Agent 工程拆解(速览首条)——补上长程 Agent 的范式视角,让前两篇真正接得住产品:BestBlogs · Long-running Agents。 如果还想再读一篇,加上 Brockman 那场访谈,把"算力—注意力—工程"这条主线在脑子里完整跑一遍。再有余力的话,DeepSeek 识图实测和京东 GRAM 这两篇会让你更直观地感受到,新的视觉理解能力和生成式推荐已经在产品端、广告端落地,而不是仍停留在论文里。其他几篇放在桌上慢慢翻就好,今天值得记住的是这条主线:上下文是新代码,缓存命中率是新性能,注意力是新瓶颈。

译Andrej Karpathy提出软件3.0时代,编程核心转向上下文工程,并区分了Vibe Coding与Agentic Engineering两种开发姿态。OpenAI总裁Greg Brockman指出,算力套利是商业模式,人类注意力已成为新瓶颈,并估算AGI进程已完成八成。Anthropic的Claude Code团队则将Prompt Caching提升为核心工程纪律,通过优化prompt布局和更新机制,将缓存命中率作为关键SLA监控,以控制成本并保证系统性能。

Berryxia.AI@berryxia · 5月1日62

在这场访谈中,Karpathy 分享了他作为程序员在 AI 时代的亲身经历与深刻洞见。 他表示,2025 年 12 月成为他的个人转折点:AI 生成的代码从“有帮助但常需修改”转变为“直接可用”,他已记不清上一次亲自修改 AI 输出是什么时候,从此进入 “Vibe Coding”的状态。 Karpathy 将软件开发划分为三个阶段: Software 1.0 是传统显式代码编程,Software 2.0 是神经网络时代,而 Software 3.0 则是大语言模型时代。 在 Software 3.0 中,编程的核心不再是逐行编写代码,而是通过 prompt、上下文窗口、工具调用和外部环境来操纵 LLM 这个新的“信息处理解释器”。 他以自己开发的 MenuGen 应用为例,指出许多传统 AI 应用可能被模型原生能力直接取代,整个 App 在新范式下甚至“本不该存在”。 他特别强调 LLM 的能力呈现“锯齿状智能”(jagged intelligence): 在可验证、可通过强化学习(RL)优化的领域(如重构十万行代码、发现零日漏洞)表现极强,但在需要常识判断的任务上却可能犯下低级错误。 例如建议“走路去 50 米外洗车”而忽略车必须被开过去。 Karpathy 认为,这种能力分布并非模型自然进化,而是实验室数据决策和 RL 训练覆盖范围的结果。 Karpathy 区分了两个重要概念:Vibe Coding 显著抬高了所有人开发软件的下限,让更多人能快速做出产品; 而未来的 Agentic Engineering(智能体工程)则需要在利用 Agent 加速开发的同时,严格守住专业软件的质量、安全、可维护性和责任上限。 他认为,智能变得廉价之后,最宝贵的仍是人类的理解、品味、判断、系统设计和规格定义能力,并引用了一句深刻的话: “你可以外包思考,但不能外包理解”。 此外,Karpathy 还展望了“神经计算机”的未来设想:神经网络可能成为主进程,而传统 CPU 和代码则退居协处理器。 同时强调基础设施需要转向“Agent-first”,让 Agent 能更轻松地读取文档、调用服务和完成部署。

译Karpathy指出,2025年12月AI生成代码从需修改变为直接可用,标志进入Vibe Coding状态。软件开发进入Software 3.0大语言模型时代,编程核心转为通过prompt等操纵LLM。LLM能力呈锯齿状智能,在可验证、RL优化领域强,但常识任务上易犯错。他区分Vibe Coding(提高开发下限)与Agentic Engineering(守住质量、安全上限),强调人类理解、品味和判断仍最宝贵。未来可能转向神经计算机,基础设施需Agent-first。

阿绎 AYi@AYi_AInotes · 5月1日57

Naval今天说的这句话,我觉得点破了AI时代最爽的赚钱方式, 他说vibe coding就是带真实世界奖励的视频游戏, 传统游戏把你精准卡在能力边缘,给你即时反馈和多巴胺, 但所有奖励都是假的,世界是封闭的, vibe coding完全不一样, 你用自然语言描述你的想法和氛围, AI就帮你写出真实的代码,做出能跑的App, 而且奖励是真的,能发给朋友用,能卖钱,能改变你的生活,创造的世界是无限的,你想造什么就能造什么, 没有游戏设计师给你设关卡, 最打动人的是他自己的亲身例子, 他之前花了九个月,带八九个人的团队做Airchat, 最后卖掉回本, 现在他用vibe coding一个人从零重做了一遍, 以前你不能随便改图标位置,不能凭直觉提需求, 不然会烦到工程师, 现在AI是你的无人驾驶编码员, 你可以百分之百按自己的想法迭代, 不用做任何妥协, 我认为这件事真正改变的不是写代码的速度,关键在于谁能造App这件事本身, 因为以前只有百分之零点一会写代码的专业人士能做产品, 现在只要你有清晰的愿景,能用自然语言说清楚,你就能造出自己的App, 我相信这就是创作者经济的下半场,内容创作已经从写文字拍视频,变成了直接造产品, 而且以后会有越来越多一个人做出来的爆款App,取代大公司妥协出来的平均数产品, 还有一个牛逼的点,就是它有成瘾性,人类本来就对即时反馈的游戏毫无抵抗力, 现在AI把斯金纳箱从虚拟世界搬到了现实, 兄弟们可以想象一下,你玩游戏的时候,顺便就在堆积真实的资产,这个感觉是不是很爽🥳🥳🥳 最后想说,很多人以后可能会消失在vibe coding里, 就像现在很多人消失在游戏里一样, 就像我一直说的,AI从来不是来取代程序员的, 它是把编程从一种职业,变成了每个人都能拥有的超级能力, 你不用再学十年C++才能做自己的产品, 你只需要知道自己真正想要什么。 真的很庆幸我们现在处于一个时代变革、巨变的节点,一起拥抱和享受吧我的朋友们!

译Naval提出“氛围编程”(vibe coding)概念,将其比喻为带有真实世界奖励的视频游戏。用户通过自然语言描述想法,AI即可生成可运行的真实应用,创造出能分享、盈利甚至改变生活的产品。这消除了传统开发中对工程师的依赖,允许创作者完全按自身愿景迭代。其核心变革在于应用开发主体的扩大:从专业程序员转变为任何能用清晰语言描述想法的人。这标志着创作者经济进入从内容创作到直接构建产品的新阶段,并可能催生更多个人开发的爆款应用。该过程具有游戏的即时反馈与成瘾性,却在现实中积累真实资产。AI并非取代程序员,而是将编程转变为一种人人可用的超级能力。

SemiAnalysis@SemiAnalysis_ · 5月1日48

PYONGYANG, April 29, 2026: There's a corner of AI infrastructure that almost nobody covers well, but everyone wants to know. They are landing multi-billion dollar deals with hyperscalers/AI Labs, and rapidly taking share in the compute world.  (1/4) 🧵

译平壤,2026年4月29日:人工智能基础设施有一个角落几乎无人深入报道,但每个人都想了解。他们正与超大规模云服务商/AI实验室达成数十亿美元的交易,并在计算领域迅速抢占市场份额。 (1/4) 🧵

Chubby♨️@kimmonismus · 5月1日20

In today's newsletter, I focused primarily on the earnings reports of the major hyperscalers and considered what this means for us. Subscribe to the Superintelligence newsletter for free at http://getsuperintel.com :)

译在今天的新闻通讯中,我主要关注了主要超大规模公司的财报,并思考了这对我们意味着什么。 免费订阅Superintelligence新闻通讯,网址是http://getsuperintel.com :)

Chubby♨️@kimmonismus · 5月1日18

Really exciting: Motif Neurotech just got FDA clearance to trial its DOT implant for treatment-resistant depression, and the key detail is where it sits: on top of the skull, not inside the brain. That alone could change the calculus for patients who need neurostimulation but dread the surgery. For the millions stuck cycling through medications without relief, the ambition here goes beyond stimulation. Think continuous glucose monitor, but for depression: real-time, adjustable, and precise.

译非常令人兴奋:Motif Neurotech 刚刚获得 FDA 批准,试验其用于治疗难治性抑郁症的 DOT 植入物,关键细节在于其放置位置:在头骨顶部,而非大脑内部。 仅这一点就可能改变那些需要神经刺激但害怕手术的患者的考量。 对于数百万困于药物循环却无法缓解的患者而言,这里的雄心超越了刺激本身。想象一下连续血糖监测仪,但是用于抑郁症:实时、可调节且精准。

Rohan Paul@rohanpaul_ai · 5月1日49

David Sacks demystifying Anthropic's Mythos 👀

译David Sacks 澄清,Anthropic 的 Mythos 模型并非魔法或末日武器,而是首个能自动化执行网络安全任务(如代码审计)的模型。OpenAI 的 GPT-5.5-cyber 已具备相同能力,所有前沿模型预计约六个月内都将达到此水平。他强调这些模型不创造漏洞,而是发现代码中既有缺陷,利用AI发现并修补漏洞反而能增强系统安全。从“前AI”到“后AI”网络安全的跨越将引发重大升级,最终在AI驱动的攻防间达到新平衡。关键在于让防御方比攻击方更早获得此类工具,且GPT-5.5-cyber因无令牌限制可能成为防御方首个实用化模型。

Epoch AI@EpochAIResearch · 5月1日59

How much AI compute has been smuggled to China? We estimate between 290k and 1.6M H100-equivalents by the end of 2025 — representing ~20% to ~60% of China’s total compute.

译有多少AI算力被走私到中国?我们估计到2025年底将达到29万至160万H100等效算力——约占中国总算力的20%至60%。

Rohan Paul@rohanpaul_ai · 5月1日61

New interview of Andrej Karpathy: Says that the future of computing may be centered on neural networks instead of traditional software. e.g. that systems could take raw inputs like video and audio and generate interfaces dynamically in real time. Today’s software assumes the world must be translated into clean symbols first, then handled by code written in advance. A neural system flips that order. It can take messy input like video, speech, screen state, and user history, infer what matters, and generate the interface or action on the fly. The shift is not just replacing apps with chat, but replacing fixed pipelines with systems that continuously interpret and render reality in real time. In that setup, the UI stops being a stable product and becomes a temporary surface, assembled for the moment, the task, and the person. "CPUs become kind of like the co-processor" It becomes the reliable subcontractor for arithmetic, storage, networking, and other deterministic chores, while the neural model handles perception, planning, and adaptation. --- Video from "Sequoia Capital" YT channel (link in comment)

译安德烈·卡帕西在访谈中指出,计算的未来可能从传统软件转向以神经网络为中心。传统软件需先将现实世界转化为规整符号,再由预设代码处理。而神经系统的处理顺序相反,能直接处理视频、语音、屏幕状态等“混乱”输入,实时推断关键信息并动态生成界面或行动。这不仅是用聊天替代应用,更是用能持续实时解读和渲染现实的系统取代固定流程。在此架构下,用户界面不再是稳定产品,而是为特定时刻、任务和个人临时组装的表面;传统CPU则退居类似协处理器的角色,负责算术、存储等确定性任务,而神经模型主导感知、规划和适应。

阿绎 AYi@AYi_AInotes · 5月1日60

Damn,传统代码扫描器90%的报警都是误报,这个困扰了安全行业十年的问题,今天被Claude彻底解决了🤨🤨🤨🤯🤯🤯 Claude今天正式发布了Claude Security,进入公开测试阶段, 仅限企业客户使用, 它不是又一个传统的SAST工具, 会直接关联你的GitHub仓库,自动扫描整个代码库, 用大模型的语义理解能力追踪完整的数据流动, 发现那些传统工具根本找不到的复杂攻击链, 最牛的是,它会主动验证每一个发现的漏洞是不是真的, 自己分裂成两个角色,一个证明漏洞存在,一个拼命反驳, 只有经过这种地狱级验证的结果,才会推送到你面前, 实测误报率只有传统工具的不到10%, 找到问题之后,它会自动生成完整的修复补丁, 带diff,带commit信息,带影响范围说明, 你只需要点一下审查,确认没问题就能合并, 整个流程从扫描到修复,全部在Claude界面里完成, 不需要自建任何工具,不需要额外的API集成, 有意思的是,这个发布正好在OpenAI公布Codex Cyber的第二天, OpenAI给你的是一个可以用来做安全的模型, Claude直接给你一个开箱即用的完整产品, 不需要你自己搭agent,不需要你写prompt, 点一下Security按钮就完事了, 这对Snyk,Semgrep,GitHub Advanced Security这些传统工具来说, 是真正的降维打击, 毕竟以前安全团队要花80%的时间过滤误报, 现在他们只需要花20%的时间审查AI生成的修复, 这意味着DevSecOps的整个工作流,从今天开始被彻底重构了, 不过它现在还只对企业客户开放,个人用户暂时用不到, 但我觉得这已经足够说明,AI正在一个一个吃掉所有的专业工具。

译Claude Security进入公开测试阶段,仅限企业客户使用。它通过关联GitHub仓库自动扫描代码库,利用大模型语义理解追踪数据流动,发现传统工具难以检测的复杂攻击链。工具主动验证每个漏洞,将误报率降至传统工具的不到10%,并自动生成带diff和commit信息的修复补丁,用户只需审查确认即可合并。与OpenAI的Codex Cyber提供模型不同,Claude Security是开箱即用的完整产品,无需自建工具或API集成。这对Snyk、Semgrep等传统工具构成降维打击,重构DevSecOps工作流,大幅减少安全团队处理误报的时间。

Andrej Karpathy@karpathy · 5月1日68

Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights: The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons: 1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing. 2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc. 3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc. I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3). The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to... Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors.

译谈话指出LLM的核心价值在于开启全新可能,如完全由LLM驱动的应用、用自然语言描述替代脚本安装、以及处理传统代码无法应对的非结构化知识库。其次,探讨了LLM能力“锯齿状”不均衡现象,认为这与领域可验证性及经济利益影响训练数据分布有关。最后,话题转向智能体原生经济,涉及将产品服务分解为传感器、执行器和逻辑模块,使信息对LLM高度可读,并讨论了新兴的智能体工程及相关技能。谈话强调,从“氛围编程”到“智能体工程”的转变,不仅是提升效率,更是拓展能力上限,旨在智能体时代构建全新事物。

Replit ⠕@Replit · 5月1日56

IDEs are dead. When coding models plateau, the moat moves up the stack. @amasad sat down with @HarryStebbings on @twentyminutevc to talk about the SaaS apocalypse, why Cursor’s bet looks shakier by the week, and what it actually takes to stay 10 steps ahead. Full conversation ⬇️

译集成开发环境已死。 当编码模型的发展趋于平缓,竞争壁垒便向技术栈上游转移。@amasad 在 @twentyminutevc 节目中与 @HarryStebbings 深入探讨了 SaaS 行业的剧变、为何 Cursor 的赌注每周都显得更加动摇,以及真正保持十步领先需要什么。 完整对话 ⬇️

宝玉@dotey · 5月1日56

侧边栏会话有很多诟病,但用户已经习惯了。 现在 Agent 产品有两类主流交互: 第一类是左边是对话列表,右边是代码或者文档,代表性的是 Codex、Cursor 的 Agent 模式 第二类是左边像传统软件,Agent 对话在右边,比如 GitHub Copilot 第一类是 Agent 为中心,用户主要操作是通过对话指挥 AI Agent,用户去手动修改为辅助,所以对话为主。这也是为什么像 Cursor 会在原来 IDE 之外新造一个 Agent 模式, Codex Desktop 甚至连文件编辑都不支持。 第二类是人操作软件为主,Agent 为辅助,借助 Agent 去做一些微调,所以是在不改变原有操作基础上加个侧边栏。 也有一些软件想全都要,既想要 Agent 对话,又想要保留原有的软件操作,结果是交互很乱。 如何设计好 Agent 的交互还很新,有很多探索空间,但是你的软件是 Agent 为中心还是 Agent 只是辅助,这个得先想清楚,想清楚这点才能做好后续的交互设计。 你怎么看?

译当前AI Agent产品的交互主要分为两类:一是以Agent为中心,如Cursor的Agent模式和Codex,界面以对话列表指挥AI为主,手动修改为辅;二是以人操作为主、Agent为辅助,如GitHub Copilot,在传统软件界面旁增设侧边栏。设计者需首先明确软件是以Agent为核心还是辅助,否则易导致交互混乱。有观点指出,交互形式三年多来革新缓慢,关键在于缺乏对Agent从“无状态”到“有状态”处理的基础设施支持,状态机抽象有望推动交互设计丰富化。

向阳乔木@vista8 · 4月30日50

http://x.com/i/article/2049847033758916609 # 又是节假日搞事情!DeepSeek开源视觉大模型,读完论文帮你划重点 昨天体验了网页端的DeepSeek的识图模式,速度超级快,质量也还行。 今天看到DeepSeek公布了论文,果然秉承了优良传统,节假日前搞事情,Respect! Github地址:https://github.com/deepseek-ai/DeepSeek-VL > 论文查看 https://arxiv.org/pdf/2403.05525 AI总结,人工阅读Review配图如下。 ## 一句话总结 DeepSeek-VL是DeepSeek团队开源的视觉语言模型,有1.3B和7B两个版本。 核心目标只有一个:在真实场景里既能看图又能说话,同时不丢失语言能力。它从数据、架构、训练策略三个维度入手,在同等参数规模下做到了开源模型里的顶尖水平。 ## 这篇论文到底在解决什么问题? 2024年初,开源多模态模型和GPT-4V之间有一道明显的鸿沟。 很多开源模型在学术benchmark(基准测试,就是标准化的评分考试)上跑分还行,但一到真实场景就拉胯。 让它看一张网页截图、读一份PDF、识别街拍里的小字,效果就大打折扣。 DeepSeek团队总结了四个核心原因: 第一,预训练不够充分。 很多模型把大量算力花在了指令微调阶段,但真正的通用能力来自大规模预训练。 这就像一个人只刷题不读书,考试可能还行,解决实际问题就不够用了。 第二,训练数据和真实使用场景脱节。 把一堆学术数据集拼在一起做微调,benchmark分数好看,但用户实际用起来体验很差。 第三,图像分辨率太低。 大部分模型只能处理336×336或448×448像素的图片。 现实世界里的OCR(光学字符识别,就是让AI读懂图片里的文字)、小物体识别,这个分辨率根本不够用。 第四,多模态训练会"吃掉"语言能力。 很多模型在加入视觉训练后,语言能力明显下降。 这是一个很棘手的问题,也是这篇论文花了最多篇幅去解决的事情。 ## 数据构建:从真实场景出发 DeepSeek-VL的数据分两大块:预训练数据和监督微调数据。 ## 预训练数据 覆盖面非常广,按类别拆开来看: 图文交错数据(占13.1%) 就是图片和文字混合出现的内容,比如维基百科文章里图文穿插的格式。 用了MMC4、Wikipedia中英文、Wikihow,以及内部的PDF和电子书。 这类数据能让模型学会在上下文里理解多张图片,也就是所谓的"多模态上下文学习"能力。 图像描述数据(占11.1%) 高质量的图文配对数据集,包括Capsfusion、TaiSu(一个1.66亿规模的中文视觉语言数据集)和Detailed Caption。 表格和图表数据(占2.1%) 来自十多个公开数据集,涵盖各种图表、地理题、科学题、UI截图等,让模型学会理解各种结构化视觉信息。 网页代码数据(占0.4%) 这部分很有意思。团队从GitHub上抓取了146万个Jupyter Notebook,提取了其中的图表和对应的生成代码,最终筛选出110万个高质量的图文代码对。 目标是让模型能从图形界面或可视化图表反推出代码。 文档OCR数据(占2.1%) 当时市面上没有大规模的中英文文档OCR数据集,团队自己造了。 两个来源:一是从140万篇arXiv论文里提取图文对;二是从86万本英文电子书和18万本中文电子书里,用HTML渲染工具生成了配对的图片和文本。 场景文字OCR数据(占1.2%) 识别融入环境的文字,比如街道招牌、商品包装。 用了ArT、MLT-17、LSVT、UberText等十个公开数据集。 纯文本数据(占70%) 这个比例是整个训练策略的核心,后面会详细解释。用的是DeepSeek-LLM的2万亿token文本语料。 ## 监督微调数据 微调数据分四类: 内部数据(占10.5%) 这是最有价值的部分。 团队先从网上收集了GPT-4V和Gemini的真实用户测试案例,然后把这些案例整理成一套完整的分类体系,再根据这套分类体系去选图、写提示词,构建出贴近真实使用场景的微调数据。 通用多模态数据(占35.5%) 包括ShareGPT4V、LAION-GPTV、LVIS-Instruct4V等知名开源数据集。 表格图表和网页代码数据(各占4.1%和2.0%) 从预训练数据集里抽取部分用于微调。 纯文本对话数据(占47.9%) 沿用DeepSeek-LLM的文本对话数据,保住语言能力。 ## 那套分类体系长什么样? 这套分类体系是整个数据构建思路的精华,值得单独说说。 团队把多模态模型的真实使用场景分成六大类: 识别类: 全局描述(场景、风格、食物)、局部描述(位置、人物、Logo、计数)、OCR转录(印刷体、手写体)。 转换类: 图片转代码(UI转代码、图表转代码、公式转代码)、图片转文本(生成提示词、文字摘要、图片创作)。 分析类: 数据图表分析、专业图表分析(电路图、流程图、地图、乐谱、平面图)、专业图像分析(传感器图像、医学图像)、百科知识分析(艺术文化、自然环境、衣食住行)。 常识推理类: 关系推理(人际、空间、大小)、功能推理(硬件、软件)、环境推理(具身智能)、异常推理(缺陷检测、事故判断)。 逻辑推理类: 数学推理(代数、平面几何、立体几何)、其他逻辑推理(物理、化学、生物、代码、智力题)。 评估类: 真实性评估、相似度评估、美学评估。 还有多图理解和安全两个额外类别。 这套分类体系同时用于数据构建和效果评估,保证了训练和测试的一致性。 这是"从真实用户需求倒推数据构建"的典型做法,比单纯堆学术数据集高明得多。 ## 模型架构:三个模块协同工作 整个模型由三个模块组成:混合视觉编码器、视觉语言适配器、语言模型。 ## 混合视觉编码器 这是技术上最有意思的部分之一。 传统的视觉语言模型通常只用一个视觉编码器,比如CLIP系列的SigLIP(一种用图文对比训练出来的视觉编码器)。 但SigLIP有两个问题: 一是存在"CLIP盲点对"现象,视觉上明显不同的两张图片,经过SigLIP编码后可能得到非常相似的表示,导致模型分不清楚。 二是分辨率有限,最高只到512×512,处理不了需要精细识别的任务。 DeepSeek-VL用了双编码器混合方案: SigLIP-L 处理低分辨率(384×384)输入,负责提取高层语义特征,擅长理解图片"讲了什么"。 SAM-B 处理高分辨率(1024×1024)输入,负责提取低层细节特征。 SAM是 Meta 开发的"Segment Anything Model"(万物分割模型),其中的ViTDet图像编码器(一种专门为目标检测优化的视觉Transformer)特别擅长捕捉精细的局部信息,比如小字、边缘、纹理。 两个编码器输出的特征经过适配器处理后,最终融合成576个视觉token(可以理解为576个"视觉词")。 这个数字很关键,它在视觉信息量和计算成本之间找到了平衡点,既能支持多轮对话,又不会让推理成本爆炸。 为了验证这个选择,团队做了对比实验,测试了CLIP、SigLIP、SigLIP+DINO、SigLIP+SAM四种组合的训练损失曲线。 结果显示SigLIP+SAM的组合训练损失下降最快、最低,证明引入视觉自监督编码器确实有效。 ## 视觉语言适配器 这是连接视觉编码器和语言模型的桥梁,用的是两层混合MLP(多层感知机,一种基础的神经网络结构)。 具体做法:先用两个独立的单层MLP分别处理高分辨率和低分辨率特征,然后把两个特征拼接在一起,再通过一层MLP映射到语言模型的输入空间。 为什么要用两个独立的MLP而不是共享一个? 团队做了消融实验,对比了几种适配器设计: - 序列拼接(把视觉特征在序列维度上堆叠):效果一般,而且计算量更大 - 嵌入维度拼接(在特征维度上拼接):效果更好 - 共享MLP:特征融合充分,但对不同编码器的特征分布适应性差 - 独立MLP:能精准适应各自编码器的特征分布,但融合不够 - 混合MLP(先独立处理再拼接):综合了两者优点,效果最好 ## 语言模型 基于DeepSeek-LLM构建,架构上和LLaMA高度相似:用了RMSNorm(一种更高效的归一化方法)、SwiGLU激活函数(一种改进的门控线性单元)、旋转位置编码(RoPE,一种让模型理解token位置关系的方法)。 两个版本的基础: - DeepSeek-VL-1.3B 基于 DeepSeek-LLM-1B(用约5000亿文本token训练) - DeepSeek-VL-7B 基于 DeepSeek-LLM-7B(用约2万亿文本token训练) 值得注意的是,团队选的是DeepSeek预训练模型的中间检查点,而不是最终版本,然后继续做多模态预训练。 ## 训练策略:三阶段 + 模态平衡 训练分三个阶段,每个阶段解决不同的问题。 ## 第一阶段:热身视觉语言适配器 冻住视觉编码器和语言模型,只训练适配器。 数据:125万张来自ShareGPT4V的图文描述对 + 250万个文档OCR渲染对。 这个阶段的目标是在视觉和语言的嵌入空间之间建立初步的概念连接,让语言模型能"认识"视觉特征。 团队做了一个重要实验:把第一阶段的数据量从2K步扩展到80K步,然后直接做微调,看效果有没有提升。 结果是扩大数据量没有任何帮助,性能甚至略有下降。 原因很清楚:适配器(两层MLP)的参数量太少,容量有限,学到一定程度就饱和了。 再多的数据也塞不进去。这也说明了为什么必须有第二阶段。 ## 第二阶段:联合视觉语言预训练 这是最关键的阶段,也是论文最核心的贡献之一。 解冻语言模型和适配器,视觉编码器保持冻结,用大规模图文混合数据继续预训练。 团队发现了一个严峻问题:如果只用多模态数据训练,语言能力会断崖式下降。 上图展示了这个现象。 在1B模型上,用100%多模态数据训练时,MMBench(多模态理解测试)分数缓慢上升,但HellaSwag(语言理解测试)和MMLU(多学科知识测试)分数急剧崩塌。 团队分析了两个原因: 一是多模态数据本身比纯文本数据简单得多,分布差异很大,直接用来训练会"稀释"语言知识。 二是视觉模态和语言模态之间存在竞争关系,学多了视觉就会忘记语言,这是一种"灾难性遗忘"。 解决方案是联合语言多模态训练:在训练时同时混入大量纯文本数据。 实验结果非常清晰: - 混入语言数据后,语言能力下降的问题得到了大幅缓解 - 加入语言数据并不会明显损害多模态性能 - 两种模态的性能都和它们在训练数据中的比例强相关 最终选定的比例是语言70%、多模态30%。 这个比例能让模型在保住语言能力的同时,获得足够的多模态预训练效果。 除了混合比例,团队还提出了两个实用技巧: 模态分组训练 直接把语言数据和多模态数据混在同一个batch里,会有效率问题:纯文本处理很快,但要等多模态数据处理完才能更新参数,造成大量等待。 解决方法是把不同模态的数据分开组batch,每个训练步要么全是语言数据,要么全是多模态数据。 这一招让训练效率提升了20%,而且性能完全不受影响。 模态热身策略 训练初期把语言数据比例设为100%,然后逐渐降到目标比例(70%)。 这样可以避免训练初期语言能力的剧烈波动,让模型更平稳地适应多模态数据的加入。 实验证明,这个策略在训练后期也能带来更好的语言和多模态双端性能。 还有一个容易被忽略的工程细节。 团队在1.3B小模型上做实验迭代,再放大到7B。 但小模型有个问题:在标准benchmark上表现波动极大,很难准确反映改进效果。 原因是小模型虽然"知道"正确答案,但没有足够的指令跟随能力把答案"说出来"。 解决方案是双管齐下: 1. 把评估方式从"让模型生成答案"改成"比较各选项的困惑度(PPL,一种衡量模型对某段文本有多困惑的指标,越低越好)" 1. 同时在预训练阶段混入少量指令微调数据,让小模型也能稳定地跟随指令。这样小模型就能给出稳定的评估信号,大大加快了迭代速度。 ## 第三阶段:监督微调 用前面构建的指令微调数据集,训练模型的对话和指令跟随能力,最终得到DeepSeek-VL-Chat。 这个阶段同时训练语言模型、适配器和SigLIP编码器。 SAM-B因为显存限制保持冻结。只对答案和特殊token计算损失,系统提示和用户输入不参与训练。 三个阶段缺一不可:只有第一阶段+第三阶段,平均分57.4;加上第二阶段后提升到62.4。 第一阶段虽然提升有限,但也有意义,去掉它性能会略微下降。 ## 训练基础设施 使用了DeepSeek自研的HAI-LLM分布式训练框架。 DeepSeek-VL-7B用了64个节点(每个节点8块英伟达A100 GPU),训练了5天。 DeepSeek-VL-1.3B用了16个节点,训练了7天。 ## 效果评测:数字说话 ## 多模态benchmark ## 7B模型在开源模型里表现最好: - SeedBench(综合多模态理解):70.4,接近GPT-4V的71.6 - MMBench(多模态综合测试):73.2,超过所有同级开源模型 - OCRBench(OCR专项测试):456分,远超同级模型(LLaVA-1.5 13B只有331分) - POPE(幻觉测试,测模型会不会"看到"不存在的东西):88.1,同级最高 - MathVista(数学视觉推理):36.1,超过所有同级开源模型,但和GPT-4V(47.8)还有差距 - CMMMU(中文多学科多模态理解):37.9,明显优于其他开源模型 1.3B小模型更令人印象深刻:用一半不到的参数(1.3B vs 2.7B),在MMBench上超过了MobileVLM V2 2.7B(64.6 vs 63.2)。 MathVista上甚至达到31.1,和部分7B模型相当。 ## 语言benchmark 这是DeepSeek-VL最值得骄傲的地方之一。 - HellaSwag:68.4(DeepSeek-LLM-7B是68.5),几乎持平 - MMLU:52.4(DeepSeek-LLM-7B是49.4),多模态训练后反而提升了 - AGIEval:27.8(DeepSeek-LLM-7B是19.3),同样提升 - GSM8K(数学):55.0(DeepSeek-LLM-7B是63.0),有所下降 数学能力的下降说明视觉和语言模态之间的竞争关系仍然存在,7B的模型容量在这里成了瓶颈。 团队认为更大的模型可以缓解这个问题。 ## 人工评测 团队构建了100道题,覆盖七个类别,和InternLM-XComposer2-VL、CogVLM-17B、GPT-4V做对比。 结论:DeepSeek-VL-7B在识别、转换、常识推理三个维度接近GPT-4V,整体表现优于其他开源模型。 逻辑推理是所有开源模型的共同短板,和GPT-4V差距最大。 还做了GPT-4V裁判评测:把DeepSeek-VL和其他模型的回答都给GPT-4V看,让它判断哪个更好。 结果DeepSeek-VL在超过60%的情况下被GPT-4V判定为更好,甚至在和GPT-4V自身对比时也获得了相当不错的评价。 真实场景能力展示 论文里展示了大量真实案例,值得逐一看看: 处理逻辑图、网页、公式识别、科学文献、自然图像、具身智能场景的综合展示 识别图片中的细小物体(骑车人在女士手提包的左侧),并给出有条理的解释 理解Python代码截图并逐步解释算法逻辑 看懂儿童编程Scratch流程图并转换成Python代码(对比的开源模型1直接说"我无法处理图片") 1. 分析训练损失曲线图表,找出代码中的bug 识别泰国10泰铢硬币;根据图片创作七言绝句;识别米哈游游戏角色 把真实表格图片转换成Markdown格式 ## 为什么这篇论文重要? 它揭示并量化了一个关键矛盾:多模态能力和语言能力之间存在竞争关系。 70%语言数据这个比例,加上模态热身策略和分组训练,提供了一套可复制的解决方案。 它证明了"从真实场景出发"构建数据的重要性。 用分类体系指导数据收集,比随意拼凑学术数据集有效得多。 混合视觉编码器的思路很实用。 用两个互补的编码器分别处理语义和细节,比单纯堆高分辨率更高效,576个token的压缩方案在信息量和计算成本之间找到了合理平衡。 小模型迭代方法论有很强的工程参考价值。 困惑度评估 + 少量指令数据混入,让1.3B模型也能给出稳定的实验信号,大幅降低了迭代成本。 当然,局限也很清楚。 7B的模型容量限制了数学推理等复杂任务的表现。 论文结尾提到了后续会引入MoE(Mixture of Experts,混合专家模型)技术,这也是后来DeepSeek-VL2的方向。

译DeepSeek团队开源视觉语言模型DeepSeek-VL,包含1.3B和7B两个版本,旨在缩小开源模型与GPT-4V在真实场景中的差距。模型从数据、架构、训练三方面优化:数据构建上,采用从真实用户需求倒推的分类体系,并包含70%纯文本以保持语言能力;架构上创新采用SigLIP与SAM-B的混合视觉编码器,分别处理语义与细节特征;训练采用三阶段策略及模态平衡技术,缓解多模态训练对语言能力的侵蚀。

SenseTime@SenseTime_AI · 4月30日37

We also believe that native unified multimodal intelligence represents a foundational step towards Artificial General Intelligence (#AGI) 🙌

译我们也相信,原生统一多模态智能是迈向通用人工智能(#AGI)的基础性一步 🙌

Peter Steinberger 🦞@steipete · 4月30日33

WAT

译WAT [引用 @theo]:有趣的事实——如果你的近期提交中有一个 json 数据块提到了 OpenClaw,Claude Code 要么会拒绝你的请求,要么会向你收取额外费用。 这是一个空仓库,我只是直接调用 Claude Code。太疯狂了。

向阳乔木@vista8 · 4月30日52

太牛逼了,今天刚在小群里聊各种游戏,提到杀戮尖塔2,藏师傅Codex里试了下,然后就一发不可收拾了。

译开发者利用Codex成功生成了一个类《杀戮尖塔》游戏的完整关卡演示。该演示目前已经相当完善,主要缺陷仅在于缺少声音。演示中的核心视觉素材,如主要场景和角色,是由GPT-Image生成的,其余素材则由开发者自行补充。这一成果展示了AI在游戏内容生成方面的强大潜力。

Rohan Paul@rohanpaul_ai · 4月30日47

Sam Altman: "There was a time when we used to make fun of the “idea guy,” who only had an idea and needed someone technical to build it. But now, people who just really deeply understand their users and can’t code at all, I want to fund those people."

译Sam Altman: "曾几何时,我们常常嘲笑那些只有想法、需要技术人员来实现的'点子王'。但现在,那些真正深刻理解用户却完全不会编程的人,我想资助这些人。"

Rohan Paul@rohanpaul_ai · 4月30日47

Andrej Karpathy: "To get the most out of the tools that have become available now, you have to remove yourself as the bottleneck. You cannot be there to prompt the next thing. You need to take yourself outside the loop. You have to arrange things such that they are completely autonomous. The more you can maximize your token throughput and not be in the loop, the better. This is the goal. So, I kind of mentioned that the name of the game now is to increase your leverage. I put in very few tokens just once in a while, and a huge amount of stuff happens on my behalf." --- From @NoPriorsPod YT channel (link in comment)

译Andrej Karpathy指出,要最大化利用现有AI工具,关键在于将自身从交互循环中移除,避免成为持续提示的瓶颈。他主张构建完全自主的系统,通过最大化token吞吐量来实现高效率运作。核心目标是提升个人杠杆率:仅需偶尔投入极少量的token,就能驱动系统自动完成大量工作,从而使人从重复性操作中解放出来,专注于更高层次的决策与设计。

Chubby♨️@kimmonismus · 4月30日48

While Anthropic largely keeps its cybersecurity model Mythos under wraps, OpenAI is seizing the opportunity and making it available. How far they will roll out their GPT-5.5 cyber, and whether everyone will have access, remains to be seen. However, OpenAI is currently generating positive buzz and repositioning itself in contrast to Anthropic.

译在Anthropic对其网络安全模型Mythos保持低调之际,OpenAI正抓住机会推出GPT-5.5-Cyber。该前沿网络安全模型将在未来几天内向关键网络防御者开放。OpenAI计划与整个生态系统及政府合作,建立可信访问机制,以快速帮助保护企业和基础设施安全。虽然该模型的全面推广范围和开放程度尚不明确,但此举已为OpenAI创造了积极声量,并形成了与Anthropic差异化的市场定位。

阿绎 AYi@AYi_AInotes · 4月30日49

我最近在想一件事, 为什么 Cursor 要做 Agent Kanban? 表面上是个看板——像 Linear,或者像 Trello, 但每张卡片对应的不是任务, 更像一个正在运行的 Agent。 Completed、Failed、Running、Pending,状态实时更新, 还能直接看 artifact、PR 链接,失败原因一目了然。 你不需要去聊天框里一遍遍 @它 , 只需要把任务扔进去。 更有意思的是, 这个东西叫 cookbook 示例, 官方说这是个参考实现, 你拿去自己造。 Cursor 也没说这是个完整的产品, 他们说的是你照着这个思路自己搭。 我觉得这是个很重要的信号。 讲真我想了一下才反应过来,这件事真正改变的是啥。 首先肯定不是速度,也不是界面, 真正改变的是你和代码之间的关系。 比如说以前是你写代码 , 后来是你 prompt AI 写代码, 现在是你扔任务, Agent 去认领、执行、更新状态, 你坐在看板后面看进度, 然后backlog 变成了编程语言。 当然,也有没说清楚的部分, 比如demo 里就有 FAILED 和 EXPIRED 的卡片, 看到社区有人说,没有人在做 review 层,Agent 标 Completed 不代表它做对了之类的, 但其实60 分钟运行上限、rate limit、失败率,这些都还在。 所以原型迭代快,生产还是得靠人扛才行😂 但我一直觉得,工具的边界在哪里其实也没那么重要, 真正重要的是你在用它之前,有没有想清楚,那些机械的、重复的、可以被描述清楚的活儿,为什么还要自己做?

译Cursor推出的Agent Kanban并非完整产品,而是一个鼓励开发者自行搭建的参考实现。其核心变革在于改变了开发者与代码的交互模式:从亲自编写,到用prompt指挥AI,如今演变为将任务抛入看板,由Agent自主认领、执行并更新状态,开发者则退居幕后监控进度,使任务待办列表本身成为一种“编程语言”。尽管当前原型存在运行时限、失败率等限制,且缺乏结果审核机制,但其关键启示在于促使开发者重新思考:为何还要亲自处理那些机械、可被清晰描述的重复杂任务。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月2日
04:41
Rohan Paul@rohanpaul_ai
56
AI未减负反增负:哈佛商业评论研究揭示工作强度加剧

《哈佛商业评论》一项为期8个月的美国科技公司研究发现,AI应用并未减少工作量,反而加剧了工作强度与员工忙碌程度。由于AI填补了知识空白,员工开始承担原本属于其他角色或外包的任务,这增加了专家协调与审查的负担。工作边界因AI提示的便捷性而模糊,任务侵入非工作时间;同时,多线程运行AI提升了多任务处理频率,加剧了注意力切换与心智负荷。持续的加速节奏无形中提高了对工作速度的预期。尽管存在转型期,但长期来看“工作末日论”可能错误,未来人们可能更忙碌,且工作形态将显著不同。

Sam Altman: i think a lot of people are going to be busier (and hopefully more fulfilled) than ever, and jobs doomerism is likely lo...

智能体现象/趋势
03:14
Chubby♨️@kimmonismus
56
谷歌CEO点名TPU客户出错,两公司实未使用

谷歌CEO在财报电话会上点名三家TPU客户,但其中两家实际上并未使用TPU,谷歌云发言人已确认此错误但未解释原因。更值得注意的是,被点名的Thinking Machines Lab(由前OpenAI CTO创立)实际上在谷歌云上运行的是NVIDIA GB300 NVL72 GPU。这显示NVIDIA与谷歌云的长达十年的合作伙伴关系正在取得成效,但并非体现在TPU的推广上。

Erin Woo: ONE MORE INTERESTING TIDBIT from Google earnings yesterday: Google named three customers using TPUs. However, two of the...

Google现象/趋势
01:17
SemiAnalysis@SemiAnalysis_
48
从制造商到合作伙伴:AI时代下ODM角色的根本转变

早期,ODM服务器组装的核心在于大规模制造标准化硬件,优势在于成本、产能与良率。进入AI时代,服务器机架因GPU/ASIC、高功率系统、液冷及高速互联等技术而变得高度复杂,需确保各子系统协同工作,无线缆设计也可能兴起以简化部署。这促使ODM角色发生根本转变,从纯制造商演变为涵盖设计、集成与大规模生产的合作伙伴。未来,ODM将支持多元GPU/ASIC平台与数据中心设计,助力厂商构建更广阔的AI基础设施生态。

现象/趋势部署/工程
01:11
阿绎 AYi@AYi_AInotes
48
X下载量创历史新高,实时社交网络护城河显现

尽管长期存在唱衰言论,X在4月的App Store下载量却创下历史新高,较此前峰值增长40%,呈现断层式跳跃。这反驳了用户流向Bluesky、Threads或产品被毁的论调,下载量被视为用户“用脚投票”的最硬指标。增长归因于团队过去18个月对Grok集成、视频体验、社区功能的持续改进,以及4月新闻周期让X重回“刷大事”的核心场景。许多用户从Bluesky回流,凸显了“实时、开放、全球共时讨论”的护城河效应。然而,下载量只是领先指标,bot泛滥、创作者变现政策不稳定、应用性能等问题若不能解决,增长可能昙花一现。未来6-12个月的关键在于提升留存与变现,若能实现,X将进入全新增长周期。此事冲击行业认知,证明“安全可控的算法投喂”并非唯一答案,“言论自由、实时、开放”的模式依然拥有强大生命力。

Elon Musk: X

搜索现象/趋势
00:14
Chubby♨️@kimmonismus
41
作者赞同Sam Altman的观点,认为AI带来的社会变革与冲击尚未被充分讨论,且转型已在进行中。核心问题在于如何确保每个人在未来都能拥有良好的生活。引用推文补充指出,尽管转型期会出现岗位更替与工作形态剧变,但长期来看,人们可能比以往更忙碌且充实,对就业的悲观预测可能是错误的。

Sam Altman: i think a lot of people are going to be busier (and hopefully more fulfilled) than ever, and jobs doomerism is likely lo...

OpenAI大佬观点现象/趋势
5月1日
23:46
elvis@omarsar0
41
反对AI工作毁灭论,倡导增强人类工具

作者赞赏Sam Altman的推文,其中强调“构建工具以增强和提升人们,而非取代他们”。作者批评当前AI叙事中常见的工作毁灭论是懒惰且不诚实的,主张应努力构建AI和工具来提升和增强人类,这虽更具挑战性但方向正确。尽管目前大多数AI模型和工具并非如此设计,但通过适当的对齐和努力,可以将其塑造为辅助人类工作的力量。Terence Tao的“Copernican view of intelligence”支持这一愿景,并认为其完全可实现。

Sam Altman: we want to build tools to augment and elevate people, not entities to replace them.

OpenAI大佬观点现象/趋势
23:18
Ethan Mollick@emollick
49
我们需要更多关于AI不平等的工作,但这项研究不是关于GenAI的,调查是在2022年进行的。"在这项研究中,我们选择了来自Wave 119(N = 10,087)的项目,这些数据是在2022年12月12日至12月18日收集的。"

Eric Topol: A study of >10,000 Americans documents AI inequalities, lack of awareness and usage among lower SES https://www.tandfonl...

大佬观点现象/趋势
22:13
歸藏(guizang.ai)@op7418
22
AI游戏开发争议:可能性演示遭游戏圈质疑

针对游戏圈认为AI无法处理数值和玩法设计的观点,作者反驳称自己仅是在展示AI参与游戏开发的可能性,并未承诺AI能独立完成3A游戏或替代人类。他强调当前演示只是demo,旨在探索技术潜力,但相关展示仍引发了游戏从业者的激烈批评。

歸藏(guizang.ai): http://x.com/i/article/2049902517254070272

图像生成现象/趋势
21:47
Ethan Mollick@emollick
49
组织已经是超人类智能。宾夕法尼亚大学或沃尔玛等机构的能力远超任何个人。 这就是为什么将AI作为个人生产力工具的关注存在天然局限,AI的诸多益处取决于其与企业的整合。
大佬观点现象/趋势
21:11
阿绎 AYi@AYi_AInotes
42
十六人团队六周完成X广告系统底层重构,实现AI原生跃迁

X公司一支16人的顶尖工程师团队,仅用六周时间,将堆积了十五年的老旧广告推荐系统彻底重构。他们将100万行Scala代码精简至5万行,底层全部替换为Rust和Grok原生Transformer模型,并将信息流与广告推荐整合到同一个Grok神经中枢进行统一调度。此举大幅降低了基础设施成本,提升了用户体验,使Grok从聊天模型转变为驱动X全部商业流量的底层操作系统,标志着马斯克实现了从算力硬件、底层大模型到商业场景的全栈闭环。

Business: http://x.com/i/article/2041195773325410304

大佬观点现象/趋势部署/工程
20:46
meng shao@shao__meng
49
最近和 20+ 大厂工程师沟通后,有一个个人判断: 除了 qwen, seed 这种大厂超核心部门中的核心岗位,对其他绝大部分工程师来讲,离开大厂,才是真正靠近 AI 的开始。
大佬观点现象/趋势
19:11
阿绎 AYi@AYi_AInotes
51
Karpathy:第三次主芯片翻转,神经网络将成计算宿主进程

Karpathy提出计算机科学正经历第三次主芯片翻转,神经网络将成为计算的宿主进程,CPU则退化为协处理器,类似历史上FPU和GPU的变革。主导工作负载转向语言推理与多模态,市场正疯狂定价推理能力。软件3.0时代到来,应用将临时生成,模型驱动。LLM的核心价值在于创造前所未有的新事物,其能力呈现经济学驱动的“锯齿状智能”。范式迁移下,程序员角色转变为设计代理系统,护城河从编写代码转向理解LLM与设计能放大人类品味的智能体。

阿绎 AYi: Karpathy的最新演讲,把我对AI的认知彻底刷新了一遍, 他说所有人都搞错了LLM的真正价值, 它根本不是用来加速你现有工作的, 核心价值是用来创造那些以前根本不可能存在的东西, 最震撼的是那个叫menugen的App,就是你输入一张图...

大佬观点现象/趋势
13:13
歸藏(guizang.ai)@op7418
45
AI将催生下一代爆款游戏类型与平台

社区驱动的小游戏和社交游戏,如Roblox,正成为趋势。过去这类游戏构建成本高、类型少,如今技术门槛已大幅降低。历史上,Dota和PUBG等爆款均从游戏Mod演变而来。同理,基于AI技术,完全有可能演化出下一个现象级游戏类型。当前的关键缺口在于,缺乏一个能够整合这些AI能力的综合性游戏创作平台与工具。

歸藏(guizang.ai): http://x.com/i/article/2049902517254070272

多模态现象/趋势
12:46
swyx 🇸🇬@swyx
67
编码智能体突破应用边界,AGI将赋能所有知识工作者

作者提出,“编码智能体突破应用边界”是今年的突破性主题,强调AGI(通用人工智能)将惠及所有知识工作者,而不仅仅是程序员。他以自己的团队@aidotengineer为例,说明如何利用智能体作为“微型团队”高效运作,为全球数百万开发者提供免费服务。他指出,重点不在于特定工具(如Devin、townai),而在于整体性地、深度地将智能体融入日常知识工作以提升生产力,并认为当前人们在这方面努力不足。引用的推文也呼应了应尝试将此类能力应用于非编码的计算机工作。

Sam Altman: big upgrade for codex today! try it for non-coding computer work.

智能体大佬观点现象/趋势
11:16
Orange AI@oran_ge
27
如果最近感觉世界越来越快了,可能是已经在逼近奇点了
现象/趋势
11:13
歸藏(guizang.ai)@op7418
40
AI参与的高品质游戏内容正快速增加,例如即将上架Steam的国风恐怖探案游戏Strange Rites。该游戏设定于1920年代,融合超自然侦探与黑色电影风格,受中国古典哥特文学启发。玩家扮演拥有鬼视能力的记者,在战争背景下调查相互关联的案件,探索人性之恶的主题。游戏完全由AI生成,提供互动式神秘剧体验,涉及犯罪现场调查、线索拼凑和道德模糊的选择。目前已在Steam开放愿望单。

Yoroll: Strange Rites - supernatural detective noir set in the 1920s, inspired by classical Chinese gothic lit. Every chapter is...

多模态现象/趋势
10:45
SemiAnalysis@SemiAnalysis_
58
AI价值捕获--向模型实验室的转变 Vera Rubin VR NVL72:V代表价值-- Rubin在每单位总拥有成本性能上实现了阶跃式提升。投资回报将累积给用户、Neoclouds、超大规模云商、 AI实验室、内存供应商还是GPU制造商? 立即阅读:https://newsletter.semianalysis.com/p/ai-value-capture-the-shift-to-model
推理现象/趋势部署/工程
09:45
Orange AI@oran_ge
52
作者看到他人展示的录屏后感到震撼,因为过去需要工作室耗时月余才能完成的复杂项目,现在借助Codex,一个人仅用一个下午就开发出了一个非常完整的、类似《杀戮尖塔》的卡牌游戏。该游戏的代码和客户端均已开源。此事让作者深切感受到了AGI(通用人工智能)带来的生产力变革。

歸藏(guizang.ai): 本来是想随便玩一下的。 没想到 Codex 真的用一下午帮我开发了一个非常完整的类似《杀戮尖塔》的卡牌游戏。 代码和客户端都已经开源了,大家可以试试

OpenAI现象/趋势编码
09:16
Ethan Mollick@emollick
18
我觉得大家应该都能接受这一点。

Mike Bird: Many people do not seem to want data centres built near them, despite the fact that they don't cause that much traffic a...

大佬观点现象/趋势
09:10
ginobefun@hongming731
61
AI时代软件开发、商业逻辑与工程实践的根本性转变

Andrej Karpathy提出软件3.0时代,编程核心转向上下文工程,并区分了Vibe Coding与Agentic Engineering两种开发姿态。OpenAI总裁Greg Brockman指出,算力套利是商业模式,人类注意力已成为新瓶颈,并估算AGI进程已完成八成。Anthropic的Claude Code团队则将Prompt Caching提升为核心工程纪律,通过优化prompt布局和更新机制,将缓存命中率作为关键SLA监控,以控制成本并保证系统性能。

智能体OpenAI现象/趋势编码
08:10
Berryxia.AI@berryxia
62
在这场访谈中,Karpathy 分享了他作为程序员在 AI 时代的亲身经历与深刻洞见

Karpathy指出,2025年12月AI生成代码从需修改变为直接可用,标志进入Vibe Coding状态。软件开发进入Software 3.0大语言模型时代,编程核心转为通过prompt等操纵LLM。LLM能力呈锯齿状智能,在可验证、RL优化领域强,但常识任务上易犯错。他区分Vibe Coding(提高开发下限)与Agentic Engineering(守住质量、安全上限),强调人类理解、品味和判断仍最宝贵。未来可能转向神经计算机,基础设施需Agent-first。

宝玉: http://x.com/i/article/2049616699541090304

智能体大佬观点现象/趋势编码
08:10
阿绎 AYi@AYi_AInotes
57
Naval论"氛围编程":AI时代带来真实奖励的创作游戏

Naval提出“氛围编程”(vibe coding)概念,将其比喻为带有真实世界奖励的视频游戏。用户通过自然语言描述想法,AI即可生成可运行的真实应用,创造出能分享、盈利甚至改变生活的产品。这消除了传统开发中对工程师的依赖,允许创作者完全按自身愿景迭代。其核心变革在于应用开发主体的扩大:从专业程序员转变为任何能用清晰语言描述想法的人。这标志着创作者经济进入从内容创作到直接构建产品的新阶段,并可能催生更多个人开发的爆款应用。该过程具有游戏的即时反馈与成瘾性,却在现实中积累真实资产。AI并非取代程序员,而是将编程转变为一种人人可用的超级能力。

Naval: Follow @navalpodcast. We are posting more clips there.

大佬观点现象/趋势编码
07:15
SemiAnalysis@SemiAnalysis_
48
平壤,2026年4月29日:人工智能基础设施有一个角落几乎无人深入报道,但每个人都想了解。他们正与超大规模云服务商/AI实验室达成数十亿美元的交易,并在计算领域迅速抢占市场份额。 (1/4) 🧵
现象/趋势部署/工程
05:13
Chubby♨️@kimmonismus
20
在今天的新闻通讯中,我主要关注了主要超大规模公司的财报,并思考了这对我们意味着什么。 免费订阅Superintelligence新闻通讯,网址是http://getsuperintel.com :)

Superintelligence.: Today's Newsletter on Superintelligence has just been sent! Today's main article is: "$700 Billion AI Bet, One Earnings ...

现象/趋势行业动态
05:13
Chubby♨️@kimmonismus
18
非常令人兴奋:Motif Neurotech 刚刚获得 FDA 批准,试验其用于治疗难治性抑郁症的 DOT 植入物,关键细节在于其放置位置:在头骨顶部,而非大脑内部。 仅这一点就可能改变那些需要神经刺激但害怕手术的患者的考量。 对于数百万困于药物循环却无法缓解的患者而言,这里的雄心超越了刺激本身。想象一下连续血糖监测仪,但是用于抑郁症:实时、可调节且精准。
现象/趋势行业动态
04:09
Rohan Paul@rohanpaul_ai
49
David Sacks 澄清,Anthropic 的 Mythos 模型并非魔法或末日武器,而是首个能自动化执行网络安全任务(如代码审计)的模型。OpenAI 的 GPT-5.5-cyber 已具备相同能力,所有前沿模型预计约六个月内都将达到此水平。他强调这些模型不创造漏洞,而是发现代码中既有缺陷,利用AI发现并修补漏洞反而能增强系统安全。从"前AI"到"后AI"网络安全的跨越将引发重大升级,最终在AI驱动的攻防间达到新平衡。关键在于让防御方比攻击方更早获得此类工具,且GPT-5.5-cyber因无令牌限制可能成为防御方首个实用化模型。

David Sacks: It's time to demystify Mythos. Mythos is not magic. It's not a doomsday device. It's the first of many models that can a...

AnthropicOpenAI大佬观点安全/对齐
03:14
Epoch AI@EpochAIResearch
59
有多少AI算力被走私到中国?我们估计到2025年底将达到29万至160万H100等效算力--约占中国总算力的20%至60%。
数据/训练现象/趋势论文/研究
03:09
Rohan Paul@rohanpaul_ai
61
安德烈·卡帕西访谈:计算未来或将以神经网络为中心

安德烈·卡帕西在访谈中指出,计算的未来可能从传统软件转向以神经网络为中心。传统软件需先将现实世界转化为规整符号,再由预设代码处理。而神经系统的处理顺序相反,能直接处理视频、语音、屏幕状态等“混乱”输入,实时推断关键信息并动态生成界面或行动。这不仅是用聊天替代应用,更是用能持续实时解读和渲染现实的系统取代固定流程。在此架构下,用户界面不再是稳定产品,而是为特定时刻、任务和个人临时组装的表面;传统CPU则退居类似协处理器的角色,负责算术、存储等确定性任务,而神经模型主导感知、规划和适应。

大佬观点现象/趋势
02:10
阿绎 AYi@AYi_AInotes
60
Claude Security公测,AI颠覆代码安全扫描误报难题

Claude Security进入公开测试阶段,仅限企业客户使用。它通过关联GitHub仓库自动扫描代码库,利用大模型语义理解追踪数据流动,发现传统工具难以检测的复杂攻击链。工具主动验证每个漏洞,将误报率降至传统工具的不到10%,并自动生成带diff和commit信息的修复补丁,用户只需审查确认即可合并。与OpenAI的Codex Cyber提供模型不同,Claude Security是开箱即用的完整产品,无需自建工具或API集成。这对Snyk、Semgrep等传统工具构成降维打击,重构DevSecOps工作流,大幅减少安全团队处理误报的时间。

Claude: Claude Security is now in public beta for Claude Enterprise customers. Claude scans your codebase for vulnerabilities, v...

Anthropic安全/对齐现象/趋势
01:45
Andrej Karpathy@karpathy
68
红杉Ascent 2026炉边谈话:LLM的新视野、能力不均衡与智能体原生经济

谈话指出LLM的核心价值在于开启全新可能,如完全由LLM驱动的应用、用自然语言描述替代脚本安装、以及处理传统代码无法应对的非结构化知识库。其次,探讨了LLM能力“锯齿状”不均衡现象,认为这与领域可验证性及经济利益影响训练数据分布有关。最后,话题转向智能体原生经济,涉及将产品服务分解为传感器、执行器和逻辑模块,使信息对LLM高度可读,并讨论了新兴的智能体工程及相关技能。谈话强调,从“氛围编程”到“智能体工程”的转变,不仅是提升效率,更是拓展能力上限,旨在智能体时代构建全新事物。

Stephanie Zhan: @karpathy and I are back! At @sequoia AI Ascent 2026. And a lot has changed. Last year, he coined "vibe coding". This ye...

智能体大佬观点现象/趋势
01:44
Replit ⠕@Replit
56
集成开发环境已死。 当编码模型的发展趋于平缓,竞争壁垒便向技术栈上游转移。@amasad 在 @twentyminutevc 节目中与 @HarryStebbings 深入探讨了 SaaS 行业的剧变、为何 Cursor 的赌注每周都显得更加动摇,以及真正保持十步领先需要什么。 完整对话 ⬇️
大佬观点现象/趋势编码
00:44
宝玉@dotey
56
Agent产品交互的两类主流模式与设计关键

当前AI Agent产品的交互主要分为两类:一是以Agent为中心,如Cursor的Agent模式和Codex,界面以对话列表指挥AI为主,手动修改为辅;二是以人操作为主、Agent为辅助,如GitHub Copilot,在传统软件界面旁增设侧边栏。设计者需首先明确软件是以Agent为核心还是辅助,否则易导致交互混乱。有观点指出,交互形式三年多来革新缓慢,关键在于缺乏对Agent从“无状态”到“有状态”处理的基础设施支持,状态机抽象有望推动交互设计丰富化。

Yangyi: 为什么从gpt到现在已经三年多了 还是这种交互 侧边栏会话记录+对话详情+artifact 再多一点儿可能再分一个层级出四栏 或者上下再分层级tab 之所以没有新的交互形式革新 我觉得至关重要的一点是 对agent交互过程中stateles...

智能体现象/趋势
4月30日
22:13
向阳乔木@vista8
50
DeepSeek开源视觉语言模型DeepSeek-VL,聚焦真实场景应用

DeepSeek团队开源视觉语言模型DeepSeek-VL,包含1.3B和7B两个版本,旨在缩小开源模型与GPT-4V在真实场景中的差距。模型从数据、架构、训练三方面优化:数据构建上,采用从真实用户需求倒推的分类体系,并包含70%纯文本以保持语言能力;架构上创新采用SigLIP与SAM-B的混合视觉编码器,分别处理语义与细节特征;训练采用三阶段策略及模态平衡技术,缓解多模态训练对语言能力的侵蚀。

DeepSeek多模态开源生态现象/趋势
22:13
SenseTime@SenseTime_AI
37
我们也相信,原生统一多模态智能是迈向通用人工智能(#AGI)的基础性一步 🙌

Hugging Models: Most multimodal stacks still work like this: Image encoder → LLM → generator → formatter Every handoff adds latency, com...

多模态现象/趋势
21:43
Peter Steinberger 🦞@steipete
33
WAT 【引用 @theo】:有趣的事实--如果你的近期提交中有一个 json 数据块提到了 OpenClaw,Claude Code 要么会拒绝你的请求,要么会向你收取额外费用。 这是一个空仓库,我只是直接调用 Claude Code。太疯狂了。

Theo - t3.gg: Fun fact - if you have a recent commit that mentions OpenClaw in a json blob, Claude Code will either refuse your reques...

Anthropic现象/趋势编码
17:41
向阳乔木@vista8
52
开发者利用Codex成功生成了一个类《杀戮尖塔》游戏的完整关卡演示。该演示目前已经相当完善,主要缺陷仅在于缺少声音。演示中的核心视觉素材,如主要场景和角色,是由GPT-Image生成的,其余素材则由开发者自行补充。这一成果展示了AI在游戏内容生成方面的强大潜力。

歸藏(guizang.ai): 太猛了,Codex 做类《杀戮尖塔》游戏完整关卡演示! 现在非常细了,除了没有声音以外,其他的都相当完美了! 主要的场景和角色素材是 GPT-Image 生成的,其他的素材是他自己找的。

OpenAI图像生成现象/趋势
17:09
Rohan Paul@rohanpaul_ai
47
Sam Altman: "曾几何时,我们常常嘲笑那些只有想法、需要技术人员来实现的'点子王'。但现在,那些真正深刻理解用户却完全不会编程的人,我想资助这些人。"
OpenAI大佬观点现象/趋势
16:39
Rohan Paul@rohanpaul_ai
47
移除人为瓶颈,实现AI完全自主以提升效率

Andrej Karpathy指出,要最大化利用现有AI工具,关键在于将自身从交互循环中移除,避免成为持续提示的瓶颈。他主张构建完全自主的系统,通过最大化token吞吐量来实现高效率运作。核心目标是提升个人杠杆率:仅需偶尔投入极少量的token,就能驱动系统自动完成大量工作,从而使人从重复性操作中解放出来,专注于更高层次的决策与设计。

智能体大佬观点现象/趋势
16:09
Chubby♨️@kimmonismus
48
在Anthropic对其网络安全模型Mythos保持低调之际,OpenAI正抓住机会推出GPT-5.5-Cyber。该前沿网络安全模型将在未来几天内向关键网络防御者开放。OpenAI计划与整个生态系统及政府合作,建立可信访问机制,以快速帮助保护企业和基础设施安全。虽然该模型的全面推广范围和开放程度尚不明确,但此举已为OpenAI创造了积极声量,并形成了与Anthropic差异化的市场定位。

Sam Altman: we're starting rollout of GPT-5.5-Cyber, a frontier cybersecurity model, to critical cyber defenders in the next few day...

AnthropicOpenAI安全/对齐现象/趋势
14:37
阿绎 AYi@AYi_AInotes
49
Cursor推出Agent Kanban:看板即编程,开发者退居监控者

Cursor推出的Agent Kanban并非完整产品,而是一个鼓励开发者自行搭建的参考实现。其核心变革在于改变了开发者与代码的交互模式:从亲自编写,到用prompt指挥AI,如今演变为将任务抛入看板,由Agent自主认领、执行并更新状态,开发者则退居幕后监控进度,使任务待办列表本身成为一种“编程语言”。尽管当前原型存在运行时限、失败率等限制,且缺乏结果审核机制,但其关键启示在于促使开发者重新思考:为何还要亲自处理那些机械、可被清晰描述的重复杂任务。

智能体现象/趋势编码
‹ 上一页
1…2829303132…37
下一页 ›