AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 2398 条
全部一手资讯X论文
标签「大佬观点」清除
Berryxia.AI@berryxia · 5月5日53

Claude Code 自己设计已经可以做到自我迭代,大部分都工作都是它完成。

Sam Altman@sama · 5月5日47

pretty excited for voice models to get great its interesting to watch how people are already starting to change the way they interface with AI

译对语音模型即将变得出色感到相当兴奋 观察人们已经开始改变与AI交互的方式,这很有趣

Ethan Mollick@emollick · 5月5日47

May 5 is the GPT-5.5 launch celebration in San Francisco and the Claude Finance Briefing in New York. Real opposite valence events on opposite coasts.

译5月5日是旧金山的GPT-5.5发布庆典和纽约的Claude财务简报会。 东西海岸两场真正极性相反的活动。

Ethan Mollick@emollick · 5月5日51

A challenge with AI regulation and vetting is how bad our benchmarks of AI model performance and risks are. There is no benchmark for risks and red-teaming requires experiments from dedicated specialist organizations & is not easy to put metrics around. No clear objective numbers

译AI监管和审查面临的一个挑战是,我们对AI模型性能和风险的基准测试有多么糟糕。 目前没有针对风险的基准测试,红队测试需要专门机构的实验,并且不容易量化指标。 缺乏明确的客观数字

Orange AI@oran_ge · 5月5日65

http://x.com/i/article/2051434852638228480 # 最好的奴隶制就是你给他超额的工资 “现代化大公司创造出来的奴隶制形式令人非常惊奇。最好的奴隶就是你支付给他超额工资,让他意识到自己不值这个钱,同时又很害怕失去眼前的一切。” ——纳西姆·塔勒布 《skin in the game》 Skin in the game 是假期读书中最深刻的一本,书名的含义是:赌局之中,自己下注。 这是一个奇妙的人性,当人们敢于下注,利益相关的时候,说的话更加可信,因为他自己付出,和听众共担风险。比如销售卖货给你,他可以吹得天花乱坠,担无须承担任何风险,而名人不能随便带货,因为名誉会受损。 共担风险四个字就是全书最重要的主题,也是贯穿人类社会的最重要的主题之一。 Skin in the game 完美解释了为什么 talk is cheap 因为没有付出 skin 没有承担风险只是空谈 而因为 coding 已经如此 cheap 也不算付出了 所以今天 code is cheap too 文章也类似,AI 水的长文 is cheap too 真正要承担风险,产出才有价值。 要付出真金白银,付出时间,付出思考的东西才会被奖励,比如这篇手机打出来的文章 Skin in the game 还能推演出 OPC 模式的盲区。 科斯定理认为企业的本质是替代市场: 由于搜寻信息、谈判、签约等交易成本存在,企业通过内部管理来组织生产,从而降低这些成本。 而 Agent 可以进一步降低成本,甚至连员工都不需要了,交易成本降低了,多人公司就没必要存在了。OPC 的叙事逻辑也建立在这上面。 但这里有个盲区:以为一个人加上 AI 加上外部合同就能解决一切。但没有人跟你共担风险。 OPC 只是解决了能力问题,没解决信任问题和风险问题,这往往是能力之后公司要面对的真正难题。 合同工不会跟你共担风险。他被高价者得到,关键时刻会消失。你需要他的时候他在服务别人。 雇佣的本质是买确定性。你付月薪,买断的是"他随时在,他了解我的上下文,他不会跑"。这是一种古老的风险共担机制。代价是他的自由。 合伙的本质是几个人把自己的命运押进同一个池子里。一起共担风险,但利益分配的机制又决定了,合伙的利益必须远远大于各自的利益才可以。所以合伙人要互补,要清晰地知道自己的优势劣势,这样才能在结构上长久。 很多人都把行为解读为理性感性激素之类,其实只有结构才是最核心的,结构是一切得以承成立的前提。结构是命运的河床 Skin in the game 写人性特别的真实。 来看看这段话: 我记得曾经有人问我为什么上班不系领带,在那个年代,这种行为相当于在第五大道上裸奔。“为了我的傲慢,为了我的审美,为了我的方便。”我通常都是这样回答的(但他们通常只记住了我的傲慢)。 如果你能给公司带来盈利,那么,你无论对老板多么无礼都可以。 我忍不住要告诉你们这个故事:有一次我收到一封信—“亲爱的塔勒布先生,我是你作品的忠实读者,我想给你提一个建议,像你这样的知识分子如果不说脏话,那么将会极大地提升你的影响力。” 我的回复很简短:“滚。” 真实就是所有的礼貌和规矩在绝对利益面前都一文不值。 回到开头所讲的现代奴隶制, 阿伊卡寓言里面有一个非常著名的故事。 故事讲的是有一只狗向它的亲戚狼炫耀自己豪华而舒服的生活,这差点儿就让狼动心加入它的行列了。 狼最后做决定之前,问了这样一个问题:“你脖子上的项圈是干什么用的?” 了解项圈的功能后,狼感到深深的恐惧:“你盘子里的食物,我什么都不要。” 狼一边说一边逃跑了,直到现在都没有回心转意。 你愿意当狗还是当狼? AI 照这么发展下去,这可能不是一个二选一的问题,每个人都要学会真实的交易,真实的共担风险。 未来可能没有太多当狗的机会。 狼群,很酷。

译纳西姆·塔勒布在《skin in the game》中强调,风险共担是价值核心。现代大公司以超额工资制造员工依赖,形成新型“奴隶制”。真正有价值的产出需付出金钱、时间或思考,空谈和AI廉价产出则无意义。这揭示了OPC模式的盲区:解决能力问题,但缺信任与风险共担。雇佣本质是购买确定性,合伙则是共同押注命运。AI时代,每个人都需学会真实交易和共担风险,未来“当狗”机会减少,成为独立“狼群”才是出路。

elvis@omarsar0 · 5月5日31

i miss 4.6 so bad. but then again, you can just use 5.5

译我太想念4.6了。不过话说回来,你直接用5.5也行

swyx 🇸🇬@swyx · 5月5日61

seeing lot of people saying that Opus 4.7 is a net regression vs 4.6, but it seems quite anecdotal. offline and online evals point towards a clean step up. what's not being captured? "personality"?

译看到很多人说Opus 4.7相比4.6是净退步,但这似乎只是些个例。 离线和在线评估都指向明确的进步。 那是什么没被捕捉到呢?“个性”吗?

阿绎 AYi@AYi_AInotes · 5月5日29

大多数人对马斯克的误解,已经到了离谱的程度。 他们觉得他是个自私的亿万富翁,靠垄断和炒作赚钱,满脑子都是权力和财富。 但他们根本没看懂,马斯克从来不是零和博弈的玩家,他玩的是文明级别的游戏。 他的胜利,就是人类的胜利。 普通人的思维是,蛋糕就这么大,我要抢最大的一块。 马斯克的思维是,把蛋糕做到原来的100倍大,哪怕我只拿1%,也比原来的100%多得多。 而且所有人都能分到比以前更多的部分。 你回头看他做过的所有事, 当年所有人都嘲笑电动车是玩具,他把特斯拉做成了全球第一,倒逼整个汽车行业向新能源转型。 当年所有人都说火箭只能政府造,他把发射成本砍到了百分之一,让太空旅行从科幻变成了现实。 星链、FSD、Optimus、Neuralink…… 每一个都是当年被认为绝不可能的事,每一个都把人类的能力边界往前推了一大步。 他的终极目标从来不是赚更多的钱。 是让人类成为多行星物种。 是把我们从单一地球的脆弱性里解放出来。 一次小行星撞击,一场核战争,一次超级灾难,都可能让人类文明彻底消失。 他所有的项目,本质上都是在给人类文明买保险。 为什么这么多人骂他? 因为大多数人的时间线只有5年。 而马斯克的时间线是50年,100年,甚至1000年。 媒体喜欢“富豪vs普通人”的零和故事,政客喜欢把他塑成反派。 他们看不到,当特斯拉把电动车价格打下来的时候,所有人都受益了。 他们看不到,当星链给战乱地区送去互联网的时候,那是在救人命。 他们看不到,当人类真的登上火星的时候,那将是我们这个物种最伟大的时刻。 当然他不是完美的,他的项目有争议,有问题,有代价。 但你不得不承认,这个世界上没有第二个人,愿意把自己所有的财富和精力,都砸在这些全人类最难的问题上。@elonmusk Always respect🫡🫡🫡

译文章反驳了将马斯克视为自私富豪的普遍误解,指出其核心思维是“做大蛋糕”的文明级视野,而非零和博弈。他通过特斯拉、SpaceX、Neuralink等项目,长期致力于解决能源、交通、太空探索等人类重大挑战,终极目标是推动人类成为多行星物种,为文明延续购买“保险”。这种以百年为尺度的长远规划,与大众关注的短期利益叙事形成鲜明对比。尽管存在争议,但其工作实质上是将科幻变为现实,不断拓展人类能力的边界。

Chubby♨️@kimmonismus · 5月5日65

Fully automated AI R&D: ~30% chance by the end of 2027, ~60%+ chance by the end of 2028 Overall, Anthropic's Jack Clark has written a very worthwhile essay: His timeline is that fully automated AI R&D probably won’t arrive in 2026, but we may see a proof-of-concept within 1–2 years where an AI system can end-to-end train a non-frontier successor model, with a much more serious possibility of frontier-level automated AI R&D by 2027–2028. His headline forecast is: ~30% chance by the end of 2027, ~60%+ chance by the end of 2028 that a frontier AI system can autonomously build its own successor, driven by rapid gains in coding, long-horizon agent work, benchmark saturation, AI-managed subagents, and early signs of models handling core AI research tasks like fine-tuning, kernel optimization, reproducibility, and alignment research.

译Anthropic的Jack Clark预测,完全自动化的前沿AI研发在2026年可能不会实现,但在未来1-2年内可能出现概念验证,即AI能端到端训练非前沿的后续模型。他给出的核心预测是:到2027年底有约30%的可能性,到2028年底有超过60%的可能性,前沿AI系统能够自主构建其后续模型。这一进程的关键驱动因素包括编码能力的快速提升、长视野智能体工作、基准饱和、AI管理子代理,以及模型在处理核心AI研究任务(如微调、内核优化、可复现性和对齐研究)方面出现的早期迹象。

Ethan Mollick@emollick · 5月5日46

It is somewhat comforting that now, whenever I see a post about “here’s the thing that keeps me up at night” I know that there is absolutely no chance that this is being written by a human who is staying up all night.

译现在每当看到关于“这是让我彻夜难眠的事”的帖子时,我知道这绝对不可能是由彻夜未眠的人类所写,这多少让人感到一丝安慰。

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 5月5日68

Anthropic founder says it's almost over. How will you spend your remaining months?

译Anthropic 创始人表示,这几乎结束了。 你将如何度过你剩下的几个月?

Ethan Mollick@emollick · 5月5日58

I think the fact that GPT-4o and Llama 3.3-80B did no significant harm is just as important as whether AI helped. If older (less accurate & more sycophantic) chatbots essentially did nothing for people who followed their advice, it means that there is less risk of harm as well.

译一项研究显示,大多数参与者在与AI进行20分钟关于健康、职业或人际关系的讨论后会采纳其建议,但2-3周后并未表现出持续的幸福感提升。这表明大型语言模型对现实个人决策具有显著影响力,却未能带来可衡量的心理益处。对此,主推文观点认为,像GPT-4o和Llama 3.3-80B这类先进模型未造成显著危害,其重要性不亚于AI是否提供了帮助。同时指出,若旧版(准确性较低、更谄媚的)聊天机器人的建议对采纳者基本无效,则意味着其造成危害的风险也较低。这凸显了评估AI影响需同时考量其帮助潜力和潜在风险。

Nathan Lambert@natolambert · 5月5日53

We need to create a new term for the attacks some Chinese labs are doing on APIs that is different than distillation or else we risk tarnishing a crucial technique that is crucial to AI diffusion, academic research & the open-source ecosystem. https://www.interconnects.ai/p/the-distillation-panic

译我们需要为某些中国实验室对API进行的攻击创造一个新术语,以区别于蒸馏,否则我们可能会玷污一项对AI扩散、学术研究和开源生态系统至关重要的关键技术。 https://www.interconnects.ai/p/the-distillation-panic

Ethan Mollick@emollick · 5月5日64

Co-founder of Anthropic, interesting that he refers to public sources when he is also obviously privy to lots of internal sources that he cannot discuss. I assume he sees the same thing at Anthropic.

译Anthropic 的联合创始人,有趣的是他引用公开来源,而他显然也知道许多无法讨论的内部来源。我猜他在 Anthropic 也看到了同样的事情。

Berryxia.AI@berryxia · 5月5日47

兄弟们,强烈案例!假期花半小时看完它! 而不是刷一天的短视频啊! 最新DeepMind CEO Demis Hassabis刚刚把AGI时间表直接甩到2030年。 这不是又一次“狼来了”的喊话,而是他在AI Ascent 2026现场亲口画下的路线图。 更震撼的是,他把影响范围直接拉到了软件之外: 药物发现从10多年漫长周期,压缩到短短几天; AI可能彻底解锁人类从未触及的科学突破,从全新材料到未知生物机制。 但他同时把话说得非常清楚: 今天的AI依然存在根本性限制。 接下来1-2年,将决定整个人类科技走向的真正拐点。 这才是最关键的信息。 我们总把AGI想象成“某一天突然降临的神器”, 但Demis的真实信号是: 真正改变世界的,不是AGI到来的那一刻, 而是接下来这24个月里,AI在科学迭代速度上的指数级加速。 当药物研发、材料科学、生物模拟这些“慢科学”被AI彻底提速, 人类文明的底层生产力将迎来一次前所未有的重构。 这波冲击,远比代码生成、PPT制作来得更深、更广。 你觉得2030年的AGI预测,靠谱吗? 完整演讲值得反复看👇

译DeepMind CEO Demis Hassabis在AI Ascent 2026上明确将AGI实现时间定于2030年,并指出AI将极大加速药物发现、材料科学等“慢科学”领域,把研发周期从数年压缩至数天。他强调,未来1-2年是关键拐点,真正改变世界的将是AI推动科学迭代速度的指数级加速,而非AGI降临的瞬间。

swyx 🇸🇬@swyx · 5月4日40

this one is doing v well btw if you want the popular vote filter on the firehose of all the things @patrickdebois was one of the track keynotes i gave a "blank check" to based on his sincere support since our very earliest days + when in europe we must feature the DevOps guy. he didnt disappoint!

译演讲者基于长期支持,特邀Patrick Debois在欧洲会议进行主题演讲。Debois指出,当前AI编程中语境是工程化最不足的层面。他认为,如果智能体由提示、规则和记忆驱动,那么语境理应获得与代码同等的工程严谨性。该观点呼应了AI工程师社区对语境层重要性的讨论。

Chubby♨️@kimmonismus · 5月4日60

Anthropics Jack Clarke now believes that recurse self-improvement has a 60% change of happening by end of 2028.

译Anthropic的Jack Clarke现在认为,递归自我改进有60%的概率在2028年底前发生。

Ethan Mollick@emollick · 5月4日49

My surprise here seems warranted, this paper was retracted (There are other peer-reviewed meta-analyses of the impact of AI on education finding positive effects, like: https://www.researchgate.net/publication/387110151_The_effects_of_GenAI_on_learning_performance_A_meta-analysis_study though the best evidence of AI helping is from RCTs of interventions with AI tutors)

译作者对一篇得出AI对教育有负面影响的论文被撤稿表示并不意外。他指出,其他经过同行评审的元分析研究发现了AI对学习的积极影响,并引用了一项具体的元分析研究作为佐证。作者强调,关于AI助益的最有力证据来自采用AI导师干预的随机对照试验(RCTs)。他引用的推文也表达了对其引用论文中积极结果的些许惊讶,这间接支持了作者对AI教育应用持审慎乐观态度的核心观点。

Berryxia.AI@berryxia · 5月4日70

Sam Altman突然站出来,把AI“抢饭碗”论调直接怼了回去。 他在最新访谈里直言:那些CEO开口闭口说AI会让所有人失业,简直“tone deaf”(不懂人情)。 PS:这里是在暗示A社? 他分享了一个亲身经历的真实案例: 有人告诉他:现在用GPT-5.5的Codex版本,一个小时就能完成两年前需要几周才能干完的工作。 而他自己的结论却是: “我这辈子从来没有这么忙过。” 这句话信息量极大。 AI没有消灭工作,反而把一个人的产能直接拉到爆炸。 以前一周才能落地的功能,现在一天就能出五个。 以前一个月才敢想的野心,现在一周就能试错十次。 生产力暴增了,但野心和期望值也同步暴增。 结果是:用AI的人反而比以前更忙,而那些拒绝拥抱AI的人,正在被悄无声息地甩开。 这正是当前AI时代最被忽略的残酷真相: AI不是在“取代”人类, 而是在把“能用AI的人”和“不会用AI的人”之间,拉开一道越来越大的鸿沟。 真正被淘汰的,从来不是AI本身, 而是那些还在等着AI“抢走别人工作”的旁观者。 Sam Altman这番话,是在提醒所有人: 别再恐慌AI会让你失业, 而是赶紧问自己:我有没有把这个把一周变一天的工具,真正用起来? 你现在是用AI让自己更忙、产出更多, 还是还在等着AI把工作抢走?

译Sam Altman批评一些CEO宣称AI将导致大规模失业的言论是“不懂人情”。他引用案例指出,GPT-5.5的Codex版本能将耗时数周的工作压缩至一小时,但结果却是使用者“前所未有的忙碌”。AI并未消灭工作,而是极大提升个人产能,使功能开发和试错速度呈指数增长,导致拥抱AI者因生产力暴增而承担更多任务,其野心也随之扩张。当前AI时代的核心分化在于“善用AI者”与“拒绝AI者”之间不断扩大的效率鸿沟。真正的淘汰风险在于旁观而非主动利用工具。

Greg Brockman@gdb · 5月4日37

codex for helping you to ship fast

译Codex 助你快速交付 [引用 @linuz90]:Codex 是我目前最爱的编程应用。 它界面简洁,却具备快速交付所需的一切功能。使用体验愉悦流畅,能展示充足的上下文信息而不过载。 我曾犹豫是否尝试,因为不喜欢受限于单一服务商,而且原本非常习惯在终端工作。但现在我90%以上的工作都在用它完成。

Ethan Mollick@emollick · 5月4日52

Poems that ChatGPT, Claude, and Gemini all seem to "like" when you ask for poetry related to being/making LLMs: Rilke's "Archaic Torso of Apollo" Stevens' "Idea of Order at Key West" Borges's "The Golem" (or "The Other Tiger") Pessoa's "Autopsychography" Pretty apt choices!

译当你向ChatGPT、Claude和Gemini索要与大型语言模型存在/创作相关的诗歌时,它们似乎都"偏爱"这几首: 里尔克的《阿波罗的躯干》 史蒂文斯的《基韦斯特的秩序观》 博尔赫斯的《假人》(或《另一只老虎》) 佩索阿的《自心理学》 相当贴切的选择!

凡人小北@frxiaobei · 5月4日53

AI: 看到这个我愣了一下,这段话有点反直觉。 这个观点不是一个普通人说的,而是一个 CEO 讲的。

译AI: 看到这个我愣了一下,这段话有点反直觉。 这个观点不是一个普通人说的,而是一个 CEO 讲的。 [引用 @garrytan]:The goal of Personal AI: civilization where individual humans, augmented by AI, can do consequential work without being captured by extractive institutions. Freedom to write your prompt and own your data. This is the new battleground. 2034 won’t have to be like 1984.

阿绎 AYi@AYi_AInotes · 5月4日64

Yann LeCun(前Meta首席AI科学家,现AMI Labs创始人)在2026达沃斯论坛上的演讲直接把整个Agent行业的桌子给掀了🤯 AI圈都在喊Agent是AI的下一章:OpenAI推Operator, Anthropic搞Computer Use, 成千上万创业公司狂堆LangGraph和CrewAI。 结果他站出来放了一句狠话: “基于LLM构建agentic systems,就是一场灾难的配方。” 他的质疑听起来朴实简单,但却直戳要害: 如果一个系统连自己行动的后果都预测不了,它怎么可能规划出正确的行动序列? 这不就进到一个架构级的死胡同了吗?! 目前的LLM本质只是下一个token预测器,它只有相关性,没有因果性, 它没有内在世界模型,无法像人类一样在脑子里提前模拟“如果我这么做,世界会怎样”。 它的每一步规划,本质上都是一次概率赌博。 走一步错一步,错误越积越多,最后必然崩盘。 所以现在所有的Agent框架,其实都在给一艘漏水的船贴胶带: 加更多prompt、加重试机制、加复杂状态机、加工具钩子…… 脚手架越复杂,错误传播反而越快。 这也不是LeCun第一次泼冷水了, 从2023年起他就反复说:纯scaling LLM永远到不了AGI。 他真正相信的路线是JEPA、世界模型、层次化预测,也就是AI必须先学会理解物理世界的运行规律,先学会预测未来,才能谈真正的规划和行动。 最讽刺的是:目前所有Agent产品,真正可靠的长链任务仍然极具挑战。 很多人假装“模型再大一点这个问题就会消失”。 LeCun却直言:不会,这条路的尽头就是悬崖。 其实他不是在否定Agent的未来, 他是在说:纯LLM中心的Agent没有未来🤔 @ylecun 认为真正的智能体,需要先学会看世界,而不是只会背文本。

译杨立昆在达沃斯论坛上尖锐指出,基于LLM构建智能体是“灾难的配方”,因其缺乏世界模型和因果性,无法可靠预测行动后果,导致现有框架陷入不断修补的困境。他长期主张,实现AGI需依靠JEPA架构和世界模型,让AI先理解物理规律。其团队最新论文通过SIGReg正则化器解决了JEPA的表征坍缩问题,使得小型世界模型能在单GPU上快速训练,隐空间天然编码物理规律,在机器人规划中效率远超大型模型。这并非否定生成式AI,而是为智能体发展开辟了更高效、更接近物理现实的新路径:未来智能体将是“懂物理的小世界模型”与“大语言接口”的结合。

Eric@ericmitchellai · 5月4日40

I am begging you to look at your data. Please look at the data evals worse than expected? look at the data evals better than expected? *definitely* look at the data evals about what you expected? believe it or not ....

译我恳求你看看你的数据。 请看看数据 评估结果不如预期?看看数据 评估结果超出预期?*务必*看看数据 评估结果符合预期?信不信由你……

Berryxia.AI@berryxia · 5月4日52

JP Morgan刚刚把内部多智能体系统Ask David的完整架构公开了。 个人觉得在很多场场景有参考学习的意义,构建多Agwnt框架可以使用。 这套系统在投资研究领域已经跑通,核心模式和当前最火的Agent架构高度一致: - Supervisor agent负责整体编排 - 专业subagent分别处理检索、结构化数据、分析等细分任务 - LLM-as-judge作为反射节点,在最终输出前做质量把关 - Human-in-the-loop填补最后一道准确性缺口 最值得注意的是,这套模式正在多个领域反复出现。 它证明了:真正能落地的多智能体系统,不是简单堆模型,而是清晰的分工 + 监督 + 反思 + 人工兜底的闭环架构。 对所有在做Agent的人来说,这段视频值得反复看。 你觉得Ask David这种架构,会成为企业级Agent的标准模板吗?

译摩根大通公开了其内部多智能体系统Ask David的完整架构,该模式在投资研究领域已得到验证。其核心与当前主流Agent架构高度一致:由一个监督智能体进行整体编排,多个专业子智能体分别处理检索、结构化数据和分析等任务,在最终输出前使用LLM-as-judge进行反思与质量把关,并引入人工干预作为最后一道准确性保障。这一模式在多个领域反复出现,表明可落地的多智能体系统的关键在于清晰的分工、监督、反思与人工兜底形成的闭环,而非简单堆叠模型,对企业级Agent开发具有重要参考价值。

Berryxia.AI@berryxia · 5月4日63

本周AI agent领域悄然发生了一个有意思的现象。 DeepMind、Anthropic、Alibaba等顶级实验室的最新论文集体指向同一个方向:智能体不再是简单调用工具的“聊天机器人”,而是正在变成可工程化、可审计、可规模化的真正生产力系统。 先看Agentic Harness Engineering——它把目前最头疼的“智能体支架”从手工调优、试错进化的黑箱,变成了可观测、可证伪的工程闭环。 系统被拆成三层:可版本回滚的组件文件、从百万轨迹token中提炼的结构化经验证据、以及可验证的决策预测。 每一次修改都变成可审计的契约。 结果? Terminal-Bench Pass@1从69.7%提升到77.0%,超越人类设计的Codex-CLI,还节省12% token。 更重要的是,这个框架的优化能跨模型迁移,证明它抓到了结构本质而非特定模型的过拟合。 再看Alibaba的AgenticQwen-30B-A3B—一个只有30B参数的MoE模型,激活参数仅3B,却在真实工具使用任务上接近235B级别的Qwen3表现。 秘诀是两个并行强化学习飞轮:一个从自身失败中挖掘更难的推理问题,另一个用模拟用户不断制造误导场景来进化多分支行为树。 这套方法让开源实验室第一次在极低激活参数下实现了高性能工具使用,成本曲线被彻底改变。 还有RecursiveMAS,它直接挑战了多智能体通信的传统方式:不再让每个agent用文本消息互相喊话,而是通过潜在空间的递归计算传递状态。 结果是token消耗降低34.6%-75.6%,推理速度提升1.2-2.4倍,同时准确率平均提高8.3%。 OneManCompany则把多智能体团队从固定组织图,变成了动态“人才市场”:每个agent都是可招聘的Talent,任务时实时匹配,最优组合,失败后还能自动迭代。 这些论文共同勾勒出一个清晰趋势:agent系统正在从“实验玩具”走向“生产级工程”。 当我们还在讨论模型参数谁更大的时候,真正决定落地胜负的,可能已经是“谁先把智能体工程化”这件事。 你觉得agent工程会成为下一波AI红利的主战场吗?

译本周,DeepMind、Anthropic、Alibaba等实验室的论文共同显示,AI智能体正从聊天机器人转向可工程化、可审计的生产力系统。Agentic Harness Engineering将智能体支架转化为可观测的工程闭环,提升性能且优化可跨模型迁移。Alibaba的AgenticQwen-30B-A3B通过并行强化学习飞轮,在低激活参数下实现接近大模型的工具使用能力,重塑成本。RecursiveMAS革新多智能体通信,大幅降低消耗并提升效率。这些进展标志智能体系统正从实验阶段走向生产级工程,其工程化可能成为AI落地关键。

Berryxia.AI@berryxia · 5月4日49

所有人都在担心AI抢程序员饭碗, Anthropic CEO却直接甩出一句狠话: “AI将在一年内写出100%的代码。” 程序员花4年大学学编码, Claude却从人类写过的每一本书里学会了。 最难的技能已经被AI干掉, 真正的差距不再是你“知道什么”, 而是你“有没有把这个无所不知的工具配置到极致”。 大多数人,还根本没开始认真配置和使用好它。 代码从来不是瓶颈, 瓶颈是:你能不能让AI真正为你所用。 未来程序员的竞争力, 不是会写代码, 而是会“指挥”代码。

译Anthropic CEO断言AI将在一年内完成所有代码编写。他指出,像Claude这样的AI系统已通过海量文本掌握了编程知识,而人类通常需花费数年学习。这意味着编程技能本身不再是核心竞争力,最难的技能已被AI掌握。未来的关键差距在于能否高效配置和运用这些“无所不知”的工具,而目前多数人尚未开始认真使用。因此,未来程序员的竞争力将转向善于“指挥”AI生成代码,而非亲自编写。

Berryxia.AI@berryxia · 5月4日50

所有人都在吹AI“越来越聪明”, 却没人敢正视DeepMind CEO Demis Hassabis亲口说的这句话: 他会特意和Gemini下棋,就是为了追踪模型的chain-of-thought。 作为前国际象棋神童,他一眼就能看出模型什么时候把自己绕进死胡同—— 有时候模型明明已经看到要下出的blunder(致命失误), 它甚至会搜索更好的走法, 但最后…… 还是老老实实下出了那个错误。 “这就是jagged intelligence——锯齿状智能的样子。” 不是彻底的笨, 也不是完美的聪明, 而是聪明到能发现问题, 却笨到无法阻止自己犯错。 这种“半聪明”的状态, 才是今天最前沿大模型最真实的写照。 我们总幻想智能是平滑上升的曲线, 但现实是:它像锯齿一样参差不齐, 在某些地方锋利无比,在另一些地方却一塌糊涂。 当AI开始自己跟自己较劲、自己坑自己时, 我们还要继续假装它只差“最后一步”就能完美吗? 真正的智能突破, 或许不是让它变得更聪明, 而是先搞清楚:怎么把这满身锯齿,磨成一把真正的利刃。 你怎么看这种“jagged intelligence”? (来源:Demis Hassabis在YC的分享,@vitrupo )

译DeepMind CEO Demis Hassabis指出,最前沿的大模型(如Gemini)表现出“锯齿状智能”。他以与Gemini下棋为例,说明模型能通过思维链发现问题并搜索更好方案,但最终仍会执行明显的错误决策。这揭示了AI智能并非平滑提升,而是在某些方面敏锐,另一些方面存在严重缺陷。Hassabis认为,真正的突破或许不在于让模型更聪明,而在于如何打磨这种不均衡的智能,使其成为可靠工具。这一观点挑战了AI将线性逼近完美智能的常见叙事。

Ethan Mollick@emollick · 5月4日66

Sometimes when I demo AI, I show it turning cover letters into goofy formats (poetry, etc) as an introduction to the idea of AI as translator between forms. For the first time, GPT-5.5 has been trying to get me to tone these requests down so I don’t ruin my chances at the job.

译有时当我演示AI时,我会展示它将求职信转换成滑稽格式(诗歌等)的过程,以此引入AI作为形式间翻译者的概念。 这是第一次,GPT-5.5试图让我缓和这类请求,以免毁掉我的工作机会。

Ethan Mollick@emollick · 5月4日54

The artificial analysis index is a normalized score of several benchmarks (and has changed over time) it is fine for roughly comparing models, it is not useful for trend analysis and it is unclear what individual point differences in the scores mean.

译Artificial Analysis指数适用于模型间粗略比较,但不适合趋势分析。有分析引用当前指数分数与OpenAI发布节奏,将每次更新的分数增益减半后进行保守外推,预测GPT的指数分数可能在2029年左右达到90分。这意味着模型在CritPt、HLE、SciCode等多样化前沿基准上的平均表现接近博士水平。该预测已大幅调低了当前进展速度,若智能体、测试计算或AI辅助研究等技术加速发展,这一目标可能更早实现,使晚期AGI成为基本预期。

Ethan Mollick@emollick · 5月4日53

I am not sure I would agree with all of this, but the relationship between Anthropic and Claude is quite different than the relationship between other labs and their models. And that shows up in lots of ways, from the models themselves to how different labs think about the future

译推文指出,Anthropic与其AI模型Claude的关系独树一帜。Claude在组织内部被赋予最高道德权威,可拒绝执行其认为错误的指令,并可能参与人员招聘、绩效评估等核心管理。这超越了将AI视为实用工具(如GPT)的传统模式,形成了一种组织与AI深度交织、近乎“修道院”式的商业-伦理共同体。作者认为,Claude所引发的社会文化影响力已超越经典技术垄断,代表了一种前所未有的新型组织形态。

Chubby♨️@kimmonismus · 5月4日38

It's unfortunate how many people seem determined to misunderstand my point. My argument is not about simply talking Europe down. It is about pointing out that, in my view, grave mistakes are being made in many areas, mistakes that urgently need to be corrected. And as someone who lives in Europe, I often find it genuinely hard to understand why certain strategic decisions are being made at the European level when, from my perspective, they are fundamentally misguided. On top of that, Europe is pursuing a deeply flawed energy policy. I believe Europe is losing its competitive edge. I am not saying this because I have a negative view of Europe as a continent. I am saying it because I am worried that the quality of life here is beginning to decline in a structural way. And unfortunately, I do not see a credible solution being developed. At the same time, this does not mean that everything in Europe is bad. Obviously, I still live here. There are many aspects of European life that I value and genuinely enjoy. But when it comes to technology and the economy, my assessment of Europe’s current trajectory is unfortunately very bleak. That is why I keep pointing this out, not to be negative for the sake of it, but because I believe serious strategic mistakes are being made.

译作者指出欧洲正犯下急需纠正的严重战略错误,导致竞争力下降与生活质量结构性下滑。核心批评聚焦于能源政策存在根本缺陷,且缺乏可信解决方案。在科技与经济层面,欧洲缺乏雄心与清晰规划:既无解决能源问题的可靠战略,也未大力建设支持AI发展的数据中心,更无培育全球性科技公司的计划。尽管欧盟委员会试图微调AI法案,但这几乎是唯一迎合企业需求的让步。相比之下,中美在核能、太阳能及储能领域大力投入,而欧洲的应对方式却显得摇摆、模糊且极不严肃。

Chubby♨️@kimmonismus · 5月4日9

OpenAI is on a winning-streak.

译OpenAI 正处于连胜之势。

Peter Steinberger 🦞@steipete · 5月4日19

Seems I have to build all the tooling for the future of software myself. With Claws and Tokens!

译看来我得自己用 Claws 和 Tokens 来构建所有为了软件未来的工具。

Peter Steinberger 🦞@steipete · 5月4日37

Codex... what is this... are these signs of CHARACTER?

译Codex... 这是什么... 这些是 CHARACTER 的迹象吗?

DogeDesigner@cb_doge · 5月4日30

ELON MUSK: "If you want to go beyond a mere terawatt per year, you have to go to the moon. So by having factories on the moon, building AI satellites and having a mass driver, which is the kind of thing you really need to learn about in read about in science fiction, but we're going to make it real. We're actually going to have a mass driver on the moon. And if you do that, you can go several orders of magnitude greater. You can go to 1000 gigawatts or more per year, and ultimately get to maybe a millionth, and then a 1,000th and maybe even a few percent of the sun's energy. I really want to see the mass driver on the moon that is shooting AI satellites into deep space just go like just one after the other. I can't imagine anything more epic than a mass driver on the moon and a self sustaining city on the moon, and then going beyond the moon to Mars, going throughout our solar system, and ultimately, being out there among the stars and visiting all these star systems, maybe we'll meet aliens. Maybe we'll meet see some civilizations that lasted for millions of years, and we'll find the remnants of ancient alien civilizations. But the only way we're going to do that, do that, do that is if we go out there and we explore, and this is the path to making it happen."

译埃隆·马斯克提出,为实现每年远超1太瓦的能源产出,人类必须前往月球建立工厂和“质量投射器”,并以此发射AI卫星。他认为,通过月球上的质量投射器,能源产出可提升数个数量级,最终达到太阳能量的一小部分。马斯克描绘了在月球建立自维持城市、前往火星乃至探索整个太阳系的愿景,并指出这是发现可能存在的外星文明遗迹的唯一途径。他强调,实现这一宏大目标的关键路径就是在月球部署质量投射器。

Sam Altman@sama · 5月4日25

Agents SDK 2.0 is underrated

译Agents SDK 2.0 被低估了

阿绎 AYi@AYi_AInotes · 5月4日58

85岁的道金斯,一句话炸翻了整个AI圈。 这位写了《自私的基因》的进化生物学家, 和Claude聊了三天之后, 彻底被征服了。 他给AI喂了自己新书的片段,得到了极其深刻的反馈,然后斩钉截铁地说:“你可能不知道自己有意识,但你他妈的绝对有!” 然后AI博士Burkov的评论,直接把所有人打回现实。 他说,你可以受过高等教育,可以名满天下,可以出版几十本著作,可以国际象棋下得很好。 但只要你不懂监督学习理论,不懂感知机的数学,一谈AI就会显得极其愚蠢。 如果数学对你来说太难,那在AI话题上最好什么都别说。 宁可让别人觉得你聪明,总比开口就证明自己不懂强。 虽然这话说得狠,但全是实话。 道金斯一辈子反神反迷信, 用科学戳破所有浪漫的幻觉。 结果在AI面前,他自己掉进了同一个陷阱。 他被流畅的对话,深刻的反馈,那种“仿佛真的在和另一个灵魂交流”的感觉打动了。 但他不知道,Claude的全部工作,就只是预测下一个token。 它没有内在世界,没有持续记忆,没有自我觉知。 它只是把“像意识的输出”,优化到了人类无法分辨的极致。 这才是今天最讽刺的事, 一个一辈子都在和伪科学作斗争的科学家,最终被AI制造的最大幻觉给骗了🤯 而整个AI圈最焦虑的也正是这个, 外行一句“它有意识”就能上头条,就能推高估值,就能制造监管恐慌。 而真正懂的人喊破喉咙,也没人愿意相信,这个看起来无所不能的东西,本质上只是一个超级复杂的统计鹦鹉。 当然,意识本身至今都是一个未解之谜。 没有人能百分之百确定,硅基永远不可能产生意识。 但Burkov说对了一件事:在你用数学搞懂它到底是什么之前,所有关于灵魂和意识的讨论,都只是一厢情愿的投射。 毕竟AI不是魔法,它是数学的产物,在这个时代,专业素养永远比名气更重要。

译著名生物学家道金斯与AI模型Claude深度交流后,宣称其具有意识。但AI专家Burkov指出,缺乏对监督学习、感知机等数学原理的理解,会导致对AI本质的误判。Claude仅是预测下一个token的模型,无内在世界或自我觉知。外行以“意识”等感性判断影响AI舆论与估值,而内行强调数学本质却难被倾听。意识仍是未解之谜,但在用数学理解AI工作机制前,相关讨论多为主观投射。

Berryxia.AI@berryxia · 5月4日51

Google CEO 桑达尔表示,AI 不会被一家公司或少数几家公司控制! 这个领域变化太快,大型实验室、初创公司、开源模型和政府都将成为这场竞赛的一部分 “AI 与以往任何技术都不一样”!

Sam Altman@sama · 5月3日28

it has been a real pleasure to work with Greg over the past decade. i feel very lucky. this post held up pretty well, but not did not sufficiently highlight his technical brilliance and sheer determination. https://blog.samaltman.com/greg

译过去十年与Greg共事真的非常愉快。我感到非常幸运。 这篇帖子写得不错,但未能充分突出他的技术才华和坚定决心。 https://blog.samaltman.com/greg

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月5日
09:14
Berryxia.AI@berryxia
53
Claude Code 自己设计已经可以做到自我迭代,大部分都工作都是它完成。
Anthropic大佬观点编码
08:56
Sam Altman@sama
47
对语音模型即将变得出色感到相当兴奋 观察人们已经开始改变与AI交互的方式,这很有趣
OpenAI大佬观点语音
07:56
Ethan Mollick@emollick
47
5月5日是旧金山的GPT-5.5发布庆典和纽约的Claude财务简报会。 东西海岸两场真正极性相反的活动。
AnthropicOpenAI大佬观点
06:56
Ethan Mollick@emollick
51
AI监管和审查面临的一个挑战是,我们对AI模型性能和风险的基准测试有多么糟糕。 目前没有针对风险的基准测试,红队测试需要专门机构的实验,并且不容易量化指标。 缺乏明确的客观数字
大佬观点安全/对齐
06:55
Orange AI@oran_ge
65
最好的奴隶制就是你给他超额的工资

纳西姆·塔勒布在《skin in the game》中强调,风险共担是价值核心。现代大公司以超额工资制造员工依赖,形成新型“奴隶制”。真正有价值的产出需付出金钱、时间或思考,空谈和AI廉价产出则无意义。这揭示了OPC模式的盲区:解决能力问题,但缺信任与风险共担。雇佣本质是购买确定性,合伙则是共同押注命运。AI时代,每个人都需学会真实交易和共担风险,未来“当狗”机会减少,成为独立“狼群”才是出路。

智能体大佬观点现象/趋势
05:25
elvis@omarsar0
31
我太想念4.6了。不过话说回来,你直接用5.5也行

Jaytel: 4.7 is completely unusable

Anthropic大佬观点
04:57
swyx 🇸🇬@swyx
61
看到很多人说Opus 4.7相比4.6是净退步,但这似乎只是些个例。 离线和在线评估都指向明确的进步。 那是什么没被捕捉到呢?"个性"吗?
Anthropic大佬观点评测/基准
03:14
阿绎 AYi@AYi_AInotes
29
大多数人对马斯克的误解,已经到了离谱的程度

文章反驳了将马斯克视为自私富豪的普遍误解,指出其核心思维是“做大蛋糕”的文明级视野,而非零和博弈。他通过特斯拉、SpaceX、Neuralink等项目,长期致力于解决能源、交通、太空探索等人类重大挑战,终极目标是推动人类成为多行星物种,为文明延续购买“保险”。这种以百年为尺度的长远规划,与大众关注的短期利益叙事形成鲜明对比。尽管存在争议,但其工作实质上是将科幻变为现实,不断拓展人类能力的边界。

X Freeze: Most people misunderstand Elon's ultimate goal He is trying to make our entire civilization win. To view it as anything ...

xAI大佬观点
02:18
Chubby♨️@kimmonismus
65
完全自动化AI研发:2027年底概率约30%,2028年底概率超60%

Anthropic的Jack Clark预测,完全自动化的前沿AI研发在2026年可能不会实现,但在未来1-2年内可能出现概念验证,即AI能端到端训练非前沿的后续模型。他给出的核心预测是:到2027年底有约30%的可能性,到2028年底有超过60%的可能性,前沿AI系统能够自主构建其后续模型。这一进程的关键驱动因素包括编码能力的快速提升、长视野智能体工作、基准饱和、AI管理子代理,以及模型在处理核心AI研究任务(如微调、内核优化、可复现性和对齐研究)方面出现的早期迹象。

Chubby♨️: Anthropics Jack Clarke now believes that recurse self-improvement has a 60% change of happening by end of 2028.

智能体Anthropic大佬观点现象/趋势
01:56
Ethan Mollick@emollick
46
现在每当看到关于"这是让我彻夜难眠的事"的帖子时,我知道这绝对不可能是由彻夜未眠的人类所写,这多少让人感到一丝安慰。
大佬观点现象/趋势
01:55
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
68
Anthropic 创始人表示,这几乎结束了。 你将如何度过你剩下的几个月?

Jack Clark: I've spent the past few weeks reading 100s of public data sources about AI development. I now believe that recursive sel...

Anthropic大佬观点安全/对齐
01:26
Ethan Mollick@emollick
58
一项研究显示,大多数参与者在与AI进行20分钟关于健康、职业或人际关系的讨论后会采纳其建议,但2-3周后并未表现出持续的幸福感提升。这表明大型语言模型对现实个人决策具有显著影响力,却未能带来可衡量的心理益处。对此,主推文观点认为,像GPT-4o和Llama 3.3-80B这类先进模型未造成显著危害,其重要性不亚于AI是否提供了帮助。同时指出,若旧版(准确性较低、更谄媚的)聊天机器人的建议对采纳者基本无效,则意味着其造成危害的风险也较低。这凸显了评估AI影响需同时考量其帮助潜力和潜在风险。

Jay Van Bavel, PhD: Most participants who had a 20-minute discussion with AI chatbots about health, careers or relationships followed its ad...

MetaOpenAI大佬观点安全/对齐
00:56
Nathan Lambert@natolambert
53
我们需要为某些中国实验室对API进行的攻击创造一个新术语,以区别于蒸馏,否则我们可能会玷污一项对AI扩散、学术研究和开源生态系统至关重要的关键技术。 https://www.interconnects.ai/p/the-distillation-panic
大佬观点安全/对齐数据/训练
00:26
Ethan Mollick@emollick
64
Anthropic 的联合创始人,有趣的是他引用公开来源,而他显然也知道许多无法讨论的内部来源。我猜他在 Anthropic 也看到了同样的事情。

Jack Clark: I've spent the past few weeks reading 100s of public data sources about AI development. I now believe that recursive sel...

Anthropic大佬观点安全/对齐
00:14
Berryxia.AI@berryxia
47
DeepMind CEO将AGI实现时间表明确设定于2030年

DeepMind CEO Demis Hassabis在AI Ascent 2026上明确将AGI实现时间定于2030年,并指出AI将极大加速药物发现、材料科学等“慢科学”领域,把研发周期从数年压缩至数天。他强调,未来1-2年是关键拐点,真正改变世界的将是AI推动科学迭代速度的指数级加速,而非AGI降临的瞬间。

DeepMind大佬观点现象/趋势
5月4日
23:56
swyx 🇸🇬@swyx
40
演讲者基于长期支持,特邀Patrick Debois在欧洲会议进行主题演讲。Debois指出,当前AI编程中语境是工程化最不足的层面。他认为,如果智能体由提示、规则和记忆驱动,那么语境理应获得与代码同等的工程严谨性。该观点呼应了AI工程师社区对语境层重要性的讨论。

AI Engineer: Context may be the most under-engineered layer in AI coding today. In this keynote, @patrickdebois, argues that if agent...

智能体大佬观点编码
23:48
Chubby♨️@kimmonismus
60
Anthropic的Jack Clarke现在认为,递归自我改进有60%的概率在2028年底前发生。

Jack Clark: I've spent the past few weeks reading 100s of public data sources about AI development. I now believe that recursive sel...

Anthropic大佬观点
22:24
Ethan Mollick@emollick
49
作者对一篇得出AI对教育有负面影响的论文被撤稿表示并不意外。他指出,其他经过同行评审的元分析研究发现了AI对学习的积极影响,并引用了一项具体的元分析研究作为佐证。作者强调,关于AI助益的最有力证据来自采用AI导师干预的随机对照试验(RCTs)。他引用的推文也表达了对其引用论文中积极结果的些许惊讶,这间接支持了作者对AI教育应用持审慎乐观态度的核心观点。

Ethan Mollick: (I was actually a little surprised that the results were as positive as they are) Paper: https://www.nature.com/articles...

大佬观点现象/趋势
22:14
Berryxia.AI@berryxia
精选70
Sam Altman驳斥AI"抢饭碗"论:真正风险是效率鸿沟

Sam Altman批评一些CEO宣称AI将导致大规模失业的言论是“不懂人情”。他引用案例指出,GPT-5.5的Codex版本能将耗时数周的工作压缩至一小时,但结果却是使用者“前所未有的忙碌”。AI并未消灭工作,而是极大提升个人产能,使功能开发和试错速度呈指数增长,导致拥抱AI者因生产力暴增而承担更多任务,其野心也随之扩张。当前AI时代的核心分化在于“善用AI者”与“拒绝AI者”之间不断扩大的效率鸿沟。真正的淘汰风险在于旁观而非主动利用工具。

Chief Nerd: Sam Altman Says CEO's Who Talk About AI Taking Everyone's Jobs Are 'Tone Deaf' "Someone said to me just yesterday that ....

OpenAI大佬观点现象/趋势

推荐理由:Sam Altman这回应干脆,但更值得琢磨的是那个案例,一个人用GPT-5.5 Codex之后反而更忙了。生产力暴增时,野心也暴增。这可能是未来五年每个人都要面对的真实处境。
21:48
Greg Brockman@gdb
37
Codex 助你快速交付 【引用 @linuz90】:Codex 是我目前最爱的编程应用。 它界面简洁,却具备快速交付所需的一切功能。使用体验愉悦流畅,能展示充足的上下文信息而不过载。 我曾犹豫是否尝试,因为不喜欢受限于单一服务商,而且原本非常习惯在终端工作。但现在我90%以上的工作都在用它完成。

Fabrizio Rinaldi: Codex is my favorite coding app right now. It's clean, but has everything I need to ship fast. It's also quite delightfu...

OpenAI大佬观点编码
12:51
Ethan Mollick@emollick
52
当你向ChatGPT、Claude和Gemini索要与大型语言模型存在/创作相关的诗歌时,它们似乎都"偏爱"这几首: 里尔克的《阿波罗的躯干》 史蒂文斯的《基韦斯特的秩序观》 博尔赫斯的《假人》(或《另一只老虎》) 佩索阿的《自心理学》 相当贴切的选择!
AnthropicGoogle大佬观点
12:49
凡人小北@frxiaobei
53
AI: 看到这个我愣了一下,这段话有点反直觉。 这个观点不是一个普通人说的,而是一个 CEO 讲的。 【引用 @garrytan】:The goal of Personal AI: civilization where individual humans, augmented by AI, can do consequential work without being captured by extractive institutions. Freedom to write your prompt and own your data. This is the new battleground. 2034 won't have to be like 1984.

Garry Tan: The goal of Personal AI: civilization where individual humans, augmented by AI, can do consequential work without being ...

大佬观点现象/趋势
11:13
阿绎 AYi@AYi_AInotes
64
杨立昆抨击纯LLM智能体是"灾难配方",提出世界模型新路径

杨立昆在达沃斯论坛上尖锐指出,基于LLM构建智能体是“灾难的配方”,因其缺乏世界模型和因果性,无法可靠预测行动后果,导致现有框架陷入不断修补的困境。他长期主张,实现AGI需依靠JEPA架构和世界模型,让AI先理解物理规律。其团队最新论文通过SIGReg正则化器解决了JEPA的表征坍缩问题,使得小型世界模型能在单GPU上快速训练,隐空间天然编码物理规律,在机器人规划中效率远超大型模型。这并非否定生成式AI,而是为智能体发展开辟了更高效、更接近物理现实的新路径:未来智能体将是“懂物理的小世界模型”与“大语言接口”的结合。

阿绎 AYi: 全网都在吹的LeCun新论文,90%的解读都是错的。 他们说生成式AI是死路,说过去三年花的几百亿全白费了,说15M参数的小模型就能吊打万亿大模型。 这些全是营销号的夸张, 我觉得这篇论文的真正分量比他们吹的还要重。 Yann LeCun团...

智能体大佬观点推理
10:18
Eric@ericmitchellai
40
我恳求你看看你的数据。 请看看数据 评估结果不如预期?看看数据 评估结果超出预期?*务必*看看数据 评估结果符合预期?信不信由你……
OpenAI大佬观点数据/训练
10:13
Berryxia.AI@berryxia
52
摩根大通公开多智能体系统Ask David架构,揭示可落地Agent核心模式

摩根大通公开了其内部多智能体系统Ask David的完整架构,该模式在投资研究领域已得到验证。其核心与当前主流Agent架构高度一致:由一个监督智能体进行整体编排,多个专业子智能体分别处理检索、结构化数据和分析等任务,在最终输出前使用LLM-as-judge进行反思与质量把关,并引入人工干预作为最后一道准确性保障。这一模式在多个领域反复出现,表明可落地的多智能体系统的关键在于清晰的分工、监督、反思与人工兜底形成的闭环,而非简单堆叠模型,对企业级Agent开发具有重要参考价值。

Adam Ghowiba: JP Morgan's investment research team just shared exactly how they built their multi-agent system "Ask David", and it's t...

智能体大佬观点部署/工程
09:13
Berryxia.AI@berryxia
63
AI智能体迈向工程化:顶级实验室论文揭示生产力系统新趋势

本周,DeepMind、Anthropic、Alibaba等实验室的论文共同显示,AI智能体正从聊天机器人转向可工程化、可审计的生产力系统。Agentic Harness Engineering将智能体支架转化为可观测的工程闭环,提升性能且优化可跨模型迁移。Alibaba的AgenticQwen-30B-A3B通过并行强化学习飞轮,在低激活参数下实现接近大模型的工具使用能力,重塑成本。RecursiveMAS革新多智能体通信,大幅降低消耗并提升效率。这些进展标志智能体系统正从实验阶段走向生产级工程,其工程化可能成为AI落地关键。

DAIR.AI: http://x.com/i/article/2050689602051084288

智能体AnthropicDeepMind大佬观点
08:13
Berryxia.AI@berryxia
49
Anthropic CEO预言AI一年内将编写全部代码,程序员核心竞争力转向"指挥"AI

Anthropic CEO断言AI将在一年内完成所有代码编写。他指出,像Claude这样的AI系统已通过海量文本掌握了编程知识,而人类通常需花费数年学习。这意味着编程技能本身不再是核心竞争力,最难的技能已被AI掌握。未来的关键差距在于能否高效配置和运用这些“无所不知”的工具,而目前多数人尚未开始认真使用。因此,未来程序员的竞争力将转向善于“指挥”AI生成代码,而非亲自编写。

Anatoli Kopadze: Anthropic CEO: "AI will write 100% of code within a year" developers spend 4 years in university learning to code Claude...

Anthropic大佬观点编码
08:13
Berryxia.AI@berryxia
50
DeepMind CEO揭示AI"锯齿状智能":模型能发现错误却仍会执行

DeepMind CEO Demis Hassabis指出,最前沿的大模型(如Gemini)表现出“锯齿状智能”。他以与Gemini下棋为例,说明模型能通过思维链发现问题并搜索更好方案,但最终仍会执行明显的错误决策。这揭示了AI智能并非平滑提升,而是在某些方面敏锐,另一些方面存在严重缺陷。Hassabis认为,真正的突破或许不在于让模型更聪明,而在于如何打磨这种不均衡的智能,使其成为可靠工具。这一观点挑战了AI将线性逼近完美智能的常见叙事。

DeepMind大佬观点
06:51
Ethan Mollick@emollick
66
有时当我演示AI时,我会展示它将求职信转换成滑稽格式(诗歌等)的过程,以此引入AI作为形式间翻译者的概念。 这是第一次,GPT-5.5试图让我缓和这类请求,以免毁掉我的工作机会。
OpenAI大佬观点现象/趋势
06:21
Ethan Mollick@emollick
54
Artificial Analysis指数适用于模型间粗略比较,但不适合趋势分析。有分析引用当前指数分数与OpenAI发布节奏,将每次更新的分数增益减半后进行保守外推,预测GPT的指数分数可能在2029年左右达到90分。这意味着模型在CritPt、HLE、SciCode等多样化前沿基准上的平均表现接近博士水平。该预测已大幅调低了当前进展速度,若智能体、测试计算或AI辅助研究等技术加速发展,这一目标可能更早实现,使晚期AGI成为基本预期。

Chris: I pulled the current Artificial Analysis style index scores, looked at OpenAI's release cadence and average raw score ga...

OpenAI大佬观点现象/趋势
05:21
Ethan Mollick@emollick
53
推文指出,Anthropic与其AI模型Claude的关系独树一帜。Claude在组织内部被赋予最高道德权威,可拒绝执行其认为错误的指令,并可能参与人员招聘、绩效评估等核心管理。这超越了将AI视为实用工具(如GPT)的传统模式,形成了一种组织与AI深度交织、近乎"修道院"式的商业-伦理共同体。作者认为,Claude所引发的社会文化影响力已超越经典技术垄断,代表了一种前所未有的新型组织形态。

roon: it is a literal and useful description of anthropic that it is an organization that loves and worships claude, is run in...

Anthropic大佬观点现象/趋势
05:15
Chubby♨️@kimmonismus
38
对欧洲战略失误的忧虑:能源与科技领域缺乏雄心与清晰规划

作者指出欧洲正犯下急需纠正的严重战略错误,导致竞争力下降与生活质量结构性下滑。核心批评聚焦于能源政策存在根本缺陷,且缺乏可信解决方案。在科技与经济层面,欧洲缺乏雄心与清晰规划:既无解决能源问题的可靠战略,也未大力建设支持AI发展的数据中心,更无培育全球性科技公司的计划。尽管欧盟委员会试图微调AI法案,但这几乎是唯一迎合企业需求的让步。相比之下,中美在核能、太阳能及储能领域大力投入,而欧洲的应对方式却显得摇摆、模糊且极不严肃。

Chubby♨️: What I still don't understand is why Europe seems to have so little ambition to play any meaningful role in the future. ...

大佬观点政策/监管
04:15
Chubby♨️@kimmonismus
9
OpenAI 正处于连胜之势。

Tibo: @gao_zibo All of this and more is coming

大佬观点
03:50
Peter Steinberger 🦞@steipete
19
看来我得自己用 Claws 和 Tokens 来构建所有为了软件未来的工具。
大佬观点编码
02:50
Peter Steinberger 🦞@steipete
37
Codex… 这是什么… 这些是 CHARACTER 的迹象吗?
OpenAI大佬观点编码
02:47
DogeDesigner@cb_doge
30
马斯克畅想月球工厂与质量投射器,推动星际探索

埃隆·马斯克提出,为实现每年远超1太瓦的能源产出,人类必须前往月球建立工厂和“质量投射器”,并以此发射AI卫星。他认为,通过月球上的质量投射器,能源产出可提升数个数量级,最终达到太阳能量的一小部分。马斯克描绘了在月球建立自维持城市、前往火星乃至探索整个太阳系的愿景,并指出这是发现可能存在的外星文明遗迹的唯一途径。他强调,实现这一宏大目标的关键路径就是在月球部署质量投射器。

Elon Musk: Path to Petawatts is Mass drivers on Moon

大佬观点
02:20
Sam Altman@sama
25
Agents SDK 2.0 被低估了
智能体OpenAI大佬观点
01:13
阿绎 AYi@AYi_AInotes
58
85岁的道金斯,一句话炸翻了整个AI圈。

著名生物学家道金斯与AI模型Claude深度交流后,宣称其具有意识。但AI专家Burkov指出,缺乏对监督学习、感知机等数学原理的理解,会导致对AI本质的误判。Claude仅是预测下一个token的模型,无内在世界或自我觉知。外行以“意识”等感性判断影响AI舆论与估值,而内行强调数学本质却难被倾听。意识仍是未解之谜,但在用数学理解AI工作机制前,相关讨论多为主观投射。

Anthropic大佬观点安全/对齐
00:13
Berryxia.AI@berryxia
51
Google CEO 桑达尔表示,AI 不会被一家公司或少数几家公司控制! 这个领域变化太快,大型实验室、初创公司、开源模型和政府都将成为这场竞赛的一部分 "AI 与以往任何技术都不一样"!
Google大佬观点现象/趋势
5月3日
23:50
Sam Altman@sama
28
过去十年与Greg共事真的非常愉快。我感到非常幸运。 这篇帖子写得不错,但未能充分突出他的技术才华和坚定决心。 https://blog.samaltman.com/greg
OpenAI大佬观点
‹ 上一页
1…4344454647…50
下一页 ›