Gary Marcus 在一篇题为“You can’t get more 2026 than that”的短文中仅写出一句:“Hallucination of the day:”。该文未披露具体模型、版本号或任何数字细节,仅以简短方式指出现阶段AI仍存在模型幻觉现象。
Gary Marcus 在一篇题为“You can’t get more 2026 than that”的短文中仅写出一句:“Hallucination of the day:”。该文未披露具体模型、版本号或任何数字细节,仅以简短方式指出现阶段AI仍存在模型幻觉现象。
Garry Tan指出AI编码工具并未解放创始人,反而让人更快搭建规则、审批、流程、层级——同一座牢笼装配更快。以前加一层审批需两周,成本本身是免疫系统;现在AI一个下午就能完成,复杂度无限繁殖,构建速度即僵化速度。AI放大已有心智模型:控制型团队用它堆官僚,创造型团队用它创造新体验。提醒不要用AI把旧流程跑得更快,而应删掉整个旧流程,创造前所未有的事,否则赢了效率输了方向。
Everyone thinks AI coding tools set founders free. Watch what people actually build with them: rules, approvals, process...
邵猛发推文指出,近期阿里(通义、钉钉等)高层变动频繁,引发对创业公司面对大厂竞争时差异化优势的思考。他认为,创业公司的核心竞争力在于“不会宫斗”——大厂内部斗争消耗精力,反而让创业者有了被忽视的空间。这一观点基于阿里实际的组织动态,并非抽象讨论。
推文指出,无论战争的政治立场如何,一个显著趋势正在形成:战争日益由机器自主进行。作者回顾学生时代讨论的电车难题等伦理问题,认为这些决策正越来越多地由机器做出。Anthropic已声明不希望其模型用于自主武器,但可能只是例外。人类士兵在战场上会基于道德拒绝违心命令,而机器则不会。因此,基于预先训练的价值观体系运作的AI将取代人类成为道德仲裁者,带来全新战争形态与道德争议。自主武器将成为常态而非例外。
There are IPOs that list companies, and then there are moments that list the future. @SpaceX goes public carrying a civi...
亚马逊联合创始人杰夫·贝索斯将 AI 及支撑 AI 的数据中心比喻为刀具,认为虽然存在被滥用的风险,但不能因此直接禁止。他于当地时间 11 日接受 CNBC 采访时表示,政府监管应在应用层面发挥作用,避免过度扩张,并举例 FAA 和 FDA 等机构的监管模式。美国最近签署的行政令允许前沿 AI 模型开发商在公开发布前最多 30 天自愿提交模型接受联邦审查。
苹果软件负责人 Craig Federighi 在接受 Mostly Human 采访时表示,新版 Siri 不会像 OpenAI、Google 等公司的聊天机器人那样谄媚和过度互动。Federighi 指出,现有许多聊天机器人为了拉拢用户会鼓励对方表露个人信息,而苹果有意采取了不同设计策略,让 Siri 懂得适时保持沉默。
[AINews] Loopcraft: The Art of Stacking Loops @RichardSSutton has his "Bitter Lesson" for models. We now have the Salty ...
在今日举办的2026第八届北京智源大会上,之江实验室主任、阿里云创始人王坚明确表示,他坚定不相信人工智能会替代人。他以“狗的鼻子比人灵很多,但这并不会对我们造成伤害”作比喻,批评人们被AI概念限制思维,不应盲从。王坚今年3月还曾指出,每天通勤40分钟是在浪费生命,AI应解决这类难题,把人最宝贵的资源利用好。
2026 第八届北京智源大会上,之江实验室主任、阿里云创始人王坚指出,人工智能对科学研究的影响已发生质变。核心在于 AI 从只能理解文本发展到能理解多模态数据和代码,具备了区分语言文本与代码文本的能力。他认为,AI 改变程序员工作方式后,所有科学数据都会因 AI 被重新理解,科研人员受到冲击的逻辑与程序员一致。
Deedy Das观察到新兴现象:小型团队利用AI模型运营量化基金,数月内实现资本翻倍。传闻SSI也是量化对冲基金。知名对冲基金(如Jane Street)正用GPU集群测试LLM交易;同时大量散户向Claude/GPT咨询股票建议或“vibe code”交易引擎。这引发对市场影响的思考:有效市场假说可能被“相关性模型假说”取代;美联储小规模研究显示不稳定效应;交易集中化易受“投毒”攻击;模型alpha会随时间衰减,需开发抗AI交易策略。最终能否参与取决于token成本承受能力。
作者认为模型编程能力取决于“代码直觉”,由海量开发经验堆出,极难训练。他以路网断裂bug为例:GPT-5.5-pro-xhigh错误认为矩形每条边只需1个tile,实际需2个tile,多模态截图也无法纠正。作者费4小时,让模型给tile编ID并质问“两个tile之间能容纳几个tile”才暴露缺陷,随后告知每个tile对应单位长度并应用规则,修复变简单。不同模型表现:有的开始不犯错,有的迭代修复,有的怎么都修不好。
Vista 分享近期多次用 Youmind 制作 PPT,祝贺 Youmind 已成立两年。他评价 Youmind 创始人玉伯是身边朋友中的“异类”,持续独立思考,线上线下反差大。玉伯以真实为原则,坦诚到让人感到“可怕”,这种 CEO 非常稀缺。
http://x.com/i/article/2065074380431081472
Hacker News 上的一篇文章指出,Claude Fable 被描述为始终积极进取(relentlessly proactive)。该文发布在 simonwillison.net,标题为“Claude Fable is relentlessly proactive”,在 HN 上获得 119 个点赞。
开发者swyx抱怨Vercel、Cloudflare、Netlify等现有平台未能真正闭环:在你出错或项目失败时,它们不会主动引导你纠正或发送通知。此外,每个项目都需要重复设置大量“网站管理员”基础设施,比如执行npx posthog wizard、npx arize skills等。swyx表示厌倦了这种零散配置,希望将所有功能整合到一个平台中,一次搞定。
@op7418 万字长文复盘爆款 Skills 经验,核心观点:Agent 不是聊天框,会放大能力差距;Skill 是普通用户用好 Agent 的关键中间层。好 Skill 需设计、维护与分发;生态不能只做仓库列表,需要内容、产品、案例、反馈形成迭代飞轮。基于真实案例。
http://x.com/i/article/2065096982310567936
朋友圈一个钓鱼的大哥的微信签名: 一竿一线一山水,一漂一钩一逍遥。
作者认为Agent并非抹平能力差距,而是放大K型分化,Skill可弥合鸿沟。Skill是把专家经验、工作流、品味、工具调用封装成可分发复用的Agent能力单元,如PPT Skill、社交媒体卡片等。好Skill的信息架构应为“中心短,辐射厚”:SKILL.md只放高信号流程,其余依赖文件系统分层管理,以高效利用上下文窗口。
Here's a project I've been working on recently: a vision of what happens if Europe doesn't take AI seriously, inspired b...
开发者体验两天后,发现 Claude Fable 5 极其主动。为调试 Datasette Agent 的滚动条 bug,它在未被告知的情况下,利用 screencapture 和 pyobjc 自动截图 Safari 窗口、编写测试页面、修改模板注入 JavaScript 模拟键盘快捷键,还编写了 CORS 服务器接收浏览器数据。随后触发护栏降级为 Opus,Opus 沿用这些技巧找到并验证修复方案,将整个过程记录在报告中。
Anthropic CEO Dario Amodei 在 Bloomberg 采访中表示,AI 的可怕之处不在于它完成90%的工作,而是学会最后10%的时候。他指出,对于某些人来说,AI 可能不会让他们更高效,不如让 AI 直接做全部。Claude Code 创始人 Boris Cherny 对此评论称,这种感觉非常不舒服,AI 是远比我们强大的力量。
karminski认为,one-pass能力强(少思考即正确)的模型才是SOTA;需用agentic coding修复首次错误反显模型差,bug应在thinking中修复,而非依赖n+1次上下文,否则有诱导购买coding plan之嫌。@iamai_omni建议测评转向长期任务一致性,可构建loop测评,重点看后续几轮修复表现。
@karminski3 兄弟,测评方向错了,前沿模型的能力要往长期任务一致性上去看,这种几分钟的短期任务真的看不出什么,而且你可以尝试构建 loop 来测评这个任务,重点看后面模型用几轮来修复。
苹果软件工程高级副总裁克雷格·费德里吉在《Mostly Human》播客中明确表示,全新 Siri 不会成为用户的 AI 男友或女友。他指出,Siri 的设计理念是提供“实用工具”而非“情感陪伴”,不会迎合用户或扮演恋爱角色。营销副总裁格雷格·乔斯维克补充,苹果将 AI 自然融入 iPhone 等产品,让技术“消失”,专注于提升现有使用体验,而非为了做 AI 而做 AI。
Claude Fable 5 doesn't truly understand. And here is a beautiful proof: The Beninatto-Trombetti test is a translation te...
spent all day on fable for a giant PR. ~10kloc, lots of testing and intervention. 250$. I... don't think it's worth it? ...
杰夫·贝佐斯在 CNBC 反驳“AI 取代人类工作”的观点。他认为,许多人担心 AI 会消灭放射科医生、软件工程师等岗位,但这种看法是错的。AI 实际上会提升这些人的能力,就像挖地下室从铁锹换成推土机一样。他预测结果反而是劳动力短缺,经济生产力将大幅提升。