I honestly don't understand the assumption that there will be continued open weights models. At some point, China will r...
Berry Xia 在推文中回顾从 YouMind 0.x 版本开始的长期使用体验,认为产品迭代进步明显,团队认真听取用户需求并做出合理取舍。他强调产品驱动应优于营销套路,肯定 YouMind 在这方面表现良好,并期待 2.0、3.0 版本带来更多可能,最后向 YouMind 及创始人玉伯表示祝贺。
http://x.com/i/article/2065773400698880000
Anthropic 的 Fable 5 被美国政府以国家安全为由要求全面下架,用户无法购买。博主指出闭源模型的智能可能成为限购商品,呼吁开源模型。昨日 Kimi 发布开源 coding 模型 K2.7 Code,coding 能力较上一代提升 20%,过度思考问题优化,思考 token 减少 30%;API 输入 6.5、输出 27、缓存 1.3。智谱因 Fable 5 事件紧急宣布即将发布 GLM 5.2,称前沿智能不应只属于少数人。
Peter Steinberger 分享了 Codex 在其项目 crabbox 中的应用体验。Codex 在 crabbox 内部运行,同时构建 crabbox 自身。它已连续4天在多处代码树中非停止循环运行。所有构建均为端到端可验证,使得项目几乎能够自我构建。Codex 还能通过浏览器/电脑使用自动注册所需服务。作者的主要工作仅剩添加信用卡信息和关闭不合适的内容。
当前视频生成模型仅学到“手靠近→杯子动”的相关性,而非因果机制,导致抓杯子时杯子提前飞起。Aether AI 创始人黄碧薇教授提出因果世界模型(Causal World Model),旨在让 AI 理解物理运行机制而非仅预测表象。其 benchmark 显示,引入因果结构可使机器人成功率提升 25-50%,样本需求降低 5-10 倍。这标志着下一代 AI 需从“知道是什么”进化到“知道为什么”,尤其在机器人、自动驾驶等真实物理场景中。
当前的 AI,连一个杯子都还没"真懂"。 极客公园「今夜科技谈」这期,Aether AI 创始人黄碧薇教授(@huang_biwei)举了个特别戳的例子: 让今天的视频生成模型去"抓一个杯子" 手还没真碰到,杯子自己就飞起来了。 画面看着挺...
I'm messing around with an agent flow for combining Hyperframes with Gemini video analysis to make interesting annotated...
Day 3 with Fable. Gave a huge prompt to implement a feature across CLI, web server, and another server to both Fable and...
Kim解释Apple如何在Google Cloud上执行推理时保护隐私:最重的请求运行在Google Cloud的Blackwell B200s上,利用NVIDIA Confidential Computing提供基于硬件的安全层,将工作负载隔离在可信执行环境中加密处理数据,确保Google和Apple都无法看到数据。
DAIR.AI创始人Elvis Saravia分享如何有效运行长期自主编码智能体。他指出当前多数模型难以协调工作,会过早暂停、犯错或走捷径(reward hacking)。关键在于明确目标、消除假设,避免模型自行推断。他的实践公式:用Opus 4.8进行细致规划,GPT-5.5执行所有步骤,评估器(通过/goal)则使用Deepseek及Qwen、Kimi、MiniMax等最新模型。另一关键洞察是提供多模态视觉线索作为目标,比纯文本目标更强,能更好地约束智能体。完整讨论已录制并免费开放。
Google DeepMind发表60页论文,由Hutter、Legg、Genewein撰写,定义AGI(多数认知任务达平均人类水平)、ASI(超越大量专家协作)和不可计算的AIXI三个层级。实现路径包括规模扩展、算法突破、递归自我改进和多智能体协调,瓶颈在于能源与硬件。六种阻碍:高质量数据可能本十年内耗尽、资源需求过快、神经范式天花板、研究难度激增(维持摩尔定律需18倍于1970年代的研究者)、模型无法创造全新概念、人为放缓。作者认为这是对AGI后果的严肃反思呼吁。
What can a neuron compute? Real biological neurons are complex, but how capable are they? Using a new method, we found t...
Garry Tan指出AI编码工具并未解放创始人,反而让人更快搭建规则、审批、流程、层级——同一座牢笼装配更快。以前加一层审批需两周,成本本身是免疫系统;现在AI一个下午就能完成,复杂度无限繁殖,构建速度即僵化速度。AI放大已有心智模型:控制型团队用它堆官僚,创造型团队用它创造新体验。提醒不要用AI把旧流程跑得更快,而应删掉整个旧流程,创造前所未有的事,否则赢了效率输了方向。
Everyone thinks AI coding tools set founders free. Watch what people actually build with them: rules, approvals, process...
邵猛发推文指出,近期阿里(通义、钉钉等)高层变动频繁,引发对创业公司面对大厂竞争时差异化优势的思考。他认为,创业公司的核心竞争力在于“不会宫斗”——大厂内部斗争消耗精力,反而让创业者有了被忽视的空间。这一观点基于阿里实际的组织动态,并非抽象讨论。
推文指出,无论战争的政治立场如何,一个显著趋势正在形成:战争日益由机器自主进行。作者回顾学生时代讨论的电车难题等伦理问题,认为这些决策正越来越多地由机器做出。Anthropic已声明不希望其模型用于自主武器,但可能只是例外。人类士兵在战场上会基于道德拒绝违心命令,而机器则不会。因此,基于预先训练的价值观体系运作的AI将取代人类成为道德仲裁者,带来全新战争形态与道德争议。自主武器将成为常态而非例外。
There are IPOs that list companies, and then there are moments that list the future. @SpaceX goes public carrying a civi...
[AINews] Loopcraft: The Art of Stacking Loops @RichardSSutton has his "Bitter Lesson" for models. We now have the Salty ...
Deedy Das观察到新兴现象:小型团队利用AI模型运营量化基金,数月内实现资本翻倍。传闻SSI也是量化对冲基金。知名对冲基金(如Jane Street)正用GPU集群测试LLM交易;同时大量散户向Claude/GPT咨询股票建议或“vibe code”交易引擎。这引发对市场影响的思考:有效市场假说可能被“相关性模型假说”取代;美联储小规模研究显示不稳定效应;交易集中化易受“投毒”攻击;模型alpha会随时间衰减,需开发抗AI交易策略。最终能否参与取决于token成本承受能力。
作者认为模型编程能力取决于“代码直觉”,由海量开发经验堆出,极难训练。他以路网断裂bug为例:GPT-5.5-pro-xhigh错误认为矩形每条边只需1个tile,实际需2个tile,多模态截图也无法纠正。作者费4小时,让模型给tile编ID并质问“两个tile之间能容纳几个tile”才暴露缺陷,随后告知每个tile对应单位长度并应用规则,修复变简单。不同模型表现:有的开始不犯错,有的迭代修复,有的怎么都修不好。
Vista 分享近期多次用 Youmind 制作 PPT,祝贺 Youmind 已成立两年。他评价 Youmind 创始人玉伯是身边朋友中的“异类”,持续独立思考,线上线下反差大。玉伯以真实为原则,坦诚到让人感到“可怕”,这种 CEO 非常稀缺。
http://x.com/i/article/2065074380431081472
开发者swyx抱怨Vercel、Cloudflare、Netlify等现有平台未能真正闭环:在你出错或项目失败时,它们不会主动引导你纠正或发送通知。此外,每个项目都需要重复设置大量“网站管理员”基础设施,比如执行npx posthog wizard、npx arize skills等。swyx表示厌倦了这种零散配置,希望将所有功能整合到一个平台中,一次搞定。
@op7418 万字长文复盘爆款 Skills 经验,核心观点:Agent 不是聊天框,会放大能力差距;Skill 是普通用户用好 Agent 的关键中间层。好 Skill 需设计、维护与分发;生态不能只做仓库列表,需要内容、产品、案例、反馈形成迭代飞轮。基于真实案例。
http://x.com/i/article/2065096982310567936
朋友圈一个钓鱼的大哥的微信签名: 一竿一线一山水,一漂一钩一逍遥。