本地AI倡导者Ahmad Osman指出开源与闭源差距缩至4-8个月,但缺搜索、工具、Agent等基础设施。美团发布LongCat-2.0(1.6T参数/48B激活MoE,30T tokens预训练,原生1M上下文),五万卡国产算力集群训练,SWE-bench Pro 59.5领先Gemini 3.1 Pro等,预览版OpenRouter调用量前三。美图CEO吴欣鸿:2025年营收38.58亿元,净利润9.65亿元同比增64.7%,AI影像收入占比76.6%,海外MAU重回1亿。
本地AI倡导者Ahmad Osman指出开源与闭源差距缩至4-8个月,但缺搜索、工具、Agent等基础设施。美团发布LongCat-2.0(1.6T参数/48B激活MoE,30T tokens预训练,原生1M上下文),五万卡国产算力集群训练,SWE-bench Pro 59.5领先Gemini 3.1 Pro等,预览版OpenRouter调用量前三。美图CEO吴欣鸿:2025年营收38.58亿元,净利润9.65亿元同比增64.7%,AI影像收入占比76.6%,海外MAU重回1亿。
美团发布LongCat-2.0万亿MoE模型(总参1.6T、激活48B),在5万卡国产算力集群完成全流程训练,SWE-bench Pro得分59.5超GPT-5.5与Claude Opus 4.6,原生支持1M上下文,已跻身OpenRouter全球调用量前三。本地AI倡导者Ahmad Osman称开源与闭源前沿差距缩小至4-8个月,但缺少搜索、工具等完整栈。美图2025年营收38.58亿元、净利润9.65亿元(同比+64.7%),AI收入占比升至76.6%,新产品上线不超1个月、半年ARR达10万美元。Google ADK 2.0引入结构化工作流运行时,结合代码执行与LLM智能体解决可靠性问题。
http://x.com/i/article/2072460643744223232
This is crazier than you might think: Fable-5 now scores 16.10% on the Remote Labor Index What is RLI? The Remote Labor ...
Dwarkesh Patel举办的AI征文比赛评选出三位获奖者。第一名Jassi Pannu主张OpenAI基金会应投入数十亿美元终结空气传播疾病,利用AI加速自主生物学发现,可带来超1万亿美元年GDP增长并消除灾难性流行病风险。第二名Ege Erdil建议AI供应链外的国家通过强产权、低资本税和开放监管政策抓住增长机会。第三名Michael Li类比香港地铁商业模式,提出AI实验室可通过收购互补性资产盈利。
AI基础模型竞赛焦点从“谁有最大模型”转向“哪种架构能超越Transformer”。核心分界线是继续扩展Transformer还是转入后Transformer阵营。两大维度:范围(通用vs领域模型)和架构(Transformer vs后Transformer)。Transformer仍主导,但注意力机制随上下文增长成本激增,而实际产品需要长记忆、低延迟、持续交互。前沿实验室不再只问谁能训练最大模型,而是追问智能是否需要不同的运行节奏。这场架构之争将在未来2年定义行业格局。
Lift 是一个 PDF 到结构化数据的提取工具,本教程构建了完整的受控评估工作流。通过 4-bit NF4 量化,约 10B 参数模型可在 16 GB GPU(如 T4/L4)上运行。教程生成含干扰项的合成多页研究论文,测试模型在真实文档布局中恢复标题、作者、数据集、指标、超参数、局限性和仓库链接的能力,并输出结构化 JSON,实现模式引导的字段级评估。
Anthropic发布Claude Sonnet 5。在AA-Briefcase(智能体知识工作基准,测试模型处理数千文件并产出表格、演示和UI原型)上,Sonnet 5 (max)得1391 Elo,较Sonnet 4.6 (max)提升312分,排第二,仅次于Fable 5。提升来自rubric评分与分析质量,呈现仍落后Opus 4.8。max设置得分最高,但较低设置不处成本-性能帕累托前沿;Opus 4.8 (max)、GLM-5.2 (max)和MiniMax-M3在低努力下性价比更优。Sonnet 5成本较高,因turn数大增:max平均每任务183 turns(Sonnet 4.6 max的4倍多),medium平均55 turns,各设置成本跨度约17倍。
I have this struggle with my own teams, too: many think it is a great idea to save money/latency/sanity by running a pre...
哲学家CEO Harry Halpin发表15条宣言,批判Palantir等公司将互联网监视技术用于国家暴力,形成科技法西斯主义。指出外部安全威胁驱动的监控最终会转向内部移民、异见者乃至全体民众;呼吁程序员承担全球道德责任,用去中心化代码保护隐私、对抗监控;反对全面自动战争与核战争,认为程序员应建设赋能个人自由的工具,而非为腐败统治者服务。
If GPT-5.6 matches Fable 5 performance, but without the 50% limit + 7 days restriction, it's over for Anthropic
I have this struggle with my own teams, too: many think it is a great idea to save money/latency/sanity by running a pre...
一个浏览器五子棋游戏在 index.html、styles.css 和 app.js 中实现,渲染 15x15 棋盘,支持四个方向胜负判断并高亮连成五子的路径。AI 采用启发式评分,搜索附近候选点,综合进攻棋型、防守阻挡和中心区域偏好选择最优落子,同时提供可选的“AI 关注区域”覆盖层。
Same here. Happy with Opus 4.8 (planning) and GPT-5.5 (execution). Also, breaking steps into smaller ones for increasing...
SemiAnalysis 指出推理正被多轮“切分”以降低成本。第一步按阶段拆分:prefill 与 decode 用不同芯片;第二步按层拆分:attention 用 HBM 富裕的 GPU,前馈网络用 SRAM 基芯片;第三步按时间拆分:工作负载切片为执行窗口,在集群中交错调度。每次切分回收闲置利用率,从而降低每 token 成本。更便宜的 token 不会压缩需求,反而刺激增长——这是 MLSys 2026 的核心叙事。
构建AI智能体时,应优先设计路由(router)而非选择模型。路由决定每个请求由哪层模型处理。正确路由可使70-80%流量运行在免费本地模型或异步推理上,将AI开销降低90%+。Brian Armstrong指出Coinbase通过更好的默认设置、路由和缓存,在token使用量增长的同时将AI支出减半。路由分三层:技能分类器、路由器、模型选择器。本地计算近乎零成本,异步批量推理比实时推理便宜两个数量级。大多数工作无需秒级返回。同步预测器标记复杂任务,夜间批量评估器更新路由权重。技能蒸馏后,非编码类任务中70-80%智能体流量可由本地模型处理。
Perplexity's CEO Aravind Srinivas is pointing to a quiet shift in AI use: the valuable user is no longer the average use...
Palantir CEO Alex Karp says enterprises are fed up with AI labs that "oversold" models and pushed tokenmaxxing. Customer...
Claude Fable 5 will be available again globally tomorrow. After a series of productive conversations with the US governm...
UBS报告称约60%大公司正放缓AI支出,CFO和CTO聚焦账单上升与ROI不均,企业AI进入预算管控,任务被路由至更便宜模型。该趋势压力先给OpenAI和Anthropic。JP Morgan研究显示中国AI模型每token成本比美国低最多50倍,中国公司在OpenRouter平台流量从不足2%(2024年底)升至超45%(2026年4月)。arXiv研究证实美国芯片出口管制加速了中国开源AI生态发展。Google和Anthropic分别推出注重效率的Gemini 3.5 Flash和Claude Sonnet 5。
U.S. chip restrictions helped push China to build and spread open AI models. The authors tested this by looking at polic...
Places you can vibecode with @cursor_ai now: • interviewing Dario • during Brazil's World Cup game • in a Waymo • next t...
Gemini 3.1 Pro lost $6k running Andon Café. 2 months ago, our AI agent opened a café in Stockholm. It over-ordered and w...
Fable-5 在 Remote Labor Index(RLI)上取得 16.10% 的自动化率,较前代 Opus 4.6 的 4.2% 提升近 4 倍,且是第二名模型的两倍。RLI 使用 240 个来自专业自由职业者的真实远程工作项目,覆盖 23 个领域、超 14 万美元的人类工作,评审者将 AI 输出与人类参考对照,判断合理客户是否会接受。Fable-5 目前领先公共排行榜,作者称这一飞跃表明 AI 仍在指数级发展,甚至最难的基准也开始被攻克。
New Remote Labor Index results: AI automation of real remote work is increasing fast. Claude Fable 5 now completes 16.1%...
Meta 运营数百 EB 级存储集群,基于 Tectonic 分层存储层构建 BLOB 存储架构,以应对两大挑战:最大化 GPU 利用率与研究迭代速度。传统 BLOB 架构的多层元数据查询可导致数百毫秒延迟,使 GPU 因 I/O 等待停顿。新架构将训练栈逐步迁移到 BLOB 存储接口上,利用闪存提供可预测的低 pMax 延迟,避免单 GPU 慢速拖慢整批任务。同时,统一的数据湖访问支持地理分布 GPU 间的数据高速注入与跨区移动,提升研究效率。
主推文介绍零成本AI副业:用AI做YouTube儿童早教动画。五步:搜童谣对标、AI改写脚本、Wan2.7或Pika生成动画、AI配儿童音色+背景音乐、标题标签SEO。日更1-2条,首月见收益,月入$5000-$10000。注意纯原创、专业儿童音色、遵守COPPA关闭个性化广告。另引用营销Agent Lev8,找海外客户场景:有效结果90个(Exa 58.2,Codex 20),匹配精度83.3%(Exa 76.5,Codex 71.8),单条成本$0.052(Exa $0.061)。Lev8聚合50+数据源和10亿+职场人脉,支持5个渠道发送定制破冰消息。
真的有点兴奋,终于等来营销圈的 Codex 了,不管你是独立开发还是OPC一人公司,找客户扒联系方式写破冰信这些破事,直接给你干得明明白白! 甚至你用来做副业搞钱都是一个超级神器! 我们都知道,AI现在已经把写代码的门槛拉平了,Codex能...