全网都在吹日本Fugu跑分超GPT,但我敢说99%的人没看懂它真正炸场的地方。 首先这玩意儿根本不是什么超大单体大模型, 它全身上下只有0.6B参数,本职工作就其实就是个AI项目经理, 简单任务自己处理,复杂任务自动拆分,从全球顶级模型池里...
全网都在吹日本Fugu跑分超GPT,但我敢说99%的人没看懂它真正炸场的地方。 首先这玩意儿根本不是什么超大单体大模型, 它全身上下只有0.6B参数,本职工作就其实就是个AI项目经理, 简单任务自己处理,复杂任务自动拆分,从全球顶级模型池里...
Berry Xia发文质疑Sakana Fugu性能接近GLM 5.2的宣称,认为实际差距明显、属营销宣发。引用数据显示,在构建交易台任务中,Fugu Ultra输出22,225 token、成本$0.51;GLM 5.2输出13,677 token、成本仅$0.03,便宜约17倍。Opus 4.8(15,802 token/$0.31)和GPT-5.5(11,474 token/$0.26)成本也更低。主推文指出该模型来自美国VC投资的日本企业,质疑日本能否靠“蒸馏”快速赶超中美。
Sakana Fugu surprisingly performed near GLM 5.2 level but 17× more expensive! We gave the same prompt to 4 models: build...
作者将流传的“白毛股神”投资叙事(英伟达CPO需求驱动硅光子、SIVE是最纯标的)交给具备自动溯源核证能力的AI,逐条交叉验证公开资料。五条核心声称中有四条缺乏依据,唯一站住脚的一条也被夸大。作者进一步人工复核硬事实后确认结论。推文警示:AI精确引用术语、逐条出处、语气笃定的“伪正确”叙事比明显胡诌更危险,可能诱导投资者盲目跟单。
http://x.com/i/article/2069024565901119488
@jietang @teortaxesTex On benchmarks, yes, but as measured by true usefulness even Q1 would be very impressive. Anthropi...
When I left Stability AI a couple of years ago I predicted we would see almost perfect video from Chinese labs around no...
下一周估计有几个好玩的事儿吧? 1️⃣ GPT-5.6 发布 2️⃣ Seedance 2.1 发布 还有什么模型要发布的,然后就看到一堆视频、模型中转站的宣发了😈
Dankoe的文章指出AI并非取代工作的元凶,真正威胁是对他人的依赖。他提出在AI时代生存的关键:逃离工资奴役、掌握主动性/品味/说服力/持续力/迭代五种成分、媒体比代码更需判断力。起步动作包括改变环境、选择反馈强的载体、明确人生之作、明天发布第一条内容。AI降低了构建门槛,但人的判断与迭代能力仍是核心竞争力。该文是此前2亿阅读《如何重启人生》的续作。
http://x.com/i/article/2069216003599581185
微软CEO萨提亚·纳德拉在最新采访中警告,AI权力正变得过于集中,不能被视为正常的技术进步。他担忧的不是AI模型越来越智能,而是背后的资金、芯片、数据中心和用户访问被少数公司控制。当只有少数企业能够训练前沿模型时,所有使用AI的业务都将依赖于这些公司的定价、规则、故障和产品选择。
很多人都在说 Agent 是未来的操作系统。但问题是,你让谁来当操作系统?看openai现在的骚操作就有点这个意思。 这就引出一个问题,现在的巨无霸们谁具备打造超级 Agent 的机会? 1)做个聪明的 Agent OS 不难,难的是你能真...
在与Notion联合创始人Akshay Kothari的对话中,探讨了Notion如何从笔记应用演变为以AI智能体优先的工作空间。关键要点包括:模板成为增长突破口;人类、代码与AI Agent将协同工作;内部人事Agent“Smilers”;自愈式企业知识库;Notion Workers自动化;保持模型可选择性避免锁定;未来工作应增强而非替代人类智能。最引人深思的观点是:AI Agent不仅能自动化繁琐工作,还能让专业知识在整个组织内传播,使一人构建的工作流被所有人复用。
看到有人发起的 llm 对比投票 GLM-5.2 vs Gemini 3.5 Flash 对比结果应该很明显,主要是因为 Gemini 3.5 Flash 确实不能打,Google Deepmind 到底怎么了,Gemini 3.0 多模态...
用户 Kim 期待 Sonnet 5 发布,指出 Sonnet 系列常在发布时强于老一代 Opus,如 Claude 3.5 Sonnet 在编程、速度和性价比上超越 Claude 3 Opus。Sonnet 的核心价值是将前沿智能转化为实用工作模型:足够快、足够便宜、足够可靠,支撑实际产品、智能体工作流和日常大规模编码。引用推文暗示本周可能迎来繁忙发布,包括 GPT-5.6 和 Sonnet 5。
So we get Claude-Sonnet-5 instead of Fable 5 soon. Looks like a busy week: probably GPT-5.6 and Sonnet 5. But hey, keep ...
Sakana's Multi-Agent on par with Fable 5: Sakana AI's Fugu Ultra may not be a new frontier model in the classical sense....
Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...
Bro it's June 2026. Stop hand editing your prompts. Hold down the dictation button and ramble for 10 minutes. Give the m...
智谱年初上市,股价从约131.50 HKD涨至约2,094 HKD,YTD涨幅约1,492%。背后由GLM-5.2与Fable 5测评对比驱动:同一任务下GLM-5.2效果达Fable 5九成,但价格不到$0.10(Fable 5约$5),价差五十倍。该对比改变了设计探索默认选项——当开源模型做到“够好且便宜到可以随便用”,用户优先选择低成本方案。GLM-5.2此次正好踩上这条线。
难怪今天智谱股票突突突疯长26%, 刚刷到一个GLM-5.2和Fable 5的测评, 同一个任务,同一句 prompt,同一张参考图, Fable 5 确实更精致,间距、质感、整体完成度, 一眼就能看出差距, 但 GLM-5.2 做出来的东...
作者在端午节假期用Claude Opus 4.8重构AI新闻聚合站AIHOT的聚簇机制,消耗2000多万token,耗时一天屡次改阈值(0.72→0.71)、补多语言等边界情况仍问题百出。对比怀念已被下架的Claude Fable 5——后者只需给模糊目标就能自动跑完并填坑。由此总结:管理AI与管理人本质相同——越强的模型(如Fable 5)给方向即可(愿景/策略层),越弱的模型(如Opus 4.8、GPT-5.5、GLM-5.2)则需更细执行层指引,错配层级正是痛苦根源。
spotted in the west village: the carrie bradshaw-ification of codex
欧洲2031场景分析警告,若不建立自主前沿AI能力将面临经济与战略脆弱。欧洲误读DeepSeek R1,以为小团队可替代算力,但推理模型有效且算力仍决定规模化。欧洲宣布€200亿InvestAI但分散数年,远不及美国超大规模厂商数据中心支出。美国AI算力17.3GW vs 欧洲1.4GW,导致芯片、实验和模型差距。欧洲人才流向硅谷,最强AI公司融资规模远逊美国。政策制定者因数据保护限制使用前沿工具,企业采用AI因碎片法规和保守管理滞后。主权采购政策在缺乏强大本土供应商时反削弱竞争力。低估推理访问战略瓶颈——美国未来可能限制算力供应。欧洲在ASML等半导体环节有杠杆但未转化为谈判筹码。
@PeterDiamandis AI probably exceeds the sum of all human intelligence in 4 or 5 years
Bro it's June 2026. Stop hand editing your prompts. Hold down the dictation button and ramble for 10 minutes. Give the m...