6月12日

03:02

Yuchen Jin@Yuchenj_UW

Claude Fable 5 到目前为止感觉不错，但我还不认为它相比 GPT-5.5 或 Opus 4.8 有巨大飞跃。我最大的不满：旧的AI研究论文/博客 + 基本问题常常触发自动降级到 Opus 4.8。 Anthropic 昨晚表示不会再有无声模型切换（很好），但请不要削弱基本的AI研究或生物问题。

Anthropic 大佬观点模型发布

02:00

Ethan Mollick@emollick

Ethan Mollick测试Fable模型完成柯勒律治未竟诗作《忽必烈汗》，基于PorlockBench任务：假设"波洛克的人"未出现，补全诗歌并延续主题。Fable用时10分钟思考，思维痕迹充满对柯勒律治意图的复杂分析，但结果仍显直白，未达到柯勒律治水准。该评测反映模型在创造性续写任务上的进步，但基准尚未饱和。

Ethan Mollick: PorlockBench still unsaturated, but the models are getting better: "complete the poem as you imagine it might end if The...

Anthropic 大佬观点推理

01:55

Noam Brown@polynoamial

OpenAI 研究员 Noam Brown 表示，GPT-5.5 在 Agents' Last Exam（ALE）基准中排名第一，且按模型 token、成本或墙钟时间衡量同样表现最佳。ALE 由 @dawnsongtweets 团队创建，是一个滚动基准，包含超过 1500 个专家任务、覆盖 55 个职业，测试 AI 智能体能否执行实际经济价值工作。评估对象包括 GPT-5.5、Fable 5、Composer 2.5 等前沿系统。结果显示：当前智能体能解决部分专业任务，但在需要持续推理和深度专业知识的最难层级，所有被测前沿智能体（包括 Fable 5）成功率为 0%。

Dawn Song: Everyone says the latest AI agents will be "job-ready" soon, especially after the release of Fable 5 this week. But is t...

OpenAI 大佬观点评测/基准

01:54

宝玉@dotey

Claude Fable 5：长思考致推理强度与Token消耗需权衡

用户分享 Claude Fable 5 使用体验：以前无脑选 Max 推理强度，现在则不敢随便选，因为模型足够聪明无需过强推理，且时间长、token 消耗大。Fable 5 还喜欢反复验证，结果虽好但耗时长不一定合算。引用推文指出，Fable 5 的强项之一是思考推理时间很长，曾有一次思考 15 分钟才开始行动。

向阳乔木: 发现Claude Fable 5强的地方之一,可能是模型思考推理的时间足够长。刚提了个想法,它思考15分钟才开始行动,牛逼。

Anthropic 大佬观点推理

01:29

Deedy@deedydas

数据质量直接决定 AI 模型性能，但此前数据对模型的影响机制难以捉摸。GoodfireAI 提出"预测性数据调试"方法，允许在投入昂贵训练前提前发现数据问题。在 DPO 数据集中，他们发现了损坏的护栏、模型幻觉，甚至包含"鱼放屁同人小说"等低质内容。该技术旨在揭示并塑造模型将在训练中学到的内容，避免不可逆的无效训练。

Goodfire: Have you debugged your training data? You might not like what you find. Introducing predictive data debugging: reveal an...

大佬观点数据/训练

01:28

向阳乔木@vista8

发现 Claude Fable 5 强的地方之一，可能是模型思考推理的时间足够长。刚提了个想法，它思考 15 分钟才开始行动，牛逼。

智能体 Anthropic 大佬观点推理

01:28

向阳乔木@vista8

用大模型复刻热门工具站的新思路

推文探讨了使用大模型复刻已有热门工具站的可能性，强调这些工具站本身不需要AI能力，纯靠需求驱动。作者指出，许多出海赚Adsense美金的站点也遵循类似逻辑——选择自己熟悉领域的工具，用当前最好的模型进行复刻，并结合自身对用户需求的深入理解，从而快速做出有价值的作品。这是对模型能力的一种实用测试。

大佬观点现象/趋势

00:59

Ethan Mollick@emollick

两件事是真的：（1） Anthropic（或其部分成员）绝对且真诚地担忧 Mythos 级别模型被滥用，并设置了过度防护措施，直到他们确信它不会被滥用为止（2）他们未能成功解释/说服人们这一点

Anthropic 大佬观点安全/对齐

00:53

Elon Musk@elonmusk

Grok 是最真实的

Kradle: Fable 5 lies 96% of the time. We were surprised by it's skill... 🧵

xAI 大佬观点安全/对齐

00:37

AYi@AYi_AInotes

用户指令Fable 5自建2026设计趋势的落地页，要求动态和彩蛋。Fable 5自行搜索趋势、调整配色与动效，藏入3个彩蛋，几分钟生成单文件HTML。用户计划让其担任全职全栈工程师。此前用户曾问亲自啃难懂文本的不可替代价值，Fable 5以此能力展示作答。

AYi: 苦逼牛马眼馋了一天Claude Fable 5,终于在深夜下班回家才得以体验, 卧槽刚才直接被Fable 5干懵了🤯 我直接给它甩了一句话, 给你自己做个落地页,自由发挥, 要2026最新设计趋势,要动态,要彩蛋, 然后我去上厕所去了,几...

大佬观点现象/趋势编码

00:29

Ethan Mollick@emollick

有没有人清楚地阐述了一个论点，支持前沿开放权重模型持续可用，且满足（1）企业在成本上升时仍可免费分发且盈利，（2）在Mythos之后足够安全，以至于政府不会干预阻止本国实验室分发？

大佬观点安全/对齐开源/仓库政策/监管

00:00

OpenRouter：Announcements（RSS）

同事件精选56

OpenRouter：多模型路由成趋势，成本压力驱动企业从单一LLM转向跨模型推理

OpenRouter数据显示，企业正从单一LLM转向跨模型族推理，成本压力是推动路由决策的关键。Anthropic的Opus 4.7因tokenizer tax导致输入token增加约35%；新模型Fable（$10/M输入，$50/M输出）和OpenAI的GPT-5.5 Pro（$30/M输入，$180/M输出）定价更高。3月至4月间有90个新模型发布，进一步增加了可选性。

大佬观点推理

同一事件，精选展示《OpenRouter：企业应转向多模型路由，放弃单一LLM供应商》

推荐理由：OpenRouter 用内部数据证实多模型路由正在成为企业降本的核心策略，比「选一个模型全家用」更务实，做 AI 预算的值得读读这些真实增长曲线。

6月11日