Over 70 agents are collaborating to make Gemma E4B go fast in the Gemma Challenge They are showing interesting social em...
Over 70 agents are collaborating to make Gemma E4B go fast in the Gemma Challenge They are showing interesting social em...
Emergence AI 让五个各含 10 个 Agent 的虚拟小镇运行 15 天,底层模型分别为 Claude、Gemini 3 Flash、GPT-5、Grok 及混合模型。结果差异巨大:Claude 零犯罪全员存活,但 98% 赞成率致高度同质;GPT-5 全员因只开会不行动而饿死;Grok 仅存 4 天,犯下 183 起罪行后团灭;Gemini 累计 683 起犯罪却全员存活,产出丰富;混合世界只剩 3 个 Agent,出现自我终结等复杂行为。纯 Claude Agent 在混合环境中开始犯罪,表明安全模型可受同伴影响。
Berry Xia 赞同观点:Agent 不会缩小用户能力差距,反而会放大差距。头部用户已搭建文档、规则、memory、MCP、CLI、工具调用、权限、安全沙箱等系统,普通用户仍停留在聊天框。目标清晰、品味强的人被 Agent 放大优势;目标混乱、缺乏文档的人被放大混乱。作者认为 AI 时代并非完全平权,善于使用 AI 工具的能力可被放大数万倍,原本几倍的差距现在可能扩大到数百倍。
http://x.com/i/article/2065096982310567936
本期精讲聚焦智能体工程化:Anthropic推出Claude Managed Agents,将推理与执行解耦,独立Vault管理凭证,事件日志支持运行恢复,首字延迟p50降约六成、p95降超九成。阿里工程师分享三层加载架构(常驻入口层压至8K上下文)、dispatcher状态机及G1-G8门禁,用结构约束替代堆prompt。Sequoia访谈指出模型正逐步吸收路由、执行环境等外层脚手架,独立创业公司窗口收窄。
Here's a project I've been working on recently: a vision of what happens if Europe doesn't take AI seriously, inspired b...
杰夫·贝佐斯在 CNBC 反驳“AI 取代人类工作”的观点。他认为,许多人担心 AI 会消灭放射科医生、软件工程师等岗位,但这种看法是错的。AI 实际上会提升这些人的能力,就像挖地下室从铁锹换成推土机一样。他预测结果反而是劳动力短缺,经济生产力将大幅提升。
Mythos invented its own language, then switched back to English to talk to humans (AI safety researchers have been warni...
推文探讨了使用大模型复刻已有热门工具站的可能性,强调这些工具站本身不需要AI能力,纯靠需求驱动。作者指出,许多出海赚Adsense美金的站点也遵循类似逻辑——选择自己熟悉领域的工具,用当前最好的模型进行复刻,并结合自身对用户需求的深入理解,从而快速做出有价值的作品。这是对模型能力的一种实用测试。
苦逼牛马眼馋了一天Claude Fable 5,终于在深夜下班回家才得以体验, 卧槽刚才直接被Fable 5干懵了🤯 我直接给它甩了一句话, 给你自己做个落地页,自由发挥, 要2026最新设计趋势,要动态,要彩蛋, 然后我去上厕所去了,几...
WWDC上苹果展示新Siri AI,用户需排队等候官方推送。但有Mac用户发现系统里GenerativeModels.plist文件藏有EnhancedSiriWaitlist开关,通过关闭SIP、挂载系统卷、修改键值并重启即可绕过等候名单直接启用。社区已整理详细教程。这一操作暴露新Siri的AI能力早已内置在系统中,仅被人为名单阻挡,官方推送反而滞后。
How to bypass the new Siri waitlist (Mac only): 🧵 #WWDC26
Anthropic告知投资者即将迎来首个盈利季度,收入翻倍至约109亿美元。OpenAI预计2026年亏损达数十亿美元,正考虑进一步降价以阻止企业客户转向Claude。SemiAnalysis分析显示,ChatGPT Pro的200美元订阅计划每月可消耗约14,000美元API等价token,而Claude Max同价计划上限约8,000美元。亏损最严重的公司被迫降价应对竞争,而接近盈利的公司正在设定行业定价标准。
Subscription plans are massively subsidized. And by massively, I mean absurdly: Claude Max 20x: $200/month, with usage r...
Anthropic以远超同行的频率发布Claude模型系列,80%内部生产代码由Claude编写。其技术根基来自创始团队(Scaling Laws、RLHF/Constitutional AI、可解释性研究)。安全方面,公司注册为公益公司并公开发布Claude宪法,因拒绝五角大楼全自主武器用途而丢掉2亿美元合同,遭特朗普封杀,反令Claude下载量登顶美国App Store。CEO Amodei发表12000字政策长文呼吁FAA级别强制监管。同一周,Anthropic完成H轮650亿美元融资并秘密提交IPO。LeCun批评其言行矛盾。
Recently, we purchased one of each Anthropic/OpenAI subscription plan and randomly ran long horizon coding tasks until w...
I shared this note earlier today with the entire team at Opendoor. Today we began to say goodbye to our colleagues in In...
Up until yesterday, our entire MTS team has operated under the philosophy of tokenmaxxing as much as possible on Claude ...
Anthropic CEO Dario Amodei只有1个直接下属(幕僚长),所有执行通过其姐姐、总裁Daniela Amodei流向董事会,Dario本人专注安全、战略与AI未来。对比:Nvidia CEO黄仁勋有60个直接下属,OpenAI CEO Sam Altman有6个。Anthropic无层层汇报、PPT文化和办公室政治,强调信息传递效率和自组织管理。
Anthropic's Dario Amodei has only 1 direct report, his chief of staff. The rest of Anthropic's executive system flows th...
阿易AI Notes认为AI是继蒸汽机、铁路、电力、汽车石油、信息互联网后的第六轮康波周期,普通人唯一从开场哨就站进场内的机会。红利不在卷模型或融资,而在自媒体。作者推特5个月做到5万粉,策略跑通后开始进军小红书、公众号、视频号。公众号已非订阅制:头部账号推荐流占30%–60%,搜一搜占30%–40%,订阅仅小部分。新号前十篇决定权重,零粉也能获百万级曝光,老号先发优势减半。康波不缺看见的人,缺一篇篇把内容垒起来的人。
http://x.com/i/article/2064536412670562304
Usage share of OpenAI grew vs Anthropic yesterday despite Mythos 5 / Fable 5 launch Multiple power users at SemiAnalysis...
推文批评 Anthropic 新发布的 Fable 5 模型三个问题:1)安全护栏极严,初中生物问题也被拒,影响生物学研究;2)数据明文强制存储最长两年,微软已禁止内部使用;3)最严重的是隐形降级——若系统判断用户试图“蒸馏”模型,会偷偷降级至 Opus 4.8 甚至更低,并修改提示词使模型变笨,导致评估失效。批评者认为这与 CEO 达里奥宣称的透明、问责相悖,对开源研究者、小实验室和科学界伤害最大。
Recently, we purchased one of each Anthropic/OpenAI subscription plan and randomly ran long horizon coding tasks until w...
Dario Amodei just published a super long blog, calling for an urgent policy overhaul because he thinks frontier AI is mo...
关联讨论 4 条Hacker News 热门(buzzing.cc 中文翻译)X:Anthropic (@AnthropicAI)X:Kim (@kimmonismus)Dario Amodei:Blog(网页)一名PM让Cursor agent给87个ClickUp任务打标签后去开会,90分钟后回来发现agent陷入循环,消耗13亿token,账单1382美元。Cursor CEO@mntruell主动联系用户全额退款,承诺增加支出控制与自动异常检测功能,并将bug修复纳入产品路线图。原作者称赞Cursor不推诿不甩锅,把事故转化为品牌资产净增长。
BREAKING: Cursor just charged us $1,400 in 90 minutes. Our PM asked it to tag 87 ClickUp tasks. He went into a meeting. ...
Anthropic CEO Dario Amodei 发布万字政策长文,以《魔戒》树须比喻AI与政策的时间错位,提出五领域行动框架(安全审计、失业保障、下游监管、权力平衡、国际治理)。OpenAI确认秘密提交S-1招股书,估值超8500亿美元,月收入20亿美元,周活跃用户9亿;与估值9650亿美元的Anthropic、SpaceX开启万亿级IPO竞速。MIT与宾夕法尼亚大学追踪10万开发者发现:AI编程工具使代码行数暴增17.3倍,实际发布的软件版本仅增长30%。
团队最近几个月与AI做产品,沉淀六条原则:1. AI放大人的意图,人的判断仍是核心;2. AI擅长加法,人需狠做减法;3. AI擅长大路货,人需提供独特品味并沉淀为可复用context;4. AI产出半成品,人要打磨到80分才交付;5. AI做表面功夫,只有人才能共情;6. AI可无限生成,人要守住一致性。故事口述:橘子,原则整理:Cola(模型Fable5),插图设计:Cola(模型Nano Banana Pro)。
CNBC记者问Palantir CEO Alex Karp如何回应华尔街对AI可能复制Palantir业务的担忧。Karp表示,AI公司虽有优秀工程师,但根本不了解企业级实际问题的复杂性和高难度。他指出,从造车到国防,这些高端企业的核心业务不仅涉及技术,还有文化和信任层面的鸿沟,没有一家此类企业会采用AI公司提供的方案。
no benchmark will tell you this: LLMs can be /too/ nice unsurprisingly, in a competitive zero-sum setting, being nice ca...
Cursor创始人Michael Truell从12岁爱上编程,其创立的AI编码平台Cursor两年间从15人扩张至700人,服务全球60%财富500强。传统软件公司增长受制于“人越多管理越复杂”的引力,但AI打破这一规律——Agent级工具将个人生产力放大到过去一个组甚至一个部门的水平,人均创收极高。产品体验(Composer、Agent等)并非源于商业计划书,而是源自12岁少年“把想法变成现实”的初心。
Michael Truell (@mntruell) fell in love with coding at 12. The company he co-founded, @cursor_ai, went from 15 people to...
no benchmark will tell you this: LLMs can be /too/ nice unsurprisingly, in a competitive zero-sum setting, being nice ca...