推文分享了三个反直觉的模型观察:GLM 5.2 正在取代 Claude Sonnet 和 Opus 成为付费用户最爱;DeepSeek v4 Pro 仍是大众最受欢迎模型;GPT 5.5 虽然强大但几乎无人使用。数据来源为 cola 的 token 消耗统计,侧面说明 cola 和 codex(GPT 5.5 用户)画像完全不同。
damn why is gpt 5.6 that token efficient, thats crazy
6月26日,OpenAI发布GPT-5.6系列,包括旗舰Sol、日常Terra和经济Luna。Terra性能接近GPT-5.5但价格减半;Sol新增max深度推理和ultra多智能体并行模式。Terminal-Bench 2.1上Sol Ultra得分91.9%,超Claude Mythos 5(88%)和Gemini 3.1 Pro Preview(70.7%)。API定价:Sol输入$5/百万token、输出$30;Terra $2.5/$15;Luna $1/$6。7月将推Cerebras加速版。受美国政府要求,目前仅向约20家审批合作伙伴开放,普通开发者及ChatGPT用户暂无法使用。OpenAI称几周内将扩大开放。
Introducing a limited preview of GPT-5.6 Sol, our next generation frontier model, as well as GPT-5.6 Terra, a balanced m...
AI行业正投入数亿美元影响当前美国大选周期。科技记者Molly White推出新项目Tech Influence Watch,追踪AI和加密货币公司用于左右选举的巨额资金。这是《Blood in the Machine》播客首期节目,聚焦AI产业政治影响力的膨胀,并探讨数据中心抗议、硅谷工会组织等议题。
Introducing a limited preview of GPT-5.6 Sol, our next generation frontier model, as well as GPT-5.6 Terra, a balanced m...
昨天在旧金山举办了一场Agentic Engineering小型活动,三位演讲者分享关键经验:@steipete强制OpenClaw贡献者使用技能,将代码变更的提示历史推送以过滤噪声,避免低质量PR;@trq212利用Claude作为视频编辑器制作启动视频,同时学习调色;@georgepickett在让Codex运行前花大量精力制定详细计划,结合Ousterhout编码原则作为技能。活动约30人参加,包括Theo、Gergely等知名人士,视频将很快发布。
OpenAI 发布 GPT-5.6 Sol(前沿模型)、Terra(平衡日常模型)和 Luna(快速低价模型)的有限预览。swyx 测试 Sol 后给出极高评价,称这不仅是“cyber”版本,而是全新的 SOTA 工作模型,完全取代 Opus 处理他 80% 的任务。关键数据:Sol 与 Mythos Preview 竞争时仅使用约 1/3 的输出 token。swyx 指出 OAI 后训练团队大幅提升了推理帕累托前沿,且未公开方法,这已成为企业智能体模型最重要的竞争优势。他认为这次小版本升级远大于 5.4→5.5 的跳跃,甚至应直接命名为 GPT-6。
Introducing a limited preview of GPT-5.6 Sol, our next generation frontier model, as well as GPT-5.6 Terra, a balanced m...
斯坦福CS336课程要求学生从零实现完整LLM流水线,覆盖分词、Transformer架构、GPU优化、数据清洗、scaling laws、对齐技术等核心环节。五个作业打穿全链路,强调手搓比调包更能获得系统直觉,例如用Triton实现FlashAttention比看论文印象深。课程无需前期深度背景,每周投入约十五小时,三个月即可建立对LLM底层理解的系统性认知。知识获取伴随挫败,但执行力是拉开差距的关键。
http://x.com/i/article/2069024565901119488
In a matter of weeks, U.S. federal AI policy has gone from implausibly libertarian to increasingly draconian and opaque....
应用层公司创立时通常没有护城河。护城河分两种:先发护城河(技术差异、专有数据集、新颖架构,多见于基础设施层)和滞后护城河(规模经济、品牌、渠道关系,需长期积累)。Salesforce 凭借销售能力、品牌和十年先发优势胜过技术更好的 Siebel;Snowflake 以存储计算分离架构赢得先发护城河,再建设滞后护城河。基于 7 Powers 框架,规模经济、品牌和转换成本天然是滞后的。应用层创业公司可以坦诚回答:我们正在建造护城河。
Seedance 2.5 生成的15秒雪豹视频达到4K画质,绒毛、雪粒、瞳孔等细节高度写实,写实度远超现有AI视频模型。对比OpenAI停掉Sora,该版本实现了跨代领先,将行业基准线提升至多数团队难以企及的高度。
http://x.com/i/article/2069352641423896576
DAIR.AI创始人Elvis Saravia分享,去年他思考如何最好地利用未来AGI/ASI,答案是将健康放在首位。今年初他开始咨询医生,并开设私人ChatGPT会话记录饮食、药物等细节,用ChatGPT作为第二意见和提醒。6个月后成功减重100磅,睡眠、饮食、锻炼、社交均有改善,精力充沛。他认为个人健康是AI最深刻的应用之一,感谢医生和ChatGPT拯救了他的生命。他鼓励同事优先健康,用AI辅助跟踪。
AI实验室的研究赌注是:在数千个多样化RL环境中训练模型完成数百万可验证任务,就能构建AGI。这种训练会培养出能连续数周处理开放任务、应对错误和歧义的问题解决技能。虽然模型训练时的样本效率仅为人类的百万分之一,但训练成本是一次性的,可摊销到数十亿次用户会话中;真正重要的是模型在单个会话内的智能和样本效率,而这随着RL训练正在提升。持续学习或许不再必要——如果上下文内的学习能力足够强、时间跨度足够长,就无需将经验蒸馏回权重。Transformer架构创新已能大幅扩展上下文存储,未来可能实现任意大的上下文窗口。论文还指出,一个领域不仅需要可验证性,还需要可碾压性——能在确定性、可重播的模拟器中并行运行大量rollout。
Anthropic 联合创始人 Jack Clark 称,公司不再招聘初级工程师,因为 Claude 承担了过去需要大型团队才能完成的实验扩展工作,企业转而更看重“资深直觉”的回报。Clark 警告,当其他行业也效仿这一模式时,AI 在放大顶级专家产出的同时自动化入门级岗位,可能导致 GDP 增长伴随经济衰退级别的失业率飙升,而各国政府对此毫无准备。
Axios says OpenAI was already proactively working with the Trump administration on the release before the Anthropic/Fabl...
在2026年深圳Flink Forward Asia大会上,阿里云CTO兼国际业务总裁李飞飞分享了对AI未来的看法:随着智能体时代兴起,“数据引力”(Data Gravity)将成为主导概念。AI不仅要处理复杂工作,更需在企业实际工作流中创造切实价值,解决复杂企业挑战并交付真实业务成果。
GitHub开源量化书《XQuant:人人都是量化交易员》核心是问题驱动而非知识驱动:每章提供写好的Spec,丢给Claude或Cursor生成代码,先跑通策略(哪怕亏钱)再补理论。全书用9个问题串起量化pipeline(最小闭环、ETF选股、仓位、买卖信号、回测、过拟合检测、实盘等),第1章即上手最小系统。正文与练习代码分开维护。作者认为2026年AI工具成熟使跨领域迁移成本极低,这套把模糊想法写成清晰Spec的能力可复用于任何复杂领域。
GitHub 上刚开源一本量化书,设计思路有点不一样, 而且我觉得这本书真正在教的东西不只是量化,背后其实是一个被严重低估的元能力--把模糊想法写成清晰 Spec,然后让 AI 执行。 这套能力放到任何复杂领域都管用,量化交易只是它第一个练...
阿里通义实验室视频指出,具身智能核心难点在于AI在虚拟世界强,但物理世界抓取鸡蛋等任务因传感器噪声、环境变化易失败。引用指出Physical AI瓶颈不在模型规模,当前VLA/LLM路线只学统计相关性而非因果律(如桌子高2cm即失败)。UCSD黄碧薇教授在CVPR 2026提出Causal World Models框架,让AI从模仿进化到理解因果,并宣布Aether AI融资2000万美元,成为全球首个因果世界模型公司。世界模型赛道火热,但Aether AI不卷规模,卷因果结构。
兄弟们!这个研究有点牛逼啊! Physical AI 的瓶颈根本不是「模型不够大」,是一开始范式就错了。 先说一个真实场景:桌子高了 2cm,当前最强的 VLA 模型直接失败。 为什么? 因为它只学到了「手伸到某个位置」的相关性,根本不知道...
一本名为《XQuant:人人都是量化交易员》的开源量化书采用“问题驱动”设计:先写Spec让AI生成代码跑通策略,再补理论。全书用9个问题串联量化pipeline:量化怎么赚钱、买什么(3只ETF)、买多少(3种仓位分法)、何时买卖、如何回测、过拟合检测(第6章极早讲述)、实盘、改进、因子研究。正文与练习代码分开维护,每章提供现成Spec给Claude/Cursor生成代码,训练将模糊想法转为清晰任务描述的能力。
http://x.com/i/article/2069024565901119488
比尔·盖茨在《今夜秀》中表示,运动员是第四个不会被AI替代的职业,因为没人想看电脑打棒球。此前他在3月采访中认为生物学家、能源工作者和程序员在短期内也难以被AI取代。微软研究院报告指出,在AI时代有40个职业面临消失风险,包括客服代表、口译员、技术撰稿人、编辑、网页开发人员等。
该论文质疑当前将所有能力强AI系统称为“agent”的做法,指出许多所谓的agent只是围绕LLM的高级工作流,而非独立智能体。复杂行为不等于自我导向行为。论文提出核心区分:“agentic AI”(看似自主)与“agentive AI”(能动性源于系统内部),并构建Goal-Identity-Configurator模型,要求AI保持长期目标、更新自我认知、预测结果并自主决定思考深度,从真实和模拟经验中学习。论文主要构建论点和架构,未测试完整系统。
@lu_sichu Ban on enterprise use of non-approved models + severe criminal penalties for using a non-approved model in the...
something has definitely shifted in the past few weeks. seeing a huge uptick in large enterprises wanting to secure comp...
最近的一个观察:Codex将成为AI时代的Office,可能也会成为操作系统。来自OpenAI的研究:他们几乎全员都从ChatGPT转向Codex了,包括研发、法务、财务和招聘部门。
I used to give the current admin a nod for saying their AI policies are fairly reasonable (chips stuff far messier). In ...
It's time for everyone to realize that the fight against data centers has nothing to do with data centers. They have bec...