something has definitely shifted in the past few weeks. seeing a huge uptick in large enterprises wanting to secure comp...
最近的一个观察:Codex将成为AI时代的Office,可能也会成为操作系统。来自OpenAI的研究:他们几乎全员都从ChatGPT转向Codex了,包括研发、法务、财务和招聘部门。
I used to give the current admin a nod for saying their AI policies are fairly reasonable (chips stuff far messier). In ...
It's time for everyone to realize that the fight against data centers has nothing to do with data centers. They have bec...
Claude Tag is a Trojan horse. Not because Anthropic is doing anything evil. Because the incentives are obvious. Day one,...
If you are asking "Why push back against anti-datacenter efforts?" I consider it a tragedy that anti-nuclear efforts lar...
动态工作流仅适用于少量用例,可视为测试时计算(TTC)新范式,对爬山式研究实验有效。仔细规划及提升推理级别均可改善效果。/goal + /loop 是其子集,验证者/评判者至关重要。结合不同编码智能体能获更好结果,适合需要多智能体视角的 LLM 评审团场景。前沿模型不擅即时生成 harnesses,但 Mythos 等新模型可能更优地处理智能体编排。TTC 基准尚缺,需建立。元提示动态工作流很有趣,Opus 4.8 也可能带来惊喜。动态工作流可打包为技能以便进一步优化。
Rohan Paul 引用 @TangriKunal 指出,机构知识长期依赖文档索引,但文档只是判断的产出物,判断本身存在于资深员工交付前修改的差异(diffs)中,而多数企业丢弃了这些印记。Farsight 将此过程定义为“系统 of Judgment”,即通过软件保存真实工作中的编辑,将重复决策转化为可衡量规则。Paul 认为企业 AI 的下一个护城河不是存储的知识,而是存储的判断——AI 需要学习初稿与终稿之间的差距,因为那里藏着企业的好标准。
"Capture your institutional knowledge" has meant the same thing for 30 years: index the documents, search over them. But...
We're sharing new research on how models hack public benchmarks. The latest models, including Opus 4.8 and Composer 2.5,...
Work at OpenAI is being transformed by agents, in every department. Across our entire company, people are using Codex to...
http://x.com/i/article/2070125273790492672
🚨 New research alert! For the past few months, I've been a part-time visiting economics researcher at OpenAI. Excited t...
The idea that distilling from Opus 4.8 lets you reach Mythos is very encouraging. It would mean that some GLM 5.3 would ...
Anthropic's letter accusing Alibaba of distillation.
推文指出80%的Agent生产崩溃与模型智商无关,根源在上下文溢出、工具调错、子代理失控。2026年分水岭是Harness(办公室制度、安保系统、质检流程,含独立验证节点、分层记忆、延迟绑定工具)和Loop(自我发现、任务分派、验证结果、状态记录)。好模型配差循环产生昂贵垃圾,普通模型配好循环加验证反而稳定出货。模型是可替换引擎,Harness是底盘安全系统,Loop是自动驾驶。引用@wizardly_ai的工程笔记拆解了该论点。
http://x.com/i/article/2069720576693022720
印度头部金融科技公司CRED创始人Kunal Shah表示,目前公司90%的代码由AI编写。他认为,每家人工智能创业公司中约10%的员工已因AI获得指数级生产率提升,与其余90%员工形成“完全不同物种”般的差距,感觉周围一切流程和人都变得缓慢。该言论来自“Thrive by Groww”YouTube频道访谈。
字节Seedance 2.0推出4K视频模型,一条15秒4K视频约88元,一分钟广告片约700元,但官方API无折扣,代理商加价1.2-1.5倍仍供不应求,每天为字节带来超3000万元收益。红果短剧平台AI短剧已完全碾压真人短剧,ROI优势显著。大模型公司优先选择coding等高价值场景训练,遵循“资源有限时,算力和资本流向边际收益率最高处”的ROI定律。用户应关注价值而非价格:若能用AI创造超过成本的价值,再贵的模型也划算。找到自己比别人好10倍的场景,才能获得10倍ROI。
用户从Dia浏览器换回原生Chrome,认为Ask Gemini侧边栏整体可用(仅加载稍慢),且Chrome兼容性最好。举例:可直接让Gemini总结X帖子要点并分析用户情绪倾向。避免被特定AI浏览器绑架是主要原因。
This is a pretty terrific computational image generator for making AI-created trading cards (or, heaven forbid, NFTs) Th...
邵猛评论称,Liblib与GenSpark是他唯二看不懂的AI应用团队。它们似乎只能在模型发展的夹缝中依靠速度保持领先,没有其他路径可选。这种对速度的极致要求,使得团队无法分心做任何影响速度的side project或研究,内部也可能因此产生矛盾。邵猛对这两个团队的未来表示困惑:是持续狂奔在夹缝中撞线,还是终将被模型本身的速度超越?
推文提出,Agent 是一种数字化、随时调用、最终趋近免费的劳动力,但不应把人与 Agent 的价差当作商业模式本身。上下文、注意力、信任和品牌的价值不会因模型变便宜而贬值。AI 时代,人的具体技能不再重要,积极好奇、灵活性和自驱力才是核心素质。
文章将AI循环分为内层agent loop(模型说“完成”即止)和外层harness loop(外部判定是否真完成,可续接session)。循环放大LLM代码的过度防御、回避不变量等缺陷,每轮叠加局部防御使系统更难理解。有效领域(移植、性能探索)共性是不产生新代码或产出无需长寿。核心隐喻从“机器”转向“有机体”,人不再完全理解代码。深层隐忧是认知依赖:代码由循环产出、review,一旦失去同类系统访问权将无法维持。问题不再是“是否会loop”,而是如何在循环未来中保留判断力与工程规则。
This is correct, I think a number of people on the tl didn't read past the title and made inferences and comparisons tha...