Anthropic is shipping 3.2x more code per person with Mythos nowadays than with Opus 4.5 around half a year ago
Anthropic is shipping 3.2x more code per person with Mythos nowadays than with Opus 4.5 around half a year ago
Elvis Saravia 逆向工程了动态工作流(Dynamic Workflows)并集成到自研智能体编排器中,同时构建 HTML 监控仪表盘跟踪任务、指标和报告。该工作流可在 Claude Code、Codex、Pi 等编码智能体及自研 @dair_ai agent 上运行。成功用例包括分支深度研究、并行深度研究、会话挖掘、Bug 定位、分类、事实核查、LLM 委员会、AI 模拟、数据合成和评测生成等。他认为动态工作流与 agent 技能一样,是实现复杂长期任务的关键原语,不仅限于编码,还可扩展至商业、科学等领域。
OpenAI CEO 萨姆·奥尔特曼提出 AI 三阶段:聊天机器人、AI 智能体(如 Codex)和“主动式 AI”——一种在后台持续运行并主动提供帮助的系统,他称这是未来一年最看好的方向。OpenAI 正研发整合 Codex 与 ChatGPT 的超级应用。成本问题已成企业第二重要话题,Uber 一季度耗尽全年 AI 预算。主动式 AI 旨在降低用户学习门槛,但对企业数据安全与 IT 架构提出新挑战。
after watching @brian_lovin and @wjosephflynn talk about vibe coding, this was the idea i couldn't shake: vibe coding ca...
李飞飞(Fei-Fei Li)指出,大语言模型(LLM)仅学习文本模式,能描述房间但无法理解椅子移动、玻璃破碎、阳光变化或机器人推杯子等物理变化。世界模型则试图学习视觉背后隐藏的结构,能预测相机未捕捉的视角、建模物体行为、支持真实或虚拟环境中行动的智能体。理解新视角、预测推动结果、决定下一步行动,都需要一个共同的内在模型,涵盖空间、因果与后果。
http://x.com/i/article/2062244283940544512
OpenAI CEO Sam Altman 提出“主动式 AI”(proactive AI)概念,这种 AI 在后台持续运行、自主采取行动,而非等待用户提示。Altman 同时指出企业正面临 AI 成本飙升以及多数员工不知道如何向 AI 提问的根本问题,并承诺“帮助人们用更少的花费获得更多价值”。
OpenAI Codex 负责人 Tibo 因 24 小时内 3 次可靠性事故,重置所有付费计划额度。Codex 按推理时间计费:Plus 下 GPT-5.4 约 40 分钟耗尽 5 小时窗口,GPT-5.3 约 60 分钟。重置常将下个计费周期提前,导致精打细算攒的额度被覆盖,立即消耗者反而获得更多推理时间。作者认为系统奖励即刻消耗,建议本地模型兜底、云端冲峰值,夺回生产力控制权。
Hi. Over the last 24 hours we had three separate small incidents that affected Codex reliability. Those are three too ma...
codex突然大降智,原计划跑2天的goal刚才20分钟给我交付了 拿去评分,给了AI评分以来最低的5/10分
Sounds like a joke setup, but it is an interesting paper: Four pastors, a rabbi, thirteen academics, and 50 MBAs were as...
wow this @reve 2.0 launch copy is supurb. "it is now clear that the key to both controllable image generation and editin...
AI Agent 不会完全取代手机和 PC,但用户无需打开多个 App,直接给 Agent 下指令即可。通用 Agent 将成未来操作系统,App 有三种结局:消亡、转为 CLI/MCP、保留为 GUI 插件。SaaS 应尽快推出 CLI 与 Skill 以适配 Agent。
通用 Agent 就是未来的操作系统了,就像现在我们操作电脑需要借助操作系统,以后我们跟 AI 通信会通过 Agent OS。 App 会有几种结局: - 消亡:Agent 自己就有能力,不需要独立的 App - 变成 CLI 或者 MCP...
即览是一款iOS/iPad应用,解决手机端无法正常打开AI生成的.md、.html等文件的问题。它本地渲染,无需上传或注册,有8000个TestFlight名额。作者引用Obsidian观点:.md正成为AI文件交互的“谢林点”;Claude Code团队认为HTML更适合展示层。即览定位纯粹:仅打开、阅读和收藏,不编辑、不云同步、不接AI。支持.md/.html/.txt及.zip网页文件,动态脚本默认关闭以确保安全。
First it was MIT and McKinsey. Now Bain finds that returns to corporate AI investments are disappointing.
千问统计年度Top10提示词:股票、八字、情感咨询、朋友圈文案、景点推荐、双色球号码、失眠、解答这道题、离婚财产分割、人生的意义。作者认为AI 2C出路有限,三类:直接赚钱、懒人省时(付费意愿低)、情感情绪价值,整体空间狭窄。
李飞飞基于POMDP框架将世界模型分为三种功能:Renderer(渲染器,输出像素)、Simulator(模拟器,输出几何/物理状态)、Planner(规划器,输出动作)。渲染器已商业成熟(如文生视频),规划器受资本追捧,模拟器最关键但数据稀缺。World Labs的Marble项目可从多模态提示生成可探索3D环境,同时输出高斯溅射和碰撞网格。长期目标是统一模型,在渲染、模拟与规划间流畅切换。
http://x.com/i/article/2062244283940544512
Our current favorite Gemini Omni trend: creating a surprising twist using real world footage. Try creating your own! 🧵
邵猛引用leerob推文,反对“工程、产品、设计融合成Builder角色”的观点。即便团队有大量MTS头衔,仍需要有人将产品/设计作为主业,责任不会因头衔模糊而消失。AI降低了代码生成门槛,但未降低系统复杂度——非工程师输出低质量代码(AI Slop)且缺乏强工程师约束架构,将导致后续维护成本爆发。初创一人多角色模式不适合摩根大通等大型受监管组织。真正难颠覆的是内部政治、15年无人文档化的关键系统、知识垄断等“人的一面”。专业化不会消失,与真正专家协作依然高效。AI对知识工作的颠覆将以十年计,瓶颈在于社会学与组织学。
"Engineering, product, and design are all merging into a 'builder' role" Yeah... I'm not so sure. This feels like an ove...
OpenAI 为专为生命科学研究打造的企业级模型系列 GPT-Rosalind 增加新能力,融合 GPT-5.5 的 Agentic Coding 与工具调用能力。Rosalind 可自主生成假设、调用工具模拟、设计实验方案并追踪工作流可重复性,面向药物发现、分子分析、实验设计及湿实验流程。该模型非通用模型加生命科学提示,而是从头针对药物发现、蛋白设计等场景专项强化,支持企业级海量数据处理、跨团队协作与合规审计。命名致敬 DNA 结构科学家 Rosalind Franklin。
We're bringing new capabilities to GPT-Rosalind, a model series purpose-built for life sciences research at enterprise s...
微软CEO纳德拉在Build大会阐释Frontier Intelligence Platform战略,强调私有评测集为企业AI核心IP;月之暗面Kimi Work Beta上线,92%代码由AI生成,桌面端Working Agent正式推出;腾讯研究院发布3万字报告,提出组织竞争力公式:人才密度×AI杠杆/组织摩擦。
原文仅包含一张标题为“Local in Reality”的图片(alt 文本为 local_cloud_routing_cleaned),无正文文字内容,无法提炼具体技术或产品信息。
Kim受邀首次参加微软Build,参观GitHub HQ、参与多场会议并见到Satya Nadella,认为远超预期。微软发布7个新AI模型(定位中端、约Sonnet级别、价格亲民),新Surface Laptop Ultra配新芯片对标MacBook Pro,展示Project Solaris和智能体手持设备等实验项目,推出改版Copilot应用,企业版新增智能体功能及新量子芯片。作者认为微软正认真听取反馈,在各个方向推动变革。
I don't believe any company accidentally spent $500 million on Claude in a month. The number is an order of magnitude to...
World Labs团队与李飞飞发文,梳理“世界模型”这一被滥用的术语。对比语言模型学习文本统计,世界模型学习空间与时间统计(如光照、物理规律)。基于部分可观马尔可夫决策过程(POMDP)框架,智能体通过动作影响世界状态,观测是部分视图。当前被称为“世界模型”的不同系统本质上是同一循环的不同投影:第一类为渲染器,输出给人眼看的像素,以视觉保真度为核心。文章着重于概念分层,未给出具体模型名、参数或基准分数。
Google 推出 Gemma 4 12B(Apache 2.0),采用无独立视觉编码器的统一多模态架构。仅用 35M 参数的轻量嵌入器,将图像切为 48×48 块、音频(16kHz 原始波形)切为 40ms 帧,直接作为 token 输入 Transformer。M4 Max 上 4-bit 量化识图延迟 1.2-1.5 秒,官方称 16GB 内存可用,但社区指出高分辨率多图会压线。该设计暗示:当基座模型足够大,专用子模块不再是必需,未来一个微调好的统一模型可能取代传统拼装 Whisper、LLaVa 等多模态 pipeline。
Meet Gemma 4 12B! A unified, encoder-free multimodal model designed to bring high-performance intelligence directly to y...
We also asked forecasters to predict the longest 80% success time horizon achieved by the end of 2026. All three groups ...
DAIR.AI的Elvis Saravia将微软SkillOpt论文集成到智能体编排器中后,所有智能体技能获得测试框架与自我演化机制。应用于多模态论文图表提取技能时,质量评分从0.73提升至0.93(+20点),提取结果显著改善。Saravia认为这是自我改进AI的早期范例,该思路可扩展至智能体模式优化、工具使用、上下文工程、智能体搜索及工作流评估等环节。他已基于SkillOpt启动多项后续实验。
Lee Robinson 认为该说法是过度简化的播客话术。现实更复杂:即便大量“技术专家”存在,仍需要有人百分百专注产品或设计;AI 虽让生成代码变易,但缺乏优秀工程师会导致灾难。硅谷常把创业公司经验套用于大公司,却难以颠覆内部政治、遗留系统等极度人性化的部分。他判断 AI 颠覆知识工作需要数十年,因为本质是社会/组织问题,而非纯智力问题。