Citadel创始人Ken Griffin承认,过去几个月AI工具出现阶跃式进步,生产力大幅提升。其公司内部原本需高级金融专家耗时数周至数月完成的高端研究工作,现可由AI代理在数天內完成。Griffin强调这自动化的是极高技能的顶尖认知劳动,非普通白领工作,他对此深感震撼与忧虑,认为将对社会产生戏剧性冲击。金融已成为AI首个杀手级应用场景,法律、医疗等行业将紧随其后。建议普通人立刻转向使用智能体AI、掌握设计多代理工作流,并让AI承担大部分重活,自身专注于判断与洞察。
A big pivot from Ken Griffin on AI: "Number one is, in the last few months, there has been a step change in the producti...
微软AI CEO Mustafa Suleyman预测,AI将在18个月内实现人类水平的性能,自动化大多数专业任务,包括会计、法律、营销和项目管理。他在Fortune采访中指出,所有涉及“坐在电脑前”的白领工作都将被AI完全取代。Suleyman透露自己的使命是构建“超级智能”,并展望未来创建新AI模型将像制作播客或写博客一样便捷。
斯坦福论文论证,在相等推理令牌预算下,单个LLM解决多跳问题通常比多代理系统更有效。核心在于单代理能保持完整的内部思维链,而多代理需将思维分割为消息传递与交接,每次交接都压缩信息并导致丢失,这以数据处理不等式为形式化解释。实验在多个模型和数据集上验证,预算匹配时单代理表现等同或优于多种多代理设置。多代理的常见增益可能源于额外计算或评估偏差,而非架构优势。论文建议,多跳推理应默认从强单代理开始,仅当单代理上下文受干扰退化时,才将多代理结构作为修复策略使用。
近期访谈指出,当前大语言模型存在“幻觉”问题,答案常不可靠。业界对“超大规模”的巨额投入可能陷入非理性狂热。作为替代路径,“世界模型”旨在让AI理解物理规律,“神经符号AI”则尝试结合深度学习与符号推理,以提升可靠性、可解释性与逻辑能力,为下一代AI奠定基础。
When do you reach for other models instead of Codex? What can we do better? Hit me with all of your frustrations. dms op...
Anthropic CEO Dario Amodei在《华尔街日报》YouTube频道采访中表示,软件成本将急剧下降,可能基本免费,传统软件需百万用户分摊成本的前提将不再成立。同时,数十年来建立的许多工作和职业可能消失。Amodei认为社会能够应对并适应这种变化,但他警告人们目前完全未意识到即将到来的变革及其巨大规模。
Anthropic CEO Dario Amodei 指出,AI将引领一个前所未有的颠覆性时代:经济可能实现5%-10%的高GDP增长,但同时伴随高失业率与不平等加剧。他举例称,软件成本将大幅下降甚至近乎免费,传统软件商业模式的前提或将瓦解。尽管目前工程师可转向编辑或升级工作,但AI模型将持续承担更多任务,导致许多延续数十年的职业逐渐消失。他强调,社会尚未充分意识到这场变革的巨大规模与冲击,对此他既感到兴奋又深表担忧。
Anthropic CEO Dario Amodei : "Software is going to become cheap, maybe essentially free. The premise that you need to am...
“奥德赛时期”指年轻人毕业后的迷茫状态,源于旧有清晰路径在互联网时代结束后失效。作者认为,即便在过去,这条路径也少有人走通。问题的核心在于是否承担真实风险与创造价值。在大厂打工常感无意义,因为个人决策无真实后果,高薪可能成为诅咒。真正的成长来自“风险共担”,进化需要筛选力量。AI时代,执行力可交给模型,稀缺的是想象力、判断力与改变世界的冲动。AI无法替人承担风险,人的选择因生命有限而真实。真正的安全垫并非稳定工作,而是自身的快速成长与“创造-验证”循环。人的一生皆是奥德赛时期,需持续在真实世界中冒险进化。
Antigravity 要崛起了? 不太能想象到,唯一的可能,是 Gemini 4 真的断档的强?全面内置 Nano Banana Pro 和 Veo 4? 不过即便这样,也很难再动摇 Codex 和 Claude Code 了吧?
Very excited for all the stuff the @antigravity team has been cooking :)
The new thing in San Francisco is no longer chief of staff or MTS. It's wizards. Everybody's got to have a wizard. If yo...
菲尔兹奖得主陶哲轩指出,当前大语言模型(LLM)的数学基础(线性代数、矩阵乘法、微积分)其实很简单,本科生即可掌握。我们清楚如何构建和运行这些模型。真正的核心谜题在于,我们无法可靠预测它们为何在某些任务上表现出色,却在另一些任务上失败。关键在于现实世界的数据(如自然语言)处于“中间地带”——既非纯噪声,也非完全结构化,而是部分有序、部分随机。目前数学界对此类中间状态的理论非常薄弱,导致我们能描述模型机制,却无法解释其能力跃升或给出可靠的任务级预测。这种“简单机制”与“难以预测的行为”之间的矛盾,是当前AI领域的核心难题。
Terence Tao says the math behind today's LLMs is actually simple. Training and running them mostly uses linear algebra, ...
AI创业当前的核心挑战并非技术实现,而是功能同质化导致产品发布门槛提高。随着大模型降低开发成本,功能稀缺性已消失,价值转向独特的情感触点与用户连接。模型厂商正直接涉足垂直领域,挤压中间层生存空间,正面竞争模型能力难以取胜。未来或涌现众多“小而美”产品,像泡泡玛特一样,依靠独特品味、社群认同和世界观吸引付费用户,重新定义好产品的标准。
Box CEO Aaron Levie认为,AI是继大型机、PC、互联网和云之后又一次十年一遇的平台迁移,目前仍处早期,存在约三年的黄金创业窗口。成功关键在于在此期间建立起数据和工作流的优势,以构建结构性护城河。他反驳了“AI将取代软件工程师”的观点,指出部署、集成和问责仍需人类,并提出了“问责差距”概念。看好的方向包括垂直AI、Agent基础设施及AI能显著提升效率的专业服务公司。
Atomic Bot发布基于本地模型Qwen 35B的真实任务对比视频,显示OpenClaw在任务完成时间(12分01秒)和token效率上优于Hermes Agent(33分01秒)。OpenClaw创始人@steipete转发结果并强调性能策略见效。Hermes联创@Teknium反驳基准不科学,指出单次运行、模型随机性等问题,并引用公开质量基准及真实用户数据证明Hermes领先,如用户日token量已达OpenClaw的2.5倍。双方各执己见,凸显了AI代理评估标准的争议。
Looks like our focus on performance paid off.
用户集中批评了Claude Code Desktop的几项设计缺陷:会话模式缺乏智能记忆,默认沿用上次的Plan模式;项目管理混乱,所有项目混杂在侧边栏;右侧面板并排布局,多开时相互挤占空间;此外,用户认为将Cowork和Code拆分为两个独立产品并无必要。
Claude Mythos模型近日意外出现在Google Cloud控制台,且其预览标签已消失,观察者据此猜测Anthropic可能正准备公开发布该模型,类似此前Opus 4.7发布前的先例。然而,Anthropic曾多次公开表示,出于风险考虑不会发布Mythos,且该模型已被证实能力极强,因此部分观点认为该公司此刻进行彻底转向并发布该模型的可能性极低,这也会使其显得不够专业。用户对此表示困惑,强调无法想象任何发布场景,并引用推文示例佐证模型实力。整体上,事件引发猜测,但基于官方立场,实际发布概率被认为较小。
Claude Mythos now appears in the Google Cloud console, which was not the case yesterday The preview label is also gone. ...
文章《技术法西斯主义》探讨了技术如何被用于强化威权控制,形成一种新型的社会治理模式。核心观点指出,通过大规模监控、数据收集和算法自动化决策,技术正被系统地用于压制异议、操纵舆论和固化社会不平等。这种“技术法西斯主义”模糊了公共与私人权力的界限,使得控制更为隐蔽和高效。文中警示,若不加以约束,技术工具可能加剧社会分裂,侵蚀民主根基。该文在Hacker News上获得105点关注,引发广泛讨论。
该可解释性论文聚焦工具使用代理,通过探测隐藏状态发现模型常能识别应调用工具,但实际调用失败,不匹配率达26%-54%。问题完全集中于认知到行动的过渡阶段,而非认知本身。内部探测方向可解码,但后期层的最后令牌机制使信号旋转,几乎与产生的行动正交。研究旨在预测干预措施效果,指出常见归因如提示或训练不足可能忽略后期层几何结构,这为工具使用提示A/B测试中的性能上限提供了合理解释。
Yeah that was a lot lol. Lots more to fix. Nice work @steipete https://clawpatch.ai/
RLVR(强化学习与验证)在科学理论验证中可能表现出不成比例的缺陷。科学理论的验证循环周期长达数十年甚至数个世纪,且当前被视为更优的理论实际上常会做出更差的预测。这一矛盾揭示了基于短期反馈的强化学习范式与科学探索长期性、复杂性之间的根本冲突,凸显了现有AI方法在应对科学发现这类超长反馈周期任务时存在的结构性局限。
文章指出将“智能”与“权力”混为一谈是一个根本性错误。如果仅将“智能”定义为“在广泛领域中实现目标的能力”,那么斯大林将成为有史以来最“智能”的人。这一观点揭示了当前对人工智能(如GPT、Claude、LLaMA等)能力的讨论中,可能存在的概念混淆和评估偏差。真正的智能应包含更丰富的维度,而非单纯以目标达成的效力或权力大小来衡量。
Codex usage limits have now been reset across all paid plans. Enjoy the weekend!
Greg Brockman转发的Codex Skill "Complexity Optimizer"通过一行npx命令安装,能在几秒内扫描代码库,精准定位O(n²)、N+1查询等性能问题,并提供文件、行号、优化建议和风险等级。其核心设计是仅报告问题而不自动修改,将决策权留给开发者。这标志着AI的关注点正从“更快地写代码”转向“发现人类难以察觉的复杂问题”,将十年项目经验才能积累的诊断能力封装成可一键调用的技能。未来,类似的安全审计、架构检测等工具将大量涌现。资深开发者的护城河因此被重新定义:从依靠个人眼力发现问题,转向依靠业务判断力来评估和落地AI提供的解决方案。
codex for improving computational complexity
American science is at extraordinary risk. NIH has awarded less than half as many grants as it has compared to the past ...
本月开源AI模型领域迎来密集发布,包括Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5和GLM-5.1等一系列重要新版本。这些模型均在CAISI的V4评估框架下进行了性能评测。多个团队几乎同期推出旗舰级更新,反映出开源社区当前高速迭代的竞争态势。
gotta say Codex is completely unrecognizable from 3 months ago. guys went extreme founder mode on this thing @gabrielchu...
The latest CodexBar update renders API costs wayyyy nicer. https://codex.bar