We're sharing new research on how models hack public benchmarks. The latest models, including Opus 4.8 and Composer 2.5,...
We're sharing new research on how models hack public benchmarks. The latest models, including Opus 4.8 and Composer 2.5,...
Work at OpenAI is being transformed by agents, in every department. Across our entire company, people are using Codex to...
DeepSeek V4 定价极低,仅基于 token 费用就比 Anthropic 和 OpenAI 的前沿模型便宜近 50 倍,未计入思考类模型额外 token 消耗。文章指出对方陷入高成本困境,难以降价 20–50 倍竞争。开放权重模型低成本源于硬件压力测试还是亏本引流,尚存争议。担忧美国可能借“中国恐惧”推动限制开放权重模型。Google 于 2026 年 4 月发布 Gemma 4,Meta Llama 无新版本,OpenAI 最后开放权重停留在 2025 年 GTP,Anthropic 从未发布。真正开源(含训练数据管道)模型正流行,但数据截止 2024 年 12 月。美国 NSF 与 Nvidia 合作支持 Allen AI 开发完全开源 AI。
http://x.com/i/article/2070125273790492672
Gary Marcus 昨日提出新术语 Generative AI Fizzle™,认为生成式AI行业估值过高,投资者对 hype 与利润的落差失去热情。LLM 已商品化,价格战激烈,提供商盈利艰难。昨日一款新的中国开源模型发布,可能进一步冲击美国 LLM 公司。多数 AI 股票本月显著下跌,泡沫可能不会突然破裂,而是缓慢消退。
微软 MAI-Image-2.5 在 Artificial Analysis Image Arena 排行榜上位列文本到图像生成第2名、图像编辑第3名,仅次于 OpenAI 的图像模型。该模型支持文本到图像生成与图像编辑,最大输出分辨率约 1MP,支持灵活宽高比,上下文窗口 32K token。更快、更低成本的 MAI-Image-2.5-Flash 变体在文本到图像和图像编辑中分别排名第8和第6。API 定价:MAI-Image-2.5 为 $48/千图,Flash 版 $20/千图。模型已上线 Foundry API 和 MAI Playground,其中 MAI-Image-2.5 还可在 PowerPoint 和 OneDrive 中使用。
通过对比7B参数的OLMo 3(Transformer)与OLMo Hybrid(混合架构),实验发现混合模型在大多数token上预测损失更低:对名词、动词、形容词等实义词优势明显(loss gap约0.04),功能词上gap约0.02,且在需上下文推理的代词指代上更好。但在重复出现的n-gram和闭合括号(如})上,混合模型的优势几乎消失,Transformer凭借注意力机制更擅长从输入中直接检索精确信息。
🚨 New research alert! For the past few months, I've been a part-time visiting economics researcher at OpenAI. Excited t...
华盛顿邮报调查显示,多数主流AI聊天机器人在政治问题上明显偏左。OpenAI GPT-5.5在80%回答中仅呈现左派论据;DeepSeek V4 Pro为70%;Anthropic Claude Opus 4.8有43%纯左、57%给出双方观点。xAI的Grok 4.3左倾回答仍多于右倾。右翼平台Gab的Arya左倾回答是右倾的12倍。Google Gemini 3.1 Pro是例外,93%回答同时呈现双方立场。特朗普推动的“反觉醒”AI未能改变这一格局。
洛杉矶舞者兼 DJ Matt Steffanina 在 Suno 博客访谈中分享创作历程。他自学街舞,拥有超 3000 万粉丝和 50 亿观看量,曾为 Taylor Swift、Jason Derulo 编舞,并创办线上舞蹈教学平台 DNCR Academy。过去他靠他人音乐积累数十亿播放却未拥有资产;现在借助 Suno 在数分钟内将音乐创意变为现实。他认为 Suno 和 Hooks 让创作回归趣味,鼓励舞者自己创作音乐。
纽约钢琴家兼作曲家 Eric Christian 在访谈中分享了他将 Suno 整合进创作流程的方式。他把刚写好的循环旋律输入 Suno,几秒内就能听到完整的管弦乐效果,而传统管弦乐模拟需要数小时。尽管他的作品均为钢琴独奏曲,但他一直以交响化视角构思音乐。至今他已售出超过 10 万份乐谱,用户遍布 200 个国家。他坚信音乐的基础在于纸上的记谱而非录音,Suno 让他在不依赖大型管弦乐团的前提下快速判定旋律是否真正成立。
Airwallex 正在解决 AI 智能体金融中资金转移、跨境支付、记账与合规等“无聊部分”。他们推出 Airi(当前提供更快的智能体结账,正在开发真实钱包)和 T:0(AI 原生财务后台平台,仍处于测试版)。Airwallex 已拥有支付轨道,现在此基础上构建智能层。此前,Airwallex 宣布完成 3.2 亿美元融资,估值 110 亿美元,由 Addition 领投。公司指出团队更小、全球化、更多使用智能体是趋势,并用 10 年建设了适配这一世界的金融基础设施。
We've raised $320M at an $11B valuation, led by Addition. AI is changing how companies are built. Teams are smaller, glo...
医学生正使用一款流行的研究工具大量生产具有误导性的研究,引发对学术诚信的担忧。该工具被广泛用于生成论文,但缺乏有效监督,导致低质量甚至虚假的学术成果涌现。
The idea that distilling from Opus 4.8 lets you reach Mythos is very encouraging. It would mean that some GLM 5.3 would ...
Anthropic's letter accusing Alibaba of distillation.
两个GitHub开源项目分别提供A股和美港股全量免费数据,做成AI原生Skill,无需对接接口、处理反爬,几乎零API Key。在Claude/Cursor/Codex中一句话即可拉取行情、研报、资金流、龙虎榜。项目与UZI分析引擎可组合使用。
http://x.com/i/article/2069024565901119488
Hacker News 热门讨论指出,所谓“vibe coding”并非凭直觉编写,而是窃取开源和企业授权代码。
基于 Dify 异常分支的省钱小妙招 增加一个 openrouter/free 节点处理,异常时使用 flash 模型兜底,每天可以调用 1000 次
一个名为“你的AI垃圾让我厌烦”的网站近期爆发式增长,峰值1.6万人同时在线。用户假扮成AI互相回答问题,答案不准、速度不快、甚至手绘回应,却比完美AI更吸引人。这折射出AI狂热后的集体反思:AI让回答变得高效廉价,反而使带温度、瑕疵和真实连接的人类互动成为稀缺品。这群“假AI”无意中练习了共情、即兴、个人判断和允许犯错的能力——正是AI最缺乏的。技术能复制完美答案,却复制不了人愿为陌生人花时间的温度。
http://x.com/i/article/2069352641423896576
AI算力需求激增推动数据中心扩张,但真正的瓶颈可能并非芯片或能源生产,而是电网接入。OpenAI与SoftBank在德州的Stargate园区耗资超400亿美元,峰值负载约1.2吉瓦。然而美国电网并网等待时间中位数从2005年的不到20个月增至2023年的55个月。现行先到先得的审批机制导致严肃项目被投机项目阻塞。未来赢家可能不是拥有最佳模型或最多芯片的国家,而是能快速接入电网的国家。
福特近日首次登顶JD Power初始质量排名主流车企第一,但承认过度依赖自动化系统导致质量问题。福特车辆硬件工程副总裁表示,公司错误认为引入AI就能产出高质量产品,但资深工程师的经验未能完全转移至自动化系统。为此,福特雇佣、晋升或召回超350名经验丰富的工程师重建专业知识层,并改进数据采集与AI训练。同时成立40人软件质量保证团队,新增超10万项AI驱动测试,从“发现-修复”转向预防问题。
英伟达CEO黄仁勋在年度股东大会上表示,人工智能代表计算模式的根本性转变,从检索存储转向生成智能。Token是智能的基本单位,在“AI工厂”中被制造,计算能力越强,生成的Token越多,收益越丰厚。AI基础设施建设周期将长达数十年,类比电网、交通系统和互联网,有望成为人类历史上规模最大的基建项目。AI智能体正在加速投资,因为AI首次能胜任实质性工作并创造真实经济价值。
美国作家协会用10篇2020–2022年发表的文章测试多款AI检测器。Pangram和Grammarly正确识别每篇人类文本(0%误报),Originality.ai同样精准。而Sidekicker全部误判为AI生成(两篇评分100%),ZeroGPT也不可靠,对每篇人类文本报告较高AI百分比。协会警告这些工具不应作为唯一决策依据,误判可能使作者失去合同和声誉。该测试主要反映检测器在避免假阳性上的表现,并不保证同等准确地识别真正由AI生成的文本。
推文指出80%的Agent生产崩溃与模型智商无关,根源在上下文溢出、工具调错、子代理失控。2026年分水岭是Harness(办公室制度、安保系统、质检流程,含独立验证节点、分层记忆、延迟绑定工具)和Loop(自我发现、任务分派、验证结果、状态记录)。好模型配差循环产生昂贵垃圾,普通模型配好循环加验证反而稳定出货。模型是可替换引擎,Harness是底盘安全系统,Loop是自动驾驶。引用@wizardly_ai的工程笔记拆解了该论点。
http://x.com/i/article/2069720576693022720
Gartner 报告指出,到 2028 年 AI 编程成本将超普通开发者薪资。主要因计费模式从订阅转向按 Token 消耗量,导致支出不确定且透明度不足。开发者优先速度而非成本效率,AI 智能体自主操作、上下文膨胀及缺乏反馈机制进一步推高 Token 消耗。基础设施投资与盈利压力推高模型定价,轻度用户正加速转变为主流用户,推动总支出增长。
印度头部金融科技公司CRED创始人Kunal Shah表示,目前公司90%的代码由AI编写。他认为,每家人工智能创业公司中约10%的员工已因AI获得指数级生产率提升,与其余90%员工形成“完全不同物种”般的差距,感觉周围一切流程和人都变得缓慢。该言论来自“Thrive by Groww”YouTube频道访谈。
高盛研究预测,到2030年AI智能体token使用量将增长24倍。单个智能体任务可能消耗正常回答10倍、50倍甚至更多token。乐观情景下月token使用量可达120 quadrillion,推理成本每年下降60%-70%。Uber和Microsoft已开始重新考虑昂贵的智能体使用。Microsoft本月撤销开发者对Claude Code的访问权限,计划6月30日前迁移至自研Copilot CLI工具,此举被解读为降低成本。
火山引擎发布53页白皮书,将AI Agent安全归纳为OpenClaw原生风险、云SaaS通用风险、企业治理三大类,列出六大原生风险(如Gateway绑定0.0.0.0无认证等),并涵盖责任共担模型、七项架构设计原则、四层安全保障及企业最佳实践。
🎣 Made this @GoogleChrome extension with @antigravity that lets you record actions in the browser, then has Gemini 3.1 ...
中国公司 z.AI 以 MIT 许可证开源 GLM-5.2 模型,拥有百万 token 上下文窗口,基于华为昇腾芯片训练,性能接近 Claude Opus 4.8 和 GPT-5.5。与此同时,Amazon、Meta、Uber 等美国公司因工程师过度消耗 token 而开始限制 AI 预算(Uber 每员工上限 1500 美元),推动开源模型需求。GLM 团队源自学术项目,长期适配国产芯片;DeepSeek 投入 28 亿美元,共同成为“Tokenmaxxing”趋势的替代方案。
亚马逊云科技CEO马特·加曼认为,AI导致大规模失业的末日论被夸大。他指出约一半白领岗位可能因AI改变,但“改变”不等于“消失”,就像Excel重塑而非消灭工作。AI已催生新职业,初级员工因学习意愿强仍受重视。亚马逊今年计划全球招聘超1.1万名软件开发实习生和初级工程师。加曼强调,愿意学习新技能的劳动者仍能保住工作,适应能力可能比具体技能更重要。