亚马逊关闭了名为“Kirorank”的内部AI排行榜,该排行榜基于员工在Kiro开发者平台上的AI活动评分。为提升排名,员工通过故意让AI智能体执行无谓任务来最大化Token消耗量,导致公司算力成本急剧上升。亚马逊高级副总裁戴夫·特雷德韦尔提醒员工“不要为了用AI而用AI”,并表示评估指标将转向工程师是否使用AI生成有用代码。此举反映出鼓励使用AI的举措可能引发无意义刷分行为,从而增加基础设施开支。亚马逊2026年资本支出预计达2000亿美元,主要用于AI和数据中心。
亚马逊关闭了名为“Kirorank”的内部AI排行榜,该排行榜基于员工在Kiro开发者平台上的AI活动评分。为提升排名,员工通过故意让AI智能体执行无谓任务来最大化Token消耗量,导致公司算力成本急剧上升。亚马逊高级副总裁戴夫·特雷德韦尔提醒员工“不要为了用AI而用AI”,并表示评估指标将转向工程师是否使用AI生成有用代码。此举反映出鼓励使用AI的举措可能引发无意义刷分行为,从而增加基础设施开支。亚马逊2026年资本支出预计达2000亿美元,主要用于AI和数据中心。
Rivian 软件负责人表示,随着智能体 AI 加速落地,汽车正从“软件定义”走向“AI 定义”,传统的“屏幕镜像”车联方案(如苹果 CarPlay)将变得“过时”。该公司希望为用户打造一体化的导航、控制与 AI 助手服务,而非将中控主导权交给 iPhone。内部数据显示,要求支持 CarPlay 的用户比例已从交付初期的“超过 70%”降至最近一次调查的“不到 25%”。
Anthropic发布旗舰模型Claude Opus 4.8,在编程、智能体、推理等基准上全面超越上代,其代码“诚实度”提升约四倍,增强了多智能体系统的可靠性。同日,Anthropic完成H轮650亿美元融资,投后估值达9650亿美元,年化收入已超470亿美元。配套推出的Claude Code动态工作流允许在单次会话内编排数百个并行子智能体,适用于大规模代码库排查等任务。
This tracks. 30 trillion tokens a day on our end, and open model share keeps climbing. Our partners @FactoryAI are seein...
文章探讨了大语言模型输出中存在的各种典型缺陷或不受欢迎的模式(即“异味”),并提供了相关示例。该内容来自 shvbsle.in,在 Hacker News 社区获得了 107 点热度。
研究人员审查250万篇论文发现,2025年同行评议期刊中出现了14.7万次指向不存在研究的引用,这些虚假的研究、作者和期刊由AI生成,且未被察觉,已永久留在科学记录中。问题增长迅速:2023年每2828篇论文中约1篇含此类引用,到2026年初已升至每277篇约1篇。完整研究见arxiv论文2605.07723。
AI 智能体正从实验阶段走向生产环境,AWS、Cloudflare 等公司正在重新设计云基础设施,以迎接一个由机器生成的互联网流量主导、而非人类用户主导的未来。
Mathematician reacts to OpenAI's recent proof:
客户正认识到,token消耗“已燃烧数百万美元,却未带来任何显著的投资回报”。这一现象对历史上三次最大的首次公开募股(IPO)构成压力,表明市场对AI投资的实际效益产生质疑。
60秒网页游戏「Continue? Y/N」上线,主题为模拟 AI 智能体频繁请求用户授权所导致的决策疲劳。游戏可通过 llmgame.scalex.dev 访问。
上周 Cursor 送了我 1 万美金额度, 我以为往死里造 7 天怎么也得花到 3000 美金, 结果实际一看, 300 多美金都没花到。 7这几天我用 Claude Opus 4.7 thinking xhigh MAX 跑了几十次, ...
推文回应了关于Google Omni能力的争议,展示了其将普通人手转化为逼真活体解剖影像的演示效果。该演示清晰呈现肌肉、肌腱、骨骼等组织结构,被评价为生物医学教学的理想工具。文中提及的对比对象为seedance 2.0,强调了该技术在教育领域的独特应用价值。
当前AI产业链各环节(如NVIDIA、内存、定制芯片、光网络、电力设备等)的估值可能无法同时准确,市场对相关公司的排序并不一致,因为不同环节隐含了截然不同的增长预期。繁荣不会自动让每个供应商都持续增长,利润池将流向最难替代、最难延迟、最难被客户压价的环节。若稀缺的是电力、冷却和物理容量,则相关基础设施供应商应获溢价;若稀缺的仍是加速计算,则NVIDIA和内存可能被低估。此外,ASIC(定制芯片)叙事也增加了不确定性。
推文批评了当前AI智能体产品普遍采用“AI团队”的角色化宣传(如研究员、写手)。文章指出,这种表达忽视了更本质的问题:智能体的价值不取决于其扮演的“角色”,而取决于其系统能力边界。具体能力包括:能访问的数据(可见范围)、能使用的工具(调用权限)、能执行的操作(修改权限)、运行的环境,以及错误发生后能否被监控和回滚。推文强调,角色是面向用户的营销语言,而能力边界才是决定其是否真正有用的技术内核。
http://x.com/i/article/2059840186461429760
消费级AI市场格局发生显著变化。ChatGPT在全球用户中的份额从半年前的80%下滑至60%。同期,Gemini用户数增至约为ChatGPT的50%,Claude份额从约3%增长至20%。在网站流量方面,Claude是上季度增长最快的百强网站。活跃用户数估算显示,ChatGPT周活跃用户约9亿,月活跃用户可能达15亿;Gemini月活跃用户为9亿;Claude月活跃用户约为2.5-3亿。在印度、巴西等非英语国家,Gemini用户数已接近ChatGPT的65-70%,而Claude在中国增长尤为显著。市场形态正从“赢家通吃”向类似云计算或电信市场的三方垄断演变。
新一批AI实验室正聚焦于研究递归自我改进(RSI),即让模型能够自主迭代优化自身的能力。其目标是实现模型的自我升级,但目前这一目标被证明难以实现和精确定义。
一个团队在一夜之间打造了一款AI Twitch主播。该AI能玩游戏、进行解说、与直播聊天互动,并在做出高风险决策时感到紧张,在获胜后表现出喜悦。文中探讨了其深远影响:当AI能实现24/7不间断直播、永不倦怠时会怎样;当观众与能比人类创作者更“了解”他们的AI建立情感联结时意味着什么;以及当娱乐的创作门槛降至零时,对创作者经济将产生何种冲击。该AI主播被其开发者@karthik_ragu_06等人定义为“具有情感智能的数字人类”。
@Twitch the first ever human-like AI streamer is here. This AI streamer plays, narrates, reacts to chat, gets nervous on...
After AlphaGo, the skill of human Go players noticeably improved. I suspect we will see a similar pattern in math.
AI智能体(Agent)的发展正经历工程范式转变,核心是从Prompt Engineering转向更系统的工程构建。这体现在六大模块的演进:1)提示词按需加载上下文;2)规划能力可拆解复杂任务;3)记忆采用文件系统与检索混合模式;4)工具层直接使用CLI和Script;5)工作流与灵活的Skill模块混合;6)环境需要安全的Workspace与Runtime。总体而言,好的智能体是用工程系统来承载模型的不确定性,模型负责推理,系统负责边界。
作者在从北京飞往上海的航班上,以意识流的方式记录近期认知变化,坦诚文章缺乏打磨和吸引人的开头,但认为后半部分内容有价值。行文过程中,作者提到手动打字效率不如 AI,并因使用 Obsidian 卡顿而感到困扰。
http://x.com/i/article/2059839164837982208
OpenAI基金会宣布首批投入2.5亿美元,专项用于帮助劳动者及经济体应对人工智能带来的行业变革。该资金将用于研究AI对劳动力市场的影响、帮扶因技术更迭面临失业的从业者与社区,并探索更广泛分配AI经济收益的新路径。这是该基金会首次推出此类专项投入。OpenAI去年完成重组,其基金会获得营利板块26%股份,估值达1300亿美元。基金会表示,首批落地项目将于今年晚些时候公布。
谷歌AI摘要(AI Overview)频繁出现基础拼写错误,如将“Google”字母数答错、拼错常见单词。谷歌称大语言模型在单词字母计数上存在难题。研究人员解释,因模型基于Transformer架构,将文本拆分为词元(token)处理而非逐字母识别,此属固有缺陷,难以彻底根治。这类错误提醒用户需核实AI生成内容的准确性。
印度中央教育委员会(CBSE)在曝出重大数据安全事件后,其应对措施备受批评。一名19岁学生发现其平台存在漏洞,可篡改200万名考生的成绩。官方后续试图用一个不属于他们的域名来否认被黑客攻击(后为此购买该域名),并虚假声称服务器上没有生产数据,但被立即证伪。最终,他们用ChatGPT生成了一张图片,试图以此“证明”系统安全。该委员会每年负责超过200万名学生的命运。
#CBSE #OSM
@UnderwaterBepis @Lari_island yeah, Golem XIV feels very prescient
推文阐述其关于人类独特性的核心观点:人类决策本质上由激素等生理反应驱动,而理性思考常是对这些决策的事后解释。基于此,作者认为AI智能体(Agent)因缺乏激素驱动机制,永远无法真正取代人类。人的本质在于意志力而非工具性,其独特性体现在能通过意识自我解释,并利用激素控制自身,这使得每个人都是算法中的“异常值”。文章强调实践是认识真理的唯一方法,阅读只能印证已有认知。
本文反映了人们对AI生成的低质回答侵蚀真实人际沟通的普遍厌倦。文章通过三个场景具体说明:GitHub讨论中出现与AI完全相同的敷衍回复;公司老板直接转发ChatGPT截图作为答案;Reddit私信沟通中发现对方是AI智能体。作者及评论者批评了X平台上AI垃圾评论泛滥,淹没了有效讨论。整体表达了当前AI工具被滥用以“完成回复动作”而非提供实质帮助的现状。
This is such a good post. https://orchidfiles.com/im-tired-of-ai-generated-answers/
Claude Code 首年营收 25 亿美元,占据编程工具 51% 市场份额,其成功源于流动 Pod 结构、运行时质量把控及自下而上的采用策略。Cursor 与 Fireworks 合作,基于 1 万亿参数 MoE 模型 Kimi 2.5 训练了专用编码模型 Composer 2,其异步分布式 RL 流水线与工程优化实现了在特定任务上超越大型通用模型。与此同时,“SaaSpocalypse” 现象揭示了当 AI 智能体直接调用 API 绕过 SaaS 界面层时,传统软件中间层正面临冲击。
推文指出,2026年1月美国软件股暴跌15%(被称为“SaaSpocalypse”),而同期Claude Code首年营收达$25亿,占据编程工具市场51%份额。这两件事共同指向AI正从辅助工具演进为主导性基础设施。推文通过三个核心截面分析这一转折:Claude Code的产品设计路径、其训练工程(提及Composer 2)、以及由此带来的产业冲击——SaaS中间层被瓦解与工程师角色迁移。
SQLite近期在其代码库中添加了AGENTS.md文件,旨在指导将AI智能体指向该代码库的用户。该文件明确声明,SQLite项目不接受智能体生成的代码,但会接受包含可复现测试案例的智能体bug报告。此后的一次提交删除了声明中的“当前”一词,进一步强化了“不接受智能体代码”的立场。同时,因收到大量质量不一的AI生成bug报告,SQLite论坛已将相关讨论分流至新建的SQLite Bug论坛。
At @ThriveHoldings, we built a product with @OpenAI to automate tax prep for the 30+ accounting firms we own across the ...
推文指出AI行业发展进入新阶段,出现对过往技术路线的反思。核心观点包括:1. 单纯的大语言模型本身不足以成为完整产品,必须结合工具框架(harness);2. 完全自动化脱离人的参与是不切实际的;3. 慢工出细活的耐心变得尤为重要;4. AI部署成本高昂,考量投资回报率时有时不如人力划算。这标志着行业从追求技术突破转向更务实的产品构建与价值评估。