AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 2401 条
全部一手资讯X论文
标签「大佬观点」清除
Emad@EMostaque · 6月17日54

Important to note @Zai_org train on @Huawei Ascend chips, no NVIDA (!) So you have frontier -3 months on a fully Chinese stack, 90% cheaper. Would estimate the total cost of this to be $25m, largely post training (80%) @Zai_org market cap now nearly $100b, $$s in open source!

译值得注意的是 @Zai_org 在 @Huawei Ascend 芯片上训练,没有 NVIDIA (!) 因此你拥有前沿 -3 个月,完全中国堆栈,便宜 90%。 我估计总成本为 2500 万美元,主要在后训练(80%) @Zai_org 市值现在接近 1000 亿美元,$$ 在开源中!

Emad@EMostaque · 6月17日44

I think it's increasingly clear that if Chinese AI labs can get enough compute they'll mog American ones.

译我认为越来越清楚的是,如果中国AI实验室能获得足够的计算能力,它们将击败美国的实验室。

Chubby♨️@kimmonismus · 6月17日57

In one June week, two things happened that look unrelated but are actually the same story: The Commerce Department forced Anthropic to disable Fable 5 and Mythos 5 for every foreign national, while the DOJ went to court in Mississippi to defend xAI's unpermitted gas turbines as too vital to national security to shut off. Same story, opposite directions - once a leash, once a shield. Why is this interesting? Because it clearly demonstrates one thing: AI, and everything that goes with it (data center expansion, frontier models, access, etc.), is increasingly being placed under national scrutiny and control. I mean this in a completely neutral and objective way. AI is such a crucial national strategic issue that there is increasing intervention and adjustment in all its problems. In the case of xAI, this is in their favor; in the case of Anthropic, it's against the company's private power. The proof is: AI is so significant that it can't simply be left to "run its course."

译六月的一周里,美国商务部迫使Anthropic对全体外国公民禁用Fable 5和Mythos 5,同时司法部在密西西比法院为xAI未获许可的燃气轮机辩护,称其因国家安全过于重要不能关停。两件事方向相反——一边是束缚,一边是盾牌——但共同证明:AI及其伴随的数据中心扩张、前沿模型访问等,正越来越多地被置于国家管控之下。作者中立指出,AI作为国家战略要务,无法任其自然发展;对xAI有利,对Anthropic不利。

Chubby♨️@kimmonismus · 6月17日46

The interesting move with MaineCoon is that it doesn't stop perceiving once it starts responding. Most conversational AI waits for input, answers, then goes quiet until you speak again; this one is built to keep reading expression, voice, and timing while it talks, in real time. That shifts AI video from something you watch toward something that reacts to you while you're in it, and it's one of the clearer signals I've seen of where real-time, interactive AI is actually heading.

译MaineCoon 是首个不限时长(unlimited-duration)的交互式音视频模型,摒弃了传统AI“等待输入→回复→静默”的轮次模式。它在回答过程中持续实时读取用户的表情、声音和时机,实现边说话边感知的对话体验,将AI视频从被动观看转向主动实时互动,被认为是实时交互AI的前沿信号。

Chubby♨️@kimmonismus · 6月17日14

The silence emanating from Washington, which emerges from the talks between Anthropic and US officials, is far more worrying than any loud dispute.

译来自华盛顿的沉默,源自Anthropic与美国官员的会谈,比任何激烈的争论都更令人担忧。

Greg Brockman@gdb · 6月17日41

AI for helping crack a health mystery. So many stories like this, and a clear motivation to be excited about AI:

译AI 用于帮助破解健康谜团。像这样的故事如此之多,这是对 AI 感到兴奋的明确动机:

AYi@AYi_AInotes · 6月17日46

@DarioAmodei 真该看看《广告狂人》这段经典的 2 分 41 秒,或者说所有产品人、创业者都应该反复拉片, Don 把一个叫轮子的幻灯机,重命名成 Carousel,没有选择卖轮子的转速,他说这台机器是时光机,让人像孩子一样一圈圈的旅行,回到被爱着的地方, 达里奥去白宫那次,差的大概就是Don放入这段经典show time

译近日,Anthropic CEO Dario Amodei与白宫沟通失败,引发业内反思。技术团队与权力对话存在两套语言体系:技术方讲逻辑、安全、长期价值,对方讲立场、交易、国家安全优先级。业内建议关键谈判应派懂人情、能读空气、擅长建立信任的人出席,而非纯技术团队。AI时代技术门槛将拉平,真正的竞争力在于搞定人和建立信任——技术决定产品上限,沟通决定产品生死。

DogeDesigner@cb_doge · 6月17日15

Grok Imagine 1.5 is insanely good. 🔥

译Grok Imagine 1.5 好得离谱。🔥

小互@xiaohu · 6月17日67

Claude Code 之父自己的 CLAUDE.md 现在就两行... Claude Code 团队聊"少即是多"分享随着模型能力增加该如何和模型交流: “别跟模型较劲做加法,因为模型每代都在变强,你今天费劲搭的东西很快就白搭了。” 为什么 Claude Code 坚持做命令行不做 GUI? 因为模型进步太快,半年后可能界面就过时了... 具体落在四件事上: 1. CLAUDE.md 越短越好,定期清空重来 他自己的 CLAUDE.md 就两行,提 PR 自动合并、提 PR 发审批频道,其余规则全写进提交到代码库、全队每周共建的那份里。看到队友犯可避免的错,就直接在 PR 上 Claude 让它把规则加进去。 当系统提示"你的 CLAUDE.md 已经几千 token"时,他的建议是直接删掉重写:用最少的东西把模型拉回正轨,模型跑偏了再一点点加回来。而且你会发现,每换一代模型,要加的越来越少。 很多人的毛病是过度工程化。 2. 为什么坚持做命令行(CLI)而不做图形界面 因为模型进步太快,做不出一个半年后还不过时的 UI。 而且 CLI 反而降低门槛,用 Claude Code 不需要懂 Vim、Tmux、SSH,打开就有它带着走。团队里也有 Vim 死忠,"除非我死否则别想夺走我的 Vim",但他自己就用 VS Code,觉得自己是个普通工程师。 3. 终端输出"详细 vs 简洁"的拉锯 他个人喜欢啰嗦,能扫一眼发现模型跑飞,按 Esc 当场摁住。 半年前他想砍掉冗长的 bash 输出,结果 Anthropic 员工全员造反。最近把"读文件/搜文件"折叠成一行摘要(这放半年前发不出来,因为那时模型还常读错),GitHub 上又有人不干。于是加了 verbose 模式两边兼顾。 这套打磨方式就是:发布 → 自己用一个月 → 听用户骂 → 迭代。他说最爱的就是听用户到底想怎么用。 4. 用 AI 修 bug 的体验已经"离谱" 做好日志后,随口说"这个对象出错了",它就翻日志、自己搞清楚,甚至能开生产通道看线上数据库。 最戳他的一个例子:他自己查一个内存泄漏,做 heap dump、开 DevTools、翻代码翻半天没搞定。队友 Chris 直接把问题丢给 Claude Code,它自己写了个小工具分析 heap dump,比他更快找到了泄漏。 收尾的反思 他说"Agent 能做什么"这件事每换一代模型就变,新人往往比他这个老人用得还溜,"这事我得反复重新适应,因为我的脑子还停在过去。" 一句话总结:模型在飞涨,人的最优策略不是堆配置、堆脚手架、堆工具,而是做减法、保持轻、把判断让给越来越强的模型,并不断推翻自己过时的使用习惯。

译Claude Code之父分享团队核心理念:CLAUDE.md越短越好,他自己的仅两行(提PR自动合并、发审批频道),并建议定期清空重写。模型能力每代都在飞涨,人为堆配置、做UI很快会过时,因此坚持CLI而非GUI。终端输出在详细与简洁间通过用户反馈迭代(支持verbose模式)。用AI修bug已很高效,能自行分析heap dump。核心观点是做减法、保持轻,并不断推翻过时使用习惯。

AYi@AYi_AInotes · 6月17日29

@cursor_ai CEO Michael Truell @mntruell 身上集齐了 AI 赛道里几乎少见的全部稀缺品质, 二十四五岁的年纪,手握即将达成六百亿美元规模的 SpaceX 收购合作,却依旧保持难得的纯粹与克制, 我觉得被老马招入麾下以后,以后的成就可能会并肩甚至超越ChatGPT的@sama和Anthropic的@DarioAmodei, 真的可以永远相信@elonmusk 的远见卓识和识人用人的眼光, 不信来看Michael Truell身上的这5个及其稀缺的品质:

译Cursor AI CEO Michael Truell在X上宣布与SpaceX联手,共同构建有用AI。据推文称,双方合作规模接近600亿美元。年仅二十多岁的Truell被评价拥有多项稀缺品质,主推文认为其未来成就可能并肩甚至超越OpenAI CEO Sam Altman和Anthropic CEO Dario Amodei。目前具体合作细节尚未披露。

小互@xiaohu · 6月17日60

Cursor 首席执行官 Michael Truell: “我们对 Cursor 的目标是发明一种新型编程” 人只管用最简洁的方式向计算机描述意图(软件该怎么运行、长什么样),,剩下的交给模型。 大意拆开是三层: 1. 目标:把"造软件"浓缩成"描述意图",凭现在还在飞速变好的模型,能造出一种层级更高、效率更高、门槛更低的开发方式,而且会逐渐告别今天写代码的样子。 2. 他反对两种主流设想(关键论点): - "一切照旧"派:未来还是敲文本、用TypeScript/Go/C/Rust 这些正式语言 → 他认为错,因为模型会变得好太多。 - "纯聊天机器人"派:对着 bot 说句话让它帮你建、帮你改,像跟工程部门聊天 → 他认为太不精确:人想完全掌控软件,就得能"指着"具体要改的地方,而不是在一个脱离整体的文本框里说"把我 App 这块改一下"。 3. 他自己的设想("代码之后"的世界):你会有一份对软件逻辑的表达,它更像用英文写的(类似伪代码),写下来、能在高层级编辑、能指着它改 不再是几百万行看不懂的代码,而是更简洁、更好懂、更易改的东西。 那些极难懂的符号,慢慢演变成人能读、能改的形式——这就是 Cursor 在做的方向。

译Cursor CEO Michael Truell提出目标:发明一种新型编程,让人用最简洁的方式描述意图,其余交给模型。他反对两种主流设想——“一切照旧”派(继续用TypeScript/Go等正式语言)和“纯聊天机器人”派(对bot说句话就改代码),认为前者低估模型进步,后者缺乏精确控制。他的设想是“代码之后”的世界:用类似英文伪代码表达软件逻辑,能在高层级编辑、精准指向修改,让难懂的符号变成可读可改的形式。

Rohan Paul@rohanpaul_ai · 6月17日13

The Class of 2026

译2026届

Greg Brockman@gdb · 6月17日28

software engineering is so different now. hard to remember what it was like even 6 months ago.

译现在的软件工程跟以前大不一样了。很难回忆起仅仅6个月前是什么样子。

fofr@fofrAI · 6月17日23

Standard response to AI comedy attempts right now

译当前对AI喜剧尝试的标准回应是冷漠。但有人提出,当AI能写出喜剧时,才算实现AGI。

fofr@fofrAI · 6月17日14

We'll have AGI when AI can write comedy.

译当AI能写喜剧时,我们就有了AGI。

Ethan Mollick@emollick · 6月17日29

This was not a good benchmark before it was updated and it is not a good benchmark now. Having AIs evaluate the work of other AIs on publicly available questions from a different closed benchmark doesn’t tell you very much. And it is unclear how they establish the human ELO.

译新版 GDPval-AA v2 成为 Intelligence Index v4.1 权重最高的评估,升级将 ELO 基线重置为人类 1000 分,引入前沿模型法官轮换面板,回合上限从 100 提升至 250。Claude Fable 5(有回退)以 1818 分领先,但当前不可用;Claude Opus 4.8 得 1638 分,GPT-5.5 (xhigh) 得 1531 分。Ethan Mollick 批评:AI 评估 AI 在取自另一闭卷基准的公开问题上表现意义有限,且人类 ELO 设定方式不透明,认为更新前后均非良好基准。

jason@jxnlco · 6月17日51

if you can easily answer 'what are you working on' you're not using agents enough.

译如果你能轻松回答“你在做什么”,那说明你的智能体用得还不够。

Nathan Lambert@natolambert · 6月17日47

It's hard to pinpoint open-closed gap and so-on, but I trust the @arena team and just look where GLM 5.2 is on this. An MIT licensed, to be open weight model. At this point you could argue they have a better agent than Gemini does. That's a serious accomplishment.

译很难精确衡量开源与闭源的差距等等,但我信任 @arena 团队,直接看 GLM 5.2 所处的位置就行。这是一个采用 MIT 许可证、即将开源权重的模型。到这一步,你甚至可以说它的智能体比 Gemini 还要好。这是实打实的成就。

Nathan Lambert@natolambert · 6月17日45

Still hard to expect the unexpected with AI. It goes to show how skilled many of the scientists are in China. They're hitting high peaks with much less compute. Overall, I think the US models are really ahead, but you can't just discount the Chinese labs. Not at all.

译智谱(Zhipu AI)最新模型 GLM-5.2 在 Design Arena 上以 1360 Elo 跃居第一,超越已下架的 Claude Fable 5,并开源权重。此次排名上升 4 位、Elo 提升 27 分,创下该基准代码类别的历史最高分之一。AI 分析师 Nathan Lambert 评价称,中国科研团队用更少算力达到高水准,虽美国模型整体领先,但无法忽视中国实验室的进步。

Ethan Mollick@emollick · 6月17日34

Assuming open models continue to lag about 8-12 months behind closed source (at least in coding), the countdown to hardening IT systems against Mythos-class models is now at 4-8 months Having publicly available and relatively safe defensive Mythos-class models today is important

译假设开源模型持续落后闭源约8-12个月(至少在编程方面),加强IT系统以防御Mythos级模型的倒计时现在为4-8个月。 拥有今天公开可用且相对安全的防御性Mythos级模型很重要。

SemiAnalysis@SemiAnalysis_ · 6月17日54

ALERT: OpenAI's CFO claims their next big training run will happen in Fall 2026 on Vera Rubin but that doesn't add up. Rubin NVL72 clusters likely won't be stable enough by then, and the software stack won't be mature enough to support a true "big training run." Rubin may be ready for production inference and small-scale training experiments, but not frontier-scale training in Fall 2026.

译警报:OpenAI的首席财务官声称他们的下一次重大训练运行将在2026年秋季在Vera Rubin上进行,但这说不通。Rubin NVL72集群届时可能还不够稳定,软件栈也不足以支持真正的“重大训练运行”。Rubin或许已准备好用于生产推理和小规模训练实验,但无法在2026年秋季支持前沿规模的训练。

OpenAI@OpenAI · 6月17日31

Let’s talk about evals. We’re always looking for better ways to measure and forecast model progress, especially as benchmarks get saturated or gamed. @tejalpatwardhan, who leads our frontier evals team, spoke to @andrewmayne about why evals matter and what models need to be judged on next.

译我们来聊聊评估。 我们一直在寻找更好的方法来衡量和预测模型进展,尤其是在基准测试逐渐饱和或被钻空子的时候。 领导我们前沿评估团队的 @tejalpatwardhan 与 @andrewmayne 谈到了评估为何重要,以及接下来模型需要被评判的标准。

向阳乔木@vista8 · 6月16日52

Factory AI CEO的播客访谈,太长不看版: 1. 大约80%到90%的任务用开源模型就能完成,顶级模型最适合做规划和决策。 2. AI工具给高杠杆的人提供了更高的杠杆,给低杠杆的人提供的帮助相对有限。 3. 未来最值钱的工程师不是快速写代码、写算法的人,而是能端到端拥有业务结果的人。 4. 三年内,Token支出的中位数会和薪资处于同一数量级。 https://www.youtube.com/watch?v=lgo_QbgV198

译Factory AI CEO 在播客中分享观点:约80%-90%的任务可用开源模型完成,顶级模型更适合规划与决策;AI工具对高杠杆人群提升更大,低杠杆者受益有限;未来最值钱的工程师是能端到端拥有业务结果的人,而非仅写代码者;预计三年内Token支出中位数将与薪资处于同一数量级。

Ethan Mollick@emollick · 6月16日58

We are in the most comfortable "normal technology" phase of AI for enterprise: it enables productivity gains, but still needs integration into workflows - stuff we have seen before! Yet it is very possible that this is a waypoint, not a stable phase. AIs may integrate themselves

译我们正处于企业AI最舒适的“正常技术”阶段:它能提升生产力,但仍需整合到工作流程中——这是我们以前见过的! 然而,这很可能只是一个中转站,而非稳定阶段。AI可能会自行整合。

凡人小北@frxiaobei · 6月16日27

Gemini (antigravity) 的编程能力掉到第四了。 前三名: Claude(Claude code) ChatGPT(codex) SpaceXAI(cursor) 国产编码扛把子 GLM /Kimi/千问/豆包,再跑出来一家, Gemini 可以掉到第五。

译Gemini (antigravity) 编程能力排名降至第四,前三名依次为 Claude (Claude code)、ChatGPT (codex) 和 SpaceXAI (cursor)。国产编码模型 GLM、Kimi、千问、豆包紧随其后,若再有一家国产模型超越,Gemini 将进一步跌至第五。此外,SpaceX 行使期权收购 Cursor AI,过去数月双方联合训练模型,即将在 Cursor 和 Grok Build 中发布。

Elon Musk@elonmusk · 6月16日44

It is humbling to consider that if we harness just 1 millionth of the Sun’s power for AI, that will be much more than a million times the intelligence of all of humanity

译这是令人谦卑的思考:如果我们利用太阳百万分之一的能量用于AI,那将比全人类的智力高出百万倍以上。

Nathan Lambert@natolambert · 6月16日53

New podcast with @finbarrtimbers! We survey the latest post-training recipes, from GLM 5.1, Kimi K2.6, DeepSeek V4, Xiaomi MiMo V2.5, Nemotron Ultra, etc. and discuss: - Why the industry slowly shifted to multi-teacher on-policy distillation (MOPD). - What an Olmo-style recipe would need improvements in - How post-training works / suits larger organizational efforts - Career advice in the foothills of the singularity - and other topics I heard y'all wanted me to start doing this, so making some time when I'm in funemployment! Chapters: 00:00 Introduction & Olmo reflections 06:28 Post-train recipes review (history) 23:00 2026’s model recipes (MiMo Flash, DeepSeek V4, GLM 5, Kimi K2.6, etc.) 39:05 Open-ended post-training discussions 48:22 Career advice in the LLM race Links below, please follow @interconnectsai and like and subscribe and buy my book?

译Nathan Lambert与Finbarr Timbers合作推出新播客,系统调研GLM 5.1、Kimi K2.6、DeepSeek V4、Xiaomi MiMo V2.5、Nemotron Ultra等模型的最新后训练方法。核心讨论包括:行业转向多教师在线策略蒸馏(MOPD)的原因;Olmo风格配方需改进的方向;后训练如何适配大型组织;以及在AGI早期阶段的职业建议。播客章节涵盖历史回顾、2026年模型配方(MiMo Flash、DeepSeek V4、GLM 5、Kimi K2.6等)及开放式后训练讨论。

François Chollet@fchollet · 6月16日36

The way we will create a future where powerful AI is open-source and available to all is by making AI radically more efficient, both in terms of inference compute and (more importantly) in terms of training data requirements. This is what symbolic learning will achieve.

译我们将创造强大AI开源且人人可用的未来的方法,是让AI在推理计算和(更重要的)训练数据需求方面大幅提高效率。这正是符号学习将实现的目标。

Rohan Paul@rohanpaul_ai · 6月16日50

Microsoft CEO Nadella explains how the real power of AI is transformation. Docs become websites, websites become apps, and firms scale decisions that once took hours into minutes. "what’s the real difference between a document, a website, and an application? It’s the lack of software that can transform itself. Interestingly enough, AI finally gives us that. I can write a document and say, “No, I don’t want it as a document. I want it as a website,” and it will transform that document, using code, into a website. Then I can say, “I don’t like the website. I want an app,” and it will write more code to transform it." --- Microsoft CEO Satya Nadella and BlackRock Chairman & CEO Larry Fink at the World Economic Forum in Davos. From 'DRM News' YT Channel (link in comment)

译微软CEO萨提亚·纳德拉在达沃斯世界经济论坛与贝莱德董事长拉里·芬克对话时表示,AI的真正力量在于转换:文档可通过AI生成代码变成网站,网站可进一步转为应用;企业将原本耗时数小时的决策规模化为几分钟。纳德拉强调,AI首次赋予了软件自我转换的能力。

宝玉@dotey · 6月16日50

这哥们搞了个 Llama 3.3 70B 扫描代码库,报的问题都是错的,纯制造互联网垃圾,我得去拉黑了 https://github.com/JimLiu/baoyu-design/issues/9

译用户指责某人使用Llama 3.3 70B扫描代码库,生成的错误报告全是错误的,认为这种行为纯粹是在制造互联网垃圾,并决定将其拉黑。该推文附带了相关GitHub issues链接。

宝玉@dotey · 6月16日26

Claude Code 的 dynamic workflows 用不起,一个简单任务,几分钟就 31 个 Agents,消耗了 1.3 M Tokens,周 Token 用量从 11% 跳到了 20%(Pro @ 20x),犯不着呀,慢点我可以的!

AYi@AYi_AInotes · 6月16日55

这次达里奥跟白宫沟通失败,Anthropic踩的坑, 给所有技术团队敲了警钟, 建议技术出身的创始人都看一遍经典美剧《广告狂人》, 因为你光把模型做到行业顶尖没用,沟通对不上频道,说下架就下架。 技术团队和权力对话,天生是两套语言体系, 你讲技术逻辑,讲安全边界,讲长期价值。 对方讲立场信任,讲交易务实,讲国家安全优先级, 完全不在一个频道,再有理也没用。 业内有个很直白的判断, 关键场合去谈判,别派纯技术小队。 要派懂人情、会读空气、能让对方舒服的人, 产品懂不懂一半不重要, 能把对立拧成合作,才是真的硬通货。 AI时代技术门槛只会越来越低, 模型参数,代码能力,迟早会拉平差距, 真正拉开距离的,是搞定人、建立信任的本事, 技术决定产品的上限, 沟通决定产品的生死!

译亚马逊举报Anthropic模型可被越狱后,特朗普政府要求主动下架,CEO硬刚拒绝。政府祭出出口管制,90分钟限时卡死境外访问。Anthropic找被政府标记为“激进民主党”的安全专家反驳,导致矛盾激化。政府内部评价双方语言体系根本不同。Anthropic连夜飞华盛顿救火,但信任难修复。此前与国防部谈武器权限合作同样谈崩。事件凸显AI公司与政府缺乏共同对话语言,技术顶尖无法替代沟通能力。

meng shao@shao__meng · 6月16日67

Agentic Code Review 作者 @addyosmani 随着工程瓶颈已从「写代码」转移到「能否信任代码」,代码审查成为当前软件工程里杠杆最高的能力。 # 四份独立来源(Faros AI、CodeRabbit、GitClear、GitHub)指向同一结论: · 代码产出约 4 倍,实际交付价值仅约 +10%:多出来的 90% 是「待验证的代码」 · 代码 churn +861%、缺陷率 9%→54%:质量与可审查性在下降 · 零 review 合并的 PR +31%、review 时长 +441%:不是「决定不 review」,而是 review 跟不上量 · AI 共著 PR 问题数约 1.7 倍:弱点可预测:逻辑、安全、可读性 # 最重要的前提:你在光谱的哪一端 Osmani 反复强调:大多数争论是不同处境的人互相 prescribing。 三个变量决定 review 策略: · 爆炸半径 — 坏了会怎样(无人用 vs 用户/金钱/PII) · 代码寿命 — 下周重写 vs 维护十年 · 理解者数量 — 只有你 vs 整个团队 solo 无用户:可 lean on 测试 + 自动化,轻量 review;但「无用户 ≠ 无验证」,跳过 review 只是把债往后推。 有用户的中期(最危险):仍沿用 solo 习惯,直到事故/postmortem 才醒悟。 大型老系统 + 多用户:文中所述所有 alarming 数据 全部适用,review 同时承担 bug 捕获、知识传递、 comprehension debt 防控。 # Review 的本质变了 传统 review:作者在脑子里已有 intent,reviewer 核对推理。 Agentic review:agent 有 reasoning,但 几乎从不随 diff 附上;reviewer 常是 第一个真正读这段代码的人,还要 重建从未写下来的 intent——这比旧模式更难、更慢,解释了 review 时长暴增。 可解的部分(工具问题): · 要求 agent 提交:做了什么、排除了什么、决策日志 · 把 intent 重建成本 推回提交方,而非 reviewer 吸收 不可完全外包的部分(人的问题): · 「这段代码对不对」 vs 「该不该做这件事」 · 没人写进 spec 的需求缺口 · 高爆炸半径下的 accountability # AI Review 工具:不要选「最好的一个」,要跑「不同的几个」 实证(146 个 PR、4 个 reviewer 并行): · 93.4% 的 flagged 位置只被 1 个工具发现 · 四个工具 从未同时 flag 同一行 · 各有强项:Greptile(正确性/架构)、CodeRabbit(覆盖面+修复)、Seer(生产严重度) 结论:同质模型 × 4 = 一个 reviewer + 四倍账单;异构 reviewer 组合 才接近「对抗式审查」。高 stakes 跑两个性格不同的;solo 一个 good reviewer + 真测试通常够用;必须在自己代码库上实测。 # 人的角色:从 loop 里到 loop 上 Osmani 的立场(也是文中最具操作性的框架): · 「人类逐行读每个 diff」已不现实 · 「让 loop 自审自判然后走人」同样危险 — 同源模型的 correlated blind spots,会形成 借来的 confidence · 正解:human on the loop,而非 in the loop · 机器:第一遍 triage、低风险/fast-track、重复性检查 · 人:merge 决策、高风险路径、plan/judgment、抽样审计 他自己的做法:用 Claude Code/Codex 对一批 PR 做 风险排序 triage,几分钟确认低风险项,把深度 attention 留给 flagged 项——不是 review 变快,是 review 的形状变了。 Kun Chen(~40 PR/天)是光谱另一端:plan 写在前、agent 并行跑、自动化 gate(No Mistakes)、人负责 escalation——不是不 verify,是把 verify 前移/自动化;复制到企业多用户系统 ≈ 复现 Faros 数据。 # 可执行的 Review 体系(重要!) 1. 按风险分层,不按作者分层 配置改 → linter + 一眼;核心路径 → types、tests、双 AI reviewer、owner 人工、安全 pass。 2. upfront triage(circuit breaker) Agent PR 约 28% 可快速合并;大 patch、高维护成本 PR 应 先预测、再决定是否投入 human hour——否则 agent 常在主观反馈后 ghost,reviewer abandonment 占 rejected agent PR 的 38%。 3. 提高 intake 门槛(证据 required) 变更目的陈述、合理大小的 diff、真实跑过的 test output——把「第一个读代码的人」从 reviewer 推回 author/agent。 4. 刻意小 PR Agent PR 平均大 51%;大 diff 要么被拒,要么被 rubber-stamp。 5. 先读 test diff,再读 implementation 典型 failure mode:改行为 → 改 assertion 让测试变绿。绿 check ≠ 行为正确;mutation testing 在此有价值。 6. CI 是不可谈判的墙 警惕:删测试、skip lint、降 coverage、重复 helper、用户输入进 prompt 无防护。Agent 会「梯度下降」到最便宜的 green——CI 不能被说服。 7. 人 owns merge AI review 是 sensor,不是 verdict;能点 merge 的人 = 能 on-call 的人。 # 对团队负责人的含义 · binding constraint 已是「trusted human 确认速度」,不是 generation 速度 · 因「AI 提速」砍 review/QA 人力 = 把节省换成未来 incident · Review capacity 是 需度量、保护、 deliberate 花费的资源,不是 AI 解放出来的 slack · OS maintainer 的 triage 地狱是 canary;企业若只盯 merged PR 指标,会看不见 senior engineer 被 review tax 拖垮

译数据指出,AI辅助下代码产出约4倍,但交付价值仅+10%,90%为待验证代码;代码churn+861%,缺陷率从9%升至54%;零审查合并PR增加31%,审查时长+441%。实测146个PR发现,93.4%被标记位置仅一个工具发现,四工具从未同时标记同一行。策略建议:按风险分层(配置改→linter,核心路径→双AI+人)、前置triage、提高PR门槛(要求意图说明+测试输出)、刻意小PR、先读测试再读实现、CI不可妥协、人类负责merge决策。

Emad@EMostaque · 6月16日16

is ok

译可以

meng shao@shao__meng · 6月16日57

AI 时代的高绩效团队 来自 Lovable 团队 @felixhhaas ,他认为:当 AI 大幅拉平执行门槛后,真正拉开差距的是谁更敢负责、更愿探索、更在意结果,也就是「心智模式与行为方式」,典型特质包括:责任、好奇、谦逊、在意、速度。 # 总的论点:绩效公式正在改写 传统高绩效团队往往依赖: 资深专家 + 清晰分工 + 流程管控 AI 时代的新逻辑是: · 个体杠杆被放大 → 一个高动机的人 + AI,产出可能超过一个小团队 · 技能半衰期缩短 → 今天会的工具,半年后可能过时 · 决策速度成为瓶颈 → 执行变快后,「等批准、争功劳、追求完美」反而拖慢整体 因此,Haas 强调的 7 条原则,是在说明:当「怎么做」越来越便宜时,「谁来做、以什么心态做」就成了决定性因素。 # 七条原则 1. 像创始人一样思考(Think like a founder) 表面意思:不等指派,主动发现问题并解决。 深层含义:组织设计正在从「岗位边界」转向「问题所有权」。AI 让跨职能执行变容易,但ownership 无法被分配——只能被具备这种特质的人自然承担。 客观补充:这要求组织同时提供心理安全与清晰授权,否则「像创始人」容易变成「越界背锅」。 2. 按态度招人,而非按技能(Hire for attitude, not skills) 表面意思:好奇心、韧性、学习意愿比当前技能更重要。 深层含义:技能可补,但学习速率(learning velocity)在 AI 时代被指数级放大——同样学一周,态度不同的人产出差距会越来越大。 客观补充:并非「技能不重要」,而是技能是入场券,态度决定上限。对需要硬门槛的岗位(安全、合规、核心架构),仍需要技能底线。 3. 保持真正的好奇(Stay genuinely curious) 表面意思:不是「会用 AI」,而是持续探索、主动试错。 深层含义:Haas 用「curiosity compounds(好奇心会复利)」点出关键——在工具快速迭代的环境下,探索型行为本身就在积累认知资产,即使某次尝试失败。 与第 2 点的关系:态度是内在特质,好奇心是外在行为表现,二者相互强化。 4. 让资深的人重新深入一线(Let senior people go deep again) 表面意思:AI 提升了 IC 杠杆,资深者不必只做管理,可以回归「建造者」。 深层含义:这是对「彼得原理」的一种反向修正——过去资深人才常被推离一线;现在「经验 + AI」可能是组织最强单元,比纯管理或纯执行都更有价值。 客观补充:需要组织刻意设计角色(如 Staff Engineer、Player-Coach),否则管理层惯性仍会把高手推离代码/产品细节。 5. 在自我膨胀拖垮进度之前先把它掐掉(Kill ego before it kills momentum) 表面意思:少争功劳、少护地盘,优先「什么有效」而非「谁对的」。 深层含义:AI 时代迭代极快,错误成本下降、修正成本也下降——此时 ego 驱动的「捍卫旧方案」成为最大浪费。快团队的特点是:可快速切换立场,不可快速切换责任。 6. 比预期更在意(Care more than expected) 表面意思:对产品、用户、细节有超出职责的在意,主动修别人忽略的问题。 深层含义:当 AI 能生成「够好」的产出时,「够好」与「真正好」之间的差距,往往来自 care——边界情况、体验细节、用户真实感受,这些很难被 prompt 替代。 客观补充:这确实「难以教会」,但可通过文化筛选(看谁在无激励时仍愿意多走一步)和榜样效应部分传递。 7. 先发布,再改进(Ship, then improve) 表面意思:用真实用户反馈替代内部争论,快速上线、快速学习。 深层含义:AI 降低了 prototype 成本,「完美主义」的 opportunity cost 反而上升——拖在内部的版本,不如上线后被用户教做人。 客观补充:适用于多数产品迭代场景;对医疗、金融、安全等高风险领域,「先 ship」需要更严格的灰度与合规边界。 七条原则的内在结构 1. 选人:态度 > 技能;真正的好奇 | 决定团队天花板 2. 协作:像创始人;杀 ego;更在意 | 决定日常摩擦成本 3. 产出:资深者深入一线;先 ship 再改进 | 决定杠杆与迭代速度 三层环环相扣:对的人 → 少内耗 → 高杠杆 + 快反馈循环。

译Lovable 团队@felixhhaas 认为,AI 拉平执行门槛后,绩效公式从“资深专家+流程管控”转向“心智模式+行为方式”。七条原则涵盖选人(按态度而非技能、保持好奇)、协作(像创始人、杀 ego、更在意)、产出(资深者深入一线、先发布再改进)。核心观点:当技能半衰期缩短、个体杠杆被放大时,“谁来做、以什么心态做”成为决定性因素。

Ethan Mollick@emollick · 6月16日46

If AGI is achievable & labs can be banned from using a model internally ONLY if they release the model publicly, the Big Three labs may decide it is better to capture all the value from AGI themselves by expansion & acquisition. Sharing AI access with other firms triggers risk.

译如果AGI可实现,并且只有在实验室公开发布模型的情况下才能禁止其内部使用,那么三大实验室可能会决定通过扩张和收购来自己获取AGI的所有价值。与其他公司共享AI访问会引发风险。

Nathan Lambert@natolambert · 6月16日22

Open-science is the only thing that really needs to prevail. Good post. If only there was someone I knew building an institution like this.

译开放科学才是真正需要盛行的。好文章。 要是我认识某个正在建立这类机构的人就好了。

elvis@omarsar0 · 6月16日34

Verifiers are a big deal. Without good verifiers, /goal & /loop breaks a lot. Anything out of distribution for an LLM, the agent will struggle to verify work correctly. I think it's worth tuning your own verifiers and figuring out how to hook them up with your current agents.

译验证器很重要。 没有好的验证器,/goal 和 /loop 经常出问题。 对于大语言模型而言,任何超出分布的内容,智能体都难以正确验证工作。 我认为值得调优你自己的验证器,并弄清楚如何将它们与你当前的智能体连接起来。

fofr@fofrAI · 6月16日25

What mod was this?

译这是什么模组?

Ethan Mollick@emollick · 6月16日43

Fable was really good, as I wrote last week after testing it. It was a leap, but that may because, as exponential gains progress, the improvements in each incremental release are increasingly large. If so, Anthropic will not be the only lab making leaps. https://www.oneusefulthing.org/p/what-it-feels-like-to-work-with-mythos

译Fable 真的很棒,我上周测试后就写过。 这是一个飞跃,但这可能是因为指数级进步使得每次增量发布的改进越来越大。如果是这样,Anthropic 不会是唯一实现飞跃的实验室。https://www.oneusefulthing.org/p/what-it-feels-like-to-work-with-mythos

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月17日
19:41
Emad@EMostaque
54
值得注意的是 @Zai_org 在 @Huawei Ascend 芯片上训练,没有 NVIDIA (!) 因此你拥有前沿 -3 个月,完全中国堆栈,便宜 90%。 我估计总成本为 2500 万美元,主要在后训练(80%) @Zai_org 市值现在接近 1000 亿美元,$$ 在开源中!

Zixuan Li: Finally, Artificial Analysis Intelligence Index concludes the GLM-5.2 release.

大佬观点开源生态行业动态
19:41
Emad@EMostaque
44
我认为越来越清楚的是,如果中国AI实验室能获得足够的计算能力,它们将击败美国的实验室。
大佬观点推理
18:50
Chubby♨️@kimmonismus
57
六月一周内两件事:对Anthropic的限制与对xAI的保护,本质一致

六月的一周里,美国商务部迫使Anthropic对全体外国公民禁用Fable 5和Mythos 5,同时司法部在密西西比法院为xAI未获许可的燃气轮机辩护,称其因国家安全过于重要不能关停。两件事方向相反——一边是束缚,一边是盾牌——但共同证明:AI及其伴随的数据中心扩张、前沿模型访问等,正越来越多地被置于国家管控之下。作者中立指出,AI作为国家战略要务,无法任其自然发展;对xAI有利,对Anthropic不利。

大佬观点
18:50
Chubby♨️@kimmonismus
46
MaineCoon 是首个不限时长(unlimited-duration)的交互式音视频模型,摒弃了传统AI"等待输入→回复→静默"的轮次模式。它在回答过程中持续实时读取用户的表情、声音和时机,实现边说话边感知的对话体验,将AI视频从被动观看转向主动实时互动,被认为是实时交互AI的前沿信号。

Catnip: 🥇MaineCoon: From Passive Video to Real-Time AI Presence The first unlimited-duration interactive audio-visual model. Mo...

多模态大佬观点视频
17:20
Chubby♨️@kimmonismus
14
来自华盛顿的沉默,源自Anthropic与美国官员的会谈,比任何激烈的争论都更令人担忧。
Anthropic大佬观点政策/监管
15:23
Greg Brockman@gdb
41
AI 用于帮助破解健康谜团。像这样的故事如此之多,这是对 AI 感到兴奋的明确动机:

Amy Deng: I'm an AI researcher turned brain tumor patient, and recently I used the models to crack my mystery fatigue faster than ...

OpenAI大佬观点
15:06
AYi@AYi_AInotes
46
Anthropic CEO白宫沟通失败:技术团队需懂人情而非纯技术

近日,Anthropic CEO Dario Amodei与白宫沟通失败,引发业内反思。技术团队与权力对话存在两套语言体系:技术方讲逻辑、安全、长期价值,对方讲立场、交易、国家安全优先级。业内建议关键谈判应派懂人情、能读空气、擅长建立信任的人出席,而非纯技术团队。AI时代技术门槛将拉平,真正的竞争力在于搞定人和建立信任——技术决定产品上限,沟通决定产品生死。

AYi: 这次达里奥跟白宫沟通失败,Anthropic踩的坑, 给所有技术团队敲了警钟, 建议技术出身的创始人都看一遍经典美剧《广告狂人》, 因为你光把模型做到行业顶尖没用,沟通对不上频道,说下架就下架。 技术团队和权力对话,天生是两套语言体系, 你...

Anthropic大佬观点
15:05
DogeDesigner@cb_doge
15
Grok Imagine 1.5 好得离谱。🔥
xAI图像生成大佬观点
14:35
小互@xiaohu
67
Claude Code之父谈"少即是多":CLAUDE.md越短越好

Claude Code之父分享团队核心理念:CLAUDE.md越短越好,他自己的仅两行(提PR自动合并、发审批频道),并建议定期清空重写。模型能力每代都在飞涨,人为堆配置、做UI很快会过时,因此坚持CLI而非GUI。终端输出在详细与简洁间通过用户反馈迭代(支持verbose模式)。用AI修bug已很高效,能自行分析heap dump。核心观点是做减法、保持轻,并不断推翻过时使用习惯。

智能体Anthropic大佬观点编码
11:06
AYi@AYi_AInotes
29
Cursor AI CEO Michael Truell与SpaceX联手合作

Cursor AI CEO Michael Truell在X上宣布与SpaceX联手,共同构建有用AI。据推文称,双方合作规模接近600亿美元。年仅二十多岁的Truell被评价拥有多项稀缺品质,主推文认为其未来成就可能并肩甚至超越OpenAI CEO Sam Altman和Anthropic CEO Dario Amodei。目前具体合作细节尚未披露。

Michael Truell: Lots to do together. Excited to be joining forces with @SpaceX to build useful AI.

大佬观点编码
09:59
小互@xiaohu
60
Cursor CEO Michael Truell:目标是发明一种新型编程

Cursor CEO Michael Truell提出目标:发明一种新型编程,让人用最简洁的方式描述意图,其余交给模型。他反对两种主流设想——“一切照旧”派(继续用TypeScript/Go等正式语言)和“纯聊天机器人”派(对bot说句话就改代码),认为前者低估模型进步,后者缺乏精确控制。他的设想是“代码之后”的世界:用类似英文伪代码表达软件逻辑,能在高层级编辑、精准指向修改,让难懂的符号变成可读可改的形式。

大佬观点编码
09:36
Rohan Paul@rohanpaul_ai
13
2026届
大佬观点现象/趋势
08:53
Greg Brockman@gdb
28
现在的软件工程跟以前大不一样了。很难回忆起仅仅6个月前是什么样子。
OpenAI大佬观点
07:25
fofr@fofrAI
23
当前对AI喜剧尝试的标准回应是冷漠。但有人提出,当AI能写出喜剧时,才算实现AGI。

fofr: We'll have AGI when AI can write comedy.

其他大佬观点
06:55
fofr@fofrAI
14
当AI能写喜剧时,我们就有了AGI。
大佬观点
06:35
Ethan Mollick@emollick
29
新版 GDPval-AA v2 成为 Intelligence Index v4.1 权重最高的评估,升级将 ELO 基线重置为人类 1000 分,引入前沿模型法官轮换面板,回合上限从 100 提升至 250。Claude Fable 5(有回退)以 1818 分领先,但当前不可用;Claude Opus 4.8 得 1638 分,GPT-5.5 (xhigh) 得 1531 分。Ethan Mollick 批评:AI 评估 AI 在取自另一闭卷基准的公开问题上表现意义有限,且人类 ELO 设定方式不透明,认为更新前后均非良好基准。

Artificial Analysis: GDPval-AA v2 is the highest weighted evaluation in the Intelligence Index v4.1. The upgrade re-baselines ELO to human pe...

大佬观点评测/基准
04:23
jason@jxnlco
51
如果你能轻松回答"你在做什么",那说明你的智能体用得还不够。
智能体大佬观点
03:56
Nathan Lambert@natolambert
47
很难精确衡量开源与闭源的差距等等,但我信任 @arena 团队,直接看 GLM 5.2 所处的位置就行。这是一个采用 MIT 许可证、即将开源权重的模型。到这一步,你甚至可以说它的智能体比 Gemini 还要好。这是实打实的成就。
智能体大佬观点开源生态
03:25
Nathan Lambert@natolambert
45
智谱(Zhipu AI)最新模型 GLM-5.2 在 Design Arena 上以 1360 Elo 跃居第一,超越已下架的 Claude Fable 5,并开源权重。此次排名上升 4 位、Elo 提升 27 分,创下该基准代码类别的历史最高分之一。AI 分析师 Nathan Lambert 评价称,中国科研团队用更少算力达到高水准,虽美国模型整体领先,但无法忽视中国实验室的进步。

Design Arena: BREAKING: GLM-5.2 is now 1st on Design Arena. With an Elo of 1360, GLM-5.2 has jumped ahead of the now unavailable Claud...

大佬观点开源生态编码
02:03
Ethan Mollick@emollick
34
假设开源模型持续落后闭源约8-12个月(至少在编程方面),加强IT系统以防御Mythos级模型的倒计时现在为4-8个月。 拥有今天公开可用且相对安全的防御性Mythos级模型很重要。
大佬观点安全/对齐
01:32
SemiAnalysis@SemiAnalysis_
54
警报:OpenAI的首席财务官声称他们的下一次重大训练运行将在2026年秋季在Vera Rubin上进行,但这说不通。Rubin NVL72集群届时可能还不够稳定,软件栈也不足以支持真正的"重大训练运行"。Rubin或许已准备好用于生产推理和小规模训练实验,但无法在2026年秋季支持前沿规模的训练。
OpenAI大佬观点数据/训练
01:32
OpenAI@OpenAI
31
我们来聊聊评估。 我们一直在寻找更好的方法来衡量和预测模型进展,尤其是在基准测试逐渐饱和或被钻空子的时候。 领导我们前沿评估团队的 @tejalpatwardhan 与 @andrewmayne 谈到了评估为何重要,以及接下来模型需要被评判的标准。
OpenAI大佬观点评测/基准
6月16日
23:27
向阳乔木@vista8
52
Factory AI CEO 播客:开源模型与AI未来趋势

Factory AI CEO 在播客中分享观点:约80%-90%的任务可用开源模型完成,顶级模型更适合规划与决策;AI工具对高杠杆人群提升更大,低杠杆者受益有限;未来最值钱的工程师是能端到端拥有业务结果的人,而非仅写代码者;预计三年内Token支出中位数将与薪资处于同一数量级。

大佬观点开源生态编码
23:00
Ethan Mollick@emollick
58
我们正处于企业AI最舒适的"正常技术"阶段:它能提升生产力,但仍需整合到工作流程中--这是我们以前见过的! 然而,这很可能只是一个中转站,而非稳定阶段。AI可能会自行整合。
智能体大佬观点现象/趋势
22:46
凡人小北@frxiaobei
27
Gemini (antigravity) 编程能力排名降至第四,前三名依次为 Claude (Claude code)、ChatGPT (codex) 和 SpaceXAI (cursor)。国产编码模型 GLM、Kimi、千问、豆包紧随其后,若再有一家国产模型超越,Gemini 将进一步跌至第五。此外,SpaceX 行使期权收购 Cursor AI,过去数月双方联合训练模型,即将在 Cursor 和 Grok Build 中发布。

SpaceX: SpaceX has exercised the option to acquire @cursor_ai in an all-stock transaction with the goal of building the world's ...

大佬观点编码
22:46
Elon Musk@elonmusk
44
这是令人谦卑的思考:如果我们利用太阳百万分之一的能量用于AI,那将比全人类的智力高出百万倍以上。
xAI大佬观点
21:51
Nathan Lambert@natolambert
53
Nathan Lambert联合Finbarr Timbers发布新播客,调研GLM 5.1等模型后训练配方

Nathan Lambert与Finbarr Timbers合作推出新播客,系统调研GLM 5.1、Kimi K2.6、DeepSeek V4、Xiaomi MiMo V2.5、Nemotron Ultra等模型的最新后训练方法。核心讨论包括:行业转向多教师在线策略蒸馏(MOPD)的原因;Olmo风格配方需改进的方向;后训练如何适配大型组织;以及在AGI早期阶段的职业建议。播客章节涵盖历史回顾、2026年模型配方(MiMo Flash、DeepSeek V4、GLM 5、Kimi K2.6等)及开放式后训练讨论。

DeepSeek大佬观点数据/训练
20:59
François Chollet@fchollet
36
我们将创造强大AI开源且人人可用的未来的方法,是让AI在推理计算和(更重要的)训练数据需求方面大幅提高效率。这正是符号学习将实现的目标。
大佬观点推理数据/训练
18:28
Rohan Paul@rohanpaul_ai
50
微软CEO纳德拉:AI实现文档到应用无缝转换

微软CEO萨提亚·纳德拉在达沃斯世界经济论坛与贝莱德董事长拉里·芬克对话时表示,AI的真正力量在于转换:文档可通过AI生成代码变成网站,网站可进一步转为应用;企业将原本耗时数小时的决策规模化为几分钟。纳德拉强调,AI首次赋予了软件自我转换的能力。

Microsoft大佬观点现象/趋势
15:38
宝玉@dotey
50
用Llama 3.3 70B扫描代码库误报问题遭批评

用户指责某人使用Llama 3.3 70B扫描代码库,生成的错误报告全是错误的,认为这种行为纯粹是在制造互联网垃圾,并决定将其拉黑。该推文附带了相关GitHub issues链接。

GitHub大佬观点编码
15:08
宝玉@dotey
26
Claude Code 的 dynamic workflows 用不起,一个简单任务,几分钟就 31 个 Agents,消耗了 1.3 M Tokens,周 Token 用量从 11% 跳到了 20%(Pro @ 20x),犯不着呀,慢点我可以的!
Anthropic大佬观点编码
14:03
AYi@AYi_AInotes
55
Anthropic与特朗普政府冲突致Fable 5下架,沟通失败成主因

亚马逊举报Anthropic模型可被越狱后,特朗普政府要求主动下架,CEO硬刚拒绝。政府祭出出口管制,90分钟限时卡死境外访问。Anthropic找被政府标记为“激进民主党”的安全专家反驳,导致矛盾激化。政府内部评价双方语言体系根本不同。Anthropic连夜飞华盛顿救火,但信任难修复。此前与国防部谈武器权限合作同样谈崩。事件凸显AI公司与政府缺乏共同对话语言,技术顶尖无法替代沟通能力。

AYi: 怀念Fable 5的第二天😭 最新消息看下来,Fable 5下架这事,好像也不是什么技术安全事件。 更像是Anthropic一顿操作把政府彻底得罪,活生生演成了政治闹剧。 导火索本来只是亚马逊举报模型可被越狱, 特朗普政府三通电话打过去,...

Anthropic大佬观点安全/对齐政策/监管
09:19
meng shao@shao__meng
67
AI代码审查(Agentic Code Review)实测:产出翻4倍,交付价值仅+10%

数据指出,AI辅助下代码产出约4倍,但交付价值仅+10%,90%为待验证代码;代码churn+861%,缺陷率从9%升至54%;零审查合并PR增加31%,审查时长+441%。实测146个PR发现,93.4%被标记位置仅一个工具发现,四工具从未同时标记同一行。策略建议:按风险分层(配置改→linter,核心路径→双AI+人)、前置triage、提高PR门槛(要求意图说明+测试输出)、刻意小PR、先读测试再读实现、CI不可妥协、人类负责merge决策。

Addy Osmani: http://x.com/i/article/2066435928739217408

大佬观点编码部署/工程
09:02
Emad@EMostaque
16
可以

Andrew Curran: http://x.com/i/article/2066289802295779328

智能体大佬观点
08:49
meng shao@shao__meng
57
AI 时代的高绩效团队

Lovable 团队@felixhhaas 认为,AI 拉平执行门槛后,绩效公式从“资深专家+流程管控”转向“心智模式+行为方式”。七条原则涵盖选人(按态度而非技能、保持好奇)、协作(像创始人、杀 ego、更在意)、产出(资深者深入一线、先发布再改进)。核心观点:当技能半衰期缩短、个体杠杆被放大时,“谁来做、以什么心态做”成为决定性因素。

Felix Haas: High-Performance Teams in the Age of AI 🔥 I've spent a lot of time thinking about what makes teams move incredibly fast...

大佬观点现象/趋势
08:49
Ethan Mollick@emollick
46
如果AGI可实现,并且只有在实验室公开发布模型的情况下才能禁止其内部使用,那么三大实验室可能会决定通过扩张和收购来自己获取AGI的所有价值。与其他公司共享AI访问会引发风险。
大佬观点安全/对齐推理
06:43
Nathan Lambert@natolambert
22
开放科学才是真正需要盛行的。好文章。 要是我认识某个正在建立这类机构的人就好了。

Parth Asawa: The AI community seems to increasingly be heading towards a polarized world when discussing safety and consolidated powe...

大佬观点安全/对齐开源生态
06:13
elvis@omarsar0
34
验证器很重要。 没有好的验证器,/goal 和 /loop 经常出问题。 对于大语言模型而言,任何超出分布的内容,智能体都难以正确验证工作。 我认为值得调优你自己的验证器,并弄清楚如何将它们与你当前的智能体连接起来。
智能体大佬观点
04:35
fofr@fofrAI
25
这是什么模组?
大佬观点视频
03:18
Ethan Mollick@emollick
43
Fable 真的很棒,我上周测试后就写过。 这是一个飞跃,但这可能是因为指数级进步使得每次增量发布的改进越来越大。如果是这样,Anthropic 不会是唯一实现飞跃的实验室。https://www.oneusefulthing.org/p/what-it-feels-like-to-work-with-mythos
Anthropic大佬观点
‹ 上一页
1…1011121314…50
下一页 ›