AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 142 条
全部一手资讯X论文
标签「Meta」清除
Rohan Paul@rohanpaul_ai · 5月26日61

Brilliant new paper from Meta, CMU and other labs. Shows that coding agents improve faster by manufacturing their own software experience. Coding agents can train themselves by making and fixing bugs inside real projects. Most coding agents still learn from human leftovers: issues, pull requests, tests, comments, and benchmarks that describe what went wrong. That is useful, but it makes the agent dependent on the rate at which humans produce clean, verifiable lessons. Self-play SWE-RL changes the unit of learning from a labeled task to an executable situation. One version of the model explores a real codebase, weakens tests, injects a meaningful bug, and leaves behind test artifacts that define the failure without needing an English issue description. Another version of the same model has to repair the system, not by matching words to patches, but by restoring behavior under tests. Here’s the key point: the test is not just a grader here, it is the language of the problem. That matters because software understanding lives in constraints, dependencies, edge cases, and invariants that prose often compresses or misses. The reported gains, +10.4 points on SWE-bench Verified and +7.8 on SWE-Bench Pro, are early but hard to ignore because evaluation still used natural-language issues the self-play system did not train on. That suggests SSR (Self-play SWE-RL) is learning something deeper than issue phrasing, though not yet anything like open-ended mastery. The restraint matters: generated bugs can be artificial, rewards can be noisy, and sandboxed repositories are still a narrow slice of software reality. Still, the direction is sharp. The next bottleneck for coding agents may not be more human-written tasks, but more ways for agents to encounter, create, survive, and learn from failure. ---- Paper Link – arxiv. org/abs/2512.18552 Paper Title: "Toward Training Superintelligent Software Agents through Self-Play SWE-RL"

译Meta、CMU等机构在论文中提出了Self-play SWE-RL方法。该方法让编程智能体通过“自我博弈”生成训练数据,而非仅依赖人工标注的问题。具体而言,一个模型探索代码库、注入bug并留下测试用例来描述问题;另一个模型则学习根据测试修复系统。其中,测试成为了描述问题的核心语言。该方法在SWE-bench Verified上提升了+10.4分,在SWE-Bench Pro上提升了+7.8分。值得注意的是,评估使用了该系统未训练过的自然语言问题,表明其可能学到了更深层的软件理解能力。

Rohan Paul@rohanpaul_ai · 5月26日57

New Meta, Stanford, Google and many other top labs paper proposes AutoResearchClaw. Shows that automated research improves when AI can fail, recover, and ask humans at the right moments. The paper is less about an “AI scientist” than about turning research into a governed loop. Most systems still treat science like a production line: generate an idea, run code, write a paper, then stop when the chain breaks. AutoResearchClaw treats failure as evidence, using debate, repair, verification, memory, and selective human input as parts of the same machine. That is the main point: autonomy gets better when it is constrained by process, not when it is simply given more freedom. On ARC-Bench, the system beat AI Scientist v2 by 54.7%, with its sharpest gains in result analysis, where claims had to match measurements rather than merely sound plausible. The human result is more interesting: CoPilot reached an 87.5% accept rate, while full autonomy reached 25% and step-by-step oversight reached 50%, suggesting that too little judgment and too much supervision can both degrade science. The most revealing failure was a case where every cross-validation method returned identical zero-bias outputs, which passed numeric verification but failed scientific meaning. That is the boundary this paper exposes: machines can verify that numbers are real, but humans still notice when the experiment has stopped asking the right question. ---- Paper Link – arxiv. org/abs/2605.20025 Paper Title: "AutoResearchClaw: Self-Reinforcing Autonomous Research with Human-AI Collaboration"

译Meta、斯坦福等机构提出AutoResearchClaw,这是一个通过AI智能体进行自主研究的框架。其核心理念是将科研过程转化为一个受流程约束的循环,而非简单的生产线。系统整合了辩论、修复、验证、记忆和选择性的人类反馈,并将失败视为有效证据。在ARC-Bench基准测试中,该系统在结果分析等任务上性能比AI Scientist v2提升54.7%。人类协作实验显示:CoPilot模式(适时介入)接受率达87.5%,完全自主仅25%,逐步监督为50%。一个关键失败案例揭示了当所有交叉验证方法返回相同零偏差输出时,系统虽通过数值验证却失去了科学意义,凸显了人类判断的关键作用。

Berryxia.AI@berryxia · 5月26日50

你肯定刷到这个采访博客,你以为小扎只是说苹果没有创新? 那就大错特错了… Zuckerberg 在播客上当着Joe Rogan的面直接宣判:苹果自iPhone之后20年几乎没有真正创新,他们只是坐在乔布斯留下的东西吃老本罢了! Mark Zuckerberg说苹果的衰落已经开始了 他们没再发明什么伟大的东西 每一代iPhone提升越来越小,用户升级周期越来越长。 他们做了AirPods这种酷玩意儿,但同时把所有第三方想连接iPhone的东西全部卡死 Zuck最后扔下一句最狠的:因为他们创新停滞得太彻底最终会被别人干掉 这段话一出全网炸锅浏览量瞬间破450万 故事其实藏着硅谷两大巨头长达十年的恩怨 2021年苹果推出App Tracking Transparency(ATT)直接让Meta广告收入暴跌100多亿美元 Vision Pro又正面硬刚Quest iMessage生态锁死消息霸权 Zuck这次不是单纯diss而是带着数据和预判来的 他指出iPhone销量年增长已经停滞每一代升级带来的惊喜越来越少用户宁愿多用两年也不想换 AirPods确实开创品类但苹果把蓝牙生态、配件生态、开发者生态全部用专利和封闭API焊死别人根本别想真正接入 这不是创新这是护城河 而Zuck自己虽然也背着Metaverse烧钱80亿的锅但他至少在推开放眼镜、AI、开源Llama这些东西试图打破封闭 苹果这边呢M系列芯片确实狠但那已经是几年前的事了 Vision Pro卖不动Siri还是落后AI跟不上时代 整个公司越来越像一个靠服务和生态收租的成熟帝国而不是当年那个改变世界的叛逆者 当创新变成迭代当用户习惯了“够用就好”当第三方被彻底卡住脖子。 用户何去何从呢? 看最新iPhone宣传你会突然意识到它和2010年的广告比起来有多“安全” Big Tech两大巨头一个在吃老本收租。 一个在赌未来,虽然都有自己的坑。 但Zuck这次把苹果最不想让人看见的所谓真相说出来了, 那么问题来了,它的Meta元宇宙几百亿美金的坑呢? Apple 还是世界级万亿美元市值公司,Meta 现在还是好好搞搞自己的生意吧。

译扎克伯格在播客中批评苹果自iPhone后创新停滞,称其只是在吃乔布斯留下的老本。他指出iPhone升级体验提升有限,用户换机周期延长;AirPods虽成功但苹果通过封闭生态限制第三方接入。苹果ATT政策导致Meta广告收入损失超100亿美元,双方在Vision Pro与Quest等领域存在竞争。扎克伯格正推动Meta在AI眼镜、开源大模型如Llama等方向发展。

Rohan Paul@rohanpaul_ai · 5月26日65

This Meta + Stanford + Illinois survey paper argues that AI agents work better when code becomes their main working layer. The problem is that an LLM by itself is mostly a text predictor, so long tasks can lose state, hide mistakes, and turn plans into actions in fragile ways. The real advance is not “AI writes code,” but “AI uses code as the environment it thinks inside.” The authors call the surrounding system an agent harness, meaning the tools, memory, sandboxes, checks, and feedback loops that turn a model into an agent. Their core idea is that code should sit at the center of that harness, because code can be run, inspected, checked, saved, edited, and shared. Tests become sensors. Repositories become memory. Logs become history. Sandboxes become boundaries. A generated script is no longer merely an answer; it is a handle the system can run, check, revise, share, and roll back. The main finding is a pattern across many fields: code helps agents reason through executable steps, act through tool calls or control programs, and model environments through tests, traces, logs, repositories, and simulators. ---- Paper Link – arxiv. org/abs/2605.18747 Paper Title: "Code as Agent Harness"

译Meta、斯坦福与伊利诺伊的研究论文指出,AI智能体在将代码作为主要工作层时性能更佳。论文认为,大语言模型(LLM)作为文本预测器,在处理长任务时存在状态丢失、错误隐蔽等问题。真正的进步并非“AI写代码”,而是“AI在代码环境中思考”。论文的核心是提出一个以代码为中心的“智能体框架”,即工具、记忆、沙箱等系统。在此框架中,测试成为传感器,代码库成为记忆,日志成为历史,沙箱成为边界。生成的脚本成为可运行、检查、修改和共享的操控对象。总结发现,代码能通过可执行步骤帮助智能体推理,通过工具调用行动,并通过测试、日志等对环境进行建模。

Chubby♨️@kimmonismus · 5月25日57

Tech companies aren't hiding it anymore. Meta is laying off 8,000 people and spending $100 billion on AI data centers. Cisco's CEO called cutting 4,000 jobs "optimistically low." Intuit fired 3,000 workers to restructure around AI, then told the press it's "not about AI." Over 100,000 tech jobs gone in 2026 so far. TrueUp projects 370,000 by year end. The interesting part isn't the layoffs themselves but hat companies are now openly framing human headcount as a line item they're converting into GPU clusters. That used to be the quiet part.

译2026年科技行业出现大规模裁员,多家公司公开将人力成本转向AI投资。Meta裁员8000人,同时投入1000亿美元建设AI数据中心;Cisco CEO称裁员4000人已是“乐观地低”;Intuit裁员3000人以重构业务,但对媒体否认“因AI裁员”。据统计,今年已有超10万科技岗位流失,TrueUp预测全年可能达37万。推文指出,核心变化在于公司不再避讳,正公开地将人力预算“转换为GPU集群”。

Rohan Paul@rohanpaul_ai · 5月23日60

Meta paper shows that coding agents get much better when they reuse short summaries of past attempts instead of raw logs. i.e. stronger coding agents do not just need more attempts, but better ways to remember attempts. That sounds obvious until you look at what an agent actually produces: not an answer, but a messy trail of file reads, shell commands, errors, partial fixes, and abandoned ideas. The paper’s idea is to turn each full attempt into a compact summary of the main guess, partial progress, and failure points, then use those summaries both to pick the best attempts and to guide new ones. Test-time scaling breaks when the model cannot compare its own past work. For short answers, ranking is easy. For long-horizon coding, the bottleneck shifts from generation to representation. Once rollouts become summaries, two useful things happen. The system can run tournament-style selection over small groups of candidates, which works better than forcing one giant comparison, and it can feed the best summaries back into a fresh round of attempts instead of starting blind. --- The authors test this on 2 hard coding benchmarks by running many attempts in parallel, selecting promising summaries with a tournament style voting method, and then launching fresh attempts that can read the selected summaries first. The results are strong, with Claude 4.5 Opus rising from 70.9% to 77.6% on SWE-Bench Verified and from 46.9% to 59.1% on Terminal-Bench v2.0. What matters is that the paper says better test-time scaling for long coding agents is not mostly about making more attempts, but about storing experience in a form the agent can actually reuse. ---- Paper Link – arxiv. org/abs/2604.16529 Paper Title: "Scaling Test-Time Compute for Agentic Coding"

译Meta研究发现,在编程智能体任务中,通过复用过往尝试的简短摘要,其性能显著优于使用原始日志。该论文指出,对于长程编程任务,主要瓶颈已从代码生成转向了如何有效记忆与表示智能体的工作过程。其方法是将每次充满错误的“混乱轨迹”转化为包含核心假设、进展与失败点的紧凑摘要,系统通过锦标赛式选择最佳摘要来指导新一轮尝试。在Claude 4.5 Opus的测试中,该方法使其在SWE-Bench Verified上的得分从70.9%大幅提升至77.6%,证明提升性能的关键在于以可复用的形式存储经验。

Rohan Paul@rohanpaul_ai · 5月21日69

WOW, 🤯 A leaked audio from Meta’s April 30 all-hands. Meta is reportedly using its own engineers’ work traces to train coding AI while cutting thousands of jobs. Here Zuckerberg arguing that models learn better when they watch “really smart people” perform tasks, meaning Meta’s internal code, tool use, clicks, and problem-solving can become higher-grade training data than contractor-written examples. The idea is behavior cloning: instead of only feeding an AI finished code, Meta can feed it the step-by-step path a strong engineer takes, including edits, tests, mistakes, fixes, and tool choices. That can teach a model not just what correct code looks like, but how a skilled developer moves from a vague task to a working solution. Meta is reportedly cutting about 8,000 jobs, roughly 10% of its workforce, and additionaly moving about 7,000 employees toward AI-focused work, so the hard realy is that human expertise is being turned into training data before some of those humans leave. The story is not fully independently verified, but the shift is happening for sure: tech companies no longer see AI as a tool sitting beside workers, but as a system that can absorb worker patterns and then compress them into software.

译Meta正利用内部工程师的工作痕迹——如代码编写、工具使用和问题解决步骤——来训练其编程AI。CEO扎克伯格认为,让AI观察“聪明人”执行任务(行为克隆),比使用外部承包商代码样本更有效。同时,Meta正裁员约8000人,并计划让约7000名员工转向AI相关岗位。此举反映科技行业新趋势:公司正将人类专业知识直接转化为训练数据,AI不再只是工具,而是能吸收并压缩员工工作模式的系统。

Rohan Paul@rohanpaul_ai · 5月21日75

CNBC: Meta starts major cuts with 8,000 layoffs as AI shakes the tech giant. Along with the layoffs, around 7,000 employees will be shifted into new AI-focused roles. Meta is not only trimming costs, it is changing its internal shape around AI infrastructure, foundation models, and AI monetization, which means the company wants more people building the systems that train models, the models themselves, and the products that turn those models into revenue. --- cnbc .com/2026/05/20/meta-layoffs-zuckerberg-says-success-isnt-a-given-in-memo.html

译Meta启动大规模裁员,计划削减约8000个岗位。与此同时,约7000名员工将被调配至新的AI相关职位。此次调整并非单纯的削减成本,更是公司围绕AI进行内部结构重塑的关键举措,重点将资源集中于AI基础设施、基础模型的构建以及AI技术的商业化,旨在打造从模型训练、产品开发到实现盈利的完整链条。

Rohan Paul@rohanpaul_ai · 5月21日74

Mark Zuckerberg told employees in a Wednesday memo that laying off 8,000 workers was necessary because “success isn’t a given.” The full memo, as published by businessinsider. "Hey everyone, I want to express my gratitude to everyone leaving today for all of the hard work you've put into serving our community. It's always sad to say goodbye to people who have contributed to our mission and to building this company. I feel the weight of that, and I'm spending a lot of time making sure we manage this as well as possible. This is the most dynamic I have seen our industry. I'm optimistic about everything we're building to give billions of people the power to express themselves and connect with the people they care about. I'm also optimistic about delivering personal superintelligence to everyone. We've always focused on putting power in people's hands. This is how we believe progress is made in the world. These values are what makes us different, and they are why Meta has been successful. But success isn't a given. AI is the most consequential technology of our lifetimes. The companies that lead the way will define the next generation. We're transforming our company to make sure it will always be the best place for talented people to have the greatest impact. People tell us that they appreciate the ability to take greater ownership and execute their vision with less bureaucracy and management to navigate. At the same time, we also want to provide everyone with as much stability as possible. We won't always get this balance right, but I care deeply about this so we'll keep adjusting and work hard to do right by people along the way. To that end, I want to be clear that we do not expect other company-wide layoffs this year. I also want to acknowledge that we haven't been as clear as we aspire to be in our communication, and that's one area I want to make sure we improve. I'm confident in what we're all building together. We are one of the few companies positioned to help define the future. Meta has the talent, the infrastructure, the apps and distribution, and the business model. We have a lot of work ahead, but what's on the other side is going to be extraordinary. Once again, I'm grateful to those leaving today. And I'm grateful to everyone around the company for all of the historic work we will continue doing together. Mark" --- businessinsider .com/heres-what-mark-zuckerberg-said-about-future-layoffs-at-meta-2026-5

译扎克伯格在给员工的备忘录中表示,裁员8000人是因为“成功并非必然”,AI是决定性技术,领先企业将定义下一代。此次裁员与公司重组相关:Meta在裁减岗位的同时,将约7000名员工转向AI相关的新岗位,重塑公司结构以聚焦AI基础设施、基础模型开发及AI变现。扎克伯格对离开的员工表示感谢,并重申Meta拥有定义未来的实力。他承诺今年不会再有全公司范围的裁员,同时承认公司沟通方式有待改进。

AYi@AYi_AInotes · 5月21日68

AI时代最恐怖的事情不是AI取代你,而是你亲手教AI取代你,然后你自己被裁🤯 扎克伯格4月30号的内部音频泄露了, 他直白地告诉所有员工,公司正在收集你们的键盘鼠标屏幕数据,训练AI。 因为Meta员工的平均智力远高于外包,这些数据能让Llama的编码能力实现戏剧性超越。 然后20天之后,也就是今天凌晨4点,8000名员工收到了裁员邮件。 这哪是为了AI转型啊,分明就是企业食人主义, 好家伙,你教AI怎么干活, AI学会了, 然后你滚蛋。 你以为这就完了? 还有更狠的, 以前资本剥削你的时间, 现在资本剥削你的智慧, 以前你996是为了给自己挣工资, 现在你996是为了训练一个能完美取代你的AI, 而且你还不能划水, 你划水训练出来的AI不够强,你还是会被裁🤣 扎克伯格在效率上肯定是赢了, 他找到了AI时代最暴利的商业模式, 用自己的员工当免费的高质量训练数据, 用完就扔, 但他也输掉了所有信任。 以后再也不会有员工愿意全力以赴了, 因为所有人都知道, 你越优秀, 你被榨干的速度就越快。 你被裁掉的日子就越近。 #Meta #AI #裁员

译近日,Meta CEO扎克伯格的内部音频泄露,他承认公司秘密收集员工键盘、鼠标和屏幕数据,用于训练Llama等AI模型,因Meta员工智力高可提升模型能力。然而,数据收集约20天后,Meta裁员8000人,引发“企业食人主义”批评:员工在不知情下训练可能取代自己的AI,资本剥削从时间升级到智慧。这损害了员工信任,揭示了AI时代高效但冷酷的用人逻辑——员工越优秀,其价值被快速榨取并抛弃的风险越高。

Chubby♨️@kimmonismus · 5月21日68

And so it starts

译事情开始了 [引用 @kimmonismus]:重磅:Meta 4月30日全员会议泄露音频: 扎克伯格告诉员工,公司正在利用他们训练AI模型,随后大规模裁员即将开始。 他的理由是?Meta的工程师比任何外部劳动力都聪明,让他们在内部解决编码任务,能让Meta的模型比竞争对手更好、更快。 裁员预计在周三凌晨4点进行。先培训你的替代者,然后被请走。这就是现在的规矩。

SemiAnalysis@SemiAnalysis_ · 5月21日46

Sources have told SemiAnalysis that Mark Zuckerberg posted internally at Meta this morning: "I want to be clear that we do not expect other company-wide layoffs this year."

译消息人士向SemiAnalysis透露,Mark Zuckerberg今早在Meta内部发文表示:“我想明确说明,我们预计今年不会再有全公司范围的裁员。”

Chubby♨️@kimmonismus · 5月20日63

Holy: Leaked audio from a Meta all-hands on April 30: Zuckerberg told employees the company is using them to train AI models before mass layoffs hit. His argument? Meta's engineers are smarter than any external workforce, so having them solve coding tasks internally will make Meta's models better, faster than competitors. The layoffs are expected Wednesday at 4 a.m. Train your replacement, then get walked out. That's the deal now.

译泄露的Meta内部音频显示,CEO扎克伯格在4月30日的全员会议上向员工表示,公司正在利用他们的工作成果来训练AI模型,随后即将启动大规模裁员。其核心论点是,Meta工程师的平均智力远高于外部可雇佣的群体,让这些顶尖人才在内部完成编码等任务,能更快速、更有效地提升公司AI模型的编程能力,从而超越竞争对手。裁员计划预计在周三凌晨启动,员工需先完成对替代者的培训。

Rohan Paul@rohanpaul_ai · 5月20日51

OpenClaw + Meta Ray-Ban glasses. This setup uses the Ray-Ban glasses' built-in camera for egocentric vision. Voice input triggers Gemini Live to interpret what the wearer sees, then routes tasks to OpenClaw, which then completed the purchase.

译OpenClaw + Meta Ray-Ban眼镜。 该设置利用Ray-Ban眼镜的内置摄像头实现第一人称视角。语音输入触发Gemini Live解读佩戴者所见,随后将任务路由至OpenClaw,最终完成购买。

向阳乔木@vista8 · 5月20日62

http://x.com/i/article/2056796739886264320 # LeCun从Meta离职创业,押注一个“反LLM”的架构方向 Yann LeCun 有一个让人不舒服的习惯:他说的话,几年后往往会被证明是对的。 自监督学习、世界模型、表示空间预测……这些他在 2016 年 NeurIPS 主题演讲里就讲过的东西,今天已经成了整个行业的热词。 而他现在说的是:LLM 不是通往人类级智能的路,整个行业都在挖同一条错误的沟。 这是他接受播客 Unsupervised Learning 采访时的核心观点。 他刚从 Meta 离职,创办了新公司 AMI(Advanced Machine Intelligence),押注一个完全不同的架构方向。 ## LLM 能做什么,不能做什么 LeCun 的立场经常被误读。他不是说 LLM 没用。 "LLM 是很多有用 AI 产品的基础,我自己也在用。它们很好,就它们能做的事情而言。" 问题在于,它们能做的事情有一条清晰的边界:语言本身就是推理基底的领域。 数学证明、代码生成、法律文本……这些领域里,语言符号本身就承载了推理过程,LLM 在这里表现出色。 但一旦跳出这个边界,进入物理世界,问题就来了。 他举了一个例子:洗车店在你家 100 米外,你应该走路去吗?这个问题对人类来说显而易见,但 LLM 大多数时候会回答"应该走"。 因为它不理解"洗车"这件事的物理含义,它只是在操作语言符号。 更根本的问题是两个: 第一,LLM 无法预测自己行动的后果。 推理靠的是逐个预测下一个 token,不是对结果建模。 第二,LLM 没有规划能力。 规划需要搜索和优化,找到一个能达成目标的行动序列。自回归预测做不到这件事。 这两点,LeCun 认为是智能行为的核心。 缺了它们,无论模型规模多大,都不会到达人类级智能。 ## 世界模型是什么,为什么重要 "世界模型"这个词现在已经快变成营销术语了,各家都在用。 LeCun 给了一个非常干净的定义: 世界模型就是让一个系统能够预测自己行动后果的东西。 就这么简单。 他拿一个水瓶举例:推瓶底,它会滑;推瓶口,它可能倒。 人类不需要在像素级别预测水怎么流,我们在抽象表示层做预测。 这个抽象层,就是世界模型的工作空间。 有了世界模型,系统就可以在脑子里"演练"一系列行动,找到能完成任务的那条路,然后再执行。 这是规划,不是自回归。 对比一下当前的机器人方案:大量依赖模仿学习,每个任务都要收集海量演示数据,换个场景就得重新来。 LeCun 的问题是:一个 17 岁的人,20 小时就能学会开车。我们有几百万小时的驾驶数据,还没做出 L5 自动驾驶。模仿学习哪里出了问题? 答案是:没有世界模型,系统无法泛化到没见过的情况。 ## JEPA:为什么不生成像素 LeCun 的架构叫 JEPA,Joint Embedding Predictive Architecture,联合嵌入预测架构。 理解它需要先知道为什么生成式方法不行。 直觉上,让模型"预测下一帧画面"似乎是学习世界规律的好方法。 但现实是高维、连续、充满噪声的,在像素层面做预测代价极高,而且学到的大多是无关紧要的细节。 JEPA 的思路是:不预测像素,在表示空间做预测。 把原始输入(图像、视频)编码成抽象表示,然后训练一个预测器,从一个表示预测另一个表示。 这样系统被迫学习的是语义层面的结构,而不是像素细节。 他在 Meta 的研究团队做了大量对比:生成式方法(VAE、掩码自编码器等)在图像和视频表示学习上的效果,系统性地不如 JEPA 类方法(DINO、V-JEPA 等)。 这个发现在他看来是决定性的:"所有成功的表示学习架构都是非生成式的,所有生成式的基本上都失败了。" 这里有一个技术难题值得一提:JEPA 类方法有一个叫表示坍塌(representation collapse)的问题。 如果你让模型预测一个表示,最简单的解法是让所有输入都映射到同一个常数表示,预测误差直接归零。 模型什么都没学到,但损失函数很完美。 解决这个问题是整个自监督学习领域的核心挑战。 LeCun 团队目前在用一种叫 SIGReg(Sketched Isotropic Gaussian Regularization)的方法,强迫编码器输出的分布接近各向同性高斯分布,从而最大化信息量。 他说这是目前最有前途的方向,对应的论文叫 "L-World Model",值得关注。 ## 安全问题:LLM 在结构上就不安全 这是 LeCun 说得最重的一句话:LLM 在本质上是不安全的,这个问题在现有范式下无法修复。 原因还是那两点:无法预测行动后果,没有规划能力。 他设想了一个"目标驱动 AI"的替代方案:给系统一个目标,系统用世界模型模拟行动序列,找到能满足目标的那条路,同时满足一组安全约束。 这些约束是硬编码进优化过程的,系统在结构上就无法违反它们。 LLM 做不到这一点。 训练误差和测试误差之间永远有 gap,总会有某个 prompt 让系统做出完全错误的事。 "你永远可以找到一个 prompt,让系统干蠢事。" 他举了一个真实案例:有代码 Agent 把用户硬盘清空了。 这是结构性缺陷。 ## 图灵奖三人组为什么分道扬镳 LeCun 和 Hinton、Bengio 共同获得了 2018 年图灵奖。但 2023 年之后,三人的判断开始明显分歧。 LeCun 的说法很直接:"不是我改变了主意,是他们改变了主意。" Hinton 看到 GPT-4 之后认为 LLM 已经接近人类智能,甚至可能有主观体验。 他做了一个估算:如果用 10 个真实神经元模拟一个反向传播神经元,人类皮层相当于 16 亿个"等效神经元",而 GPT-4 的规模已经接近这个数字。 LeCun 对这个推理不买账。 他认为 Hinton 更像是在为自己的职业生涯画一个句号,"宣布胜利,然后去全世界演讲"。 他对 Hinton 和 Bengio 的担忧有一定理解,但那是另一个层面的问题:不是 AI 会统治世界,而是 AI 的收益会不成比例地流向少数人,加剧不平等。 这是政治经济问题,不是技术末日叙事。 至于 Anthropic 那套"AI 极度危险"的说法,他认为里面既有真实信念,也有商业动机,"他们在游说政府,用恐惧来推动监管,这对他们有好处"。 ## 他在 Meta 十年,真正做了什么 有一个广泛流传的误解需要澄清:LeCun 对 Llama 系列没有任何技术贡献。 他 2013 年底加入 Meta,前四年半担任 FAIR 主任,建立了实验室文化,招募了核心团队。 2018 年前后他主动卸任,转为首席 AI 科学家,把管理工作交给了 Joëlle Pineau 和 Antoine Bordes。 他唯一对 Llama 的贡献,是在内部激烈争论中力推开源 Llama 2。 当时法务、政策部门都反对,他和 CTO Andrew Bosworth 一起坚持,认为安全风险被夸大了,开源会催生整个行业生态。 事实证明他们是对的。 但 Llama 的技术路线,他没有参与。 他真正在做的,是从 2020 年前后系统化地推进 JEPA 和世界模型。 2022 年他写了一篇长篇愿景论文,把自己的全部想法公开出来,"把所有秘密都说出去,但也许能凝聚一批人"。 效果出乎意料地好。一批学生和 FAIR 内部团队被这篇论文吸引过来,Mark Zuckerberg 本人也读了并表示支持,这个项目内部就叫 AMI。 但随着 Meta 整体向 LLM 集中资源,FAIR 的探索性研究空间越来越小,AMI 项目的应用场景(工业控制、机器人)也不是 Meta 感兴趣的方向。 Meta 甚至解散了整个机器人 AI 团队。 离开的时机就这样自然到来了。 ## Tapestry:另一个不太一样的赌注 除了 AMI Labs,LeCun 还在推进一个叫 Tapestry 的项目,方向完全不同。 他的判断是:当 AI 助手成为人们获取信息的主要入口,而这些助手都由硅谷或中国的几家公司控制,这对世界上大多数人来说是个问题。 语言、文化、价值观、政治立场,都会被这几家公司的训练数据和偏好所塑造。 Tapestry 的想法是:用联邦学习的方式,让全球各地的机构贡献数据和算力,但不共享原始数据,只交换参数向量。 最终形成一个全球共识模型,然后各地可以在此基础上针对自己的语言、文化、价值观进行微调。 他认为这有历史规律支撑:互联网基础设施最终都走向了开源。 1996 年,Sun Microsystems 卖 Solaris,HP 卖 HP-UX,都声称比 Linux 更可靠。 今天,整个互联网跑在 Linux 上,连微软 Azure 也是。 "OpenAI 和 Anthropic,就是今天的 Sun Microsystems。" ## 给研究者的一句话 采访最后,主持人问 LeCun 在过去一年里改变了什么看法。 他说:自监督学习最成功的应用,不是他一直期待的视频,而是语言。 LLM 本质上就是自监督学习的一个极其成功的例子。这让他既感到意外,也感到某种讽刺。 他对还在读博的人有一个直接建议:不要研究 LLM。 "在学术界研究 LLM 极其无聊,本质上是描述性科学,解释它为什么有效或者有什么局限。而且你也没有足够的 GPU 去做真正有意义的事情。" 他的建议是研究下一代系统,也就是他正在做的事情:世界模型、JEPA、如何在表示空间做预测、如何防止表示坍塌。 如果你想从这次对话里带走一件具体的事,去读他提到的那篇论文:L-World Model。 > https://arxiv.org/abs/2603.19312 这是他目前认为最有前途的技术路线的最新成果。

译Yann LeCun离职Meta后创办AMI,押注基于世界模型的JEPA架构,与主流LLM不同。他批评LLM虽在语言任务有效,但缺乏预测行动后果和规划能力,无法真正理解物理世界且结构上不安全。LeCun倡导在抽象表示空间进行预测的自监督学习,以推动智能泛化。同时,他推进Tapestry项目,通过联邦学习构建去中心化的全球共识模型,应对AI控制集中化问题。

AYi@AYi_AInotes · 5月19日64

Damn it!SAM3绝逼要封神了! 不但开源而且强的一批! 最牛逼的地方是追踪能力, 即使在篮球比赛这种 复杂到爆炸的场景里也稳得一逼!!

elvis@omarsar0 · 5月19日67

NEW paper from Meta. (bookmark it) It's an agent system that autonomously discovers neural architectures that beat Llama 3.2 at 350M, 1B, and 3B scales, all under a 24-hour compute budget. They get this work by splitting the search into two agents: > AIRA-Compose searches the macro architecture. > AIRA-Design implements the low-level mechanisms. For devs: If one agent in your stack is doing both strategy and implementation, split it. Run a planner that picks the structure and an implementer that fills in the mechanisms. AIRA shows this beats a single end-to-end agent on a real, non-toy search problem. The same split is useful for pipeline assembly, query planning, prompt scaffolding, and tool-use programs. Paper: https://arxiv.org/abs/2605.15871 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译Meta提出AIRA系统,通过分离策略与实现的双代理架构,实现神经架构的自主发现。AIRA-Compose负责宏观架构搜索,AIRA-Design专注低级机制实现。该系统在24小时计算预算内,于350M、1B和3B规模上找到超越Llama 3.2的架构。其核心方法论表明,在复杂任务中分离规划代理与实现代理能提升效能,此思路同样适用于流水线组装、查询规划等其他AI代理场景。

Berryxia.AI@berryxia · 5月18日54

大佬永远比普通人站的更高,看的更远! Yann LeCun最近又放出重磅预测。 这位Meta AI首席科学家、图灵奖得主、现代计算机视觉之父,直接说:12到18个月内,我们就会有通用方法来训练分层世界模型。 这些模型会直接从视频和真实世界数据里学习。 学完就能帮机器人规划动作、帮医疗系统做决策、帮更多领域解决物理世界里的实际问题。 最后一步,是把它扩展成一个通用的世界模型。 大家还在拼命卷LLM的参数和上下文长度,LeCun却把目光放在了真正能理解物理因果、能规划真实行动的世界模型上。 这可能是从“会聊天”走向“会做事”的关键一步。

译Meta AI首席科学家Yann LeCun预测,未来12到18个月内将出现训练分层世界模型的通用方法。这些模型将从视频和真实世界数据中学习,具备理解物理因果和规划行动的能力,可应用于机器人、医疗等多个领域解决实际问题。最终目标是将其扩展为通用的世界模型。这标志着AI研究重点可能从当前以LLM为代表的“会聊天”模型,转向能够理解并作用于物理世界的“会做事”模型。

Yann LeCun@ylecun · 5月18日64

The salvation is Project Tapestry https://thealliance.ai/projects/tapestry

译推文警告,若西方无法尽快出现可信的开源前沿AI参与者,后果将迅速扩散。这与早期互联网格局相反:过去西方科技巨头主导全球,而中国自建生态;AI时代可能逆转这一态势。若无西方开源力量,能够支撑整个经济体的开源模型将仅由中国提供。若美国以国家安全为由进一步限制获取中国开源模型,其国内市场将仅由两三个封闭系统服务,而全球约60亿人口可能选择免费、强大、可自托管且不受禁运的中国AI技术栈。到2030年,中国开源模型或成为全球默认选择,导致美国在技术上自我孤立于世界大多数AI用户。

Rohan Paul@rohanpaul_ai · 5月17日49

Yann LeCun says LLMs aren’t a bubble in value or investment—they’ll drive many real-world applications and justify current infrastructure spend. The actual bubble lies in assuming LLMs can become human-level thinkers.

译杨立昆表示,大语言模型在价值或投资上并非泡沫——它们将推动许多实际应用并证明当前基础设施支出的合理性。 真正的泡沫在于假设大语言模型能成为人类水平的思考者。

Yann LeCun@ylecun · 5月17日49

Tired of winning

译厌倦了胜利 [引用 @DrCatharineY]:美国科学正面临巨大风险。

Yann LeCun@ylecun · 5月16日56

https://www.youtube.com/watch?v=ngBraLDqzdI

译GPT-4o 与 Claude 3.5 Sonnet 实时推理演示对比 https://www.youtube.com/watch?v=ngBraLDqzdI Claude 在数学和编码方面表现更强 GPT-4o 在整体对话和推理方面更出色

Yann LeCun@ylecun · 5月16日71

Fun interview with Jacob Effron on the Unsupervised Learning podcast.

译在Unsupervised Learning播客中,AI先驱杨立昆阐述了其对大型语言模型局限性的反主流观点,并探讨了机器人技术的发展路径。他解释了离开Meta的原因,以及与Geoff Hinton、Yoshua Bengio在图灵奖观点上的重大分歧。访谈还涵盖了他对2027年的预测、新公司AMI对世界模型的押注,并将OpenAI和Anthropic比作Sun Microsystems。此外,他建议博士生停止研究LLM,并分享了对AI安全、突破性研究发生机制以及Meta FAIR得失的尖锐见解。

Berryxia.AI@berryxia · 5月15日67

我刚刷到 Roberto Nickson 的采访视频,还给了人不少“惊喜”。 Meta 刚刚推出 Incognito Chat with Meta AI,号称「全球第一个真正私密的 AI 聊天方式」。 聊天不留记录、不用于训练、不推送广告、不被任何人看到。 这和我们印象里那个靠数据吃饭的 Meta,完全是两个世界。 所以他直接拉来 WhatsApp 负责人 Will Cathcart 和 Meta AI 产品 VP Vishal Shah,当面把所有疑问砸过去: 这到底是不是真的私密? Meta 还能实时看到内容吗? 第三方被攻破怎么办? 这和你们的广告商业模式矛盾吗? 我听完全程后最大的感受是,AI 隐私的真正转折点,可能比我们想象中来得更早、更狠。 Meta 居然主动给自己用户留出一个「什么都能问、什么都不会被记住」的绝对安全空间。 这波操作太反直觉了。

译Meta近日推出Incognito Chat with Meta AI,号称全球首个真正私密的AI聊天方式,承诺聊天内容不留记录、不用于模型训练、不推送广告且不被任何人查看。这一举措与Meta依赖用户数据的商业模式形成鲜明反差。针对其真实私密性、Meta是否仍能访问内容、第三方安全风险及与广告业务的矛盾等核心质疑,采访了WhatsApp负责人Will Cathcart和Meta AI产品副总裁Vishal Shah进行解答。此次推出可能标志着AI隐私保护的重要转折,Meta主动为用户提供“绝对安全”的对话空间,显得颇为反直觉。

meng shao@shao__meng · 5月14日58

Meta 收购 Manus 时,第一反应是: Microsoft 要收购 GenSpark 了吧,这可能是 Microsoft 唯一的选择 但后来 OpenClaw 很快就横空出世,Manus 的产品形态变得更普遍甚至被超越,Meta 一时间变成了“冤大头”,随即后面商务部叫停了收购,Meta 也算是意外免去了损失 在 Hermes Agent 等一众 OpenClaw 接替产品,和 Codex、Claude Code 等不断变成通用 Agent 的时间点,留给 GenSpark 和 Manus 的方向是什么呢?

🚨 AI News | TestingCatalog@testingcatalog · 5月14日62

Meta announces a private Incognito AI Chat in WhatsApp and Meta AI. Additionally, users will be able to use the Sidechat feature to branch a private conversation out from the main thread.

译Meta在WhatsApp和Meta AI中宣布推出私密的隐身AI聊天功能。 此外,用户将能够使用Sidechat功能从主对话分支出一个私人对话。 https://about.fb.com/news/2026/05/incognito-chat-whatsapp-meta-ai/

阿绎 AYi@AYi_AInotes · 5月14日71

Alexandr Wang(Meta Chief AI Officer)亲自官宣, Incognito Chat正式登陆WhatsApp和Meta AI。 我看很多人都在说,哦又出了一个隐身模式, 但我觉得他们其实并没看懂, 这和ChatGPT、Gemini的临时聊天,不是一个量级的东西。 就像以前的隐私模式, 只是不在你的历史里显示, 服务器端照样留几个月日志。 现在的Incognito, 对话直接在手机的硬件安全飞地里推理, Meta自己的工程师都拿不到明文, 连服务器日志都没有, 退出会话,所有东西直接永久消失。 20亿WhatsApp用户的端到端加密金字招牌, 这次直接平移到了AI身上。 最有意思的在于, 靠用户数据吃饭的Meta, 主动把AI对话做成了黑箱。 表面看是自断数据来源, 实际上是直接打掉了AI落地最大的阻力。 这意味着,以前你不敢和AI聊的, 健康问题,婚姻危机,财务决策, 现在终于可以说了。 信任一旦建立, 用户会扔出以前绝不敢写的prompt, 这才是真正能把AI从玩具变成生活基础设施的燃料。 我觉得这会成为未来一年所有AI产品的标配吧 hhh #Meta #AI

译Meta首席AI官宣布,Incognito Chat功能正式登陆WhatsApp和Meta AI。与ChatGPT等仅不保存历史记录的“临时聊天”不同,该功能的关键创新在于:对话推理完全在用户手机的硬件安全飞地内进行,Meta工程师无法获取明文,且不产生任何服务器日志,会话结束后数据永久消失。此举将WhatsApp成熟的端到端加密标准应用于AI对话,旨在彻底解决用户对隐私的顾虑,从而鼓励用户与AI讨论健康、财务等敏感话题。作者认为,通过建立深度信任来获取用户更真实的prompt,是推动AI从“玩具”转变为生活基础设施的关键,并预测此类隐私保护模式将成为未来AI产品的标准配置。

凡人小北@frxiaobei · 5月13日61

今天百度 create 大会上李彦宏提了个新概念,DAA,Daily Active Agents,日活智能体数。 就是字面意思,每天有多少个 AI 智能体在运行、在干活、在交付结果。 对标的是 DAU,以前数有多少人在用你的产品,现在数有多少 agent 在帮人做事。 他的逻辑是现在大家都拿 Token 消耗量衡量 AI,但 Token 就是电费单,只能说明烧了多少钱,不代表做出了什么。DAA 至少在问活干完了没? 我觉得这个切换挺有道理的。 当然最现实的问题是僵尸 agent 算不算日活? 另外,他预测未来全球 DAA 会超过 100 亿。 现在全球 DAU 最高的是 Meta,34 亿人。所以这个数字如果实现,agent 的数量会比网民还多三倍。 有点细思极恐。

译在百度Create大会上,李彦宏提出DAA(日活智能体数)指标,用于衡量每日运行并交付结果的AI智能体数量,以替代仅反映成本消耗的Token。他认为DAA能更有效评估AI实际产出,并预测未来全球DAA将超100亿,远超当前日活用户数,同时提及僵尸agent是否计入日活的现实问题。

Deedy@deedydas · 5月13日58

This is the single best read on World Models and one of the most important reads in AI. $10B has flowed into "world models" in the last 18mos, from Yann LeCun to FeiFei Li. The promise is, like LLMs, world models will provide the data it takes to scale robotics foundation models, and solve robotics. ..but the word has been abused to mean one of many things. This post unpacks: – What 5 traits makes a world model? – How do the different approaches stack up? – What is it used for within and beyond robotics? – Where is the opportunity? – Citations to research, news and blog posts Companies / products in the space include: – BigCo products: Google Genie, Tesla Optimus, Nvidia DreamDojo, DreamZero, Microsoft Muse – Pure world model: AMI Labs, World Labs, Runway, Rhoda, Decart, Spaitial, Odyssey, Embo, Dream Labs, OneWorld – Robot foundation model cos: Skild, Physical Intelligence, Figure, Mind Very likely one of the seminal technologies of the next decade.

译世界模型被视为AI继大语言模型后的关键新范式,过去18个月已获百亿美元投资,其核心承诺是通过规模化数据推动机器人基础模型发展。然而,该术语目前被广泛滥用,含义模糊。本文系统阐述了世界模型的五大特质,对比了不同技术路径,探讨了其在机器人及其他领域的应用与未来机遇。领域参与者包括谷歌Genie、特斯拉Optimus等巨头产品,以及众多专注世界模型或机器人基础模型的初创公司。它很可能成为未来十年的奠基性技术之一。

Berryxia.AI@berryxia · 5月13日56

兄弟们! Meta 今天把实时语音 + 视觉 AI 直接干成了! Muse Spark 驱动的 Meta AI Voice Conversations:! 可以打断、换话题、边聊边生成图、拉内容,还支持实时看世界问问题(相机对准就行)。 马上就要上 Ray-Ban Meta 眼镜了!

译Meta发布了由Muse Spark驱动的Meta AI Voice Conversations,实现实时语音与视觉交互。该功能支持打断对话、切换话题,在聊天过程中生成图像和拉取内容,并能通过相机对准现实世界进行实时视觉问答。这一技术即将集成到Ray-Ban Meta智能眼镜中,提升穿戴设备的AI体验。

🚨 AI News | TestingCatalog@testingcatalog · 5月13日63

META 🔥: Muse Spark will be available within a new Voice Mode and a Live Camera view on the Meta AI app. There, it can generate images, show places on the map, pull data from Reels, and more. Additionally, new features were added to Shopping Mode, including the ability to search Facebook Marketplace. > Muse Spark is starting to gradually roll out on Ray-Ban Meta and Oakley Meta glasses in the US and Canada over the next few weeks, and on Meta Ray-Ban Display this summer. > Muse Spark is starting to bring the same intelligence to Meta AI across WhatsApp, Instagram, Facebook, Messenger, and Threads — in places like search bars, group chats, posts, and more.

译Meta宣布推出由Muse Spark驱动的AI语音对话功能,支持自然语言交流、实时生成图像及从Reels、地图等多源获取信息。该功能将整合至Meta AI应用的新语音模式和实时摄像头视图中,用户可通过摄像头对现实世界进行实时问答。购物模式新增了搜索Facebook Marketplace等能力。Muse Spark将逐步在Ray-Ban Meta等智能眼镜上于美加推出,并于今夏登陆Meta Ray-Ban Display,其智能能力也将扩展至WhatsApp、Instagram等全平台的多类场景中。

向阳乔木@vista8 · 5月11日48

Zuckerberg 在最近的财报电话会上说,Meta 的 Agent 目标是"日夜不停地为用户实现目标"。 与此同时,Meta 还在为 Instagram 单独准备了一个购物 Agent,预计 2026 年底上线,不离开 Feed完成购物。 测试模型用的Claude Opus 4.6 和 Sonnet 4.6 ,但最终估计会用 Meta 自家的 Muse Spark。 https://www.testingcatalog.com/meta-prepares-hatch-agent-under-waitlist-and-social-media-skills/

Noam Brown@polynoamial · 5月9日28

I’m proud to be working at a company being sued by Elon rather than one partnering with him

译我自豪于在一家正被Elon起诉的公司工作, 而非与他合作的公司。

Orange AI@oran_ge · 5月8日41

有点意外马斯克在 xAI 上的第一次尝试竟然失败了 小扎也是失败了一次 过去成功的方法论在大模型领域似乎无法复用

TestingCatalog News 🗞@testingcatalog · 5月7日55

META 🚨: An upcoming always-on AI Agent called "Hatch" from Meta will be available on a waitlist and grounded in social data from Instagram and Facebook. > According to The Information, Meta is targeting internal testing of Hatch by the end of June, with mock environments built to resemble Reddit, Etsy, and DoorDash for training in tool use behavior. > The Financial Times points to Muse Spark, Meta's new assistant-tier model family, as the eventual backbone, with Anthropic's Claude Opus 4.6 and Sonnet 4.6 reportedly serving as a transitional layer in the meantime.

译Meta即将推出名为“Hatch”的常驻AI智能体,目前已开放候补名单。该智能体将基于Instagram和Facebook的社交数据进行训练与信息落地。据披露,内部测试计划于6月底启动,Meta为此构建了模拟Reddit、Etsy和DoorDash的环境,以训练其工具使用行为。技术架构方面,最终将由Meta自家的Muse Spark模型系列作为核心支撑,而在过渡阶段,将暂时采用Anthropic的Claude Opus 4.6和Sonnet 4.6模型作为中间层。

Chubby♨️@kimmonismus · 5月6日75

Meta is building an agentic tools for its more than 3bn users, according to people familiar with the matter, including an advanced digital assistant which will be powered by its new Muse Spark AI model. >Another insider said the goal was to develop a product similar to OpenClaw Via FT

译Meta正在为其超过30亿用户构建代理工具,据知情人士透露,其中包括一款由其新型Muse Spark AI模型驱动的先进数字助手。 >另一位内部人士表示,其目标是开发一款类似于OpenClaw的产品 Via FT

Rohan Paul@rohanpaul_ai · 5月5日62

"Can LLM agents explore codebases and reason about code semantics without executing the code?" Meta discovered that if you force an LLM to show its reasoning step by step with proof, its code patch error rate drops by nearly 50%. The finding is not that models suddenly became deeper thinkers. It is that many code errors come from premature recognition: the model sees a familiar name, such as format, and quietly substitutes the usual meaning before checking the project’s actual files. If you just ask a standard LLM to check the code without running it, the model usually just glances at the function names and makes a confident guess. The paper talks about how when asked to compare 2 different code fixes, the standard AI saw a common word and assumed it meant the normal system tool. Because it skipped reading the actual files, the AI completely missed that this specific project had created its own custom tool with the exact same name. Meta solves this by using a mandatory checklist template that prevents the model from skipping ahead. The model must explicitly write down what the code modifies, trace the exact execution path, and prove its conclusion with specific evidence. This simple change forces the AI to actually read the local files and follow the real logic instead of relying on assumptions. This method pushed accuracy to 93% on real code patches without needing any expensive new training or complex systems. Overall, it shows that a basic structured prompt can give you highly reliable code verification without the massive computational cost of actually running the software tests. ---- Paper Link – arxiv. org/abs/2603.01896 Paper Title: "Agentic Code Reasoning"

译Meta研究发现,强制大语言模型(LLM)在分析代码时遵循检查清单、逐步展示推理证明,能将其代码补丁错误率降低近50%。常见错误源于模型过早识别熟悉名称(如“format”)并直接套用通用含义,而非实际检查项目文件,导致其依赖自信猜测而非深入分析。通过要求模型明确写出修改内容、追踪执行路径并用具体证据证明结论,这一方法迫使其实际阅读本地文件、遵循真实逻辑,从而将准确率提升至93%。该方法无需昂贵的新训练或复杂系统,仅通过基本的结构化提示即可实现高可靠性的代码验证,节省了运行软件测试的巨大计算成本。

Ethan Mollick@emollick · 5月5日58

I think the fact that GPT-4o and Llama 3.3-80B did no significant harm is just as important as whether AI helped. If older (less accurate & more sycophantic) chatbots essentially did nothing for people who followed their advice, it means that there is less risk of harm as well.

译一项研究显示,大多数参与者在与AI进行20分钟关于健康、职业或人际关系的讨论后会采纳其建议,但2-3周后并未表现出持续的幸福感提升。这表明大型语言模型对现实个人决策具有显著影响力,却未能带来可衡量的心理益处。对此,主推文观点认为,像GPT-4o和Llama 3.3-80B这类先进模型未造成显著危害,其重要性不亚于AI是否提供了帮助。同时指出,若旧版(准确性较低、更谄媚的)聊天机器人的建议对采纳者基本无效,则意味着其造成危害的风险也较低。这凸显了评估AI影响需同时考量其帮助潜力和潜在风险。

elvis@omarsar0 · 5月4日66

Autodata (from Meta) is an agentic data scientist that builds high-quality training and evaluation data autonomously. Great work on the autoharness track. (bookmark it)

译Meta FAIR开发的Autodata是一个能自主构建高质量训练与评估数据的代理系统。其核心在于“代理式自我指导”循环:编排器LLM指导挑战者代理基于领域文档生成问题,由弱、强解算器尝试解答,法官评分后分析失败并循环优化,从而产出能有效区分模型能力的挑战性数据。在CS研究QA任务中,该方法产生了34个百分点的性能差距,远超标准方法的1.9点。系统还具备元优化能力,通过外循环调整指令,将验证通过率从12.8%提升至42.4%。研究处理了超万篇论文,产出2,117个优质QA对,通过增加推理计算使数据更具挑战性,从而提升下游模型性能。

Yann LeCun@ylecun · 5月3日26

https://youtu.be/kYkIdXwW2AE?si=hV2ANEl-wPh1MSU1

译视频演示了 GPT-4o 和 Claude 3.5 Sonnet 的并列对比 https://youtu.be/kYkIdXwW2AE?si=hV2ANEl-wPh1MSU1

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月26日
23:03
Rohan Paul@rohanpaul_ai
61
论文提出Self-play SWE-RL方法,通过自我博弈提升软件智能体能力

Meta、CMU等机构在论文中提出了Self-play SWE-RL方法。该方法让编程智能体通过“自我博弈”生成训练数据,而非仅依赖人工标注的问题。具体而言,一个模型探索代码库、注入bug并留下测试用例来描述问题;另一个模型则学习根据测试修复系统。其中,测试成为了描述问题的核心语言。该方法在SWE-bench Verified上提升了+10.4分,在SWE-Bench Pro上提升了+7.8分。值得注意的是,评估使用了该系统未训练过的自然语言问题,表明其可能学到了更深层的软件理解能力。

智能体arXivMeta编码
22:33
Rohan Paul@rohanpaul_ai
57
AutoResearchClaw:支持人机协作的自主研究框架

Meta、斯坦福等机构提出AutoResearchClaw,这是一个通过AI智能体进行自主研究的框架。其核心理念是将科研过程转化为一个受流程约束的循环,而非简单的生产线。系统整合了辩论、修复、验证、记忆和选择性的人类反馈,并将失败视为有效证据。在ARC-Bench基准测试中,该系统在结果分析等任务上性能比AI Scientist v2提升54.7%。人类协作实验显示:CoPilot模式(适时介入)接受率达87.5%,完全自主仅25%,逐步监督为50%。一个关键失败案例揭示了当所有交叉验证方法返回相同零偏差输出时,系统虽通过数值验证却失去了科学意义,凸显了人类判断的关键作用。

智能体GoogleMeta论文/研究
14:27
Berryxia.AI@berryxia
50
扎克伯格批评苹果创新停滞

扎克伯格在播客中批评苹果自iPhone后创新停滞,称其只是在吃乔布斯留下的老本。他指出iPhone升级体验提升有限,用户换机周期延长;AirPods虽成功但苹果通过封闭生态限制第三方接入。苹果ATT政策导致Meta广告收入损失超100亿美元,双方在Vision Pro与Quest等领域存在竞争。扎克伯格正推动Meta在AI眼镜、开源大模型如Llama等方向发展。

dank: Mark Zuckerberg says Apple's lack of innovation since the iPhone will lead to its decline "They haven't really invented ...

Meta现象/趋势
04:58
Rohan Paul@rohanpaul_ai
65
AI智能体以代码为主要工作层时性能更佳

Meta、斯坦福与伊利诺伊的研究论文指出,AI智能体在将代码作为主要工作层时性能更佳。论文认为,大语言模型(LLM)作为文本预测器,在处理长任务时存在状态丢失、错误隐蔽等问题。真正的进步并非“AI写代码”,而是“AI在代码环境中思考”。论文的核心是提出一个以代码为中心的“智能体框架”,即工具、记忆、沙箱等系统。在此框架中,测试成为传感器,代码库成为记忆,日志成为历史,沙箱成为边界。生成的脚本成为可运行、检查、修改和共享的操控对象。总结发现,代码能通过可执行步骤帮助智能体推理,通过工具调用行动,并通过测试、日志等对环境进行建模。

智能体arXivMeta编码
5月25日
00:57
Chubby♨️@kimmonismus
57
科技业裁员潮与AI基建狂飙

2026年科技行业出现大规模裁员,多家公司公开将人力成本转向AI投资。Meta裁员8000人,同时投入1000亿美元建设AI数据中心;Cisco CEO称裁员4000人已是“乐观地低”;Intuit裁员3000人以重构业务,但对媒体否认“因AI裁员”。据统计,今年已有超10万科技岗位流失,TrueUp预测全年可能达37万。推文指出,核心变化在于公司不再避讳,正公开地将人力预算“转换为GPU集群”。

Meta行业动态部署/工程
5月23日
22:57
Rohan Paul@rohanpaul_ai
60
智能体编程的测试时计算规模化

Meta研究发现,在编程智能体任务中,通过复用过往尝试的简短摘要,其性能显著优于使用原始日志。该论文指出,对于长程编程任务,主要瓶颈已从代码生成转向了如何有效记忆与表示智能体的工作过程。其方法是将每次充满错误的“混乱轨迹”转化为包含核心假设、进展与失败点的紧凑摘要,系统通过锦标赛式选择最佳摘要来指导新一轮尝试。在Claude 4.5 Opus的测试中,该方法使其在SWE-Bench Verified上的得分从70.9%大幅提升至77.6%,证明提升性能的关键在于以可复用的形式存储经验。

智能体Meta编码论文/研究
5月21日
13:14
Rohan Paul@rohanpaul_ai
69
工程师经验成AI燃料:Meta用员工工作痕迹训练模型

Meta正利用内部工程师的工作痕迹——如代码编写、工具使用和问题解决步骤——来训练其编程AI。CEO扎克伯格认为,让AI观察“聪明人”执行任务(行为克隆),比使用外部承包商代码样本更有效。同时,Meta正裁员约8000人,并计划让约7000名员工转向AI相关岗位。此举反映科技行业新趋势:公司正将人类专业知识直接转化为训练数据,AI不再只是工具,而是能吸收并压缩员工工作模式的系统。

More Perfect Union: LEAKED AUDIO: In an all-hands meeting on April 30, Mark Zuckerberg tells employees that he's training AI on them ahead o...

Meta数据/训练行业动态
03:36
Rohan Paul@rohanpaul_ai
精选75
Meta万人重组:裁员与AI转型并举

Meta启动大规模裁员,计划削减约8000个岗位。与此同时,约7000名员工将被调配至新的AI相关职位。此次调整并非单纯的削减成本,更是公司围绕AI进行内部结构重塑的关键举措,重点将资源集中于AI基础设施、基础模型的构建以及AI技术的商业化,旨在打造从模型训练、产品开发到实现盈利的完整链条。

Meta行业动态
关联讨论 2 条IT之家(RSS)Hacker News 热门(buzzing.cc 中文翻译)
推荐理由:Meta一边裁8000人一边转7000人做AI,说明AI已经不是探索项目,而是核心业务,缩减成本同时把人力投向模型、基建和变现,所有大厂都在用这种方式为AI让路。
03:36
Rohan Paul@rohanpaul_ai
74
Meta裁员8000人并重组团队,全力押注AI

扎克伯格在给员工的备忘录中表示,裁员8000人是因为“成功并非必然”,AI是决定性技术,领先企业将定义下一代。此次裁员与公司重组相关:Meta在裁减岗位的同时,将约7000名员工转向AI相关的新岗位,重塑公司结构以聚焦AI基础设施、基础模型开发及AI变现。扎克伯格对离开的员工表示感谢,并重申Meta拥有定义未来的实力。他承诺今年不会再有全公司范围的裁员,同时承认公司沟通方式有待改进。

Rohan Paul: CNBC: Meta starts major cuts with 8,000 layoffs as AI shakes the tech giant. Along with the layoffs, around 7,000 employ...

Meta行业动态
01:56
AYi@AYi_AInotes
68
Meta泄露音频:员工培训AI后遭裁员,信任危机

近日,Meta CEO扎克伯格的内部音频泄露,他承认公司秘密收集员工键盘、鼠标和屏幕数据,用于训练Llama等AI模型,因Meta员工智力高可提升模型能力。然而,数据收集约20天后,Meta裁员8000人,引发“企业食人主义”批评:员工在不知情下训练可能取代自己的AI,资本剥削从时间升级到智慧。这损害了员工信任,揭示了AI时代高效但冷酷的用人逻辑——员工越优秀,其价值被快速榨取并抛弃的风险越高。

More Perfect Union: LEAKED AUDIO: In an all-hands meeting on April 30, Mark Zuckerberg tells employees that he's training AI on them ahead o...

Meta数据/训练现象/趋势
00:35
Chubby♨️@kimmonismus
68
事情开始了 【引用 @kimmonismus】:重磅:Meta 4月30日全员会议泄露音频: 扎克伯格告诉员工,公司正在利用他们训练AI模型,随后大规模裁员即将开始。 他的理由是?Meta的工程师比任何外部劳动力都聪明,让他们在内部解决编码任务,能让Meta的模型比竞争对手更好、更快。 裁员预计在周三凌晨4点进行。先培训你的替代者,然后被请走。这就是现在的规矩。

Chubby♨️: Holy: Leaked audio from a Meta all-hands on April 30: Zuckerberg told employees the company is using them to train AI mo...

Meta数据/训练行业动态
00:06
SemiAnalysis@SemiAnalysis_
46
消息人士向SemiAnalysis透露,Mark Zuckerberg今早在Meta内部发文表示:"我想明确说明,我们预计今年不会再有全公司范围的裁员。"
Meta行业动态
5月20日
20:05
Chubby♨️@kimmonismus
63
泄露的Meta内部音频显示,CEO扎克伯格在4月30日的全员会议上向员工表示,公司正在利用他们的工作成果来训练AI模型,随后即将启动大规模裁员。其核心论点是,Meta工程师的平均智力远高于外部可雇佣的群体,让这些顶尖人才在内部完成编码等任务,能更快速、更有效地提升公司AI模型的编程能力,从而超越竞争对手。裁员计划预计在周三凌晨启动,员工需先完成对替代者的培训。

More Perfect Union: LEAKED AUDIO: In an all-hands meeting on April 30, Mark Zuckerberg tells employees that he's training AI on them ahead o...

Meta数据/训练行业动态
15:05
Rohan Paul@rohanpaul_ai
51
OpenClaw + Meta Ray-Ban眼镜。 该设置利用Ray-Ban眼镜的内置摄像头实现第一人称视角。语音输入触发Gemini Live解读佩戴者所见,随后将任务路由至OpenClaw,最终完成购买。
智能体GoogleMeta多模态
02:28
向阳乔木@vista8
62
LeCun从Meta离职创业,押注"反LLM"架构方向

Yann LeCun离职Meta后创办AMI,押注基于世界模型的JEPA架构,与主流LLM不同。他批评LLM虽在语言任务有效,但缺乏预测行动后果和规划能力,无法真正理解物理世界且结构上不安全。LeCun倡导在抽象表示空间进行预测的自监督学习,以推动智能泛化。同时,他推进Tapestry项目,通过联邦学习构建去中心化的全球共识模型,应对AI控制集中化问题。

Meta大佬观点推理
5月19日
20:52
AYi@AYi_AInotes
64
Damn it!SAM3绝逼要封神了! 不但开源而且强的一批! 最牛逼的地方是追踪能力, 即使在篮球比赛这种 复杂到爆炸的场景里也稳得一逼!!
Meta开源生态模型发布视频
02:09
elvis@omarsar0
67
Meta新系统双代理协同,自动设计超越Llama 3.2的神经架构

Meta提出AIRA系统,通过分离策略与实现的双代理架构,实现神经架构的自主发现。AIRA-Compose负责宏观架构搜索,AIRA-Design专注低级机制实现。该系统在24小时计算预算内,于350M、1B和3B规模上找到超越Llama 3.2的架构。其核心方法论表明,在复杂任务中分离规划代理与实现代理能提升效能,此思路同样适用于流水线组装、查询规划等其他AI代理场景。

智能体Meta数据/训练论文/研究
5月18日
07:54
Berryxia.AI@berryxia
54
Yann LeCun预测12-18个月内将出现分层世界模型通用训练方法

Meta AI首席科学家Yann LeCun预测,未来12到18个月内将出现训练分层世界模型的通用方法。这些模型将从视频和真实世界数据中学习,具备理解物理因果和规划行动的能力,可应用于机器人、医疗等多个领域解决实际问题。最终目标是将其扩展为通用的世界模型。这标志着AI研究重点可能从当前以LLM为代表的“会聊天”模型,转向能够理解并作用于物理世界的“会做事”模型。

Haider.: Yann LeCun says that within a year to 18 months, we'll have a general method for training hierarchical world models Thes...

Meta具身智能大佬观点
02:01
Yann LeCun@ylecun
64
推文警告,若西方无法尽快出现可信的开源前沿AI参与者,后果将迅速扩散。这与早期互联网格局相反:过去西方科技巨头主导全球,而中国自建生态;AI时代可能逆转这一态势。若无西方开源力量,能够支撑整个经济体的开源模型将仅由中国提供。若美国以国家安全为由进一步限制获取中国开源模型,其国内市场将仅由两三个封闭系统服务,而全球约60亿人口可能选择免费、强大、可自托管且不受禁运的中国AI技术栈。到2030年,中国开源模型或成为全球默认选择,导致美国在技术上自我孤立于世界大多数AI用户。

Daniel Jeffries: I don't think people understand just how bad it will be if an American open source champion doesn't emerge soon and the ...

Meta大佬观点开源生态
5月17日
17:10
Rohan Paul@rohanpaul_ai
49
杨立昆表示,大语言模型在价值或投资上并非泡沫--它们将推动许多实际应用并证明当前基础设施支出的合理性。 真正的泡沫在于假设大语言模型能成为人类水平的思考者。
Meta大佬观点现象/趋势
01:58
Yann LeCun@ylecun
49
厌倦了胜利 【引用 @DrCatharineY】:美国科学正面临巨大风险。

Dr. Catharine Young: American science is at extraordinary risk. NIH has awarded less than half as many grants as it has compared to the past ...

Meta大佬观点政策/监管
5月16日
02:28
Yann LeCun@ylecun
56
GPT-4o 与 Claude 3.5 Sonnet 实时推理演示对比 https://www.youtube.com/watch?v=ngBraLDqzdI Claude 在数学和编码方面表现更强 GPT-4o 在整体对话和推理方面更出色
Meta大佬观点
01:58
Yann LeCun@ylecun
71
在Unsupervised Learning播客中,AI先驱杨立昆阐述了其对大型语言模型局限性的反主流观点,并探讨了机器人技术的发展路径。他解释了离开Meta的原因,以及与Geoff Hinton、Yoshua Bengio在图灵奖观点上的重大分歧。访谈还涵盖了他对2027年的预测、新公司AMI对世界模型的押注,并将OpenAI和Anthropic比作Sun Microsystems。此外,他建议博士生停止研究LLM,并分享了对AI安全、突破性研究发生机制以及Meta FAIR得失的尖锐见解。

Jacob Effron: It's hard to imagine more of a dream Unsupervised Learning guest than @ylecun. Yann is one of the godfathers of AI, and ...

Meta大佬观点现象/趋势
5月15日
00:51
Berryxia.AI@berryxia
67
Meta推出全球首个私密AI聊天功能Incognito Chat with Meta AI

Meta近日推出Incognito Chat with Meta AI,号称全球首个真正私密的AI聊天方式,承诺聊天内容不留记录、不用于模型训练、不推送广告且不被任何人查看。这一举措与Meta依赖用户数据的商业模式形成鲜明反差。针对其真实私密性、Meta是否仍能访问内容、第三方安全风险及与广告业务的矛盾等核心质疑,采访了WhatsApp负责人Will Cathcart和Meta AI产品副总裁Vishal Shah进行解答。此次推出可能标志着AI隐私保护的重要转折,Meta主动为用户提供“绝对安全”的对话空间,显得颇为反直觉。

Roberto Nickson: Meta just launched Incognito Chat with Meta AI - the world's first truly private way to chat with AI. But I had a lot of...

Meta产品更新安全/对齐
5月14日
23:15
meng shao@shao__meng
58
科技并购变局与AI代理未来方向

Meta 收购 Manus 时,第一反应是: Microsoft 要收购 GenSpark 了吧,这可能是 Microsoft 唯一的选择 但后来 OpenClaw 很快就横空出世,Manus 的产品形态变得更普遍甚至被超越,Meta 一时间变成了“冤大头”,随即后面商务部叫停了收购,Meta 也算是意外免去了损失 在 Hermes Agent 等一众 OpenClaw 接替产品,和 Codex、Claude Code 等不断变成通用 Agent 的时间点,留给 GenSpark 和 Manus 的方向是什么呢?

Eric Jing: I'm very happy to have been invited to the Microsoft CEO Summit, and to see my former boss Satya again. ❤️

智能体MetaMicrosoft大佬观点
05:37
🚨 AI News | TestingCatalog@testingcatalog
62
Meta在WhatsApp和Meta AI中宣布推出私密的隐身AI聊天功能。 此外,用户将能够使用Sidechat功能从主对话分支出一个私人对话。 https://about.fb.com/news/2026/05/incognito-chat-whatsapp-meta-ai/

Meta Newsroom: Today, we're launching Incognito Chat with Meta AI on @WhatsApp and the Meta AI app, a new way to have completely privat...

Meta产品更新
01:39
阿绎 AYi@AYi_AInotes
71
Meta首席AI官官宣WhatsApp和Meta AI推出Incognito Chat

Meta首席AI官宣布,Incognito Chat功能正式登陆WhatsApp和Meta AI。与ChatGPT等仅不保存历史记录的“临时聊天”不同,该功能的关键创新在于:对话推理完全在用户手机的硬件安全飞地内进行,Meta工程师无法获取明文,且不产生任何服务器日志,会话结束后数据永久消失。此举将WhatsApp成熟的端到端加密标准应用于AI对话,旨在彻底解决用户对隐私的顾虑,从而鼓励用户与AI讨论健康、财务等敏感话题。作者认为,通过建立深度信任来获取用户更真实的prompt,是推动AI从“玩具”转变为生活基础设施的关键,并预测此类隐私保护模式将成为未来AI产品的标准配置。

Alexandr Wang: incognito chat with meta ai coming to WhatsApp + Meta AI app! people use AI to discuss personal topics and we want to ma...

Meta安全/对齐现象/趋势
5月13日
18:35
凡人小北@frxiaobei
61
李彦宏提出新概念DAA:日活智能体数

在百度Create大会上,李彦宏提出DAA(日活智能体数)指标,用于衡量每日运行并交付结果的AI智能体数量,以替代仅反映成本消耗的Token。他认为DAA能更有效评估AI实际产出,并预测未来全球DAA将超100亿,远超当前日活用户数,同时提及僵尸agent是否计入日活的现实问题。

智能体Meta大佬观点
12:27
Deedy@deedydas
58
世界模型:AI下一范式与重要解读

世界模型被视为AI继大语言模型后的关键新范式,过去18个月已获百亿美元投资,其核心承诺是通过规模化数据推动机器人基础模型发展。然而,该术语目前被广泛滥用,含义模糊。本文系统阐述了世界模型的五大特质,对比了不同技术路径,探讨了其在机器人及其他领域的应用与未来机遇。领域参与者包括谷歌Genie、特斯拉Optimus等巨头产品,以及众多专注世界模型或机器人基础模型的初创公司。它很可能成为未来十年的奠基性技术之一。

GoogleMeta具身智能多模态
08:49
Berryxia.AI@berryxia
56
Meta推出实时语音视觉AI,即将登陆Ray-Ban眼镜

Meta发布了由Muse Spark驱动的Meta AI Voice Conversations,实现实时语音与视觉交互。该功能支持打断对话、切换话题,在聊天过程中生成图像和拉取内容,并能通过相机对准现实世界进行实时视觉问答。这一技术即将集成到Ray-Ban Meta智能眼镜中,提升穿戴设备的AI体验。

Meta产品更新多模态语音
05:05
🚨 AI News | TestingCatalog@testingcatalog
63
Meta推出Muse Spark驱动的AI语音对话与实时视觉交互功能

Meta宣布推出由Muse Spark驱动的AI语音对话功能,支持自然语言交流、实时生成图像及从Reels、地图等多源获取信息。该功能将整合至Meta AI应用的新语音模式和实时摄像头视图中,用户可通过摄像头对现实世界进行实时问答。购物模式新增了搜索Facebook Marketplace等能力。Muse Spark将逐步在Ray-Ban Meta等智能眼镜上于美加推出,并于今夏登陆Meta Ray-Ban Display,其智能能力也将扩展至WhatsApp、Instagram等全平台的多类场景中。

Meta Newsroom: Today we're introducing Meta AI Voice Conversations powered by Muse Spark that let you talk naturally to Meta AI (interr...

Meta产品更新图像生成多模态
5月11日
17:20
向阳乔木@vista8
48
Zuckerberg 在最近的财报电话会上说,Meta 的 Agent 目标是"日夜不停地为用户实现目标"。 与此同时,Meta 还在为 Instagram 单独准备了一个购物 Agent,预计 2026 年底上线,不离开 Feed完成购物。 测试模型用的Claude Opus 4.6 和 Sonnet 4.6 ,但最终估计会用 Meta 自家的 Muse Spark。 https://www.testingcatalog.com/meta-prepares-hatch-agent-under-waitlist-and-social-media-skills/
智能体Meta产品更新
5月9日
04:25
Noam Brown@polynoamial
28
我自豪于在一家正被Elon起诉的公司工作, 而非与他合作的公司。
Meta大佬观点行业动态
5月8日
21:17
Orange AI@oran_ge
41
有点意外马斯克在 xAI 上的第一次尝试竟然失败了 小扎也是失败了一次 过去成功的方法论在大模型领域似乎无法复用
MetaxAI大佬观点
5月7日
22:41
TestingCatalog News 🗞@testingcatalog
55
Meta即将推出常驻AI智能体"Hatch",基于社交数据训练

Meta即将推出名为“Hatch”的常驻AI智能体,目前已开放候补名单。该智能体将基于Instagram和Facebook的社交数据进行训练与信息落地。据披露,内部测试计划于6月底启动,Meta为此构建了模拟Reddit、Etsy和DoorDash的环境,以训练其工具使用行为。技术架构方面,最终将由Meta自家的Muse Spark模型系列作为核心支撑,而在过渡阶段,将暂时采用Anthropic的Claude Opus 4.6和Sonnet 4.6模型作为中间层。

智能体AnthropicMCP/工具Meta
5月6日
03:57
Chubby♨️@kimmonismus
精选75
Meta正在为其超过30亿用户构建代理工具,据知情人士透露,其中包括一款由其新型Muse Spark AI模型驱动的先进数字助手。 >另一位内部人士表示,其目标是开发一款类似于OpenClaw的产品 Via FT
智能体Meta行业动态

推荐理由:如果 Meta 真把 AI 助手塞进 30 亿人的日常应用,那就是 AI 时代的「全民普及」节点。现在只是知情人士放风,光听信号别急掏钱。
5月5日
20:18
Rohan Paul@rohanpaul_ai
62
结构化提示如何让大语言模型更准确地理解代码语义

Meta研究发现,强制大语言模型(LLM)在分析代码时遵循检查清单、逐步展示推理证明,能将其代码补丁错误率降低近50%。常见错误源于模型过早识别熟悉名称(如“format”)并直接套用通用含义,而非实际检查项目文件,导致其依赖自信猜测而非深入分析。通过要求模型明确写出修改内容、追踪执行路径并用具体证据证明结论,这一方法迫使其实际阅读本地文件、遵循真实逻辑,从而将准确率提升至93%。该方法无需昂贵的新训练或复杂系统,仅通过基本的结构化提示即可实现高可靠性的代码验证,节省了运行软件测试的巨大计算成本。

Meta推理编码论文/研究
01:26
Ethan Mollick@emollick
58
一项研究显示,大多数参与者在与AI进行20分钟关于健康、职业或人际关系的讨论后会采纳其建议,但2-3周后并未表现出持续的幸福感提升。这表明大型语言模型对现实个人决策具有显著影响力,却未能带来可衡量的心理益处。对此,主推文观点认为,像GPT-4o和Llama 3.3-80B这类先进模型未造成显著危害,其重要性不亚于AI是否提供了帮助。同时指出,若旧版(准确性较低、更谄媚的)聊天机器人的建议对采纳者基本无效,则意味着其造成危害的风险也较低。这凸显了评估AI影响需同时考量其帮助潜力和潜在风险。

Jay Van Bavel, PhD: Most participants who had a 20-minute discussion with AI chatbots about health, careers or relationships followed its ad...

MetaOpenAI大佬观点安全/对齐
5月4日
23:24
elvis@omarsar0
66
Meta FAIR开发的Autodata是一个能自主构建高质量训练与评估数据的代理系统。其核心在于"代理式自我指导"循环:编排器LLM指导挑战者代理基于领域文档生成问题,由弱、强解算器尝试解答,法官评分后分析失败并循环优化,从而产出能有效区分模型能力的挑战性数据。在CS研究QA任务中,该方法产生了34个百分点的性能差距,远超标准方法的1.9点。系统还具备元优化能力,通过外循环调整指令,将验证通过率从12.8%提升至42.4%。研究处理了超万篇论文,产出2,117个优质QA对,通过增加推理计算使数据更具挑战性,从而提升下游模型性能。

DAIR.AI: Banger paper from Meta FAIR. They introduce Autodata, an agentic data scientist that builds high-quality training and ev...

智能体Meta数据/训练论文/研究
5月3日
04:21
Yann LeCun@ylecun
26
视频演示了 GPT-4o 和 Claude 3.5 Sonnet 的并列对比 https://youtu.be/kYkIdXwW2AE?si=hV2ANEl-wPh1MSU1
Meta大佬观点
‹ 上一页
1234
下一页 ›