Training image models requires a surprising amount of Tinkering: prototyping reward models, training a prompt expander, ...
Training image models requires a surprising amount of Tinkering: prototyping reward models, training a prompt expander, ...
加州首个AI失业追踪器研究发现,在LLM可承担主要任务份额的暴露岗位中,高学历人群的失业救济申请上升20%。湾区高暴露岗位申请增长超50%,且持续高于全州水平。信息与专业服务及金融行业承受压力最大。但研究者von Wachter指出,全州范围内并未出现大规模裁员潮。白领岗位风险真实存在,但影响集中在大学毕业生、湾区和科技行业,并非均匀分布。
AI基础模型竞赛焦点从“谁有最大模型”转向“哪种架构能超越Transformer”。核心分界线是继续扩展Transformer还是转入后Transformer阵营。两大维度:范围(通用vs领域模型)和架构(Transformer vs后Transformer)。Transformer仍主导,但注意力机制随上下文增长成本激增,而实际产品需要长记忆、低延迟、持续交互。前沿实验室不再只问谁能训练最大模型,而是追问智能是否需要不同的运行节奏。这场架构之争将在未来2年定义行业格局。
In many ways, finetuning or RLing a custom model is a bet against model progress and scaling. It's to choose to say "we ...
Ivo Benchmarks 正式发布,利用公司全部合同谈判历史来审查和修订协议。它将资深律师的私人判断(如不接受某赔偿条款、更短的续约窗口通常可行)转化为文档化的机构记忆,通过对比当前条款与公司过往实际立场,在律师审阅时提供实时指导。该工具由 Ivo 团队与全球领先企业合作开发,解决企业拥有数百万份合同却缺乏反馈循环的痛点。
Introducing Ivo Benchmarks. Benchmarks reviews and redlines agreements by drawing upon your company's entire history of ...
美团发布并开源LongCat-2.0,1.6万亿总参数、480亿激活参数(3%)的MoE大模型。使用35万亿token训练,在5万片国产芯片上“全程无回滚”完成。引入LongCat稀疏注意力(LSA),包含流感知索引、跨层索引和层级化索引,解决长文本注意力瓶颈。采用5-gram N-gram Embedding增加135B参数,在不增加MoE专家竞争的情况下增强局部上下文理解。训练使用6D并行技术适配国产算力。计划2026年6月30日发布并开源。
由 LayerProof 推出的 Bristol 项目,旨在用可交互 HTML 报告替代传统静态 PDF。用户可上传数据后通过聊天调整分析角度、语气和图表,支持视觉编辑器点选修改。每个数字可溯源,支持实时更新。其“可视化处理”据称比纯文本处理快 6 万倍,更擅长图表驱动的数据叙事,适合咨询、分析、运营团队制作持续可互动的报告资产。
Anthropic 封杀所有浙江和杭州 IP 的 Claude 访问,可能与上周指责阿里利用 25000+ 账号大规模蒸馏 Claude 数据有关。从 4 月 22 日到 6 月 5 日,交互次数超过 2880 万次。封杀邮件还内置追踪器,点开即确认用户位置,申诉也无法解封。
AI at scale is constrained by physical inputs, and China has more slack in electricity plus dominant control over severa...
全球高质量真实物理交互数据截至2026年初仅约50万小时,不足大语言模型训练数据的两万分之一,而训练通用机器人需千万小时级别,因此大量人工采集成为必需。该岗位无学历经验要求,面试先问身高体重(因手套固定规格),通过率极高。试岗需穿戴设备进行遥操作或示教采集,重复叠衣服、分拣积木等简单动作。兼职日结,吸引各行各业的人。作者小伙伴达达亲身体验,感叹其魔幻与现实。
Some of you guessed right. 👀 Owl Alpha on @OpenRouter - that's us. Since going live, it has reached Top 3 globally by d...
关联讨论 9 条X:硅基流动 SiliconFlow (@SiliconFlowAI)X:美团 LongCat (@Meituan_LongCat)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)公众号:龙猫LongCat(美团)Figure 公司 CEO Brett Adcock 表示,若能获得大量数据,就能解决通用机器人问题。他认为物理 AI / 机器人领域的真正瓶颈不是更好的模型,而是更好的机器人数据基础设施。CyberOrigin 推出的 CyberCode 正是为解决该问题构建:将真实的人类操作数据转化为可搜索、可检查、可追溯、多模态信号精准同步、质量检查、评估就绪的运营层。机器人策略、世界模型和视觉-语言-动作模型只能从数据系统暴露的结构、覆盖范围、时序和质量中学习,因此更好的数据基础设施与更好的模型架构同等重要。
The Information报道,Meta已限制工程师使用Anthropic的Claude Code和OpenAI的Codex,原因是为防止竞争对手模型输出污染Meta自身AI训练数据,并引发合同纠纷。OpenAI和Anthropic的服务条款均禁止使用其输出来开发竞争模型。知识蒸馏风险在于即使意外复用竞品输出也可能被视为从竞争对手提取能力。建议的策略包括成分追踪:仅在不用于模型训练管线、评测集、基准生成、后训练数据、奖励模型数据及内部数据集时才使用竞品工具。典型防护措施有隔离规则、企业账户审批、训练数据溯源日志、数据集隔离及自动扫描“AI生成”标记等。
Meta 正面临每个 AI 公司都会遇到的难题:想用内部系统 MetaCode 取代 Claude Code、Codex 等昂贵的外部编码工具,但在构建更好的编码模型时,必须确保不意外地使用竞争对手模型的输出进行训练或评估。这就是知识蒸馏陷阱——公司越依赖前沿模型建设内部 AI 基础设施,就越难证明智能来源的独立性。
福特过去三年召回350名退休/离职资深工程师(gray beard),负责带新人并重新调教未达预期的AI质检系统。整车工程副总裁Charles Poon承认曾错误认为引入AI就能产出高质量产品。效果立竿见影:福特时隔16年重返JD Power新车质量榜主流品牌第一(从第10升至第1),F-150、Super Duty、Mustang分别拿下品类冠军,预计今年节省约10亿美元质保和召回成本。福特未抛弃AI,正新增约10万项评估模拟更多路况。
Ford rehires 'gray beard' engineers after AI falls short https://techcrunch.com/2026/06/28/ford-rehires-gray-beard-engin...
剑桥大学、NVIDIA等机构发表新论文《The Red Queen Gödel Machine》,提出让AI智能体与评估者协同进化,避免固定基准导致的分数停滞或易被利用。每轮训练中,评估者冻结,同时用留出的人类/客观答案单独训练更强评估者,在安全交接点更新。在编程任务上,系统以1.35×-1.72×更少token超越此前最佳自改进编程智能体;论文写作中,协同进化的写作者获得审稿小组约1.86倍的平均接收率提升。论文强调更强AI需要更强的评估者与之共同成长。
中国开发者通过灰色市场API中转站以官方价格5%-10%购买Claude token。中转站利用免费额度、折扣账户、共享订阅、海外支付绕过、虚假验证及盗刷信用卡汇集多个账户,通过微信/支付宝收款。低价源于账户农场、免费额度滥用、未使用配额转售、订阅拆分及可能盗刷信用卡,并可能将用户提示词和输出用作训练数据创收。风险包括:中转站可能替换为更弱模型、虚报token用量、存储用户私有数据并出售或用于模型训练。这破坏了KYC、账户封禁和滥用监控的有效性——Anthropic只能封禁中转站,无法触及真实用户。
马斯克宣布Grok 4.5基于1.5T V9基础模型,并在补充训练中加入Cursor数据,现已于SpaceX和Tesla进入私人测试。早期评估显示其性能接近甚至可能超过Opus。RL持续显著优化模型,Grok Build工具每日改进。此外,SpaceX今年将每月发布完全从零训练的新模型。
Grok 4.5, based on our 1.5T V9 foundation model, with Cursor data added in supplemental training, is now in private beta...
LoanLens从六类借款人文档抽取结构化字段,进行欺诈检测与可解释评分,并附带案件RAG问答。采用Schema驱动抽取,可追溯字段来源;欺诈检测包括姓名TF-IDF比对和护照篡改检测;评分透明(信用23%、DTI 23%等),≥60批准,40–59复核,<40拒绝。
http://x.com/i/article/2070766331306332160
Grok 4.5, based on our 1.5T V9 foundation model, with Cursor data added in supplemental training, is now in private beta...
论文提出RiVER方法,让LLM从没有已知标准答案的问题中学习编码行为。RiVER使模型编写多个程序,在相同隐藏测试上运行,奖励表现较优者。关键是对每个测试用例内的程序排序,给最优者额外权重,其他有效程序也获得较小分级反馈,避免因原始分数数值差异扭曲训练。在12个AtCoder Heuristic Contest任务上,RiVER同时提升了基于分数的竞赛表现和常规通过/失败编码基准测试。arXiv:2606.27369。