作者Jason Liu发现自己在脑海中就可以进行类似AI图像生成的体验,无需打开应用写提示词。他举例:看到咖啡店窗边的橙猫和牛角面包后,直接想象出暖光、浅景深、胶片颗粒等电影感画面,甚至“脑补”了猫戴贝雷帽。他猜测AI的Codex使用图像生成时可能也是类似的内部感受。
Georgi Gerganov 在 Hacker News 评论中表示,Qwen3.6-27B 是 100% 胜任的本地编码模型。过去一个半月他几乎每天在 M2 Ultra 或 RTX 5090 上使用该模型处理 ggml-org 的日常小任务。目前他采用轻量级 harness —— 精简版 pi agent(pi -nc --offline),配合简短系统提示来对齐个人编码风格。
WordPress VIP基于2000名受访者的调查显示,60%美国消费者认为品牌消息中出现“AI”会令人反感,86%不完全信任AI并仍想查看原始来源。42%表示缺乏明确归属的AI生成答案比航空公司费用、隐私政策和医疗账单更不可信。近四分之三受访者认为互联网比十年前更不人性化。33%将点击查看原始来源视为首要信任信号,80%认为网络信息应保持开放可访问。企业方面,60%受访企业称来自AI搜索引擎和答案平台的流量在过去一年增加,74%企业决策者将AI可发现性和归属列为主要或重要优先级。
Rohan Paul引用Charlotte Xia的博客,讨论Jim Fan的“Great Parallel”论点:具身AI将像LLM一样扩展。与语言不同,文本是压缩共享接口,物理行动分散于不同实体。尽管已有$5B+投资世界模型、$18B投入机器人,领域仍缺乏共享基准、架构收敛,且存在10万年的数据差距。世界模型能预测行动结果,但无法解决数据收集、评估、实时控制和部署可靠性。真正的创业机会在于数据循环、评估系统、记忆层、推理栈和垂直部署引擎等瓶颈。
Jim Fan's "Great Parallel" thesis: embodied AI will scale like LLMs did. $5B+ is already betting on #worldmodels. $18B i...
Let me show you how you can win $2.5M to fund your dream film. I originally made this trailer for the XPRIZE competition...
苹果 M4 神经网络引擎原仅开放推理,X 用户 @0x0SojalSec 通过逆向工程,从零开发自定义 MIL 直接与芯片通信,绕开了软件限制。训练全程将数据放在 RAM 中运行,不写入 NAND 闪存以维持高速。解锁后 M4 可达 15.8TFLOPS AI 性能,足以承担模型训练。目前不确定该 MIL 能否用于更新的 Apple Silicon,exec() 命令在新平台上的兼容性也未知。
2026年Evident AI Index显示,保险公司正将AI嵌入直接影响承保纪律和资本配置的工作流。过去一年保险从业人员减少2.2%,AI专家增长32%,每50名员工即有一名AI专家。近40%公司设立AI高级主管。智能体AI采用率激增,新公开用例中四分之一涉及智能体编排(六个月前仅为二十分之一)。Zurich凭共享平台ZurichIQ从第12升至第4。Manulife、Generali、Intact Financial预计AI将产生超10亿美元回报。Allianz拥有业内最大AI人才池并注册900个用例。
2026年6月16日,vickiboykis.com 上发布了一篇题为“Running local models is good now”的文章,作者认为当前阶段在本地硬件上运行大语言模型已经能够取得不错的效果。该文章在 Hacker News 社区引发讨论,相关帖子获得 114 点热度,表明本地模型运行体验得到了社区的认可。
腾讯 WorkBuddy 自 3 月至今用户增长远超预期,日活数据已达到第二名产品的 3-4 倍以上,用户包括大量 HR、运营、行政等非技术岗人员,以及金融、餐饮、外贸等非互联网行业。作者将其作为 skill store 使用,可找到腾讯精选的优质 skill。引用指出其代表第三代办公 Agent 模式,对传统 Office 和云协同产品形成降维打击,近期还推出企业版和项目功能,意图抢占新一代 Agent 办公场景。
聊聊这个可能被大家低估的Agent场景。 今天去了腾讯活动的现场,当了下主持和评委。 也跟很多选手,还有腾讯云的几个大佬交流了一下。 还真的有点新东西冲击的,这个确实是我在过去之前没预想到的。 最核心的点,就是整个WorkBuddy在用户增...
Factory AI CEO 在播客中分享观点:约80%-90%的任务可用开源模型完成,顶级模型更适合规划与决策;AI工具对高杠杆人群提升更大,低杠杆者受益有限;未来最值钱的工程师是能端到端拥有业务结果的人,而非仅写代码者;预计三年内Token支出中位数将与薪资处于同一数量级。
腾讯WorkBuddy自3月至今,日活已达第二名的3-4倍以上。用户除开发者外,涌入大量HR、运营、行政等非技术岗,黑客松场景覆盖金融、餐饮、外贸、法律等非互联网行业。商业模式从卖软件转向卖智能,辅助用户造最适合自己的工具。已有Trae Work、QoderWork、Kimi Work等产品跟进改名。腾讯云称此为十年一遇机遇,已推出企业版和项目功能。用户也可将WorkBuddy用作skill store,获取腾讯精选skill,质量高于GitHub公开资源。
聊聊这个可能被大家低估的Agent场景。 今天去了腾讯活动的现场,当了下主持和评委。 也跟很多选手,还有腾讯云的几个大佬交流了一下。 还真的有点新东西冲击的,这个确实是我在过去之前没预想到的。 最核心的点,就是整个WorkBuddy在用户增...
卡兹克在腾讯活动现场发现,Agent产品WorkBuddy自3月至今用户增长远超预期,日活已是第二名的3-4倍以上;用户包括HR、运营、行政等非技术岗,黑客松场景覆盖金融、餐饮、外贸、法律等非互联网行业。他认为这代表了第三代办公产品(第一代本地Office、第二代云协同),直接帮用户完成任务。腾讯云视其为十年一遇机遇,刚推出企业版和项目功能。受此影响,Trae Work、QoderWork、Kimi Work等产品纷纷跟进改名或转型。
I built a @threejs game director skill system for Codex & Claude Code to help agents create more polished playable brows...
Omni tip: If you remove any audio from the video you're editing, Omni will fully regenerate the audio for you, which mig...
SpaceX has exercised the option to acquire @cursor_ai in an all-stock transaction with the goal of building the world's ...
Interconnects 播客邀请 Finbarr Timbers 回顾后训练配方的演变:从 InstructGPT 的 SFT→奖励模型→RL 三阶段,到 Llama 3 / Tülu 3 的 SFT→DPO→可验证奖励 RL,再至 DeepSeek R1 以大规模 RL 为核心。2026 年配方分化为多个领域专家模型再合并回统一模型。新出现模式为 Multi-teacher On-Policy Distillation(MOPD):训练 N 个领域专家(经 SFT 和领域 RL),再通过在线采样、逐 token 最小化反向 KL 散度训练通用学生模型。MiMo Flash V2 率先引入,DeepSeek V4 与 Nemotron 3 Ultra 扩展至超过 10 个教师。MOPD 兴起源于单一 RL 流程在多领域间产生能力冲突,而专家模型易于并行训练,在线蒸馏技术日趋成熟。
Nathan Lambert与Finbarr Timbers合作推出新播客,系统调研GLM 5.1、Kimi K2.6、DeepSeek V4、Xiaomi MiMo V2.5、Nemotron Ultra等模型的最新后训练方法。核心讨论包括:行业转向多教师在线策略蒸馏(MOPD)的原因;Olmo风格配方需改进的方向;后训练如何适配大型组织;以及在AGI早期阶段的职业建议。播客章节涵盖历史回顾、2026年模型配方(MiMo Flash、DeepSeek V4、GLM 5、Kimi K2.6等)及开放式后训练讨论。
从3月至今,WorkBuddy日活用户数已达行业第二名的3-4倍,用户不再限于开发者,大量HR、运营、行政等非技术岗位也在使用。其企业版和项目功能进一步扩展了Agent办公场景。同期,Trae Work、QoderWork、Kimi Work等产品纷纷改名或出新,争夺市场。腾讯云认为这可能是十年一遇的机遇。
同一事件,精选展示《从0到1速通WorkBuddy:国内通用Agent产品教程》so close to 90k followers... what codex articles do i need to write to get there...
OpenAI Codex 2026版以统一执行层+编排中枢架构覆盖App、CLI、IDE、Cloud、Web五入口,模型迭代至GPT-5.4 for Codex,Spark版快15倍。平台层由MCP、Skills(开放标准)、Plugins(可分发)构成。SWE-Bench Pro Public上56.8%微弱领先,OSWorld-Verified 64.7%接近人类;Claude Code在百万token重构占优,Codex强在异步执行与并行调度。最佳实践:Prompt含Goal/Context/Constraints/Done-when,用AGENTS.md固化持久指令,MCP按高频痛点优先配置。
微软CEO萨提亚·纳德拉在X上发文警告,AI模型正大量吸收企业知识,未来少数AI提供商可能拿走大部分经济价值,各行业将失去对自身知识资产的控制。他以全球化外包掏空工业经济作比,主张建立更开放、更分散的AI生态,让企业继续掌控学习系统。Snowflake CEO斯里达尔·拉马斯瓦米在2月播客中称,大型软件公司可能沦为AI大模型的数据来源;Box CEO亚伦·莱维在1月LinkedIn帖文中指出,当AI覆盖高层知识工作,公司差异化要靠上下文。
爱沙尼亚语言研究所发布基准测试,用75个问题覆盖14种宣传叙事,以中立、偏颇和操纵三种措辞测试60个AI模型,评分1-5分(1分代表重复俄方话术)。Claude Opus 4.5作为评估模型。结果显示Anthropic的Claude模型居首,Nvidia Nemotron 3和阿里Qwen 3.6 Plus紧随,Mistral Medium 3.5排在底部三分之一。测试期间模型无网络搜索权限。结果与Newsguard研究一致:Mistral的持续性虚假信息率达36.67%,该公司正以200亿欧元估值谈判30亿欧元融资。
经济学人文章认为,人类尚未做好应对即将到来的智能爆炸的准备。该观点在 Hacker News 上获得 102 个点赞。
微软CEO萨提亚·纳德拉在达沃斯世界经济论坛与贝莱德董事长拉里·芬克对话时表示,AI的真正力量在于转换:文档可通过AI生成代码变成网站,网站可进一步转为应用;企业将原本耗时数小时的决策规模化为几分钟。纳德拉强调,AI首次赋予了软件自我转换的能力。
http://x.com/i/article/2066825834409984000
🤖 made this entire 15-second UGC ad with AI zero camera, zero studio, zero real product shoot. Here's the quick breakdo...
6月16日,导演於水在上海国际电影节透露下一步工作计划是《浪浪山小妖怪2》。他坦言第一部故事已完整,第二部需在此基础上提升。谈及AI模仿其动画风格时,於水认为AI基于大模型无所不知,但人作为“小模型”因不完美才构成喜怒哀乐;艺术源于人类痛苦喜悦,大模型只能模拟概率而非真实情感,无法与观众产生共鸣。《浪浪山小妖怪》在2025年暑期档票房突破17.19亿元,成为中国影史二维动画票房冠军。
AI红队测试通过模拟提示注入、数据操纵、越狱等真实攻击场景,系统性探测模型、智能体及应用的安全缺陷。研究显示AI安全事件从2024年233起增至2026年362起,凸显测试必要性。红队测试可提升模型安全性、对齐NIST AI RMF与EU AI Act等框架、加快事件响应并增强系统韧性。主要服务商包括:CBIZ Pivot Point Security(覆盖API、RAG、智能体工作流与MCP,结合手动测试与治理);Reply(融合威胁建模、对抗攻击模拟与持续监控);Mindgard(自主红队复制攻击者技术并提供运行时防御)。
Perplexity CEO 斯里尼瓦斯分享创业经验:从英伟达 CEO 黄仁勋学到保持危机感——英伟达市值 5 万亿美元、两年内营收预计 5000 亿美元,但黄仁勋经营公司像 30 天后就会倒闭;从马斯克学到工作不能仅由金钱驱动——SpaceX 薪酬围绕火星殖民地目标设计。他不认同卖掉公司退休,认为创始人应永远工作。Perplexity 正寻求新一轮融资,投后估值 200 亿美元,投资方包括软银、英伟达和贝索斯。
6月16日,高通CEO安蒙表示公司正推进40多款新型AI设备的设计工作,为智能体浪潮做准备。这些设备涵盖珠宝饰品、带摄像头耳机、胸针、手表等可穿戴形态,具备情境感知能力,用户可通过语音随时调用智能体。安蒙认为智能体将取代传统应用,例如无需打开银行App即可通过智能体即时调取交易记录。他看好智能眼镜前景,目前年出货量已达数千万副,预计几年后增至数亿副,最终市场规模可与智能手机媲美。
微软6月15日博文引述《Joule》研究:典型AI查询耗电0.16–0.60瓦时(约40瓦电脑运行15–60秒),为先前文献的1/4–1/20;冷却用水0.0–0.067毫升,中位数约1/100茶匙,少于1滴。10亿次查询场景下基础耗电约0.7吉瓦时,经效率优化可降至约0.3吉瓦时;即使10%请求为长任务,能耗仍可下降过半。