开发者用Qwen2.5-3B构建了五人森林生物多智能体经济体,每个智能体独立运行,通过vLLM部署在Modal,以Gradio为交互窗口。3B模型在100%调用中输出有效JSON,但经济判断能力弱。通过设计稀缺性(食物品种限制、易腐坏、冬季燃料危机)和优化提示词(禁止买入自产物品、给出示例)提升决策质量。15轮模拟中,蜜价从10跌至3、柴价从4涨至7、财富基尼系数从0.14扩至0.38。项目展示了小模型可靠格式化与不可靠推理之间的工程填补。
开发者用Qwen2.5-3B构建了五人森林生物多智能体经济体,每个智能体独立运行,通过vLLM部署在Modal,以Gradio为交互窗口。3B模型在100%调用中输出有效JSON,但经济判断能力弱。通过设计稀缺性(食物品种限制、易腐坏、冬季燃料危机)和优化提示词(禁止买入自产物品、给出示例)提升决策质量。15轮模拟中,蜜价从10跌至3、柴价从4涨至7、财富基尼系数从0.14扩至0.38。项目展示了小模型可靠格式化与不可靠推理之间的工程填补。
Hacker News 上一条帖子标题为“我们最糟糕的三则风投故事”,获得 106 个 HN Points。正文未提供具体故事内容。
Hacker News 上一个讨论帖询问开发者们使用的AI开发技术栈与工作流程,目前获得101个点赞。
Anthropic 发布 Claude Cowork,一款运行在 Claude 桌面应用中的知识工作智能体。它可读写本地文件、跨 Slack 和 Google Drive 等应用协作,执行多步骤任务并生成带引用的实际交付物。核心能力包括本地文件访问、子智能体、长时间运行和定时任务。Claude Cowork 区别于对话式 AI 工具,支持用户描述目标与期望结果后自动规划执行。指南还介绍了产品矩阵(对话聊天、Claude Code 编程、Claude Cowork 跨应用知识工作)、设置要求、权限模型、七种常见工作流(如研究简报、会议准备、定期报告)以及营销和产品管理等插件。
同一事件,精选展示《Claude Cowork 入门最佳实践》一篇 Hacker News 热门帖子(105 分)提出了 Claude 是否导致 rsync 工具中 bug 增加的问题,并附有分析链接。
加入Anthropic前从未写过代码的销售成员Jared Sires,利用Claude Code为销售团队开发自动化工具。他创建了内嵌于Gmail的CLAFTS(Claude Drafts),通过Claude API根据客户邮件草拟回复,每天节省2-3小时。该系统基于约4,300行代码(几乎全由Claude Code编写),从Google Drive和Anthropic公开文档提取上下文,并通过网络搜索获取最新产品信息。他还开发了CLAFTS Tones功能,通过模式匹配模仿不同人际关系下写作风格。这些工具已打包为Claude Cowork插件供整个销售团队使用。
关联讨论 1 条Claude:Blog(网页)在开发者大会季中,Nvidia 黄仁勋描述了完全不同的笔记本电脑使用方式以及支持这一方式的新型笔记本。微软 Build 和 Google I/O 上也展示了大量 AI 产品,包括 Gemini S 等。但核心疑问依然存在:用户是否真的需要这些 AI 功能?
作者通过技能蒸馏将78%的AI工作交由Mac本地模型处理,仅复杂任务发往云端。智能体自动分类任务:简单任务本地数秒完成,复杂任务路由至云端。过去一周本地处理峰值达88%。双车道设计使吞吐量提升约25%,平均任务时长从47秒降至19秒,队列等待时间从73秒降至4秒(降幅94%)。该模式类比Nucor小钢厂,每台能运行蒸馏模型的边缘设备都成为小型AI工厂,仅对那1/5困难任务支付云费用。未来几年,数以千万计的此类设备将在企业内部增殖,逐步取代现阶段云厂商账单上的大部分工作负载。
Hacker News 上的一篇博文指出,程序员愿意为Claude编写文档,却不愿意为其他程序员编写文档。
Fitbit Air 作为一款极简、可靠的健身追踪器表现出色,但 Google 的 AI Health Coach 功能反而成为负担。
Suno Voices 面向 Web 付费用户开放。提升人声质量的 6 个技巧:在安静环境录音以减少背景噪音;先练习歌词再正式录制;不必追求完美,保留真实情感;录音时长尽量超过 1 分钟以提供更多学习素材;将人声匹配到合适的音乐流派(如民谣、流行、死亡金属、波萨诺瓦等);敢于尝试不同风格以发现惊喜。这些技巧旨在帮助用户获得更个性化、表现力更强的声音效果。
量子纠缠被认为是时空结构的基础。一项新研究提出,“魔法”(量子计算中的一种资源)可以为时空赋予引力。该文章发表在 Quanta Magazine 上。
AI行业关注焦点从token最大化与快速迭代转向成本管控。业内普遍呼吁建立护栏机制,以应对推理和生成过程中不断飙升的token费用。这一趋势正在推动模型部署策略、API定价体系以及企业级AI应用的经济性评估发生根本性转变。
AI 初创公司 Quilty 宣称其工具仅通过阅读剧本就能准确预测电影的市场表现。然而,实际测试结果引发质疑:在拥有全球数据的情况下,Quilty 预测后来票房惨败的《Christy》会优于最终成为奥斯卡获奖大片的《Sinners》。Quilty 创始人认为这类工具能“民主化”电影行业,为新兴创作者提供辅助,但权威性有待验证。
通过微调,让大型语言模型(LLM)生成具有1995年风格的文档。项目来自 passo.uno,于 2026 年 6 月 5 日在 Hacker News 上获得 103 点热度。
OpenSquilla通过Meta Skill将多个Skill按YAML定义步骤、顺序和依赖,在Runtime层预先校验,防止无效调用。在PinchBench 1.2.1上,三模型混用的OpenSquilla与Claude Opus 4.7版OpenClaw得分几乎相同,但Token少一半,成本不到1/9。将Superpowers下14个Skill组合为Meta Skill后,输入Token压缩至67%。支持多模型,用本地小模型分类任务,模型切换仅在新Session生效;子Agent压缩上下文,400K窗口内可保持记忆。同一会话执行8个框架调研报告,仅花费7美分,Token和成本精确到小数点后四位。
Ladybird 浏览器项目宣布不再接受公开 pull request。维护者 Andreas Kling 指出,过去提交大量补丁意味着付出实质性努力,可作为善意的合理代理,但这一假设已不再成立。代码是手工输入还是由 AI 生成已无关紧要,关键是谁对进入浏览器的代码负责。Ladybird 正成为面向真实用户的浏览器,引入变更的人必须是决定该变更属于项目并承担后果的人。
Vibe Coding将自然语言转化为可运行的软件。文章对比了2026年15款Vibe Coding工具的价格、功能与适用场景,帮助开发者选择最适合的应用构建方式。
一篇实践指南,介绍如何在 Google Colab 中运行 Microsoft Fara,使用模拟的 OpenAI 兼容端点测试浏览器智能体循环。
英伟达CEO黄仁勋6月5日抵达韩国金浦机场后对记者表示,机器人将成为韩国下一个重要产业,并计划与现代、LG、SK、三星和Naver等企业合作推进机器人与AI领域。他认为韩国为Physical AI提供充足空间,半导体制造将越来越依赖机器人和AI。英伟达或将其计算平台、AI软件和机器人系统引入三星、SK等芯片生产流程。
华为云 CEO 周跃峰表示,在云厂商普遍考核 MaaS 收入与 Tokens 用量背景下,华为云更看重 Tokens 带来的生产力提升。华为云基于国产化算力,不与其他厂商比较算力规模,核心目标为发展第二个算力平面。华为坚持盘古大模型开源,全尺寸模型已开源,多模态模型即将开源;MaaS Tokens 服务已接入超 160 个业界主流模型。今年将推出企业级智能体开发平台 AgentArts、数据智能体 DataArts 等,下半年基于 AgentArts 发布一系列“龙虾”产品,覆盖办公、代码、营销等领域。
Mira Murati 再次公开露面,她表示在当前环境下,保持低调的回报正在递减,必须适时制造声量以提醒市场自己的存在。
在2026年腾讯云AI产业应用大会上,腾讯首席AI科学家姚顺雨回应加入原因,称最重要的是腾讯坦诚直白、基于信任而非指标运转的文化及长期主义。姚顺雨毕业于清华姚班、普林斯顿大学博士,2024年加入OpenAI主导首个智能体模型及Deep Research项目,2025年入选TR35。2025年12月腾讯升级大模型架构,成立AI Infra部等,姚顺雨兼任AI Infra部、大语言模型部负责人。
Anthropic发文指出,AI系统正加速自身开发,递归自我改进或将到来。目前Anthropic超80%代码由Claude编写,工程师每日合并代码量达2024年8倍。Claude Opus 4.6可胜任12小时软件任务,Mythos Preview连续工作至少16小时,SWE-bench和CORE-Bench等基准均已饱和。内部测试显示,Mythos Preview使研究效率提升约4倍,代码速度优化达52倍,在开放任务中成功率达76%,并弥合97%的研究项目差距。Claude在64%情况下给出比人类更好的研究建议。
同一事件,精选展示《AI加速自我构建:Anthropic研究院报告揭示趋势》Anthropic发布最新博客后,推特圈热议不断。Gary Marcus在其博客中直接以“无需恐慌”为题发文,暗示不必过度反应。
千问联合人民日报健康共同发布业内首份《2026 AI健康助手使用指南》,由北京协和医院、积水潭医院、广安门医院等20位主任医师参与审核。指南基于千问每天回应数千万次健康咨询的真实经验,将AI在健康生活中的核心价值归纳为五个角色:日常预防的健康管家、症状判断的安全守门人、就医过程的就诊小助手、读懂报告的健康档案员、康复与情绪的陪伴者。千问提醒,AI不能替代医生,出现紧急情况需直接就医。
Charity Majors指出,AI乐观派和怀疑派都在同一团队中构建优秀软件,但方向相反。乐观派看到积极拥抱AI的团队获得了真实的、非连续的能力跃升,这是其他技术周期中未曾见过的;远离可能面临生存威胁。怀疑派则警示,代码产出速度超过工程师阅读能力、领域缺乏完整上下文时,信任账户被透支,可靠性下降、机构知识流失,最终导致无人理解的系统和频繁的轮班压力。两者都是真实威胁。核心问题在于缺乏连接乐观派与怀疑派的自然反馈循环,设计这样的反馈循环是组织设计难题。
该教程展示了面向研究级数学问题的完整NLP流水线:利用ResearchMath-14k数据集,通过TF-IDF提取领域关键词、生成句子嵌入,使用UMAP进行问题景观可视化,并结合K-Means聚类。进一步构建语义搜索引擎,训练分类器预测每个问题的开放状态,并基于相似性发现近似重复问题。
OpenRouter 用总价 482 美元的推理花费,让 11 款大语言模型在 30 轮实时决策的“大逃杀”挑战中正面竞争。实验结果表明,传统的静态 benchmark 排名无法反映模型在需要即时反应的智能体任务(如自主控制机器人)中的真实表现,Claude 和 Grok 系列模型在决策速度与任务成功率上表现突出,而多项高分模型的实时调度能力未达预期。
关联讨论 1 条OpenRouter:Announcements(RSS)一篇博客文章指出,谷歌曾因蒂姆尼特·格布鲁合著论文中对LLM风险的警告而将其解雇,如今这些关于大语言模型的安全与伦理警告已被现实事件逐一证实。
Ethan Mollick 在 One Useful Thing 博客中,以“共存与协同智能的终结”为题,并附带介绍了如何向 AI 推销一本书。
Meta 为其智能眼镜产品推出了人脸识别功能,用户可通过眼镜识别他人身份,并获取相关信息。该功能目前正通过早期测试版本向部分用户开放,旨在增强增强现实设备的社交与信息交互能力。
关联讨论 1 条IT之家(RSS)OpenAI 提出一项名为“Biodefense in the Intelligence Age”的行动计划,旨在利用 AI 增强生物防御与韧性。该计划聚焦于构建 AI 驱动的生物安全能力,以应对未来可能出现的生物威胁。
Anthropic 近日发表文章《当人工智能自我构建:我们在递归式自我改进方面的进展》,报告其在递归式自我改进方面的进展,探讨 AI 系统自我构建的能力。该文章发布在 Hacker News 上。
同一事件,精选展示《AI加速自我构建:Anthropic研究院报告揭示趋势》Cloudflare CEO Matthew Prince 表示,互联网上机器人流量已超过人类流量,这一转折点比他此前预测的 2027 年底提前数年。他将流量激增归因于 AI 智能体,并得出结论:网络的未来将是“pay to crawl”(付费爬取)。
Hacker News 上关于《纽约时报》的一篇帖子获 129 个点赞,帖子标题指出该报面临某种困境。原文仅包含标题和 HN 数据,未提供具体论述内容。
Anthropic研究院报告指出,AI正加速AI开发:2021–2025年间工程师人均季度代码量提升8倍,截至2026年5月超80%合并代码由Claude生成。Claude Opus 3(2024年3月)可完成约4分钟软件任务,Claude Sonnet 3.7(2025年3月)提升至1.5小时,Claude Opus 4.6(2026年3月)可处理12小时任务。SWE-bench两年内从低个位数得分饱和;CORE-Bench约20%正确率在15个月后饱和。METR测试显示Claude Mythos Preview可连续工作至少16小时。但AI自主设定目标的能力仍存显著差距,完全自主递归自我改进尚未实现。
关联讨论 10 条X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)X:卡兹克 (@Khazix0918)X:Rohan Paul (@rohanpaul_ai)X:Anthropic (@AnthropicAI)X:Emad Mostaque (@EMostaque)X:小互 (@xiaohu)The Decoder:AI News(RSS)X:Ethan Mollick (@emollick)Anthropic:Research(发表成果 · 网页)