1模型发布/更新
MiniMax 发布开源权重模型 M3,约 428B 总参数、23B 激活参数,已上传 HuggingFace。该模型融合三种前沿能力:编码与智能体方面达 59.0% SWE-Bench Pro、66.0% Terminal Bench 2.1、34.8% SWE-fficiency、28.8% KernelBench Hard、74.2% MCP Atlas;采用 MiniMax 稀疏注意力将上下文窗口扩展至 1M token;原生多模态。同步上线 MiniMax Code 工具及 API 平台。权重与技术报告预计约 10 天后发布。
Kimi 发布并开源最新代码模型 Kimi-K2.7-Code。相比 K2.6,其在 Kimi Code Bench v2 上提升 +21.8%,Program Bench 提升 +11.0%,MLS Bench Lite 提升 +31.5%。推理效率改进,推理 token 使用量降低 30%,长时编码任务中指令遵循和端到端成功率均提升。6x 高速模式即将推出,即日起可通过 Kimi API 和 Kimi Code 使用。
2产品发布/更新
苹果在 iOS 27 中优化健康 App,将列表改为卡片布局并增加导航栏。新增视觉智能营养识别,用户通过相机 Siri 模式拍摄食物可获取加工程度、蛋白质、含糖量等信息及营养价值评级,不提供精确卡路里,需 iPhone 15 Pro 及以上。经期追踪扩展支持围绝经期,可分析长期周期异常模式并推送提醒与指导。Fitness+ 新增围绝经期和绝经期课程。数据同步速度提升,GymKit 扩展至 iPhone,无需 Apple Watch 即可与健身设备配对同步数据。
olmo-eval 是基于 OLMES 标准构建的评估工作台,专为 LLM 持续开发中的反复评测场景设计。相比 OLMES,它减少了新增评测的实现工作量,支持 agentic 和多轮评测作为一等用例,并允许根据基准需求选择轻量直接运行或容器化隔离运行。采用模块化架构,模型、工具、容器环境、辅助模型均可独立替换。评测结果同时报告分数、标准误差和最小可检测效应。与 Harbor 侧重于发布不同,olmo-eval 聚焦开发阶段快速迭代,可逐问题对比检查点输出以区分真实改进与噪声。
6月12日,字节跳动旗下AI应用豆包大范围上线“任务模式”,支持定时执行、零代码网页生成、一键PPT生成、数据可视化分析等全链路Agent执行。原“思考模式”升级为“专家模式”,调用豆包大模型2.0 Pro版本,强化深度推理能力。App顶部模式切换改为“快速、专家、任务”。基础功能免费,高阶服务付费,专业版三档:标准版68元/月或688元/年,加强版200元/月或2048元/年,专业版500元/月或5088元/年。
我们听说您希望能在自己方便的时候使用 Codex 速率限制重置。 从今天起,我们开始推出将速率限制重置保留到以后使用的功能。 我们从 Go、Plus、Pro 和 Business 用户开始,每人提供一次免费重置:
为 Chrome 和 Codex 内置浏览器引入开发者模式。 Codex 可以使用 Chrome DevTools 协议(CDP)来调试浏览器问题,通过分析 JavaScript 性能、检查控制台输出、网络流量和页面状态。
Claude Code v2.1.175 新增 enforceAvailableModels 管理设置。启用该设置后,availableModels 允许列表也会约束 Default 模型——若 Default 模型解析到被禁用的模型,则自动回退至第一个允许的模型;用户或项目设置无法再扩大受管理的 availableModels 列表。
新增 `wheelScrollAccelerationEnabled` 设置,全屏禁用鼠标滚轮加速。修复 /model 选择器:Opus 在 Max/Team Premium/Enterprise 独立行,Sonnet 在 Pro/Team,Opus 在 API 按量付费账户;修复固定 Sonnet 版本时的硬编码标签;企业账户误显示积分横幅;Bedrock GovCloud 区域前缀错误导致 400 错误;后台会话继承另一会话环境变量;macOS/Linux 退出时 1-2 秒暂停;git co-author 模型名错误;/advisor 预选被 availableModels 屏蔽;skill 热重载仅发送变更;Workflow…
Claude Code v2.1.176 更新:会话标题现按对话语言生成;新增 footerLinksRegexes 设置支持正则匹配页脚行链接徽章;优化 Bedrock 凭证缓存。修复多项问题:环境变量不可再绕过 availableModels 限制;/fast 切换至白名单外模型时拒绝;auto 模式退化为可用 Opus 模型;修正路径 hook 条件匹配;修复 Linux 沙箱内符号链接启动问题;修复 tmux 内 SSH 剪贴板问题;修复 Remote Control 多项连接问题。
3行业动态
Anthropic宣布与塔塔咨询服务(TCS)合作。TCS将向56个国家的5万名员工提供Claude,并为金融、医疗等受监管行业客户构建基于Claude的产品,同时加入Claude Partner Network。作为“客户零号”,TCS将在自身工程、财务、法律、营销和销售团队中率先使用Claude,并组建专门团队为客户设计和运维Claude系统。具体用例包括:Diligenta用Claude改善2200万保单持有人的体验;银行产品团队用Claude Code提升软件工程效率;工程团队贡献可复用技能和插件;TCS iON提供Claude培训与认证。
4论文研究
Google Research 在《JAMA Dermatology》发表两项研究,探索 AI 帮助普通人理解自身皮肤问题。一项涉及 2345 名参与者的定量研究显示,AI 辅助显著提升了用户识别皮肤疾病名称的能力,并影响了其就医或自我护理的下一步决策。另一项混合方法研究对比了用户通过 AI 工具与医生对话获取的认知。这些工作基于此前开发的 AI 鉴别诊断模型和 SCIN 数据集,旨在通过高质量信息支持皮肤健康决策。
5技巧与观点
Oran Ge 让 Claude Fable 5 打磨文案三遍,发现改稿越来越讲究却缺“人味儿”。他与 AI 讨论后得出结论:人写的文字背后有“存在感”——作者在具体位置付出过具体代价,而 AI 无法复现。为此他制作了《人味儿写作心法.skill》,专用于自写文章或口述后让 AI 改稿的场景,旨在保留文字的人味。该技能已开源免费发布在 GitHub。
小互(@xiaohu)升级了公众号排版技能组合,实现一句话完成排版、封面生成并一键发送到公众号草稿箱。该工具已开源,提供20种主题颜色可选,可自动分析内容进行排版,支持非Markdown文件。用户只需在Claude Code、Codex或OpenClaw中提供文章链接或文档位置,即可获得可视化预览界面进行选择,全程无需手动操作。
推文提出AI Agent开发中人类与AI对PRD的需求不同,为此发布了一个专门服务于AI的PRD文档生成Prompt(命名为qiaomu-ai-prd)。开发者先使用该Prompt生成文档,再交给AI开发,可显著提升功能完整度和丰富性。安装指令为:`npx skills add joeseesun/qiaomu-ai-prd`,开源地址及Prompt见评论区。
邵猛分享 Spec 驱动开发(SDD)方法,用三个 Skills(/write-product-spec、/write-tech-spec、/validate-changes-match-specs)覆盖 Spec→Implement→Verify 闭环。规格分两层:PRODUCT.md(用户故事、不变量)和 TECH.md(架构、实现策略),均放在 specs/<issue>/ 目录,随 PR 提交。五步流程:写产品规格、写技术规格、Agent 按规格实现、一致性校验、计算机操作端到端验证。Skills 可移植,不绑定 Warp。开源仓库 warpdotdev/common-skills,安装:npx skills add war…
Anthropic对近5.2万美国人调查显示:48%将治愈癌症等疾病列为首要期望,36%希望AI帮助残障人士。64%担忧AI导致失业,56%担忧认知依赖,52%担忧信息误导。超70%支持政府监管,最关注隐私(56%)、儿童安全(52%)和责任归属(49%)。仅15%信任AI公司决策。多数议题上观点不因党派或地域严重分裂。调查于2025年11-12月由YouGov线上执行并加权至人口普查基准。
OpenAI 发布三门 Academy 课程,帮助用户掌握实用 AI 技能、创建可重复工作流,并在日常工作中应用 AI 智能体。