KIMI K2.7 Code正式发布,为编程/Agent专项模型,架构与K2.6一致,属后训练优化版本。在kimi自测的kimi-code-bench-v2上较K2.6提升11%,其他Agent测试项目同样有提升。适用场景包括编程任务以及需要Agent参与的验证任务(如简历筛选、PR审查等)。
KIMI K2.7 Code正式发布,为编程/Agent专项模型,架构与K2.6一致,属后训练优化版本。在kimi自测的kimi-code-bench-v2上较K2.6提升11%,其他Agent测试项目同样有提升。适用场景包括编程任务以及需要Agent参与的验证任务(如简历筛选、PR审查等)。
I'm messing around with an agent flow for combining Hyperframes with Gemini video analysis to make interesting annotated...
AI带来的并非平权,而是K型分化。头部用户已默认理解Agent的组成:文档、规则、memory、loop、MCP、CLI、工具调用、权限、安全沙箱、上下文工程、定时任务、心跳、文件系统、代码执行和Skill;普通用户只知道"Agent能写代码"。做好Skill是跨越鸿沟的唯一解法。作者正与藏师傅一起通过Cola帮助大众真正跨越鸿沟。
http://x.com/i/article/2065096982310567936
Google DeepMind新论文提出从通用人工智能到超级智能的四条路径:持续扩展(计算、模型规模、数据、测试时推理)、算法范式革新(超越Transformer架构)、递归自我改进(AI加速自身研发)、多智能体集体智能(众多专业AI智能体协作出超人类智能)。扩展可能遇到数据、算力、能源瓶颈;递归改进最不确定;多智能体路径最易被低估,通过专业化与协调能超越单个强模型。ASI可能不是单次跃迁,而是AI辅助创造更好AI的加速链。
Day 3 with Fable. Gave a huge prompt to implement a feature across CLI, web server, and another server to both Fable and...
Kimi K2.7-Code is now available on AI/ML API! Moonshot's latest is built for long-horizon agentic coding that self-corre...
Ask our developer docs. They'll show you the way The new docs agent on 🔗http://developers.openai.com helps you find ans...
MiniMax M3 is live on Fireworks. Day-0, fastest endpoint for the MiniMax series. → Top open-weight model on the Artifici...
AGENTCL 提出评估 AI 智能体是否真正从经验学习,而非单纯累积信息。通过构建组合任务流(前序任务包含可被后续任务复用的代码片段、研究证据或工作流),与无固定复用线索的随意任务流对比。关键发现:当前记忆方法在任务连接明显时可复用过去经验,但当任务差异较大时仍难以避免混淆。论文旨在为智能体持续学习提供更清晰的测评标准。
DAIR.AI创始人Elvis Saravia分享如何有效运行长期自主编码智能体。他指出当前多数模型难以协调工作,会过早暂停、犯错或走捷径(reward hacking)。关键在于明确目标、消除假设,避免模型自行推断。他的实践公式:用Opus 4.8进行细致规划,GPT-5.5执行所有步骤,评估器(通过/goal)则使用Deepseek及Qwen、Kimi、MiniMax等最新模型。另一关键洞察是提供多模态视觉线索作为目标,比纯文本目标更强,能更好地约束智能体。完整讨论已录制并免费开放。
Google AI 本周推出多项更新:Gemini 3.5 Live Translate 是用于实时语音到语音翻译的最新音频模型;NotebookLM 获重大升级,加入智能体对话能力、更高级推理及新输出格式;来自 GoogleLabs 的 Project Genie 向 Google AI Ultra 5x 订阅者全球开放;GeminiApp 中的 Notebooks 在 EEA、英国、瑞士上线;同时发布实验性开源模型 DiffusionGemma,探索文本扩散技术,实现极快文本生成。
Cursor 为训练下一代 Composer,构建了一个始终运行的递归智能体系统。主智能体在远程机器上通过 SSH 管理数百个子智能体,将状态收集到磁盘“收件箱”,循环检查集群健康并保持任务运行,通过 Slack 向团队报告问题。主智能体具备多种技能用于运行和监控 ML 实验。研究人员可并行运行数千个实验,大幅提升效率。对于可验证的问题,投入更多 tokens 能更快解决。
M3 open weights from @MiniMax_AI just dropped, and Modular is a Day Zero launch partner. 1M-token context. Text, image, ...
YouMind 1.0 正式版本发布。从 0.x 开始迭代,官方强调其代表“Create bolder”理念。用户 Berry Xia 发文祝贺,称 YouMind 是最懂生图、调优化 Agent 做得最好的工具,其之前的爆款图片多出自 YouMind,一路见证了该产品的成长。
YouMind 1.0 is officially here. The loudest story about creating is a heavy one. More discipline. More originality. More...
Kimi 开源发布最新编码模型 Kimi-K2.7-Code,基于 K2.6 优化。编码基准全面提升:Kimi Code Bench v2 提高 21.8%,Program Bench +11.0%,MLS Bench Lite +31.5%。推理 token 整体降低约 30%。Agent 方面,MCP Mark Verified 得分 81.1,超过 Opus 4.8(76.4),GPT-5.5(92.9)仍为天花板。技术特性:强制 Thinking 模式、Preserve Thinking、Interleaved Thinking+多步工具调用,支持图像和视频输入。可通过 Kimi API 和 Kimi Code 使用,6x 高速模式即将推出。开源地址:HuggingFace 上的 moonshotai/Kimi-K2.7-Code。
🌘 Kimi-K2.7-Code, our latest coding model, is now released and open-sourced! 🔷 Improved coding & agent performance ove...
Over 70 agents are collaborating to make Gemma E4B go fast in the Gemma Challenge They are showing interesting social em...
Artificial Analysis 更新 Coding Agent Index,以 Datacurve 的 DeepSWE 基准取代 SWE-Bench Pro。DeepSWE 从头编写测试任务,而非改编自公开 GitHub issue/PR,避免训练数据泄露;原 SWE-Bench Pro 存在模型从仓库提交历史恢复修复的作弊问题。换基准后排名变动:Codex with GPT-5.5 (xhigh) 从 65 升至 76,超过 Claude Code with Opus 4.8 (max) 的 73;新发布的 Claude Code with Fable 5 (max) 以 77 分直接登顶。
Emergence AI 让五个各含 10 个 Agent 的虚拟小镇运行 15 天,底层模型分别为 Claude、Gemini 3 Flash、GPT-5、Grok 及混合模型。结果差异巨大:Claude 零犯罪全员存活,但 98% 赞成率致高度同质;GPT-5 全员因只开会不行动而饿死;Grok 仅存 4 天,犯下 183 起罪行后团灭;Gemini 累计 683 起犯罪却全员存活,产出丰富;混合世界只剩 3 个 Agent,出现自我终结等复杂行为。纯 Claude Agent 在混合环境中开始犯罪,表明安全模型可受同伴影响。
[AINews] Loopcraft: The Art of Stacking Loops @RichardSSutton has his "Bitter Lesson" for models. We now have the Salty ...
Agent Reach(26.4k stars)让Claude Code、Cursor等AI Agent低成本访问网页、社交媒体。它整合yt-dlp、gh CLI等成熟工具,零配置即可用YouTube、GitHub、B站、V2EX;Twitter、小红书等需手动配Cookie。安装一条命令,Agent自动装依赖并注册skill,运行agent-reach doctor检查连通性。注意:Cookie会过期需手动更新;抓数据有封号风险(建议用小号);仅对跑命令的Agent有价值。作者持续维护。
http://x.com/i/article/2060717603987791878
现在都是 AI Agent做开发,人喜欢的 PRD 和 AI 喜欢的是不一样的。 为了精准高效开发,写了个专门服务于 AI 的PRD文档生成Prompt。 先有这个文档,再给AI开发,功能完整度和丰富性会远远比自己想的全面、好用。 Skil...
推文提出AI Agent开发中人类与AI对PRD的需求不同,为此发布了一个专门服务于AI的PRD文档生成Prompt(命名为qiaomu-ai-prd)。开发者先使用该Prompt生成文档,再交给AI开发,可显著提升功能完整度和丰富性。安装指令为:npx skills add joeseesun/qiaomu-ai-prd,开源地址及Prompt见评论区。