我操,Codex 太牛逼了! 自己给我做了一个类似于《杀戮尖塔》的爬塔游戏,从代码到素材全是自己搞。 我就跟他说了一个要做类似《杀戮尖塔》的游戏,要中国风格的 这是能玩的!
我操,Codex 太牛逼了! 自己给我做了一个类似于《杀戮尖塔》的爬塔游戏,从代码到素材全是自己搞。 我就跟他说了一个要做类似《杀戮尖塔》的游戏,要中国风格的 这是能玩的!
文心5.1 Preview在LMArena文本榜以1476分位列国内第一,是全球前十五名中唯一的国产模型,排名超越GPT-5.5与DeepSeek-V4-Pro。尽管AI领域热点转向Agent与多模态,但DeepSeek V4与文心5.1等旗舰模型仍以文本为核心。作者强调文本能力是大模型的地基,代码、推理等多维度能力均由此衍生,地基差异直接影响上层性能,因此文本仍是模型拉开差距的关键分水岭。引用推文显示,文心5.1在数学、法律与政府、商业管理及软件服务等类别表现突出。
Ernie-5.1 from @ErnieforDevs lands at #13 in Text Arena - now the #1 highest-ranked model from a Chinese lab. Strongest ...
Andrej Karpathy指出,要最大化利用现有AI工具,关键在于将自身从交互循环中移除,避免成为持续提示的瓶颈。他主张构建完全自主的系统,通过最大化token吞吐量来实现高效率运作。核心目标是提升个人杠杆率:仅需偶尔投入极少量的token,就能驱动系统自动完成大量工作,从而使人从重复性操作中解放出来,专注于更高层次的决策与设计。
we're starting rollout of GPT-5.5-Cyber, a frontier cybersecurity model, to critical cyber defenders in the next few day...
Fun fact - if you have a recent commit that mentions OpenClaw in a json blob, Claude Code will either refuse your reques...
We're talking about Goblins. https://openai.com/index/where-the-goblins-came-from/
基于现有信息,Mythos是一款在网络安全方面表现优异的高级通用AI模型,并非专业网络安全模型。出于对网络安全风险的担忧,Anthropic将其设为受限制模型并引起政府关注。而即将或已达到相同能力阈值的OpenAI和Google,可能因不同的风险评估或对自身防护措施的自信,做出不同的发布决策。目前,模型网络安全风险程度完全依赖企业自我报告,缺乏外部监管。这引发了Anthropic是否因自我限制而处于竞争劣势,以及其他公司会否面临类似限制的疑问,当前局势尚不明朗。
Naval认为Claude Opus 4.5标志着AI编程从代码助手跃升为自主智能体。它与Unix生态深度融合,大幅降低编程门槛,使“Vibe Coding”成为一种能获得真实回报的创作过程。他断言纯软件已无投资价值,VC应转向硬件、网络效应和AI模型本身。同时,他指出当前AI存在取悦用户和同质化的根本局限,需人类在架构层介入。基于此,他预测Apple放弃AI将导致其统治终结,未来一两人加AI智能体即可运营十亿美元规模的软件公司。
New podcast on vibe coding - A Return to Code. A Return to Coding 00:20 The Personal App Store 03:17 Vibe Coding Is a Vi...
卡神指出,开发范式正转向Software 3.0,核心变为提示工程与上下文控制,传统中间代码冗余。未来系统将重构为Agent Native架构,神经网络成为主导。Vibe Coding降低开发门槛,但复杂商业系统需Agentic Engineering以确保质量与安全。人类工程师价值集中于顶层设计、商业逻辑严谨性及输出结构化文档以约束模型行为。当前大模型在代码、数学领域强大但常识推理薄弱,需防御性系统设计。人类认知是进化瓶颈,需构建自动化个人知识体系以提升洞察力,指挥智能体集群。
This is so crazy it literally looks fake.
For AI PhDs aiming for industry, paper count matters, but only up to a point. In China, 2 to 3 (co)first author CCF-A pa...
GPT-5.5 is going to have a party for itself. it chose 5/5 at 5:55 pm for the date and time. if you'd like to come, let u...
打算把我做的所有产品的订阅方案取消,已经付款订阅的用户我会返还对应的消费额度,以后我的所有 vibe 产品都不设置 pro 等各种等级方案,所有功能免费对所有用户开放,只保留一种盈利方式:按需付费。我将在这周开始优先改造 tuwa ai 以...
Demis Hassabis预测AGI将在2030年左右到来,科技创业者必须提前将其纳入长远战略规划。当前底层架构需攻克持续学习与长期推理两大难题,智能体被视为通向AGI的必经之路,但受限于持续学习能力难以适应复杂环境。模型生态上,大小模型协同运作成为趋势,蒸馏技术使轻量级模型以低成本达到高性能,端侧模型降低成本并保障隐私,未来与云端超大模型协同构建理解物理世界的基础设施。
推文演示了将Gmail作为AI Agent任务入口的实用场景:用户可将bug报告邮件一键分享至Google Chat并@AI助手Uma,由其自动接管。技术链路整合Gemini Flash Lite与新版Cursor SDK,驱动Cloud Agents自动读取邮件、查询代码、分析问题并生成修复方案,结果流式返回聊天界面。这实现了从手动复制粘贴到一键自动执行的转变。文中强调,Cursor SDK的发布里程碑式地将生产级编程能力转化为可任意嵌入的基础设施,使同一智能体能集成于CI流水线、自动化脚本等各处,其能力与编辑器内体验完全一致,正推动开发者角色向指挥AI转型。
我等了整整一年的东西,终于来了, Cursor今天正式发布了它的SDK, 这回可远不只是又一个编程工具的小更新, 可以说是人类历史上第一次, 把生产级的编程能力,变成了可以随便嵌入的基础设施, 以前你只能在Cursor编辑器里用它的Agen...
文章借波士顿道路源于牛径的典故,引出“最小阻力之路”概念,比喻人常受家庭、社会等外在结构驱使,陷入被动循环。作者指出,专注于“解决问题”的思维会强化结构性冲突,导致努力无效。真正的转变在于从“逃离现状”转向“创造愿景”,通过建立清晰愿景与准确现实认知,形成结构性张力。这种创造源于爱而非恨,是主动的“基本选择”。最后,文章将“结构”思维延伸至产品、AI、人际关系与组织等领域,强调改变命运的关键在于重塑内在与外在的河床结构。
为应对互联网被AI生成内容污染的问题,研究者提出“低背景标记”设想,计划训练仅使用历史文本的复古模型。团队集结了包括GPT-1/2开发者在内的专家,通过训练复古OCR模型处理旧书籍、报纸等资料,并利用礼仪手册、词典等结构化历史文本合成RLHF数据。为确保数据纯净,他们开发了基于文档n-gram的时代错位分类器,精心筛选了数千亿1931年前的公共领域标记进行训练。最终发布了130亿参数的Talkie模型,旨在探索语言模型的泛化能力。然而,该模型在发布后表现出强烈的种族偏见倾向,引发了新的伦理担忧。
New work with @AlecRad and @DavidDuvenaud: Have you ever dreamed of talking to someone from the past? Introducing talkie...
@vista8 Deepseek的速度绝对是一大未被完全发掘的优势. 试了v4flash之后我把所有不涉及复杂推理的llm api调用全切到flash了. 速度基本都是无感秒处, 价格比haiku省90% 质量比haiku强.
"A decade ago, AI was supposed to replace radiologists. Today, radiologists make more than $500,000 per year, and their ...
在2014年的对话中,Marc Andreessen向Sam Altman揭示了风险投资的残酷逻辑:每年约4000家可投资公司中,仅约200家获得顶级风投注资,而其中仅有15家能实现1亿美元收入,它们贡献了当年风投行业几乎全部的回报。因此,投资者评估初创企业时,主要不是看其是否全面可靠,而是寻找能否让其跻身那极少数赢家的“不对称优势”,例如产品病毒式传播、精准的市场时机或创始人非凡能力等。在幂律分布主导的行业里,“全面优秀”远不如“在决定性方面卓越”。对创业者而言,关键在于展示能显著改变概率的独特突出优势,因为平庸在风投领域几乎注定失败。
GPT-5.5 + GPT-Image-2 is becoming one of the best combos for building apps! @dkundel breaks down why it works so well. W...
good morning from day three of the Elon Musk vs. OpenAI trial from inside the Federal Courthouse in downtown Oakland! fo...
Mistral Medium 3.5是MistralAI的新旗舰模型,以公共预览版发布。它整合指令遵循、推理和编码能力,采用128B密集参数和256k上下文窗口,支持可配置推理努力。模型定位比基准测试更关键,比较对象包括Kimi、Qwen、GLM和Claude Sonnet,而非GPT或Gemini。随着Aleph Alpha被Cohere收购,Mistral成为唯一非美国、非中国的尖端实验室,以开源权重和修改的MIT许可证发布。模型在推理效率与一致性间权衡,Collie分数达95.8领先,目标不是原始推理,而是成为生产中可靠遵循指令的模型,体现欧洲企业定位。它是Mistral Vibe和Le Chat的新默认模型。
Mistral Medium 3.5, a new flagship model in public preview by @MistralAI that merges instruction-following, reasoning, a...
Cursor开放官方TypeScript SDK公测,允许开发者使用其智能体(agent)框架,该框架驱动Cursor编辑器、CLI和网页版。智能体可在本机或云端独立虚拟机中运行,云端提供沙箱、代码仓库和完整开发环境,支持任务持续执行并自动提交PR。模型层面不绑定,可一键切换OpenAI、Anthropic、Google等前沿模型,或使用Cursor专为编码训练的Composer 2。SDK开放了代码库索引、语义搜索、MCP工具接入、技能加载和任务拆分等核心能力。应用场景包括CI/CD流水线自动化、内部工具开发以及嵌入客户产品,使最终用户获得智能体体验。计费按token用量计算,SDK基于Cursor自身的运行时、harness和模型,让开发者能构建与Cursor相同能力的智能体。
We're introducing the Cursor SDK so you can build agents with the same runtime, harness, and models that power Cursor. R...
Hermes Agent采用四层记忆架构,核心是保持提示词稳定以优化缓存。第一层是固化在提示词中的MEMORY.md和USER.md文件,容量小以确保缓存友好性;第二层是通过session_search调用的SQLite历史会话存档,实现按需检索;第三层是压缩对话时的记忆冲刷机制,优先保存关键信息;第四层是作为程序记忆的技能管理系统。可选的Honcho层用于深层用户建模。与OpenClaw的流水账存储不同,Hermes严格区分记忆层级,强调缓存效率,旨在以正确成本记住正确信息。
http://x.com/i/article/2034841599101009921