作者完成了首个测试,调研了最佳的开源所见即所得Markdown编辑库,并得出结论:明确需求和数据模型是选择合适库的前提。同时,他参考了@vista8提及的HeavySkill论文思路,该论文提出让多个AI(如Claude、Codex)先并行独立推理,再通过另一轮推理整合思路,以显著提升回答质量。作者正基于此思路开发一个Skill进行实践。
读了一篇叫HeavySkill的论文,非常有意思。 让多个 AI先并行"独立思考",生成多条独立推理。 再用另一轮推理来综合所有思路,得出最终答案。 按论文测试结果,回答质量会提升非常多。 正在按这个思路写一个Skill,Claude Co...
论文HeavySkill提出了一种提升AI回答质量的方法:先让多个AI模型(如Claude、GPT)并行进行“独立思考”,各自生成多条推理路径;随后使用另一轮推理(如由Codex充当“主持人”)综合分析所有独立思路,整合出最终答案。测试表明该方法能显著提升回答质量。作者正基于此思路开发一个Skill,设计让Claude负责代码推理,Codex担任综合思路的主持人。
前OpenAI CTO Mira创立的Thinking Machines公司发布了一种创新的“交互模型”。该模型能原生、持续地接收音频、视频和文本等多模态输入,并实时思考与响应,而非通过Agent串联多个独立模型。其架构分为两部分:前台交互模型以200毫秒为节点处理输入并维持用户“在场感”,支持随时打断;后台推理模型则处理长程规划、工具调用等复杂任务。两者协同工作,最终呈现为一个既能实时交互又能处理重度任务的统一界面。
People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...
近期研究提出AutoTTS框架,让大语言模型自主搜索并优化测试时扩展策略,取代人工设计。该框架将宽度-深度TTS策略制定为对预收集推理轨迹的控制器合成问题,通过Beta参数化压缩搜索空间,并利用细粒度执行轨迹反馈指导探索。在数学推理基准测试中,自动发现的控制器在准确率-成本帕累托前沿上超越了人工设计的强基线,且能零样本泛化到其他基准和模型规模。整个发现过程仅需39.9美元和160分钟,预示着人工设计思维链等方法的时代可能即将结束,TTS将成为LLM自主完成的任务。
People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...
First update to PACT, my head-to-head LLM negotiation benchmark! 20-round buyer-seller bargaining game: each round the A...
谷歌DeepMind与Coursera合作推出的“Gemini for Developers”专项课程现已开放注册。该课程旨在指导开发者利用Gemini模型构建可用于生产环境的AI解决方案。其核心涵盖三大模块:“推理与行动”使AI应用能推理并执行复杂任务;“连接与自动化”通过函数调用将Gemini与现实世界工具集成;“规模化与信心”则专注于构建、测试和部署可扩展的AI系统。课程强调超越单纯文本生成,实现实际任务的自动化与系统集成,助力开发者快速上手。
研究发现,长历史记录会在大语言模型(LLM)代理中引发“记忆诅咒”,导致其过度遵循历史、规避风险,从而削弱合作能力。该结论基于7个LLM和4个社会困境游戏的实验,在28个模型-游戏组合中,有18个因历史扩展而合作退化。机制分析表明,长历史侵蚀了模型的前瞻性意图,使其更关注过去的冲突而非未来收益。通过仅在前瞻性轨迹上训练的LoRA适配器可缓解此问题,且能零样本迁移至新游戏。实验证明,触发因素是历史内容而非长度,而消除显式思维链通常能减轻合作崩溃。
We are launching Ring-2.6-1T, a trillion-parameter flagship thinking model engineered for real-world complex tasks and p...
一项新研究证明,一个通过强化学习训练的7B语言模型能够有效指挥GPT-5、Claude Sonnet 4和Gemini 2.5 Pro等前沿大模型。该模型通过编写自然语言子任务、分配给不同大模型执行,并精确指定上下文信息,在GPQA Diamond、LiveCodeBench和AIME25等硬核基准测试中,其性能全面超越了单个前沿模型。该系统平均每个问题仅需调用约三次大模型,比手动设计的多代理流程更高效。该工作提供了关键证据,表明目前商业AI产品中依赖人工的提示工程和流程设计,完全可以仅通过奖励信号进行端到端学习。这揭示了AI发展的新方向:智能的差距可能不在于模型规模,而在于协调与指挥的能力。
In this paper, a 7B language model trained with reinforcement learning learns to orchestrate larger frontier models like...
AI芯片制造商Cerebras Systems因IPO订单超出发行股票20倍以上,计划提高IPO规模和价格。市场普遍认为其芯片仅推理速度更快,但其核心优势在于能效。传统GPU在推理时受内存带宽限制,每个token生成都需从内存读取整个模型,导致算力闲置。Cerebras的Wafer-Scale Engine采用单一大芯片设计,以片上SRAM替代片外HBM,每次内存访问能耗降低约100倍。减少数据移动既降低了延迟,也显著减少了每token的功耗,这解释了其IPO被超额认购的原因。
Got early access to Tencent's Hy3 preview. This is the strongest model in the Hy series. Built on rebuilt pre-training a...
We have a gnarly refactor in our codebase that I test every frontier model on. I've been doing this since the release of...
一项发表于《科学》的研究显示,OpenAI一年前发布的o1模型在急诊诊断中表现优于医生。该模型在真实、混乱的急诊数据测试中,正确或接近正确诊断率达67%,而医生为50-55%,尤其在信息有限的早期分诊阶段优势最明显。研究指出,o1模型在结构化病例中的临床推理近乎完美,且该模型按AI标准已属旧版,当前模型可能更强。研究未涵盖长期住院数据及影像诊断,下一步需验证AI系统能否实际改善患者预后。
Really glad to meet the @NVIDIAAI team in China. Looking forward to deeper collaboration between @MiniMax_AI and @nvidia...
Excel Copilot one-shotted a tiny GPT-style language model for me inside a spreadsheet: embeddings, causal attention, wei...
2016年AlphaGo以第37手“神之一手”战胜李世石,其真正遗产在于让顶尖人类棋手承认AI拥有超越人类的创造力,打破了人类对自身智慧的千年傲慢。十年间,AI已从“登月”级突破演变为如Gemini般的日常工具。Demis与李世石重聚时指出,AlphaGo改变了棋手的思维方式,AI并未取代围棋,而是让棋手站在其肩膀上创新,使围棋技艺进入新境界。这揭示了AI与人类最理想的共生形态——提升而非取代。展望未来,今日的AI变革或许仅是漫长征程的起点。
Hard to believe it's been 10 years since AlphaGo! It was wonderful to catch up with Lee Sae Dol last week in Korea and j...
#AlphaGo WINS!!!! We landed it on the moon. So proud of the team!! Respect to the amazing Lee Sedol too
Redis创始人Antirez开源了专为DeepSeek V4 Flash设计的原生推理引擎ds4。该引擎仅用几千行C代码,通过三项关键技术:对MoE专家进行不对称2-bit量化、将KV Cache移至高速SSD突破内存限制、为Apple Silicon进行纯Metal原生优化,成功在128GB MacBook Pro上流畅运行具备1M上下文窗口的模型,实测达27 tok/s。此举将原本依赖云端GPU集群的前沿AI能力,通过极致工程优化 democratize 至个人设备,展现了开源社区推动技术平民化的强大潜力。
Downloading now... 1M token context window with supposedly usable coding agent capability all on a 128GB Macbook Pro is ...
百度发布的ERNIE 5.1模型基于ERNIE 5.0预训练基础,宣称在搜索、推理、知识问答、创意写作和智能体能力方面获得提升,而其预训练成本仅为同类可比模型的约6%。该模型在Arena搜索排行榜以1223分位列第四,ERNIE 5.1 Preview在LMArena Text上取得1476分,全球排名第十三。推文作者指出目前未见技术论文,需验证其宣称的低成本高性能表现,但若属实将意义重大。
ERNIE 5.1 just dropped. Built on ERNIE 5.0's pre-training foundation, our latest foundation model upgrades search, reaso...
百度推出ERNIE 5.1模型,核心突破在于参数与成本的大幅压缩。其总参数和激活参数分别压缩至原规模的约1/3和1/2,预训练成本仅为同规模模型的约6%,同时保持了领先性能。模型在Agent能力上超越DeepSeek-V4-Pro,世界知识与创意写作接近领先闭源模型及Gemini 3.1 Pro,推理能力仅次于Gemini 3.1 Pro,深度搜索位列全球第四。技术创新包括提升参数效率的弹性预训练、增强可扩展性的异步强化学习训练等。模型已上线ERNIE平台和Baidu AI Studio。
ERNIE 5.1 is here 🚀 ERNIE 5.1 significantly reduces pretraining cost while compressing total parameters to ~1/3 and act...
现代LLM类似人脑,前馈层中超过95%的神经元对输入保持静默,呈现高度稀疏性。但GPU硬件专为密集计算设计,非结构化稀疏导致不规则内存访问,反而让计算更少的模型运行更慢。Sakana AI与NVIDIA合作解决了这一矛盾,开发了TwELL混合稀疏格式及定制CUDA内核,将稀疏性重塑为GPU易于处理的形式。该方案动态路由99%的稀疏token通过快速路径,并为密集token提供备用矩阵。在H100 GPU上,训练和推理速度提升超20%,同时降低内存占用和能耗。相关论文、博客和代码均已开源。
The human brain🧠 is incredibly efficient because it only activates the specific neurons needed for a thought. Modern LL...
Geoffrey Hinton指出语言只是思考的工具之一,AI推理可以是真正的思考,因为语言本身就是一种思考形式。人类和AI能用文字建模,但真正思考超越文字,涵盖图像、空间感和物理运动等多模态。最聪明的系统是能整合所有模态的AI,这代表下一个大突破方向:让AI像人类一样通过多感官、多维度理解世界,从而打破智能边界。多模态是最终出路,但文本基础仍需巩固以确保发展效果。
Geoffrey Hinton says AI reasoning can be real thought because language itself is a form of thinking Words let humans and...
Chain of thought monitors are a key layer of defense against AI agent misalignment. To preserve monitorability, we avoid...
DeepMind的AI co-mathematician在FrontierMath Tier 4研究级数学问题得分48%,而基础模型Gemini 3.1 Pro仅19%。提升源于多代理架构的智能编排,包括并行代理相互审查证明、编写代码和搜索文献,而非模型本身更智能。评估绕过标准框架,使用48小时每问题、无令牌限制的自有基础设施,因此得分不能直接与其他模型比较。案例中,数学家Marc Lackenby与AI合作解决Kourovka Notebook开放问题,AI提供证明策略,审查代理发现缺陷,人类专家填补空白,展示了高效人机协作。系统存在“reviewer-pleasing bias”和“death spirals”等失败模式。对于Erdős型猜想或千年问题,AI仍缺乏创造性直觉,但能压缩从想法到验证的时间,加速文献搜索和计算验证。论文强调范式转变:系统设计以对实际研究重要的方式复合模型能力,推动数学向数学家与AI代理协作的未来发展。
The future of Math is mathematicians and AI agents working together. Very pleased to introduce @GoogleDeepMind's AI co-m...
Ring-2.6-1T是一款万亿参数的旗舰思维模型,专为现实世界复杂任务和生产环境构建。该模型具备可调节思维努力功能,通过动态计算机制灵活平衡认知深度、token成本和执行速度。它针对代理优化,适用于高频工作流,提供快速多步执行和工具编排,并具有SOTA稳定性。深度思维特性解锁了模型的最大能力上限,特别适合严格数学逻辑和科学研究。
An OpenAI friend told me he burns 300M GPT-5.5 tokens/day. The top one in his team burns billions of tokens/day. Codex c...