针对现有工具集成推理范式存在代码仅用于事后验证、自然语言中间计算易错等问题,研究团队提出ThinC框架,将代码本身作为核心推理器。该框架仅以简短自然语言规划开始,后续所有推理均通过代码块及其执行输出串联完成。团队从教师模型中提取了12.2万条代码轨迹,并训练出ThinC-1.7B和ThinC-4B模型。在五项竞赛级数学基准测试中,ThinC-4B全面超越了所有工具集成推理基线,甚至优于规模大得多的Qwen3-235B-A22B-Thinking模型。分析表明,其99.2%的最终答案基于解释器输出,且能在代码执行失败时可靠恢复。