基础模型在自然语言处理中建立了统一表示,但表格数据领域仍待探索。现有方法存在根本限制:基于LLM的方法缺乏检索兼容的向量输出,而文本嵌入模型常无法捕捉表格结构和数值语义。为此,我们首先引入表格嵌入基准TabBench,以评估嵌入模型的表格理解能力;然后提出首个通用嵌入模型TabEmbed,将分类和检索任务统一到共享嵌入空间。TabEmbed通过将多样表格任务重构为语义匹配问题,利用大规模对比学习和正样本感知的困难负样本挖掘技术,捕捉细粒度结构与数值语义。实验表明,TabEmbed在TabBench上显著优于当前最先进的文本嵌入模型,为通用表格表示学习设立了新基准。相关代码和数据集已在GitHub和Hugging Face平台开源。