BGE-M3里程碑级别的 Embedding(文本向量化)模型
BGE-M3是由北京智源人工智能研究院(BAAI)开源的一款里程碑级别的 Embedding(文本向量化)模型。在 RAG(检索增强生成)和搜索引擎领域,它目前被公认为开源界的“全能王者”之一它的名字里的“M3”代表了它的三大核心特性:Multi-lingual(多语言)、Multi-functionality(多功能)、Multi-granularity(多粒度)。下面我全方位、无死角地拆解这个模型,重点解答你关心的输入、产出和模型大小等问题。一、 核心输入与产出(它是怎么工作的?)这是 BGE-M3 最强大的地方。传统的 Embedding 模型(如 BGE-large、OpenAI 的 text-embedding-3)只能输出一种“稠密向量”,而 BGE-M3 能够一次性输出三种不同形态的向量,分别对应不同的检索需求。1. 输入(Input)输入内容:纯文本(字符串或字符串列表)。支持中文、英文以及全球 100 多种语言。输入长度(多粒度):最大支持8192 tokens(大约相当于 6000-8000 个中文字,或 12000 个英文单词)。这比传统的 512 tokens 限制有了质的飞跃,非常适合长文档、长论文的分块(Chunking)检索。2. 产出(Output)—— “三剑客”当你把一段文本喂给 BGE-M3 时,它可以同时吐出三种结果:二、 模型规格与大小(物理属性)如果你要在本地部署或评估硬件成本,以下是 BGE-M3 的具体物理参数:基础架构:基于 XLM-RoBERTa 架构进行深度改造和扩展。参数量(Parameters):568 Million(约 5.68 亿参数)。属于中等规模的模型,平衡了性能与速度。模型文件大小(磁盘占用):在FP16 / BF16(半精度,推荐用于推理)下,模型文件(.safetensors或.bin)大小约为1.14 GB。在 FP32(全精度)下,约为 2.27 GB。运行时内存/显存占用:加载模型本身约需 1.2 GB 显存/内存。在实际推理(Batch size = 1,处理常规长度文本)时,峰值显存/内存占用大约在1.5 GB - 2.5 GB之间。结论:一张入门级的显卡(如 RTX 3060 12G,甚至 RTX 4060 8G)或者普通的 CPU 服务器(分配 4G 内存)就能非常流畅地跑起来。最

相关新闻