4月7日,微软必应团队宣布开源业界领先的文本嵌入模型系列Harrier,以满足现代AI智能体系统对信息处理的高标准需求。Harrier模型在多语言MTEB-v2基准测试中排名第一,能够将文本等高维数据转换为低维向量表示,捕捉数据的语义特征,是搜索引擎、推荐系统和智能体进行信息检索、语义理解和知识推理的基础组件。
此次发布的Harrier系列包含三个版本:Harrier-OSS-v1-27B、Harrier-OSS-v1-0.6B和Harrier-OSS-v1-270M。所有型号均支持超过100种语言,具备32k上下文窗口,并能为任意输入生成固定尺寸的嵌入向量。技术实现上,团队构建了可扩展的数据管道,利用GPT-5生成了超20亿个弱监督数据样本用于对比预训练,以及超1000万个高质量样本用于微调。在训练策略上,团队为适配低端设备的部署需求,在旗舰模型训练完成后,通过知识蒸馏技术推出了Harrier-OSS-v1-0.6b与Harrier-OSS-v1-270m两个轻量级版本。
Harrier模型成功超越谷歌GeminiEmbedding2,位列行业第一。与竞品相比,Harrier模型不仅性能优异,更采用完全开源策略,开发者可在无许可限制的情况下使用该模型,从而轻松提升AI应用的检索质量与语义理解能力。基于Harrier的技术积累,微软正开发全新的检索服务,未来将率先应用于必应搜索,以提升用户交互体验。


