#9 F2 LLM-v2: Inclusive, Performant, and Efficient Embeddings for a Multilingual World
Score: 11.4 | Matched keywords: llm
Detailed Summary (EN)
Problem definition
- Text embedding models serve as the fundamental backbone for a wide array of AI applications, including semantic search, retrieval-augmented generation (RAG), text classification, and clustering.
- By mapping unstructured text into dense vector spaces, these models allow machines to capture complex semantic relationships, enabling efficient and accurate information retrieval and data analysis across massive datasets.
- This field has recently transitioned from encoder-based architectures (Devlin et al., 2019; Liu et al., 2019; Conneau et al., 2020) to decoder-based LLM embeddings (Zhang et al., 2025a; Lee et al., 2025a; Zhang et al., 2025b), benefiting from the extensive reasoning and linguistic capabilities acquired during large-scale pre-training and achieving remarkable gains in performance.
- Despite these advancements, the current state of frontier embedding research is characterized by two significant limitations.
Core idea & method
- pruning, and knowledge distillation techniques, we present models that are far more efficient than previous LLM-based embedding models while retaining competitive performances.
- Extensive evaluations confirm that F2LLMv2-14B ranks first on 11 MTEB benchmarks, while the smaller models in the family also set a new state of the art for resource-constrained applications.
- To facilitate opensource embedding model research, we release all models, data, code, and intermediate checkpoints.
- 1 [cs.CL] 19 Mar 2026 F2LLM-v2 Technical Report 1 Introduction Text embedding models serve as the fundamental backbone for a wide array of AI applications, including semantic search, retrieval-augmented generation (RAG), text classification, and clustering.
- By mapping unstructured text into dense vector spaces, these models allow machines to capture complex semantic relationships, enabling efficient and accurate information retrieval and data analysis across massive datasets.
Experimental setup & results
- For comparison, the English benchmark has 163 complete submissions.
- Abstract We present F2LLM-v2, a new family of general-purpose, multilingual embedding models in 8 distinct sizes ranging from 80M to 14B.
- Trained on a newly curated composite of 60 million publicly available high-quality data samples, F2LLM-v2 supports more than 200 languages, with a particular emphasis on previously underserved mid- and lowresource languages.
- By integrating a two-stage LLM-based embedding training pipeline with matryoshka learning, model pruning, and knowledge distillation techniques, we present models that are far more efficient than previous LLM-based embedding models while retaining competitive performances.
- Extensive evaluations confirm that F2LLMv2-14B ranks first on 11 MTEB benchmarks, while the smaller models in the family also set a new state of the art for resource-constrained applications.
Limitations & risks
- F2LLM-v2 is the latest member of the Codefuse embedding model family (Liao et al., 2024; Zhang et al., 2025b; Qin et al., 2025).
- By addressing the current gaps of language imbalance and training opacity in embedding model research, F2LLM-v2 represents a significant step forward in democratizing high-performance embedding models.
- With the release of 8 models along with the complete training recipe and intermediate checkpoints, we hope to facilitate transparency in frontier embedding research and contribute to a future with truly global equity in AI technology deployment.
Read-like-fullpaper digest
This paper addresses Text embedding models serve as the fundamental backbone for a wide array of AI applications, including semantic search, retrieval-augmented generation (RAG), text classification, and clustering. The core method is pruning, and knowledge distillation techniques, we present models that are far more efficient than previous LLM-based embedding models while retaining competitive performances. Key empirical findings include For comparison, the English benchmark has 163 complete submissions.
상세 요약 (KO)
문제 정의
- 텍스트 임베딩 모델은 의미 체계 검색, RAG(검색 증강 생성), 텍스트 분류 및 클러스터링을 포함한 광범위한 AI 애플리케이션의 기본 백본 역할을 합니다.
- 구조화되지 않은 텍스트를 조밀한 벡터 공간에 매핑함으로써 이러한 모델을 통해 기계는 복잡한 의미론적 관계를 캡처할 수 있으므로 대규모 데이터 세트에서 효율적이고 정확한 정보 검색 및 데이터 분석이 가능해집니다.
- 이 분야는 최근 인코더 기반 아키텍처(Devlin et al., 2019; Liu et al., 2019; Conneau et al., 2020)에서 디코더 기반 LLM 임베딩(Zhang et al., 2025a; Lee et al., 2025a; Zhang et al., 2025b)으로 전환되었습니다. 대규모 사전 훈련을 통해 놀라운 성능 향상을 달성했습니다.
- 이러한 발전에도 불구하고 현재 프론티어 임베딩 연구 상태에는 두 가지 중요한 한계가 있습니다.
핵심 아이디어/방법
- 가지치기 및 지식 증류 기술을 통해 경쟁력 있는 성능을 유지하면서 이전 LLM 기반 임베딩 모델보다 훨씬 효율적인 모델을 제시합니다.
- 광범위한 평가를 통해 F2LLMv2-14B가 11개의 MTEB 벤치마크에서 1위를 차지한 것으로 확인되었으며, 제품군의 소형 모델은 리소스가 제한된 애플리케이션을 위한 새로운 최첨단 기술을 설정했습니다.
- 오픈소스 임베딩 모델 연구를 촉진하기 위해 우리는 모든 모델, 데이터, 코드 및 중간 체크포인트를 공개합니다.
- 1 [cs.CL] 2026년 3월 19일 F2LLM-v2 기술 보고서 1 소개 텍스트 임베딩 모델은 의미 검색, RAG(검색 증강 생성), 텍스트 분류 및 클러스터링을 포함한 광범위한 AI 애플리케이션의 기본 백본 역할을 합니다.
- 구조화되지 않은 텍스트를 조밀한 벡터 공간에 매핑함으로써 이러한 모델을 통해 기계는 복잡한 의미론적 관계를 캡처할 수 있으므로 대규모 데이터 세트에서 효율적이고 정확한 정보 검색 및 데이터 분석이 가능해집니다.
실험 설정/결과
- 비교를 위해 영어 벤치마크에는 163개의 완전한 제출이 있습니다.
- Abstract 우리는 80M에서 14B까지 8가지 크기의 새로운 범용 다국어 임베딩 모델 제품군인 F2LLM-v2를 제시합니다.
- F2LLM-v2는 공개적으로 사용 가능한 6천만 개의 고품질 데이터 샘플로 구성된 새로 선별된 합성을 기반으로 교육을 받았으며, 특히 이전에 서비스가 부족했던 중간 및 저자원 언어에 중점을 두고 200개 이상의 언어를 지원합니다.
- 2단계 LLM 기반 임베딩 훈련 파이프라인을 matryoshka 학습, 모델 가지치기 및 지식 증류 기술과 통합함으로써 경쟁력 있는 성능을 유지하면서 이전 LLM 기반 임베딩 모델보다 훨씬 효율적인 모델을 제시합니다.
- 광범위한 평가를 통해 F2LLMv2-14B가 11개의 MTEB 벤치마크에서 1위를 차지한 것으로 확인되었으며, 제품군의 소형 모델은 리소스가 제한된 애플리케이션을 위한 새로운 최첨단 기술을 설정했습니다.
한계/리스크
- F2LLM-v2는 Codefuse 임베딩 모델 제품군의 최신 멤버입니다(Liao et al., 2024; Zhang et al., 2025b; Qin et al., 2025).
- F2LLM-v2는 임베딩 모델 연구에서 언어 불균형과 훈련 불투명성의 현재 격차를 해결함으로써 고성능 임베딩 모델을 대중화하는 데 있어 중요한 진전을 나타냅니다.
- 완전한 훈련 레시피 및 중간 체크포인트와 함께 8개 모델의 출시를 통해 우리는 프론티어 임베딩 연구의 투명성을 촉진하고 AI 기술 배포의 진정한 글로벌 형평성을 통해 미래에 기여하기를 희망합니다.
전체 논문 읽은 느낌 요약
이 문서에서는 의미 체계 검색, RAG(검색 증강 생성), 텍스트 분류 및 클러스터링을 포함한 다양한 AI 애플리케이션의 기본 백본 역할을 하는 텍스트 임베딩 모델을 다룹니다. 핵심 방법은 가지치기(pruning)와 지식 증류 기법으로, 경쟁력 있는 성능을 유지하면서 이전 LLM 기반 임베딩 모델보다 훨씬 효율적인 모델을 제시합니다. 주요 경험적 결과는 다음과 같습니다. 비교를 위해 영어 벤치마크에는 163개의 완전한 제출이 있습니다.