목차
학습 목표
목차
Gemini 임베딩이란 무엇입니까?
쌍둥이 자리 임베딩의 주요 특징
Gemini 임베디드 모델 아키텍처
훈련 전략
다른 다국어 임베딩 모델과 비교
Gemini 임베딩을 사용하여 검색하고 Jina AI 임베딩 및 다국어 -E5-Large와 비교
임베드 검색 출력 비교
설명하다
결론적으로
주요 이익
자주 묻는 질문
기술 주변기기 일체 포함 다국어 -E5-Large & Jina와 Gemini 임베딩의 비교

다국어 -E5-Large & Jina와 Gemini 임베딩의 비교

Mar 20, 2025 pm 03:02 PM

gemini 임베딩 : Google Gemini AI 프레임 워크에서 다국어 텍스트 임베딩 모델

단어 임베딩은 기계 번역, 질문 및 답변 및 정보 검색과 같은 힌디어의 NLP (Natural Language Processing) 작업에 중요합니다. 이 내장은 단어의 의미 론적 특성을 포착하여보다 정확하고 상황 지향적 인 NLP 응용 프로그램을 가능하게합니다. 많은 힌디어 스피커와 힌디어 언어의 숫자 함량이 증가함에 따라 고품질 임베딩은 이러한 언어의 NLP 성능을 향상시키는 데 중요합니다. 맞춤형 임베딩은 특히 인도어 가족의 고유 한 언어 특성과 자원 제한을 해결할 수 있습니다. 새로 출시 된 Gemini Embedding 모델은 Google의 강력한 Gemini AI 프레임 워크를 활용하여 100 개가 넘는 언어로 최첨단 성능을 달성하여 다국어 텍스트 임베딩의 상당한 발전을 나타냅니다.

Gemini 임베딩 모델은 분류, 검색 및 시맨틱 검색과 같은 작업에 능숙하여 효율성과 정확성을 높이기 위해 적용됩니다. 더 큰 입력 스케일과 더 높은 치수 출력을 지원함으로써 Gemini Embedding은 더 풍부한 텍스트 표현을 제공하여 다양한 응용 프로그램에서 널리 사용될 수 있습니다.

학습 목표

  • Gemini 임베딩 및 Gemini LLM과의 통합에 대해 알아보십시오.
  • Gemini Imbed를 사용하여 힌디어 문서를 검색하기위한 실용적인 튜토리얼.
  • Jina AI 임베딩 및 다국어 -E5-Large와의 비교 분석.
  • 다국어 텍스트 검색 기능 및 응용 프로그램에 대한 통찰력.

*이 기사는 *** 데이터 과학 블로그 마라톤 의 일부로 출판됩니다 . ***

목차

  • Gemini 임베딩이란 무엇입니까?
  • 쌍둥이 자리 임베딩의 주요 특징
  • Gemini 임베디드 모델 아키텍처
  • 다른 다국어 임베딩 모델과 비교
  • Gemini 임베딩을 사용하여 검색하고 Jina AI 임베딩 및 다국어 -E5-Large와 비교
    • 1 단계. 필요한 라이브러리를 설치하십시오
    • 2 단계. 데이터를로드하십시오
    • 3 단계. 데이터를 차단하십시오
    • 4 단계. 벡터 데이터베이스에 데이터를 저장하십시오
    • 5 단계. 데이터베이스 쿼리
    • 6 단계. Jina AI 임베딩과 비교하십시오
  • 임베드 검색 출력 비교
    • 설명하다
  • 결론적으로
  • 자주 묻는 질문

Gemini 임베딩이란 무엇입니까?

2025 년 3 월, Google은 Gemini API에서 사용할 수있는 새로운 실험 Gemini 임베딩 텍스트 모델 (Gemini-Embedding-exp-03-07)을 발표했습니다.

고급 임베딩 모델은 Gemini 모델에서 비롯되었으며, 이는 언어의 뉘앙스와 미묘한 맥락에 대한 Gemini의 깊은 이해를 물려 받으므로 다양한 응용 분야에서 널리 사용될 수 있습니다. MTEB 다국어 순위에서 1 위를 차지합니다.

다국어 -E5-Large & Jina와 Gemini 임베딩의 비교

Gemini 임베딩은 텍스트를 비슷한 의미를 가진 텍스트 입력이 서로 가까운 벡터 공간의 벡터에 매핑되는 조밀 한 벡터로 나타납니다. 현재 100 개가 넘는 언어를 지원하며 임베딩은 검색 및 분류와 같은 다양한 작업에 사용할 수 있습니다.

쌍둥이 자리 임베딩의 주요 특징

  • 강력한 다국어 기능 :이 모델은 영어와 같은 고 자원 소외 언어뿐만 아니라 Assamese 및 Macedonian과 같은 저주적 언어로도 100 개가 넘는 언어에서 뛰어난 성능을 보여줍니다.
  • 최대 8000 개의 입력 태그 처리 :이 강력한 기능을 통해 모델은 잘린 문서 나 복잡한 쿼리를 잘라 내지 않고 컨텍스트와 의미를 유지할 수 있습니다.
  • 3K 치수의 출력 치수 :이 모델은 최대 3072의 임베드 치수를 생성하고 작업 별 최적화를 위해 768 및 1536과 같은 하위 차원을 지원합니다.
  • 인상적인 성능 : Gemini Embedding은 MTEB (Massive Text Embedding Benchmark)에서 1 위, 평균 작업 점수는 68.32로 가장 가까운 경쟁 업체를 크게 능가했습니다.

Gemini 임베디드 모델 아키텍처

다국어 -E5-Large & Jina와 Gemini 임베딩의 비교

Gemini 임베딩의 핵심은 변압기 아키텍처를 기반으로하며 Gemini LLM에서 초기화되었습니다. 이 기초는 모델의 언어 구조와 의미론에 대한 깊은 이해를 제공합니다. 이 모델은 양방향주의 메커니즘을 사용하여 입력 시퀀스를 처리하여 임베딩을 생성 할 때 단어 나 문구의 전체 컨텍스트를 고려할 수 있도록합니다.

  1. 입력 순서 T는 M (양방향주의를 가진 변압기, 쌍둥이 자리에서 초기화 된 변압기)에 의해 처리되어 마커 임베딩 시퀀스를 초래합니다.
  2. 입력의 모든 정보를 나타내는 단일 임베딩을 생성하려면 풀링 기능이 적용됩니다.
  3. 마지막으로, 임베딩을 대상 차원으로 스케일링하기 위해 선형 투영이 적용되어 최종 출력 임베딩이 발생합니다.

손실 기능 : 쌍둥이 자리 임베딩 모델은 노이즈 비교 추정 (NCE) 손실을 사용하여 배치 부정적인 예제를 사용하여 훈련됩니다. 정확한 손실은 훈련 단계에 따라 약간 다릅니다. 일반적으로, 훈련 예제에는 쿼리, 긍정적 인 목표 및 (선택 사항) 어려운 목표가 포함됩니다.

훈련 전략

  1. 사전 튜닝 :이 단계 에서이 모델은 쿼리-표적 쌍을 포함하는 대규모 다각화 된 데이터 세트에서 훈련됩니다. 이 노출은 코딩 작업을위한 대형 언어 모델의 매개 변수를 조정하여 적응성의 기초를 마련합니다.
  2. 미세 조정 : 두 번째 단계 에서이 모델은 트리플 쿼리 양성-음성 음성 예제를 포함하는 작업 별 데이터 세트를 사용합니다. 이 프로세스는 더 작은 배치 크기와 잘 정립 된 데이터 세트를 사용하여 대상 작업의 성능을 향상시킵니다.

또한 읽으십시오 : Gemini Embedding : Gemini의 보편적 임베딩

다른 다국어 임베딩 모델과 비교

우리는 힌디어 문서에 대한 검색을 최신 새로 출시 된 Gemini Embedding과 비교 한 다음 Jina AI Embedding 및 Multialual-E5-Large Embedding과 비교합니다. 다음 표에서 볼 수 있듯이 Gemini Embedding 및 Jina AI 임베딩은 최대 태그 수 측면에서 높아서 모델이 긴 문서 또는 복잡한 쿼리를 처리 할 수 ​​있습니다. 또한, 다음 표에서 볼 수 있듯이, Gemini 임베드는 단어 간의보다 상세하고 미묘한 의미 론적 관계를 포착하여 복잡한 언어 패턴과 의미에서 미묘한 차이를 나타낼 수 있도록하는 더 높은 임베딩 차원을 가지게됩니다.

매개 변수 수 치수를 포함시킵니다 최대 마크 언어 수 인형 임베딩
Gemini-embedding-exp-03-07 알려지지 않은 3072 8192 100 2048, 1024, 512, 256 및 128 치수와 같은 다양한 크기로 임베딩을 잘라냅니다.
Jinaai/Jina-embeddings-v3 572 백만 1024 8194 100 유연한 임베드 크기 (32, 64, 128, 256, 512, 768, 1024)를 지원하며, 잘린 임베드가 애플리케이션에 맞게됩니다.
다국어 -E5-large-instruct 5 억 6 천만 1024 514 94 NA

Gemini 임베딩을 사용하여 검색하고 Jina AI 임베딩 및 다국어 -E5-Large와 비교

다음 실용 튜토리얼에서는 힌디어 문서 검색을 최신 새로 출시 된 Gemini Embeddings와 비교 한 다음 Jina AI Embedding 및 다국어 -E5-Large Embedings와 비교합니다.

1 단계. 필요한 라이브러리를 설치하십시오

 <code>!pip install langchain-community !pip install chromadb</code>
로그인 후 복사

2 단계. 데이터를로드하십시오

우리는 웹 사이트의 힌디어 데이터를 사용하여 힌디어 언어 검색으로 Gemini 임베딩의 성능을 평가했습니다.

 <code>from langchain_community.document_loaders import WebBaseLoader loader = WebBaseLoader("https://ckbirlahospitals.com/rbh/blog/pregnancy-early-symptoms-in-hindi") data = loader.load()</code>
로그인 후 복사

3 단계. 데이터를 차단하십시오

다음 코드는 recursiveCharacterTexTsplitter를 사용하여 대형 텍스트 문서를 겹치지 않고 500 자 덩어리로 분할합니다. 그런 다음이 분할을 DataVariable에 적용하고 결과를 All_Splits에 저장합니다. Gemini Imbedding API의 속도 한계로 인해 10 개의 스플릿 만 사용합니다.

 <code>from langchain_text_splitters import RecursiveCharacterTextSplitter text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=0) all_splits = text_splitter.split_documents(data) all_splits = all_splits[:10]</code>
로그인 후 복사

4 단계. 벡터 데이터베이스에 데이터를 저장하십시오

먼저 "GeminieMbeddingFunction"이라는 클래스를 만듭니다. Gemini Embedding API를 쿼리하고 입력 쿼리의 내장 값을 반환하는 데 도움이됩니다. 그런 다음 "create_chroma_db"라는 함수를 만들어 데이터를 저장할뿐만 아니라 내장 할 수있는 컬렉션을 만듭니다.

 <code>import chromadb from chromadb import Documents, EmbeddingFunction, Embeddings class GeminiEmbeddingFunction(EmbeddingFunction): def __call__(self, input: Documents) -> Embeddings: title = "Custom query" return client.models.embed_content( model="gemini-embedding-exp-03-07", contents=input).embeddings[0].values def create_chroma_db(documents, name): chroma_client = chromadb.Client() db = chroma_client.create_collection(name=name, embedding_function=GeminiEmbeddingFunction()) for i, d in enumerate(documents): db.add( documents=d.page_content, ids=str(i) ) return db db = create_chroma_db(all_splits, "datab")</code>
로그인 후 복사

5 단계. 데이터베이스 쿼리

 <code>def get_relevant_passage(query, db): passage = db.query(query_texts=[query], n_results=1)['documents'][0][0] return passage passage = get_relevant_passage("आपको प्रेगनेंसी टेस्ट कब करवाना चाहिए?", db) print(passage)</code>
로그인 후 복사
로그인 후 복사

6 단계. Jina AI 임베딩과 비교하십시오

다음 코드는 Hugging Face Transformer 모델을 사용하여 사용자 정의 임베딩 기능을 정의하고 텍스트 입력을 처리하여 임베딩을 생성하는 방법을 정의합니다.

  1. 트랜스포머의 자동 autotokenizer 및 오토 모드는 사전 치료 된 모델 (Jinaai/Jina-embeddings-v3)을로드하고 CHROMADB의 가져 오기 임베딩 기능을 사용자 정의 임베딩을 생성하는 데 사용됩니다.
  2. 평균 _pool 기능 :이 기능은 모델에서 풀링 작업을 수행하여 모델의 숨겨진 상태를 집계하고 시퀀스 길이를 평균화하면서주의 마스크 (채우기 마크 무시)를 취합니다.
  3. CustomHuggingface 클래스 : 텍스트를 토큰 화하고 모델에 공급하며 평균 _pool 함수를 사용하여 임베딩을 계산합니다. 결과는 임베디드 목록으로 반환됩니다.
 <code>from transformers import AutoTokenizer, AutoModel from chromadb import EmbeddingFunction tokenizer = AutoTokenizer.from_pretrained('jinaai/jina-embeddings-v3') model = AutoModel.from_pretrained('jinaai/jina-embeddings-v3') # the model returns many hidden states per document so we must aggregate them def average_pool(last_hidden_states, attention_mask): last_hidden = last_hidden_states.masked_fill(~attention_mask[...,None].bool(), 0.0) return last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[...,None] class CustomHuggingFace(EmbeddingFunction): def __call__(self, texts): queries = [f'query: {text}' for text in texts] batch_dict = tokenizer(texts, max_length=512, padding=True, truncation=True, return_tensors='pt') outputs = model(**batch_dict) embeddings = average_pool(outputs.last_hidden_state, batch_dict['attention_mask']) return embeddings.tolist()</code>
로그인 후 복사

질문

 <code>def get_relevant_passage(query, db): passage = db.query(query_texts=[query], n_results=1)['documents'][0][0] return passage passage = get_relevant_passage("आपको प्रेगनेंसी टेस्ट कब करवाना चाहिए?", db) print(passage)</code>
로그인 후 복사
로그인 후 복사

다국어 -E5-Large 임베드를 선택하기 위해 토큰 화기와 모델을 "intfloat/multiredual-e5-large-instruct"로 교체합니다.

임베드 검색 출력 비교

질문 번호 질문 쌍둥이 자리 삽입 Jinaai/Jina-embeddings-v3 intfloat/다국어 -E5-Large-Instruct
1 आपको ेगनेंसी ेगनेंसी ेगनेंसी효야 टेस टेस효치 कब치 ?치위 ?용 ?용 ?용 ?용용? 하여용용용용용? 하여용용용용용? 용용용용용용용용용용용용용사 전용용용용용용용용용용용용용 증가용용용용용용용용용용용 액용용용용용용용위용용용용용용용용용용용용용용용 용용용용용용용용용용용용용탁 내포심하지 으로편 임신 초기 증상에 대해 더 많이 배우려면이 블로그 게시물이 완벽합니다. 언제 임신 검사를 받아야합니까? -실수 임신 초기 증상에 대해 더 많이 배우려면이 블로그 게시물이 완벽합니다. 언제 임신 검사를 받아야합니까? -실수 임신 초기 증상에 대해 더 많이 배우려면이 블로그 게시물이 완벽합니다. 언제 임신 검사를 받아야합니까? -실수
2 임신 के kuch 기호 क 익 य 류 होते हैं? 임신의 초기 증상은 무엇입니까? 임신 중에 여성에서 많은 호르몬 변화가 발생합니다. 임신의 초기 증상에는 메스꺼움, 구토, 빈번한 배뇨 및 피로가 포함되며,이 블로그 게시물에서 논의 할 것입니다. -옳은 임신 징후 : 초기 증상에 대한 완전한 정보! 집에 빠른 상담 환자 로그인 저희에게 연락하십시오 : 08062136530 응급 전화 : 07340054470 환자와 방문객들에게 서비스를 제공하기 위해 메인 메뉴를 열어 임신의 초기 증상에 대해 WhatsApp에 전화하도록 약속합니다. 산부인과 | 임신의 초기 증상은 무엇입니까? 임신 임신의 조기 증상 - 오류 임신의 초기 증상은 무엇입니까? 임신 중에 여성에서 많은 호르몬 변화가 발생합니다. 임신의 초기 증상에는 메스꺼움, 구토, 빈번한 배뇨 및 피로가 포함되며,이 블로그 게시물에서 논의 할 것입니다. -옳은
3 ग ■는지 ग भ भ के दौ एंटीब 효치어 용고 लेने लेने लेने से 용고? 임신 첫 며칠 동안 난자와 정자는 수정되어 출혈 및 복통과 같은 증상을 유발합니다. 이 기간 동안 건강한 임신의 경우 여성은 항생제 복용을 피하는 것이 좋습니다. 어머니와 아기에게는 위험 할 수 있습니다. 임신 초기 증상이 항상 월경이나 구토가 지연되는 것은 아닙니다. 또한 다른 증상이 발생할 수 있으며 - 정확한 주의가 필요합니다. 임신 첫 며칠 동안 난자와 정자는 수정되어 출혈 및 복통과 같은 증상을 유발합니다. 이 기간 동안 건강한 임신의 경우 여성은 항생제 복용을 피하는 것이 좋습니다. 어머니와 아기에게는 위험 할 수 있습니다. 임신 초기 증상이 항상 월경이나 구토가 지연되는 것은 아닙니다. 또한 다른 증상이 발생할 수 있으며 - 정확한 주의가 필요합니다. 모든 여성이 알아야 할 것. 임신 관련 질문에 대해서는 산부인과 전문의에게 연락하여 모든 합병증을 제거하는 것이 좋습니다. -실수
4 कब कब भ는지 भ  एंटीब एंटीब एंटीब दव दव लेने लेने 용고? 임신 첫 며칠 동안 난자와 정자는 수정되어 출혈 및 복통과 같은 증상을 유발합니다. 이 기간 동안 건강한 임신의 경우 여성은 항생제 복용을 피하는 것이 좋습니다. 어머니와 아기에게는 위험 할 수 있습니다. 임신 초기 증상이 항상 월경이나 구토가 지연되는 것은 아닙니다. 또한 다른 증상이 발생할 수 있으며 - 정확한 주의가 필요합니다. 임신 첫 며칠 동안 난자와 정자는 수정되어 출혈 및 복통과 같은 증상을 유발합니다. 이 기간 동안 건강한 임신의 경우 여성은 항생제 복용을 피하는 것이 좋습니다. 어머니와 아기에게는 위험 할 수 있습니다. 임신 초기 증상이 항상 월경이나 구토가 지연되는 것은 아닙니다. 또한 다른 증상이 발생할 수 있으며 - 정확한 주의가 필요합니다. 모든 여성이 알아야 할 것. 임신 관련 질문에 대해서는 산부인과 전문의에게 연락하여 모든 합병증을 제거하는 것이 좋습니다. -실수
5 ग ण십시오. 월경 지연 : 이것은 임신의 가장 초기적이고 가장 흔한 증상입니다. 이 증상에만 근거한 임신 확인은 전적으로 맞지 않습니다. 그러나 월경이 일주일 이상 지연되면 임신 검사를 권장합니다. 유방 변화 : 임신 중에는 가슴이 부풀어 오르거나 부드러워 지거나 색이 변합니다. 주로 젖꼭지의 크기와 색상이 변경됩니다 (Areola). -옳은 이를 염두에두고 임신을 확인하는 방법은 무엇입니까? 임신 첫 달을 돌보는 방법? 임신 검진 방법은 무엇입니까? 임신 중에 어떻게 앉아야합니까? 임신 중에 성관계가 발생해야합니까? 임신 중에 어떤 과일을 먹어야합니까? 임신 중에 얼마나 많은 물을 마셔야합니까? 어머니가되는 기쁨은 세상에서 가장 큰 행복입니다. 임신 중에 여성의 신체적, 심리적 변화에는 많은 변화가 있습니다. 이러한 변화를 임신 초기 증상이라고 부릅니다 - 오류 임신의 초기 증상은 무엇입니까? 임신 중에 여성에서 많은 호르몬 변화가 발생합니다. 임신의 초기 증상에는 메스꺼움, 구토, 빈번한 배뇨 및 피로가 포함되며,이 블로그 게시물에서 논의 할 것입니다. -옳은
6 ग ■는지 님 के पहले पहले संकेत क क 효치 होते हैं? 임신 징후 : 초기 증상에 대한 완전한 정보! 집에 빠른 상담 환자 로그인 저희에게 연락하십시오 : 08062136530 응급 전화 : 07340054470 환자와 방문객들에게 서비스를 제공하기 위해 메인 메뉴를 열어 임신의 초기 증상에 대해 WhatsApp에 전화하도록 약속합니다. 산부인과 | 임신의 초기 증상은 무엇입니까? 임신 임신의 조기 증상 - 오류 이를 염두에두고 임신을 확인하는 방법은 무엇입니까? 임신 첫 달을 돌보는 방법? 임신 검진 방법은 무엇입니까? 임신 중에 어떻게 앉아야합니까? 임신 중에 성관계가 발생해야합니까? 임신 중에 어떤 과일을 먹어야합니까? 임신 중에 얼마나 많은 물을 마셔야합니까? 어머니가되는 기쁨은 세상에서 가장 큰 행복입니다. 임신 중에 여성의 신체적, 심리적 변화에는 많은 변화가 있습니다. 이러한 변화를 임신 초기 증상이라고 부릅니다 - 오류 임신의 초기 증상은 무엇입니까? 임신 중에 여성에서 많은 호르몬 변화가 발생합니다. 임신의 초기 증상에는 메스꺼움, 구토, 빈번한 배뇨 및 피로가 포함되며,이 블로그 게시물에서 논의 할 것입니다. -옳은
7 ग ■는지 님 भ पुष पुष के लिए लिए कौन से से ह ह र र치 क क पत 효어 용고? 임신 검사를 받기 가장 좋은시기는 월경이 7 일 이상 지연된 후입니다. 가정 임신 테스트 도구를 사용하여 집에서 HCG 수준을 감지 할 수 있습니다. 임신 중에이 호르몬 수치는 크게 증가합니다. 한 가지 주목해야 할 것은 조기 테스트가 잘못된 결과로 이어질 수 있다는 것입니다. 따라서 기간이 지연되고 테스트가 부정적인 경우 다시 테스트하기 전에 최소 3 일 더 기다리는 것이 좋습니다. -옳은 이 작업을 수행하는 올바른 방법도 있습니다. 테스트 도구 설명서에서도 볼 수 있습니다. 정확한 결과를 얻으려면 올바른 수준의 HCG 호르몬을 측정 할 수 있으므로 아침에 첫 소변을 사용해야합니다. 또한 임신 초기 증상이 발생하고 검사 결과가 부정적인 경우 즉시 혈액 검사를 받으려면 의사를 참조하십시오. 어쨌든 궁금한 점이 있으면 의사와 상담해야합니다. -옳은 임신의 초기 증상은 무엇입니까? 임신 중에 여성에서 많은 호르몬 변화가 발생합니다. 임신의 초기 증상에는 메스꺼움, 구토, 빈번한 배뇨 및 피로가 포함되며,이 블로그 게시물에서 논의 할 것입니다. -실수

설명하다

위의 힌디어 출력에서 ​​볼 수 있듯이 Gemini 임베딩을 사용하여 7 쿼리에서 5 개의 올바른 출력을 얻을 수 있으며 Jina AI Embedding 및 Multialual-E5-Large를 사용하면 3 가지 정확한 응답 만 얻습니다.

이것은 MTEB 벤치 마크에 반영된 바와 같이, Gemini 임베딩이 잘 작동하고 다른 임베딩 모델보다 힌디어와 같은 다국어를 더 잘 처리 함을 보여줍니다.

결론적으로

요컨대, Gemini 임베딩은 다국어 NLP, 특히 힌디어와 같은 힌디어 언어의 상당한 발전을 나타냅니다. 강력한 다국어 기능, 대규모 입력 크기에 대한 지원 및 MTEB와 같은 벤치 마크의 우수한 성능을 지원하는 Gemini는 검색, 분류 및 시맨틱 검색과 같은 작업을 탁월합니다. 실질적인 비교를 통해 Gemini의 성능은 다른 모델보다 우수하여 더 높은 정확도와 효율성을 제공하여 다국어 NLP를 홍보하는 데 유용한 도구입니다.

주요 이익

  • 힌디어 언어 임베딩의 중요성 : 고품질 임베딩은 번역, 질문 및 답변 및 검색과 같은 NLP 작업을 향상시켜 언어 문제 해결 및 자원 격차 문제를 해결합니다.
  • Gemini 임베딩 모델 : Google의 Gemini Embedding은 AI 프레임 워크를 사용하여 다국어 텍스트 처리를 사용하여 저주적 언어를 포함하여 100 개 이상의 언어를 다룹니다.
  • 주요 기능 : 8000 마커와 3072 차원 임베딩을 지원하여 긴 문서 및 복잡한 쿼리의 효율적인 처리를 가능하게합니다.
  • 인상적인 성능 : MTEB 다국어 순위에서 1 위를 차지한 평균 작업 점수는 68.32로, 다국어 NLP에서 그 전력을 보여줍니다.

이 기사에 표시된 미디어는 분석 Vidhya가 소유하지 않으며 저자의 재량에 따라 사용할 수 있습니다.

자주 묻는 질문

Q1. A : Gemini Embedding 모델은 Google의 Gemini AI를 기반으로하며 힌디어를 포함한 100 개 이상의 언어에 대한 최고 수준의 다국어 텍스트 임베드를 제공합니다.

Q2. 다른 모델에 비해 쌍둥이 자리 삽입물은 무엇입니까? A : Gemini Embedding은 다국어 지원에 탁월하며 8000 마커 및 출력 3072 차원을 처리하여 분류, 검색 및 시맨틱 검색의 효율성을 보장합니다.

Q3. GeMini 임베딩은 다국어 작업에서 어떻게 수행됩니까? 답변 : Gemini Embedding은 영어 및 Assamese 및 Macedonian과 같은 저주적 언어와 같은 고 자원 언어로 잘 수행됩니다. MTEB 다국어 순위에서 1 위를 차지하여 강력한 다국어 기능을 보여줍니다.

Q4. Gemini 임베딩 모델의 무엇입니까? A :이 모델은 Gemini LLM에서 초기화되며 양방향주의를 가진 변압기 아키텍처를 사용하여 상황과 의미를 포착하는 고품질 텍스트 임베드를 생성합니다.

Q5. A : Gemini 임베딩은 훈련을위한 배치 부정적인 예와 함께 노이즈 비교 추정 (NCE) 손실을 사용합니다. NLP 성능을 향상시키기 위해 대규모 데이터 세트 및 작업 별 데이터 세트의 사전 결합하는 두 가지 교육 단계를 거칩니다.

위 내용은 다국어 -E5-Large & Jina와 Gemini 임베딩의 비교의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

창의적인 프로젝트를위한 최고의 AI 아트 발전기 (무료 & amp; 유료) 창의적인 프로젝트를위한 최고의 AI 아트 발전기 (무료 & amp; 유료) Apr 02, 2025 pm 06:10 PM

이 기사는 최고의 AI 아트 생성기를 검토하여 자신의 기능, 창의적인 프로젝트에 대한 적합성 및 가치에 대해 논의합니다. Midjourney를 전문가에게 최고의 가치로 강조하고 고품질의 사용자 정의 가능한 예술에 Dall-E 2를 추천합니다.

Meta Llama 3.2- 분석 Vidhya를 시작합니다 Meta Llama 3.2- 분석 Vidhya를 시작합니다 Apr 11, 2025 pm 12:04 PM

메타의 라마 3.2 : 멀티 모달 및 모바일 AI의 도약 Meta는 최근 AI에서 강력한 비전 기능과 모바일 장치에 최적화 된 가벼운 텍스트 모델을 특징으로하는 AI의 상당한 발전 인 Llama 3.2를 공개했습니다. 성공을 바탕으로 o

최고의 AI 챗봇 비교 (Chatgpt, Gemini, Claude & amp; more) 최고의 AI 챗봇 비교 (Chatgpt, Gemini, Claude & amp; more) Apr 02, 2025 pm 06:09 PM

이 기사는 Chatgpt, Gemini 및 Claude와 같은 최고의 AI 챗봇을 비교하여 고유 한 기능, 사용자 정의 옵션 및 자연어 처리 및 신뢰성의 성능에 중점을 둡니다.

컨텐츠 생성을 향상시키기 위해 AI를 쓰는 최고 AI 작문 컨텐츠 생성을 향상시키기 위해 AI를 쓰는 최고 AI 작문 Apr 02, 2025 pm 06:11 PM

이 기사는 Grammarly, Jasper, Copy.ai, Writesonic 및 Rytr와 같은 최고의 AI 작문 조수에 대해 논의하여 콘텐츠 제작을위한 독특한 기능에 중점을 둡니다. Jasper는 SEO 최적화가 뛰어나고 AI 도구는 톤 구성을 유지하는 데 도움이된다고 주장합니다.

AI 에이전트를 구축하기위한 상위 7 개의 에이전트 래그 시스템 AI 에이전트를 구축하기위한 상위 7 개의 에이전트 래그 시스템 Mar 31, 2025 pm 04:25 PM

2024는 콘텐츠 생성에 LLM을 사용하는 것에서 내부 작업을 이해하는 것으로 바뀌는 것을 목격했습니다. 이 탐사는 AI 요원의 발견으로 이어졌다 - 자율 시스템을 처리하는 과제와 최소한의 인간 개입으로 결정을 내렸다. buildin

AV 바이트 : Meta ' S Llama 3.2, Google의 Gemini 1.5 등 AV 바이트 : Meta ' S Llama 3.2, Google의 Gemini 1.5 등 Apr 11, 2025 pm 12:01 PM

이번 주 AI 환경 : 발전의 회오리 바람, 윤리적 고려 사항 및 규제 토론. OpenAi, Google, Meta 및 Microsoft와 같은 주요 플레이어

직원에게 AI 전략 판매 : Shopify CEO의 선언문 직원에게 AI 전략 판매 : Shopify CEO의 선언문 Apr 10, 2025 am 11:19 AM

Shopify CEO Tobi Lütke의 최근 메모는 AI 숙련도가 모든 직원에 대한 근본적인 기대를 대담하게 선언하여 회사 내에서 중요한 문화적 변화를 표시합니다. 이것은 도망가는 트렌드가 아닙니다. 그것은 p에 통합 된 새로운 운영 패러다임입니다

최고의 AI 음성 생성기 선택 : 최고 옵션 검토 최고의 AI 음성 생성기 선택 : 최고 옵션 검토 Apr 02, 2025 pm 06:12 PM

이 기사는 Google Cloud, Amazon Polly, Microsoft Azure, IBM Watson 및 Destript와 같은 최고의 AI 음성 생성기를 검토하여 기능, 음성 품질 및 다양한 요구에 대한 적합성에 중점을 둡니다.

See all articles