Google은 최근 새로운 생성 AI 모델 인 Gemini를 출시했습니다. Google Research 회원을 포함하여 Google의 다양한 팀의 협력 노력으로 인해 발생합니다.
Google이 지금까지 개발 한 가장 유능하고 일반적인 목적 AI로 지칭하는이 모델은 멀티 모달로 설계되었습니다. 이것은 Gemini가 텍스트, 오디오, 이미지, 비디오 및 코드와 같은 다양한 데이터 유형을 이해할 수 있음을 의미합니다.
이 기사의 나머지 부분에 대해서는 다음과 같습니다.
gemini 란 무엇입니까?
gemini의 버전은 무엇입니까?
gemini에 어떻게 액세스 할 수 있습니까?
gemini 벤치 마크가 탐색
gemini vs. gpt-4
gemini 의 사용 사례
Google gemini 란 무엇입니까?
2023 년 12 월 6 일, Google DeepMind는 Gemini 1.0을 발표했습니다. 출시되자 Google 은이를 가장 고급 대형 언어 모델 (LLM) 세트로 묘사하여 같은 해 5 월에 데뷔 한 Pathways Langauge Model (Palm 2)을 대체했습니다.
Gemini는 텍스트, 이미지, 비디오 및 오디오를 이해할 수있는 멀티 모달 LLM 제품군을 정의합니다. 또한 수학 및 물리학에서 복잡한 작업을 수행 할 수있을뿐만 아니라 여러 프로그래밍 언어로 고품질 코드를 생성 할 수 있다고합니다.
재미있는 사실 : Google의 공동 창립자 인 Sergey Brin은 Gemini 모델의 기여자 중 하나로 인정됩니다.
최근까지, 멀티 모달 모델을 개발하기위한 표준 절차는 다양한 양식에 대한 개별 구성 요소를 훈련시킨 다음 몇 가지 기능을 모방하기 위해 함께 조각하는 것으로 구성되었습니다. 이러한 모델은 때때로 이미지를 설명하는 것과 같은 특정 작업을 수행하는 데 탁월하지만보다 정교하고 복잡한 추론에 어려움이 있습니다.
Gemini는 기본적으로 다중 모드로 설계되었습니다. 따라서, 그것은 처음부터 몇 가지 양식에서 미리 훈련되었습니다. 그 효능을 더욱 세분화하기 위해 Google은 추가 멀티 모달 데이터로 미세 조정했습니다.
Google과 Alphabet의 CEO 인 Sundar Pichai와 Google DeepMind의 CEO 인 DeMis Hassabis에 따르면 결과적으로 Gemini는 기존의 멀티 모달 모델보다 접지에 대한 광범위한 입력에 대한 이해와 추론에 훨씬 더 능력이 있습니다. 그들은 또한 Gemini의 능력이“거의 모든 영역에서 예술의 최첨단”이라고 말합니다.
Google Gemini 키 기능
쌍둥이 자리 모델의 주요 특징은 다음과 같습니다
1. 텍스트, 이미지, 오디오 및 기타 이해
멀티 모달 AI는 새로운 AI 패러다임으로 다양한 데이터 유형이 여러 알고리즘과 병합되어 더 높은 성능을 달성합니다. Gemini는이 패러다임을 활용하여 다양한 데이터 유형과 잘 통합됩니다. 이미지, 오디오, 텍스트 및 기타 데이터 유형을 입력하여보다 자연스러운 AI 상호 작용을 초래할 수 있습니다. 2. 신뢰성, 확장 성 및 효율성
Gemini는 Google의 TPUV5 칩을 활용하여 GPT-4보다 5 배 더 강한 것으로 알려졌다. 더 빠른 처리는 Gemini가 복잡한 작업을 비교적 쉽게 다루고 여러 요청을 동시에 처리 할 수있게 해줍니다.
3. 정교한 추론
Gemini는 텍스트 및 코드의 거대한 데이터 세트에 대해 교육을 받았습니다. 이를 통해 모델이 최신 정보에 액세스하고 쿼리에 대한 정확하고 신뢰할 수있는 응답을 제공 할 수 있습니다. Google에 따르면이 모델은 다양한 인텔리전스 테스트 (예 : MMLU 벤치 마크)에서 OpenAI의 GPT-4 및 "전문가 수준"인간을 능가합니다.
4. 고급 코딩
gemini 1.0은 Python, Java, C 및 Go와 같은 가장 널리 사용되는 프로그래밍 언어에서 고품질 코드를 이해, 설명 및 생성 할 수 있습니다.이를 통해 전 세계적으로 코딩하기위한 주요 기초 모델 중 하나입니다. .
이 모델은 또한 코딩 작업에 대한 성능을 평가하기위한 고도로 유명한 산업 표준 인 Humaneval을 포함한 여러 코딩 벤치 마크에서 뛰어납니다. 또한 웹의 정보 대신 작성자 생성 코드를 활용하는 Google의 내부 Hold-At-Out 데이터 세트에서도 잘 수행되었습니다.
5. 책임과 안전
Gemini의 다중 모드 기능을 설명하기 위해 Google의 AI 원칙 및 정책에 새로운 보호가 추가되었습니다. Google은“Gemini는 편견 및 독성을 포함하여 현재까지 모든 Google AI 모델에 대한 가장 포괄적 인 안전 평가를 가지고 있습니다.” 그들은 또한“사이버-오버 센스, 설득 및 자율성과 같은 잠재적 위험 영역에 대한 새로운 연구를 수행했으며 Gemini의 배포에 앞서 중요한 안전 문제를 식별하기 위해 Google Research의 동급 적대적 테스트 기술을 적용했습니다.
gemini의 버전은 무엇입니까?
Google은 Lamda와 Palm 2의 후임자 인 Gemini는“가장 유연한 모델이지만 데이터 센터에서 모바일 장치에 이르기까지 모든 것을 효율적으로 실행할 수 있습니다”라고 말합니다. 또한 Gemini의 최첨단 기능은 개발자와 비즈니스 고객이 AI로 구축하고 확장하는 방식을 향상시킬 것이라고 믿는다.
의심 할 여지없이 Gemini 1.0이라는 Gemini의 첫 번째 버전은 세 가지 크기로 출시되었습니다.
gemini nano - -Gemini Nano는 외부 서버에 연결하지 않고 효율적인 AI 처리가 필요한 사후 작업을위한 가장 효율적인 모델입니다. 즉, 스마트 폰, 특히 Google Pixel 8에서 실행되도록 설계되었습니다.
Gemini Pro - Gemini Pro는 다양한 작업에서 스케일링을위한 최적의 모델입니다. Google의 가장 최근 AI 챗봇 인 Bard에 전원을 공급하도록 설계되었습니다. 따라서 복잡한 쿼리를 이해하고 빠르게 응답 할 수 있습니다
Gemini Ultra -Gemini Ultra는 복잡한 작업을위한 가장 크고 가장 유능한 모델로, 현재 최첨단 결과를 초과하여 32 개의 대형 언어 모델 (LLM) 연구 및 개발 중 30 개를 초과합니다.
gemini에 어떻게 액세스 할 수 있습니까? -
2023 년 12 월 13 일부터 개발자와 엔터프라이즈 고객은 Google AI Studio 또는 Google Cloud Vertex AI의 Gemini의 API를 통해 Gemini Pro에 액세스 할 수있었습니다.
참고 Google AI Studio는 개발자가 생성 모델 프로토 타입 및 API 키를 사용하여 응용 프로그램을 쉽게 시작하는 데 사용할 수있는 자유롭게 사용 가능한 브라우저 기반 IDE입니다. 반면 Google Cloud Vertex는 생성 AI를 빌드하고 사용하는 데 필요한 모든 도구를 제공하는 완전히 관리되는 AI 플랫폼입니다. Google에 따르면, "Vertex AI는 전체 데이터 제어 기능을 갖춘 Gemini를 사용자 정의 할 수 있으며 엔터프라이즈 보안, 안전, 개인 정보 및 데이터 거버넌스 및 규정 준수를위한 추가 Google 클라우드 기능의 이점"이라고합니다.
Android 14와 함께 새로운 시스템 기능 인 AICore를 통해 Pixel 8 Pro 장치에서 시작하여 Android 개발자는 Op-Device 작업을위한 가장 효율적인 모델 인 Gemini Nano를 사용하여 구축 할 수 있습니다.
gemini 벤치 마크가 탐색
Gemini 모델은 출시되기 전에 광범위한 작업에서 성능을 평가하기 위해 광범위한 테스트를 거쳤습니다. Google은 Gemini Ultra Model이 32 개의 LLM (Lange Language Model) 연구 및 개발에 일반적으로 사용되는 학업 벤치 마크 중 30 개에 대한 기존 최첨단 결과를 능가한다고 밝혔다. 이러한 작업은 자연 이미지, 오디오 및 비디오 이해에서 수학적 추론에 이르기까지 다양합니다.
Gemini 입문 블로그 게시물에서 Google은 Gemini Ultra가 MMLU (Mustive Multitask Language Inderning)에 대한 인간 전문가를 90.0%로 우수한 모델이라고 주장합니다. MMLU는 수학, 물리, 역사, 법, 의학 및 윤리를 포함한 57 가지 과목을 통합하여 문제를 해결하는 능력과 세계에 대한 일반적인 이해를 평가합니다.
MMLU의 새로운 MMLU 벤치 마크 방법을 사용하면 Gemini는 도전적인 질문에 응답하기 전에 추론 권한을 사용하여 더 철저하게 의도적으로 고의적으로 고의적으로 활용하여 첫인상을 활용하는 대신 상당한 개선을 할 수 있습니다.
텍스트 작업에서 Gemini가 수행 한 방법은 다음과 같습니다
-
이번 연구 결과는 Gemini가 텍스트 및 코딩을 포함한 광범위한 벤치 마크에서 최첨단 성과를 능가합니다. [출처]
Gemini Ultra Model은 또한 59.4%의 점수로 새로운 대규모 MMMU (Mustive Multidisciplin Multimodal Shinering) 벤치 마크에서 최첨단을 달성했습니다. 이 평가는 의도적 인 추론이 필요한 다양한 영역에 걸친 다중 모드 작업으로 구성됩니다.
Google이 말했다.“우리가 테스트 한 이미지 벤치 마크를 사용하면 Gemini Ultra는 추가 처리를 위해 이미지에서 텍스트를 추출하는 OCR (Optical Character Recognition) 시스템의 도움없이 이전의 최첨단 모델을 능가했습니다.
이번 연구 결과는 Gemini가 광범위한 멀티 모달 벤치 마크에서 최첨단 성과를 능가한다는 것을 보여줍니다. [출처]
gemini가 설정 한 벤치 마크는 모델의 타고난 다중 분위기를 보여주고보다 정교한 추론을위한 용량의 초기 증거를 보여줍니다.
gemini vs. gpt-4
다음에 일반적으로 발생하는 명백한 질문은“Gemini는 GPT-4와 어떻게 비교합니까?”입니다.
두 모델 모두 유사한 기능 세트가 있으며 텍스트, 이미지, 비디오, 오디오 및 코드 데이터와 상호 작용하고 해석 할 수있어 사용자가 다양한 작업에 적용 할 수 있습니다.
두 도구의 사용자는 사실 확인을 할 수있는 옵션이 있지만이 기능을 제공하는 방법은 다릅니다. OpenAi의 GPT-4가 주장에 대한 소스 링크를 제공하는 경우 Gemini는 사용자가 Google 검색을 수행하여 버튼을 클릭하여 응답을 확인할 수 있습니다.
글을 쓰는 시점에서 Google의 Gemini 모델은 훨씬 더 제한적이지만 두 모델을 추가 확장으로 보강 할 수도 있습니다.
.
예를 들어 항공편,지도, YouTube 및 Gemini와 같은 다양한 작업 영역 응용 프로그램과 같은 Google 도구를 활용할 수 있습니다. 대조적으로, OpenAI의 GPT-4에 사용할 수있는 훨씬 더 많은 플러그인과 확장 기능이 있으며, 그 중 대부분은 제 3자가 생성합니다. GPT-4에서는 날짜의 이미지 생성도 가능합니다. Gemini는 그러한 기능을 수행 할 수 있도록 설계되었지만 글을 쓰는 시점에는 할 수 없습니다.
반면에, Gemini의 응답 시간은 GPT-4의 응답 시간보다 빠르며, 이는 플랫폼의 사용자가 엄청나게 많은 사용자로 인해 속도가 느려지거나 완전히 중단 될 수 있습니다.
gemini 의 사용 사례
Google의 Gemini 모델은 텍스트, 오디오, 이미지 및 비디오 이해력과 같은 여러 가지 양식에서 다양한 작업을 수행 할 수 있습니다.
쌍둥이 자리의 다중 모드 특성으로 인해 출력을 이해하고 생성하기 위해 다른 양식을 결합하는 것도 가능합니다.
그리고 가기 전에 YouTube 채널을 구독하는 것을 잊지 마십시오. 우리는 Gemini를 사용하여 멀티 모달 앱을 구축하는 방법에 대한 튜토리얼을 포함하여 가장 관련성이 높고 트렌드 주제에 대한 훌륭한 콘텐츠를 가지고 있습니다.
위 내용은 Google Gemini는 무엇입니까? Google의 Chatgpt 라이벌에 대해 알아야 할 모든 것의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!