감각으로 AI 권한 부여 : 멀티 모달 LLMS 로의 여행 1 부-일체 포함-php.cn

집

기술 주변기기

일체 포함

감각으로 AI 권한 부여 : 멀티 모달 LLMS 로의 여행 1 부

Lisa Kudrow

Mar 08, 2025 am 10:05 AM

멀티 모달 대형 언어 모델 (LLMS) : 텍스트와 비전 사이의 간격을 연결 우리의 세계는 언어, 시력, 냄새 및 터치 등 여러 가지 감각을 통해 경험을 통해 주변 환경을 이해할 수 있습니다. 인간은 특히 언어 적 추론과 시각적 기억에 능숙합니다. 생성 AI (Genai) 모델이 발전함에 따라 연구원들은 기능을 확장하기 위해 다중 분위기를 통합하는 데 집중하고 있습니다. 전통적인 대형 언어 모델 (LLM)은 텍스트 입력 및 출력으로 제한되며 이미지, 비디오 또는 오디오와 같은 다른 양식을 무시합니다. LLM은 질문 답변, 요약, 번역 및 코드 생성과 같은 작업에 뛰어나는 반면, 다른 양식 (멀티 모달 LLM 생성)을 통합하면 상당한 잠재력을 발휘할 수 있습니다. 예를 들어, 텍스트와 이미지 데이터를 결합하면 시각적 질문 응답, 이미지 세분화 및 객체 감지와 같은 응용 프로그램이 가능합니다. 비디오 추가는 고급 미디어 분석을위한 기능을 더욱 향상시킵니다 목차

멀티 모달 llms 소개 데이터 세트 및 전처리 다중 모드 llms의 응용 이미지 캡션 정보 추출

시각적 해석 및 추론 광학 문자 인식 (OCR) 객체 감지 및 분할

대형 시력 모델 (LVLMS)의 아키텍처 2 타워 vlms 2 leg vlms 이미지 인코더, 텍스트 인코더 및 디코더가있는 vlms 인코더 디코더 아키텍처가있는 VLMS

결론

멀티 모달 llms 소개 Genai는 새로운 컨텐츠를 생성 할 수있는 머신 러닝 모델을 포함합니다. 예를 들어 텍스트-텍스트 모델은 텍스트 입력에서 텍스트를 생성합니다. 그러나 다른 양식으로 LLM을 확장하면 텍스트-이미지, 텍스트-비디오, 텍스트 음성 연설, 이미지 투 이미지 및 이미지-비디오 응용 프로그램에 대한 문이 열립니다. 이것들은 큰 멀티 모달 모델 (멀티 모달 LLM)으로 알려져 있습니다. 이러한 모델 교육에는 텍스트 및 기타 양식이 포함 된 대규모 데이터 세트가 포함되어 알고리즘이 모든 입력 유형 간의 관계를 배울 수 있습니다. 결정적 으로이 모델은 단일 입력/출력 유형으로 제한되지 않습니다. 그들은 다양한 양식에 적응합니다. 이것은 시스템에 감각 입력에 대한 풍부한 이해를 제공합니다.

이 기사는 두 부분으로 나뉩니다. 첫 번째는 멀티 모달 LLM의 응용 프로그램과 아키텍처를 탐색하고 두 번째 (여기에는 포함되지 않음)는 작은 비전 모델의 훈련을 자세히 설명합니다. 데이터 세트 및 전처리 다른 데이터 유형을 결합하여 멀티 모달 LLM을 생성하면 특히 1D, 2D 및 3D 데이터를 동시에 처리 할 때 문제가 발생합니다. 이를 위해서는 모델 성능을 최적화하기 위해 신중한 데이터 큐 레이션을 통해 순차적 인 단계별 방식이 필요합니다.이 토론은 텍스트와 이미지에 중점을 둡니다. 텍스트와 달리 이미지 및 비디오는 크기와 해상도가 다양하므로 입력을 표준화하려면 강력한 전처리가 필요합니다. 이미지, 비디오, 프롬프트 및 메타 데이터는 추론 중 일관된 사고 과정과 논리적 일관성을 촉진하기 위해 준비되어야합니다. 텍스트, 이미지 및 비디오 데이터에 대해 교육을받은 모델은 LVLMS (Largin Vision-Language Models)라고합니다. 다중 모드 llms의 응용 다음 이미지 (QWEN2-VL 용지에서)는 다양한 시각적 작업을 처리 할 수있는 QWEN2 LLM을 기반으로 한 비전 모델을 보여줍니다.

아래 다이어그램은 MMLM (Multimodal Language Model)이 다양한 목표를 달성하기 위해 이미지, 텍스트, 오디오 및 비디오 데이터를 처리하는 방법을 보여줍니다. 핵심 MMLM은 이러한 양식을 결합 된 처리를 위해 통합합니다

~~다음 섹션에서는 특정 응용 프로그램에 대해 자세히 설명합니다 (Brevity에 대한 코드 예제) :~~

1. 이미지 캡션 : 이미지의 텍스트 설명 생성

2. 정보 추출 : 이미지에서 특정 기능 또는 데이터 포인트 검색 (예 : 객체 색상, 텍스트). Empowering AI with Senses: A Journey into Multimodal LLMs Part 1 3. 시각적 해석 및 추론 : 시각 정보를 기반으로 이미지 분석 및 추론 작업 수행.

4. 광학 문자 인식 (OCR) : 이미지에서 텍스트를 추출합니다

5. 객체 감지 및 분할 : 이미지 내에서 물체를 식별하고 분류하여 잠재적으로 별개의 영역으로 분류합니다. 대형 시력 모델 (LVLMS)의 아키텍처 LVLM의 목표는 이미지, 비디오 및 텍스트에서 기능을 통합하는 것입니다. 사전 훈련을 위해 몇몇 아키텍처가 탐색되고 있습니다 :

1. 2 타워 VLMS : 이미지와 텍스트는 별도로 인코딩되어 공유 목표로 두 가지 양식에서 정보를 정렬하기 위해 훈련됩니다. Empowering AI with Senses: A Journey into Multimodal LLMs Part 1

2. 2 레그 VLMS : 2 타워와 유사하지만 공유 목표 전에 이미지 및 텍스트 기능을 병합하기위한 퓨전 레이어를 포함합니다.

3. 이미지 인코더가있는 VLM - 텍스트 인코더 및 디코더 : 이미지 인코더는 이미지를 처리하는 반면 텍스트 데이터는 별도의 인코더와 디코더로 처리되므로보다 복잡한 상호 작용이 가능합니다.

4. 인코더 디코더 아키텍처가있는 VLMS : 이미지는 디코딩하기 전에 (연결 또는 교차 변호를 통해) 기능을 결합한 디코더에 의해 인코더, 텍스트로 처리됩니다.

Empowering AI with Senses: A Journey into Multimodal LLMs Part 1 결론 멀티 모달 LLM, 특히 VLM은 시각적 데이터와 텍스트 데이터 사이의 간격을 연결하기 위해 이미지 텍스트 데이터 세트에서 교육을받습니다. 시각적 작업에 탁월하지만 고성능을 달성하려면 상당한 데이터 세트와 계산 리소스가 필요합니다. 많은 시각적 작업을 수행 할 수는 있지만 한계는 복잡한 추론 및 데이터 추출으로 남아 있습니다. 이러한 한계를 극복하고 멀티 모달 LLM의 잠재력을 최대한 활용하려면 추가 연구 및 개발이 중요합니다. 참조 (원본 텍스트로 제공된 목록)

위 내용은 감각으로 AI 권한 부여 : 멀티 모달 LLMS 로의 여행 1 부의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

자바 튜토리얼

1667

Cakephp 튜토리얼

1426

라라벨 튜토리얼

1328

PHP 튜토리얼

1273

C# 튜토리얼

1255

Related knowledge

10 생성 AI 코드의 생성 AI 코딩 확장 대 코드를 탐색해야합니다. Apr 13, 2025 am 01:14 AM

이봐, 코딩 닌자! 하루 동안 어떤 코딩 관련 작업을 계획 했습니까? 이 블로그에 더 자세히 살펴보기 전에, 나는 당신이 당신의 모든 코딩 관련 문제에 대해 생각하기를 원합니다. 완료? - &#8217

GPT-4O vs Openai O1 : 새로운 OpenAI 모델은 과대 광고 가치가 있습니까? Apr 13, 2025 am 10:18 AM

소개 OpenAi는 기대가 많은 "Strawberry"아키텍처를 기반으로 새로운 모델을 출시했습니다. O1로 알려진이 혁신적인 모델은 추론 기능을 향상시켜 문제를 통해 생각할 수 있습니다.

Pixtral -12B : Mistral AI의 첫 번째 멀티 모드 모델 -Anuctics Vidhya Apr 13, 2025 am 11:20 AM

소개 Mistral은 최초의 멀티 모드 모델, 즉 Pixtral-12B-2409를 발표했습니다. 이 모델은 Mistral의 120 억 개의 매개 변수 인 NEMO 12B를 기반으로합니다. 이 모델을 차별화하는 것은 무엇입니까? 이제 이미지와 Tex를 모두 가져갈 수 있습니다

SQL에서 열을 추가하는 방법? - 분석 Vidhya Apr 17, 2025 am 11:43 AM

SQL의 Alter Table 문 : 데이터베이스에 열을 동적으로 추가 데이터 관리에서 SQL의 적응성이 중요합니다. 데이터베이스 구조를 즉시 조정해야합니까? Alter Table 문은 솔루션입니다. 이 안내서는 Colu를 추가합니다

Agno 프레임 워크를 사용하여 멀티 모달 AI 에이전트를 구축하는 방법은 무엇입니까? Apr 23, 2025 am 11:30 AM

에이전트 AI에서 작업하는 동안 개발자는 종종 속도, 유연성 및 자원 효율성 사이의 상충 관계를 탐색하는 것을 발견합니다. 나는 에이전트 AI 프레임 워크를 탐구하고 Agno를 만났다 (이전에는 ph-이었다.

라마 드라마 너머 : 대형 언어 모델에 대한 4 개의 새로운 벤치 마크 Apr 14, 2025 am 11:09 AM

문제가있는 벤치 마크 : 라마 사례 연구 2025 년 4 월 초, Meta는 LLAMA 4 제품군을 공개하여 GPT-4O 및 Claude 3.5 Sonnet과 같은 경쟁자들에 대해 호의적으로 배치 한 인상적인 성능 지표를 자랑했습니다. Launc의 중심

Openai는 GPT-4.1로 초점을 이동하고 코딩 및 비용 효율성을 우선시합니다. Apr 16, 2025 am 11:37 AM

릴리스에는 GPT-4.1, GPT-4.1 MINI 및 GPT-4.1 NANO의 세 가지 모델이 포함되어 있으며, 대형 언어 모델 환경 내에서 작업 별 최적화로 이동합니다. 이 모델은 사용자를 향한 인터페이스를 즉시 대체하지 않습니다

ADHD 게임, 건강 도구 및 AI 챗봇이 글로벌 건강을 변화시키는 방법 Apr 14, 2025 am 11:27 AM

비디오 게임이 불안을 완화하거나 집중하거나 ADHD를 가진 어린이를 지원할 수 있습니까? 건강 관리 도전이 전 세계적으로 급증함에 따라, 특히 청소년들 사이에서 혁신가들은 비디오 게임 인 가능성이없는 도구로 전환하고 있습니다. 이제 세계 최대의 엔터테인먼트 인더스 중 하나입니다

See all articles