通過感官增強AI的能力：多模式LLMS第1部分的旅程-人工智慧-PHP中文網

3。視覺解釋和推理：基於視覺信息分析圖像並執行推理任務。

4。光學特徵識別（OCR）：從圖像中提取文本。

5。對象檢測和分割：識別和分類圖像中的對象，可能將它們分割為不同的區域。

大視覺模型（LVLM）

4。帶有編碼器的VLMS架構：圖像由編碼器處理，解碼器的文本處理，並在解碼之前（通過串聯或交叉注意）進行了功能。

結論

首頁

科技週邊

人工智慧

通過感官增強AI的能力：多模式LLMS第1部分的旅程

Lisa Kudrow

Mar 08, 2025 am 10:05 AM

>多模式大語模型（LLMS）：橋接文本和視覺之間的差距

我們的世界是通過多種感官（語言，視覺，氣味和触摸）所經歷的，使我們能夠理解周圍的環境。人類特別擅長語言推理和視覺記憶。隨著生成AI（Genai）模型的發展，研究人員正在專注於合併多模式以擴大其能力。傳統的大型語言模型（LLM）僅限於文本輸入和輸出，忽略了圖像，視頻或音頻等其他方式。儘管LLM在諸如問題回答，摘要，翻譯和代碼生成之類的任務上表現出色，但集成其他模式（創建多模式LLMS）會解鎖巨大的潛力。例如，將文本和圖像數據組合起來啟用可視化問題，圖像分割和對象檢測等應用程序。添加視頻進一步增強了高級媒體分析的功能。

目錄的

>

簡介
多模式LLMS的應用
圖像字幕
- 信息提取
- >視覺解釋和推理
- >光學特徵識別（OCR）
- >對象檢測和分割
大視覺模型（LVLM）
兩磅VLMS
- >兩腿VLMS
- vlms 帶有編碼器架構
多模式LLMS

genai包括能夠生成新內容的機器學習模型。例如，文本到文本模型從文本輸入中生成文本。但是，使用其他模態擴展LLM為文本對圖像，文本到視頻，文本到語音，圖像對圖像和圖像到視頻應用程序打開門。這些被稱為大型多模型（多模式LLM）。培訓這些模型涉及包含文本和其他方式的大型數據集，從而使算法能夠學習所有輸入類型之間的關係。至關重要的是，這些模型不僅限於單個輸入/輸出類型。他們適應各種方式。這為系統提供了對感官輸入的更豐富的理解。

本文分為兩個部分：第一個探討了多模式LLM的應用和架構，而第二個（不包括此處不包括）詳細介紹了較小視力模型的培訓。

>數據集和預處理

組合不同的數據類型以創建多模式LLM提出了挑戰，尤其是在同時處理1D，2D和3D數據時。這需要採用仔細數據策劃的順序，分步方法，以優化模型性能。

>本討論的重點是文本和圖像。與文本不同，圖像和視頻的大小和分辨率各不相同，因此需要進行強大的預處理以標準化輸入。必須準備圖像，視頻，提示和元數據，以促進推理期間連貫的思維過程和邏輯一致性。在文本，圖像和視頻數據上訓練的模型稱為大視覺語言模型（LVLMS）。多模式LLMS的應用

以下圖像（來自QWEN2-VL紙）說明了基於QWEN2 LLM的視覺模型，能夠處理各種視覺任務。

>下圖顯示了多模式語言模型（MMLM）如何處理圖像，文本，音頻和視頻數據以實現各種目標。核心MMLM集成了這些模式以進行合併的處理。 Empowering AI with Senses: A Journey into Multimodal LLMs Part 1

以下各節詳細詳細介紹了特定的應用程序（省略了為簡潔的代碼示例）： Empowering AI with Senses: A Journey into Multimodal LLMs Part 1

1。圖像字幕：生成圖像的文本描述。

2。信息提取：從圖像（例如對象顏色，文本）中檢索特定功能或數據點。

3。視覺解釋和推理：基於視覺信息分析圖像並執行推理任務。

4。光學特徵識別（OCR）：從圖像中提取文本。

5。對象檢測和分割：識別和分類圖像中的對象，可能將它們分割為不同的區域。

大視覺模型（LVLM）

的體系結構 LVLMS的目標是從圖像，視頻和文本中統一功能。正在探索幾種架構以進行預訓練：

1。兩個較高的VLM：圖像和文本是單獨編碼的，並具有共同的目標，以使來自兩種模式的信息保持一致。 >

2。兩腿VLM：類似於兩個塔，但在共享目標之前包括一個融合圖層和文本特徵。

Empowering AI with Senses: A Journey into Multimodal LLMs Part 1 3。帶有圖像編碼器的VLM - 文本編碼器和解碼器：圖像編碼器處理圖像，而文本數據由單獨的編碼器和解碼器處理，允許更複雜的交互。

4。帶有編碼器的VLMS架構：圖像由編碼器處理，解碼器的文本處理，並在解碼之前（通過串聯或交叉注意）進行了功能。

Empowering AI with Senses: A Journey into Multimodal LLMs Part 1

結論

在圖像text數據集上對多模式LLM，尤其是VLMS進行了多模式LLM，以彌合視覺和文本數據之間的差距。他們在視覺任務上表現出色，但是實現高性能需要大量的數據集和計算資源。雖然能夠執行許多視覺任務，但局限性仍在復雜的推理和數據提取中。進一步的研發對於克服這些局限性並釋放多模式LLM的全部潛力至關重要。

>參考（原始文本中提供的列表）

以上是通過感官增強AI的能力：多模式LLMS第1部分的旅程的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn