通过感官增强AI的能力：多模式LLMS第1部分的旅程-人工智能-PHP中文网

3。视觉解释和推理：基于视觉信息分析图像并执行推理任务。

4。光学特征识别（OCR）：从图像中提取文本。

5。对象检测和分割：识别和分类图像中的对象，可能将它们分割为不同的区域。

大视觉模型（LVLM）

4。带有编码器的VLMS架构：图像由编码器处理，解码器的文本处理，并在解码之前（通过串联或交叉注意）进行了功能。

结论

首页

科技周边

人工智能

通过感官增强AI的能力：多模式LLMS第1部分的旅程

Lisa Kudrow

Mar 08, 2025 am 10:05 AM

>多模式大语模型（LLMS）：桥接文本和视觉之间的差距

我们的世界是通过多种感官（语言，视觉，气味和触摸）所经历的，使我们能够理解周围的环境。人类特别擅长语言推理和视觉记忆。随着生成AI（Genai）模型的发展，研究人员正在专注于合并多模式以扩大其能力。传统的大型语言模型（LLM）仅限于文本输入和输出，忽略了图像，视频或音频等其他方式。尽管LLM在诸如问题回答，摘要，翻译和代码生成之类的任务上表现出色，但集成其他模式（创建多模式LLMS）会解锁巨大的潜力。例如，将文本和图像数据组合起来启用可视化问题，图像分割和对象检测等应用程序。添加视频进一步增强了高级媒体分析的功能。

目录的

>

简介
多模式LLMS的应用
图像字幕
- 信息提取
- >视觉解释和推理
- >光学特征识别（OCR）
- >对象检测和分割
大视觉模型（LVLM）
两磅VLMS
- >两腿VLMS
- vlms 带有编码器架构
多模式LLMS

genai包括能够生成新内容的机器学习模型。例如，文本到文本模型从文本输入中生成文本。但是，使用其他模态扩展LLM为文本对图像，文本到视频，文本到语音，图像对图像和图像到视频应用程序打开门。这些被称为大型多模型（多模式LLM）。培训这些模型涉及包含文本和其他方式的大型数据集，从而使算法能够学习所有输入类型之间的关系。至关重要的是，这些模型不仅限于单个输入/输出类型。他们适应各种方式。这为系统提供了对感官输入的更丰富的理解。

本文分为两个部分：第一个探讨了多模式LLM的应用和架构，而第二个（不包括此处不包括）详细介绍了较小视力模型的培训。

>数据集和预处理

组合不同的数据类型以创建多模式LLM提出了挑战，尤其是在同时处理1D，2D和3D数据时。这需要采用仔细数据策划的顺序，分步方法，以优化模型性能。

>本讨论的重点是文本和图像。与文本不同，图像和视频的大小和分辨率各不相同，因此需要进行强大的预处理以标准化输入。必须准备图像，视频，提示和元数据，以促进推理期间连贯的思维过程和逻辑一致性。在文本，图像和视频数据上训练的模型称为大视觉语言模型（LVLMS）。多模式LLMS的应用

以下图像（来自QWEN2-VL纸）说明了基于QWEN2 LLM的视觉模型，能够处理各种视觉任务。

>下图显示了多模式语言模型（MMLM）如何处理图像，文本，音频和视频数据以实现各种目标。核心MMLM集成了这些模式以进行合并的处理。 Empowering AI with Senses: A Journey into Multimodal LLMs Part 1

以下各节详细详细介绍了特定的应用程序（省略了为简洁的代码示例）： Empowering AI with Senses: A Journey into Multimodal LLMs Part 1

1。图像字幕：生成图像的文本描述。

2。信息提取：从图像（例如对象颜色，文本）中检索特定功能或数据点。

3。视觉解释和推理：基于视觉信息分析图像并执行推理任务。

4。光学特征识别（OCR）：从图像中提取文本。

5。对象检测和分割：识别和分类图像中的对象，可能将它们分割为不同的区域。

大视觉模型（LVLM）

的体系结构 LVLMS的目标是从图像，视频和文本中统一功能。正在探索几种架构以进行预训练：

1。两个较高的VLM：图像和文本是单独编码的，并具有共同的目标，以使来自两种模式的信息保持一致。>

2。两腿VLM：类似于两个塔，但在共享目标之前包括一个融合图层和文本特征。

Empowering AI with Senses: A Journey into Multimodal LLMs Part 1 3。带有图像编码器的VLM - 文本编码器和解码器：图像编码器处理图像，而文本数据由单独的编码器和解码器处理，允许更复杂的交互。

4。带有编码器的VLMS架构：图像由编码器处理，解码器的文本处理，并在解码之前（通过串联或交叉注意）进行了功能。

Empowering AI with Senses: A Journey into Multimodal LLMs Part 1

结论

在图像text数据集上对多模式LLM，尤其是VLMS进行了多模式LLM，以弥合视觉和文本数据之间的差距。他们在视觉任务上表现出色，但是实现高性能需要大量的数据集和计算资源。虽然能够执行许多视觉任务，但局限性仍在复杂的推理和数据提取中。进一步的研发对于克服这些局限性并释放多模式LLM的全部潜力至关重要。

>参考（原始文本中提供的列表）

以上是通过感官增强AI的能力：多模式LLMS第1部分的旅程的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn