使用LlamainDex的多模式财务报告生成-人工智能-PHP中文网

概述该过程的概述

>逐步实现

步骤1：安装和导入依赖项

>步骤6：关联文本和图像

钥匙要点

>本文所示的媒体不归Analytics Vidhya拥有，并由作者的酌情决定使用。

首页

科技周边

人工智能

使用LlamainDex的多模式财务报告生成

尊渡假赌尊渡假赌尊渡假赌

Mar 09, 2025 pm 12:45 PM

在许多现实世界应用中，数据并不纯粹是文本的，其中可能包括图像，表和图表，这些图表和图表有助于加强叙述。多模式报告生成器允许您将文本和图像同时合并到最终输出中，从而使您的报告更具动态性和视觉上的丰富。

本文概述了如何使用以下方式构建这样的管道

用于编排文档解析和查询引擎，
文本分析的语言模型，
从pdf文档中提取文本和图像， >使用
进行记录和调试。

学习目标

了解如何使用多模式管道整合有效的财务报告生成文本和视觉效果。

学习利用Llamaindex和Llamaparse来增强结构化产出的财务报告。
>使用Arize Phoenix（通过LlamaTrace）来设置可观察性，以记录和调试复杂管道。
创建一个结构化查询引擎，以生成与视觉元素相互交织的报告。
>本文是

> > data Science Blogathon的一部分。目录的>>

概述该过程的概述

>逐步实现
- 步骤2：设置可观察性>
>该过程的概述
构建多模式报告生成器涉及创建一条管道，该管道无缝地集成了来自PDF等复杂文档的文本和视觉元素。该过程始于安装必要的库，例如用于文档解析和查询编排的LlamainDex，以及用于提取文本和图像的Llamaparse。使用Arize Phoenix（通过Llamatrace）来监视和调试管道。
>设置完成后，管道将处理PDF文档，将其内容解析到结构化文本中，并渲染诸如表和图表之类的视觉元素。然后关联了这些解析的元素，创建一个统一的数据集。构建了一个摘要，以启用高级见解，并开发了结构化的查询引擎，以生成将文本分析与相关视觉效果融合的报告。结果是一个动态和交互式报告生成器，该生成器将静态文档转换为用于用户查询的丰富的多模式输出。
>
>逐步实现

>按照本详细指南构建多模式报告生成器，从设置依赖项到使用集成的文本和图像生成结构化输出。每个步骤都确保Llamaindex，Llamaparse和Arize Phoenix的无缝整合，以进行有效而动态的管道。

步骤1：安装和导入依赖项
>
您需要在Python 3.9.9上运行的以下库：>
- llama-index
- llama-parse （用于文本图像解析）>
- llama-index-callbacks-arize-phoenix（用于可观察性/登录）
- > nest_asyncio（处理笔记本中的异步事件循环）
```
!pip install -U llama-index-callbacks-arize-phoenix

import nest_asyncio

nest_asyncio.apply()
```
登录后复制
登录后复制
>步骤2：设置可观察性

我们与LlamaTrace - Llamacloud API（Arize Phoenix）集成。首先，从llamatrace.com获取API键，然后设置环境变量以将痕迹发送到凤凰。可以通过在此处注册Llamatrace，然后导航到左下面板，然后单击“键”，在此处找到API键。

例如：
步骤3：加载数据 - 获取幻灯片甲板
```
PHOENIX_API_KEY = "<PHOENIX_API_KEY>"
os.environ["OTEL_EXPORTER_OTLP_HEADERS"] = f"api_key={PHOENIX_API_KEY}"
llama_index.core.set_global_handler(
    "arize_phoenix", endpoint="https://llamatrace.com/v1/traces"
)
```
登录后复制
登录后复制
进行示范，我们使用Conocophillips的2023年投资者会议幻灯片。我们下载了PDF：

>检查PDF幻灯片是否在数据文件夹中，如果不将其放在数据文件夹中并按照您的要求命名。
```
import os
import requests

# Create the directories (ignore errors if they already exist)
os.makedirs("data", exist_ok=True)
os.makedirs("data_images", exist_ok=True)

# URL of the PDF
url = "https://static.conocophillips.com/files/2023-conocophillips-aim-presentation.pdf"

# Download and save to data/conocophillips.pdf
response = requests.get(url)
with open("data/conocophillips.pdf", "wb") as f:
    f.write(response.content)

print("PDF downloaded to data/conocophillips.pdf")
```
登录后复制
登录后复制
>步骤4：设置模型

>您需要嵌入模型和LLM。在此示例中：

接下来，您将其注册为LlamainDex的默认值：>
```
from llama_index.llms.openai import OpenAI
from llama_index.embeddings.openai import OpenAIEmbedding
embed_model = OpenAIEmbedding(model="text-embedding-3-large")
llm = OpenAI(model="gpt-4o")
```
登录后复制
步骤5：用llamaparse
解析文件 Llamaparse可以提取文本和图像（通过多模式大型模型）提取文本和图像。对于每个PDF页面，它返回：
```
from llama_index.core import Settings
Settings.embed_model = embed_model
Settings.llm = llm
```
登录后复制
登录后复制
markdown Text
（带表，标题，子弹点等）
- （本地保存）>
```
print(f"Parsing slide deck...")
md_json_objs = parser.get_json_result("data/conocophillips.pdf")
md_json_list = md_json_objs[0]["pages"]
```
登录后复制
登录后复制
```
print(md_json_list[10]["md"])
```
登录后复制
登录后复制
```
!pip install -U llama-index-callbacks-arize-phoenix

import nest_asyncio

nest_asyncio.apply()
```
登录后复制
登录后复制
>步骤6：关联文本和图像
>
我们为每个页面创建一个>> textnode 对象的列表（LlamainDex的数据结构）。每个节点都有有关页码和相应图像文件路径的元数据：
```
PHOENIX_API_KEY = "<PHOENIX_API_KEY>"
os.environ["OTEL_EXPORTER_OTLP_HEADERS"] = f"api_key={PHOENIX_API_KEY}"
llama_index.core.set_global_handler(
    "arize_phoenix", endpoint="https://llamatrace.com/v1/traces"
)
```
登录后复制
登录后复制
>步骤7：构建摘要索引

手里拿着这些文本节点，您可以创建一个摘要：
摘要确保您可以轻松地检索或生成整个文档上的高级摘要。
```
import os
import requests

# Create the directories (ignore errors if they already exist)
os.makedirs("data", exist_ok=True)
os.makedirs("data_images", exist_ok=True)

# URL of the PDF
url = "https://static.conocophillips.com/files/2023-conocophillips-aim-presentation.pdf"

# Download and save to data/conocophillips.pdf
response = requests.get(url)
with open("data/conocophillips.pdf", "wb") as f:
    f.write(response.content)

print("PDF downloaded to data/conocophillips.pdf")
```
登录后复制
登录后复制
>步骤8：定义结构化输出模式

我们的管道旨在产生带有交织的文本块和图像块的最终输出。为此，我们创建了一种自定义的pydantic模型（使用Pydantic V2或确保兼容性），具有两种块类型-e

textblock
和> imageBlock - 和一个父母模型关键点：
reportOutput
from llama_index.llms.openai import OpenAI from llama_index.embeddings.openai import OpenAIEmbedding embed_model = OpenAIEmbedding(model="text-embedding-3-large") llm = OpenAI(model="gpt-4o")
需要至少一个图像块，确保最终答案是多模式的。> >步骤9：创建一个结构化查询引擎 LlamainDex llamaindex允许您使用“结构化的LLM”（即，将输出自动解析为特定模式的LLM）。以下是：
from llama_index.core import Settings Settings.embed_model = embed_model Settings.llm = llm
登录后复制
登录后复制
print(f"Parsing slide deck...") md_json_objs = parser.get_json_result("data/conocophillips.pdf") md_json_list = md_json_objs[0]["pages"]
登录后复制
登录后复制
print(md_json_list[10]["md"])
登录后复制
登录后复制
结论
通过将LlamainDex，Llamaparse和OpenAI结合使用，您可以构建一个多模式报告生成器，该报表生成器将整个PDF（带有文本，表格和图像）处理到结构化输出中。这种方法可提供更丰富，更具视觉上信息的结果，这是利益相关者需要从复杂的公司或技术文档中获得关键见解的哪些。
>可以随意将此管道适应您自己的文档，为大型档案添加检索步骤，或集成特定领域的模型以分析基础图像。在这里铺设的基础，您可以创建动态，互动和视觉上丰富的报告，这些报告远远超出了简单的基于文本的查询。非常感谢Llamaindex的Jerry Liu开发了这款惊人的管道。

钥匙要点
- >使用文本和视觉效果将PDF转换为结构化格式，同时使用Llamaparse和Llamaindex保留原始内容的完整性。
- 通过整合文本和视觉元素以获得更具洞察力和动态的输出，可以增强财务报告的生成。> 利用Llamaindex和Llamaparse的利用，简化了财务报告的过程，确保了准确且结构化的结果。
- 改善视觉解析，结合特定图表的分析，并结合文本和图像处理的模型，以进行更深入的见解。
- a。在ReportOutput Pydantic模型中，强制执行块列表至少需要一个ImageBlock。这在您的系统提示和架构中说明了这一点。 LLM必须遵循这些规则，或者不会产生有效的结构化输出。
>本文所示的媒体不归Analytics Vidhya拥有，并由作者的酌情决定使用。