首页 web前端 js教程 使用 OpenAI JSON 模式和 JSON 模式简化数据提取

使用 OpenAI JSON 模式和 JSON 模式简化数据提取

Jan 04, 2025 pm 12:59 PM

Simplifying Data Extraction with OpenAI JSON Mode and JSON Schemas

当我在 ChatGPT-3.5 发布后第一次尝试它时,我对它在各种应用程序中的潜力感到兴奋。然而,当我遇到一个主要障碍时,我的兴奋很快就消失了:尽管它返回的有价值的信息非常可读,但它并不是应用程序可以可靠摄取的形式。讽刺的是,法学硕士擅长从非结构化文本中提取信息,但只能以非结构化形式返回信息。尝试以编程方式从法学硕士中提取结果感觉就像是在一家令人难以置信的餐厅,提供最美味的食物,但没有任何器具 - 你可以看到它并闻到它,但你就是无法到达它。

我尝试了书中的每一个技巧来哄骗它给我一些类似的结构化数据。 “请用横线或新行分隔每个项目并跳过评论,”我恳求道。有时有效,有时无效。有时它会“有帮助地”对物品进行编号或重新排序,就像一个善意但有点困惑的助手。其他时候,它仍然会偷偷地加入一些评论,让人想起一个健谈的同事。我什至明确要求它只返回 JSON,但有时它会遗漏一个逗号——几乎就像是在进行被动攻击一样。最终,我放弃了,不情愿地回到了传统算法的不太令人兴奋但更可预测的范围。

幸运的是,几个月后,OpenAI 引入了 JSON 模式,该功能强制 LLM 返回有效的 JSON。我决定尝试此功能,发现它对于处理应用程序中的结果更加有效。以下是启用 JSON 模式的输出示例:

PROMPT:‍
Parse the following sentence into words and then return the results
as a list of the original word and the translation in English and
return the results in JSON.
-- sentence --
早安‍


RESULTS:
{
  "results": [
    {
      "original": "早安",
      "translation": "Good morning"
    }
  ]
}
登录后复制
登录后复制

这个输出无疑是一个进步。但是,虽然输出是有效的 JSON,但其结构可能会根据提示的内容而有所不同。更可预测的方法是指定所需的返回格式。实现这一目标的一种方法是提供一个示例 JSON 结构供 LLM 遵循。此方法涉及创建示例并编写代码来解析它。如果结构发生变化,两处都必须修改。

另一种方法是定义一个数据传输对象 (DTO) 来保存结果,并使用它来指示 LLM 并解析结果,从而避免同步问题。首先定义DTO,例如:‍

record Entries(List<Entry> entries) {
    record Entry(String originalWord, String wordInEnglish, String pronunciation) {}
}
登录后复制
登录后复制

现在DTO可以在提示指令中使用,也可以在解析代码中使用:

// Construct the prompt with the output schema.
var prompt = MessageFormat.format("""
   Parse the following sentence into English and return the results
   in JSON according to the following JSON schema.

   人工智慧將引領未來,以智慧之光照亮人類無限可能的前程。
   --- output json schema ---
   {0}
   """, jsonSchemaOf(Entries.class));
   var result = sendPrompt(prompt, Entries.class);
登录后复制

这是使用 Jackson JSON Schema 生成器的代码:

PROMPT:‍
Parse the following sentence into words and then return the results
as a list of the original word and the translation in English and
return the results in JSON.
-- sentence --
早安‍


RESULTS:
{
  "results": [
    {
      "original": "早安",
      "translation": "Good morning"
    }
  ]
}
登录后复制
登录后复制

注意:默认情况下,生成的模式将包含用于引用的 ID 字段,这可能会浪费令牌。请参阅存储库 OpenAI JSON 模式示例,了解删除这些未使用的 ID 的代码。

最后,这是使用 Azure OpenAI Java SDK 向 OpenAI 发送提示的代码:

record Entries(List<Entry> entries) {
    record Entry(String originalWord, String wordInEnglish, String pronunciation) {}
}
登录后复制
登录后复制

该解决方案在大多数情况下都有效。 LLM 可以有效地理解 JSON 模式,但需要注意的是:我见过有时会出错的情况。例如,如果字段是字符串且其名称是复数(例如“exampleValues”),则 LLM 有时会坚持返回字符串数组。

法学硕士可以产生显着的成果,有时超出普通人的能力。然而,有趣的是,至少目前,他们正在努力完成可靠地格式化生成的输出的更平凡的任务。

以上是使用 OpenAI JSON 模式和 JSON 模式简化数据提取的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

<🎜>:泡泡胶模拟器无穷大 - 如何获取和使用皇家钥匙
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系统,解释
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆树的耳语 - 如何解锁抓钩
3 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Java教程
1672
14
CakePHP 教程
1428
52
Laravel 教程
1332
25
PHP教程
1277
29
C# 教程
1257
24
Python vs. JavaScript:学习曲线和易用性 Python vs. JavaScript:学习曲线和易用性 Apr 16, 2025 am 12:12 AM

Python更适合初学者,学习曲线平缓,语法简洁;JavaScript适合前端开发,学习曲线较陡,语法灵活。1.Python语法直观,适用于数据科学和后端开发。2.JavaScript灵活,广泛用于前端和服务器端编程。

JavaScript和Web:核心功能和用例 JavaScript和Web:核心功能和用例 Apr 18, 2025 am 12:19 AM

JavaScript在Web开发中的主要用途包括客户端交互、表单验证和异步通信。1)通过DOM操作实现动态内容更新和用户交互;2)在用户提交数据前进行客户端验证,提高用户体验;3)通过AJAX技术实现与服务器的无刷新通信。

JavaScript在行动中:现实世界中的示例和项目 JavaScript在行动中:现实世界中的示例和项目 Apr 19, 2025 am 12:13 AM

JavaScript在现实世界中的应用包括前端和后端开发。1)通过构建TODO列表应用展示前端应用,涉及DOM操作和事件处理。2)通过Node.js和Express构建RESTfulAPI展示后端应用。

了解JavaScript引擎:实施详细信息 了解JavaScript引擎:实施详细信息 Apr 17, 2025 am 12:05 AM

理解JavaScript引擎内部工作原理对开发者重要,因为它能帮助编写更高效的代码并理解性能瓶颈和优化策略。1)引擎的工作流程包括解析、编译和执行三个阶段;2)执行过程中,引擎会进行动态优化,如内联缓存和隐藏类;3)最佳实践包括避免全局变量、优化循环、使用const和let,以及避免过度使用闭包。

Python vs. JavaScript:社区,图书馆和资源 Python vs. JavaScript:社区,图书馆和资源 Apr 15, 2025 am 12:16 AM

Python和JavaScript在社区、库和资源方面的对比各有优劣。1)Python社区友好,适合初学者,但前端开发资源不如JavaScript丰富。2)Python在数据科学和机器学习库方面强大,JavaScript则在前端开发库和框架上更胜一筹。3)两者的学习资源都丰富,但Python适合从官方文档开始,JavaScript则以MDNWebDocs为佳。选择应基于项目需求和个人兴趣。

Python vs. JavaScript:开发环境和工具 Python vs. JavaScript:开发环境和工具 Apr 26, 2025 am 12:09 AM

Python和JavaScript在开发环境上的选择都很重要。1)Python的开发环境包括PyCharm、JupyterNotebook和Anaconda,适合数据科学和快速原型开发。2)JavaScript的开发环境包括Node.js、VSCode和Webpack,适用于前端和后端开发。根据项目需求选择合适的工具可以提高开发效率和项目成功率。

C/C在JavaScript口译员和编译器中的作用 C/C在JavaScript口译员和编译器中的作用 Apr 20, 2025 am 12:01 AM

C和C 在JavaScript引擎中扮演了至关重要的角色,主要用于实现解释器和JIT编译器。 1)C 用于解析JavaScript源码并生成抽象语法树。 2)C 负责生成和执行字节码。 3)C 实现JIT编译器,在运行时优化和编译热点代码,显着提高JavaScript的执行效率。

从网站到应用程序:JavaScript的不同应用 从网站到应用程序:JavaScript的不同应用 Apr 22, 2025 am 12:02 AM

JavaScript在网站、移动应用、桌面应用和服务器端编程中均有广泛应用。1)在网站开发中,JavaScript与HTML、CSS一起操作DOM,实现动态效果,并支持如jQuery、React等框架。2)通过ReactNative和Ionic,JavaScript用于开发跨平台移动应用。3)Electron框架使JavaScript能构建桌面应用。4)Node.js让JavaScript在服务器端运行,支持高并发请求。

See all articles