使用 OpenAI JSON 模式和 JSON 模式簡化資料擷取
當我在 ChatGPT-3.5 發布後第一次嘗試它時,我對它在各種應用程式中的潛力感到興奮。然而,當我遇到一個主要障礙時,我的興奮很快就消失了:儘管它返回的有價值的資訊非常可讀,但它並不是應用程式可以可靠攝取的形式。諷刺的是,法學碩士擅長從非結構化文字中提取訊息,但只能以非結構化形式傳回訊息。試著以程式設計方式從法學碩士中提取結果感覺就像是在一家令人難以置信的餐廳,提供最美味的食物,但沒有任何器具- 你可以看到它並聞到它,但你就是無法到達它。
我嘗試了書中的每一個技巧來哄騙它給我一些類似的結構化資料。 「請用橫線或新行分隔每個項目並跳過評論,」我懇求道。有時有效,有時無效。有時它會「有幫助地」對物品進行編號或重新排序,就像一個善意但有點困惑的助手。其他時候,它仍然會偷偷地加入一些評論,讓人想起一個健談的同事。我甚至明確要求它只返回 JSON,但有時它會遺漏一個逗號——幾乎就像是在進行被動攻擊一樣。最終,我放棄了,不情願地回到了傳統演算法的不太令人興奮但更可預測的範圍。
幸運的是,幾個月後,OpenAI 引入了 JSON 模式,該功能強制 LLM 返回有效的 JSON。我決定嘗試此功能,發現它對於處理應用程式中的結果更加有效。以下是啟用 JSON 模式的輸出範例:
PROMPT: Parse the following sentence into words and then return the results as a list of the original word and the translation in English and return the results in JSON. -- sentence -- 早安 RESULTS: { "results": [ { "original": "早安", "translation": "Good morning" } ] }
這個輸出無疑是個進步。但是,雖然輸出是有效的 JSON,但其結構可能會根據提示的內容而有所不同。更可預測的方法是指定所需的返回格式。實現這一目標的一種方法是提供一個範例 JSON 結構供 LLM 遵循。此方法涉及創建範例並編寫程式碼來解析它。如果結構發生變化,兩處都必須修改。
另一種方法是定義一個資料傳輸物件 (DTO) 來保存結果,並使用它來指示 LLM 並解析結果,從而避免同步問題。先定義DTO,例如:
record Entries(List<Entry> entries) { record Entry(String originalWord, String wordInEnglish, String pronunciation) {} }
現在DTO可以在提示指令中使用,也可以在解析程式碼中使用:
// Construct the prompt with the output schema. var prompt = MessageFormat.format(""" Parse the following sentence into English and return the results in JSON according to the following JSON schema. 人工智慧將引領未來,以智慧之光照亮人類無限可能的前程。 --- output json schema --- {0} """, jsonSchemaOf(Entries.class)); var result = sendPrompt(prompt, Entries.class);
這是使用 Jackson JSON Schema 產生器的程式碼:
PROMPT: Parse the following sentence into words and then return the results as a list of the original word and the translation in English and return the results in JSON. -- sentence -- 早安 RESULTS: { "results": [ { "original": "早安", "translation": "Good morning" } ] }
注意:預設情況下,產生的模式將包含用於引用的 ID 字段,這可能會浪費令牌。請參閱儲存庫 OpenAI JSON 模式範例,以了解刪除這些未使用的 ID 的程式碼。
最後,這是使用 Azure OpenAI Java SDK 向 OpenAI 發送提示的程式碼:
record Entries(List<Entry> entries) { record Entry(String originalWord, String wordInEnglish, String pronunciation) {} }
該解決方案在大多數情況下都有效。 LLM 可以有效地理解 JSON 模式,但需要注意的是:我見過有時會出錯的情況。例如,如果欄位是字串且其名稱是複數(例如“exampleValues”),則 LLM 有時會堅持傳回字串陣列。
法學碩士可以產生顯著的成果,有時超越一般人的能力。然而,有趣的是,至少目前,他們正在努力完成可靠地格式化生成的輸出的更平凡的任務。
以上是使用 OpenAI JSON 模式和 JSON 模式簡化資料擷取的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

Python更適合初學者,學習曲線平緩,語法簡潔;JavaScript適合前端開發,學習曲線較陡,語法靈活。 1.Python語法直觀,適用於數據科學和後端開發。 2.JavaScript靈活,廣泛用於前端和服務器端編程。

JavaScript在Web開發中的主要用途包括客戶端交互、表單驗證和異步通信。 1)通過DOM操作實現動態內容更新和用戶交互;2)在用戶提交數據前進行客戶端驗證,提高用戶體驗;3)通過AJAX技術實現與服務器的無刷新通信。

JavaScript在現實世界中的應用包括前端和後端開發。 1)通過構建TODO列表應用展示前端應用,涉及DOM操作和事件處理。 2)通過Node.js和Express構建RESTfulAPI展示後端應用。

理解JavaScript引擎內部工作原理對開發者重要,因為它能幫助編寫更高效的代碼並理解性能瓶頸和優化策略。 1)引擎的工作流程包括解析、編譯和執行三個階段;2)執行過程中,引擎會進行動態優化,如內聯緩存和隱藏類;3)最佳實踐包括避免全局變量、優化循環、使用const和let,以及避免過度使用閉包。

Python和JavaScript在社區、庫和資源方面的對比各有優劣。 1)Python社區友好,適合初學者,但前端開發資源不如JavaScript豐富。 2)Python在數據科學和機器學習庫方面強大,JavaScript則在前端開發庫和框架上更勝一籌。 3)兩者的學習資源都豐富,但Python適合從官方文檔開始,JavaScript則以MDNWebDocs為佳。選擇應基於項目需求和個人興趣。

Python和JavaScript在開發環境上的選擇都很重要。 1)Python的開發環境包括PyCharm、JupyterNotebook和Anaconda,適合數據科學和快速原型開發。 2)JavaScript的開發環境包括Node.js、VSCode和Webpack,適用於前端和後端開發。根據項目需求選擇合適的工具可以提高開發效率和項目成功率。

C和C 在JavaScript引擎中扮演了至关重要的角色,主要用于实现解释器和JIT编译器。1)C 用于解析JavaScript源码并生成抽象语法树。2)C 负责生成和执行字节码。3)C 实现JIT编译器,在运行时优化和编译热点代码,显著提高JavaScript的执行效率。

JavaScript在網站、移動應用、桌面應用和服務器端編程中均有廣泛應用。 1)在網站開發中,JavaScript與HTML、CSS一起操作DOM,實現動態效果,並支持如jQuery、React等框架。 2)通過ReactNative和Ionic,JavaScript用於開發跨平台移動應用。 3)Electron框架使JavaScript能構建桌面應用。 4)Node.js讓JavaScript在服務器端運行,支持高並發請求。
