識別與法律文件相關的客戶
主要目標是透過以下識別碼之一來識別與每個文件關聯的客戶:
目標是使用命名實體識別 (NER) 從法律文件中提取客戶名稱。以下是我完成任務的方法:
資料:我收集了 PDF 格式的法律文件。任務是使用以下標識符之一來識別每個文件中提到的客戶:
大概的客戶名稱(例如「John Doe」)
準確的顧客名稱(例如「Doe, John A.」)
大概的公司名稱(例如「Doe Law Firm」)
準確的公司名稱(例如「Doe, John A. Law Firm」)
大約 5% 的文件不包含任何識別實體。
資料集:為了開發模型,我使用了 710 個「真實」PDF 文檔,這些文檔分為三組:600 個用於訓練,55 個用於驗證,55 個用於測試。
標籤:我收到了一個 Excel 文件,其中的實體被提取為純文本,需要在文檔文本中手動標記。使用 BIO 標記格式,我執行了以下步驟:
用「B-
繼續以「I-
如果令牌不屬於任何實體,則將其標記為「O」。
替代方法:像 LayoutLM 這樣的模型也考慮了輸入標記的邊界框,可能會提高 NER 任務的效能。然而,我選擇不使用這種方法,因為通常情況下,我已經花了專案的大部分時間來準備資料(例如,重新格式化 Excel 檔案、更正資料錯誤、標記)。要整合基於邊界框的模型,我需要分配更多時間。
雖然理論上可以應用正規表示式和啟發式來識別這些簡單的實體,但我預計這種方法是不切實際的,因為它需要過於複雜的規則來精確識別其他潛在候選者中的正確實體(例如,律師姓名、案件)人數、訴訟程序的其他參與者)。相較之下,該模型能夠學習區分相關實體,從而使啟發式方法的使用變得多餘。
以上是識別與法律文件相關的客戶的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

在今天早些時候的公告中,日本公司Metaplanet透露已收購了另外319個比特幣(BTC),將其總公司持有量推高了4,500 BTC。

領先的數字資產經理Bitwise已宣佈在倫敦證券交易所(LSE)上列出了其四個加密交易所交易產品(ETP)。

隨著Binance Coin(BNB)的增長趨勢

在過去的24小時內,最大的加密貨幣增長了1.6%,現在的交易價格不到85,000美元。以太(ETH),同時,增長了2.7%

NT Labs和運動網絡基金會啟動獨立調查,以進行代幣營銷違規行為
![一波資本從以太坊(ETH)流出,進入TRON [TRX]](https://img.php.cn/upload/article/001/246/273/174477326297054.jpg?x-oss-process=image/resize,m_fill,h_207,w_330)
有15.2億美元的Stablecoins遷移到TRON,投資者似乎贊成低成本的連鎖店和超出傳統美元支持資產的多元化。

截至發稿時,PI於4月12日與ChainLink集成後,交易價格為0.6711美元。該公告導致PI價格上漲