ホームページ ウェブ3.0 法的文書に関連付けられた顧客の特定

法的文書に関連付けられた顧客の特定

Nov 19, 2024 am 10:22 AM
ner Czech Documents XLM-RoBERTa Accelerate

主な目的は、次の識別子のいずれかを使用して各ドキュメントに関連付けられたクライアントを識別することでした:

法的文書に関連付けられた顧客の特定

目標は、固有表現認識 (NER) を使用して法的文書からクライアント名を抽出することでした。私がこのタスクにどのように取り組んだかは次のとおりです:

データ: 私は PDF 形式の法的文書のコレクションを持っていました。タスクは、次のいずれかの識別子を使用して、各文書で言及されているクライアントを識別することでした:

おおよそのクライアント名 (例: "John Doe")

正確なクライアント名 (例: "Doe, John A.")

おおよその事務所名 (例: "Doe Law Firm")

正確な事務所名 (例: "Doe, John A. Law Firm")

文書の約 5% には、特定の実体が含まれていませんでした。

データセット: モデルの開発には、710 個の「本物の」PDF ドキュメントを使用し、トレーニング用に 600 個、検証用に 55 個、テスト用に 55 個の 3 つのセットに分割しました。

ラベル: プレーン テキストとして抽出されたエンティティを含む Excel ファイルが渡されましたが、文書テキスト内で手動でラベルを付ける必要がありました。 BIO タグ付け形式を使用して、次の手順を実行しました:

エンティティの始まりを「B-」でマークします。

同じエンティティ内の後続のトークンに「I-」のマークを付け続けます。

トークンがどのエンティティにも属していない場合は、「O」とマークします。

代替アプローチ: 入力トークンの境界ボックスも考慮する LayoutLM のようなモデルは、NER タスクのパフォーマンスを向上させる可能性があります。ただし、よくあることですが、すでにプロジェクト時間の大部分をデータの準備 (Excel ファイルの再フォーマット、データ エラーの修正、ラベル付けなど) に費やしていたので、私はこのアプローチを使用しないことにしました。バウンディング ボックス ベースのモデルを統合するには、さらに多くの時間を割り当てる必要がありました。

理論的には、正規表現とヒューリスティックをこれらの単純なエンティティの識別に適用できますが、他の潜在的な候補の中から正しいエンティティ (弁護士名、事件など) を正確に識別するには過度に複雑なルールが必要となるため、このアプローチは非現実的であると予想していました。番号、議事の他の参加者)。対照的に、モデルは関連するエンティティを区別する方法を学習できるため、ヒューリスティックの使用が不要になります。

以上が法的文書に関連付けられた顧客の特定の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Metaplanetは、Bitcoin Treasury Holdingsをさらに319 BTCで拡張します Metaplanetは、Bitcoin Treasury Holdingsをさらに319 BTCで拡張します Apr 15, 2025 am 11:20 AM

本日の早期に発表された日本企業のメタプラネットは、さらに319ビットコイン(BTC)を買収し、4,500 BTCを超えて企業保有を推進したことを明らかにしました。

ビットワイズは、ロンドン証券取引所(LSE)に関する4つの暗号ETPのリストを発表します ビットワイズは、ロンドン証券取引所(LSE)に関する4つの暗号ETPのリストを発表します Apr 18, 2025 am 11:24 AM

大手デジタル資産マネージャーであるBitwiseは、ロンドン証券取引所(LSE)にあるCrypto Exchange-Traded製品(ETP)の4つのリストを発表しました。

Binance Coin(BNB)が1,000ドルのブレイクアウトに向かって勢いを増すと、新しいAltcoin RCO Finance(RCOF)が会話をかき立てています Binance Coin(BNB)が1,000ドルのブレイクアウトに向かって勢いを増すと、新しいAltcoin RCO Finance(RCOF)が会話をかき立てています Apr 15, 2025 am 09:50 AM

Binance Coin(BNB)が1,000ドルのブレイクアウトに向かって勢いを増すにつれて

世界中の中央銀行が金の購入を増やしています 世界中の中央銀行が金の購入を増やしています Apr 15, 2025 am 11:00 AM

IMS IFSとグローバルゴールドカウンシルからのデータに言及しているXに関するKobeissiレターのレポートによると、国民は2月に24トンの金を蓄積しました

ビットコイン(BTC)は、より広範な市場が貿易関連のニュースに好意的に調整されると、上向きにドリフトします ビットコイン(BTC)は、より広範な市場が貿易関連のニュースに好意的に調整されると、上向きにドリフトします Apr 15, 2025 am 11:14 AM

最大の暗号通貨は過去24時間で1.6%増加し、現在は85,000ドルの恥ずかしがり屋で取引されています。一方、エーテル(eth)、2.7%上昇

ムーブメントラボとMovement Network Foundationは、移動トークンに関連する最近の市場制作の不規則性に関する独立した調査を開始しました。 ムーブメントラボとMovement Network Foundationは、移動トークンに関連する最近の市場制作の不規則性に関する独立した調査を開始しました。 Apr 16, 2025 am 11:16 AM

NT LabsとMovement Network Foundationは、移動トークンの市場制作の不規則性に関する独立した調査を開始します

資本の波がイーサリアム[ETH]からトロン[TRX]に流れています 資本の波がイーサリアム[ETH]からトロン[TRX]に流れています Apr 16, 2025 am 11:14 AM

15億2,000万ドルのスタブコインがトロンに移住しているため、投資家は低コストのチェーンを支持し、従来のUSDに裏打ちされた資産を超えて多様化しているようです。

PIネットワークトークンの価格は、過去1週間で14%以上増加しています。 PIネットワークトークンの価格は、過去1週間で14%以上増加しています。 Apr 16, 2025 am 11:22 AM

報道時間の時点で、PIは4月12日にChainLinkと統合された後、0.6711ドルで取引されています。この発表により、PIの価格が急増しました