웹3.0 법률 문서와 관련된 클라이언트 식별

법률 문서와 관련된 클라이언트 식별

Nov 19, 2024 am 10:22 AM
ner Czech Documents XLM-RoBERTa Accelerate

주요 목표는 다음 식별자 중 하나를 통해 각 문서와 연결된 클라이언트를 식별하는 것이었습니다.

법률 문서와 관련된 클라이언트 식별

목표는 NER(Named Entity Recognition)를 사용하여 법률 문서에서 고객 이름을 추출하는 것이었습니다. 제가 이 작업에 접근한 방법은 다음과 같습니다.

데이터: PDF 형식의 법률 문서 모음이 있었습니다. 임무는 다음 식별자 중 하나를 사용하여 각 문서에 언급된 고객을 식별하는 것이었습니다.

대략적인 고객 이름(예: "John Doe")

정확한 고객 이름(예: "Doe, John A.")

대략적인 회사 이름(예: "Doe Law Firm")

정확한 회사 이름(예: "Doe, John A. Law Firm")

문서의 약 5%에는 식별 가능한 주체가 포함되어 있지 않습니다.

데이터 세트: 모델 개발을 위해 710개의 "진정한" PDF 문서를 사용했는데, 이 문서는 훈련용 600개, 검증용 55개, 테스트용 55개의 세 세트로 나뉩니다.

레이블: 일반 텍스트로 추출된 항목이 포함된 Excel 파일을 받았는데, 문서 텍스트에 수동으로 레이블을 지정해야 했습니다. BIO 태깅 형식을 사용하여 다음 단계를 수행했습니다.

엔티티의 시작을 "B-"로 표시합니다.

동일한 엔터티 내의 후속 토큰에 "I-"을 계속 표시합니다.

토큰이 어떤 엔터티에도 속하지 않는 경우 "O"로 표시하세요.

대체 접근 방식: 입력 토큰에 대한 경계 상자도 고려하는 LayoutLM과 같은 모델은 잠재적으로 NER 작업의 성능을 향상시킬 수 있습니다. 그러나 나는 종종 그렇듯이 이미 대부분의 프로젝트 시간을 데이터 준비(예: Excel 파일 형식 변경, 데이터 오류 수정, 라벨 지정)에 소비했기 때문에 이 접근 방식을 사용하지 않기로 결정했습니다. 경계 상자 기반 모델을 통합하려면 더 많은 시간을 할당해야 했을 것입니다.

정규식과 휴리스틱을 이론적으로 적용하여 이러한 간단한 엔터티를 식별할 수 있지만, 다른 잠재적 후보 중에서 올바른 엔터티(예: 변호사 이름, 사례)를 정확하게 식별하려면 지나치게 복잡한 규칙이 필요하기 때문에 이 접근 방식은 비실용적일 것이라고 예상했습니다. 번호, 절차의 다른 참가자). 대조적으로, 모델은 관련 엔터티를 구별하는 방법을 학습할 수 있으므로 휴리스틱 사용이 불필요해집니다.

위 내용은 법률 문서와 관련된 클라이언트 식별의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

<gum> : Bubble Gum Simulator Infinity- 로얄 키를 얻고 사용하는 방법
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
Nordhold : Fusion System, 설명
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora : 마녀 트리의 속삭임 - Grappling Hook 잠금 해제 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Metaplanet은 Bitcoin Treasury Holdings를 또 다른 319 BTC로 확장 Metaplanet은 Bitcoin Treasury Holdings를 또 다른 319 BTC로 확장 Apr 15, 2025 am 11:20 AM

오늘 초 발표에서 일본 회사 인 Metaplanet은 또 다른 319 비트 코인 (BTC)을 인수하여 총 회사 지분을 4,500 BTC 이상으로 추진했다고 밝혔다.

Bitwise는 런던 증권 거래소 (LSE)에서 4 개의 암호화 ETP 목록을 발표했습니다. Bitwise는 런던 증권 거래소 (LSE)에서 4 개의 암호화 ETP 목록을 발표했습니다. Apr 18, 2025 am 11:24 AM

주요 디지털 자산 관리자 인 Bitwise는 LSE (London Stock Exchange)에서 4 개의 암호화 거래소 거래 제품 (ETP)을 목록에 올렸다고 발표했습니다.

전 세계 중앙 은행은 금 구매를 증가시키고 있습니다. 전 세계 중앙 은행은 금 구매를 증가시키고 있습니다. Apr 15, 2025 am 11:00 AM

X의 Kobeissi Letter의 보고서에 따르면 IMS IFS와 Global Gold Council의 데이터를 언급 한 국가는 2 월에 24 톤의 금을 축적했습니다.

Bitcoin (BTC)은 더 넓은 시장이 무역 관련 뉴스에 호의적으로 조정함에 따라 상향으로 표류합니다. Bitcoin (BTC)은 더 넓은 시장이 무역 관련 뉴스에 호의적으로 조정함에 따라 상향으로 표류합니다. Apr 15, 2025 am 11:14 AM

가장 큰 cryptocurrency는 지난 24 시간 동안 1.6% 증가했으며 현재 85,000 달러에 부끄러워하고 있습니다. 에테르 (ETH), 한편, 2.7% 상승했습니다.

Movement Labs와 Movement Network Foundation은 Move Token과 관련된 최근 시장 제작 불규칙성에 대한 독립적 인 조사를 시작했습니다. Movement Labs와 Movement Network Foundation은 Move Token과 관련된 최근 시장 제작 불규칙성에 대한 독립적 인 조사를 시작했습니다. Apr 16, 2025 am 11:16 AM

NT Labs 및 The Movement Network Foundation은 Move Token 시장 제작 불규칙성에 대한 독립 조사를 시작합니다.

자본의 물결은 이더 리움에서 [ETH]에서 Tron [trx]으로 흘러 나옵니다. 자본의 물결은 이더 리움에서 [ETH]에서 Tron [trx]으로 흘러 나옵니다. Apr 16, 2025 am 11:14 AM

Stablecoins가 Tron으로 이주하는 15 억 5 천만 달러로, 투자자들은 저렴한 체인을 선호하고 전통적인 USD 지원 자산을 넘어 다각화하는 것으로 보입니다.

PI 네트워크 토큰 가격은 지난 주 동안 14% 이상 증가했습니다. PI 네트워크 토큰 가격은 지난 주 동안 14% 이상 증가했습니다. Apr 16, 2025 am 11:22 AM

프레스 타임 현재 PI는 4 월 12 일 ChainLink와의 통합 후 $ 0.6711로 거래됩니다. 이 발표로 인해 PI 가격이 급증했습니다.