tfidfvectorizer를 사용하여 텍스트 문서를 TF-IDF 행렬로 변환하십시오
이 기사에서는 텍스트 데이터 분석을위한 자연 언어 처리 (NLP)의 중요한 도구 인 TF-IDF (Trember Inverse Inverse Frequency) 기술이라는 용어를 설명합니다. TF-IDF는 문서 내의 빈도와 문서 모음에 대한 희귀 성을 기반으로 기본 단어 가방 접근법의 제한을 능가합니다. 이 향상된 가중치는 텍스트 분류를 향상시키고 기계 학습 모델의 분석 기능을 향상시킵니다. 파이썬에서 처음부터 TF-IDF 모델을 구성하고 수치 계산을 수행하는 방법을 보여줍니다.
목차
- TF-IDF의 핵심 용어
- 용어 빈도 (TF)가 설명되었습니다
- 문서 주파수 (DF)가 설명되었습니다
- 역 문서 주파수 (IDF)가 설명되었습니다
- TF-IDF 이해
- 수치 TF-IDF 계산
- 1 단계 : 용어 주파수 계산 (TF)
- 2 단계 : 역 문서 주파수 (IDF) 계산
- 3 단계 : TF-IDF 계산
- 내장 데이터 세트를 사용한 Python 구현
- 1 단계 : 필요한 라이브러리 설치
- 2 단계 : 라이브러리 가져 오기
- 3 단계 : 데이터 세트로드
- 4 단계 :
TfidfVectorizer
초기화 - 5 단계 : 문서를 맞추고 변환합니다
- 6 단계 : TF-IDF 행렬 검사
- 결론
- 자주 묻는 질문
TF-IDF의 핵심 용어
진행하기 전에 주요 용어를 정의해 봅시다.
- T : 용어 (개별 단어)
- D : 문서 (단어 세트)
- N : 코퍼스의 총 문서 수
- 코퍼스 : 전체 문서 모음
용어 빈도 (TF)가 설명되었습니다
용어 주파수 (TF)는 특정 문서에 용어가 얼마나 자주 나타나는지 정량화합니다. TF가 높을수록 해당 문서 내에서 더 중요한 중요성을 나타냅니다. 공식은 다음과 같습니다.
문서 주파수 (DF)가 설명되었습니다
문서 주파수 (DF)는 특정 용어를 포함하는 코퍼스 내 문서 수를 측정합니다. TF와 달리, 그것은 그 사건이 아니라 용어의 존재를 계산합니다. 공식은 다음과 같습니다.
df (t) = 용어 t를 포함하는 문서 수
역 문서 주파수 (IDF)가 설명되었습니다
역 문서 주파수 (IDF)는 단어의 정보를 평가합니다. TF는 모든 용어를 동일하게 취급하지만 IDF는 공통 단어 (예 : 단어 중지)와 Upweights를 드문 용어를 다운 웨드 중량을 downge습니다. 공식은 다음과 같습니다.
여기서 n은 총 문서 수이고 df (t)는 용어 t를 포함하는 문서 수입니다.
TF-IDF 이해
TF-IDF는 용어 주파수와 역 문서 주파수를 결합하여 전체 코퍼스에 대한 문서 내에서 용어의 중요성을 결정합니다. 공식은 다음과 같습니다.
수치 TF-IDF 계산
예제 문서와 함께 수치 TF-IDF 계산을 설명하겠습니다.
서류:
- "하늘은 푸른 색입니다."
- "오늘은 태양이 밝습니다."
- "하늘의 태양은 밝습니다."
- "우리는 빛나는 태양, 밝은 태양을 볼 수 있습니다."
원본 텍스트에 요약 된 단계에 따라 각 문서의 각 용어에 대해 TF, IDF 및 TF-IDF를 계산합니다. (자세한 계산은 간결하게 설명되어 있지만 원래 예제를 반영합니다.)
내장 데이터 세트를 사용한 Python 구현
이 섹션에서는 Scikit-Learn의 TfidfVectorizer
및 20 개의 뉴스 그룹 데이터 세트를 사용한 TF-IDF 계산을 보여줍니다.
1 단계 : 필요한 라이브러리 설치
PIP Scikit-Learn을 설치하십시오
2 단계 : 라이브러리 가져 오기
팬더를 PD로 가져옵니다 sklearn.datasets import fetch_20newsgroups sklearn.feature_extraction.text import tfidfvectorizer에서
3 단계 : 데이터 세트로드
NewsGroups = fetch_20NewsGroups (subset = 'train')
4 단계 : TfidfVectorizer
초기화
Vectorizer = tfidfvectorizer (stop_words = 'English', max_features = 1000)
5 단계 : 문서를 맞추고 변환합니다
tfidf_matrix = vectorizer.fit_transform (newsgroups.data)
6 단계 : TF-IDF 행렬 검사
df_tfidf = pd.dataframe (tfidf_matrix.toarray (), columns = vectorizer.get_feature_names_names_out ()) df_tfidf.head ()
결론
20 NewsGroups 데이터 세트 및 TfidfVectorizer
사용하여 텍스트 문서를 TF-IDF 행렬로 효율적으로 변환합니다. 이 행렬은 각 용어의 중요성을 나타내므로 텍스트 분류 및 클러스터링과 같은 다양한 NLP 작업이 가능합니다. Scikit-Learn의 TfidfVectorizer
이 프로세스를 크게 단순화합니다.
자주 묻는 질문
FAQS 섹션은 IDF의 로그 특성, 대규모 데이터 세트에 대한 확장 성, TF-IDF의 한계 (단어 순서 및 컨텍스트 무시) 및 일반적인 응용 프로그램 (검색 엔진, 텍스트 분류, 클러스터링, 요약)을 다루며 크게 변경되지 않았습니다.
위 내용은 tfidfvectorizer를 사용하여 텍스트 문서를 TF-IDF 행렬로 변환하십시오의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

이봐, 코딩 닌자! 하루 동안 어떤 코딩 관련 작업을 계획 했습니까? 이 블로그에 더 자세히 살펴보기 전에, 나는 당신이 당신의 모든 코딩 관련 문제에 대해 생각하기를 원합니다. 완료? - ’

소개 OpenAi는 기대가 많은 "Strawberry"아키텍처를 기반으로 새로운 모델을 출시했습니다. O1로 알려진이 혁신적인 모델은 추론 기능을 향상시켜 문제를 통해 생각할 수 있습니다.

소개 Mistral은 최초의 멀티 모드 모델, 즉 Pixtral-12B-2409를 발표했습니다. 이 모델은 Mistral의 120 억 개의 매개 변수 인 NEMO 12B를 기반으로합니다. 이 모델을 차별화하는 것은 무엇입니까? 이제 이미지와 Tex를 모두 가져갈 수 있습니다

SQL의 Alter Table 문 : 데이터베이스에 열을 동적으로 추가 데이터 관리에서 SQL의 적응성이 중요합니다. 데이터베이스 구조를 즉시 조정해야합니까? Alter Table 문은 솔루션입니다. 이 안내서는 Colu를 추가합니다

에이전트 AI에서 작업하는 동안 개발자는 종종 속도, 유연성 및 자원 효율성 사이의 상충 관계를 탐색하는 것을 발견합니다. 나는 에이전트 AI 프레임 워크를 탐구하고 Agno를 만났다 (이전에는 ph-이었다.

문제가있는 벤치 마크 : 라마 사례 연구 2025 년 4 월 초, Meta는 LLAMA 4 제품군을 공개하여 GPT-4O 및 Claude 3.5 Sonnet과 같은 경쟁자들에 대해 호의적으로 배치 한 인상적인 성능 지표를 자랑했습니다. Launc의 중심

릴리스에는 GPT-4.1, GPT-4.1 MINI 및 GPT-4.1 NANO의 세 가지 모델이 포함되어 있으며, 대형 언어 모델 환경 내에서 작업 별 최적화로 이동합니다. 이 모델은 사용자를 향한 인터페이스를 즉시 대체하지 않습니다

비디오 게임이 불안을 완화하거나 집중하거나 ADHD를 가진 어린이를 지원할 수 있습니까? 건강 관리 도전이 전 세계적으로 급증함에 따라, 특히 청소년들 사이에서 혁신가들은 비디오 게임 인 가능성이없는 도구로 전환하고 있습니다. 이제 세계 최대의 엔터테인먼트 인더스 중 하나입니다
