AI 에서 텍스트 분류
AI에서 텍스트 분류(Text Classification)는 비정형 데이터인 텍스트를 컴퓨터가 이해할 수 있는 숫자로 바꾸고, 이를 적절한 카테고리로 할당하는 과정입니다. 텍스트 분류를 가능하게 하는 핵심 도구와 기술은 크게 텍스트 전처리, 벡터화, 모델링 세 단계로 나뉩니다.1. 텍스트 전처리 (Preprocessing)컴퓨터가 텍스트의 본질적인 의미에 집중할 수 있도록 노이즈를 제거하는 과정입니다.토큰화 (Tokenization): 문장을 단어, 형태소, 혹은 문자 단위(Token)로 잘게 나누는 작업입니다. 한국어는 KoNLPy(Mecab, Okt 등), 영어는 NLTK, SpaCy 같은 도구가 필수적입니다.불용어 제거 (Stopwords Removal): '은/는', '이/가', 'the', 'a..
2025. 12. 22.