텍스트 전처리(Text preprocessing) 자연어 처리에서 크롤링 등으로 얻어낸 코퍼스 데이터가 필요에 맞게 전처리되지 않은 상태라면, 해당 데이터를 사용하고자하는 용도에 맞게 토큰화(tokenization) & 정제(cleaning) & 정규화(normalization)하는 일을 하게 된다. 이처럼 텍스트 전처리는 용도에 맞게 텍스트를 사전에 처리하는 작업을 말한다. 01) 토큰화(Tokenization) 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 한다. 토큰의 단위가 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의합니다. 1. 단어 토큰화(Word Tokenization) 토큰의 기준을 단어(word)로 하는 ..