728x90

NLP 4

[딥 러닝을 이용한 자연어 처리 입문]텍스트 전처리(text preprocessing)

텍스트 전처리(Text preprocessing) 자연어 처리에서 크롤링 등으로 얻어낸 코퍼스 데이터가 필요에 맞게 전처리되지 않은 상태라면, 해당 데이터를 사용하고자하는 용도에 맞게 토큰화(tokenization) & 정제(cleaning) & 정규화(normalization)하는 일을 하게 된다. 이처럼 텍스트 전처리는 용도에 맞게 텍스트를 사전에 처리하는 작업을 말한다. 01) 토큰화(Tokenization) 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 한다. 토큰의 단위가 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의합니다. 1. 단어 토큰화(Word Tokenization) 토큰의 기준을 단어(word)로 하는 ..

[딥 러닝을 이용한 자연어 처리 입문]판다스 프로파일링(Pandas -Profiling)

실습 파일 불러오기 프롬프트에서 아래의 pip 명령을 통해 패키지를 설치한다. > pip install -U pandas-profiling 실습을 위해 아래의 링크에서 spam.csv 파일을 다운받는다. https://www.kaggle.com/uciml/sms-spam-collection-dataset SMS Spam Collection Dataset Collection of SMS messages tagged as spam or legitimate www.kaggle.com 주피터 노트북에서 아래의 코드로 spam.csv파일을 data에 저장한다. import pandas as pd import pandas_profiling data = pd.read_csv(r'C:\Users\Desktop\spam..

[딥 러닝을 이용한 자연어 처리 입문]데이터 분석 패키지

1. 판다스(Pandas) 판다스(Pandas)는 파이썬 데이터 처리를 위한 라이브러리이다. Pandas는 시리즈(Series), 데이터프레임(DataFrame), 패널(Panel)의 세 가지의 데이터 구조를 사용한다. 이 중 데이터프레임이 가장 많이 사용된다. 시리즈(Series) : 시리즈 클래스는 1차원 배열의 값(values)에 각 값에 대응되는 인덱스(index)를 부여할 수 있는 구조를 갖고 있다. import pandas as pd sr = pd.Series([1, 2, 3, 4], index = ["one", "two", "three", "four"]) print(sr) 데이터프레임(DataFrame) : 데이터프레임은 2차원 리스트를 매개변수로 전달한다. 2차원이므로 행방향 인덱스(ind..

[딥 러닝을 이용한 자연어 처리 입문]실습 환경 만들기

자연어(natural language) : 우리가 일상 생활에서 사용하는 언어 자연어 처리(natural language processing) : 자연어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 일 머신러닝 실습을 위한 환경을 만들어 보자. 1. 아나콘다(Anaconda) 설치 아래의 사이트에서 아나콘다를 다운 받는다. https://www.anaconda.com/distribution/ Anaconda | Individual Edition Anaconda's open-source Individual Edition is the easiest way to perform Python/R data science and machine learning on a single machine. www.anac..

728x90