Natural Language Processing/딥 러닝을 이용한 자연어 처리 입문

[딥 러닝을 이용한 자연어 처리 입문]데이터 분석 패키지

림밤빵 2021. 2. 13. 22:10
728x90

1. 판다스(Pandas)

판다스(Pandas)는 파이썬 데이터 처리를 위한 라이브러리이다.

Pandas는 시리즈(Series), 데이터프레임(DataFrame), 패널(Panel)의 세 가지의 데이터 구조를 사용한다.

이 중 데이터프레임이 가장 많이 사용된다.

 

시리즈(Series)

: 시리즈 클래스는 1차원 배열의 값(values)에 각 값에 대응되는 인덱스(index)를 부여할 수 있는 구조를 갖고 있다.

import pandas as pd

sr = pd.Series([1, 2, 3, 4], index = ["one", "two", "three", "four"])
print(sr)

 

데이터프레임(DataFrame)

: 데이터프레임은 2차원 리스트를 매개변수로 전달한다. 2차원이므로 행방향 인덱스(index)와 열방향 인덱스(column)가 존재한다. 즉, 행과 열을 가지는 자료구조이다. 시리즈가 인덱스(index)와 값(values)으로 구성된다면, 데이터프레임은 열(columns)까지 추가되어 열(columns), 인덱스(index), 값(values)으로 구성된다.

import pandas as pd

values = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
index = ['one', 'two', 'three']
columns = ['A', 'B', 'C']

df = pd.DataFrame(values, index=index, columns=columns)
print(df)

 

 

2. 넘파이(Numpy)

넘파이(Numpy)는 수치 데이터를 다루는 파이썬 패키지이다. Numpy의 핵심이라고 불리는 다차원 행렬 자료구조인 ndarray를 통해 벡터 및 행렬을 사용하는 선형 대수 계산에서 주로 사용된다. Numpy는 편리할 뿐만 아니라, 속도면에서도 순수 파이썬에 비해 압도적으로 빠르다.

 

Numpy의 주요 모듈은 아래와 같다.
1. np.array() # 리스트, 튜플, 배열로 부터 ndarray를 생성
2. np.asarray() # 기존의 array로 부터 ndarray를 생성
3. np.arange() # range와 비슷
4. np.linspace(start, end, num) # [start, end] 균일한 간격으로 num개 생성
5. np.logspace(start, end, num) # [start, end] log scale 간격으로 num개 생성

 

 

3. 맷플롯립(Matplotlib)

맷플롯립(Matplotlib)은 데이터를 차트(chart)나 플롯(plot)으로 시각화(visulaization)하는 패키지이다. 데이터 분석에서 Matplotlib은 데이터 분석 이전에 데이터 이해를 위한 시각화나, 데이터 분석 후에 결과를 시각화하기 위해서 사용된다.

 

%matplotlib inline                       
import matplotlib.pyplot as plt        

plt.title('students')                    #제목 설정
plt.plot([1,2,3,4],[2,4,8,6])            #라인 추가
plt.plot([1.5,2.5,3.5,4.5],[3,5,8,10])   #라인 추가
plt.xlabel('hours')                      #x축 이름
plt.ylabel('score')                      #y축 이름
plt.legend(['A student', 'B student'])   #범례 삽입
plt.show()                               #시각화

 

 

 

 

참고자료

wikidocs.net/book/2155

728x90