★ NumPy / Pandas
파이썬을 이용한 빅데이터 분석에 앞서서 기초적인 파이썬 문법들은 생략하고 Numpy와 Pandas부터 다루고자 한다.
Numpy는 Numberical python의 약자로 배열 또는 다양한 자료구조를 다루는 데 사용되는 클래스를 포함한 패키지이다.
NumPy를 사용하기 위해서는 라이브러리를 Import해야 한다.
import numpy as np
이는 numpy 라이브러리를 np라는 축약어로 사용하겠다고 한 것이다.
a=np.array([1,3,5.1,33])
이런 식으로 사용된다.
내장 함수로 sum, std, cumsum등과 같은 것을 사용해 연산 작업을 할 수 있다.
a.sum()
b=np.array([a,a**2])
b.sum(axis=0)
axis의 경우에는 0인 경우 세로축을 연산하라는 의미이고 1인 경우는 행의 값을 연산하라는 의미이다.
위의 코드에서는 axis가 0이므로 세로축을 sum을 하라는 의미이다.
Pandas는 데이터를 다루는 데 사용되는 패키지이며 대표적으로 Series와 data frame이 있다.
Pandas 라이브러리는 CSV 파일, 데이터베이스에서 데이터를 읽을 때 데이터를 쉽게 조작하기 좋다.
Series는 column이 1개인 경우일때 사용하며, Data Frame은 column이 다수인 데이터를 저장하는 데 사용된다.
import pandas as pd #pandas 패키지 import
import numpy as np
panda_ser=pd.Series([1,2,3],
index=['A','B','C'])
위는 Series 예시이며 index로 A,B,C value로는 1,2,3을 갖는다.
A 1
B 2
C 3
이다.
Data Frame은 아래와 같이 된다.
label #0 |
label #1 |
|
Index #0 |
Data[0,0] |
Data[0,1] |
Index #1 |
Data[1,0] |
Data[1,1] |
Data frame를 df라 했을때
df.index 는 index를 표시하며,
df.columns 는 column을 표시한다.
df.ix ['A']는 index 중 'A'에 해당되는 칼럼 값을 의미한다.
'데이터 처리 > 빅데이터 분석 (Big data) in Python' 카테고리의 다른 글
기계학습 (머신 러닝 ) 용어 및 개요 (0) | 2020.01.09 |
---|---|
matplotlib 히스토그램, Seaborn 시각화 (0) | 2020.01.05 |
파이썬을 이용한 시각화2 : Matplotlib을 활용한 선 시각화 , 산점도 시각화 (0) | 2020.01.04 |
파이썬을 이용한 시각화 1 : DataFrame 활용 (0) | 2020.01.03 |