본문 바로가기
데이터 처리/빅데이터 분석 (Big data) in Python

NumPy 와 Pandas

by Jun_N 2020. 1. 2.

★ NumPy / Pandas

 

파이썬을 이용한 빅데이터 분석에 앞서서 기초적인 파이썬 문법들은 생략하고 Numpy와 Pandas부터 다루고자 한다.

 

 


 

 

 

 

Numpy는 Numberical python의 약자로 배열 또는 다양한 자료구조를 다루는 데 사용되는 클래스를 포함한 패키지이다.

 

NumPy를 사용하기 위해서는 라이브러리를 Import해야 한다.

import numpy as np

이는 numpy 라이브러리를 np라는 축약어로 사용하겠다고 한 것이다.

 

a=np.array([1,3,5.1,33])

이런 식으로 사용된다.

내장 함수로 sum, std, cumsum등과 같은 것을 사용해 연산 작업을 할 수 있다.

a.sum()

 

b=np.array([a,a**2])
b.sum(axis=0)

axis의 경우에는 0인 경우 세로축을 연산하라는 의미이고 1인 경우는 행의 값을 연산하라는 의미이다.

위의 코드에서는 axis가 0이므로 세로축을 sum을 하라는 의미이다.

 

 

 

 

Pandas는 데이터를 다루는 데 사용되는 패키지이며 대표적으로 Series와 data frame이 있다.

Pandas 라이브러리는 CSV 파일, 데이터베이스에서 데이터를 읽을 때 데이터를 쉽게 조작하기 좋다.

 

Series는 column이 1개인 경우일때 사용하며, Data Frame은 column이 다수인 데이터를 저장하는 데 사용된다.

 

import pandas as pd #pandas 패키지 import
import numpy as np

panda_ser=pd.Series([1,2,3],
			index=['A','B','C'])

위는 Series 예시이며 index로 A,B,C value로는 1,2,3을 갖는다. 

A 1
B 2

C 3

이다.

 

 

 

Data Frame은 아래와 같이 된다.

 

label #0

label #1

Index #0

Data[0,0]

Data[0,1]

Index #1

Data[1,0]

Data[1,1]

Data frame를 df라 했을때 

 

df.index 는 index를 표시하며,

df.columns 는 column을 표시한다.

df.ix ['A']는 index 중 'A'에 해당되는 칼럼 값을 의미한다.