본문 바로가기
데이터 처리/빅데이터 분석 (Big data) in Python

파이썬을 이용한 시각화 1 : DataFrame 활용

by Jun_N 2020. 1. 3.

 

Data Frame

 


 

  • DataFrame의 Column 추가하는 방법

 

DataFrame에 새로운 칼럼을 추가하려면 기존의 다른 칼럼의 데이터 개수와 동일해야 한다.

만약 기존 데이터 길이가 현재 추가하려는 데이터 길이가 같지 않을 경우에는 ValueError가 발생한다.

 

 

  A B C
number 10 20 30

 

예를 들어서 기존의 number라는 column의 data 개수가 총 3개였다면 추가하려는 새로운 칼럼도 data 개수가 3개여야 한다.

df['value']=(1,2,3)

 

  A B C
number 10 20 30
value 1 2 3

 

 

Index을 이용하여 하는 방법도 있다.

 

df['value']=pd.DataFrame['Third','First','Second'],index=['C','A','B'])

 

index 'C'에는 Third값이, A에는 First값이 들어가서 추가된다.

 

 

 

  • DataFrame의 Column 삭제하는 방법

 

del.df['value']

 

value라는 column 삭제.

 

 

  • DataFrame을 하나의 데이터 프레임으로 합치는 방법

 

join, merge, concat 을 사용하여 합칠 수 있다.

 

 

-join

 

 

#Column A에 1,2,3
df_1 = pd.DataFrame(['1','2','3'],column=['A'])

#Column B에 4,5,6, 7
df_2 = pd.DataFrame(['4','5','6','7'],column=['B'])

df=df_1.join(df_2,how='outer') #두 개의 dataFrame을 outer join으로 합침.

df # dataframe 출력

 

 

  0 1 2 3
A 1 2 3 NaN
B 4 5 6 7

 

<결과값>

 

 

 

  • DataFrame에 난수를 이용한 임의의 값 생성하는 방법

import pandas as pd
import numpy as np

#random값을 넣은 dataframe 생성
#np.random.randn은 5행 5열의 데이터를 생성
#재호출 시 데이터가 바뀜

df=pd.DataFrame(np.random.rand(5,5))
df.columns=['A','B','C','D','E']

 

 

  • DataFrame을 이용한 연산

 

1. 최댓값

df.max()

 

2. 최솟값

df.min()

 

3. 평균값

df.mean()

 

4. 표준편차 값

df.std()

 

5. 누적합

df.cumsum()

 

 

 

  • Describe 함수를 이용한 DataFrame의 통계적 분포 확인

df.describe()

describe 함수를 통해 통계적 분포를 확인할 수 있다.

 

 

#Group by하기 전 그룹별로 구분하기 위해 division이라는 column생성
df['division']=['X','Y','X','Y','Z']

#DataFrame에 Group by를 이용해 column 'division'의 값(x,y,z)에 따라서 평균값을 산출
df.groupby(['division']).mean()  #x,y가 2개이니 그 2개의 평균값이 사용

 

 

 

 

 

 

 

#파이썬을 이용한 빅데이터 분석 ㅣ 유성준 교수님 자료 참고