파이썬을 이용한 시각화 1 : DataFrame 활용

Data Frame

DataFrame의 Column 추가하는 방법

DataFrame에 새로운 칼럼을 추가하려면 기존의 다른 칼럼의 데이터 개수와 동일해야 한다.

만약 기존 데이터 길이가 현재 추가하려는 데이터 길이가 같지 않을 경우에는 ValueError가 발생한다.

	A	B	C
number	10	20	30

예를 들어서 기존의 number라는 column의 data 개수가 총 3개였다면 추가하려는 새로운 칼럼도 data 개수가 3개여야 한다.

df['value']=(1,2,3)

	A	B	C
number	10	20	30
value	1	2	3

Index을 이용하여 하는 방법도 있다.

df['value']=pd.DataFrame['Third','First','Second'],index=['C','A','B'])

index 'C'에는 Third값이, A에는 First값이 들어가서 추가된다.

DataFrame의 Column 삭제하는 방법

del.df['value']

value라는 column 삭제.

DataFrame을 하나의 데이터 프레임으로 합치는 방법

join, merge, concat 을 사용하여 합칠 수 있다.

-join

#Column A에 1,2,3
df_1 = pd.DataFrame(['1','2','3'],column=['A'])

#Column B에 4,5,6, 7
df_2 = pd.DataFrame(['4','5','6','7'],column=['B'])

df=df_1.join(df_2,how='outer') #두 개의 dataFrame을 outer join으로 합침.

df # dataframe 출력

	0	1	2	3
A	1	2	3	NaN
B	4	5	6	7

<결과값>

DataFrame에 난수를 이용한 임의의 값 생성하는 방법

import pandas as pd
import numpy as np

#random값을 넣은 dataframe 생성
#np.random.randn은 5행 5열의 데이터를 생성
#재호출 시 데이터가 바뀜

df=pd.DataFrame(np.random.rand(5,5))
df.columns=['A','B','C','D','E']

DataFrame을 이용한 연산

1. 최댓값

df.max()

2. 최솟값

df.min()

3. 평균값

df.mean()

4. 표준편차 값

df.std()

5. 누적합

df.cumsum()

Describe 함수를 이용한 DataFrame의 통계적 분포 확인

df.describe()

describe 함수를 통해 통계적 분포를 확인할 수 있다.

#Group by하기 전 그룹별로 구분하기 위해 division이라는 column생성
df['division']=['X','Y','X','Y','Z']

#DataFrame에 Group by를 이용해 column 'division'의 값(x,y,z)에 따라서 평균값을 산출
df.groupby(['division']).mean()  #x,y가 2개이니 그 2개의 평균값이 사용

#파이썬을 이용한 빅데이터 분석 ㅣ 유성준 교수님 자료 참고

저작자표시

'데이터 처리 > 빅데이터 분석 (Big data) in Python' 카테고리의 다른 글

기계학습 (머신 러닝 ) 용어 및 개요 (0)	2020.01.09
matplotlib 히스토그램, Seaborn 시각화 (0)	2020.01.05
파이썬을 이용한 시각화2 : Matplotlib을 활용한 선 시각화 , 산점도 시각화 (0)	2020.01.04
NumPy 와 Pandas (1)	2020.01.02

남주는 IT블로그

파이썬을 이용한 시각화 1 : DataFrame 활용

Data Frame

DataFrame의 Column 추가하는 방법

DataFrame의 Column 삭제하는 방법

DataFrame을 하나의 데이터 프레임으로 합치는 방법

DataFrame에 난수를 이용한 임의의 값 생성하는 방법

DataFrame을 이용한 연산

Describe 함수를 이용한 DataFrame의 통계적 분포 확인

'데이터 처리 > 빅데이터 분석 (Big data) in Python' 카테고리의 다른 글

티스토리툴바

파이썬을 이용한 시각화 1 : DataFrame 활용

Data Frame

DataFrame의 Column 추가하는 방법

DataFrame의 Column 삭제하는 방법

DataFrame을 하나의 데이터 프레임으로 합치는 방법

DataFrame에 난수를 이용한 임의의 값 생성하는 방법

DataFrame을 이용한 연산

Describe 함수를 이용한 DataFrame의 통계적 분포 확인

'데이터 처리 > 빅데이터 분석 (Big data) in Python' 카테고리의 다른 글

관련글

티스토리툴바