Data Frame
-
DataFrame의 Column 추가하는 방법
DataFrame에 새로운 칼럼을 추가하려면 기존의 다른 칼럼의 데이터 개수와 동일해야 한다.
만약 기존 데이터 길이가 현재 추가하려는 데이터 길이가 같지 않을 경우에는 ValueError가 발생한다.
A | B | C | |
number | 10 | 20 | 30 |
예를 들어서 기존의 number라는 column의 data 개수가 총 3개였다면 추가하려는 새로운 칼럼도 data 개수가 3개여야 한다.
df['value']=(1,2,3)
A | B | C | |
number | 10 | 20 | 30 |
value | 1 | 2 | 3 |
Index을 이용하여 하는 방법도 있다.
df['value']=pd.DataFrame['Third','First','Second'],index=['C','A','B'])
index 'C'에는 Third값이, A에는 First값이 들어가서 추가된다.
-
DataFrame의 Column 삭제하는 방법
del.df['value']
value라는 column 삭제.
-
DataFrame을 하나의 데이터 프레임으로 합치는 방법
join, merge, concat 을 사용하여 합칠 수 있다.
-join
#Column A에 1,2,3
df_1 = pd.DataFrame(['1','2','3'],column=['A'])
#Column B에 4,5,6, 7
df_2 = pd.DataFrame(['4','5','6','7'],column=['B'])
df=df_1.join(df_2,how='outer') #두 개의 dataFrame을 outer join으로 합침.
df # dataframe 출력
0 | 1 | 2 | 3 | |
A | 1 | 2 | 3 | NaN |
B | 4 | 5 | 6 | 7 |
<결과값>
-
DataFrame에 난수를 이용한 임의의 값 생성하는 방법
import pandas as pd
import numpy as np
#random값을 넣은 dataframe 생성
#np.random.randn은 5행 5열의 데이터를 생성
#재호출 시 데이터가 바뀜
df=pd.DataFrame(np.random.rand(5,5))
df.columns=['A','B','C','D','E']
-
DataFrame을 이용한 연산
1. 최댓값
df.max()
2. 최솟값
df.min()
3. 평균값
df.mean()
4. 표준편차 값
df.std()
5. 누적합
df.cumsum()
-
Describe 함수를 이용한 DataFrame의 통계적 분포 확인
df.describe()
describe 함수를 통해 통계적 분포를 확인할 수 있다.
#Group by하기 전 그룹별로 구분하기 위해 division이라는 column생성
df['division']=['X','Y','X','Y','Z']
#DataFrame에 Group by를 이용해 column 'division'의 값(x,y,z)에 따라서 평균값을 산출
df.groupby(['division']).mean() #x,y가 2개이니 그 2개의 평균값이 사용
#파이썬을 이용한 빅데이터 분석 ㅣ 유성준 교수님 자료 참고
'데이터 처리 > 빅데이터 분석 (Big data) in Python' 카테고리의 다른 글
기계학습 (머신 러닝 ) 용어 및 개요 (0) | 2020.01.09 |
---|---|
matplotlib 히스토그램, Seaborn 시각화 (0) | 2020.01.05 |
파이썬을 이용한 시각화2 : Matplotlib을 활용한 선 시각화 , 산점도 시각화 (0) | 2020.01.04 |
NumPy 와 Pandas (1) | 2020.01.02 |