본문 바로가기

데이터 처리/빅데이터 분석 (Big data) in Python5

기계학습 (머신 러닝 ) 용어 및 개요 특징 (Feature) :어떤 것을 잘 구별할 수 있는 특징. 예를 들어, 자동차와 오토바이를 비교했을 때 크기나 바퀴 갯수가 특징이다. 데이터 (Data) :학습이나 예측에 사용되는 원시자료 및 가공된 자료 특징 벡터(Feature Vector) :특징이 약 10개가 있다면 10차원 벡터. 100개가 있으면 100차원 벡터. 특징이 많으면 성능은 향상되지만 계산량이 증가하므로 속도가 감소한다. 학습 셋 (Training Set) :학습에 사용하는 데이터 셋 교사 (Supervised) 학습 :학습 데이터의 정확한 클래스가 알려져 있는 학습 방식 명확한 분류 대상을 알고 있는 경우 적은 비용이지만 수작업으로 클래스 입력을 해야함. 비교사 (Unsupervised) 학습 :학습 데이터의 정확한 클래스가 알.. 2020. 1. 9.
matplotlib 히스토그램, Seaborn 시각화 히스토그램 : 도수분포를 그래프로 나타낸것. 데이터의 형상과 산포 정도를 평가하는데 많이 사용한다. pyplot.hist() #히스토그램을 그리는 함수 1. 히스토그램 그리기 plt.figure(figsize=(12,7)) plt.his(value,label=['1st','2nd'],bins=30) #bins는 데이터를 구간으로 나누는 개수이다. plt.grid(True) plt.legend(bbox_to_anchor=(1.2, 1),loc="upper right") # bbox_to_anchor는 라벨의 상대적인 위치를 잡아주는 옵션(x축,y축으로 각각 이동) 2. 히스토그램 색 입히기 - 데이터 셋 별로 다른 색 입히기 plt.his(value,label=['1st','2nd'],bins=30,col.. 2020. 1. 5.
파이썬을 이용한 시각화2 : Matplotlib을 활용한 선 시각화 , 산점도 시각화 Matplotlib란? 막대그래프, 히스토그램, 파이차트, 산점도 등 그래프를 그릴 때 주로 쓰이는 2D , 3D 플롯팅 패키지이다. 이를 사용하기 위해서는 설치를 먼저 진행하여야 한다. 1차원 데이터 생성 및 시각화 하기 1. package 가져오기 및 matplotlib 출력 옵션 설정 import matplotlib as mpl import matplotlib.pyplot as plt # matplotlib의 서브패키지로 플롯을 그려주는 패키지 import numpy as np %matplotlib inline # 시각화 결과를 출력하는 구문 2. 임의의(랜덤) 값 40개로 이루어진 배열 변수 생성 value=np.random.standard_normal(40) value array형태로 생성됨 3.. 2020. 1. 4.
파이썬을 이용한 시각화 1 : DataFrame 활용 Data Frame DataFrame의 Column 추가하는 방법 DataFrame에 새로운 칼럼을 추가하려면 기존의 다른 칼럼의 데이터 개수와 동일해야 한다. 만약 기존 데이터 길이가 현재 추가하려는 데이터 길이가 같지 않을 경우에는 ValueError가 발생한다. A B C number 10 20 30 예를 들어서 기존의 number라는 column의 data 개수가 총 3개였다면 추가하려는 새로운 칼럼도 data 개수가 3개여야 한다. df['value']=(1,2,3) A B C number 10 20 30 value 1 2 3 Index을 이용하여 하는 방법도 있다. df['value']=pd.DataFrame['Third','First','Second'],index=['C','A','B']) .. 2020. 1. 3.