본문 바로가기

데이터 처리10

데이터 처리 | 파이썬으로 엑셀 파일 읽어서 출력하기 데이터를 가공해야 할때 엑셀 파일을 사용하는 경우가 있다. 이때, 엑셀 파일을 읽어서 원하는 col, row 값을 추출하고자 한다. openpyxl을 사용하므로 pip3 install openpyxl 로 미리 설치한다. 2020. 6. 22.
기계학습 (머신 러닝 ) 용어 및 개요 특징 (Feature) :어떤 것을 잘 구별할 수 있는 특징. 예를 들어, 자동차와 오토바이를 비교했을 때 크기나 바퀴 갯수가 특징이다. 데이터 (Data) :학습이나 예측에 사용되는 원시자료 및 가공된 자료 특징 벡터(Feature Vector) :특징이 약 10개가 있다면 10차원 벡터. 100개가 있으면 100차원 벡터. 특징이 많으면 성능은 향상되지만 계산량이 증가하므로 속도가 감소한다. 학습 셋 (Training Set) :학습에 사용하는 데이터 셋 교사 (Supervised) 학습 :학습 데이터의 정확한 클래스가 알려져 있는 학습 방식 명확한 분류 대상을 알고 있는 경우 적은 비용이지만 수작업으로 클래스 입력을 해야함. 비교사 (Unsupervised) 학습 :학습 데이터의 정확한 클래스가 알.. 2020. 1. 9.
matplotlib 히스토그램, Seaborn 시각화 히스토그램 : 도수분포를 그래프로 나타낸것. 데이터의 형상과 산포 정도를 평가하는데 많이 사용한다. pyplot.hist() #히스토그램을 그리는 함수 1. 히스토그램 그리기 plt.figure(figsize=(12,7)) plt.his(value,label=['1st','2nd'],bins=30) #bins는 데이터를 구간으로 나누는 개수이다. plt.grid(True) plt.legend(bbox_to_anchor=(1.2, 1),loc="upper right") # bbox_to_anchor는 라벨의 상대적인 위치를 잡아주는 옵션(x축,y축으로 각각 이동) 2. 히스토그램 색 입히기 - 데이터 셋 별로 다른 색 입히기 plt.his(value,label=['1st','2nd'],bins=30,col.. 2020. 1. 5.
파이썬을 이용한 시각화2 : Matplotlib을 활용한 선 시각화 , 산점도 시각화 Matplotlib란? 막대그래프, 히스토그램, 파이차트, 산점도 등 그래프를 그릴 때 주로 쓰이는 2D , 3D 플롯팅 패키지이다. 이를 사용하기 위해서는 설치를 먼저 진행하여야 한다. 1차원 데이터 생성 및 시각화 하기 1. package 가져오기 및 matplotlib 출력 옵션 설정 import matplotlib as mpl import matplotlib.pyplot as plt # matplotlib의 서브패키지로 플롯을 그려주는 패키지 import numpy as np %matplotlib inline # 시각화 결과를 출력하는 구문 2. 임의의(랜덤) 값 40개로 이루어진 배열 변수 생성 value=np.random.standard_normal(40) value array형태로 생성됨 3.. 2020. 1. 4.