본문 바로가기

전체 글225

기계학습 (머신 러닝 ) 용어 및 개요 특징 (Feature) :어떤 것을 잘 구별할 수 있는 특징. 예를 들어, 자동차와 오토바이를 비교했을 때 크기나 바퀴 갯수가 특징이다. 데이터 (Data) :학습이나 예측에 사용되는 원시자료 및 가공된 자료 특징 벡터(Feature Vector) :특징이 약 10개가 있다면 10차원 벡터. 100개가 있으면 100차원 벡터. 특징이 많으면 성능은 향상되지만 계산량이 증가하므로 속도가 감소한다. 학습 셋 (Training Set) :학습에 사용하는 데이터 셋 교사 (Supervised) 학습 :학습 데이터의 정확한 클래스가 알려져 있는 학습 방식 명확한 분류 대상을 알고 있는 경우 적은 비용이지만 수작업으로 클래스 입력을 해야함. 비교사 (Unsupervised) 학습 :학습 데이터의 정확한 클래스가 알.. 2020. 1. 9.
matplotlib 히스토그램, Seaborn 시각화 히스토그램 : 도수분포를 그래프로 나타낸것. 데이터의 형상과 산포 정도를 평가하는데 많이 사용한다. pyplot.hist() #히스토그램을 그리는 함수 1. 히스토그램 그리기 plt.figure(figsize=(12,7)) plt.his(value,label=['1st','2nd'],bins=30) #bins는 데이터를 구간으로 나누는 개수이다. plt.grid(True) plt.legend(bbox_to_anchor=(1.2, 1),loc="upper right") # bbox_to_anchor는 라벨의 상대적인 위치를 잡아주는 옵션(x축,y축으로 각각 이동) 2. 히스토그램 색 입히기 - 데이터 셋 별로 다른 색 입히기 plt.his(value,label=['1st','2nd'],bins=30,col.. 2020. 1. 5.
파이썬을 이용한 시각화2 : Matplotlib을 활용한 선 시각화 , 산점도 시각화 Matplotlib란? 막대그래프, 히스토그램, 파이차트, 산점도 등 그래프를 그릴 때 주로 쓰이는 2D , 3D 플롯팅 패키지이다. 이를 사용하기 위해서는 설치를 먼저 진행하여야 한다. 1차원 데이터 생성 및 시각화 하기 1. package 가져오기 및 matplotlib 출력 옵션 설정 import matplotlib as mpl import matplotlib.pyplot as plt # matplotlib의 서브패키지로 플롯을 그려주는 패키지 import numpy as np %matplotlib inline # 시각화 결과를 출력하는 구문 2. 임의의(랜덤) 값 40개로 이루어진 배열 변수 생성 value=np.random.standard_normal(40) value array형태로 생성됨 3.. 2020. 1. 4.
파이썬을 이용한 시각화 1 : DataFrame 활용 Data Frame DataFrame의 Column 추가하는 방법 DataFrame에 새로운 칼럼을 추가하려면 기존의 다른 칼럼의 데이터 개수와 동일해야 한다. 만약 기존 데이터 길이가 현재 추가하려는 데이터 길이가 같지 않을 경우에는 ValueError가 발생한다. A B C number 10 20 30 예를 들어서 기존의 number라는 column의 data 개수가 총 3개였다면 추가하려는 새로운 칼럼도 data 개수가 3개여야 한다. df['value']=(1,2,3) A B C number 10 20 30 value 1 2 3 Index을 이용하여 하는 방법도 있다. df['value']=pd.DataFrame['Third','First','Second'],index=['C','A','B']) .. 2020. 1. 3.
NumPy 와 Pandas ★ NumPy / Pandas 파이썬을 이용한 빅데이터 분석에 앞서서 기초적인 파이썬 문법들은 생략하고 Numpy와 Pandas부터 다루고자 한다. Numpy는 Numberical python의 약자로 배열 또는 다양한 자료구조를 다루는 데 사용되는 클래스를 포함한 패키지이다. NumPy를 사용하기 위해서는 라이브러리를 Import해야 한다. import numpy as np 이는 numpy 라이브러리를 np라는 축약어로 사용하겠다고 한 것이다. a=np.array([1,3,5.1,33]) 이런 식으로 사용된다. 내장 함수로 sum, std, cumsum등과 같은 것을 사용해 연산 작업을 할 수 있다. a.sum() b=np.array([a,a**2]) b.sum(axis=0) axis의 경우에는 0인 .. 2020. 1. 2.
Attention Is All You Need 리뷰 (공학 설계 프로젝트 기획 논문 3) 논문 : https://arxiv.org/abs/1706.03762 Attention Is All You Need The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new arxiv.org RNN, 특히 LSTM은 sequence model과 machine translation에서 주요하게 사용되고 있다. RN.. 2019. 7. 27.