본문 바로가기
데이터 처리/빅데이터 분석 (Big data) in Python

기계학습 (머신 러닝 ) 용어 및 개요

by Jun_N 2020. 1. 9.

 

 

 

특징 (Feature)

:어떤 것을 잘 구별할 수 있는 특징.

  예를 들어, 자동차와 오토바이를 비교했을 때 크기나 바퀴 갯수가 특징이다.

 

 

 

데이터 (Data)

:학습이나 예측에 사용되는 원시자료 및 가공된 자료

 

 

 

특징 벡터(Feature Vector)

:특징이 약 10개가 있다면 10차원 벡터. 100개가 있으면 100차원 벡터.

  특징이 많으면 성능은 향상되지만 계산량이 증가하므로 속도가 감소한다.

 

 

학습 셋 (Training Set)

:학습에 사용하는 데이터 셋

 

 

 

 

교사 (Supervised) 학습

:학습 데이터의 정확한 클래스가 알려져 있는 학습 방식 

명확한 분류 대상을 알고 있는 경우 

적은 비용이지만 수작업으로 클래스 입력을 해야함.

 

 

비교사 (Unsupervised)  학습

:학습 데이터의 정확한 클래스가 알려져 있지 않은 경우

수작업으로 입력을 안해도 되지만 비용이 많이 든다.

 

반교사 (Semi-Supervised) 학습

:교사학습 + 비교사 학습

 

강화 (Reinforcement) 학습

:에이전트가 환경으로부터의 피드백을 기반으로 동작을 학습한다.

예를 들어, 실패했을 때 실패에 대한 정보를 피드백하고 성공하면 성공한 정보를 피드백하고 보상한다.

점점 성능이 향상된다.

 

 

 

 

 

 

머신러닝 기술 적용 분야

 

1. 분류 (Classification)

: 미리 정의된 카테고리로 클래스 (카테고리) 예측 

(스팸/ 일반 메일) (긍정 / 부정)

 

2. 군집 (Clustering)

:데이터로 부터 의미 있는 그룹으로 나누는 것, 비슷한 집합을 동일한 그룹으로 그룹화

 

 

3. 회귀 (Regression)

:데이터 분석을 통해 값을 예측