특징 (Feature)
:어떤 것을 잘 구별할 수 있는 특징.
예를 들어, 자동차와 오토바이를 비교했을 때 크기나 바퀴 갯수가 특징이다.
데이터 (Data)
:학습이나 예측에 사용되는 원시자료 및 가공된 자료
특징 벡터(Feature Vector)
:특징이 약 10개가 있다면 10차원 벡터. 100개가 있으면 100차원 벡터.
특징이 많으면 성능은 향상되지만 계산량이 증가하므로 속도가 감소한다.
학습 셋 (Training Set)
:학습에 사용하는 데이터 셋
교사 (Supervised) 학습
:학습 데이터의 정확한 클래스가 알려져 있는 학습 방식
명확한 분류 대상을 알고 있는 경우
적은 비용이지만 수작업으로 클래스 입력을 해야함.
비교사 (Unsupervised) 학습
:학습 데이터의 정확한 클래스가 알려져 있지 않은 경우
수작업으로 입력을 안해도 되지만 비용이 많이 든다.
반교사 (Semi-Supervised) 학습
:교사학습 + 비교사 학습
강화 (Reinforcement) 학습
:에이전트가 환경으로부터의 피드백을 기반으로 동작을 학습한다.
예를 들어, 실패했을 때 실패에 대한 정보를 피드백하고 성공하면 성공한 정보를 피드백하고 보상한다.
점점 성능이 향상된다.
머신러닝 기술 적용 분야
1. 분류 (Classification)
: 미리 정의된 카테고리로 클래스 (카테고리) 예측
(스팸/ 일반 메일) (긍정 / 부정)
2. 군집 (Clustering)
:데이터로 부터 의미 있는 그룹으로 나누는 것, 비슷한 집합을 동일한 그룹으로 그룹화
3. 회귀 (Regression)
:데이터 분석을 통해 값을 예측
'데이터 처리 > 빅데이터 분석 (Big data) in Python' 카테고리의 다른 글
matplotlib 히스토그램, Seaborn 시각화 (0) | 2020.01.05 |
---|---|
파이썬을 이용한 시각화2 : Matplotlib을 활용한 선 시각화 , 산점도 시각화 (0) | 2020.01.04 |
파이썬을 이용한 시각화 1 : DataFrame 활용 (0) | 2020.01.03 |
NumPy 와 Pandas (1) | 2020.01.02 |