시스템구조

데이터마이닝_머신러닝_지도학습, 비지도학습, 강화학습

스윙스윙 2021. 11. 4. 21:30

▣ 데이터마이닝_머신러닝_지도학습, 비지도학습, 강화학습

구분 소구분 내용 알고리즘

 지도학습(Supervised Learning),
문제(입력)와 답의 쌍으로 구성된 데이터들이 주어질 때, 새로운 문제를 풀 수 있는 함수 또는 패턴을 찾는 것
정답이 있는 데이터
를 활용해 데이터를 학습시키는 것
입력 값(X data)이 주어지면 입력값에 대한 Label(Y data)를 주어 학습

분류
(Classification)
주어진 데이터를 정해진 카테고리(라벨)에 따라 분류
레이블이 이산적(discrete)인 경우
분류는 '맞다', '아니다' 등의 이진 분류 문제 또는 사과다 바나나다 포도다 등의 2가지 이상으로 분류하는 다중 분류 문제가 있음
 kNN
 Naive Bayes
 Support Vector
 Machine Decision
(회귀)
Regression
어떤 데이터들의 Feature를 기준으로, 연속된 값(그래프)을 예측
레이블이 연속적 값을 가지는 경우
주로 어떤 패턴이나 트렌드, 경향을 예측할 때 사용됨
답이 분류 처럼 1, 0이렇게 딱 떨어지는 것이 아니고 어떤 수나 실수로 예측될 수 있음
 Linear Regression
 Locally Weighted Linear
 Ridge
 Lasso
 비지도학습(Unsupervised Learning),

답이 없는 문제들만 있는 데이터들로부터 패턴을 추출하는 것
정답 라벨이 없는 데이터를 비슷한 특징끼리 군집화 하여 새로운 데이터에 대한 결과를 예측하는 방법
데이터에 내재된 패턴, 특성, 구조를 학습 통해 발견. 레이블은 고려하지 않음
라벨링 되어있지 않은 데이터로부터 패턴이나 형태를 찾아야 하기 때문에 지도학습보다는 조금 더 난이도가 있다고 할 수 있음
실제로 지도 학습에서 적절한 피처를 찾아내기 위한 전처리 방법으로 비지도 학습을 이용하기도 함

 
비지도학습의 대표적인 종류는 클러스터링(Clustering), 차원축소(dimension reduction)이 있음
여러 과일의 사진이 있고 이 사진이 어떤 과일의 사진인지 정답이 없는 데이터에 대해 색깔이 무엇인지, 모양이 어떠한지 등에 대한 피처를 토대로 바나나다, 사과다 등으로 군집화 하는 것임

최근 각광받고 있는 GAN(generative Adversarial Network)모델도 비지도 학습임
 Clustering
 K Means
 Density Estimation
 Exception Maximization
 Pazen Window
 DBSCAN
강화학습
(Reinforcement Learing)
문제에 대한 직접적인 답을 주지는 않지만 경험을 통해 기대 보상(expected reward)이 최대가 되는 정책(policy)을 찾는 학습
행동 심리학에서 나온 이론으로 분류할 수 있는 데이터가 존재하는 것도 아니고 데이터가 있어도 정답이 따로 정해져 있지 않으며 자신이 한 행동에 대해 보상(reward)를 받으며 학습하는 것을 말함
시스템의 동작의 적절성(right/wrong)에 대한 피드백이 있는 학습
소프트웨어 에이전트가 환경내에서 보상이 최대화되는 일련의 행동을 수행하도록 학습하는 기법
환경의 상태, 에이전트의 행동, 상태 전이 규칙 및 보상, 관측 범위를 고려한 학습
 
- 강화학습의 개념
  • 에이전트(Agent)
  • 환경(Environment)
  • 상태(State)
  • 행동(Action)
  • 보상(Reward)
게임을 예로들면 게임의 규칙을 따로 입력하지 않고 자신(Agent)이 게임 환경(environment)에서 현재 상태(state)에서 높은 점수(reward)를 얻는 방법을 찾아가며 행동(action)하는 학습 방법으로 특정 학습 횟수를 초과하면 높은 점수(reward)를 획득할 수 있는 전략이 형성되게 됨. 단, 행동(action)을 위한 행동 목록(방향키, 버튼)등은 사전에 정의가 되어야 함

강화학습에 딥러닝을 성공적으로 적용한 대표적 알고리즘으로는 DQN과 A3C가 있는데요. 두 알고리즘 모두 딥마인드에서 발표했으며 다른 강화학습 알고리즘의 베이스라인이 되었음

Action selection
planning
policy learning
DQN
A3C

 

 


2019년 78번

정답 : 2번

비지도학습(unsupervised learing) 지도 학습과는 달리 정답 라벨이 없는 데이터를 비슷한 특징끼리 군집화 하여 새로운 데이터에 대한 결과를 예측하는 방법

데이터에 내재된 패턴, 특성, 구조를 학습 통해 발견. 레이블은 고려하지 않음

라벨링 되어있지 않은 데이터로부터 패턴이나 형태를 찾아야 하기 때문에 지도학습보다는 조금 더 난이도가 있다고 할 수 있음

실제로 지도 학습에서 적절한 피처를 찾아내기 위한 전처리 방법으로 비지도 학습을 이용하기도 함
 
비지도학습의 대표적인 종류는 클러스터링(Clustering), 차원축소(dimension reduction)이 있음

 


2020년 76번

정답 : 2번

강화학습은 문제에 대한 직접적인 답을 주지는 않지만 경험을 통해 기대 보상(expected reward)이 최대가 되는 정책(policy)을 찾는 학습