1장 한눈에 보는 머신러닝

머신러닝을 어떻게 정의할 수 있는가?
- 머신러닝은 데이터로부터 학습할 수 있는 시스템을 만드는 것. 학습이란 어떤 Task에서 주어진 Performance를 늘리는 것
머신러닝이 도움을 줄 수 있는 문제 유형 네 가지
- 명확한 해결책이 없는 복잡한 문제
- 수작업으로 만든 긴 규칙 리스트를 대체하는 경우
- 변화하는 환경에 적응하는 시스템을 만드는 경우
- 데이터를 통해 사람에게 통찰을 주는 경우
레이블된 훈련 세트란 무엇인가?
- 일반적으로 머신러닝 데이터 셋은 예측 데이터와 정답 데이터로 구성되는데 이 때, 정답 데이터가 있는 것을 레이블 된 훈련 세트라고 한다.
가장 널리 사용되는 지도 학습 작업 두 가지는 무엇인가
- 지도 학습 작업의 종류는 크게 분류와 회귀가 있다. 분류의 경우 레이블을 각 클래스로 나누는 작업이고, 회귀는 클래스를 하나 이상 혹은 실수를 예측하는데 사용한다.
보편적인 비지도 학습 작업 네 가지는 무엇인가
- 비지도 학습에는 크게 clustering, manifold, dimension reduction clustering은 비슷한 데이터끼리 묶는 것이고, dimension reduction은 고차원의 벡터를 의미있는 저차원으로 압축하는 것이고, visualize은 대량의 고차원의 데이터를 2D, 3D로 매핑하는 것 association rule은 대량의 데이터에서 특성간 의미있는 관계를 찾는 것
사전 정보가 없는 여러 지형에서 로봇을 걸어가게 하려면 어떤 종류의 머신러닝 알고리즘이 필요한가?
- 강화학습이 좋을 것 같다.
고객을 여러 그룹으로 분할하려면 어떤 알고리즘을 사용해야 하는가?
- 지도학습이 가능하다면 분류, 비지도학습이라면 클러스터링이 좋을 것 같다.
스팸 감지의 문제는 지도 학습과 비지도 학습 중 어떤 문제로 풀 수 있는가?
- 대표적인 지도 학습인 알고리즘으로 나이브 베이지안 분류기를 이용하여 분류할 수 있다.
온라인 학습 시스템이란 무엇인가?
- 서비스를 배포한 이후에 들어오는 데이터를 사용하여 학습하는 것이다.
외부 메모리 학습이 무엇인가?
- 컴퓨터의 주 메모리에 들어갈 수 없는 대용량의 데이터를 다룰 수 있음. 데이터를 미니 배치로 나누고, 온라인 학습 기법을 사용해 학습
예측을 하기 위해 유사도 측정에 의존하는 학습 알고리즘은 무엇인가
- 인스턴스 기반 학습 시스템은 훈련 데이터를 기억하는 학습이다. 새로운 샘플이 주어지면 유사도 측정을 사용해 학습된 샘플 중에서 가장 비슷한 것을 찾아 예측으로 사용
모델 파라미터와 학습 알고리즘의 하이퍼파라미터 사이에는 어떤 차이가 있는가?
- 모델 파라미터는 모델이 학습하면서 변화하는 알고리즘이고, 하이퍼파라미터는 이러한 모델이 학습할 때 어떻게 학습할지 정하는 것
  
  ⇒ 모델은 하나 이상의 파라미터를 사용해 새로운 샘플이 주어지면 무엇을 예측할지 결정
  
  학습 알고리즘은 모델이 새로운 샘플에 잘 일반화되도록 이런 파라미터들의 최적 값을 찾는 것. 즉, 하이퍼파라미터는 모델의 파라미터가 아닌 학습 알고리즘 자체의 파라미터이다.
모델 기반 알고리즘이 찾는 것은 무엇인가? 성공을 위해 이 알고리즘이 사용하는 가장 일반적인 전략은 무엇인가? 예측은 어떻게 만드는가?
- 모델 기반 학습 알고리즘은 새로운 샘플에 잘 일반화되기 위한 모델 파라미터의 최적 값을 찾는다. 일반적으로 훈련 데이터에서 시스템의 예측이 얼마나 나쁜지 측정하고 모델에 규제가 있다면 모델 복잡도에 대한 페널티를 더한 비용 함수를 최소화함으로써 시스템을 훈련시킴. 예측을 만들려면 학습 알고리즘이 찾은 파라미터를 사용하는 모델 예측 함수에 새로운 샘플의 특성을 주입
머신러닝의 주요 도전과제는 무엇인가?
- 머신러닝의 주요 도전 과제는 부족한 데이터, 낮은 데이터 품질, 대표성 없는 데이터, 무의미한 특성, 훈련 데이터에 과소적합된 과도하게 간단한 모델, 훈련 데이터에 과대적합된 과도하게 복잡한 모델 등
모델이 훈련 데이터에서의 성능은 좋지만 새로운 샘플에서 일반화 성능이 나쁘다면 어떤 문제가 있는건가? 가능한 해결책 세 가지는 무엇인가?
- 모델이 훈련 데이터에 크게 학습한 오버피팅 문제가 발생한 것으로 보인다. 따라서 새로운 샘플에서 일반화 성능이 나쁘기에, 첫 번째로 데이터 셋을 늘리는 방법이 있고, 두 번째로 모델의 파라미터 수를 늘려주는 것이고, 세 번째로는 모델 편향을 줄이는 방법
  
  ⇒ 모델을 단순화하거나, 모델에 규제를 추가하거나, 훈련 데이터의 잡음을 감소 시키는 것
테스트 세트가 무엇이고 왜 필요한가?
- 모델이 훈련 데이터에서 일반화를 잘 시켰는지 확인하기 위해서 필요하다.
검증 세트의 목적은 무엇인가?
- 학습 도중에 일반화가 잘 되어가고 있는지 확인하는 과정
테스트 세트를 사용해 하이퍼파라미터를 튜닝하면 어떤 문제가 생기는가?
- 모델 분포가 변해 일반화 능력이 떨어질 것이다.
교차 검증은 무엇이고, 왜 하나의 검증 세트보다 선호되나?
- 교차 검증이란 학습 데이터를 K개로 나누어 (K-1)개를 학습 데이터, 1개를 테스트 데이터로 구성하면서 K번 반복하게 하는 알고리즘이다. 검증 데이터도 같이 학습에 참여 시켜 많은 데이터를 참여 시킬 수 있고, 검증 데이터가 계속 변하므로 표현이 풍부해진다.