머신러닝의 Regularization, L1(Lasso)과 L2(Ridge)


Regularization L1 L2규제



📍 Regularization


선형 회귀 모델


  • 선형회귀 모델은 학습 데이터를 전부 반영하여 하나의 직선 방정식을 만들게 됩니다.
    • 학습 데이터에 과대 적합이 되는 것을 방지할 수 있는 방법이 없다!


  • 가중치(w) 값의 비중을 줄이는 것!


📌 모델 정규화


y = w1x1 + w2x2+ w3x3+ w4x4 + … wpxp + b

다중 선형 회귀 함수식



📌 L1(Lasso), L2(Ridge)


Regularization L1 L2규제


Lasso

  • 실제 값을 빼고 마이너스 가중치가 나오면 0으로 만듭니다.
    • (예시) 가중치가 20, 30, 40이라면 임의로 25를 빼고 가중치를 0, 5, 15로 만드는 방법
  • 0이 되면 특성을 제외합니다.
  • 중요한 특성만 남길 때 아주 좋은 방법


Ridge

  • 비율을 적용해서 큰 가중치를 조절합니다.
    • (예시) 가중치가 20,30,40이라면 50%의 비율을 적용해서 10,15,20로 만드는 방법
  • 가중치가 0이 나오지 않기 때문에 필요한 정보들을 모두 전달할 수 있습니다.
  • 현업에서는 Ridge를 더 많이 사용하는 편


📌 Lasso 정규화 순서도


Lasso 정규화 순서도



📌 L1, L2의 그래프 차이점


L1, L2 그래프 차이점


  • Lasso 값은 특성 값이 사라져서 Ridge보다 값이 나오지 않는다.
  • Ridge 값은 특성 값을 비율로 적용하기 때문에 값이 모두 살아있다.


머신러닝의 앙상블(Ensemble)의 기본 개념와 3가지 종류