ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 서포트 벡터 머신(Support Vector Machine)
    인공지능 2020. 12. 20. 18:44

    서포트 벡터 머신(Support Vector Machine, SVM)은 주로 분류와 회귀에 사용되며 이상치 탐지에도 사용할 수 있는 다목적 머신 러닝 모델입니다.

    특히 복잡한 분류 문제에 잘 들어맞으며 작거나 중간 크기의 데이터셋에 적합합니다.

    SVM은 주어진 데이터 집합을 바탕으로 새로운 데이터가 어떤 범주에 속할지 판단하는 비확률적 이진 선형 분류 모델을 생성합니다.

    생성된 분류 모델은 데이터가 있는 공간에서 경계로 표현되며 SVM은 그 중 가장 큰 폭을 가진 경계를 가진 알고리즘입니다.

    [그림 1] 선형 SVM 분류

    위의 그림에서 검은색과 흰색으로 두 가지 범주의 데이터가 있습니다. 붉은색으로 표시가 된 데이터 샘플을 서포트 벡터라고 하며 이들에 의해서 경계가 결정됩니다. 이 결정 경계의 밖에 새로운 데이터가 추가되더라도 경계의 형성에는 영향을 미치지 않습니다.

     

    SVM은 선형 분류 뿐만이 아니라 비선형 분류 또한 할 수 있습니다. 비선형 분류를 할 때는 주어진 데이터를 고차원 특징 공간으로 사상시킨 다음 분류를 하게 되고, 이를 다시 기존 차원 공간에서 보게되면 비선형 초평면이 됩니다.

    비선형 분류를 위해 많이 쓰이는 커널은 바로 가우시안 RBF 커널입니다. 가우시안 RBF는 각 샘플이 특정 랜드마크와 얼마나 닮았는지 측정하는 유사도 함수의 종류이며, 이 유사도 함수를 이용하여 새로운 특성을 추가하여 비선형 데이터를 분류할 수 있습니다. 

    [그림 2] 가우시안 RBF를 사용한 유사도 특성

    위의 왼쪽 그림에서는 파란 사각형과 녹색 삼각형 두 가지 데이터로 나뉘어져 있는데 선형적으로 분류하기가 쉽지 않습니다.

    이 때 붉은색으로 표시된 두 점을 랜드마크로 설정하면 가우시안 RBF에 의해 x2와 x3의 유사도 함수가 정해집니다. 이 두 값을 새로운 특성으로 각 데이터를 나타내게 되면 오른쪽 그림과 같이 두 종류의 데이터를 선형적으로 분류할 수 있게 됩니다.

Designed by Tistory.