나이브 베이즈 분류(Naive Bayesian Classification)

IT/머신러닝

by Adonis_ 2021. 5. 1. 20:48

나이브 베이즈 분류 (Naive Bayesian Classification) 개념

- 데이터가 각 클래스에 속할 확률을 구하는 조건부 확률 기반의 분류 방법

- Feature들은 서로 독립관계라는 가정하에 계산

- 사전확률P(B|A)을 통해 사후확률P(A|B)을 계산할 수 있음

예를 들어 경찰관의 이름이 아래와 같을 때, drew라는 이름의 경찰관이 남자인지 여자인지 계산해보면 다음과 같다.

P(male | drew) = 1/3 * 3/8 = 0.125

P(female | drew) = 2/5 * 5/8 = 0.25

* 분모에 위치하는 P(drew)는 양쪽 값에서 동일한 값이기 때문에 고려하지 않음

해당 예시에서는 drew라는 이름을 쓰는 경찰관은 여성일 경우가 많음.

나이브 베이즈 장점

- feature간의 연관 관계를 고려하지않아 계산이 간단하고 빠르며 효율적

- Training시 데이터 크기에 관계없이 잘처리함

- 범주형 데이터에 효과적

나이브 베이즈 단점

- feature간의 독립이라는 가정이 어긋나는 경우 잘못 계산됨

- 수치형 데이터에는 적합하지 않음

나이브 베이즈의 경우 빠르고 쉽다는 장점이 있지만 실제 적용하기에는 feature들이 독립이어야 한다는 가정이 성립하지 않는 곳이 많아 주의가 필요하다.

feature가 많은 경우 연관 관계를 모두 고려하면 복잡해지는 경향이 있어 단순화 시켜 처리하는 경우 주로 사용되며 예시로 스팸 메일 분류, 질병 진단, 문서 분류, 비정상 행위 탐지(binary classfication) 등에 사용된다.

나이브 베이즈 보정

다중 분류시 값이 0인 경우 의미있는 값을 도출해도 0을 곱해 무력화된 결과를 도출한다.(zero frequency) 이에 비교를 위해 0이 아닌 최소값으로 보정 하는 것.

예) 스팸메일 분류에서 training data set의 스팸메일에 '당첨' 이라는 단어가 없었다면 '당첨'이라는 단어가 들어간 메일을 스팸메일로 분류하지 않는다.

너무 낮은 확률을 가질 경우 비교가 불가능하여 로그값을 취한 후 계산

[참고 자료]

IQR Method를 통한 이상치 변환 (0)	2021.12.16
Kernel Density Estimate(커널밀도추정) (0)	2020.12.20
의사결정나무(Decision tree) (0)	2020.12.13
KNN(K-Nearest Neighbors)개념 (0)	2020.12.13

끄적끄적