1. 자카드 지수 = Jaccard index = 유사도 계산 알고리즘
위키피디아 : en.wikipedia.org/wiki/Jaccard_index
2. 레벤시테인 거리 = Levenshtein distance = 편집 알고리즘
위키피디아 : en.wikipedia.org/wiki/Levenshtein_distance
3. 유클리드 벡터 거리 = Euclidean vector distance
위키피디아 : en.wikipedia.org/wiki/Euclidean_vector
=> 위 세가지 와 같은측도들은 오타나 맞춤법를 어느정도 케어 가능
=> 아예 다른 두 단어를 가깝게 판정하는 오류 발생 가능성 있음. (ex : 'bar' , bar')
반응형