티스토리 뷰

머신러닝 유사도 및 거리 총정리 : 코사인, 유클리디안, 자카드, 멘하탄 등 알고리즘

테크씬 2023. 10. 30. 22:29

안녕하세요, 테크씬입니다. 데이터 분석과 머신러닝 분야에서 유사도와 거리 측정은 매우 중요한 역할을 합니다. 이러한 측정 방법은 다양한 데이터 유형과 문제 상황에 따라 그 중요성이 달라질 수 있으며, 다양한 유사도 및 거리 측정 방법은 각각 고유의 특성과 적용 분야를 가지고 있습니다. 이 문서에서는 이러한 다양한 유사도 및 거리 측정 방법을 상세하게 살펴보고, 각각의 방법이 어떻게 작동하는지, 어떤 상황에 유용한지 한번 알아보시죠.

벡터 기반 유사도 측정 방법

1. 코사인 유사도 (Cosine Similarity)

코사인 유사도는 두 벡터 간의 각도를 기반으로 한 유사도 측정 방법입니다. 이 방법은 텍스트 문서의 유사성 분석이나 추천 시스템에서 자주 사용됩니다. 두 벡터가 이루는 각도가 작을수록, 즉 각도가 0에 가까울수록 유사도는 높아집니다.

각도가 0도일 경우 유사도는 1로, 완전한 유사성을 의미합니다.
각도가 90도일 경우 유사도는 0으로, 전혀 유사하지 않다는 것을 의미합니다.
예시: 문서 분류, 추천 시스템에서의 아이템 유사성 측정

2. 유클리디안 거리 (Euclidean Distance)

유클리디안 거리는 두 점 사이의 직선 거리를 계산하는 방법입니다. 이 방법은 공간 상에서 물리적 거리를 측정하는 데 일반적으로 사용되며, 두 점이 공간상에서 가까울수록 거리 값은 작아집니다.

2차원, 3차원 공간 뿐만 아니라, n차원에서도 적용 가능합니다.
예시: K-NN 알고리즘, 클러스터링

3. 맨하탄 거리 (Manhattan Distance)

맨하탄 거리는 격자로 이루어진 공간에서 두 점 사이의 수직/수평 거리의 합을 계산합니다. 이 방법은 유클리디안 거리보다 이동 경로가 제한적이며, 도시의 블록 레이아웃과 같은 격자 구조에서 특히 유용합니다.

데이터 차원에 제약이 없으며, 일반적으로 2차원이나 3차원에서 사용됩니다.
예시: 로보틱스에서의 경로 탐색, 택시 거리 계산

4. 마할라노비스 거리 (Mahalanobis Distance)

마할라노비스 거리는 특히 변수들 간의 상관 관계가 있는 경우에 유용한 거리 측정 방법입니다. 이 방법은 데이터의 공분산 행렬을 사용하여 두 점 사이의 거리를 측정합니다.

변수 간의 상관 관계를 고려하므로, 상관 관계가 있는 변수들 사이에서 특히 유용합니다.
예시: 이상치 탐지, 다변량 분석

5. 자카드 유사도 (Jaccard Similarity)

자카드 유사도는 두 집합 간의 유사도를 측정하는 방법입니다. 이 방법은 두 집합의 교집합 크기를 두 집합의 합집합 크기로 나누어 유사도를 계산합니다.

값이 클수록 두 집합이 유사하다는 것을 의미합니다.
예시: 텍스트 문서의 유사성 비교, 소셜 네트워크 분석

이상으로 유사도 및 거리 측정 방법에 대한 종합적인 가이드를 마칩니다. 각 측정 방법은 특정한 적용 분야와 문제 상황에 따라 그 중요성과 유용성이 달라질 수 있으므로, 주어진 문제에 가장 적합한 방법을 선택하는 것이 중요합니다.

6. 해밍 거리 (Hamming Distance)

해밍 거리는 같은 길이의 두 문자열에서 서로 다른 위치의 문자 개수를 측정하는 방법입니다. 이 방법은 주로 에러 검출 및 수정에서 활용됩니다.

두 문자열이 완전히 일치할 경우 해밍 거리는 0입니다.
예시: 에러 검출 코드, 유전 알고리즘

7. 피어슨 상관 계수 (Pearson Correlation Coefficient)

피어슨 상관 계수는 두 변수 간의 선형 상관 관계를 측정하는 방법입니다. 값은 -1부터 1까지 범위를 가지며, 1은 완전한 양의 상관 관계, -1은 완전한 음의 상관 관계를 의미합니다.

두 변수가 독립적일 경우 값은 0입니다.
예시: 주식 가격 예측, 소비자 선호 분석

8. 체비쇼프 거리 (Chebyshev Distance)

체비쇼프 거리는 두 점 사이의 모든 차원에 대해 최대 거리를 측정합니다. 이는 무한한 차원의 공간에서도 거리를 측정할 수 있어 높은 차원의 데이터에 적합합니다.

9. 해밍 거리 (Hamming Distance)

해밍 거리는 동일한 길이를 가진 두 문자열에서 서로 다른 위치의 문자 수를 측정합니다. 이 방법은 주로 에러 탐지와 에러 수정에 사용되며, 두 데이터가 얼마나 다른지를 나타내는 데 사용됩니다.

10. 표준화 유클리디안 거리 (Standardized Euclidean Distance)

표준화 유클리디안 거리는 각 차원의 표준 편차를 고려하여 유클리디안 거리를 계산합니다. 이 방법은 변수의 스케일 차이를 보정하며, 표준화된 데이터에서 두 점 사이의 거리를 측정하는 데 사용됩니다.

11. 스피어만 상관 계수 (Spearman Correlation Coefficient)

스피어만 상관 계수는 두 변수의 순위 간의 상관 관계를 측정합니다. 이는 피어슨 상관 계수와 유사하나, 순위 데이터에 대해 사용됩니다.
위의 다양한 유사도 및 거리 측정 방법은 특정 상황과 데이터 유형에 따라 다르게 적용될 수 있습니다. 각 방법의 특징과 적용 분야를 이해하고 목적에 따라 적절한 방법을 선택하는 것이 중요합니다.

유사도 및 거리 측정 방법의 다양한 활용 사례

1. 바이오메트릭 인식

개요: 유사도 및 거리 측정 방법은 바이오메트릭 인식 분야에서 널리 활용되고 있습니다.
세부 적용: 지문, 필기체 인식, 홍채 이미지 인식 등에서 이러한 측정 방법이 사용됩니다.
기술적 측면: 맨하탄 거리, 코사인 유사도 등 다양한 알고리즘이 이 분야에서 사용됩니다.
성과: 보안과 개인 정보 보호를 위한 더 높은 정확도를 달성할 수 있습니다.

2. 동영상 분석

개요: 스테레오 매칭, 비디오 시퀀스의 모션 추적 등의 동영상 분석 작업에서 유사도 및 거리 측정이 활용됩니다.
세부 적용: 실시간 비디오 스트리밍, 스포츠 분석 등에서 사용됩니다.
기술적 측면: 여러 벤치마크 데이터 세트와 두 이미지 검색 애플리케이션에서 성능이 평가되었습니다.
성과: 더 정확한 모션 추적 및 이미지 분류를 가능하게 하며, 이는 최적화된 사용자 경험을 제공합니다.

3. 의료 분야

개요: 유사도 및 거리 측정 방법은 의료 분야에서도 활용됩니다.
세부 적용: MRI, CT 등의 이미지 분석에 사용됩니다.
기술적 측면: 구조화된 데이터 표현에 대한 거리 및 유사도 함수가 중요합니다.
성과: 더 정확한 진단과 빠른 치료를 가능하게 합니다.

4. 얼굴 인식

개요: 유클리디안 거리와 맨하탄 거리 측정이 얼굴 인식에 활용됩니다.
세부 적용: 보안 시스템, 스마트폰 얼굴 인식 등에 사용됩니다.
기술적 측면: PCA 알고리즘이 특징 추출에 사용되며, 다양한 거리 측정 기준이 적용됩니다.
성과: 대규모 이미지 데이터베이스에서 높은 정확도로 유사한 이미지를 검색할 수 있습니다.

5. 클러스터링

개요: 유사도 또는 거리 측정은 클러스터링 알고리즘에서 핵심 구성 요소입니다.
세부 적용: 데이터 분석, 고객 세분화, 추천 시스템 등에서 활용됩니다.
기술적 측면: k-평균, DBSCAN 등의 알고리즘이 활용됩니다.
성과: 유사한 데이터 포인트를 효율적으로 그룹화하여 분석의 정확도를 높입니다.

유사도 및 거리 측정 방법론 Global 기업 사례

1. Amazon

Amazon은 코사인 유사도를 활용하여 Elasticsearch Service를 개선하였습니다. 이를 통해 상품 추천 및 검색 기능의 정확도와 효율성을 향상시켰습니다. 상품 추천 시스템은 사용자의 구매 이력 및 검색 이력을 분석하여, 사용자의 관심사와 유사한 상품을 추천하는 기능을 제공합니다. 코사인 유사도는 벡터 간의 각도를 측정하여 유사도를 판단하므로, 상품 간의 유사도 측정에 활용되어 상품 추천의 정확도를 높일 수 있습니다. 또한, Elasticsearch Service의 검색 결과 정렬에도 코사인 유사도를 활용하여, 사용자의 검색 쿼리와 관련성이 높은 상품을 우선적으로 보여주어 사용자 만족도를 높이고, 구매 전환율을 증가시킬 수 있습니다.

2. Spotify

Spotify는 유사도 측정을 활용하여 사용자에게 개인화된 음악 추천을 제공합니다. 이 방법으로 사용자의 만족도를 높이고, 서비스 이용률을 증가시켰습니다. Spotify는 사용자의 음악 취향과 이전에 들은 음악의 이력을 분석하여, 유사한 장르나 아티스트의 음악을 추천합니다. 또한, 사용자 간의 음악 취향의 유사도를 분석하여, 유사한 취향의 사용자에게 공통의 음악 추천을 제공합니다. 이러한 개인화된 추천 시스템은 사용자의 서비스 만족도를 높이며, 더 많은 음악을 탐색하고 듣도록 유도하여 서비스 이용 시간을 늘리고, 결제 전환율을 증가시킬 수 있습니다.

3. Google

Google은 유사도 측정을 활용하여 광고와 사용자 검색 결과의 관련성을 높였습니다. 이를 통해 사용자와 광고주에게 더 높은 투자 대비 효과를 제공하였습니다. 광고 캠페인을 실행하는 광고주들은 타겟팅된 사용자에게 더 정확하게 광고를 표시할 수 있으며, 사용자들은 자신의 검색 쿼리와 관련된 광고를 볼 수 있습니다. 이를 통해 광고의 클릭률과 전환율을 높일 수 있으며, 광고주의 광고 효과를 최적화할 수 있습니다. 또한, 사용자의 검색 결과에 더욱 관련성 높은 컨텐츠를 제공하여 사용자 만족도를 높이고, 검색 엔진의 사용률을 증가시킬 수 있습니다.

4. Facebook

Facebook은 Faiss라는 라이브러리를 개발하여 유사도 검색을 효율적으로 수행하게 하였습니다. 이를 통해 대량의 데이터 중에서 유사한 벡터를 빠르게 찾아낼 수 있게 되었습니다. Faiss 라이브러리는 매우 큰 데이터셋에서 유사도 검색을 빠르고 정확하게 수행할 수 있게 해주어, Facebook의 다양한 서비스와 기능에 활용되고 있습니다. 예를 들어, 사진과 동영상의 태그 자동 완성, 친구 추천 시스템, 광고 타겟팅 등에 활용되며, 이러한 기능의 효율성과 정확도를 높여 Facebook 서비스의 사용자 만족도와 광고 수익을 향상시킬 수 있습니다.

5. Microsoft

Microsoft에서 유사도 및 거리 측정 방법은 기계 학습, 데이터 분석, 클라우드 서비스 개선 등 다양한 분야에서 활용될 수 있습니다. Microsoft는 클라우드 기반 서비스인 Azure를 제공하며, 이러한 유사도 및 거리 측정 방법은 Azure의 다양한 서비스 개선에 활용될 수 있습니다. 예를 들어, Azure Machine Learning 서비스에서 유사도 및 거리 측정 방법은 데이터의 패턴을 찾아내고 예측 모델을 구축하는 데 중요한 역할을 할 수 있습니다. 또한, Azure Search 서비스에서는 유사도 및 거리 측정 방법을 활용하여 사용자의 검색 쿼리와 관련된 결과를 더 정확하게 제공할 수 있습니다. 이 외에도, Microsoft의 다양한 기술 및 서비스 개발에서 유사도 및 거리 측정 방법은 중요한 역할을 하며, 서비스의 효율성과 정확도를 높이는 데 기여할 수 있습니다.

마치며...

어떠신가요? 정말 다양한 분야에서 유사도 및 거리 측정 방법이 활용되고 있죠? 오늘 포스팅을 통해 그 범위가 얼마나 넓은지 알 수 있었어요. 더불어 이러한 측정 방법이 우리 생활에 얼마나 밀접하게 연결되어 있는지도 확인했습니다. 이제 이런 지식을 가지고 있으니, 다양한 분야에서 이루어지는 연구나 기술에 대해 더 깊이 이해할 수 있을 거에요. 다음에 또 흥미로운 주제로 찾아뵙겠습니다, 오늘도 테크씬이었습니다.

저작자표시 비영리 변경금지

'AI' 카테고리의 다른 글

챗GPT LLM, 빙산의 일각과 숨겨진 사실들 : Finetuning, RAG, 프롬프트 엔지니어링, ChatGPT (0)	2023.11.11
DT IT 개념 비교 : IT DT DX 차이점 (feat. 디지털리터러시) (1)	2023.10.31
챗GPT를 엔비디아 GPU로 Fine-Tuning하기 : 왜, 어떻게? (1)	2023.10.27
RAG와 LLM 결합 : 자연어 처리의 새로운 지평(Retrieval-Augmented Generation) (0)	2023.10.27
16주 데이터 사이언티스트 되기 : 커리큘럼 of 데이터 사이언스 (0)	2023.08.24