프로젝트/방법론명:
K평균군집화
유형:
데이터 분석 방법론
개요:
K평균군집화는 데이터를 K개의 군집으로 나누어 각 군집 내의 데이터 포인트들이 평균적으로 가장 가까운 군집 중심과 가까워지도록 하는 비지도 학습 알고리즘입니다.
추진/개발 주체:
스튜어트 로이드(Stuart Lloyd)와 맥퀸(James MacQueen)이 각각 개발에 기여했습니다.
추진 시기:
1957년(로이드)과 1967년(맥퀸)
적용 분야:
데이터 마이닝, 이미지 처리, 패턴 인식, 시장 세분화 등
핵심 내용 및 구성:
K평균군집화는 초기 군집 중심을 설정한 후, 각 데이터 포인트를 가장 가까운 군집 중심에 할당하고, 군집 중심을 재계산하는 과정을 반복합니다. 이 과정은 군집 중심의 변화가 없을 때까지 계속됩니다. 초기 군집 중심의 선택이 결과에 큰 영향을 미치며, 알고리즘의 수렴 속도와 군집의 품질을 개선하기 위해 다양한 초기화 기법과 변형이 존재합니다.
성과 및 영향:
K평균군집화는 계산이 간단하고 빠르며 대규모 데이터 세트에 적합하여 널리 사용됩니다. 그러나 초기값에 민감하고, 군집의 모양이 구형일 때 최적의 결과를 보장하지 못하는 한계가 있습니다.
관련 사례:
고객 세분화를 통한 마케팅 전략 수립, 이미지 압축, 생물학적 데이터 분석 등 다양한 분야에서 활용됩니다.
이칭(alias):
K-means Clustering
참고 정보:
K평균군집화는 스케일에 민감하므로 데이터 전처리 과정에서 정규화가 필요할 수 있습니다. 또한, 군집의 수 K를 사전에 결정해야 하며, 엘보우 방법 등을 통해 적절한 K값을 선택할 수 있습니다.
#KMeansClustering #데이터군집화 #비지도학습 #데이터마이닝 #이미지처리