
프로젝트/방법론명:
계층적 군집화
유형:
데이터 분석 방법론
개요:
계층적 군집화는 데이터 집합을 계층적으로 분할하여 유사한 데이터 포인트를 그룹화하는 방법론입니다.
추진/개발 주체:
데이터 과학자 및 분석가
추진 시기:
20세기 중반부터 현재까지 지속적으로 발전
적용 분야:
생물정보학, 고객 세분화, 이미지 분석 등 다양한 데이터 분석 분야
핵심 내용 및 구성:
계층적 군집화는 데이터의 유사성을 기반으로 계층 구조를 생성하여 데이터를 군집화합니다. 주로 두 가지 접근 방식이 사용됩니다: 병합적(agglomerative) 방법과 분할적(divisive) 방법입니다. 병합적 방법은 각 데이터 포인트를 개별 군집으로 시작하여 유사한 군집을 반복적으로 병합합니다. 반면, 분할적 방법은 모든 데이터를 하나의 군집으로 시작하여 점차적으로 분할합니다. 이러한 과정은 덴드로그램이라는 트리 형태의 시각적 표현을 통해 나타나며, 사용자는 덴드로그램을 참조하여 적절한 군집 수를 결정할 수 있습니다. 계층적 군집화는 사전에 군집 수를 지정할 필요가 없다는 장점이 있지만, 대규모 데이터셋에서는 계산 비용이 높을 수 있습니다.
성과 및 영향:
계층적 군집화는 다양한 분야에서 데이터의 구조적 특성을 이해하고 분석하는 데 기여하여 데이터 기반 의사결정을 지원합니다.
관련 사례:
유전자 발현 데이터 분석에서 유사한 발현 패턴을 가진 유전자를 그룹화하는 데 사용됩니다.
이칭(alias):
Hierarchical Clustering
참고 정보:
계층적 군집화는 Python의 Scikit-learn 라이브러리 등에서 구현되어 널리 사용됩니다.
