이 소식을 먼저 읽으신 분들이 있습니다.
최신 기사를 받으려면 구독하십시오.
이메일
이름
종을 어떻게 읽고 싶습니까?
스팸 없음

기술 자료에서 좋은 작업을 보내는 것은 간단합니다. 아래 양식을 사용하십시오

연구와 작업에 지식 기반을 사용하는 학생, 대학원생, 젊은 과학자들은 여러분에게 매우 감사할 것입니다.

소개

1."클러스터 분석"의 역사

2. 용어

2.1대상 및 기능

2.2 물체 간 거리(미터법)

2.3클러스터의 밀도 및 지역성

2.4 클러스터 간 거리

3. 그룹화 방법

3.1계층적 응집 방법의 특징

3.2반복 클러스터링 방법의 특징

4. 기능 클러스터링

5. 클러스터링의 안정성과 품질

서지

소개

"클러스터 분석은 거리 또는 연결(근접성 측정)에 대한 정보에 따라 "가까운" 개체 그룹을 서로 상대적으로 "원격"으로 형성하도록 설계된 일련의 수학적 방법입니다. 이는 자동이라는 용어와 의미가 유사합니다. 교사 없이 분류, 분류, 패턴 인식." 군집 분석의 이러한 정의는 통계 사전 최신판에 나와 있습니다. 실제로 "클러스터 분석"은 분류를 생성하는 데 사용되는 상당히 큰 알고리즘 집합의 일반화된 이름입니다. 많은 간행물에서도 클러스터 분석에 대해 분류 및 분할과 같은 동의어를 사용합니다. 클러스터 분석은 유형학적 분석의 수단으로 과학에서 널리 사용됩니다. 모든 과학 활동에서 분류는 과학적 가설과 이론을 구축하고 테스트하는 것이 불가능한 기본 구성 요소 중 하나입니다. 따라서 내 작업에서 클러스터 분석(클러스터 분석의 기초) 문제를 고려하고 용어를 고려하고 데이터 처리를 주요 목표로 하는 이 방법을 사용하는 몇 가지 예를 제공하는 것이 필요하다고 생각합니다.

1. "클러스터 분석"의 역사

국내외 출판물을 분석한 결과 클러스터 분석은 화학, 생물학, 의학, 고고학, 역사, 지리, 경제학, 문헌학 등 다양한 과학 분야에서 사용됩니다. VV Nalimov의 책 "Probabilistic Model of Language"는 70개의 분석 샘플 연구에서 클러스터 분석의 사용을 설명합니다. 군집 분석에 관한 대부분의 문헌은 지난 30년 동안 등장했지만 군집 방법을 언급한 첫 번째 작업은 꽤 오래 전에 나타났습니다. 폴란드 인류학자 K. 체카노프스키(K. Chekanowski)는 군집 분석의 주요 아이디어인 컴팩트한 개체 그룹 할당을 포함하는 "구조적 분류"라는 아이디어를 제시했습니다.

1925년 소련의 수생물학자 P.V. Terentyev는 상관 관계가 있는 기능을 그룹화하기 위해 소위 "상관 플레이아데스 방법"을 개발했습니다. 이 방법은 그래프를 이용한 그룹화 방법의 개발에 자극을 주었다. "클러스터 분석"이라는 용어는 Trion이 처음 제안했습니다. "클러스터"라는 단어는 영어에서 "다발, 브러시, 다발, 그룹"으로 번역됩니다. 이러한 이유로 이러한 유형의 분석을 원래 "클러스터 분석"이라고 했습니다. 1950년대 초에 R. Lewis, E. Fix 및 J. Hodges가 계층적 군집 분석 알고리즘에 대한 간행물을 발표했습니다. R. Rosenblatt의 인식 장치(퍼셉트론)에 대한 작업은 군집 분석 작업 개발에 눈에 띄는 자극을 주었으며, 이는 "교사 없는 패턴 인식" 이론 개발의 토대를 마련했습니다.

클러스터링 방법 개발의 원동력은 1963년에 출판된 "Principles of Numerical Taxonomy"라는 책이었습니다. 두 명의 생물학자 - Robert Sokal과 Peter Sneath. 이 책의 저자는 효과적인 생물학적 분류를 만들기 위해 클러스터링 절차가 연구 중인 유기체를 특징짓는 다양한 지표의 사용을 보장하고, 이들 유기체 간의 유사성 정도를 평가하며, 유사한 유기체의 배치를 보장해야 한다는 사실에서 출발했습니다. 같은 그룹에서. 이 경우 형성된 그룹은 충분히 "로컬"이어야 합니다. 그룹 내 개체(유기체)의 유사성은 그룹 간의 유사성을 초과해야 합니다. 저자의 의견으로는 확인된 그룹에 대한 후속 분석을 통해 이러한 그룹이 다른 생물학적 종에 해당하는지 여부를 명확히 할 수 있습니다. 따라서 Sokal과 Sneath는 개체의 그룹 분포 구조를 밝히는 것이 이러한 구조의 형성 과정을 확립하는 데 도움이 된다고 가정했습니다. 그리고 서로 다른 클러스터(그룹)의 유기체의 차이점과 유사성은 진행 중인 진화 과정을 이해하고 그 메커니즘을 밝히는 기초가 될 수 있습니다.

같은 해 J. McKean, G. Ball 및 D. Hall과 같은 저자는 k-평균 방법을 사용하여 많은 알고리즘을 제안했습니다. G. Lance 및 W. Williams, N. Jardine 및 기타 - 계층적 방법. Braverman, A.A. Dorofeyuk, I.B. Muchnik, L. A. Rastrigin, Yu.I. 특히 60-70 년대 국내 과학자들이 군집 분석 방법 개발에 크게 기여했습니다. Novosibirsk 수학자 N. G. Zagoruiko, V. N. Elkina 및 G. S. Lbov가 개발한 수많은 알고리즘이 큰 인기를 얻었습니다. 이들은 FOREL, BIGFOR, KRAB, NTTP, DRET, TRF 등과 같은 잘 알려진 알고리즘입니다. 이러한 패키지를 기반으로 특수 OTEX 소프트웨어 패키지가 생성되었습니다. 덜 흥미로운 소프트웨어 제품 PPSA와 Klass-Master는 모스크바 수학자 S.A. Aivazyan, I.S. Enyukov 및 B.G. Mirkin이 만들었습니다.

클러스터 분석 방법은 SIGAMD, DataScope, STADIA, SOMI, PNP-BIM, COPRA-2, SITO, SAS, SPSS, STATISTICA, BMDP, STATGRAPHICS 등 가장 잘 알려진 국내외 통계 패키지 대부분에서 어느 정도 사용할 수 있습니다. , GENSTAT, S-PLUS 등 물론 이 리뷰가 나온 지 10년이 지난 지금은 꽤 많은 것이 바뀌었고, 많은 통계 프로그램의 새 버전이 등장했으며, 새로운 알고리즘과 크게 향상된 성능을 모두 사용하는 완전히 새로운 프로그램이 등장했습니다. 컴퓨터 과학. 그러나 대부분의 통계 패키지는 60-70년대에 제안되고 개발된 알고리즘을 사용합니다.

전문가들의 대략적인 추정에 따르면 군집 분석에 관한 출판물 수와 다양한 지식 분야에서의 응용 프로그램은 3년마다 두 배로 증가합니다. 이러한 유형의 분석에 대한 엄청난 관심의 이유는 무엇입니까? 객관적으로 이 현상에는 세 가지 주요 이유가 있습니다. 이것은 강력한 컴퓨팅 기술의 출현으로 실제 데이터의 클러스터 분석이 현실적으로 불가능합니다. 두 번째 이유는 현대 과학이 점차 분류에 기반을 두고 있다는 점입니다. 더욱이이 과정은 점점 더 심화되고 있습니다. 이와 병행하여 충분히 객관적인 분류 없이는 불가능한 지식의 전문화가 증가하고 있기 때문입니다.

세 번째 이유-특정 지식의 심화는 필연적으로 특정 대상 및 현상 분석에서 고려되는 변수의 수를 증가시킵니다. 결과적으로 이전에는 고려된 상당히 적은 수의 기능에 의존했던 주관적 분류가 종종 신뢰할 수 없는 것으로 판명되었습니다. 그리고 개체 특성 집합이 계속 증가하는 객관적인 분류에는 최신 컴퓨터를 기반으로만 구현할 수 있는 복잡한 클러스터링 알고리즘을 사용해야 합니다. "클러스터 붐"을 일으킨 것은 바로 이러한 이유였습니다. 그러나 의사와 생물학자들 사이에서 군집 분석은 아직 대중적이고 일반적인 연구 방법이 되지 못했습니다.

2 용어

2. 1 물체와 기호

객체와 속성과 같은 개념을 먼저 소개하겠습니다. 개체 - 라틴어 objectum에서 - 주제. 화학 및 생물학과 관련하여 대상이란 물리적, 화학적 및 기타 방법을 사용하여 연구되는 특정 연구 주제를 의미합니다. 이러한 개체는 예를 들어 샘플, 식물, 동물 등이 될 수 있습니다. 연구를 위해 연구원이 사용할 수 있는 특정 개체 집합을 샘플 또는 샘플 집합이라고 합니다. 이러한 모집단의 개체 수를 일반적으로 표본 크기라고 합니다. 일반적으로 샘플 크기는 라틴 문자 "n" 또는 "N"으로 표시됩니다.

기호 (동의어 - 속성, 변수, 특성; 영어 - 변수 - 변수.) - 개체의 특정 속성입니다. 이러한 속성은 숫자 또는 숫자가 아닌 값으로 표현할 수 있습니다. 예를 들어, 혈압(수축기 또는 이완기)은 수은주 밀리미터, 체중(킬로그램), 신장(센티미터) 등으로 측정됩니다. 이러한 징후는 정량적입니다. 이러한 연속적인 수치 특성(스케일)과 달리 많은 피처가 불연속적이고 불연속적인 값을 가질 수 있습니다. 차례로 이러한 개별 기능은 일반적으로 두 그룹으로 나뉩니다.

1) 첫 번째 그룹은 순위 변수 또는 서수 변수(척도)라고도 합니다. 이러한 기호는 이러한 값을 정렬하는 속성이 특징입니다. 여기에는 특정 질병의 단계, 연령대, 학생 지식 점수, 12점 리히터 지진 규모 등이 포함됩니다.

2) 두 번째 개별 기능 그룹에는 이러한 순서가 없으며 공칭("명목"-샘플이라는 단어에서 유래) 또는 분류 기능이라고 합니다. 이러한 징후의 예는 환자의 상태 - "건강" 또는 "아프다", 환자의 성별, 관찰 기간 - "치료 전" 및 "치료 후" 등일 수 있습니다. 이 경우 그러한 기능은 이름의 척도에 속한다고 말하는 것이 일반적입니다.

개체 및 기능의 개념은 일반적으로 "개체 속성" 또는 "개체 기능" 매트릭스라고 합니다. 매트릭스는 연구 중인 관찰 샘플의 속성을 설명하는 기능 값으로 구성된 직사각형 테이블입니다. 이 맥락에서 하나의 관찰은 사용된 기능의 값으로 구성된 별도의 줄로 기록됩니다. 이러한 데이터 매트릭스의 개별 속성은 샘플의 모든 개체에 대한 이 속성 값으로 구성된 열로 표시됩니다.

2. 2 물체 간 거리(미터법)

"물체 사이의 거리"라는 개념을 소개하겠습니다. 이 개념은 객체 간의 유사성을 통합적으로 측정한 것입니다. 특징 공간에서 객체 사이의 거리는 다음 공리를 충족하는 값 d ij입니다.

1. d ij > 0(거리의 음수가 아님)

2. d ij = d ji (대칭)

3. d ij + d jk > d ik (삼각 부등식)

4. d ij가 0이 아닌 경우 i는 j와 같지 않습니다(동일하지 않은 개체의 식별 가능성).

5. if d ij = 0이면 i = j(동일한 객체의 구별 불가능)

물체의 근접성(유사성)을 다음과 같이 나타내는 것이 편리합니다. 역수물체 사이의 거리에. 군집 분석에 관한 수많은 간행물에서 객체 간 거리를 계산하는 50가지 이상의 다양한 방법을 설명합니다. "거리"라는 용어 외에도 특정 거리를 계산하는 방법을 의미하는 "미터법"이라는 또 다른 용어가 문헌에서 종종 발견됩니다. 양적 특성의 경우 지각과 이해에 가장 접근하기 쉬운 것은 소위 "유클리드 거리" 또는 "유클리드 메트릭"입니다. 이 거리를 계산하는 공식은 다음과 같습니다.

이 수식은 다음 표기법을 사용합니다.

· d ij - i번째 객체와 j번째 객체 사이의 거리;

· x ik - i번째 객체에 대한 k번째 변수의 수치;

· x jk - j번째 객체에 대한 k번째 변수의 숫자 값;

· v - 개체를 설명하는 변수의 수.

따라서 v=2인 경우 양적 부호가 두 개뿐인 경우 거리 d ij는 직각 좌표계에서 두 점을 연결하는 직각 삼각형의 빗변의 길이와 같습니다. 이 두 지점은 샘플의 i번째 및 j번째 관측치에 해당합니다. 종종 일반적인 유클리드 거리 대신 제곱 d 2 ij가 사용됩니다. 또한 경우에 따라 "가중" 유클리드 거리가 사용되며 계산 시 개별 항에 가중치 계수가 사용됩니다. 유클리드 메트릭의 개념을 설명하기 위해 간단한 교육 예제를 사용합니다. 아래 표에 표시된 데이터 매트릭스는 5개의 관측치와 2개의 변수로 구성됩니다.

1 번 테이블

5개의 관찰된 샘플과 2개의 변수로 구성된 데이터 매트릭스.

유클리드 메트릭을 사용하여 i 번째 개체와 j 번째 개체 사이의 거리인 d ij 값으로 ​​구성된 개체 간 거리의 행렬을 계산합니다. 우리의 경우 i와 j는 관찰 대상의 번호입니다. 샘플 크기가 5이므로 i와 j는 각각 1에서 5까지의 값을 가질 수 있습니다. 가능한 모든 pairwise 거리의 수는 5*5=25가 될 것임도 분명합니다. 실제로 첫 번째 객체의 경우 다음과 같은 거리가 됩니다. 1-1; 1-2; 1-3; 1-4; 1-5. 객체 2의 경우 5개의 가능한 거리도 있습니다: 2-1; 2-2; 2-3; 2-4; 2-5 등 그러나 번호 다른 거리 i = j에 대해 d ij = 0인 동일한 객체의 구별 불가능성 속성을 고려해야 하기 때문에 25보다 작습니다. 이는 객체 #1과 동일한 객체 #1 사이의 거리가 0이 됨을 의미합니다. 다른 모든 경우 i = j에 대해 동일한 제로 거리가 됩니다. 또한, 대칭성으로부터 임의의 i 및 j에 대해 d ij = d ji 임을 따릅니다. 저것들. 물체 #1과 #2 사이의 거리는 물체 #2와 #1 사이의 거리와 같습니다.

유클리드 거리에 대한 표현은 2승 대신 다른 값이 사용되는 소위 일반화된 Minkowski 전력 거리와 매우 유사합니다. 일반적으로 이 값은 기호 "p"로 표시됩니다.

p = 2의 경우 일반적인 유클리드 거리를 얻습니다. 따라서 일반화된 Minkowski 메트릭의 식은 다음과 같은 형식을 갖습니다.

지수 "p"의 특정 값의 선택은 연구자 자신이 합니다.

Minkowski 거리의 특수한 경우는 p=1에 해당하는 소위 맨해튼 거리 또는 "도시 블록 거리"입니다.

따라서 맨해튼 거리는 객체의 해당 기능의 차이 모듈의 합입니다. p를 무한대로 설정하면 "우세" 메트릭 또는 Sup-metric을 얻습니다.

이것은 또한 d ij = max| x ik - x jk |.

Minkowski 메트릭은 실제로 가장 많이 사용되는 메트릭을 포함하는 대규모 메트릭 제품군입니다. 그러나 Minkowski 메트릭과 근본적으로 다른 개체 간의 거리를 계산하는 방법이 있습니다. 이들 중 가장 중요한 것은 소위 마할라노비스 거리(Mahalanobis distance)로, 다소 특정한 속성을 가지고 있습니다. 이 메트릭에 대한 표현식:

여기를 통해 엑스 그리고 엑스 제이 i 번째 및 j 번째 개체에 대한 변수 값의 열 벡터가 표시됩니다. 상징 표현에서 (엑스 - 엑스 제이 ) 소위 벡터 전치 연산을 나타냅니다. 상징 에스 일반적인 그룹 내 분산-공분산 행렬이 표시됩니다. 상징 -1 ~ 위에 에스 행렬을 반전시켜야 함을 의미합니다. 에스 . Minkowski 메트릭 및 Euclidean 메트릭과 달리 분산-공분산 행렬을 통한 Mahalanobis 거리 에스 변수의 상관 관계와 관련이 있습니다. 변수 간의 상관관계가 0이면 Mahalanobis 거리는 유클리드 거리의 제곱과 같습니다.

이분법적(값이 두 개뿐인) 정성적 특성을 사용하는 경우 해밍 거리가 널리 사용됨

고려되는 i 번째 및 j 번째 개체에 대한 해당 기능 값의 불일치 수와 같습니다.

2. 3 클러스터의 밀도 및 지역성

클러스터 분석의 주요 목표는 샘플에서 서로 유사한 개체 그룹을 찾는 것입니다. 가능한 방법 중 일부를 통해 이러한 그룹인 클러스터를 얻었다고 가정해 봅시다. 클러스터의 중요한 특성에 주목해야 합니다. 이러한 속성 중 하나는 포인트의 분포 밀도, 클러스터 내의 관찰입니다. 이 속성을 사용하면 점을 전혀 포함하지 않거나 적은 수의 관찰을 포함하는 이 공간의 다른 영역과 비교하여 상대적으로 밀도가 높은 다차원 공간의 점 클러스터로 클러스터를 정의할 수 있습니다. 즉, 이 클러스터가 얼마나 컴팩트한지 또는 그 반대의 경우 얼마나 희소한지입니다. 이 속성에 대한 충분한 증거에도 불구하고 그러한 지표(밀도)를 계산하는 명확한 방법은 없습니다. 주어진 군집에서 다차원 관찰의 "압축" 밀도인 조밀함을 특징짓는 가장 성공적인 지표는 군집 중심에서 군집의 개별 지점까지의 거리 분산입니다. 이 거리의 분산이 작을수록 관측치가 군집의 중심에 가까울수록 군집의 밀도가 커집니다. 반대로, 거리의 분산이 클수록 이 군집은 더 희박해지며 결과적으로 군집의 중심 근처에 있고 군집의 중심에서 꽤 멀리 떨어진 지점이 있습니다.

클러스터의 다음 속성은 크기입니다. 클러스터 크기의 주요 지표는 "반지름"입니다. 이 속성은 고려된 클러스터가 다차원 공간에서 원형 및 초구형인 경우 실제 클러스터 크기를 가장 완벽하게 반영합니다. 그러나 클러스터의 모양이 길쭉한 경우 반지름 또는 지름의 개념이 더 이상 클러스터의 실제 크기를 반영하지 않습니다.

클러스터의 또 다른 중요한 속성은 지역성, 분리 가능성입니다. 그것은 다차원 공간에서 서로 클러스터의 중첩 정도와 상호 원격성을 특징으로 합니다. 예를 들어, 아래 그림에서 새로운 통합 기능 공간에서 세 개의 클러스터 분포를 고려하십시오. 축 1과 축 2는 전자현미경을 사용하여 연구한 서로 다른 형태의 적혈구의 반사 특성의 12가지 특징에서 특수한 방법으로 얻었습니다.

그림 1

클러스터 1의 크기가 최소이고 클러스터 2와 3의 크기가 거의 같습니다. 동시에 우리는 최소 밀도, 따라서 최대 거리 분산이 클러스터 3의 특징이라고 말할 수 있습니다. 또한 클러스터 1은 클러스터 2와 클러스터 3 모두에서 충분히 큰 빈 공간 섹션으로 분리됩니다. 반면 클러스터는 2와 3은 서로 부분적으로 겹칩니다. 흥미로운 점은 군집 1이 축 2보다 축 1을 따라 두 번째 및 세 번째 군집과 훨씬 더 큰 차이가 있다는 사실입니다. 반대로 군집 2와 3은 축 1과 축 2를 따라 서로 거의 동일하게 다릅니다. 이러한 시각적 분석을 위해서는 클러스터 요소의 투영이 별도의 클러스터로 표시되는 특수 축에 투영된 샘플의 모든 관찰이 필요합니다.

2. 4 클러스터 간 거리

넓은 의미에서 개체는 별도의 선으로 "개체-속성" 매트릭스에 표시되는 원래 연구 주제 또는 다차원 기능 공간의 개별 점으로 이해될 수 있을 뿐만 아니라 이러한 점의 별도 그룹으로 이해될 수 있습니다. , 하나의 알고리즘 또는 다른 알고리즘에 의해 클러스터로 통합됩니다. 이 경우 이러한 점(클러스터)의 축적 사이의 거리를 이해하는 방법과 이를 계산하는 방법에 대한 질문이 발생합니다. 이 경우 다차원 공간에서 두 관찰 사이의 거리를 계산하는 경우보다 가능성의 다양성이 훨씬 큽니다. 이 절차는 포인트와 달리 클러스터가 일정량의 다차원 공간을 차지하고 많은 포인트로 구성된다는 사실로 인해 복잡합니다. 클러스터 분석에서는 최근접 이웃(가장 가까운 이웃), 무게 중심, 가장 먼 이웃, 중앙값의 원칙에 따라 계산되는 클러스터 간 거리가 널리 사용됩니다. 단일 링크, 전체 링크, 평균 링크 및 Ward의 방법의 네 가지 방법이 가장 널리 사용됩니다. 단일 링크 방법에서 클러스터의 요소 중 적어도 하나가 결합되는 개체와 동일한 수준의 유사성을 갖는 경우 개체가 이미 존재하는 클러스터에 연결됩니다. 완전한 링크 방법의 경우 포함 후보와 클러스터의 모든 요소 간의 유사성이 특정 임계값 이상인 경우에만 개체가 클러스터에 연결됩니다. 평균 연결 방법의 경우 단일 연결과 전체 연결 사이에 약간의 타협이 있는 몇 가지 수정 사항이 있습니다. 그들은 기존 클러스터의 모든 개체에 포함할 후보의 유사성의 평균 값을 계산합니다. 찾은 평균 유사도 값이 특정 임계값에 도달하거나 초과하면 첨부가 수행됩니다. 가장 일반적으로 사용되는 것은 클러스터의 개체와 클러스터에 포함할 후보 간의 산술 평균 유사도입니다.

많은 클러스터링 방법은 각 단계의 알고리즘이 다양한 분할 품질 기능을 계산한다는 점에서 서로 다릅니다. 널리 사용되는 Ward 방법은 클러스터 내 거리의 최소 분산을 최적화하는 방식으로 구성됩니다. 첫 번째 단계에서 각 클러스터는 거리의 클러스터 내 분산이 0과 같기 때문에 하나의 객체로 구성됩니다. 초구형 클러스터를 생성합니다.

클러스터 분석 방법을 분류하려는 여러 시도는 수십 또는 수백 개의 서로 다른 클래스로 이어집니다. 이러한 다양성은 개별 관찰 사이의 거리를 계산하는 많은 가능한 방법, 군집화 과정에서 개별 군집 사이의 거리를 계산하는 방법의 수, 최종 군집 구조의 최적성에 대한 다양한 추정치에 의해 생성됩니다.

널리 사용되는 통계 패키지에서 가장 널리 사용되는 것은 계층적 집계 방법과 반복 그룹화 방법의 두 가지 군집 분석 알고리즘 그룹입니다.

3. 그룹화 방법

3. 1 계층적 응집 방법의 특징

실제 생물 의학 연구에서 더 자주 사용되는 계층적 응집 알고리즘에서 처음에는 모든 개체(관찰)가 하나의 요소로만 구성된 별도의 독립적인 클러스터로 간주됩니다. 강력한 컴퓨터 기술을 사용하지 않고 클러스터 데이터 분석을 구현하는 것은 매우 문제가 많습니다.

측정 기준의 선택은 연구원이 합니다. 거리 매트릭스를 계산한 후 프로세스가 시작됩니다. 덩어리 (라틴어 agglomero에서-나는 부착하고 축적합니다), 단계별로 순차적으로 전달됩니다. 이 프로세스의 첫 번째 단계에서 거리가 가장 작은 두 개의 초기 관측치(모노클러스터)가 이미 두 개의 개체(관측치)로 구성된 하나의 클러스터로 결합됩니다. 따라서 이전 N개의 단일 클러스터(하나의 개체로 구성된 클러스터) 대신 첫 번째 단계 후에 N-1 클러스터가 있게 되며, 그 중 하나의 클러스터에는 두 개의 개체(관찰)가 포함되고 N-2 클러스터는 여전히 다음으로 구성됩니다. 단 하나의 객체. 두 번째 단계에서는 N-2 클러스터를 결합하는 다양한 방법이 가능합니다. 이러한 클러스터 중 하나에 이미 두 개의 개체가 포함되어 있기 때문입니다. 이러한 이유로 두 가지 주요 질문이 발생합니다.

· 2개(및 2개 이상) 개체의 이러한 클러스터 좌표를 계산하는 방법;

· "단클러스터"와 "다중 개체" 클러스터 사이에서 이러한 "다중 개체" 클러스터까지의 거리를 계산하는 방법.

궁극적으로 이러한 질문은 최종 군집의 최종 구조를 결정합니다(군집의 구조는 개별 군집의 구성과 다차원 공간에서의 상대적 위치를 의미합니다). 군집의 좌표와 상호 거리를 계산하기 위한 메트릭과 방법의 다양한 조합은 다양한 군집 분석 방법을 생성합니다. 두 번째 단계에서 여러 개체로 구성된 클러스터의 좌표를 계산하기 위해 선택한 방법과 클러스터 간 거리를 계산하는 방법에 따라 두 개의 개별 관측치를 새 클러스터로 재결합하거나 하나의 새 클러스터를 결합할 수 있습니다. 두 개체로 구성된 클러스터에 대한 관찰. 편의상 작업이 끝날 때 대부분의 응집 계층 적 방법 프로그램은 볼 수있는 두 가지 기본 그래프를 제공 할 수 있습니다. 첫 번째 그래프는 덴드로그램(그리스어 덴드론 - 트리에서 유래)이라고 하며, 개별 관측값을 단일 최종 군집으로 병합하는 응집 과정을 반영합니다. 2개의 변수에서 5개의 관측치에 대한 덴드로그램의 예를 들어 보겠습니다.

일정1

이러한 그래프의 세로축은 군집간 거리의 축이며, 가로축에는 분석에 사용된 사례인 개체의 개수가 표시되어 있다. 이 덴드로그램에서 객체 1번과 2번이 먼저 하나의 클러스터로 결합된다는 것을 알 수 있습니다. 객체 사이의 거리가 가장 작고 1이기 때문입니다. 이 병합은 수직 세그먼트를 연결하는 수평선으로 그래프에 표시됩니다. C_1 및 C_2로 표시된 지점에서 나옵니다. 수평선 자체가 정확히 1과 같은 클러스터 간 거리 수준을 통과한다는 사실에 주목합시다. 또한 두 번째 단계에서 C_3으로 지정된 개체 번호 3이 이미 두 개의 개체를 포함하는 이 클러스터에 합류합니다. 다음 단계는 개체 #4와 #5를 병합하는 것입니다. 이 사이의 거리는 1.41입니다. 그리고 마지막 단계에서 객체 1, 2, 3의 클러스터는 객체 4와 5의 클러스터와 결합됩니다. 그래프는 이 두 끝에서 두 번째 클러스터(마지막 클러스터에는 5개의 객체가 모두 포함됨) 사이의 거리가 5보다 크다는 것을 보여줍니다. , 그러나 6보다 작습니다. 두 개의 두 번째 클러스터를 연결하는 위쪽 수평선이 대략 7과 같은 수준을 통과하고 객체 4와 5의 연결 수준이 1.41이기 때문입니다.

아래 덴드로그램은 처리된 70개로 구성된 실제 데이터 세트를 분석하여 얻은 것입니다. 화학 샘플, 각각은 12개의 기능으로 특징지어졌습니다.

차트 2

마지막 단계에서 마지막 두 군집이 병합될 때 이들 사이의 거리는 약 200 단위임을 그래프에서 볼 수 있습니다. 첫 번째 군집이 두 번째 군집보다 훨씬 적은 개체를 포함하고 있음을 알 수 있습니다. 아래는 C_65, C_58 등으로 표시된 관찰 번호가 명확하게 보이는 덴드로그램의 확대된 부분입니다. (왼쪽에서 오른쪽으로): 65, 58, 59, 64, 63, 57, 60, 62, 56, 44, 94 등

차트 3 위 차트 #2의 확대 부분

개체 44는 두 번째 단계에서 오른쪽 클러스터와 결합한 다음 마지막 단계에서 모든 관측값이 하나의 클러스터로 결합되는 단일 클러스터임을 알 수 있습니다.

이러한 절차에 내장된 또 다른 그래프는 합집합의 각 단계에서 클러스터 간 거리의 그래프입니다. 아래는 위의 dendrogram에 대한 유사한 플롯입니다.

차트 4

여러 프로그램에서 클러스터링의 각 단계에서 개체를 결합한 결과를 표 형식으로 표시할 수 있습니다. 대부분의 이러한 표에서는 혼동을 피하기 위해 초기 관측값을 지정하는 데 다른 용어(단클러스터 및 두 개 이상의 관측값으로 구성된 실제 클러스터)가 사용됩니다. 영어 통계 패키지에서 초기 관찰(데이터 매트릭스의 행)은 "케이스" - 케이스로 지정됩니다. 메트릭 선택과 클러스터 통합 알고리즘 선택에 대한 클러스터 구조의 의존성을 입증하기 위해 전체 연결 알고리즘에 해당하는 덴드로그램을 아래에 제시합니다. 그리고 여기서 객체 #44가 마지막 단계에서 나머지 선택 항목과 병합되는 것을 볼 수 있습니다.

차트 5

이제 동일한 데이터에 대해 단일 연결 방법을 사용하여 얻은 다른 다이어그램과 비교해 보겠습니다. 전체 연결 방식과 달리 이 방식은 객체가 서로 순차적으로 연결된 긴 체인을 생성하는 것을 볼 수 있습니다. 그러나 세 가지 경우 모두 두 가지 주요 그룹이 두드러진다고 말할 수 있습니다.

차트 6

또한 클러스터링 프로세스의 다른 단계에 있지만 세 가지 경우 모두 개체 번호 44가 단일 클러스터로 결합된다는 사실에 주목합시다. 이러한 단일군단을 선택하는 것은 이상치라고 하는 이상 관찰을 탐지하는 좋은 수단입니다. 이 "의심스러운" 개체 44번을 삭제하고 다시 클러스터링을 수행해 봅시다. 다음과 같은 덴드로그램을 얻습니다.

차트 7

두 개의 로컬 관찰 그룹으로 분할되는 것처럼 "체인" 효과가 보존됨을 볼 수 있습니다.

3. 2 반복 클러스터링 방법의 특징

반복적 방법 중 가장 많이 사용되는 방법은 McKean의 k-평균 방법입니다. 계층적 방법과 달리 이 방법의 대부분의 구현에서 사용자는 일반적으로 "k"로 표시되는 원하는 최종 클러스터 수를 지정해야 합니다. 계층적 클러스터링 방법에서와 같이 사용자는 하나 또는 다른 메트릭 유형을 선택할 수 있습니다. k-평균 방법의 다른 알고리즘은 주어진 클러스터의 초기 중심을 선택하는 방식도 다릅니다. 이 방법의 일부 버전에서는 사용자 자신이 실제 관찰에서 선택하거나 각 변수에 대해 이러한 점의 좌표를 지정하여 이러한 초기 점을 지정할 수 있습니다(또는 지정해야 합니다). 이 방법의 다른 구현에서 초기 포인트의 주어진 수 k의 선택은 무작위로 이루어지며 이러한 초기 포인트(클러스터 그레인)는 이후 여러 단계에서 정제될 수 있습니다. 이러한 방법에는 4가지 주요 단계가 있습니다.

· 군집의 주요 중심이 될 k 관측치를 선택하거나 할당합니다.

· 필요한 경우 각 관측치를 가장 가까운 지정된 군집 중심에 할당하여 중간 군집을 형성합니다.

· 모든 관찰을 개별 군집에 할당한 후 기본 군집 중심이 군집 평균으로 대체됩니다.

· 군집 중심 좌표의 변화가 최소가 될 때까지 이전 반복을 반복한다.

이 방법의 일부 버전에서 사용자는 새로운 군집 중심을 선택하기 위한 최소 거리로 해석되는 기준의 수치를 설정할 수 있습니다. 관찰은 후보로 간주되지 않습니다. 새로운 센터클러스터의 교체된 중심까지의 거리가 지정된 숫자를 초과하는 경우 클러스터. 일부 프로그램에서는 이 매개변수를 "반지름"이라고 합니다. 이 매개변수 외에도 최대 반복 횟수를 설정하거나 모든 군집 중심에 대한 거리 변화를 비교하는 특정, 일반적으로 아주 작은 숫자에 도달하는 것도 가능합니다. 이 설정은 일반적으로 "컨버전스"라고 합니다. 반복 클러스터링 프로세스의 수렴을 반영합니다. 아래에서는 이전 데이터에 McKean k-평균 방법을 사용하여 얻은 결과 중 일부를 제시합니다. 원하는 군집의 수는 처음에 3으로 설정한 다음 2로 설정했습니다. 첫 번째 부분에는 단일 요소의 결과가 포함됩니다. 분산 분석, 여기서 클러스터 번호는 그룹화 요인으로 작용합니다. 첫 번째 열은 12개의 변수 목록이고, 그 다음에는 제곱합(SS)과 자유도(df), Fisher의 F-테스트, 마지막 열에서는 달성된 유의 수준 "p"가 있습니다.

표 2 McKean k-평균 데이터는 70개의 테스트 샘플에 적용됩니다.

변수

이 표에서 알 수 있듯이 세 그룹의 평균이 같다는 귀무가설은 기각됩니다. 아래는 개별 군집에 대한 모든 변수의 평균 그래프입니다. 변수의 동일한 군집 평균은 표 형식으로 아래에 표시됩니다.

표 3. 3개 클러스터의 예에 대한 데이터의 자세한 검토.

변하기 쉬운

클러스터 #1

클러스터 #2

클러스터 #3

차트 8

각 군집에 대한 변수의 평균값을 분석하면 X1 기능에 따라 군집 1과 3의 값이 근접한 반면 군집 2의 평균값이 다른 두 군집보다 훨씬 낮다는 결론을 내릴 수 있습니다. 반대로 X2 특성에 따르면 첫 번째 군집의 값이 가장 낮고 두 번째 및 세 번째 군집의 평균 값이 더 높고 가깝습니다. 특성 X3-X12의 경우 클러스터 1의 평균값이 클러스터 2 및 3보다 훨씬 높습니다. 두 클러스터로 클러스터링한 결과에 대한 다음 ANOVA 분석 표는 평등에 대한 귀무 가설을 기각해야 할 필요성을 보여줍니다. of group은 달성된 유의 수준이 5% 이상으로 판명된 변수 X4를 제외하고 거의 모든 12개 기능에 대한 평균입니다.

표 4. 두 군집으로 군집화한 결과의 분산 분석 표.

변수

아래는 두 군집으로 군집화한 경우에 대한 군집 평균의 그래프와 표이다.

표 5. 두 군집으로 군집화한 경우의 표.

변수

클러스터 #1

클러스터 #2

차트 9.

연구자가 가장 가능성 있는 군집 수를 미리 결정할 수 없는 경우 위에서 수행한 것과 유사하게 다른 수를 설정하여 계산을 반복해야 합니다. 그런 다음 얻은 결과를 서로 비교하여 가장 수용 가능한 클러스터링 옵션 중 하나에서 중지하십시오.

4 . 기능 클러스터링

개별 관찰을 클러스터링하는 것 외에도 기능 클러스터링 알고리즘도 있습니다. 그러한 첫 번째 방법 중 하나는 pleiades Terentiev P.V.를 상관시키는 방법입니다. 그러한 플레이아데스의 원시 이미지는 저자가 상관 관계를 발견한 기호를 연결하는 화살표가 점선으로 표시된 원의 형태로 생물 의학 출판물에서 종종 찾을 수 있습니다. 개체 및 기능을 클러스터링하는 많은 프로그램에는 별도의 절차가 있습니다. 예를 들어 기능 클러스터링을 위한 SAS 패키지에서는 VARCLUS 프로시저(VARiable - 변수 및 CLUSter - 클러스터)가 사용되는 반면 관찰의 클러스터 분석은 다른 프로시저(FASTCLUS 및 CLUSTER)에서 수행됩니다. 두 경우 모두 덴드로그램 구성은 TREE(트리) 절차를 사용하여 수행됩니다.

다른 통계 패키지에서는 클러스터링을 위한 요소(개체 또는 기능)를 동일한 모듈에서 선택합니다. 피처 클러스터링의 메트릭으로 피처 쌍에 대한 관계의 강도를 반영하는 특정 계수의 값을 포함하는 표현식이 자주 사용됩니다. 이 경우 연결 강도가 1(기능 종속성)인 기호가 기호 사이의 거리를 0으로 설정하는 것이 매우 편리합니다. 실제로 기능적 연결을 통해 한 기능의 값이 다른 기능의 값을 정확하게 계산할 수 있습니다. 표지판 간의 관계 강도가 감소하면 그에 따라 거리가 증가합니다. 아래는 70개의 분석 샘플을 클러스터링할 때 위에서 사용된 12가지 기능 조합의 덴드로그램을 보여주는 그래프입니다.

그래프 10. 덴드로그램클러스터링 12 기능.

이 덴드로그램에서 볼 수 있듯이 우리는 X1-X10 및 X11-X12의 두 가지 로컬 기능 그룹을 다루고 있습니다. 기능 그룹 X1-X10은 약 100 단위를 초과하지 않는 상당히 작은 클러스터 간 거리 값을 특징으로 합니다. 여기에는 X1 및 X2, X3 및 X4, X6 및 X7과 같은 일부 내부 쌍 하위 그룹도 표시됩니다. 0에 매우 가까운 이러한 쌍의 특징 사이의 거리는 강한 쌍 관계를 나타냅니다. 반면 쌍 X11 및 X12의 경우 클러스터 간 거리 값은 훨씬 더 크고 약 300 단위입니다. 마지막으로 왼쪽(X1-X10)과 오른쪽(X11-X12) 클러스터 사이의 거리가 약 1150 단위로 매우 멀다는 것은 이 두 그룹의 기능 사이의 관계가 매우 작다는 것을 나타냅니다.

5. 클러스터링의 안정성과 품질

클러스터 분석 방법의 도움으로 얻은 이 분류 또는 저 분류가 얼마나 절대적인지에 대한 질문을 제기하는 것은 분명히 터무니 없습니다. 클러스터링 방법이 변경되면 두 개의 클러스터가 덴드로그램에서 매우 명확하게 표시된다는 사실에서 안정성이 나타납니다.

클러스터 분석 결과의 안정성을 확인할 수 있는 방법 중 하나로 다양한 클러스터링 알고리즘에 대해 얻은 결과를 비교하는 방법을 사용할 수 있습니다. 다른 방법은 1977년에 B. Efron이 제안한 소위 부트스트랩 방법, "잭나이프" 및 "슬라이딩 제어" 방법입니다. 클러스터 솔루션의 안정성을 확인하는 가장 간단한 방법은 초기 샘플을 대략 동일한 두 부분으로 임의로 나누고 두 부분을 클러스터링한 다음 결과를 비교하는 것입니다. 더 많은 시간이 소요되는 방법은 처음에 첫 번째 객체를 순차적으로 제외하고 나머지(N - 1) 객체를 클러스터링하는 것입니다. 또한, 이 절차를 두 번째, 세 번째 등을 제외하고 순차적으로 수행합니다. 개체에서 얻은 모든 N개의 클러스터 구조가 분석됩니다. 안정성을 확인하기 위한 또 다른 알고리즘은 다중 복제, N 개체의 원래 샘플 복제, 그런 다음 모든 복제된 샘플을 하나의 큰 샘플(의사 일반 모집단)로 결합하고 여기에서 N 개체의 새 샘플을 무작위로 추출하는 작업을 포함합니다. 그런 다음 이 샘플을 클러스터링한 다음 새로운 무작위 샘플을 취하고 클러스터링을 다시 수행합니다. 또한 상당히 노동 집약적입니다.

클러스터링 품질을 평가할 때 문제가 적지 않습니다. 클러스터 솔루션을 최적화하기 위한 꽤 많은 알고리즘이 알려져 있습니다. 클러스터 내 분산을 최소화하기 위한 기준 공식과 최적 솔루션을 찾기 위한 알고리즘(k-평균 유형)을 포함하는 첫 번째 작업은 50년대에 나타났습니다. 1963년 J. Ward의 기사에서도 유사한 최적화 계층 알고리즘을 제시했습니다. 클러스터 솔루션을 최적화하기 위한 보편적인 기준은 없습니다. 이 모든 것이 연구원이 최적의 솔루션을 선택하기 어렵게 만듭니다. 그런 상황에서 최선의 방법으로발견된 클러스터 솔루션이 연구의 이 단계에서 최적이라고 주장하는 것은 다변량 통계의 다른 방법을 사용하여 얻은 결론과 이 솔루션의 일관성일 뿐입니다.

클러스터링의 최적성에 대한 결론에 찬성하여 이미 다른 연구 대상에서 얻은 솔루션의 예측 순간을 확인하는 긍정적인 결과도 있습니다. 클러스터 분석의 계층적 방법을 사용할 때 여러 그래프를 서로 비교하는 것이 좋습니다. 증분 변화클러스터 간 거리. 이 경우 클러스터링의 마지막 1-2단계에서 이 그래프에서 급격한 수직 상승과 함께 첫 번째 단계에서 여러 두 번째 단계까지 이러한 증분의 평평한 선이 관찰되는 옵션을 선호해야 합니다.

결론

내 작업에서 나는 이러한 유형의 분석의 복잡성뿐만 아니라 최적의 데이터 처리 기능도 보여주려고 노력했습니다. 종종 결과의 정확성을 위해 수십에서 수백 개의 샘플을 사용해야 하기 때문입니다. 이 유형분석은 결과를 분류하고 처리하는 데 도움이 됩니다. 나는 또한 이 분석에서 컴퓨터 기술의 수용 가능성을 중요하게 생각합니다. 이를 통해 결과를 처리하는 과정에서 시간이 덜 걸리고 분석을 위한 샘플링의 정확성에 더 많은 주의를 기울일 수 있습니다.

클러스터 분석을 사용할 때 개별 특정 사례에 나타나며 즉시 표시되지 않는 미묘함과 세부 사항이 있습니다. 예를 들어, 기능 규모의 역할은 미미할 수 있으며 경우에 따라 지배적일 수 있습니다. 이러한 경우 변수 변환을 사용해야 합니다. 이는 일반적으로 기능 간의 전체 상관 수준을 증가시키는 비선형 기능 변환을 생성하는 방법을 사용할 때 특히 효과적입니다.

질적 특징으로만 설명되는 개체와 관련하여 군집 분석을 사용하는 데 훨씬 더 특이성이 있습니다. 이 경우 질적 특징의 예비 디지털화 방법과 새로운 특징을 사용한 군집 분석 방법은 매우 성공적입니다. 내 작업에서 클러스터 분석이 충분히 연구된 시스템에 적용되는 경우와 알려지지 않은 구조를 가진 시스템 연구 모두에서 많은 새롭고 독창적인 정보를 제공한다는 것을 보여주었습니다.

군집 분석은 진화 경로를 보여주는 계통발생수를 구축할 수 있게 함으로써 진화 연구에서 없어서는 안 될 요소가 되었다는 점도 주목해야 합니다. 이러한 방법은 프로그램에서 널리 사용됩니다. 과학적 연구물리 및 분석 화학에서.

서지

1) Aivazyan S. A., Enyukov I. S., Meshalkin L. D. 응용 통계 분석을 위한 소프트웨어 패키지의 구조 및 내용//알고리즘 및 소프트웨어적용된 통계적 분석.--M., 1980.

2) Ayvazyan S. A., Bezhaeva Z. I., Staroverov O. V. 다차원 관측 분류.-M.: Statistics, 1974.

3) Becker V. A., Lukatskaya M. L. 결합 계수 매트릭스의 구조 분석에 대해//경제 및 통계 모델링 및 업계 예측 문제.-- Novosibirsk, 1970.

4) Braverman E. M., Muchnik I. B. 구조적 방법데이터 처리.-M.: Nauka, 1983.

5) Voronin Yu. A. 분류 이론 및 그 응용.--Novosibirsk: Nauka, 1987.

6) 좋은 I. J. Botryology of botryology//Classification and cluster.-M.: Mir, 1980.

7) Dubrovsky S. A. 응용 다변량 통계 분석.-M.: 재무 및 통계, 1982.

8) Duran N., Odell P. 클러스터 분석.-M.: 통계, 1977.

9) Eliseeva I.I., Rukavishnikov V.S. 그룹화, 상관 관계, 패턴 인식.--M.: 통계, 1977.

10) Zagoruiko N. G. 인식 방법 및 적용 .-M .: 소련 라디오, 1972.

11) Zade L. A. Fuzzy 세트와 패턴 인식 및 군집 분석에서의 응용//분류 및 군집.--M.: Mir, 1980.

12) Kildishev G.S., Abolentsev Yu.I. 다차원 그룹화.-M.: 통계, 1978.

13) Raiskaya II, Gostilin NI, Frenkel AA 클러스터 분석에서 분할의 유효성을 확인하는 한 가지 방법에 대해.//경제 및 제품 품질 평가에서 다변량 통계 분석의 적용.--Ch. P. 타르투, 1977.

14) Shurygin A. M. 점간 거리 및 차이의 분포 // 적용된 다차원 통계 분석을 위한 소프트웨어 및 알고리즘 지원 .-M., 1983.

15) Eeremaa R. 수치적 표현을 찾기 위한 클러스터 시스템 및 알고리즘 설계의 일반 이론: TSU 컴퓨팅 센터 절차.-Tartu, 1978.

16) Yastremsky B.S. Selected Works.-M.: 통계, 1964.

유사한 문서

    시장세분화의 목표는 마케팅 활동. 구현의 주요 단계 인 클러스터 분석의 본질. 거리 또는 유사성 측정 방법을 선택합니다. 계층적, 비계층적 클러스터링 방법. 신뢰성 및 신뢰성 평가.

    2009년 11월 2일 추가된 보고서

    주요 특징 재정 상태기업. 기업의 위기, 원인, 유형 및 결과. 현대적인 방법및 클러스터 분석 도구, 기업의 재무 및 경제 평가에 사용되는 기능.

    논문, 2013년 10월 9일 추가됨

    Statgraphics Plus를 사용하여 기업의 클러스터 분석을 수행합니다. 선형 회귀 방정식의 구성. 회귀 모델에 의한 탄성 계수 계산. 방정식의 통계적 유의성과 결정 계수의 평가.

    작업, 2014년 3월 16일 추가됨

    개별 관찰 그룹에 대한 유형학적 회귀 분석의 구성. 공간 데이터 및 시간 정보. 클러스터 분석의 적용 범위. 객체의 동질성 개념, 거리 행렬의 속성. 유형학적 회귀를 수행합니다.

    프레젠테이션, 2013년 10월 26일 추가됨

    다음과 같은 결합된 모델 및 방법 생성 현대적인 방법예측. 클러스터링 문제 해결에서 고정 및 비정지 시계열을 설명하기 위한 ARIMA 기반 모델입니다. 자기회귀 AR 모델 및 상관도의 적용.

    프레젠테이션, 2015년 5월 1일 추가됨

    다양한 메트릭 유형의 특성. 최근접 이웃 방법 및 일반화. 최근접 이웃 알고리즘. Parzen 창 방법. 일반화된 메트릭 분류자. 메트릭을 선택하는 문제. 맨해튼과 유클리드 거리. 코사인 측정.

    기말 보고서, 2015년 3월 8일 추가됨

    Krasnodar Territory 건설 산업의 특성. 주택 건설 개발 예측. 군집 분석의 최신 방법 및 도구. 기업의 경제 상태를 진단하기 위한 다차원 통계 방법.

    논문, 2015년 7월 20일 추가됨

    Bryansk 지역의 예에 대한 모기지 대출의 특성. 수학적 의사 결정 방법 검토: 전문가 평가, 순차 및 쌍 비교, 계층 분석. 최적의 모기지론 검색 프로그램 개발

    기말 보고서, 2012년 11월 29일 추가됨

    시스템 분석의 적용 영역, 위치, 역할, 목표 및 기능 현대 과학. 시스템 분석 방법의 개념과 내용, 비공식적 방법. 휴리스틱 및 전문 연구 방법의 특징 및 응용 프로그램의 특징.

    기말 보고서, 2013년 5월 20일 추가됨

    경제 데이터의 특성을 고려하고 필요에 따라 계량 경제학 방법의 개발 및 연구 경제학그리고 관행. 경제 데이터의 통계 분석을 위한 계량 경제학 방법 및 모델의 적용.

대학교: VZFEI

연도 및 도시: 모스크바 2008


1. 소개. 클러스터 분석 방법의 개념.

2. 클러스터 분석을 적용하는 방법론에 대한 설명. 문제 해결의 제어 예.

4. 사용한 문헌 목록

  1. 소개. 클러스터 분석 방법의 개념.

군집 분석은 다차원 관찰을 분류할 수 있는 일련의 방법이며, 각 관찰은 특징(매개변수) 집합 X1, X2, ..., Xk로 설명됩니다.

클러스터 분석의 목적은 일반적으로 클러스터(클래스, 분류군, 농도)라고 하는 서로 유사한 개체 그룹을 형성하는 것입니다.

클러스터 분석은 통계 연구 분야 중 하나입니다. 그것은 질량 현상 및 과정 연구와 관련된 과학 분야에서 특히 중요한 위치를 차지합니다. 클러스터 분석 방법과 그 사용을 개발할 필요성은 과학적 기반 분류를 구축하고 식별하는 데 도움이 된다는 사실에 의해 결정됩니다. 내부 커뮤니케이션관찰된 모집단의 단위 사이. 또한 클러스터 분석 방법을 사용하여 정보를 압축할 수 있으며 이는 통계 데이터 흐름의 지속적인 증가와 복잡성에 직면하여 중요한 요소입니다.

클러스터 분석 방법을 사용하면 다음 문제를 해결할 수 있습니다.

객체의 본질, 본질을 반영하는 기능을 고려하여 객체 분류를 수행합니다. 일반적으로 이러한 문제의 해결은 분류되는 객체의 전체성에 대한 지식의 심화로 이어집니다.

연구 대상 세트에서 일부 구조의 존재에 대한 가정을 확인합니다. 기존 구조 검색;

모집단 내 연결의 존재를 확립하고 구조를 도입하려고 시도해야 할 때 제대로 연구되지 않은 현상에 대한 새로운 분류 구성 (1. pp. 85-86).

2. 클러스터 분석을 적용하는 방법론에 대한 설명. 문제 해결의 제어 예.

군집 분석을 사용하면 k개의 특징으로 특징지어지는 n개의 개체에서 동종 그룹(군집)으로 분류할 수 있습니다. 물체의 동질성은 거리 p(xi xj)에 의해 결정되며, 여기서 xi = (xi1, …., xik) 및 xj= (xj1,…,xjk)는 i의 k 속성 값으로 구성된 벡터입니다. -번째 및 j번째 객체.

숫자 특징으로 특징지어지는 객체의 경우 거리는 다음 공식으로 결정됩니다.

p(xi , xj) = √ ∑(x1m-xjm) 2 (1)*

객체는 p(xi xj)인 경우 동종으로 간주됩니다.< p предельного.

합집합의 그래픽 표현은 클러스터 합집합 트리(덴드로그램)를 사용하여 얻을 수 있습니다. (2. 39장).

테스트 사례(예제 92).

판매량

"가까운 이웃" 원칙을 사용하여 이러한 객체를 분류해 보겠습니다. 공식 (1)*을 사용하여 물체 사이의 거리를 찾아봅시다. 표를 채워봅시다.

테이블을 채우는 방법을 설명하겠습니다.

행 i와 열 j의 교차점에서 거리 p(xi xj)가 표시됩니다(결과는 소수점 둘째 자리까지 반올림됨).

예를 들어, 행 1과 열 3의 교차점에서 거리 p(x1, x3) = √(1-6) 2 +(9-8) 2 ≈ 5.10을 표시하고, 행 3과 열의 교차점에서 5, 거리 p(x3 , x5) = √ (6-12) 2 + (8-7) 2 ≈ 6.08. p(xi, xj) = p(xj,xi)이므로 테이블의 아래쪽 부분을 채울 필요가 없습니다.

"가까운 이웃" 원칙을 적용해 봅시다. 우리는 표에서 가장 작은 거리를 찾습니다 (여러 개가 있으면 그 중 하나를 선택합니다). 이것은 p 1.2 ≈ p 4.5 \u003d 2.24입니다. p min = p 4.5 = 2.24라고 하자. 그런 다음 개체 4와 5를 하나의 그룹으로 결합할 수 있습니다. 즉, 결합된 열 4와 5에는 원래 거리 테이블의 열 4와 5의 해당 숫자 중 가장 작은 값이 포함됩니다. 4행과 5행에서도 동일한 작업을 수행합니다. 새 테이블을 얻습니다.

결과 테이블에서 가장 작은 거리를 찾습니다(여러 개가 있으면 그 중 하나를 선택합니다): р min = р 1.2 = 2.24. 그런 다음 개체 1,2,3을 하나의 그룹으로 결합할 수 있습니다. 즉, 결합된 열 1,2,3에는 이전 거리 테이블의 열 1과 2 및 3의 해당 숫자 중 가장 작은 값이 포함됩니다. 행 1, 2, 3에 대해 동일한 작업을 수행합니다. 새 테이블을 얻습니다.

(1,2,3)과 (4,5)라는 두 개의 클러스터가 있습니다.

3. 제어 작업에 대한 문제 해결.

문제 85.

자귀: 5개의 생산 시설은 판매량과 고정 자산의 평균 연간 비용이라는 두 가지 특징을 특징으로 합니다.

판매량

평균 연간 비용고정 생산 자산

해결책:공식 (1)*을 사용하여 물체 사이의 거리를 찾아봅시다(소수점 둘째 자리에서 반올림합니다).

피 1,1 \u003d √ (2-2) 2 + (2-2) 2 \u003d 0

피 1.2 \u003d √ (2-5) 2 + (7-9) 2 ≈ 3.61

피 1.3 \u003d √ (2-7) 2 + (7-10) 2 ≈ 5.83

피 2.2 \u003d √ (5-5) 2 + (9-9) 2 \u003d 0

피 2.3 \u003d √ (5-7) 2 + (9-10) 2 ≈ 2.24

피 3.4 \u003d √ (7-12) 2 + (10-8) 2 ≈5.39

피 3.5 \u003d √ (7-13) 2 + (10-5) 2 ≈ 7.81

피 4.5 \u003d √ (12-13) 2 + (8-5) 2 ≈ 3.16

계산 결과에 따라 표를 작성합니다.

최근접 이웃 원칙을 적용해 봅시다. 이를 위해 테이블에서 가장 작은 거리를 찾습니다(여러 개가 있는 경우 그 중 하나를 선택). 이것은 p 2.3=2.24입니다. p min = p 2.3 = 2.24라고 하면 열 "2"와 "3"의 객체를 결합할 수 있고 객체 "2"와 "3"의 행도 결합할 수 있습니다. 새 테이블에서는 원래 테이블의 가장 작은 값을 결합된 그룹에 입력합니다.

새 테이블에서 가장 작은 거리를 찾습니다(여러 개가 있으면 그 중 하나를 선택합니다). 이것은 p4.5=3.16이다. p min = p 4.5 = 3.16이라고 하면 열 "4"와 "5"의 객체를 결합할 수 있고 객체 "4"와 "5"의 행도 결합할 수 있습니다. 새 테이블에서는 원래 테이블의 가장 작은 값을 결합된 그룹에 입력합니다.

새 테이블에서 가장 작은 거리를 찾습니다(여러 개가 있으면 그 중 하나를 선택합니다). 이들은 p 1, 2 및 3=3.61입니다. p min = p 1, 2 및 3 = 3.61이라고 하면 열 개체 "1"과 "2 및 3"을 병합하고 행도 병합할 수 있습니다. 새 테이블에서는 원래 테이블의 가장 작은 값을 결합된 그룹에 입력합니다.

(1,2,3) 및 (4,5)의 두 클러스터를 얻습니다.

덴드로그램은 요소 선택 순서와 해당하는 최소 거리 pmin을 보여줍니다.

대답:"가장 가까운 이웃"의 원칙에 따라 군집 분석을 한 결과, 서로 유사한 객체의 2개 군집, 즉 (1,2,3)과 (4,5)가 형성되었습니다.

문제 211.

자귀: 5개의 생산 시설은 판매량과 고정 자산의 연평균 가치라는 두 가지 특징을 가지고 있습니다.

판매량

고정 생산 자산의 평균 연간 비용

가장 가까운 이웃 원칙을 사용하여 이러한 객체를 분류합니다.

해결책:문제를 해결하기 위해 원본 테이블에 데이터를 표시합니다. 물체 사이의 거리를 결정합시다. 우리는 "가장 가까운 이웃" 원칙에 따라 물체를 분류할 것입니다. 결과는 dendrogram 형식으로 표시됩니다.

판매량

고정 생산 자산의 평균 연간 비용

공식 (1)*을 사용하여 물체 사이의 거리를 찾습니다.

p1.1=0, p1.2=6, p1.3=8.60, p1.4=6.32, p1.5=6.71, p2.2=0, p2,3=7.07, p2.4=2, p2.5=3.32, p3.3= 0, p3.4=5.10, p3.5=4.12, p4,4=0, p4.5=1, p5.5=0.

결과는 표에 나와 있습니다.

표에서 가장 작은 거리 값은 p 4.5=1입니다. p min = p 4.5 = 1이라고 하면 열 "4"와 "5"의 객체를 결합할 수 있고 객체 "4"와 "5"의 행도 결합할 수 있습니다. 새 테이블에서는 원래 테이블의 가장 작은 값을 결합된 그룹에 입력합니다.

새 테이블에서 가장 작은 거리 값은 p 2, 4 및 5=2입니다. p min = p 2, 4 및 5=2라고 하면 열 "4 및 5" 및 "3"의 객체를 결합할 수 있고 객체 "4 및 5" 및 "3"의 행도 결합할 수 있습니다. 새 테이블에서 테이블의 가장 작은 값을 결합된 그룹에 입력합니다.

새 테이블에서 가장 작은 거리 값은 p 3,4,5=2입니다. p min = p 3,4,5=2라고 하면 "3,4,5" 및 "2" 열의 객체를 결합할 수 있고 객체 "3,4,5" 및 "의 행도 결합할 수 있습니다. 2". 새 테이블에서 테이블의 가장 작은 값을 결합된 그룹에 입력합니다.

또는 사이트에 로그인하십시오.

중요한! 무료 다운로드를 위해 제시된 모든 테스트 논문은 자신의 과학적 작업을 위한 계획 또는 기초를 작성하기 위한 것입니다.

친구들! 당신은 독특한 기회당신 같은 학생들을 도와주세요! 우리 사이트가 당신을 찾는 데 도움이 되었다면 올바른 직업, 그러면 추가한 작업이 다른 사람의 작업을 더 쉽게 만드는 방법을 확실히 이해할 수 있습니다.

컨트롤이 작동하는 경우 귀하의 의견으로는 나쁜 품질, 또는 이미 이 작품을 만난 적이 있다면 알려주세요.

클러스터 분석을 참조하십시오. 안티나치. 사회학 백과사전, 2009 ... 사회학 백과사전

클러스터 분석- 다차원 관찰을 분류할 수 있는 일련의 방법이며, 각 관찰은 특정 변수 집합으로 설명됩니다. 군집 분석의 목적은 서로 유사한 객체 그룹을 형성하는 것인데, 이를 일반적으로 ... ... 사회학 사전 소시움

클러스터 분석- 다차원 분석을 위한 수학적 절차로, 여러 개체(예: 주제)를 특징짓는 일련의 지표를 기반으로 한 클래스에 포함된 개체가 더 많도록 클래스(클러스터)로 그룹화할 수 있습니다. .. ... 위대한 심리학 백과사전

클러스터 분석- 모든 세트의 각 개체(예: 대상)의 여러 기능 특성의 양적 값의 유사성을 기반으로 이러한 개체를 특정 클래스 또는 클러스터로 그룹화할 수 있는 수학적 절차. .... .. 심리학 사전

클러스터 분석- - [L.G. Sumenko. 정보 기술의 영어 러시아어 사전. M.: GP TsNIIS, 2003.] 주제 정보 기술일반적으로 EN 클러스터 분석 … 기술 번역가 핸드북

클러스터 분석- * 클러스터 분석 * 클러스터 분석 또는 데이터 클러스터링은 개체 선택에 대한 정보를 포함하는 데이터를 수집한 다음 개체를 상대적으로 동질적인 클러스터 그룹(Q ... ... 유전학. 백과 사전

클러스터 분석- 이 글을 수학적으로 개선하는 것이 바람직한가?: 각주를 넣고, 출처를 좀 더 정확하게 표시한다. Wikipedia의 문체 규칙에 따라 기사를 수정하십시오. ofo 재활용 ... Wikipedia

클러스터 분석- - 여러 개체(예: 주제)를 특징짓는 일련의 지표를 기반으로 클래스(클러스터)로 그룹화하여 한 클래스에 포함된 개체가 다음과 같도록 하는 다차원 분석을 위한 수학적 절차 더 ... ... 심리학 및 교육학 백과 사전

클러스터 분석 - 통칭복잡한 데이터의 심층 구조를 결정하기 위한 다양한 수학적 방법 군집 분석은 많은 측면에서 요인 분석과 유사합니다. 둘 다 단일 요소(요인 또는 클러스터) 검색을 포함합니다. ... ... 심리학 설명 사전

클러스터 분석- (클러스터 분석) 데이터 집합에서 상대적인 차이를 보일 수 있는 개체 또는 사람의 그룹을 식별하는 데 사용되는 기술입니다. 그런 다음 각 그룹 내에서 그러한 사람들의 특성을 연구합니다. 시장 조사에서 ... ... 큰 설명 사회학 사전

클러스터 분석- (CLUSTER ANALYSIS) 다중 변수에 대한 연구 정보 분석에서 데이터의 내부 구조를 결정하는 데 사용되는 통계 기법의 집합. 클러스터 분석의 목적은 개체 그룹을 식별하는 것입니다. ... 사회학 사전

이 책은 이러한 의미에서 다차원 프로세스 및 현상 분석에 대한 가장 유망한 접근 방식 중 하나인 클러스터 분석에 전념합니다.

클러스터 분석은 적절한 기하학적 공간의 점별로 개별 관찰 결과를 제시한 다음 이러한 점의 "클럼프"로 그룹을 선택하여 다차원 개체를 그룹화하는 방법입니다. 실제로 "클러스터"(클러스터) 영어"응고", "(포도의) 다발", "별의 무리" 등을 의미합니다. 이 용어는 과학 용어에 비정상적으로 잘 맞습니다. 첫 음절은 전통적인 용어인 "클래스"에 해당하고 두 번째 음절은 그대로 인공적인 기원을 나타냅니다. 우리는 클러스터 분석의 용어가 이전에 이 목적을 위해 사용된 모든 구성(비지도 패턴 인식, 계층화, 분류, 자동 분류 등)을 대체할 것이라는 데 의심의 여지가 없습니다. 군집 분석의 잠재적 가능성은 예를 들어 유사한 조건에서 운영되거나 유사한 결과를 보이는 기업 그룹, 삶의 다양한 측면 또는 일반적인 라이프스타일에서 동질적인 인구 그룹 등을 식별하는 문제를 해결하는 데 명백합니다.

과학적 방향으로서 군집 분석은 60년대 중반에 선언되었고 그 이후로 빠르게 발전하여 통계 과학의 가장 집중적인 성장 분야 중 하나가 되었습니다. 지금까지 여러 국가에서 출판된 군집 분석에 관한 단행본의 수만 수백 개로 측정된다고 말하는 것으로 충분합니다(반면, 다음과 같은 다변량 통계 분석의 "적절한" 방법에 따르면 요인 분석, 수십 권의 책을 세는 것은 거의 불가능합니다). 그리고 이것은 꽤 이해할 수 있습니다. 결국, 우리는 실제로 통계뿐만 아니라 일반적으로 인식과 의사 결정 모두에서 가장 중요한 그룹화 작업을 모델링하는 것에 대해 이야기하고 있습니다.

군집 분석(1), 사회 경제 연구에서 군집 분석을 사용하는 방법론(2), 군집 분석 방법론( 3) (통계분석의 기초)

I.D. Mandel이 제안한 책은 말하자면 이 분류에 수직입니다. 그 내용은 이 세 영역 각각과 연관되어 있습니다.

이 책의 목적은 요약하는 것입니다. 최신 기술클러스터 분석, 사용 가능성 및 추가 개발 작업을 분석합니다. 이 아이디어 자체는 존경심을 불러일으킬 수밖에 없습니다. 편견 없는 분석과 일반화에는 많은 작업, 학식, 용기가 필요하며 과학계에서는 자신의 디자인을 홍보하고 개발하는 것보다 훨씬 낮은 평가를 받습니다. (그러나 이 책에는 "내포적" 분석 및 분류의 이중성과 관련된 저자의 독창적인 발전도 포함되어 있습니다.)

이 책의 장점과 단점은 모두 이 목표의 실현과 관련이 있습니다. 장점은 다음과 같습니다.

· 현상 및 프로세스의 다차원성을 고려한 동질성, 그룹화 및 분류 개념에 대한 방법론적 연구

· 클러스터 분석 접근 방식 및 방법에 대한 체계적인 검토(최대 150개의 특정 알고리즘 포함)

· 클러스터 분석 절차의 실험적 비교 기술 및 결과 발표; 이 책은 이러한 의미에서 다차원 프로세스 및 현상 분석에 대한 가장 유망한 접근 방식 중 하나인 클러스터 분석에 전념합니다.

클러스터 분석은 적절한 기하학적 공간의 점별로 개별 관찰 결과를 제시한 다음 이러한 점의 "클럼프"로 그룹을 선택하여 다차원 개체를 그룹화하는 방법입니다. 실제로 영어에서 "클러스터"(클러스터)는 "응고", "포도 다발", "클러스터(별)" 등을 의미합니다. 이 용어는 첫 음절이 전통적인 "클래스"라는 용어와 두 번째는 인공적인 기원을 나타냅니다. 우리는 클러스터 분석의 용어가 이전에 이 목적을 위해 사용된 모든 구성(비지도 패턴 인식, 계층화, 분류, 자동 분류 등)을 대체할 것이라는 데 의심의 여지가 없습니다. 군집 분석의 잠재적 가능성은 예를 들어 유사한 조건에서 운영되거나 유사한 결과를 보이는 기업 그룹, 삶의 다양한 측면 또는 일반적인 라이프스타일에서 동질적인 인구 그룹 등을 식별하는 문제를 해결하는 데 명백합니다.

과학적 방향으로서 군집 분석은 60년대 중반에 선언되었고 그 이후로 빠르게 발전하여 통계 과학의 가장 집중적인 성장 분야 중 하나가 되었습니다. 군집 분석, 개발에 대한 많은 논문만 언급하면 ​​충분합니다. 일반 계획상당히 예시적인 테이블에 구현된 클러스터 분석 방법의 사용; 프레젠테이션의 권장 특성.

이러한 이점은 다른 출판물 중에서 I. D. Mandel의 책이 독립적인 위치를 차지하도록 결정합니다.

이 책의 단점은 일부 권장 사항의 모호함과 주제 사회 경제적 응용 프로그램에서 클러스터 분석 방법을 사용하는 문제에 대한 체계적인 분석이 부족하다는 것입니다. 사실, 후자는 이 영역에서 군집 분석을 충분히 사용하지 않았기 때문입니다.

이 책은 모든 이론 중 가장 어려운 문제, 즉 책이 제공하는 도구의 실제 사용에서 진전을 촉진하는 발판을 제공합니다.

B. G. 미르킨

연구 주제는 뉴기니 설치류 미이라의 형태 분석부터 미 상원의원 투표 결과 연구, 냉동 바퀴벌레 해동 시 행동 기능 분석, 지리적 분포 연구까지 다양하다. Saskatchewan의 특정 유형의 지의류.

이 폭발적인 출판물은 클러스터 분석의 개발 및 적용에 큰 영향을 미쳤습니다. 그러나 불행히도 부정적인 측면도 있습니다. 군집 분석에 관한 간행물의 급속한 성장으로 사용자 그룹이 형성되었고 그 결과 클러스터를 만든 그룹에서만 사용하는 전문 용어가 만들어졌습니다(Blashfield and Aldenderfer, 1978; Blashfield, 1980).

현장 전문가의 전문 용어 형성 사회 과학예를 들어 Ward의 방법과 관련된 다양한 용어로 입증됩니다. "Ward 방법"은 문헌에서 다르게 불립니다. 최소한 4개의 이름이 더 알려져 있습니다: "최소 분산 방법", "오차 제곱합 방법", "계층적 그룹화 최소화" 및 "HGROUP". 처음 두 이름은 단순히 Ward의 방법에 의해 최적이 결정되는 기준을 나타내는 반면, 세 번째 이름은 그룹 내 공분산 행렬인 행렬 W의 단조 추적 변환인 제곱 오차의 합과 관련됩니다. 마지막으로 널리 사용되는 이름인 "HGROUP"은 인기 있는 컴퓨터 프로그램, Ward 방법을 구현합니다(Veldman, 1967).

전문 용어의 형성은 학제 간 연결의 발전을 방해하고 방해합니다. 효과적인 비교다양한 과학 분야에 클러스터 분석을 적용한 방법론 및 결과는 불필요한 노력(동일한 알고리즘의 재창조)을 초래하고, 결국 새로운 사용자에게 그들이 선택한 방법에 대한 깊은 이해를 제공하지 않습니다(Blashfield and aldenderfer, 1978). ). 예를 들어, 한 사회 과학 연구(Rogers and Linden, 1973)에서는 동일한 데이터를 사용하여 세 가지 다른 클러스터링 방법을 비교했습니다. 그들은 이러한 방법을 "계층적 그룹화", "계층적 클러스터링 또는 HCG" 및 "클러스터 분석"이라고 불렀습니다. 그리고 이러한 이름 중 어느 것도 클러스터링 방법에 익숙하지 않았습니다. 군집 분석 프로그램의 초보 사용자는 기존의 모든 이름으로 인해 혼란을 겪을 수 있으며 군집화 방법에 대한 다른 설명과 연결할 수 없습니다. 숙련된 사용자는 자신의 연구를 유사한 작업과 비교할 때 어려운 위치에 있을 것입니다. 우리는 극단적으로 가고 있을지 모르지만 전문 용어는 심각한 문제입니다.

최근 몇 년 동안 클러스터 분석의 개발은 출판물의 수와 이 방법이 적용되는 분야의 수로 판단할 때 다소 느려졌습니다. 우리는 현재 심리학, 사회학, 생물학, 통계학 및 일부 기술 분야클러스터 분석과 관련하여 통합 단계에 들어갑니다.

클러스터 분석의 장점을 칭찬하는 기사의 수가 점차 줄어들고 있습니다. 동시에 다양한 클러스터링 방법의 적용 가능성을 컨트롤 데이터에서 비교하는 작업이 점점 많아지고 있습니다. 문헌에서는 애플리케이션에 더 많은 관심을 기울였습니다. 많은 연구가 군집 분석을 사용하여 얻은 결과의 유효성을 테스트하기 위한 실용적인 측정 방법을 개발하는 것을 목표로 합니다. 이 모든 것은 클러스터링 방법에 대한 합리적인 통계 이론을 만들려는 진지한 시도를 증언합니다.


이 소식을 먼저 읽으신 분들이 있습니다.
최신 기사를 받으려면 구독하십시오.
이메일
이름
종을 어떻게 읽고 싶습니까?
스팸 없음