pca 분석 예제

예제를 실행하면 먼저 원래 행렬을 인쇄한 다음 중심 공분산 행렬의 고유 벡터 및 고유 값값을 인쇄한 다음 마지막으로 원래 행렬의 투영이 수행됩니다. 아래 예제에서는 먼저 인스턴스를 만들고, 3×2 행렬에 피팅하고, 투영의 값과 벡터에 액세스하고, 원래 데이터를 변환하여 이 클래스를 사용하는 것을 보여 줍니다. 데이터에 변수가 있는 주 성분만큼 많기 때문에 주 성분은 첫 번째 주 성분이 데이터 집합에서 가능한 가장 큰 분산을 차지하는 방식으로 구성됩니다. 예를 들어, 데이터 집합의 분산형 플롯이 아래와 같이 첫 번째 주성분을 추측할 수 있다고 가정해 보겠습니다. 예, 그것은 원점을 통과하기 때문에 보라색 마크와 일치하는 대략 라인이며 점 (빨간색 점)의 투영이 가장 많이 분산되는 선입니다. 또는 수학적으로 말하자면 분산을 최대화하는 선입니다(투영된 점(빨간색 점에서 원점까지의 제곱 거리의 평균). 이제 주요 구성 요소의 의미를 이해되었으므로 고유 벡터와 고유 값으로 돌아가보겠습니다. 당신이 먼저 그들에 대해 알아야 할 것은 모든 고유 벡터가 고유 가치를 가지고 있도록, 그들은 항상 쌍으로 와서 있다는 것입니다. 그리고 그 수는 데이터의 차원 의 수와 같습니다.

예를 들어 3차원 데이터 집합의 경우 3개의 변수가 있으므로 3개의 고유값값을 가진 3개의 고유 벡터가 있습니다. 예를 들어 2D 데이터 집합(예: 2.9)을 다시 만듭니다. PCA의 효과를 보려면 두 차원 간의 상관 관계를 소개합니다. 2차원으로 100개의 데이터 요소를 만들어 봅시다: 좌표계의 변화로 주 성분 분석 좌분산 행렬은 가능한 모든 쌍과 연관된 공변을 항목으로 입력하는 p × p 대칭 행렬(여기서 p는 차원 수)입니다. 초기 변수의. 예를 들어 3개의 변수 x, y 및 z가 있는 3차원 데이터 세트의 경우 공분산 행렬은 선형 대수에 대한 이 계열의 마지막 장입니다. 그것은 주요 구성 요소 분석 (PCA)에 관한 것입니다. 우리는 이 중요한 데이터 분석 도구를 이해하기 위해 이전 장에서 얻은 몇 가지 지식을 사용합니다! 이전 장을 확인하시기 바랍니다! 이 단계의 목적은 연속 초기 변수의 범위를 표준화하여 각 변수가 해석에 동일하게 기여하도록 하는 것입니다. 따라서 예제에서 보았듯이 원하는 항목에 따라 모든 구성 요소를 유지할지 또는 덜 중요한 구성 요소를 폐기할지 선택하는 것은 당신에게 달려 있습니다. 차원을 줄이려고 하지 않고 상관관계가 없는 새 변수(주 성분)의 관점에서 데이터를 설명하려는 경우 덜 중요한 구성 요소를 제외할 필요가 없기 때문입니다. 이전 단계의 예제를 계속 진행하면서, 우리는 고유 벡터 v1과 v2 모두를 가진 특징 벡터를 형성 할 수 있습니다 : 우리는 우리가 동일한 주체 구성 요소, 특이값 및 투영을 달성하는 몇 가지 매우 사소한 부동 점 반올림을 볼 수 있습니다. 이전 예제에서와 같이.