r 주성분 분석 예제

아래 이미지와 같이 PCA는 데이터 집합에서 두 번 실행되었습니다(배율이 조정되지 않은 예측 변수). 이 데이터 집합에는 ~ 40개의 변수가 있습니다. 첫 번째 주 성분은 변수 Item_MRP에 의해 지배됩니다. 또한 두 번째 주 성분은 변수 Item_Weight에 의해 지배됩니다. 이 지배는 변수와 관련된 분산값이 높기 때문에 우선합니다. 변수의 배율이 조정되면 2D 공간에서 변수를 훨씬 더 잘 표현할 수 있습니다. 쉽게 눈에 띄는 것은 첫 번째 아이젠 값이 (S) 행렬의 분산의 50%와 비교하여 총 분산의 30%를 차지한다는 것입니다. (R)의 처음 두 구성요소는 총 분산의 52%만 차지하지만 마지막 두 구성요소는 거의 의미가 없습니다. 따라서(S) 행렬을 사용하여 처음 두 개 또는 세 개의 구성 요소가 아닌 처음 네 개의 구성 요소를 유지할 수 있습니다. 그러나 그것은 순진한 가정이 될 것입니다! PCA의 모양이 크게 변경 되었습니다., 이 샘플의 추가와 함께.

이 결과를 좀 더 자세히 고려할 때 실제로 는 완벽한 의미가 있습니다. 원래 데이터 집합에서는 PC1에 기여한 특정 변수(예: cyl 및 mpg) 간에 강한 상관 관계가 있어 이 축을 따라 그룹이 서로 분리됩니다. 그러나 추가 샘플로 PCA를 수행하면 동일한 상관 관계가 나타나지 않아 전체 데이터 집합이 왜곡됩니다. 이 경우 추가 샘플이 여러 면에서 극단적인 이상값이므로 효과가 특히 강합니다. 일반적으로 각 변수가 PCA의 경우 0으로 가운데에 있는 것은 각 주성분을 단순평균과 비교하기 때문에 유용합니다. 또한 각 변수의 배율에 대한 잠재적인 문제를 제거합니다. 예를 들어, 폭행의 차이는 6945이며 살인의 차이는 18.97에 불과합니다. 공격 데이터는 반드시 더 많은 변수가 아니다, 그것은 단순히 살인에 비해 다른 규모에. 이제 PC1과 PC2는 이전에 계산한 것과 일치합니다. 또한 결과의 x 목록 항목에 저장되기 때문에 결과에서 주요 구성 요소 점수를 얻을 수 있습니다. 그러나, 우리는 또한 긍정적 인 방향으로 그들을 가리 킬 수있는 우리의 점수에 약간의 기호 조정을하고 싶습니다. 이러한 구성 요소의 지시는 감독되지 않은 방식으로 식별됩니다.

따라서, 그것은 감독 되지 않은 접근. 변수는 공변행렬 (S)의 주 성분을 지배하는 더 큰 분산변수로 이어질 수 있는 다른 단위로 측정된 것으로 보입니다.

This entry was posted in Uncategorized by admin. Bookmark the permalink.

Comments are closed.