상관 분석과 시각화
house9895@naver.com
2023-10-12 13:11

안녕하세요 팀 은지짱짱걸입니다. 데이터분석에서 EDA 및 기초 단계에서 필요한 상관분석에 대해서 설명해 보겠습니다.

상관분석

상관 분석(Correalation analysis)은 연속형인 두 변수 간에 어떤 선형 또는 비 선형 관계를 갖고 있는지 분석하는 방법입니다. 두 변수 간의 관계는 상관계수로 나타내고, -1~1사이의 값을 갖으며 음의 부호일 경우 음의 상관관계 양의 부호일 역우 양의 상관 관계를 나타냅니다.

sealab image

파이썬에서 쉽게 확인하는 방법은

import pandas as pd

df = pd.read_csv("your_data.csv")
df_corr = df.corr(method = "pearson")
df_corr

로 할 수 있고 method의 pearson은 수치적 데이터 변수의 상관 분석(선형 관계)를 알고자 할 때 사용합니다. 이렇게 상관분석을 하면 표로 나오는데 이를 잘 보여 주기 위해서 시각화 하는 방법은 다음과 같습니다.

import matplotlib.pyplot as plt
import seaborn as sns

# heat map
plt.figure(figsize=(10, 6))  # 그림의 크기 설정
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Correlation Heatmap')
plt.show()

이렇게 하시면 시각화해서 더 쉽게 확인할수 있습니다.

sealab image