edwith_python_(8)histogram과 countplot으로 데이터 시각화하기
Updated:
edwith 부스트코스 파이썬으로 시작하는 데이터 사이언스 를 공부하는 과정입니다.
지난 포스트 edwith_python_(7)groupby 와 pivot_table 사용하기
9. 전체 데이터 시각화하기
9.1 히스토그램
전체 데이터에 대한 히스토그램을 h 변수에 담아서 출력
h = df.hist(figsize=(12,12))
*결과*
의미를 파악하기 힘들다… 다른 형태로 출력해보자
꿀팁 그래프를 변수에 담아 출력하면 그래프 위에 이상한(?)코드가 함께 출력되지 않음
9.2 슬라이싱을 사용해 히스토그램 그리기
슬라이싱을 사용해, 앞에서 12개 컬럼에 대한 데이터로 히스토그램을 그리기
h = df.iloc[:, :12].hist(figsize=(12, 12))
*결과*
loc: 행열 이름 정보 필요
iloc: 행열 인덱스 번호 정보 필요
슬라이싱을 사용해 앞에서 12번째부터 23번째까지(12:24) 컬럼에 대한 데이터로 히스토그램 그리기
h = df.iloc[:, 12:24].hist(figsize=(12, 12), bins=100)
*결과*
bins: 막대의 개수를 지정하는 옵션.
슬라이싱을 사용해 앞에서 24번째부터 마지막까지의 컬럼에 대한 데이터로 히스토그램 그리기
h = df.iloc[:, 24:].hist(figsize=(12, 12), bins=10)
*결과*
10. 샘플데이터 추출하기
seaborn의 그래프는 내부에서 수학적 연산이 되기 때문에 데이터가 많으면 속도가 오래 걸리기 되어, 전체 데이터의 일부를 샘플링하여 사용하면 좋음
df.sample을 일부 데이터만 샘플링하여 추출
df_sample = df.sample(1000, random_state=1)
random_state를 통해 샘플링되는 값을 고정할 수 있음.(이 셀을 여러번 실행해도 항상 같은 값만 나옴)
실험을 통제할 때 사용
11. 범주형(카테고리) 데이터 시각화하기
11.1 음주여부
“음주여부”에 따른 countplot을 그리고 hue를 사용하여 “성별코드”로 색상을 구분하여 그리기
sns.countplot(data = df, x="음주여부", hue = "성별코드")
*결과*
countplot으로 “연령대코드(5세단위)”별 “음주여부” 확인하기
sns.countplot(data = df, x= "연령대코드(5세단위)", hue = "음주여부")
*결과*
11.2 countplot 신장과 체중
countplot으로 성별 “키” 차이 확인하기
sns.countplot(data = df, x="신장(5Cm단위)", hue = "성별코드")
*결과*
countplot으로 성별 “체중” 차이 확인하기
sns.countplot(data = df, x="체중(5Kg단위)", hue="성별코드")
*결과*
다음 포스트 edwith_python_(9)barplot, lineplot, pointplot으로 데이터 시각화하기
Leave a comment