edwith_python_(8)histogram과 countplot으로 데이터 시각화하기
Updated:
edwith 부스트코스 파이썬으로 시작하는 데이터 사이언스 를 공부하는 과정입니다.
지난 포스트 edwith_python_(7)groupby 와 pivot_table 사용하기
9. 전체 데이터 시각화하기
9.1 히스토그램
전체 데이터에 대한 히스토그램을 h 변수에 담아서 출력
h = df.hist(figsize=(12,12))
*결과*
의미를 파악하기 힘들다… 다른 형태로 출력해보자
꿀팁그래프를 변수에 담아 출력하면 그래프 위에 이상한(?)코드가 함께 출력되지 않음
9.2 슬라이싱을 사용해 히스토그램 그리기
슬라이싱을 사용해, 앞에서 12개 컬럼에 대한 데이터로 히스토그램을 그리기
h = df.iloc[:, :12].hist(figsize=(12, 12))
*결과*
loc: 행열 이름 정보 필요
iloc: 행열 인덱스 번호 정보 필요
슬라이싱을 사용해 앞에서 12번째부터 23번째까지(12:24) 컬럼에 대한 데이터로 히스토그램 그리기
h = df.iloc[:, 12:24].hist(figsize=(12, 12), bins=100)
*결과*
bins: 막대의 개수를 지정하는 옵션.
슬라이싱을 사용해 앞에서 24번째부터 마지막까지의 컬럼에 대한 데이터로 히스토그램 그리기
h = df.iloc[:, 24:].hist(figsize=(12, 12), bins=10)
*결과*
10. 샘플데이터 추출하기
seaborn의 그래프는 내부에서 수학적 연산이 되기 때문에 데이터가 많으면 속도가 오래 걸리기 되어, 전체 데이터의 일부를 샘플링하여 사용하면 좋음
df.sample을 일부 데이터만 샘플링하여 추출
df_sample = df.sample(1000, random_state=1)
random_state를 통해 샘플링되는 값을 고정할 수 있음.(이 셀을 여러번 실행해도 항상 같은 값만 나옴)
실험을 통제할 때 사용
11. 범주형(카테고리) 데이터 시각화하기
11.1 음주여부
“음주여부”에 따른 countplot을 그리고 hue를 사용하여 “성별코드”로 색상을 구분하여 그리기
sns.countplot(data = df, x="음주여부", hue = "성별코드")
*결과*
countplot으로 “연령대코드(5세단위)”별 “음주여부” 확인하기
sns.countplot(data = df, x= "연령대코드(5세단위)", hue = "음주여부")
*결과*
11.2 countplot 신장과 체중
countplot으로 성별 “키” 차이 확인하기
sns.countplot(data = df, x="신장(5Cm단위)", hue = "성별코드")
*결과*
countplot으로 성별 “체중” 차이 확인하기
sns.countplot(data = df, x="체중(5Kg단위)", hue="성별코드")
*결과*
다음 포스트 edwith_python_(9)barplot, lineplot, pointplot으로 데이터 시각화하기
Leave a comment