edwith_python_(8)histogram과 countplot으로 데이터 시각화하기

Updated:

edwith 부스트코스 파이썬으로 시작하는 데이터 사이언스 를 공부하는 과정입니다.

지난 포스트 :point_right: edwith_python_(7)groupby 와 pivot_table 사용하기


9. 전체 데이터 시각화하기

9.1 히스토그램

전체 데이터에 대한 히스토그램을 h 변수에 담아서 출력
h = df.hist(figsize=(12,12))

*결과*

의미를 파악하기 힘들다… 다른 형태로 출력해보자
꿀팁 :bulb: 그래프를 변수에 담아 출력하면 그래프 위에 이상한(?)코드가 함께 출력되지 않음

9.2 슬라이싱을 사용해 히스토그램 그리기

슬라이싱을 사용해, 앞에서 12개 컬럼에 대한 데이터로 히스토그램을 그리기
h = df.iloc[:, :12].hist(figsize=(12, 12))

*결과*

loc: 행열 이름 정보 필요
iloc: 행열 인덱스 번호 정보 필요

슬라이싱을 사용해 앞에서 12번째부터 23번째까지(12:24) 컬럼에 대한 데이터로 히스토그램 그리기
h = df.iloc[:, 12:24].hist(figsize=(12, 12), bins=100)

*결과*

bins: 막대의 개수를 지정하는 옵션.

슬라이싱을 사용해 앞에서 24번째부터 마지막까지의 컬럼에 대한 데이터로 히스토그램 그리기
h = df.iloc[:, 24:].hist(figsize=(12, 12), bins=10)

*결과*

10. 샘플데이터 추출하기

seaborn의 그래프는 내부에서 수학적 연산이 되기 때문에 데이터가 많으면 속도가 오래 걸리기 되어, 전체 데이터의 일부를 샘플링하여 사용하면 좋음

df.sample을 일부 데이터만 샘플링하여 추출
df_sample = df.sample(1000, random_state=1)

random_state를 통해 샘플링되는 값을 고정할 수 있음.(이 셀을 여러번 실행해도 항상 같은 값만 나옴)
실험을 통제할 때 사용

11. 범주형(카테고리) 데이터 시각화하기

11.1 음주여부

“음주여부”에 따른 countplot을 그리고 hue를 사용하여 “성별코드”로 색상을 구분하여 그리기
sns.countplot(data = df, x="음주여부", hue = "성별코드")

*결과*

countplot으로 “연령대코드(5세단위)”별 “음주여부” 확인하기
sns.countplot(data = df, x= "연령대코드(5세단위)", hue = "음주여부")

*결과*

11.2 countplot 신장과 체중

countplot으로 성별 “키” 차이 확인하기
sns.countplot(data = df, x="신장(5Cm단위)", hue = "성별코드")

*결과*

countplot으로 성별 “체중” 차이 확인하기
sns.countplot(data = df, x="체중(5Kg단위)", hue="성별코드")

*결과*

다음 포스트 :point_right: edwith_python_(9)barplot, lineplot, pointplot으로 데이터 시각화하기

Categories:

Updated:

Leave a comment