edwith_python_(1)데이터 살펴보기

Updated:

edwith 부스트코스 파이썬으로 시작하는 데이터 사이언스 를 공부하는 과정입니다.

지난 포스트 :point_right: edwith_python_Pandas


공공데이터포털 에서 제공하는 상권정보데이터를 활용하여 상권을 분석해보자.

공공데이터 상권정보 분석

1.1 필요한 라이브러리 불러오기

import pandas as pd
import numpy as np
import seaborn as sns

1.2 시각화를 위한 폰트 설정

#google colab에서 한글을 그래프에 표현하려면 아래의 설정이 필요!

import matplotlib as mpl

#한글 깨지지 않도록 설정
!apt -qq -y install fonts-nanum > /dev/null

import matplotlib.font_manager as fm

fontpath = '/usr/share/fonts/truetype/nanum/NanumBarunGothic.ttf'
font = fm.FontProperties(fname=fontpath, size=9)
fm._rebuild ()

plt.rc('font', family='NanumBarunGothic') 
plt.rc("axes", unicode_minus=False)

#글씨가 선명하게 보이도록 설정
%config InlineBackend.figure_format = 'retina'

막간 꿀팁 :bulb:
ctrl + / : 주석 설정 및 해제를 편하게 할 수 있는 단축키

1.3 데이터 로드하기

#구글 드라이브 마운트
from google.colab import drive
drive.mount('/content/drive')
분석할 데이터를 df 변수에 담아서 불러오기
df = pd.read_csv("/content/drive/My Drive/colab/edwith_study/상가업소정보_의료기관_201909.csv")
데이터 프레임의 행,열 개수 알아보기
df.shape

1.4 데이터 미리보기

df의 5행만 미리보기
df.head()
df의 마지막 5행만 미리보기
df.tail()
sample을 통해 df 미리보기. 랜덤 행의 정보를 출력
df.sample()

1.5 데이터 요약하기

1.5.1 요약정보

df.info()

*결과*

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 91335 entries, 0 to 91334
Data columns (total 39 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   상가업소번호     91335 non-null  int64  
 1   상호명        91335 non-null  object 
 2   지점명        1346 non-null   object 
 3   상권업종대분류코드  91335 non-null  object 
 4   상권업종대분류명   91335 non-null  object 
 5   상권업종중분류코드  91335 non-null  object 
 6   상권업종중분류명   91335 non-null  object 
 7   상권업종소분류코드  91335 non-null  object 
 8   상권업종소분류명   91335 non-null  object 
 9   표준산업분류코드   86413 non-null  object 
 10  표준산업분류명    86413 non-null  object 
 11  시도코드       90956 non-null  float64
 12  시도명        90956 non-null  object 
 13  시군구코드      90956 non-null  float64
 14  시군구명       90956 non-null  object 
 15  행정동코드      91335 non-null  int64  
 16  행정동명       90956 non-null  object 
 17  법정동코드      91280 non-null  float64
 18  법정동명       91280 non-null  object 
 19  지번코드       91335 non-null  int64  
 20  대지구분코드     91335 non-null  int64  
 21  대지구분명      91335 non-null  object 
 22  지번본번지      91335 non-null  int64  
 23  지번부번지      72079 non-null  float64
 24  지번주소       91335 non-null  object 
 25  도로명코드      91335 non-null  int64  
 26  도로명        91335 non-null  object 
 27  건물본번지      91335 non-null  int64  
 28  건물부번지      10604 non-null  float64
 29  건물관리번호     91335 non-null  object 
 30  건물명        46453 non-null  object 
 31  도로명주소      91335 non-null  object 
 32  구우편번호      91323 non-null  float64
 33  신우편번호      91333 non-null  float64
 34  동정보        7406 non-null   object 
 35  층정보        44044 non-null  object 
 36  호정보        15551 non-null  object 
 37  경도         91335 non-null  float64
 38  위도         91335 non-null  float64
dtypes: float64(9), int64(7), object(23)
memory usage: 27.2+ MB

int64: 정수
float64: 실수
object: 문자열

1.5.2 컬럼명 보기

df.columns

*결과*

Index(['상가업소번호', '상호명', '지점명', '상권업종대분류코드', '상권업종대분류명', '상권업종중분류코드',
       '상권업종중분류명', '상권업종소분류코드', '상권업종소분류명', '표준산업분류코드', '표준산업분류명', '시도코드',
       '시도명', '시군구코드', '시군구명', '행정동코드', '행정동명', '법정동코드', '법정동명', '지번코드',
       '대지구분코드', '대지구분명', '지번본번지', '지번부번지', '지번주소', '도로명코드', '도로명', '건물본번지',
       '건물부번지', '건물관리번호', '건물명', '도로명주소', '구우편번호', '신우편번호', '동정보', '층정보',
       '호정보', '경도', '위도'],
      dtype='object')

1.5.3 데이터 타입 보기

df.dtypes

*결과*

상가업소번호         int64
상호명           object
지점명           object
상권업종대분류코드     object
상권업종대분류명      object
상권업종중분류코드     object
상권업종중분류명      object
상권업종소분류코드     object
상권업종소분류명      object
표준산업분류코드      object
표준산업분류명       object
시도코드         float64
시도명           object
시군구코드        float64
시군구명          object
행정동코드          int64
행정동명          object
법정동코드        float64
법정동명          object
지번코드           int64
대지구분코드         int64
대지구분명         object
지번본번지          int64
지번부번지        float64
지번주소          object
도로명코드          int64
도로명           object
건물본번지          int64
건물부번지        float64
건물관리번호        object
건물명           object
도로명주소         object
구우편번호        float64
신우편번호        float64
동정보           object
층정보           object
호정보           object
경도           float64
위도           float64
dtype: object

다음 포스트 :point_right: edwith_python_(2)결측치 제거 및 데이터 요약

Categories:

Updated:

Leave a comment