edwith_python_(1)데이터 살펴보기
Updated:
edwith 부스트코스 파이썬으로 시작하는 데이터 사이언스 를 공부하는 과정입니다.
지난 포스트 edwith_python_Pandas
공공데이터포털 에서 제공하는 상권정보데이터를 활용하여 상권을 분석해보자.
공공데이터 상권정보 분석
1.1 필요한 라이브러리 불러오기
import pandas as pd
import numpy as np
import seaborn as sns
1.2 시각화를 위한 폰트 설정
#google colab에서 한글을 그래프에 표현하려면 아래의 설정이 필요!
import matplotlib as mpl
#한글 깨지지 않도록 설정
!apt -qq -y install fonts-nanum > /dev/null
import matplotlib.font_manager as fm
fontpath = '/usr/share/fonts/truetype/nanum/NanumBarunGothic.ttf'
font = fm.FontProperties(fname=fontpath, size=9)
fm._rebuild ()
plt.rc('font', family='NanumBarunGothic')
plt.rc("axes", unicode_minus=False)
#글씨가 선명하게 보이도록 설정
%config InlineBackend.figure_format = 'retina'
막간 꿀팁
ctrl + / : 주석 설정 및 해제를 편하게 할 수 있는 단축키
1.3 데이터 로드하기
#구글 드라이브 마운트
from google.colab import drive
drive.mount('/content/drive')
분석할 데이터를 df 변수에 담아서 불러오기
df = pd.read_csv("/content/drive/My Drive/colab/edwith_study/상가업소정보_의료기관_201909.csv")
데이터 프레임의 행,열 개수 알아보기
df.shape
1.4 데이터 미리보기
df의 5행만 미리보기
df.head()
df의 마지막 5행만 미리보기
df.tail()
sample을 통해 df 미리보기. 랜덤 행의 정보를 출력
df.sample()
1.5 데이터 요약하기
1.5.1 요약정보
df.info()
*결과*
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 91335 entries, 0 to 91334
Data columns (total 39 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 상가업소번호 91335 non-null int64
1 상호명 91335 non-null object
2 지점명 1346 non-null object
3 상권업종대분류코드 91335 non-null object
4 상권업종대분류명 91335 non-null object
5 상권업종중분류코드 91335 non-null object
6 상권업종중분류명 91335 non-null object
7 상권업종소분류코드 91335 non-null object
8 상권업종소분류명 91335 non-null object
9 표준산업분류코드 86413 non-null object
10 표준산업분류명 86413 non-null object
11 시도코드 90956 non-null float64
12 시도명 90956 non-null object
13 시군구코드 90956 non-null float64
14 시군구명 90956 non-null object
15 행정동코드 91335 non-null int64
16 행정동명 90956 non-null object
17 법정동코드 91280 non-null float64
18 법정동명 91280 non-null object
19 지번코드 91335 non-null int64
20 대지구분코드 91335 non-null int64
21 대지구분명 91335 non-null object
22 지번본번지 91335 non-null int64
23 지번부번지 72079 non-null float64
24 지번주소 91335 non-null object
25 도로명코드 91335 non-null int64
26 도로명 91335 non-null object
27 건물본번지 91335 non-null int64
28 건물부번지 10604 non-null float64
29 건물관리번호 91335 non-null object
30 건물명 46453 non-null object
31 도로명주소 91335 non-null object
32 구우편번호 91323 non-null float64
33 신우편번호 91333 non-null float64
34 동정보 7406 non-null object
35 층정보 44044 non-null object
36 호정보 15551 non-null object
37 경도 91335 non-null float64
38 위도 91335 non-null float64
dtypes: float64(9), int64(7), object(23)
memory usage: 27.2+ MB
int64: 정수
float64: 실수
object: 문자열
1.5.2 컬럼명 보기
df.columns
*결과*
Index(['상가업소번호', '상호명', '지점명', '상권업종대분류코드', '상권업종대분류명', '상권업종중분류코드',
'상권업종중분류명', '상권업종소분류코드', '상권업종소분류명', '표준산업분류코드', '표준산업분류명', '시도코드',
'시도명', '시군구코드', '시군구명', '행정동코드', '행정동명', '법정동코드', '법정동명', '지번코드',
'대지구분코드', '대지구분명', '지번본번지', '지번부번지', '지번주소', '도로명코드', '도로명', '건물본번지',
'건물부번지', '건물관리번호', '건물명', '도로명주소', '구우편번호', '신우편번호', '동정보', '층정보',
'호정보', '경도', '위도'],
dtype='object')
1.5.3 데이터 타입 보기
df.dtypes
*결과*
상가업소번호 int64
상호명 object
지점명 object
상권업종대분류코드 object
상권업종대분류명 object
상권업종중분류코드 object
상권업종중분류명 object
상권업종소분류코드 object
상권업종소분류명 object
표준산업분류코드 object
표준산업분류명 object
시도코드 float64
시도명 object
시군구코드 float64
시군구명 object
행정동코드 int64
행정동명 object
법정동코드 float64
법정동명 object
지번코드 int64
대지구분코드 int64
대지구분명 object
지번본번지 int64
지번부번지 float64
지번주소 object
도로명코드 int64
도로명 object
건물본번지 int64
건물부번지 float64
건물관리번호 object
건물명 object
도로명주소 object
구우편번호 float64
신우편번호 float64
동정보 object
층정보 object
호정보 object
경도 float64
위도 float64
dtype: object
Leave a comment