[Kaggle] Best Book to Read in 2021 탐색적 데이터 분석 (plotly 시각화)

250x250

관리 메뉴

😎 공부하는 징징알파카는 처음이지?

[Kaggle] Best Book to Read in 2021 탐색적 데이터 분석 (plotly 시각화) 본문

👩‍💻 컴퓨터 구조/Kaggle

[Kaggle] Best Book to Read in 2021 탐색적 데이터 분석 (plotly 시각화)

징징알파카 2022. 11. 11. 09:55

728x90

<본 블로그는 dhelee 님의 블로그와 kaggle 을 참고해서 공부하며 작성하였습니다>

https://velog.io/@dhelee/TIL-Day22-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%8B%9C%EA%B0%81%ED%99%94-%EC%9B%B9-%ED%8E%98%EC%9D%B4%EC%A7%80-%EB%A7%8C%EB%93%A4%EA%B8%B0#2-flask-%EC%9B%B9-%EB%A7%8C%EB%93%A4%EA%B8%B0

[TIL Day22] 데이터 시각화 웹 페이지 만들기

1. 탐색적 데이터 분석 2. Flask 웹 만들기 3. pythonanywhere로 웹 페이지 배포하기

velog.io

https://www.kaggle.com/datasets/shashwatwork/best-book-ever-data-for-2021?select=books_1.Best_Books_Ever.csv

🍀 콘텐츠

데이터 세트에는 GoodReads Best Books Ever 목록에 있는 책에 해당하는 25개의 변수와 52478개의 레코드가 포함

데이터는 처음 30000권의 책과 나머지 22478권의 두 세트로 검색

🍀 탐색적 데이터 분석

🔷 1. 데이터 & 라이브러리 로드

import pandas as pd
import numpy as np

import plotly.figure_factory as ff
import plotly.offline as py 
import statistics
import plotly.express as px
import matplotlib.pyplot as plt

data = pd.read_csv('Best_Books_ever.csv', usecols=['title', 'series', 'author', 'rating', 'language', 'genres', 'characters', 'pages', 'publishDate', 'awards', 'numRatings', 'likedPercent', 'price'])
data.head()

data.info()

🔷 2. 데이터 전처리

datatype을 바꾸고 싶을 때는 pd.to_numeric()을 이용
errors='coerce'로 설정하면 에러가 발생하는 경우에 NaN으로 처리
data.isnull().mean(axis=0).plot.barh() 그래프를 그려 column별로 결측치의 비율 확인

data['price'] = pd.to_numeric(data['price'], errors='coerce')
data['pages'] = pd.to_numeric(data['pages'], errors='coerce')

결측치 확인하기

'''Missing Value Chart'''
data.isnull().mean(axis=0).plot.barh()
plt.title("Ratio of missing values per columns")

price, pages가 없는 행은 제거

data.drop(data[data['price'].isnull()].index, inplace=True)
data.drop(data[data['pages'].isnull()].index, inplace=True)
data.reset_index(drop=True, inplace=True) # reindex

'''Missing Value Chart'''
data.isnull().mean(axis=0).plot.barh()
plt.title("Ratio of missing values per columns")

효과적인 EDA를 위해 새로운 column을 도출

# 시리즈물인지 여부 'is_series'
data['is_series'] = 1
data['is_series'].loc[data['series'].isnull()] = 0


# 캐릭터 수 'num_characters'
data['num_characters'] = 0
for i in range(len(data)):
    if data['characters'][i] == '[]':
        continue
    else:
        data['num_characters'][i] = len(data['characters'][i].split(','))
        
        
# 받은 상의 개수 'num_awards'
data['num_awards'] = 0
for i in range(len(data)):
    if data['awards'][i] == '[]':
        continue
    else:
        data['num_awards'][i] = len(data['awards'][i].split(','))

장르가 1:M으로 분류되어 있으므로, main_genre를 선정
- 장르별 데이터 수를 카운팅하고 가장 빈도가 높은 상위 15개 장르를 main_genre 카테고리로 선정
- 나머지는 etc로 분류

# 장르별 빈도 카운팅
genre_dict = {}
for i in range(len(data)):
    if data['genres'][i] == '[]':
        continue
    lst = data['genres'][i][2:-2].split("', '")
    for s in lst:
        genre_dict[s] = genre_dict.get(s, 0) + 1

genre_dict

# 상위 15개 장르만 선정, 나머지는 etc로 분류
import operator
genre_lst = sorted(genre_dict.items(), key=operator.itemgetter(1), reverse=True)[:15]

# 선정된 genre category
genre_lst

분석에 사용할 최종 데이터셋

# 주요 장르로 재배치, 해당되는 장르가 없으면 etc
data['main_genre'] = 'etc'
for i in range(len(data)):
    for g, num in genre_lst:
        if g in data['genres'][i]:
            data['main_genre'][i] = g
            break

최종 데이터셋 확인

del data['series']
del data['genres']
del data['characters']
del data['awards']

data.head(5)

🔷 3. 탐색적 데이터 분석

data.describe()

수치형 변수 간 상관관계를 파악하기 위해 히트맵
- plotly.express를 이용해 px.imshow(data.corr())로 히트맵 그림

fig = px.imshow(data.corr(), template='plotly_dark', title='Heatmap')
fig.show()

시리즈물인 책과 그렇지 않은 책의 평점 분포가 다른지 알고 싶어서 두 그룹의 평점 분포
- plotly.figure_factory를 이용해 distplot을 그림
- ff.create_distplot(hist_data, group_labels, bin_size=.2, colors=colors)

# 시리즈물과 단편의 평점 분포

# group data
hist_data = [data[data['is_series'] == 1]['rating'], data[data['is_series'] == 0]['rating']]
group_labels = ['is_series', 'not_series']
colors = ['#2BCDC1', '#F66095']

# create distplot
fig = ff.create_distplot(hist_data, group_labels, bin_size=.2, colors=colors)
fig.update_layout(title_text='Rating Distribution', template='plotly_dark')
fig.show()

장르별 평점 분포를 비교하기 위해 boxplot 그리기
- px.box(data, x="main_genre", y="rating", color='main_genre')

# 장르별 평점 분포 

fig = px.box(data, x="main_genre", y="rating", color='main_genre', template='plotly_dark')
fig['layout'].update(title='Rating Distributions by Genre')
fig.show()

책이 너무 두꺼우면 사람들이 많이 읽지 못할 것! -> likedPercent와 pages의 관련성을 시각화
- density heatmap 사용
- px.density_heatmap(data, x="pages", y="likedPercent", marginal_x="histogram", marginal_y="histogram", range_x=[0, 500], range_y=[80, 100])

# likedPercent vs Pages 밀도 히트맵

fig = px.density_heatmap(data, x="pages", y="likedPercent", marginal_x="histogram", marginal_y="histogram", range_x=[0, 500], range_y=[80, 100], template='plotly_dark')
fig['layout'].update(title='Density Heatmap of LikedPercent vs Pages')
fig.show()

440~449 보다 200~229가 더 낫다고 보임

300~349 pages 가 가장 인기 많음

best books에 이름을 올린 책들이 어떤 장르들을 가지고 있는지, 비율을 파악
- pie chart
- px.pie(df2, values=values, names=labels)

# 장르의 비율

# count values by main_genre
df2 = pd.DataFrame(data['main_genre'].value_counts()).reset_index()
df2.columns = ['main_genre', 'counts']

labels = df2['main_genre'].tolist()
values = df2['counts'].tolist()

fig = px.pie(df2, values=values, names=labels, template='plotly_dark')
fig.update_traces(textposition='inside')
fig.update_layout(uniformtext_minsize=12, uniformtext_mode='hide')
fig['layout'].update(title='Genre Ratio', boxmode='group')
fig.show()

728x90

저작자표시 (새창열림)

'👩‍💻 컴퓨터 구조 > Kaggle' 카테고리의 다른 글

[Kaggle] Credit Card Anomaly Detection (0)	2022.11.02
[Kaggle]Pneumonia/Normal Classification(CNN) (0)	2022.03.20
[Kaggle]Super Image Resolution_고화질 이미지 만들기 (0)	2022.02.07
[Kaggle] CNN Architectures (0)	2022.02.04
[Kaggle] HeartAttack 예측 (0)	2022.01.31