HTML에서 Python을 사용할 수 있는 PyScript (12)

👩‍💻 백엔드(Back-End)/Node js

HTML에서 Python을 사용할 수 있는 PyScript (12)

징징알파카 2022. 11. 28. 09:37

728x90

<본 블로그는 itadventrue 님의 블로그를 참고해서 공부하며 작성하였습니다 :-)>

https://itadventure.tistory.com/554

파도!(13) - 음? 인공지능 적중율이?! - 평균가격 추가

'파도'는 파이스크립트 도전기의 줄임말입니다. 지난 게시글에서 이어지는 내용입니다 : https://itadventure.tistory.com/553 파도!(12) - 무신 러닝? 머신러닝! - 리니어 리그레션 ( LinearRegression ) '파도'는

itadventure.tistory.com

🐞 평균가격 포함

평균가격을 포함하기 위해 CSV 파일을 읽고 3개의 컬럼을 받아오도록 변경

AveragePrice 가 제공된 데이터중 평균가격

3개의 컬럼

# 판다스에서 csv 를 데이터 프레임으로 읽어옴
매출데이터 = pd.read_csv(open_url(
  "http://dreamplan7.cafe24.com/pyscript/csv/avocado.csv"
))      

# 3개 필드만 추려서 데이터 프레임을 다시 만듬
매출데이터 = 매출데이터[[
  'Date', 
  'Total Volume',
  'AveragePrice'
]]

날짜별로 ( 주 단위로 ) 그룹을 지을 때도 매출량은 그룹단위로 합산하여 합계

주간매출_매출량=매출데이터.fillna(0) \
  .groupby('날짜', as_index=False)[['매출량']].sum() \
  .sort_values(by='날짜', ascending=True)
  
주간매출_평균가=매출데이터.fillna(0) \
  .groupby('날짜', as_index=False)[['평균가격']].mean() \
  .sort_values(by='날짜', ascending=True)

2개의 데이터 프레임을 하나로 merge (on에 기재된 '날짜'를 기준)

주간매출데이터=pd.merge(주간매출_매출량, 주간매출_평균가, on='날짜')

주간매출데이터훈련_넘파이 = 주간매출데이터[['날짜(시간값)', '연도', '월', '일', '주', '평균가격']].to_numpy()

🐞 데이터 스케일링

스케일화는 '데이터를 안정화'

StandardScaler 사용

from sklearn.preprocessing import StandardScaler

스케일러 = StandardScaler()
스케일러.fit(훈련용데이터)
훈련용데이터_스케일 = 스케일러.transform(훈련용데이터)
테스트데이터_스케일 = 스케일러.transform(테스트데이터)

🐞 데이터 스코어

from sklearn.linear_model import LinearRegression

선형회귀모델 = LinearRegression()
선형회귀모델.fit(훈련용데이터_스케일, 훈련용목표)

훈련과정에 대한 척도를 평가 -> score()

print("훈련용모델 정확도")
print(선형회귀모델.score(훈련용데이터_스케일, 훈련용목표))

print("테스트모델 정확도")
print(선형회귀모델.score(테스트데이터_스케일, 테스트목표))

스케일화된 데이터를 바탕으로 예측결과

훈련용목표예측 = 선형회귀모델.predict(훈련용데이터_스케일)
테스트목표예측 = 선형회귀모델.predict(테스트데이터_스케일)

🐞 코드 구현

index.html

<html> 
    <head> 
      <link rel="stylesheet" 
        href="https://pyscript.net/alpha/pyscript.css" /> 
      <script defer 
        src="https://pyscript.net/alpha/pyscript.js"></script> 

<py-env>
  - pandas
  - matplotlib
  - seaborn
  - scikit-learn
  - paths :
    - ./common.py
</py-env>
    </head>
  <body> 
    <link rel="stylesheet" href="pytable.css"/>
    <py-script>
    import pandas as pd
    from pyodide.http import open_url
    from common import *
    import numpy as np

    from datetime import datetime

    <!-- 경고 문구 제거 -->
    import warnings
    warnings.filterwarnings( 'ignore' )

    <!-- 판다스에서 csv 를 데이터 프레임으로 읽어옴 -->
    SalesData = pd.read_csv(open_url(
      "http://dreamplan7.cafe24.com/pyscript/csv/avocado.csv"
    ))      

    <!-- # 3개 필드만 추려서 데이터 프레임을 다시 만듬 -->
    SalesData = SalesData[[
      'Date', 
      'Total Volume',
      'AveragePrice'
    ]]   

    SalesData.columns = [
      'Day', 
      'Amount',
      'AveragePrice'
    ]

    <!-- 날짜별로 ( 주 단위로 ) 그룹을 지을 때도 매출량은 그룹단위로 합산하여 합계 -->
    WeekdaysSales_sum = SalesData.fillna(0) \
    .groupby('Day', as_index=False)[['Amount']].sum() \
    .sort_values(by='Day', ascending=True)
    
    WeekdaysSales_mean = SalesData.fillna(0) \
    .groupby('Day', as_index=False)[['AveragePrice']].mean() \
    .sort_values(by='Day', ascending=True)

    <!-- 2개의 데이터 프레임을 하나로 merge  (on에 기재된 '날짜'를 기준) -->
    WeekdaysSalesData = pd.merge(WeekdaysSales_sum, WeekdaysSales_mean, on = 'Day')


    <!-- 날짜(시간값) 추가 -->
    WeekdaysSalesData.insert(1, 'Day(timeValue)',
        '',   True)
  
    for i in WeekdaysSalesData['Day'].index:
      WeekdaysSalesData['Day(timeValue)'].loc[i]=time.mktime(
      datetime.strptime(
        WeekdaysSalesData['Day'].loc[i], 
        '%Y-%m-%d'
        ).timetuple()
      )

    <!-- 10000으로 나눈 매출량 필드 추가 -->
    WeekdaysSalesData.insert(3, 'Amount(10000)', 
    WeekdaysSalesData['Amount']/10000, 
      True)

    <!-- 훈련학습용으로 날짜를 연도, 월, 일로 나눈다 -->
    WeekdaysSalesData.insert(4, 'year', '', True)
    WeekdaysSalesData.insert(5, 'month', '', True)
    WeekdaysSalesData.insert(6, 'day', '', True)
    WeekdaysSalesData.insert(7, 'week', '', True)

    for i in WeekdaysSalesData['Day'].index:
      temp = str(WeekdaysSalesData['Day'].loc[i]).split('-')
      year = int(temp[0])
      month = int(temp[1])
      day = int(temp[2])
      WeekdaysSalesData['year'].loc[i] = year
      WeekdaysSalesData['month'].loc[i] = month
      WeekdaysSalesData['day'].loc[i] = day
      WeekdaysSalesData['week'].loc[i] = str(
        datetime(year, month, day).isocalendar()[1]
      )

    createElementDiv(
      document, 
      Element, 
      'output2'
    ).write(WeekdaysSalesData)

    WeekdaysSalesDataTrain_numpy = WeekdaysSalesData[['Day(timeValue)', 'year', 'month', 'day', 'week', 'AveragePrice']].to_numpy()
    WeekdaysSalesDataTest_numpy = WeekdaysSalesData['Amount(10000)'].to_numpy()

    from sklearn.model_selection import train_test_split

    X_train, X_test, y_train, y_test = \
      train_test_split(
        WeekdaysSalesDataTrain_numpy, 
        WeekdaysSalesDataTest_numpy,
        random_state=100,
        shuffle=False)

    <!-- 스케일화는 '데이터를 안정화' -->
    from sklearn.preprocessing import StandardScaler

    sclar = StandardScaler()
    sclar.fit(X_train)
    X_train_scalr = sclar.transform(X_train)
    X_test_scalr = sclar.transform(X_test)

    <!-- 선형 회귀 알고리즘 -->
    <!-- 훈련, 최적의 그래프를 찾아준다 -->
    from sklearn.linear_model import LinearRegression
    lr = LinearRegression()
    lr.fit(X_train_scalr, y_train)

    <!-- 종류가 목표가 아닌 이상 정확도는 측정 불가 -->
    <!-- 훈련과정에 대한 척도를 평가 -> score()  -->
    print("훈련용모델 정확도")
    print(lr.score(X_train_scalr, y_train))
    print("테스트모델 정확도")
    print(lr.score(X_test_scalr, y_test))

    <!-- 스케일화된 데이터를 바탕으로 예측결과 -->
    y_train_predict = lr.predict(X_train_scalr)
    y_test_predict = lr.predict(X_test_scalr)

    import matplotlib.pyplot as plt
    import matplotlib as mat

    <!-- 그래프 -->
    fig = plt.figure(
      figsize=(15, 7)
    )

    plt.xticks(WeekdaysSalesData['Day(timeValue)'].to_numpy(), WeekdaysSalesData[['Day']].to_numpy()[:,0], rotation=90)

    plt.title('Weekdays Avocado SalesAmount')

    plt.plot(        
        X_train[:,0],
        y_train,
        marker='o',
        color='#c14549',
        label='Original'
    )
    plt.plot(        
        X_train[:,0],
        y_train_predict,
        marker='d',
        color='blue',
        label='Train pattern'
    )

    plt.plot(        
        X_test[:, 0],
        y_test,
        marker='o',
        color='#c14549'
    )

    plt.plot(        
        X_test[:, 0],
        y_test_predict,
        marker='d',
        color='green',
        label='Predict pattern'
    )

    plt.xlabel('Day')
    plt.ylabel('Day(timeValue)')

    plt.legend(
      shadow=True
    )

    ax = plt.gca()
    <!-- 축만 그리드 -->
    ax.xaxis.grid(True)

    <!-- 배경색, 마진 조정 -->
    ax.set_facecolor('#e8e7d2')
    ax.margins(x=0.01, y=0.02)

    <!-- 주위 이상한 여백 없애기 -->
    fig.tight_layout() 
    fig
</py-script> 
  </body> 
</html>

common.py

def createElementDiv(document, Element, name):
    element = document.createElement('div')
    element.id = name
    document.body.append(element)
    return Element(name)

728x90

저작자표시