๐ ๊ณต๋ถํ๋ ์ง์ง์ํ์นด๋ ์ฒ์์ด์ง?
[๋ ผ๋ฌธ๋ฆฌ๋ทฐ] Time Series Forecasting (TSF) Using Various Deep Learning Models ๋ณธ๋ฌธ
[๋ ผ๋ฌธ๋ฆฌ๋ทฐ] Time Series Forecasting (TSF) Using Various Deep Learning Models
์ง์ง์ํ์นด 2022. 9. 19. 15:18220919 ์์ฑ
<๋ณธ ๋ธ๋ก๊ทธ๋ Jimeng Shi, Mahek Jain, Giri Narasimhan ๋์ ๋ ผ๋ฌธ์ ์ฐธ๊ณ ํด์ ๊ณต๋ถํ๋ฉฐ ์์ฑํ์์ต๋๋ค :-) >
https://arxiv.org/abs/2204.11115
Time Series Forecasting (TSF) Using Various Deep Learning Models
Time Series Forecasting (TSF) is used to predict the target variables at a future time point based on the learning from previous time points. To keep the problem tractable, learning methods use data from a fixed length window in the past as an explicit inp
arxiv.org
๐ฃ Abstract
- ์๊ณ์ด ์์ธก(TSF)์ ์ด์ ์์ ์ผ๋ก๋ถํฐ์ ํ์ต์ ๊ธฐ๋ฐ์ผ๋ก ๋ฏธ๋์ ์์ ์์ ๋ชฉํ ๋ณ์๋ฅผ ์์ธกํ๋ ๋ฐ ์ฌ์ฉ
- ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๊ธฐ ์ฝ๊ฒ ์ ์งํ๊ธฐ ์ํด ํ์ต ๋ฐฉ๋ฒ์ ๊ณผ๊ฑฐ์ ๊ณ ์ ๋ ๊ธธ์ด ์ฐฝ์ ๋ฐ์ดํฐ๋ฅผ ๋ช ์์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉ
- ๋ฅ ๋ฌ๋ ๋ฐฉ๋ฒ(RNN, LSTM, GRU ๋ฐ Transformer)์ ๊ธฐ์ค ๋ฐฉ๋ฒ๊ณผ ํจ๊ป ๋น๊ต
- Transformer ๋ชจ๋ธ์ด ์ต๊ณ ์ ์ฑ๋ฅ์ ๊ฐ์ง๊ณ ์๋ค
- ๋๋ถ๋ถ์ ๋จ์ผ ๋จ๊ณ ๋ฐ ๋ค์ค ๋จ๊ณ ์์ธก์์ ๊ฐ์ฅ ๋ฎ์ ํ๊ท ์ค์ฐจ(MAE = 14.599, 23.273)
- ๋ฃจํธ ํ๊ท ์ ๊ณฑ ์ค์ฐจ(RSME = 23.573, 38.165)
- 1์๊ฐ ํ๋ฅผ ์์ธกํ๊ธฐ ์ํ ๋ฃฉ๋ฐฑ ์๋์ฐ์ ๊ฐ์ฅ ์ข์ ํฌ๊ธฐ๋ ํ๋ฃจ์ธ ๋ฐ๋ฉด 2์ผ ๋๋ 4์ผ
- ๋ฏธ๋๋ฅผ 3์๊ฐ ์์ธกํ๊ธฐ ์ํด ์ต์ ์ ๋คํจ
1๏ธโฃ INTRODUCTION
- TIME ์์ ์๋ฆฌ์ฆ๋ ํน์ ๊ธฐ๊ฐ ๋์ ์ฃผ์ด์ง γ ๋ณ์ ์งํฉ์ ๋ฐ๋ณต ๊ด์ธก์น ์ํ์ค
- EX) ์ฃผ๊ฐ, ๊ฐ์๋, ๊ตํต๋, ํต์ , ์ด์ก ๋คํธ์ํฌ ๋ฑ
- ๋ชจ๋ธ๋ค์ ์๊ฐ ์๋ฆฌ์ฆ ํฌ์ฐฉํ๋ ๋ฐ 3๊ฐ์ง๋ก ๋๋ ์ ์์
- ์ ํต์ ์ธ ๋ชจ๋ธ
- ์ ํ
- Autoregressive Moving Average (ARMA)
- Autoregressive Integrated Moving Average (ARIMA)
- ๋น์ ํ
- Autoregressive Fractionally Integrated Moving Average (ARFIMA)
- Seasonal Autoregressive Integrated Moving Average (SARIMA)
- ํ๊ณ
- ์์ธก์ ์์ฑํ๊ธฐ ์ํด ๊ฐ์ฅ ์ต๊ทผ์ ๊ณผ๊ฑฐ ๋ฐ์ดํฐ์์ ๊ณ ์ ๋ ์์ธ ์งํฉ์ ํ๊ท๋ฅผ ์ ์ฉ
- ์ ํต์ ์ธ ๋ฐฉ๋ฒ์ ๋ฐ๋ณต์ ์ด๋ฉฐ ์ข ์ข ํ๋ก์ธ์ค๊ฐ ์๋๋๋ ๋ฐฉ์์ ๋ฏผ๊ฐ
- ์ ์์ฑ์ ์๊ฒฉํ ์กฐ๊ฑด์ด๋ฉฐ, ๋๋ฆฌํํธ, ๊ณ์ ์ฑ, ์๊ธฐ์๊ด์ฑ, ์ด์ง์ฑ๋ง์ ๋ค๋ฃจ๋ ๊ฒ๋ง์ผ๋ก๋ ํ๋ฐ์ฑ ์๊ณ์ด์ ์ ์์ฑ์ ๋ฌ์ฑํ๊ธฐ ์ด๋ ค์
- ์ ํ
- ๊ธฐ๊ณ ํ์ต ๋ชจ๋ธ
- ์ํฌํธ ๋ฒกํฐ ๋จธ์ (SVM)
- ์ํ ์ ๊ฒฝ๋ง(RNN)
- ์ฅ๋จ๊ธฐ ๋ฉ๋ชจ๋ฆฌ(LSTM)
- Transformers๋ผ๊ณ ๋ถ๋ฆฌ๋ ์ฃผ์ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ
- ๋ฅ๋ฌ๋ ๋ชจ๋ธ
- ์ธ๊ณต ์ ๊ฒฝ๋ง(ANN)
- ๋ฅ ๋ฌ๋ NN
- ๋ชฉํ
- (1) ์๊ณ์ด ์์ธก์ ์ํ ๋ฅ ๋ฌ๋ ๋ชจ๋ธ(RNN, LSTM, GRU, Transformer)์ ์ ์ฉ, ๊ฒ์ฆํ๊ณ ํด๋น ์ฑ๋ฅ์ ๋น๊ต
- (2) ์ด๋ฌํ ๋ชจ๋ธ์ ๊ฐ์ ๊ณผ ์ฝ์ ์ ํ๊ฐ
- (3) ๋ฃฉ๋ฐฑ ์ฐฝ์ ํฌ๊ธฐ์ ๋ฏธ๋ ์์ธก ์๊ฐ์ ๊ธธ์ด๊ฐ ๋ฏธ์น๋ ์ํฅ์ ์ดํด
- (4) ์ง์ ๋ ๋ฏธ๋ ์๊ฐ์ ์ต์์ ์์ธก์ ์ํด ์ฌ์ฉํ ์ต์ ์ ๋ฃฉ๋ฐฑ ์ฐฝ ํฌ๊ธฐ๋ฅผ ์ ํํ ํ์
- ์ ํต์ ์ธ ๋ชจ๋ธ
2๏ธโฃ METHODOLOGY
- ๊ณผ๊ฑฐ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ๋ฅ ๋ฌ๋ ๋ชจ๋ธ์ ๋์ ๋ณ์์ ์
๋ ฅ ๊ธฐ๋ฅ๊ณผ ๋ฏธ๋ ๊ฐ ์ฌ์ด์ ๊ธฐ๋ฅ์ ๊ด๊ณ๋ฅผ ํ์ต
- ๊ฒฐ๊ณผ ๋ชจ๋ธ์ ๋ฏธ๋ ์์ ์ ๋ชฉํ ๋ณ์์ ๋ํ ์์ธก์ ์ ๊ณต
- ๊ท ์ผํ ๊ธธ์ด์ ๋ชจ๋ธ์ ์
๋ ฅํ๊ธฐ ์ํด ๊ทธ๋ฆผ 1๊ณผ ๊ฐ์ด θ ํฌ๊ธฐ์ ๊ณ ์ ๊ธธ์ด ์ฌ๋ผ์ด๋ฉ ์๊ฐ ์ฐฝ์ ์ฌ์ฉ
- ์ (5)์ ์ด์ฉํ ์ต์-์ต๋ ์ค์ผ์ผ๋ง์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๋ณํ
- ์ํ์ ์ผ๋ก ๊ธฐ๊ณ ํ์ต ๋ชจ๋ธ์ ์ํด ํ์ต๋ ํจ์ ๊ด๊ณ๋ Eq์ ๊ฐ์ด ์ ์ ์ ์์
- ์ฌ๊ธฐ์ y^(t+k)์ ์๊ฐ t+k์ ๋ํ ๋ชฉํ ๋ณ์ ์์ธก๊ฐ
- k ๋ ๋ชฉํ ๋ณ์๊ฐ ์์ธก๋ ๋ฏธ๋๊น์ง์ ์๊ฐ ๊ธธ์ด
- t-w to t-1 ์ ๊ด์ธก๋ ๋ชฉํ๊ฐ
- x(t-w) to x(t-1)์ (t-w) to (t-1) ๊น์ง์ observed ๊ด์ธก๋ ์ ๋ ฅ ํน์ง์ ๋ฒกํฐ
- f(k) ๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ์ํด ํ์ต๋ ํจ์
- m ์ ์ ๋ ฅ ํผ์ณ์ ์
- w ๋ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉ๋๋ ์ฐฝ์ ํฌ๊ธฐ
3๏ธโฃ DEEP LEARNING FRAMEWORKS
์ด ์์ ์ ์ฌ์ฉ๋๋ ์ฌ์ธต ํ์ต ๋ชจ๋ธ, ์ฆ ๋ฐ๋ณต ์ ๊ฒฝ๋ง(RNN), ์ฅ๋จ๊ธฐ ๋ฉ๋ชจ๋ฆฌ(LSTM), ๊ฒ์ดํธ ์ํ ์ฅ์น(GRU) ๋ฐ ํธ๋์คํฌ๋จธ์ ๋ํด ๊ฐ๋ตํ๊ฒ ์ค๋ช ํ๋ค
๐ A. Recurrent Neural Networks(RNN)
- RNN์ ์๊ณ์ด ๋ฐ์ดํฐ ๋ชจ๋ธ๋ง์ ๊ฐ์ฅ ์ ํฉ
- ์ ๊ฒฝ๋ง์ ์ฌ์ฉํ์ฌ ์ต๊ทผ ์ ๋ ฅ ๊ธฐ๋ฅ๊ณผ ๋ฏธ๋์ ๋ชฉํ ๋ณ์ ์ฌ์ด์ ๊ธฐ๋ฅ ๊ด๊ณ๋ฅผ ๋ชจ๋ธ๋ง
- ๊ทธ๋ฆผ 2์ ๋ํ๋ ๋ฐ์ ๊ฐ์ด, RNN์ ํ์ฌ t - 1์์ t๋ก ๋ด๋ถ(์จ๊ฒจ์ง) ์ํ์ ์ ํ์ ์ด์ ์ ๋ง์ถ์ด ๊ณผ๊ฑฐ ๋ฐ์ดํฐ์ ํ๋ จ ์ธํธ์์ ํ์ต
- ๊ฒฐ๊ณผ ๋ชจ๋ธ์ ๋ชจ๋ธ์ ์ ์ํ๋ ๋ฐ ๋์์ด ๋๋ ์ธ ๊ฐ์ ๋งค๊ฐ ๋ณ์ ํ๋ ฌ w(x), w(y), w(s)
- ๋ ๊ฐ์ ๋ฐ์ด์ด์ค ๋ฒกํฐ b(s) ๋ฐ b(y) ์ ์ํด ๊ฒฐ์
- ์ถ๋ ฅ y(t)๋ ๋ด๋ถ ์ํ s(t)์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ฉฐ, ์ด๋ ํ์ฌ ์ ๋ ฅ x(t)์ ์ด์ ์ํ(t-1) ๋ชจ๋์ ๋ฐ๋ผ ๋ฌ๋ผ์ง
- ๊ฐ๊ฐ์ ์๋ ์ํ(์๋ ๋จ์ ๋๋ ์๋ ์ )์ ์ฐ์ฐ ๊ณผ์ ์ ๊ทธ๋ฆผ 3์ ๋ํ๋
- R^N : ๋ด๋ถ ์ํ์ ์ถ๋ ฅ์ ๋ํ bias ๋ฒกํฐ
- σ : sigmoid activation func
- S(t) : internal (hidden) state
- RNN์ ๊ฐ์ฅ ํฐ ๋จ์ ์ ๋ฐ๋ณต ๊ฐ์ค์น ํ๋ ฌ์ ๋ฐ๋ณต ๊ณฑ์
์ผ๋ก ์ธํด ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ ๋ก ์ด๋ ค์์ ๊ฒช์
- ์๊ฐ์ด ์ง๋จ์ ๋ฐ๋ผ ๊ธฐ์ธ๊ธฐ๊ฐ ๋๋ฌด ์์์ง๊ณ RNN์ด ์งง์ ์๊ฐ ๋์๋ง ์ ๋ณด๋ฅผ ๊ธฐ์ตํ๊ฒ ๋๊ธฐ ๋๋ฌธ
๐ B.Long Short-term Model (LSTM)
- LSTM(Long Short-Term Memory) ๋คํธ์ํฌ๋ ์ฌ๋ผ์ง๋ ๊ทธ๋ ์ด๋์ธํธ ๋ฌธ์ ๋ฅผ ๋ถ๋ถ์ ์ผ๋ก ํด๊ฒฐํ๊ณ ์๊ณ์ด ๋ฐ์ดํฐ์์ ์ฅ๊ธฐ ์์กด์ฑ์ ํ์ตํ๋ RNN์ ๋ณํ
- ์๊ฐ t์์ ๋ด๋ถ(์จ๊ฒจ์ง) ์ํ s(t), cell ์ํ, c(t) ์ผ๋ก ๋ฌ์ฌ๋จ
- ๊ทธ๋ฆผ 4 ์ฒ๋ผ C(t)์๋ ์ธ ๊ฐ์ง ๋ค๋ฅธ ์ข
์์ฑ์ด ์์
- (1) ์ด์ ์ ์ํ, C(t-1)
- (2) ์ด์ ๋ด๋ถ ์ํ, S(t-1)
- (3) ํ์ฌ ์์ ์์ ์ ๋ ฅ, x(t)
- ๊ทธ๋ฆผ 4์ ํ์๋ ๊ณผ์ ์ forget gate, input gate, addition gate, output gate๋ฅผ ์ด์ฉํ ์ ๋ณด์ removal/filtering, multiplication/combining ๋ฐ addition ๊ฐ ๊ฐ๋ฅํ์ฌ ๊ฐ๊ฐ f(t), i(t) C~(t), O(t) ๊ธฐ๋ฅ์ ๊ตฌํํ์ฌ ์ฅ๊ธฐ ์์กด์ฑ ํ์ต์ ๋ณด๋ค ์ธ๋ฐํ๊ฒ ์ ์ด
๐ C.Gated Recurrent Unit (GRU)
- ๊ฒ์ดํธ ์ํ ์ฅ์น(GRU)๋ ์ฌ๋ผ์ง๋ ๊ฒฝ์ฌ ๋ฌธ์ ๋ฅผ ์ถ๊ฐ๋ก ํด๊ฒฐํ๊ธฐ ์ํ LSTM์ ๋ณํ
- ๊ทธ๋ฆผ 5 ๊ฐ์ด, ์ด ๋ฐฉ๋ฒ์ ์ ๊ท์ฑ์ ๊ฐ๊ฐ z(t), r(t) ๋ฐ s~(t) ๊ธฐ๋ฅ์ ๊ตฌํํ ์ ๋ฐ์ดํธ ๊ฒ์ดํธ, ๋ฆฌ์ ๊ฒ์ดํธ ๋ฐ ์ 3 ๊ฒ์ดํธ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ
- ๊ฐ ๊ฒ์ดํธ๋ ์ฌ์ ์ ๋ณด๋ฅผ ํํฐ๋ง, ์ฌ์ฉ ๋ฐ ๊ฒฐํฉํ๋ ๋ฐฉ๋ฒ์ ์ ์ดํ๋ ๋ฐ ์๋ก ๋ค๋ฅธ ์ญํ
- (1 - z(t)) • S(t-1)์ ์ํด ์ฃผ์ด์ง ๋ค์ ์ํ์ ๋ํ ์์ ์ฒซ ๋ฒ์งธ ์ฉ์ด๋ ๊ณผ๊ฑฐ๋ก๋ถํฐ ๋ฌด์์ ์ ์งํ ์ง๋ฅผ ๊ฒฐ์
- z(t) • S~(t)๋ ํ์ฌ ๋ฉ๋ชจ๋ฆฌ ๋ด์ฉ์์ ๋ฌด์์ ์์งํ ์ง๋ฅผ ๊ฒฐ์
๐ D.Transformer Model
- LSTMs๊ณผ GRUs ๋ถ๋ถ์ ์ผ๋ก RNNs์ ์ฌ๋ผ์ง๊ณ ์๋ ๊ฒฝ๋ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๊ณ ์์
- But, ํ์ฑํ ํจ์๋ก ์๊ณก์ ์ ์ ๊ณผ ์๊ทธ๋ชจ์ด๋ ํจ์์ ์ฌ์ฉ์ ๋ ๊น์ ์ธต์์ ๊ธฐ์ธ๊ธฐ ๋ถ๊ดด๋ฅผ ๊ณ์ ์ผ์ผํด
- transformer networks ๋ ์ ํ์ ์ผ๋ก ๊ณผ๊ฑฐ๋ก๋ถํฐ ์ค์ํ ์ ๋ณด๋ฅผ ๋ ๋ฌด๊ฒ ํ์ฉํ๋ ๊ด์ฌ ๊ธฐ๋ฅ์ ์ฌ์ฉ ๋๋ฌธ์ ์๊ฐ ์๋ฆฌ์ฆ์ ๋ํ ์ต์์ ์ฑ๋ฅ์ ๊ฒ์ผ๋ก ์๋ ค์ ธ ์์
- ๊ทธ๋ฆผ 6์ transformer networks ์ schematic ๋ฅผ ๋ณด์ฌ์ค
- ์ธ์ฝ๋์ ๋์ฝ๋๋ผ๋ ๋ถ๋ถ์ผ๋ก ๊ตฌ์ฑ
- w ์ look-back window ์ฐฝ ํฌ๊ธฐ
- k ๋ ํฅํ ์์ธกํด์ผ ํ ๋จ๊ณ ์.
- ๋์ฝ๋ ๋ถ๋ถ์ ๋์ฝ๋์ ๋ง์คํฌ๋ ์ดํ
์
(Masked Attention) ๋ฉ์ปค๋
- ๋์ฝ๋์ ํน์ง ๋ฒกํฐ๊ฐ ๋ ์ธ์ฝ๋ ์ถ๋ ฅ ์ค์์ ์ ํํ๋ ๋ฉํฐ ๋ฆฌ๋ ์ดํ ์ (Multi-ead Attention) ๋ฉ์ปค๋์ฆ ๊ฐ์ง
- Transformer ๋ recurrent ๋คํธ์ํฌ๊ฐ ์๋์ง๋ง positional encoding์ ์ฌ์ฉํ์ฌ ๋ฐ์ดํฐ์ ์๊ฐ์ ์์๋ฅผ ํ์
- ์ธ์ฝ๋๋ w ํฌ๊ธฐ์ look-back window ๋ก๋ถํฐ ๋ฐ์ดํฐ๋ฅผ ์ ๊ณตํ๊ณ ๋์ฝ๋๊ฐ ์ฌ์ฉํ ํผ์ฒ ๋ฒกํฐ๋ฅผ ์ถ๋ ฅ
- ํ๋ จ ์ค์ ๋์ฝ๋๋ ์ธ์ฝ๋์ ์ถ๋ ฅ๊ณผ ํจ๊ป ๋ชจ๋ธ๋ง๋ ๊ฒ์ผ๋ก ์์๋๋ ๋ฏธ๋ ๋ฐ์ดํฐ๋ ์ ๊ณต
- transformer networks ์ ์ฃผ์ ๊ธฐ๋ฅ์ ์ค์ํ ํน์ง๊ณผ ๊ณผ๊ฑฐ์ ๋ํฅ์ ์ฃผ์๋ฅผ ๊ธฐ์ธ์ด๋ ๋ฒ์ ๋ฐฐ์ฐ๋ ๋ฐ ๋์
4๏ธโฃ DATA AND EXPERIMENTS
- ์ฐ๋ฆฌ๋ UCI ์น์ฌ์ดํธ์ ๋ฒ ์ด์ง ๋๊ธฐ์ง ๋ฐ์ดํฐ ์ธํธ์ ๋ค ๊ฐ์ง ๊ธฐ๊ณ ํ์ต ๊ธฐ๋ฒ์ ์ ์ฉํ์ฌ ๋๊ธฐ์ง ์์ธก์ ์ํ ์๊ณ์ด ์์ธก(TSF)์ ์ํ
- ๋ ๊ฐ์ง ์ ํ์ ์คํ์ ์ํํ๋๋ฐ
- ํ๋๋ ์ด์ ์์ ์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ๋ค์ ์์ ์ ์์ธกํ๋ "์ฑ๊ธ ์คํ "
- ๋ค๋ฅธ ํ๋๋ ์ด์ ์์ ์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ๋ค์ ์ฌ๋ฌ ์์ ์ ์์ธกํ๋ "๋ฉํฐ ์คํ "
๐ A.Dataset
- ์ฌ์ฉํ ๋ฐ์ดํฐ ์ธํธ๋ UCI ์น์ฌ์ดํธ์ ์๊ฐ๋น ๋ฒ ์ด์ง ๋๊ธฐ ํ์ง ๋ฐ์ดํฐ ์ธ
- 2010๋ 1์ 1์ผ๋ถํฐ 2014๋ 12์ 31์ผ๊น์ง 5๋ ๋์์ ๋ฐ์ดํฐ๊ฐ ํฌํจ
- ๋งค์๊ฐ ์์ง๋์์ผ๋ฉฐ ๋ฐ์ดํฐ ์งํฉ์๋ 43,824๊ฐ์ ํ๊ณผ 13๊ฐ์ ์ด
- ์ฒซ ๋ฒ์งธ ์ด์ ๋จ์ํ ์ธ๋ฑ์ค์ด๋ฉฐ ๋ถ์์์ ๋ฌด์
- ๋ , ์, ์ผ ๋ฐ ์๊ฐ์ผ๋ก ํ์๋ ๋ค ๊ฐ์ ์ด์ "๋ -์-์ผ-์๊ฐ"์ด๋ผ๋ ๋จ์ผ ๊ธฐ๋ฅ์ผ๋ก ๊ฒฐํฉ
- 'PM2.5' ์ด์ด ๋์ ๋ณ์
- ๋ค๋ฅธ ๋ชจ๋ ๋ณ์(์๊ฐ๊ณผ ํจ๊ป)๊ฐ ์ ๋ ฅ ๊ธฐ๋ฅ์ผ๋ก ์ฌ์ฉ
- ์ด ์ด๋ฆ๊ณผ ์ค๋ช ์ ํ I์ ๋ช ์
- ์๊ฐ๊ณผ 'cbwd'๋ฅผ ์ ์ธํ ๋ชจ๋ ์ ๋ ฅ ๋ฐ ๋์ ํผ์ณ์ ๋ํ ์๊ณ์ด์ด ๊ทธ๋ฆผ 7์ ํ์
- ๋ฐ์ดํฐ ๋๋ฝ์ผ๋ก ์ธํด ์ผ๋ถ ํ(43,824๊ฐ ์ค 24๊ฐ)์ด ํ๊ธฐ
- ์ํซ ์๋ฒ ๋ฉ์ ํํฅ์ ๋ฒ์ฃผ์ ํน์ง์ ์ ์ฉ
- ๋ฐ์ดํฐ๋ Min-Max ์ ๊ทํ ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ [0, 1] ๋ฒ์๋ก ์ ๊ทํ
- ๋ฐ์ดํฐ๋ ๊ต์ก ์ธํธ(์ฒซ ๋ฒ์งธ 70% ํ)์ ํ ์คํธ ์ธํธ(๋ง์ง๋ง 30% ํ)๋ก ๊ตฌ๋ถ
๐ B.Experiments
- k = 1์ ์ฌ์ฉํ ์คํ์ ๋ฏธ๋์ ๋ํ ํ ๋ฒ์ ๋จ๊ณ๋ฅผ ์์ธกํ๊ณ ๋จ์ผ ๋จ๊ณ ์์ธก
- k > 1์ ์ฌ์ฉํ ์คํ์ ๋ฏธ๋์ ๋ํ ํ๋ ์ด์์ ์์ ์ ์์ธกํ๊ณ ๋ค๋จ๊ณ ์์ธก
- ๋ ์คํ ๋ชจ๋ ์
๋ ฅ์ผ๋ก ์ฌ์ฉ๋ ์ต๊ทผ ๊ณผ๊ฑฐ์ ๋ถ๋ถ์ ๋ํ๋ด๋ look-back window ์ ๋ค๋ฅธ ๊ฐ์ผ๋ก ์ํ๋์๋ค.
- 1, 2, 4, 8, 16์ผ์ ์ฐฝ ํฌ๊ธฐ๊ฐ ์คํ์ ๋ชจ๋ ์ฌ์ฉ
- ์ฐฝ ํฌ๊ธฐ๊ฐ ์์ธก ์ ํ๋์S ๋ฏธ์น๋ ์ํฅ์ ์ดํดํ๊ธฐ ์ํด ์ฐฝ ํฌ๊ธฐ์ ์ง์ ์ ํ์ด ์ ํ
- ๋ค๋จ๊ณ ์์ธก์ ํฅํ 1, 2, 4, 8, 16์๊ฐ ์์ ์ ๋๊ธฐ์ง ๊ฐ์ ์์ธกํ๋ ๋ฐ ์ฌ์ฉ
- 4๊ฐ์ ๋ฅ ๋ฌ๋ ๋ชจ๋ธ ๊ฐ๊ฐ์ ๋ํด ํ II์ ํ์๋ ๊ฒ์ฒ๋ผ ์๋ก ๋ค๋ฅธ ํ์ดํผ ํ๋ผ๋ฏธํฐ ์ค์ ์ ์๋
- ํ์ต ์๋(0.00001, 0.00005, 0.0001, 0.0005, 0.001)
- ๋ฐฐ์น ํฌ๊ธฐ(128, 256, 512)
- ์ตํฐ๋ง์ด์ (Adam, SGD)
๐ C.Measures of Evaluation
- ์์ค ํจ์๋ก ํ๊ท ์ ๊ณฑ ์ค์ฐจ(MSE)๋ฅผ ์ฌ์ฉ
- ํ๋ จ ๋ฐ ํ ์คํธ ์์ค์ ๋ค์๊ณผ ๊ฐ์ ํจ์๋ก ๊ณ์ฐ
- ๊ณผ์ ํฉ ๊ฐ๋ฅ์ฑ์ ๊ฐ์งํ๋ ์ํญ์ค
- ๊ทธ๋ฆผ 8, 9๋ 2013-07-04-09:00๋ถํฐ 2013-07-19-08:00๊น์ง ๋จ๊ธฐ๊ฐ ๋๊ธฐ์ง ์์ธก ๋ฐ ๊ด์ธก์น๋ฅผ ๋ํ๋ธ ๊ฒ
- ํ๊ท ์ ๋ ์ค์ฐจ(MAE)์ ๋ฃจํธ ํ๊ท ์ ๊ณฑ ์ค์ฐจ(RMSE)๋ ๋ฐฐ๊ฐ ๋ฐ๋ค ๋ฐ์ผ๋ก ๊ฐ๋ผ์์ ๊ฒ์ ๋ณด์ฌ์ฃผ๋ ํ์ค ๊ณต์์ ์ฌ์ฉํ์ฌ ๊ณ์ฐ
โ A.Predict Multiple Timesteps Ahead
- ๊ณ ์ ๋ look-back window ํฌ๊ธฐ์ ๋ํด ์๊ณ์ด ๊ฐ์ ์์ธกํ๋ ๋ฏธ๋์ ์๊ฐ์ธ k ๊ฐ์ ๋๋ฆฌ๋ฉด ๋ชจ๋ธ ์ฑ๋ฅ์ด ์ด๋ป๊ฒ ์ ํ๋๋์ง ์กฐ์ฌ
- ์๊ตฌ ์ฌํญ์ด ์ฆ๊ฐํจ์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ์ ํ๋ ๊ฒ์ผ๋ก ์์ํด๋ ๋ฌด๋ฐฉ
- TABLE III์ ๊ฐ ์ด์ MAE ๋ฐ RMSE ๊ฐ์ด k์ ๋ฐ๋ผ ์ฆ๊ฐํ๋ค๋ ์ฌ์ค์ ์ํด ํ์ธ
- transformer models ์ ์คํ์ 80%์์ RNN, LSTM ๋ฐ GRU๋ณด๋ค ์ฑ๋ฅ์ด ์ฐ์
- ๋ฏธ๋๋ฅผ 4์๊ฐ ์ด์ ์์ธกํด์ผ ํ ๊ฒฝ์ฐ ์์ธก ์ฑ๋ฅ์ด ๊ธ๊ฒฉํ ๋จ์ด์ง
โ B.Different Look-back Window Sizes
- ๋จ์ผ ๋จ๊ณ ๋ฐ ๋ค์ค ๋จ๊ณ ์์ธก์ ์ฑ๋ฅ์ด Look-back Window ํฌ๊ธฐ์ ์ํด ์ด๋ป๊ฒ ์ํฅ์ ๋ฐ๋์ง ์กฐ์ฌ
- ์คํ์ w = 24์๊ฐ, 48์๊ฐ, 96์๊ฐ, 192์๊ฐ, 384์๊ฐ์ผ๋ก ์ํ
- Single-step predictions : ํ IV๋ ์ฐ๋ฆฌ์ ์คํ ๊ฒฐ๊ณผ๋ฅผ ์์ฝ
- transformer network model ์ w( 96 96์๊ฐ)์ ๋ ํฐ ๊ฐ์ ๋ํด ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ณด๋ค ์ฑ๋ฅ์ด ์ฐ์
- attention ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์์ ์๋ ค์ง ๊ฐ์ ๊ณผ ์ผ์น
- ๋ ์์ ์ฐฝ ํฌ๊ธฐ(24์๊ฐ ๋๋ 48์๊ฐ)์ ๊ฒฝ์ฐ, GRU์ LSTM์ด RNN๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ
- ์ด๋ GRU์ LSTM์ด RNN๋ณด๋ค ๋ ๊ธด ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ ๋ถ๋ถ์ ์ผ๋ก ์ฌ๋ผ์ง๋ ๊ธฐ์ธ๊ธฐ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค๋ ์ฃผ์ฅ๊ณผ ์ผ์น
- Single-step predictions์ ๊ฒฝ์ฐ ์์ ์ฐฝ ํฌ๊ธฐ๋ง ์ ํํ ์ ์๋ ๊ฒฝ์ฐ LSTM๊ณผ GRU๊ฐ ๋ ๋์ ์ ํ
- ๋ถํํ๋, Transformer ๋คํธ์ํฌ๋ ์ฐฝ์ด ๋ ํด์๋ก ์์ ์์ค์ด ์ฆ๊ฐํ๊ธฐ ๋๋ฌธ์ ํจ์ฌ ๋ ํฐ ์ฐฝ ํฌ๊ธฐ๋ฅผ ์ฌ์ฉํ๋๋ผ๋ ๋ ๋์ ์ฑ๋ฅ์ ์ ๊ณตํ์ง ๋ชปํจ
- ๊ฒ๋ค๊ฐ, ๋ ์์ ์ฐฝ๋ค์ ๋ ํจ์จ์ ์ธ ๋ฐฉ๋ฒ๋ค๋ก ์ด์ด์ง ๊ฐ๋ฅ์ฑ์ด ์์
- ์ด์ ์์ ์ ์๊ณ์ด ๊ฐ๋ง ๋ณด๊ณ ํ๋ ์์ธก์ ๋ํ ๋จ์ํ ๊ธฐ์ค์ ์ ๊ทผ ๋ฐฉ์์ ๊ฐ๊ฐ 16.624์ 26.828์ MAE ๊ฐ์ ๊ฐ์ง
- Multi-step predictions : ํ IV๋ w์ ๋ค์ํ ๊ฐ์ ๋ํด k = 3์๊ฐ ํ๋ฅผ ์์ธกํ๋ ์คํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค
- transformer network model ๋ ๋ค๋ฅธ ๋ชจ๋ ๋๊ตฌ๋ณด๋ค ์ฑ๋ฅ์ด ์ฐ์
- ์ต์๊ฐ์ด w = 48 ๋๋ 96์๊ฐ ๋์ ๋๋ฌํ๊ธฐ ๋๋ฌธ์ ์ฑ๋ฅ ๋ณํ๋ ๋จ์กฐ๋กญ์ง ์์ผ๋ฉฐ, ์ด๋ ํ์ต ๋ฐฉ๋ฒ์ ๋ํ ์ต์ ์ ๊ฐ์ผ ์ ์์์ ์์ฌ
- ๊ทธ๋ฆผ 9๋ ์คํ์ ๋ํ ์์ธก์ ์๊ฐํ
- T1, T2, T3 ๊ณก์ ์ k = 1, 2, 3์๊ฐ์ ๋ํ ์คํ ๊ฒฐ๊ณผ๋ฅผ ๋ํ๋
5๏ธโฃ CONCLUSIONS
- ๋ค ๊ฐ์ง ๋ค๋ฅธ ๋ฅ ๋ฌ๋ ๋ชจ๋ธ์ ์ฌ์ฉํ ์คํ์์ ์ป์ ๊ฒฐ๋ก ์ ๋ค์๊ณผ ๊ฐ์ด ์์ฝ
- Transformer network models ์ ๋ ๋จผ ๋ฏธ๋๋ฅผ ์์ธกํ ๋ ๊ฐ์ฅ ์ ์ํ
- LSTM๊ณผ GRU๋ ๋จ๊ธฐ ์์ธก์์ RNN์ ๋ฅ๊ฐ
- lookback window ํฌ๊ธฐ์ ๋ํ ์ฑ๋ฅ ์์กด์ฑ์ ๊ฒฝ์ฐ ๋ก์ปฌ ์ต์๊ฐ์ด ํ์
- single-step predictions ์ ๊ฒฝ์ฐ ์ฐฝ ํฌ๊ธฐ์ ์ต์ ๊ฐ์ w = 24์๊ฐ
- ๋ค๋จ๊ณ ์์ธก์ ๊ฒฝ์ฐ ์ต์ ๊ฐ์ w = 48 ๋๋ 96์๊ฐ (k = 3์๊ฐ ์ ์์ธก ์)
- multi-step predictions ์ ๊ฒฝ์ฐ ๋ณ์๊ธฐ๊ฐ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ณด๋ค ์ฑ๋ฅ์ด ์ฐ์
- ๋จ์ผ ๋จ๊ณ ์์ธก์ ๊ฒฝ์ฐ, ๋ณํ๊ธฐ๋ ์กฐํ ์ฐฝ์ด ๋ ๊ธด ๊ฒฝ์ฐ์๋ง ์ฑ๋ฅ์ด ์ฐ์
- Transformer network models ์ ๋ ๋จผ ๋ฏธ๋๋ฅผ ์์ธกํ ๋ ๊ฐ์ฅ ์ ์ํ
'๐ฉโ๐ป ์ธ๊ณต์ง๋ฅ (ML & DL) > Serial Data' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
LSTM(+GRU)์ ์ด์ฉํ ์ผ์ฑ์ ์(+NAVER) ์ฃผ๊ฐ ์์ธกํ๊ธฐ (2) | 2022.09.22 |
---|---|
[Kaggle] Time-series data analysis using LSTM (1) | 2022.09.20 |
๋ค์ํ ์ ํ์ Time series forecasting model (์๊ณ์ด ๋ฐ์ดํฐ) (1) | 2022.09.19 |
[Kaggle] Smart Home Dataset with weather Information (1) | 2022.09.16 |
[Kaggle] Web traffic time series forecast (0) | 2022.09.16 |