๐ ๊ณต๋ถํ๋ ์ง์ง์ํ์นด๋ ์ฒ์์ด์ง?
[๋ ผ๋ฌธ๋ฆฌ๋ทฐ] Temporal Fusion Transformersfor Interpretable Multi-horizon Time Series Forecasting ๋ณธ๋ฌธ
[๋ ผ๋ฌธ๋ฆฌ๋ทฐ] Temporal Fusion Transformersfor Interpretable Multi-horizon Time Series Forecasting
์ง์ง์ํ์นด 2022. 9. 23. 14:18220923 ์์ฑ
<๋ณธ ๋ธ๋ก๊ทธ๋ Bryan Lim, Sercan O. Arik, Nicolas Loeff, Tomas Pfister ๋์ ๋ ผ๋ฌธ ์ฐธ๊ณ ํด์ ๊ณต๋ถํ๋ฉฐ ์์ฑํ์์ต๋๋ค :-) >
https://arxiv.org/abs/1912.09363
Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting
Multi-horizon forecasting problems often contain a complex mix of inputs -- including static (i.e. time-invariant) covariates, known future inputs, and other exogenous time series that are only observed historically -- without any prior information on how
arxiv.org
๐ฃ Abstract
- Multi-horizon ์์ธก์๋ ์ข ์ข ์ ์ (์ฆ, ์ ์ )์ ํฌํจํ๋ ์ ๋ ฅ์ ๋ณต์กํ ํผํฉ์ด ํฌํจ
- ์๊ฐ ๋ถ๋ณ) ๊ณต๋ณ๋, ์๋ ค์ง ๋ฏธ๋ ์ ๋ ฅ ๋ฐ ๊ณผ๊ฑฐ์๋ง ๊ด์ฐฐ๋๋ ๋ค๋ฅธ ์ธ์ ์๊ณ์ด์ ๋์๊ณผ ์ด๋ป๊ฒ ์ํธ ์์ฉํ๋์ง์ ๋ํ ์ฌ์ ์ ๋ณด๊ฐ ์์
- ์ผ๋ฐ์ ์ผ๋ก ์ค์ ์๋๋ฆฌ์ค์ ์๋ ๋ชจ๋ ๋ฒ์์ ์ ๋ ฅ์ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ ๋ฐํ์ง ์๋ "๋ธ๋ ๋ฐ์ค"๋ชจ๋ธ
๋ณธ ๋
ผ๋ฌธ์์๋ ๊ณ ์ฑ๋ฅ ๋ค์ค ์งํ์ ์์ธก๊ณผ ์๊ฐ์ ๋์ญํ์ ๋ํ ํด์ ๊ฐ๋ฅํ ํต์ฐฐ๋ ฅ์ ๊ฒฐํฉํ
์๋ก์ด ๊ด์ฌ ๊ธฐ๋ฐ ์ํคํ
์ฒ์ธ ์๊ฐ ์ตํฉ ๋ณํ๊ธฐ(TFT)๋ฅผ ์๊ฐ
emporal Fusion Transformer (TFT)
- ์๋ก ๋ค๋ฅธ ์ค์ผ์ผ์์ ์๊ฐ ๊ด๊ณ๋ฅผ ํ์ตํ๊ธฐ ์ํด TFT๋ ๋ก์ปฌ ์ฒ๋ฆฌ๋ฅผ ์ํด ๋ฐ๋ณต ๋ ์ด์ด๋ฅผ ์ฌ์ฉํ๊ณ ์ฅ๊ธฐ ์ข ์์ฑ์ ์ํด ํด์ ๊ฐ๋ฅํ ์์ฒด์ฃผ์ ๋ ์ด์ด๋ฅผ ์ฌ์ฉ
- TFT๋ ํน์ํ ๊ตฌ์ฑ ์์๋ฅผ ์ฌ์ฉํ์ฌ ๊ด๋ จ ๊ธฐ๋ฅ์ ์ ํํ๊ณ ์ผ๋ จ์ ๊ฒ์ดํ ๋ ์ด์ด๊ฐ ๋ถํ์ํ ๊ตฌ์ฑ ์์๋ฅผ ์ต์ ํ๋ฏ๋ก ๊ด๋ฒ์ํ ์๋๋ฆฌ์ค์์ ๊ณ ์ฑ๋ฅ์ ๊ตฌํ๋ค์ํ ์ค์ ๋ฐ์ดํฐ์ ์์ ๊ธฐ์กด ๋ฒค์น๋งํฌ ๋๋น ์๋นํ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ฃผ๋ฉฐ, TFT์ ์ธ ๊ฐ์ง ์ค์ฉ์ ํด์ ๊ฐ๋ฅ์ฑ ํ์ฉ ์ฌ๋ก๋ฅผ ๋ณด์ฌ์ค
๐ key words
Deep learning, Interpretability, Time series, Multi-horizonforecasting, Attention mechanisms, Explainable AI.
1๏ธโฃ INTRODUCTION
Multi-horizon forecasting
- ์ฌ๋ฌ ๋ฏธ๋ ์๊ฐ ๋จ๊ณ์์ ๊ด์ฌ ๋ณ์๋ฅผ ์์ธกํ๋ ๊ฒ์ ์๊ณ์ด ๊ธฐ๊ณ ํ์ต์์ ์ค์ํ ๋ฌธ์
- ํ ๋จ๊ณ ์์ ์์ธก๊ณผ ๋ฌ๋ฆฌ ์ฌ์ฉ์๊ฐ ์ ์ฒด ๊ฒฝ๋ก์์ ์ถ์ ์ ์ก์ธ์คํ ์ ์๊ฒํ์ฌ ํฅํ ์ฌ๋ฌ ๋จ๊ณ์์ ์์ ์ ํ๋์ ์ต์ ํ ๊ฐ๋ฅ์ผ ํจ
- ์ค์ ๋ค์ค ์ํ์ ์์ธก ์์ฉ ํ๋ก๊ทธ๋จ์ ์ผ๋ฐ์ ์ผ๋ก ๊ทธ๋ฆผ 3๊ณผ ๊ฐ์ด ๋ค์ํ ๋ฐ์ดํฐ ์์ค์ ์ก์ธ์ค
- ๋ฏธ๋์ ๋ํ ์๋ ค์ง ์ ๋ณด(์: ๋ค๊ฐ์ค๋ ํด์ผ ๋ ์ง), ๊ธฐํ ์ธ์์ ์๊ณ์ด(์: ๊ณ ๊ฐ ์ด๋ ๊ธฐ๋ก) ๋ฐ ์ ์ ๋ฉํ๋ฐ์ดํฐ(์: ์์ ์์น)๋ฅผ ํฌํจํ์ฌ ์ํธ ์์ฉํ๋ ๋ฐฉ์์ ๋ํ ์ฌ์ ์ง์ ์์ด ์ด๋ฃจ์ด์ง
- ๋ฐ์ดํฐ ์์ค์ ์ด๋ฌํ ์ด์ง์ฑ๊ณผ ์ํธ ์์ฉ์ ๋ํ ์ ๋ณด๊ฐ ๊ฑฐ์ ์๊ธฐ ๋๋ฌธ์ ๋ค์ค ์ํ ์๊ณ์ด ์์ธก์ ํนํ ์ด๋ ค์
- ์ฌ์ธต ์ ๊ฒฝ๋ง(DNN)์ ๋ค์ค ์ํ์ ์์ธก์ ์ ์ ๋ ๋ง์ด ์ฌ์ฉ๋์ด ์ ํต์ ์ธ ์๊ณ์ด ๋ชจ๋ธ์ ๋นํด ๊ฐ๋ ฅํ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ค [6, 7, 8]
- ๋ง์ ์ํคํ
์ฒ๊ฐ ๋ฐ๋ณต ์ ๊ฒฝ๋ง(RNN) ์ํคํ
์ฒ์ ๋ณํ[9, 6, 10]์ ์ด์ ์ ๋ง์ถ๊ณ ์์ง๋ง, ์ต๊ทผ์ ๊ฐ์ ์ ๋ํ Transformer๊ธฐ๋ฐ ๋ชจ๋ธ[12]์ ํฌํจํ์ฌ ๊ณผ๊ฑฐ [11]์์ ๊ด๋ จ ์๊ฐ ๋จ๊ณ์ ์ ํ์ ํฅ์์ํค๊ธฐ ์ํด attention-based ๋ฐฉ๋ฒ์ ์ฌ์ฉ
- ์๊ณ์ด ๋ชจ๋ธ์ ์ต๊ทผ ๋ง์ ๊ฐ์ ์ ๊ณ ์ ํ ๋ฐ์ดํฐ ํน์ฑ์ ๊ฐ์ง ์ํคํ ์ฒ์ ์ ๋ ฌ์์ ๋น๋กฏ๋จ [13, 14]
- multi-horizon forecasting ์ ์ํ ์ ์ ํ inductive ํธํฅ์ ๊ฐ์ง ๋คํธ์ํฌ๋ฅผ ์ค๊ณํจ์ผ๋ก์จ ์ ์ฌํ ์ฑ๋ฅ ์ด๋์ ์ป์ ์ ์๋ค๊ณ ์ฃผ์ฅ
- ์ผ๋ฐ์ ์ธ ๋ค์ค ์ํ์ ์์ธก ์
๋ ฅ์ ์ด์ง์ฑ์ ๊ณ ๋ คํ์ง ์๋ ๊ฒ ์ธ์๋, ๋๋ถ๋ถ์ ์ต์ ์ํคํ
์ฒ๋ ์์ธก์ด ๋ง์ ๋งค๊ฐ๋ณ์ ๊ฐ์ ๋ณต์กํ ๋น์ ํ ์ํธ ์์ฉ์ ์ํด ์ ์ด๋๋ '๋ธ๋๋ฐ์ค' ๋ชจ๋ธ
- ๋ชจ๋ธ์ด ์์ธก์ ๋๋ฌํ๋ ๋ฐฉ๋ฒ์ ์ค๋ช ํ๊ธฐ ์ด๋ ต๊ฒ ๋ง๋ค๊ณ , ๊ฒฐ๊ณผ์ ์ผ๋ก ์ฌ์ฉ์๊ฐ ๋ชจ๋ธ์ ์ถ๋ ฅ์ ์ ๋ขฐํ๊ณ ๋ชจ๋ธ ๋น๋๊ฐ ์ด๋ฅผ ๋๋ฒ๊ทธํ๋ ๊ฒ์ ์ด๋ ต๊ฒ ๋ง๋ฆ
- DNN์ ๋ํด ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋๋ ์ค๋ช ๊ฐ๋ฅ์ฑ ๋ฐฉ๋ฒ์ ์๊ณ์ด์ ์ ์ฉํ๊ธฐ์ ์ ํฉํ์ง ์์
- ๊ธฐ์กด ํ์์์ ์ฌํ ๋ฐฉ๋ฒ(์: LIME [15] ๋ฐ SHAP [16])์ ์ ๋ ฅ ๊ธฐ๋ฅ์ ์๊ฐ ์์๋ฅผ ๊ณ ๋ คํ์ง ์์
- ex) LIME์ ๊ฒฝ์ฐ surrogate ๋ชจ๋ธ์ด ๊ฐ ๋ฐ์ดํฐ ํฌ์ธํธ์ ๋ํด ๋
๋ฆฝ์ ์ผ๋ก ๊ตฌ์ฑ๋๊ณ SHAP์ ๊ฒฝ์ฐ ์ธ์ ์๊ฐ ๋จ๊ณ์ ๋ํด ๊ธฐ๋ฅ์ด ๋
๋ฆฝ์ ์ผ๋ก ๊ณ ๋ ค
- ์ฌํ ์ ๊ทผ ๋ฐฉ์์ ์๊ฐ ๋จ๊ณ ๊ฐ์ ์ข ์์ฑ์ด ์ผ๋ฐ์ ์ผ๋ก ์๊ณ์ด์์ ์ค์ํ๋ฏ๋ก ์ค๋ช ํ์ง์ด ์ข์ง ์์
- ๋ฐ๋ฉด์ Transformer ์ํคํ ์ฒ[17]์ ๊ฐ์ด ์ฃผ๋ก ์ธ์ด ๋๋ ์์ฑ๊ณผ ๊ฐ์ ์์ฐจ์ ๋ฐ์ดํฐ์ ๋ํ ๊ณ ์ ํ ํด์ ๊ฐ๋ฅ์ฑ์ ๊ฐ์ง ์ผ๋ถ attention ๊ธฐ๋ฐ ์ํคํ ์ฒ๊ฐ ์ ์๋จ
- ์ด๋ฅผ ์ ์ฉํ๊ธฐ ์ํ ๊ธฐ๋ณธ์ ์ธ ์ฃผ์ ์ฌํญ์ ๋ค์ค ์ํ์ ์์ธก์๋ ์ธ์ด๋ ์์ฑ๊ณผ ๋ฌ๋ฆฌ ๋ค์ํ ์ ํ์ ์ ๋ ฅ ๊ธฐ๋ฅ์ด ํฌํจ๋๋ค๋ ๊ฒ
- ๊ธฐ์กด ํ์์์ ์ด๋ฌํ ์ํคํ ์ฒ๋ ๋ค์ค ์ํ ์์ธก์ ์ํ ๊ด๋ จ ์๊ฐ ๋จ๊ณ์ ๋ํ ํต์ฐฐ๋ ฅ์ ์ ๊ณตํ ์ ์์ง๋ง ์ฃผ์ด์ง ์๊ฐ ๋จ๊ณ์์ ๋ค์ํ ๊ธฐ๋ฅ์ ์ค์์ฑ์ ๊ตฌ๋ณํ ์๋ ์์
- ๊ณ ์ฑ๋ฅ์ ์ํ ๋ค์ค ์ํ ์์ธก์์ ๋ฐ์ดํฐ์ ์ด์ง์ฑ์ ํด๊ฒฐํ๋ ์๋ก์ด ๋ฐฉ๋ฒ์ ๊ฒฝ์ฐ ์ฌ์ฉ ์ฌ๋ก์ ์๊ตฌ ์ฌํญ์ ๊ฐ์ํ ๋ ์ด๋ฌํ ์์ธก์ ํด์ ๊ฐ๋ฅํ๊ฒ ๋ง๋๋ ์๋ก์ด ๋ฐฉ๋ฒ๋ ํ์
- ์ฐ๋ฆฌ๋ ์๋ก์ด ํํ์ ํด์ ๊ฐ๋ฅ์ฑ์ ๊ฐ๋ฅํ๊ฒ ํ๋ ๋์์ ๊ณ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ multi-horizon ์์ธก์ ์ํ attention๊ธฐ๋ฐ DNN ์ํคํ
์ฒ์ธ TFT(Temporal Fusion Transformer)๋ฅผ ์ ์
- ์ํคํ
์ฒ๋ฅผ ๋ค์ค ์ํ ์์ธก์ ๊ณตํต์ ์ธ ์ ์ฌ์ ์
๋ ฅ ๋ฐ ์๊ฐ ๊ด๊ณ์ ์ ์ฒด ๋ฒ์์ ์ ๋ ฌํ๋ ์ฌ๋ฌ ์ฐธ์ ํ ์์ด๋์ด๋ฅผ ๋์
- (1) ์ ์ ๊ณต๋ณ๋ ์ธ์ฝ๋๋ฅผ ํตํฉ. ๋คํธ์ํฌ์ ๋ค๋ฅธ ๋ถ๋ถ์์ ์ฌ์ฉํ๊ธฐ ์ํด ์ปจํ ์คํธ ๋ฒกํฐ๋ฅผ ์ธ์ฝ๋ฉ
- (2) ์ ์ฒด์ ๊ฑธ์น ๊ฒ์ดํ ๋ฉ์ปค๋์ฆ ๋ฐ ๊ด๋ จ ์๋ ์ ๋ ฅ์ ๊ธฐ์ฌ๋ฅผ ์ต์ํํ๊ธฐ ์ํ ์ํ ์ข ์ ๋ณ์ ์ ํ
- (3) ์๋ ค์ง ์ ๋ ฅ ๋ฐ ๊ด์ฐฐ๋ ์ ๋ ฅ์ ๋ก์ปฌ๋ก ์ฒ๋ฆฌํ๊ธฐ ์ํ ์ํ์ค ๋ ์ํ์ค ๋ ์ด์ด
- (4) ๋ฐ์ดํฐ ์ธํธ ๋ด์ ์กด์ฌํ๋ long-term ์ข ์์ฑ์ ํ์ตํ๊ธฐ ์ํ temporal self-attention ๋์ฝ๋
- ํน์ ๊ตฌ์ฑ ์์๋ฅผ ์ฌ์ฉํ๋ฉด ํด์ ๊ฐ๋ฅ์ฑ๋ ๋์์ง
- TFT๊ฐ ์ธ ๊ฐ์ง ๊ฐ์น ์๋ ํด์ ๊ฐ๋ฅ์ฑ ์ฌ์ฉ ์ฌ๋ก๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค๋ ๊ฒ์ ๋ณด์
- ์ฌ์ฉ์๊ฐ (i) ์์ธก ๋ฌธ์ ์ ๋ํ ์ ์ธ๊ณ์ ์ผ๋ก ์ค์ํ ๋ณ์
- (ii) ์ง์์ ์ธ ์๊ฐ ํจํด ๋ฐ
- (iii) ์ค์ํ ์ด๋ฒคํธ๋ฅผ ์๋ณํ๋๋ก ๋์
- TFT๊ฐ ์ ๊ณตํ๋ insights ๊ณผ benefits ๋ฟ๋ง ์๋๋ผ TFT๊ฐ ์ค์ ๋ก ์ด๋ป๊ฒ ์ ์ฉ๋ ์ ์๋์ง ๋ณด์ฌ์ค
- ์ํคํ
์ฒ๋ฅผ ๋ค์ค ์ํ ์์ธก์ ๊ณตํต์ ์ธ ์ ์ฌ์ ์
๋ ฅ ๋ฐ ์๊ฐ ๊ด๊ณ์ ์ ์ฒด ๋ฒ์์ ์ ๋ ฌํ๋ ์ฌ๋ฌ ์ฐธ์ ํ ์์ด๋์ด๋ฅผ ๋์
2๏ธโฃ Related Work
๐ค Multi-horizon Forecasting ์ ์ํ DNN :
- ์ต๊ทผ์ ๋ฅ๋ฌ๋ ๋ฐฉ๋ฒ์ autoregressive ๋ชจ๋ธ[9, 6, 12]์ ์ฌ์ฉํ๋ ๋ฐ๋ณต ์ ๊ทผ ๋ฐฉ์๊ณผ sequence-to-sequence ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ direct ๋ฐฉ์[10, 11]์ผ๋ก ๋ถ๋ฅ
- Iterated ์ ๊ทผ ๋ฐฉ์์ ํ ๋จ๊ณ ์์๊ฐ๋ ์์ธก ๋ชจ๋ธ์ ํ์ฉํ๋ฉฐ, ์์ธก์ ๋ฏธ๋ ์
๋ ฅ์ ์ฌ๊ท์ ์ผ๋ก ๊ณต๊ธํ์ฌ ์ป์ ๋ค๋จ๊ณ ์์ธก์ ์ฌ์ฉ
- LSTM(Long Short-Term Memory)
- ์ ์ธต๋ LSTM ๋ ์ด์ด๋ฅผ ์ฌ์ฉํ์ฌ one-step-ahead Gaussian predictive distributions ์ ๋งค๊ฐ๋ณ์๋ฅผ ์์ฑํ๋ Deep AR[9]๊ณผ ๊ฐ์ด ๊ณ ๋ ค
- DSSM(Deep State-Space Models)[6]
- LSTM์ ํ์ฉํ์ฌ Kalman ํํฐ๋ง์ ํตํด ์์ฑ๋ ์์ธก ๋ถํฌ์ ํจ๊ป ๋ฏธ๋ฆฌ ์ ์๋ ์ ํ ์ํ ๊ณต๊ฐ ๋ชจ๋ธ์ ๋งค๊ฐ๋ณ์๋ฅผ ์์ฑํ๋ ์ ์ฌํ ์ ๊ทผ ๋ฐฉ์์ ์ฑํํ๊ณ [21]์ ๋ค๋ณ๋ ์๊ณ์ด ๋ฐ์ดํฐ์ ๋ํ ํ์ฅ์ ์ฌ์ฉ
- Transformer ๊ธฐ๋ฐ ์ํคํ
์ฒ๊ฐ [12]์์ ํ์
- ์์ธกํ๋ ๋์ receptive field ์ ํฌ๊ธฐ๋ฅผ ์ฆ๊ฐ์ํค๊ธฐ ์ํด local ์ฒ๋ฆฌ ๋ฐ sparse attention ๋ฉ์ปค๋์ฆ์ ์ํ ์ปจ๋ณผ๋ฃจ์ ๊ณ์ธต์ ์ฌ์ฉ์ ์ ์
- LSTM(Long Short-Term Memory)
- ๋จ์ํจ์๋ ๋ถ๊ตฌํ๊ณ iterative ๋ฐฉ๋ฒ์ target ๋ฅผ ์ ์ธํ ๋ชจ๋ ๋ณ์์ ๊ฐ์ด ์์ธก ์์ ์ ์๋ ค์ ธ ์๋ค๋ ๊ฐ์ ์ ์์กด
- target ๋ง ๋ฏธ๋ ์ ๋ ฅ์ recursively ์ผ๋ก ๊ณต๊ธ๋์ด์ผ ํจ
- ๋ง์ ์ค์ ์๋๋ฆฌ์ค์์ ์ฌ์ ์ ์๋ ค์ง์ง ์์ ๋ง์ ์ ์ฉํ time-varying ์
๋ ฅ์ด ์กด์ฌ
- iterative ์ ๊ทผ ๋ฐฉ์์์๋ straightforward ์ฌ์ฉ์ด ์ ํ
- but TFT๋ ์
๋ ฅ์ ๋ค์์ฑ์ ๋ช
์์ ์ผ๋ก ์ค
- ์์ฐ์ค๋ฝ๊ฒ static covariates ๊ณผ (๊ณผ๊ฑฐ ๊ด์ฐฐ๋ ๊ฒ๊ณผ ๋ฏธ๋์ ์๋ ค์ง) time-varying ์ ๋ ฅ์ ์ฒ๋ฆฌ
- ๋์กฐ์ ์ผ๋ก, direct ๋ฐฉ๋ฒ์ ๊ฐ ์๊ฐ ๋จ๊ณ์์ ๋ฏธ๋ฆฌ ์ ์๋ ์ฌ๋ฌ ๊ธฐ๊ฐ์ ๋ํ ์์ธก์ ๋ช ์์ ์ผ๋ก ์์ฑํ๋๋ก ํ๋ จ
- ๊ทธ๋ค์ ์ํคํ
์ฒ๋ ์ผ๋ฐ์ ์ผ๋ก sequence-to-sequence ๋ชจ๋ธ์ ์์กด
- LSTM์ ๊ณผ๊ฑฐ์ ์ ๋ ฅ์ ์์ฝํ๊ณ ๋ฏธ๋ ์์ธก์ ์์ฑํ๋ ๋ค์ํ ๋ฐฉ๋ฒ์ ์ธ์ฝ๋ฉ
- Multi-horizon Quantile Recurrent Forecaster(MQRNN)[10]๋ LSTM ๋๋ ์ปจ๋ณผ๋ฃจ์ ์ธ์ฝ๋๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ horizon์ ๋ํด multi-layer perceptrons (MLP)์ ๊ณต๊ธ๋๋ context vectors๋ฅผ ์์ฑ
- [11]์์ multi-modal attention ์ฃผ์ ๋ฉ์ปค๋์ฆ์ bi-directional LSTM ๋์ฝ๋์ ๋ํ context vectors ๋ฅผ ๊ตฌ์ฑํ๊ธฐ ์ํด LSTM ์ธ์ฝ๋์ ํจ๊ป ์ฌ์ฉ
- LSTM ๊ธฐ๋ฐ iterative ๋ฐฉ๋ฒ๋ณด๋ค ์ฑ๋ฅ์ด ์ฐ์ํจ์๋ ๋ถ๊ตฌํ๊ณ ์ด๋ฌํ standard direct ๋ฐฉ๋ฒ์ ํด์ ๊ฐ๋ฅ์ฑ(interpretability )์ ์ฌ์ ํ ์ด๋ ค์
- ๋์กฐ์ ์ผ๋ก, ์ฐ๋ฆฌ๋ attention ํจํด์ ํด์ํจ์ผ๋ก์จ TFT๊ฐ ์๊ฐ ์ญํ์ ๋ํ ํต์ฐฐ๋ ฅ ์๋ ์ค๋ช ์ ์ ๊ณตํ ์ ์๊ณ ๋ค์ํ ๋ฐ์ดํฐ ์ธํธ์์ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ์ ์ง
๐ค Time Series Interpretability with Attention :
- Attention ๋ฉ์ปค๋์ฆ์ translation [17], ์ด๋ฏธ์ง ๋ถ๋ฅ[22] ๋๋ tabular ํ์ต[23]์ ์ฌ์ฉ๋์ด attention weights ์ ํฌ๊ธฐ๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ ์ธ์คํด์ค์ ๋ํ ์ ๋ ฅ์ ๋๋๋ฌ์ง(salient) ๋ถ๋ถ์ ์๋ณ
- LSTM ๊ธฐ๋ฐ[25] ๋ฐ transformer๊ธฐ๋ฐ[12] ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํ์ฌ ํด์ ๊ฐ๋ฅ์ฑ(interpretability)์ด ์๋ ์๊ณ์ด์ ๋ง๊ฒ ์กฐ์
- but, static covariates ์ ์ค์์ฑ์ ๊ณ ๋ คํ์ง ์๊ณ ์ํ(์์ ๋ฐฉ๋ฒ์ ๊ฐ ์ ๋ ฅ์์ ๋ณ์๋ฅผ ํผํฉํ๊ธฐ ๋๋ฌธ)
- TFT๋ ๊ธฐ์ฌ ์๊ฐ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ ์ ๋ ฅ์ ๊ฒฐ์ ํ๊ธฐ ์ํด self-attention ์ธ์ ๊ฐ ์๊ฐ ๋จ๊ณ์์ static ๊ธฐ๋ฅ์ ๋ํด ๋ณ๋์ encoder-decoder attention๋ฅผ ์ฌ์ฉํ์ฌ ์ด๋ฅผ ์ํ
๐ค Instance-wise Variable Importance with DNNs:
- Instance (์ฆ, ์ํ)๋ณ variable ์ค์๋๋ ์ฌํ ์ค๋ช ๋ฐฉ๋ฒ[15, 16, 26]๊ณผ ๋ณธ์ง์ ์ผ๋ก ํด์ ๊ฐ๋ฅํ ๋ชจ๋ธ[27, 24]์ ์ฌ์ฉํ์ฌ ์ป์
- ์ฌํ(post-hoc) ์ค๋ช
๋ฐฉ๋ฒ
- ex) LIME [15], SHAP [16] ๋ฐ RL-LIM [26]์ ์ฌ์ ํ๋ จ๋ ๋ธ๋๋ฐ์ค ๋ชจ๋ธ์ ์ ์ฉ๋๋ฉฐ ์ข ์ข ๋๋ฆฌ(surrogate) ํด์ ๊ฐ๋ฅํ ๋ชจ๋ธ๋ก ์ถ์ถํ๊ฑฐ๋ feature ์์ฑ์ผ๋ก ๋ถํดํ๋ ๊ฒ์ ๊ธฐ๋ฐ์ผ๋ก ํจ
- ์ ๋ ฅ์ ์๊ฐ ์์๋ฅผ ๊ณ ๋ คํ๋๋ก ์ค๊ณ๋์ง ์์์ผ๋ฏ๋ก ๋ณต์กํ ์๊ณ์ด ๋ฐ์ดํฐ์ ๋ํ ์ฌ์ฉ์ด ์ ํ
- ๋ณธ์ง์ ์ผ๋ก ํด์ ๊ฐ๋ฅํ ๋ชจ๋ธ๋ง ์ ๊ทผ ๋ฐฉ์์ ๊ธฐ๋ฅ ์ ํ์ ์ํ ๊ตฌ์ฑ ์์๋ฅผ ์ํคํ ์ฒ์ ์ง์ ๊ตฌ์ถ
- ์๊ณ์ด ์์ธก์ ๊ฒฝ์ฐ time-dependent ๋ณ์ ๊ธฐ์ฌ๋๋ฅผ ๋ช
์์ ์ผ๋ก ์๋ํ(quantifying)ํ๋ ๊ฒ์ ๊ธฐ๋ฐ
- ex) ํด์ ๊ฐ๋ฅํ Multi-Variable LSTM[27]์ ๊ฐ ๋ณ์๊ฐ ๊ณ ์ ํ memory segment ์ ๊ธฐ์ฌํ๋๋ก ์จ๊ฒจ์ง ์ํ๋ฅผ ๋ถํ ํ๊ณ ๋ณ์ ๊ธฐ์ฌ๋ฅผ ๊ฒฐ์ ํ๊ธฐ ์ํด ๋ฉ๋ชจ๋ฆฌ ์ธ๊ทธ๋จผํธ์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌ
- ์๊ฐ์ ์ค์๋์ ๋ณ์ ์ ํ์ ๊ฒฐํฉํ๋ ๋ฐฉ๋ฒ๋ [24]์์ ๊ณ ๋ ค๋์์ผ๋ฉฐ, ๊ฐ๊ฐ์ attention ๊ฐ์ค์น๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋จ์ผ ๊ธฐ์ฌ ๊ณ์๋ฅผ ๊ณ์ฐ
- but, ํ ๋จ๊ณ ์์ ์์ธก๋ง ๋ชจ๋ธ๋งํ๋ ๋จ์ ์ธ์๋ ๊ธฐ์กด ๋ฐฉ๋ฒ์ global temporal dynamics ์ ๋ํ insights ์ ์ ๊ณตํ์ง ์๊ณ attention ๊ฐ์ค์น์ instance (์ฆ, ์ํ๋ณ) ํด์์ ์ค์ ์ ๋
- ๋์กฐ์ ์ผ๋ก, Sec. 7์ TFT๊ฐ ์ ์ญ(global) ์๊ฐ ๊ด๊ณ๋ฅผ ๋ถ์ํ ์ ์๊ณ ์ฌ์ฉ์๊ฐ ์ ์ฒด ๋ฐ์ดํฐ ์ธํธ์ ๋ํ ๋ชจ๋ธ์ ์ ์ญ ํ๋์ ํด์ํ ์ ์๋๋ก ํ๋ฉฐ ํนํ ์ง์์ ์ธ ํจํด(์: ๊ณ์ ์ฑ ๋๋ ์ง์ฐ ํจ๊ณผ) ๋ฐ ์กด์ฌํ๋ ์ฒด์ (regimes)๋ฅผ ์๋ณํ ์ ์์
3๏ธโฃ Multi-horizon Forecasting
- ์ฃผ์ด์ง ์๊ณ์ด ๋ฐ์ดํฐ ์ธํธ์ I ๊ณ ์ ์ํฐํฐ๊ฐ ์๋ค๊ณ ๊ฐ์
- ๊ฐ ๊ฐ์ฒด i๋ ๊ฐ ์๊ฐ ๋จ๊ณ t ∈ [0, Ti ]์์ ์ ๋ ฅ χ i,t ∈ R mχ ๋ฐ ์ค์นผ๋ผ ๋ชฉํ yi,t ∈ R ๋ฟ๋ง ์๋๋ผ ์ ์ ๊ณต๋ณ๋ si ∈ R ms ์ธํธ์ ์ฐ๊ฒฐ
- ๋ค์ค ์ํ ์์ธก ์ค์ ์ ๋ถ์์ ํ๊ท๋ฅผ ์ฑํ
- ์๊ฐ t์์ τ-step-ahead ์์ธก์ ์์ธก๋ q๋ฒ์งธ ์ํ ๋ถ์์์ด๊ณ fq(.)๋ ์์ธก ๋ชจ๋ธ
4๏ธโฃ Model Architecture
- ๋ค์ํ ๋ฌธ์ ์ ๋ํ ๋์ ์์ธก ์ฑ๋ฅ์ ์ํด ๊ฐ ์ ๋ ฅ ์ ํ(์ฆ, static, known, observed inputs)์ ๋ํ ๊ธฐ๋ฅ ํํ์ ํจ์จ์ ์ผ๋ก ๊ตฌ์ถํ๊ธฐ ์ํด ํ์ค ๊ตฌ์ฑ ์์๋ฅผ ์ฌ์ฉํ๋๋ก TFT๋ฅผ ์ค๊ณ
- TFT์ ์ฃผ์ ๊ตฌ์ฑ ์์
- 1. ์ํคํ ์ฒ์ ์ฌ์ฉ๋์ง ์๋ ๊ตฌ์ฑ ์์๋ฅผ ๊ฑด๋๋ฐ๋ gating ๋ฉ์ปค๋์ฆ์ผ๋ก ๊ด๋ฒ์ํ ๋ฐ์ดํฐ ์ธํธ ๋ฐ ์๋๋ฆฌ์ค๋ฅผ ์์ฉํ ์ ์๋๋ก adaptive ๊น์ด์ ๋คํธ์ํฌ complexity ์ ์ ๊ณต
- 2. ๋ณ์ ์ ํ ๋คํธ์ํฌ๋ ๊ฐ ์๊ฐ ๋จ๊ณ์์ ๊ด๋ จ ์ ๋ ฅ ๋ณ์๋ฅผ ์ ํ
- 3. Static covariate ์ธ์ฝ๋๋ ์๊ฐ์ ์ญํ์ ์กฐ์ ํ๊ธฐ ์ํ context vectors ์ ์ธ์ฝ๋ฉ์ ํตํด ์ ์ ๊ธฐ๋ฅ์ ๋คํธ์ํฌ์ ํตํฉ
- 4. ๊ด์ฐฐ๋ ์
๋ ฅ๊ณผ ์๋ ค์ง time-varying ์
๋ ฅ ๋ชจ๋์์ long- and short-term ์๊ฐ ๊ด๊ณ๋ฅผ ํ์ตํ๊ธฐ ์ํ ์๊ฐ ์ฒ๋ฆฌ.
์ํ์ค ๊ฐ ๊ณ์ธต์ ๋ก์ปฌ ์ฒ๋ฆฌ์ ์ฌ์ฉ๋๋ ๋ฐ๋ฉด long-term ์ข ์์ฑ์ ์๋ก์ด ํด์ ๊ฐ๋ฅํ multi-head attention block์ ์ฌ์ฉํ์ฌ ์บก์ฒ - 5. ๊ฐ ์์ธก ๋ฒ์์์ ๊ฐ๋ฅํ ๋ชฉํ ๊ฐ์ ๋ฒ์๋ฅผ ๊ฒฐ์ ํ๊ธฐ ์ํ ๋ถ์์ ์์ธก์ ํตํ ์์ธก ๊ฐ๊ฒฉ
๊ทธ๋ฆผ 2๋ TFT(Temporal Fusion Transformer)์ ์์ ์์ค ์ํคํ ์ฒ๋ฅผ ๋ณด์ฌ์ฃผ๋ฉฐ ๊ฐ๋ณ ๊ตฌ์ฑ ์์๋ ํ์ ์น์ ์์ ์์ธํ ์ค๋ช
โ 4.1. Gating Mechanisms
- exogenous ์ ๋ ฅ๊ณผ targets ๊ฐ์ ์ ํํ ๊ด๊ณ๋ ์ฌ์ ์ ์๋ ค์ง์ง ์์ ์ด๋ค ๋ณ์๊ฐ ๊ด๋ จ์ด ์๋์ง ์์ธกํ๊ธฐ ์ด๋ ค์
- ํ์ํ ๋น์ ํ ์ฒ๋ฆฌ์ ๋ฒ์๋ฅผ ๊ฒฐ์ ํ๊ธฐ ์ด๋ ต๊ณ ๋ ๊ฐ๋จํ ๋ชจ๋ธ์ด ๋์์ด ๋ ์ ์๋ ๊ฒฝ์ฐ๊ฐ ์์
- ๋ฐ์ดํฐ ์ธํธ๊ฐ ์๊ฑฐ๋ ๋ ธ์ด์ฆ๊ฐ ๋ง์ ๊ฒฝ์ฐ
- ๋ชจ๋ธ์ ํ์ํ ๊ฒฝ์ฐ์๋ง ๋น์ ํ ์ฒ๋ฆฌ๋ฅผ ์ ์ฉํ ์ ์๋ ์ ์ฐ์ฑ์ ์ ๊ณตํ๊ธฐ ์ํด TFT์ ๋น๋ฉ ๋ธ๋ก์ผ๋ก ๊ทธ๋ฆผ 2์ ๊ฐ์ GRN(Gated Residual Network)์ ์ ์
- GRN์ ๊ธฐ๋ณธ ์ ๋ ฅ๊ณผ optional context vector c๋ฅผ ๋ฐ์ ๋ค์์ ์์ฑ
โ 4.2. Variable Selection Networks
- ์ฌ๋ฌ ๋ณ์๋ฅผ ์ฌ์ฉํ ์ ์์ง๋ง ์ถ๋ ฅ์ ๋ํ relevance ๊ณผ ํน์ contribution ๋ ์ผ๋ฐ์ ์ผ๋ก ์ ์ ์์
- TFT๋ static covariates ๊ณผ time-dependent covariates ๋ชจ๋์ ์ ์ฉ๋๋ ๋ณ์ ์ ํ ๋คํธ์ํฌ๋ฅผ ์ฌ์ฉํ์ฌ instance ๋ณ ๋ณ์ ์ ํ์ ์ ๊ณตํ๋๋ก ์ค๊ณ
- ์์ธก ๋ฌธ์ ์ ๊ฐ์ฅ ์ค์ํ ๋ณ์์ ๋ํ insights ์ ์ ๊ณตํ๋ ๊ฒ ์ธ์๋ ๋ณ์ ์ ํ์ ํตํด TFT๋ ์ฑ๋ฅ์ ๋ถ์ ์ ์ธ ์ํฅ์ ์ค ์ ์๋ ๋ถํ์ํ ์ก์ ์ ๋ ฅ์ ์ ๊ฑฐ
- ๋๋ถ๋ถ์ ์ค์ ์๊ณ์ด ๋ฐ์ดํฐ ์ธํธ์๋ ์์ธก content ๊ฐ ์ ์ ๊ธฐ๋ฅ์ด ํฌํจ๋์ด ์์ผ๋ฏ๋ก ๋ณ์ ์ ํ์ ๊ฐ์ฅ ๋๋๋ฌ์ง ํญ๋ชฉ์์๋ง ํ์ต ์ฉ๋์ ํ์ฉํ์ฌ ๋ชจ๋ธ ์ฑ๋ฅ์ ํฌ๊ฒ ๋์ธ ์ ์์
- categorical ๋ณ์์ ๋ํ entity ์๋ฒ ๋ฉ[31]์ ํน์ง ํํ์ผ๋ก ์ฌ์ฉํ๊ณ ์ฐ์ ๋ณ์์ ๋ํ ์ ํ ๋ณํ์ ์ฌ์ฉ
- ๊ฐ ์ ๋ ฅ ๋ณ์๋ฅผ ๊ฑด๋๋ฐ๊ธฐ ์ฐ๊ฒฐ์ ์ํด ํ์ ๋ ์ด์ด์ ์ฐจ์๊ณผ ์ผ์นํ๋ (dmodel) ์ฐจ์ ๋ฒกํฐ๋ก ๋ณํ
- ๋ชจ๋ ์ ์ , ๊ณผ๊ฑฐ ๋ฐ ๋ฏธ๋ ์ ๋ ฅ์ ๋ณ๋์ ๋ณ์ ์ ํ ๋คํธ์ํฌ๋ฅผ ์ฌ์ฉ (๊ทธ๋ฆผ 2์์ ๋ค๋ฅธ ์์์ผ๋ก ํ์๋จ)
- generality ์ ์์ง ์๊ณ ๊ณผ๊ฑฐ ์
๋ ฅ์ ๋ํ ๋ณ์ ์ ํ ๋คํธ์ํฌ๋ฅผ ์ ์
- ๋ค๋ฅธ ์ ๋ ฅ์ ๋ํ ์ ํ์ ๋์ผํ ํ์์ ์ทจํ๋ค๋ ์ ์ ์ ์
โ 4.3. Static Covariate Encoders
- ๋ค๋ฅธ ์๊ณ์ด ์์ธก ์ํคํ ์ฒ์ ๋ฌ๋ฆฌ TFT๋ ๋ณ๋์ GRN ์ธ์ฝ๋๋ฅผ ์ฌ์ฉํ์ฌ 4๊ฐ์ง ๋ค๋ฅธ ์ปจํ ์คํธ ๋ฒกํฐ์ธ cs, ce, cc ๋ฐ ch๋ฅผ ์์ฑํ์ฌ static metadata, ์ ์ ๋ณด๋ฅผ ํตํฉํ๋๋ก ์ ์คํ๊ฒ ์ค๊ณ
- contect vectors ๋ static ๋ณ์๊ฐ ์ฒ๋ฆฌ์์ ์ค์ํ ์ญํ ์ ํ๋ temporal fusion ๋์ฝ๋(4.5์ )์ ๋ค์ํ ์์น์ ์ฐ๊ฒฐ
- (1) ์๊ฐ ๋ณ์ ์ ํ(cs), (2) ์๊ฐ ๊ธฐ๋ฅ์ ๋ก์ปฌ ์ฒ๋ฆฌ(cc, ch), (3) ์ ์ ์ ๋ณด๋ก ์๊ฐ ๊ธฐ๋ฅ ๊ฐํ(ce)์ ๋ํ ์ปจํ
์คํธ๊ฐ ํฌํจ
- EX) ζ๋ฅผ ์ ์ ๋ณ์ ์ ํ ๋คํธ์ํฌ์ ์ถ๋ ฅ์ผ๋ก ์ฌ์ฉํ๋ฉด ์๊ฐ ๋ณ์ ์ ํ์ ์ํ ์ปจํ ์คํธ๋ cs = GRNcs(ζ)์ ๋ฐ๋ผ ์ธ์ฝ๋ฉ
โ 4.4. Interpretable Multi-Head Attention
- TFT๋ ์ค๋ช ๊ฐ๋ฅ์ฑ์ ๋์ด๊ธฐ ์ํด transformer ๊ธฐ๋ฐ ์ํคํ ์ฒ[17, 12]์ multi-head attention ์์ ์์ ํ์ฌ ์๋ก ๋ค๋ฅธ ์๊ฐ ๋จ๊ณ์์ ์ฅ๊ธฐ์ ์ธ ๊ด๊ณ๋ฅผ ํ์ตํ๊ธฐ ์ํด self-attention ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉ
- ์ผ๋ฐ์ ์ผ๋ก self-attention ๋ฉ์ปค๋์ฆ์ ํค K ∈ R N×dattn๊ณผ ์ฟผ๋ฆฌ Q ∈ R N×dattn ๊ฐ์ ๊ด๊ณ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ V ∈ R N×dV๋ฅผ ์๋์ ๊ฐ์ด ์กฐ์
โ 4.5. Temporal Fusion Decoder
- temporal fusion decoder ๋ ๋ฐ์ดํฐ ์ธํธ์ ์กด์ฌํ๋ ์๊ฐ ๊ด๊ณ๋ฅผ ํ์ตํ๊ธฐ ์ํด ์๋์ ์ค๋ช ๋ ์ผ๋ จ์ ๊ณ์ธต์ ์ฌ์ฉ
โ 4.5.1. Locality Enhancement with Sequence-to-Sequence Layer
- ์๊ณ์ด ๋ฐ์ดํฐ์์ ์ค์ ์ง์ ์ ์ข ์ข ์ฃผ๋ณ ๊ฐ๊ณผ ๊ด๋ จํ์ฌ ์๋ณ(์: ์ด์, ๋ณํ ์ง์ ๋๋ ์ํ ํจํด)
- ํฌ์ธํธ ๋จ์ ๊ฐ ์์ ํจํด ์ ๋ณด๋ฅผ ํ์ฉํ๋ ๊ธฐ๋ฅ์ ๊ตฌ์ฑ์ ํตํด local context ๋ฅผ ํ์ฉํ๋ฉด attention ๊ธฐ๋ฐ ์ํคํ ์ฒ์ ์ฑ๋ฅ์ด ํฅ์
- EX) [12]๋ ํญ์ ๋์ผํ ํํฐ๋ฅผ ์ฌ์ฉํ์ฌ ๋ก์ปฌ ํจํด์ ์ถ์ถํ๋ ์ง์ญ ํฅ์์ ์ํด single convolutional layer์ ์ฑํ
- BUT ๊ณผ๊ฑฐ ๋ฐ ๋ฏธ๋ ์ ๋ ฅ์ ์๊ฐ ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ ๊ด์ฐฐ๋ ์ ๋ ฅ์ด ์กด์ฌํ๋ ๊ฒฝ์ฐ์๋ ์ ํฉํ์ง ์์ ์ ์์
- ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋๋ ์ํ์ค ๊ฐ ๊ธฐ์ค์ ๊ณผ์ ๋น๊ต๋ฅผ ์ํด LSTM encoder-decoder ์ฌ์ฉ์ ๊ณ ๋ ค
- ํ์ค ์์น ์ธ์ฝ๋ฉ์ ๋์ฒดํ๋ ์ญํ ์ ํ์ฌ ์ ๋ ฅ์ ์๊ฐ ์์์ ์ ์ ํ inductive ๋ฐ์ด์ด์ค๋ฅผ ์ ๊ณต
- static metadata ๊ฐ ๋ก์ปฌ ์ฒ๋ฆฌ์ ์ํฅ์ ์ค ์ ์๋๋ก static covariate ์ธ์ฝ๋์ cc, ch ์ปจํ ์คํธ ๋ฒกํฐ๋ฅผ ์ฌ์ฉํ์ฌ ๊ณ์ธต์ ์ฒซ ๋ฒ์งธ LSTM์ ๋ํด ๊ฐ๊ฐ ์ ์ํ์ ์๋ ์ํ๋ฅผ ์ด๊ธฐํ
- ์ด ๋ ์ด์ด์ ๊ฒ์ดํธ skip connection ์ ์ฌ์ฉ
5๏ธโฃ 5. Loss Functions
- TFT๋ ๋ชจ๋ quantile ์ถ๋ ฅ์์ ํฉ์ฐ๋ quantile loss[10]๋ฅผ ๊ณต๋์ผ๋ก ์ต์ํํ์ฌ ํ๋ จ
6๏ธโฃ 6. Performance Evaluation
โ 6.1. Datasets
- ๊ด๋ฒ์ํ ๋ค์ค ์ํ์ ์์ธก ๋ฌธ์ ์์ ์ผ๋ฐ์ ์ผ๋ก ๊ด์ฐฐ๋๋ ํน์ฑ์ ๋ฐ์ํ๊ธฐ ์ํด ๋ฐ์ดํฐ ์ธํธ๋ฅผ ์ ํ
- ์ด์ ํ์ ์์
๊ณผ ๊ด๋ จํ์ฌ ๊ธฐ์ค์ ๊ณผ ์์น๋ฅผ ์ค์ ํ๊ธฐ ์ํด ๋จผ์ [9, 6, 12]์์ ์ฌ์ฉ๋ ์ ๊ธฐ ๋ฐ ๊ตํต ๋ฐ์ดํฐ ์ธํธ์ ์ฑ๋ฅ์ ํ๊ฐ
- ๋์ ์์๋ง ์๋ ค์ง ์ ๋ ฅ์ ํฌํจํ๋ ๋ ๊ฐ๋จํ ์ผ๋ณ๋ ์๊ณ์ด์ ์ค์ ์ ๋
- Retail ๋ฐ์ดํฐ ์ธํธ๋ ํ๋ถํ static metadata ๋ฐ ๊ด์ฐฐ๋ time-varying ์ ๋ ฅ์ ํฌํจํ์ฌ multi-horizon prediction ์ ํ๋ฆฌ์ผ์ด์ (์น์ 3 ์ฐธ์กฐ)์์ ๊ด์ฐฐ๋ ๋ณต์กํ ์ ๋ ฅ์ ์ ์ฒด ๋ฒ์๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ๋ฒค์น๋งํนํ๋ ๋ฐ ๋์์ด ๋จ
- ๋ ์์ ๋ ธ์ด์ฆ ๋ฐ์ดํฐ ์ธํธ์ ๋ํ ๊ณผ์ ํฉ์ ๋ํ ๊ฒฌ๊ณ ์ฑ์ ํ๊ฐํ๊ธฐ ์ํด ๋ค๋ฅธ ๊ฒ๋ณด๋ค ํจ์ฌ ์์ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ์ฌ์ฉํ์ฌ ๋ณ๋์ฑ ์์ธก์ ์ฌ์ ์ ์ ์ฉ์ ๊ณ ๋ ค
- ๊ฐ ๋ฐ์ดํฐ ์ธํธ์ ๋ํ ์ค๋ช
- Electricity : [32]์์์ ๊ฐ์ด ์๊ฐ ๋จ์๋ก ์ง๊ณ๋ 370๋ช ์ ๊ณ ๊ฐ์ ์ ๊ธฐ ์๋น๋ฅผ ํฌํจํ๋ UCI ์ ๊ธฐ ๋ถํ ๋ค์ด์ด๊ทธ๋จ ๋ฐ์ดํฐ ์ธํธ. [9]์ ๋ฐ๋ผ ์ง๋ ์ฃผ(์ฆ, 168์๊ฐ)๋ฅผ ์ฌ์ฉํ์ฌ ๋ค์ 24์๊ฐ ๋์ ์์ธก
- Traffic : UCI PEM-SF ๊ตํต ๋ฐ์ดํฐ ์ธํธ๋ [32]์์์ ๊ฐ์ด 440 SF ๋ฒ ์ด ์ง์ญ ๊ณ ์๋๋ก์ ์ ์ ์จ(yt ∈ [0, 1] ํฌํจ)์ ์ค๋ช . ๋์ผํ look back window ๋ฐ ์์ธก ๊ธฐ๊ฐ์ ์ฌ์ฉํ์ฌ ์ ๋ ฅ ๋ฐ์ดํฐ ์ธํธ์ ๋ฐ๋ผ ์๊ฐ๋ณ ์์ค์ผ๋ก ์ง๊ณ
- Retail : Kaggle ๋ํ[33]์ Favorita Grocery Sales Dataset. ๋ค์ํ ์ ํ ๋ฐ ์์ ์ ๋ํ ๋ฉํ๋ฐ์ดํฐ์ ์ผ์ผ ์์ค์์ ์ํ๋ง๋ ๋ค๋ฅธ ์ธ์์ ์๊ฐ ๋ณํ ์ ๋ ฅ์ ๊ฒฐํฉ. 90์ผ ๊ฐ์ ๊ณผ๊ฑฐ ์ ๋ณด๋ฅผ ์ฌ์ฉํ์ฌ ํฅํ 30์ผ ๋์์ ๋ก๊ทธ ์ ํ ํ๋งค๋ฅผ ์์ธก
- Volatility (๋๋ Vol.) : OMI ์คํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ[34]์๋ ์ผ์ผ ์์ต๋ฅ ๊ณผ ํจ๊ป ์ผ์ค ๋ฐ์ดํฐ์์ ๊ณ์ฐ๋ 31๊ฐ ์ฃผ๊ฐ ์ง์์ ์ผ์ผ ์คํ ๋ณ๋์ฑ ๊ฐ์ด ํฌํจ. ์คํ์ ์ํด ์ง๋ 1๋ (์ฆ, 252์์ ์ผ) ๋์์ ์ ๋ณด๋ฅผ ์ฌ์ฉํ์ฌ ๋ค์ ์ฃผ(์์ ์ผ ๊ธฐ์ค 5์ผ) ๋์์ ์์ธก์ ๊ณ ๋ ค
โ 6.2. Training Procedure
- ๊ฐ ๋ฐ์ดํฐ ์ธํธ์ ๋ํด ๋ชจ๋ ์๊ณ์ด์ ํ์ต์ ์ํ ํ๋ จ ์ธํธ, ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋์ ์ํ ๊ฒ์ฆ ์ธํธ, ์ฑ๋ฅ ํ๊ฐ๋ฅผ ์ํ ํ๋์์ ํ ์คํธ ์ธํธ์ 3๊ฐ ๋ถ๋ถ์ผ๋ก ๋๋
- Hyperparameter ์ต์ ํ๋ Volatility์ ๋ํด 240ํ, others ์ ๋ํด 60ํ iterations์ ์ฌ์ฉํ์ฌ ๋ฌด์์ ๊ฒ์์ ํตํด ์ํ
- ๋ชจ๋ Hyperparameter ์ ๋ํ ์ ์ฒด ๊ฒ์ ๋ฒ์๋ ํ 1์ ๋์ด๋ ๋ฐ์ดํฐ ์ธํธ ๋ฐ ์ต์ ๋ชจ๋ธ ๋งค๊ฐ๋ณ์
- State size – 10, 20, 40, 80, 160, 240, 320
- Dropout rate – 0.1, 0.2, 0.3, 0.4, 0.5, 0.7, 0.9
- Minibatch size – 64, 128, 256
- Learning rate – 0.0001, 0.001, 0.01
- Max. gradient norm – 0.01, 1.0, 100.0 • Num. heads – 1, 4
โ 6.3. Computational Cost
- ๋ชจ๋ ๋ฐ์ดํฐ ์ธํธ์์ ๊ฐ TFT ๋ชจ๋ธ์ ๋จ์ผ GPU์์๋ ํ๋ จ๋์์ผ๋ฉฐ ๊ด๋ฒ์ํ ์ปดํจํ ๋ฆฌ์์ค ์์ด ๋ฐฐํฌ
- ex) NVIDIA Tesla V100 GPU๋ฅผ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ ์ต์ ์ TFT ๋ชจ๋ธ(์ ๊ธฐ ๋ฐ์ดํฐ ์ธํธ์ฉ)์ ํ์ตํ๋ ๋ฐ 6์๊ฐ์ด ์ฝ๊ฐ ๋๊ฒ ๊ฑธ๋ฆผ (๊ฐ ์ํฌํฌ๋ ๋๋ต 52๋ถ)
- ์ ์ฒด ๊ฒ์ฆ ๋ฐ์ดํฐ ์ธํธ(50,000๊ฐ ์ํ๋ก ๊ตฌ์ฑ)์ ๋ํ ์ผ๊ด ์ถ๋ก ์๋ 8๋ถ
- ํ๋์จ์ด๋ณ ์ต์ ํ๋ฅผ ํตํด TFT ํ๋ จ ๋ฐ ์ถ๋ก ์๊ฐ์ ๋์ฑ ์ค์ผ ์ ์์
โ 6.4. Benchmarks
- ์น์ ์ ์ค๋ช ๋ ๋ฒ์ฃผ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก TFT๋ฅผ ๋ค์ค ์ํ ์์ธก์ ์ํ ๋ค์ํ ๋ชจ๋ธ๊ณผ ๊ด๋ฒ์ํ๊ฒ ๋น๊ต
- ํ์ดํผํ๋ผ๋ฏธํฐ ์ต์ ํ๋ ๋์ผํ ์์ ์ฌ์ ์ ์๋ ๊ฒ์ ๊ณต๊ฐ์์ ๋ฌด์์ ๊ฒ์์ ์ฌ์ฉํ์ฌ ์ํ
- ์ฃผ์ด์ง ๋ฐ์ดํฐ ์ธํธ์ ๋ํ ๋ชจ๋ ๋ฒค์น๋งํฌ์ ๋ํ ๋ฐ๋ณต
- Direct methods : TFT๊ฐ multi-horizon ๋ชจ๋ธ์ ์ด ํด๋์ค์ ์ํ๊ธฐ ๋๋ฌธ์ ์ฐ๋ฆฌ๋ ์ฃผ๋ก ๋ค์์ ํฌํจํ์ฌ future horizons ์์ ์์ธก์ ์ง์ ์์ฑํ๋ ๋ฅ ๋ฌ๋ ๋ชจ๋ธ์ ๋ํ ๋น๊ต์ ์ค์ ์ ๋
- 1) global contexts (Seq2Seq)๊ฐ ์๋ ๋จ์ sequence-to-sequence models
- 2) Multi-horizon Quantile Recurrent Forecaster(MQRNN) [10]
- Iterative methods : ์์
์ ํ๋ถํ ๋ณธ์ฒด์ ๊ด๋ จํ์ฌ ์์น ์ง์ . ๋ฐ๋ณต ๋ชจ๋ธ์์ ์ฐ๋ฆฌ๋ ์ ๊ธฐ ๋ฐ ๊ตํต ๋ฐ์ดํฐ ์ธํธ์ ๋ํด [9]์ ๋์ผํ ์ค์ ์ ์ฌ์ฉํ์ฌ TFT๋ฅผ ํ๊ฐ
- 1) DeepAR [9]
- 2) DSSM [6]
- 3) ConvTrans๋ผ๊ณ ํ๋ ๋ก์ปฌ ์ปจ๋ณผ๋ฃจ์ ์ฒ๋ฆฌ๋ฅผ ์ฌ์ฉํ๋ [12]์ Transformer ๊ธฐ๋ฐ ์ํคํ ์ฒ์ ๋ํ [12]์ ๊ฒฐ๊ณผ๋ฅผ ํ์ฅ
- ๋ ๋ณต์กํ ๋ฐ์ดํฐ ์ธํธ์ ๊ฒฝ์ฐ ์ด์ ์์ ์์ ๋ค๋ฅธ ๋ฐ๋ณต ๋ชจ๋ธ๋ณด๋ค ๋ฐ์ด๋ ์ฑ๋ฅ์ ์ ๊ณตํ๋ ConvTrans ๋ชจ๋ธ๊ณผ ์ค๋ฌด์๋ค ์ฌ์ด์์ ์ธ๊ธฐ๊ฐ ์๊ธฐ ๋๋ฌธ์ DeepAR์ ์ค์ ์ ๋
- ์์ธก์ ์์ฑํ๊ธฐ ์ํด ๋ฏธ๋์ ๋ชจ๋ ์ ๋ ฅ์ ๋ํ ์ง์์ด ํ์ํ๋ฏ๋ก ์ ์ ์๋ ์ ๋ ฅ์ ๋ง์ง๋ง ์ฌ์ฉ ๊ฐ๋ฅํ ๊ฐ์ผ๋ก ๋์นํ์ฌ ๋ณต์กํ ๋ฐ์ดํฐ ์ธํธ์ ๋ํด ์ด๋ฅผ ์์ฉ
โ 6.5. Results and Discussion
- ํ 2๋ TFT๊ฐ Sec์ ์ค๋ช ๋ ๋ค์ํ ๋ฐ์ดํฐ ์ธํธ์ ๋ํด ๋ชจ๋ ๋ฒค์น๋งํฌ๋ฅผ ํจ์ฌ ๋ฅ๊ฐํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค
- 6.1. ์ค์๊ฐ ์์ธก์ ๊ฒฝ์ฐ TFT๋ ์ฐจ์ ์ฑ ๋ชจ๋ธ์ ๋นํด ํ๊ท ์ ์ผ๋ก 7% ๋ ๋ฎ์ P50 ๋ฐ 9% ๋ ๋ฎ์ P90 ์์ค์ ์ฐ์ถํ์ฌ ์ํคํ ์ฒ๋ฅผ ์ผ๋ฐ์ ์ธ ๋ค์ค ์ํ ์์ธก ๋ฌธ์ ์ ๋ช ์์ ์ผ๋ก ์ ๋ ฌํ๋ ์ด์ ์ ๋ณด์ฌ์ค
- ์ง์ ๋ฐ ๋ฐ๋ณต ๋ชจ๋ธ์ ๋น๊ตํ์ฌ ๊ด์ฐฐ๋ ์
๋ ฅ์ ๋ํ ์ค๋ช
์ ์ค์์ฑ์ ๊ด์ฐฐ
๊ด์ฐฐ๋ ์ ๋ ฅ ์ ๊ฐ๊ฐ ํ์ํ ๋ณต์กํ ๋ฐ์ดํฐ ์ธํธ(์ฆ, ๋ณ๋์ฑ ๋ฐ ์๋งค) - quantile ํ๊ท์ ์ด์ ์ ๋ชฉํ๊ฐ ํด๋น ์๋๋ฆฌ์ค์์ ์ฑ๋ฅ์ด ์ฐ์ํ ์ง์ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ ๊ฐ์ฐ์ค ๋ถํฌ์ ์ํด ์ ํฌ์ฐฉ๋์ง ์๋ ๊ฒฝ์ฐ์๋ ๊ด์ฐฐ
- ex) target ๋ถํฌ๊ฐ ํฌ๊ฒ ์๊ณก๋ Traffic ๋ฐ์ดํฐ ์ธํธ์์ ๋ณผ ์ ์์
- ์ ์ ์จ์ 90% ์ด์์ด 0๊ณผ 0.1 ์ฌ์ด์ ์๊ณ ๋๋จธ์ง๋ 1.0๊น์ง ๊ท ๋ฑํ๊ฒ ๋ถํฌ
์ด
๋ ต
๋ค