๐Ÿ˜Ž ๊ณต๋ถ€ํ•˜๋Š” ์ง•์ง•์•ŒํŒŒ์นด๋Š” ์ฒ˜์Œ์ด์ง€?

[๋…ผ๋ฌธ๋ฆฌ๋ทฐ] Temporal Fusion Transformersfor Interpretable Multi-horizon Time Series Forecasting ๋ณธ๋ฌธ

๐Ÿ‘ฉ‍๐Ÿ’ป ์ธ๊ณต์ง€๋Šฅ (ML & DL)/Serial Data

[๋…ผ๋ฌธ๋ฆฌ๋ทฐ] Temporal Fusion Transformersfor Interpretable Multi-horizon Time Series Forecasting

์ง•์ง•์•ŒํŒŒ์นด 2022. 9. 23. 14:18
728x90
๋ฐ˜์‘ํ˜•

220923 ์ž‘์„ฑ

<๋ณธ ๋ธ”๋กœ๊ทธ๋Š” Bryan Lim, Sercan O. Arik, Nicolas Loeff, Tomas Pfister ๋‹˜์˜ ๋…ผ๋ฌธ ์ฐธ๊ณ ํ•ด์„œ ๊ณต๋ถ€ํ•˜๋ฉฐ ์ž‘์„ฑํ•˜์˜€์Šต๋‹ˆ๋‹ค :-) >

https://arxiv.org/abs/1912.09363

 

Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting

Multi-horizon forecasting problems often contain a complex mix of inputs -- including static (i.e. time-invariant) covariates, known future inputs, and other exogenous time series that are only observed historically -- without any prior information on how

arxiv.org

 

๐ŸŸฃ Abstract

  • Multi-horizon ์˜ˆ์ธก์—๋Š” ์ข…์ข… ์ •์  (์ฆ‰, ์ •์ )์„ ํฌํ•จํ•˜๋Š” ์ž…๋ ฅ์˜ ๋ณต์žกํ•œ ํ˜ผํ•ฉ์ด ํฌํ•จ
  • ์‹œ๊ฐ„ ๋ถˆ๋ณ€) ๊ณต๋ณ€๋Ÿ‰, ์•Œ๋ ค์ง„ ๋ฏธ๋ž˜ ์ž…๋ ฅ ๋ฐ ๊ณผ๊ฑฐ์—๋งŒ ๊ด€์ฐฐ๋˜๋Š” ๋‹ค๋ฅธ ์™ธ์ƒ ์‹œ๊ณ„์—ด์€ ๋Œ€์ƒ๊ณผ ์–ด๋–ป๊ฒŒ ์ƒํ˜ธ ์ž‘์šฉํ•˜๋Š”์ง€์— ๋Œ€ํ•œ ์‚ฌ์ „ ์ •๋ณด๊ฐ€ ์—†์Œ
  • ์ผ๋ฐ˜์ ์œผ๋กœ ์‹ค์ œ ์‹œ๋‚˜๋ฆฌ์˜ค์— ์žˆ๋Š” ๋ชจ๋“  ๋ฒ”์œ„์˜ ์ž…๋ ฅ์„ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋ฐํžˆ์ง€ ์•Š๋Š” "๋ธ”๋ž™ ๋ฐ•์Šค"๋ชจ๋ธ

๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ๊ณ ์„ฑ๋Šฅ ๋‹ค์ค‘ ์ง€ํ‰์„  ์˜ˆ์ธก๊ณผ ์‹œ๊ฐ„์  ๋™์—ญํ•™์— ๋Œ€ํ•œ ํ•ด์„ ๊ฐ€๋Šฅํ•œ ํ†ต์ฐฐ๋ ฅ์„ ๊ฒฐํ•ฉํ•œ
์ƒˆ๋กœ์šด ๊ด€์‹ฌ ๊ธฐ๋ฐ˜ ์•„ํ‚คํ…์ฒ˜์ธ ์‹œ๊ฐ„ ์œตํ•ฉ ๋ณ€ํ™˜๊ธฐ(TFT)๋ฅผ ์†Œ๊ฐœ
emporal Fusion Transformer (TFT) 

  • ์„œ๋กœ ๋‹ค๋ฅธ ์Šค์ผ€์ผ์—์„œ ์‹œ๊ฐ„ ๊ด€๊ณ„๋ฅผ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•ด TFT๋Š” ๋กœ์ปฌ ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•ด ๋ฐ˜๋ณต ๋ ˆ์ด์–ด๋ฅผ ์‚ฌ์šฉํ•˜๊ณ  ์žฅ๊ธฐ ์ข…์†์„ฑ์„ ์œ„ํ•ด ํ•ด์„ ๊ฐ€๋Šฅํ•œ ์ž์ฒด์ฃผ์˜ ๋ ˆ์ด์–ด๋ฅผ ์‚ฌ์šฉ
  • TFT๋Š” ํŠน์ˆ˜ํ•œ ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ด€๋ จ ๊ธฐ๋Šฅ์„ ์„ ํƒํ•˜๊ณ  ์ผ๋ จ์˜ ๊ฒŒ์ดํŒ… ๋ ˆ์ด์–ด๊ฐ€ ๋ถˆํ•„์š”ํ•œ ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ์–ต์ œํ•˜๋ฏ€๋กœ ๊ด‘๋ฒ”์œ„ํ•œ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ๊ณ ์„ฑ๋Šฅ์„ ๊ตฌํ˜„๋‹ค์–‘ํ•œ ์‹ค์ œ ๋ฐ์ดํ„ฐ์…‹์—์„œ ๊ธฐ์กด ๋ฒค์น˜๋งˆํฌ ๋Œ€๋น„ ์ƒ๋‹นํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, TFT์˜ ์„ธ ๊ฐ€์ง€ ์‹ค์šฉ์  ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ ํ™œ์šฉ ์‚ฌ๋ก€๋ฅผ ๋ณด์—ฌ์คŒ

๐Ÿ‘€ key words
Deep learning, Interpretability, Time series, Multi-horizonforecasting, Attention mechanisms, Explainable AI.

 

1๏ธโƒฃ INTRODUCTION

Multi-horizon forecasting

  • ์—ฌ๋Ÿฌ ๋ฏธ๋ž˜ ์‹œ๊ฐ„ ๋‹จ๊ณ„์—์„œ ๊ด€์‹ฌ ๋ณ€์ˆ˜๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์€ ์‹œ๊ณ„์—ด ๊ธฐ๊ณ„ ํ•™์Šต์—์„œ ์ค‘์š”ํ•œ ๋ฌธ์ œ
  • ํ•œ ๋‹จ๊ณ„ ์•ž์„  ์˜ˆ์ธก๊ณผ ๋‹ฌ๋ฆฌ ์‚ฌ์šฉ์ž๊ฐ€ ์ „์ฒด ๊ฒฝ๋กœ์—์„œ ์ถ”์ •์— ์•ก์„ธ์Šคํ•  ์ˆ˜ ์žˆ๊ฒŒํ•˜์—ฌ ํ–ฅํ›„ ์—ฌ๋Ÿฌ ๋‹จ๊ณ„์—์„œ ์ž์‹ ์˜ ํ–‰๋™์„ ์ตœ์ ํ™” ๊ฐ€๋Šฅ์ผ€ ํ•จ

์ •์  ๊ณต๋ณ€๋Ÿ‰, ๊ณผ๊ฑฐ ๊ด€์ธก ๋ฐ ๋ฏธ๋ฆฌ ์•Œ๋ ค์ง„ ๋ฏธ๋ž˜ ์‹œ๊ฐ„ ์ข…์† ์ž…๋ ฅ์„ ์‚ฌ์šฉํ•œ ๋‹ค์ค‘ ์ง€ํ‰์„  ์˜ˆ์ธก์˜ ์˜ˆ์‹œ.

  • ์‹ค์ œ ๋‹ค์ค‘ ์ˆ˜ํ‰์„  ์˜ˆ์ธก ์‘์šฉ ํ”„๋กœ๊ทธ๋žจ์€ ์ผ๋ฐ˜์ ์œผ๋กœ ๊ทธ๋ฆผ 3๊ณผ ๊ฐ™์ด ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ์†Œ์Šค์— ์•ก์„ธ์Šค
    • ๋ฏธ๋ž˜์— ๋Œ€ํ•œ ์•Œ๋ ค์ง„ ์ •๋ณด(์˜ˆ: ๋‹ค๊ฐ€์˜ค๋Š” ํœด์ผ ๋‚ ์งœ), ๊ธฐํƒ€ ์™ธ์ƒ์  ์‹œ๊ณ„์—ด(์˜ˆ: ๊ณ ๊ฐ ์ด๋™ ๊ธฐ๋ก) ๋ฐ ์ •์  ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ(์˜ˆ: ์ƒ์  ์œ„์น˜)๋ฅผ ํฌํ•จํ•˜์—ฌ ์ƒํ˜ธ ์ž‘์šฉํ•˜๋Š” ๋ฐฉ์‹์— ๋Œ€ํ•œ ์‚ฌ์ „ ์ง€์‹ ์—†์ด ์ด๋ฃจ์–ด์ง
  • ๋ฐ์ดํ„ฐ ์†Œ์Šค์˜ ์ด๋Ÿฌํ•œ ์ด์งˆ์„ฑ๊ณผ ์ƒํ˜ธ ์ž‘์šฉ์— ๋Œ€ํ•œ ์ •๋ณด๊ฐ€ ๊ฑฐ์˜ ์—†๊ธฐ ๋•Œ๋ฌธ์— ๋‹ค์ค‘ ์ˆ˜ํ‰ ์‹œ๊ณ„์—ด ์˜ˆ์ธก์€ ํŠนํžˆ ์–ด๋ ค์›€
  • ์‹ฌ์ธต ์‹ ๊ฒฝ๋ง(DNN)์€ ๋‹ค์ค‘ ์ˆ˜ํ‰์„  ์˜ˆ์ธก์— ์ ์  ๋” ๋งŽ์ด ์‚ฌ์šฉ๋˜์–ด ์ „ํ†ต์ ์ธ ์‹œ๊ณ„์—ด ๋ชจ๋ธ์— ๋น„ํ•ด ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์—ฌ์คŒ [6, 7, 8]
  • ๋งŽ์€ ์•„ํ‚คํ…์ฒ˜๊ฐ€ ๋ฐ˜๋ณต ์‹ ๊ฒฝ๋ง(RNN) ์•„ํ‚คํ…์ฒ˜์˜ ๋ณ€ํ˜•[9, 6, 10]์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ์ง€๋งŒ, ์ตœ๊ทผ์˜ ๊ฐœ์„ ์€ ๋˜ํ•œ Transformer๊ธฐ๋ฐ˜ ๋ชจ๋ธ[12]์„ ํฌํ•จํ•˜์—ฌ ๊ณผ๊ฑฐ [11]์—์„œ ๊ด€๋ จ ์‹œ๊ฐ„ ๋‹จ๊ณ„์˜ ์„ ํƒ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด attention-based ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉ
  • ์‹œ๊ณ„์—ด ๋ชจ๋ธ์˜ ์ตœ๊ทผ ๋งŽ์€ ๊ฐœ์„ ์€ ๊ณ ์œ ํ•œ ๋ฐ์ดํ„ฐ ํŠน์„ฑ์„ ๊ฐ€์ง„ ์•„ํ‚คํ…์ฒ˜์˜ ์ •๋ ฌ์—์„œ ๋น„๋กฏ๋จ [13, 14]
  • multi-horizon forecasting ์„ ์œ„ํ•œ ์ ์ ˆํ•œ inductive ํŽธํ–ฅ์„ ๊ฐ€์ง„ ๋„คํŠธ์›Œํฌ๋ฅผ ์„ค๊ณ„ํ•จ์œผ๋กœ์จ ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ ์ด๋“์„ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค๊ณ  ์ฃผ์žฅ

 

  • ์ผ๋ฐ˜์ ์ธ ๋‹ค์ค‘ ์ˆ˜ํ‰์„  ์˜ˆ์ธก ์ž…๋ ฅ์˜ ์ด์งˆ์„ฑ์„ ๊ณ ๋ คํ•˜์ง€ ์•Š๋Š” ๊ฒƒ ์™ธ์—๋„, ๋Œ€๋ถ€๋ถ„์˜ ์ตœ์‹  ์•„ํ‚คํ…์ฒ˜๋Š” ์˜ˆ์ธก์ด ๋งŽ์€ ๋งค๊ฐœ๋ณ€์ˆ˜ ๊ฐ„์˜ ๋ณต์žกํ•œ ๋น„์„ ํ˜• ์ƒํ˜ธ ์ž‘์šฉ์— ์˜ํ•ด ์ œ์–ด๋˜๋Š” '๋ธ”๋ž™๋ฐ•์Šค' ๋ชจ๋ธ
    • ๋ชจ๋ธ์ด ์˜ˆ์ธก์— ๋„๋‹ฌํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์„ค๋ช…ํ•˜๊ธฐ ์–ด๋ ต๊ฒŒ ๋งŒ๋“ค๊ณ , ๊ฒฐ๊ณผ์ ์œผ๋กœ ์‚ฌ์šฉ์ž๊ฐ€ ๋ชจ๋ธ์˜ ์ถœ๋ ฅ์„ ์‹ ๋ขฐํ•˜๊ณ  ๋ชจ๋ธ ๋นŒ๋”๊ฐ€ ์ด๋ฅผ ๋””๋ฒ„๊ทธํ•˜๋Š” ๊ฒƒ์„ ์–ด๋ ต๊ฒŒ ๋งŒ๋“ฆ
    • DNN์— ๋Œ€ํ•ด ์ผ๋ฐ˜์ ์œผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ์„ค๋ช… ๊ฐ€๋Šฅ์„ฑ ๋ฐฉ๋ฒ•์€ ์‹œ๊ณ„์—ด์— ์ ์šฉํ•˜๊ธฐ์— ์ ํ•ฉํ•˜์ง€ ์•Š์Œ
    • ๊ธฐ์กด ํ˜•์‹์—์„œ ์‚ฌํ›„ ๋ฐฉ๋ฒ•(์˜ˆ: LIME [15] ๋ฐ SHAP [16])์€ ์ž…๋ ฅ ๊ธฐ๋Šฅ์˜ ์‹œ๊ฐ„ ์ˆœ์„œ๋ฅผ ๊ณ ๋ คํ•˜์ง€ ์•Š์Œ
  • ex) LIME์˜ ๊ฒฝ์šฐ surrogate ๋ชจ๋ธ์ด ๊ฐ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ์— ๋Œ€ํ•ด ๋…๋ฆฝ์ ์œผ๋กœ ๊ตฌ์„ฑ๋˜๊ณ  SHAP์˜ ๊ฒฝ์šฐ ์ธ์ ‘ ์‹œ๊ฐ„ ๋‹จ๊ณ„์— ๋Œ€ํ•ด ๊ธฐ๋Šฅ์ด ๋…๋ฆฝ์ ์œผ๋กœ ๊ณ ๋ ค
    • ์‚ฌํ›„ ์ ‘๊ทผ ๋ฐฉ์‹์€ ์‹œ๊ฐ„ ๋‹จ๊ณ„ ๊ฐ„์˜ ์ข…์†์„ฑ์ด ์ผ๋ฐ˜์ ์œผ๋กœ ์‹œ๊ณ„์—ด์—์„œ ์ค‘์š”ํ•˜๋ฏ€๋กœ ์„ค๋ช… ํ’ˆ์งˆ์ด ์ข‹์ง€ ์•Š์Œ
  • ๋ฐ˜๋ฉด์— Transformer ์•„ํ‚คํ…์ฒ˜[17]์™€ ๊ฐ™์ด ์ฃผ๋กœ ์–ธ์–ด ๋˜๋Š” ์Œ์„ฑ๊ณผ ๊ฐ™์€ ์ˆœ์ฐจ์  ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ๊ณ ์œ ํ•œ ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ์„ ๊ฐ€์ง„ ์ผ๋ถ€ attention ๊ธฐ๋ฐ˜ ์•„ํ‚คํ…์ฒ˜๊ฐ€ ์ œ์•ˆ๋จ

  • ์ด๋ฅผ ์ ์šฉํ•˜๊ธฐ ์œ„ํ•œ ๊ธฐ๋ณธ์ ์ธ ์ฃผ์˜ ์‚ฌํ•ญ์€ ๋‹ค์ค‘ ์ˆ˜ํ‰์„  ์˜ˆ์ธก์—๋Š” ์–ธ์–ด๋‚˜ ์Œ์„ฑ๊ณผ ๋‹ฌ๋ฆฌ ๋‹ค์–‘ํ•œ ์œ ํ˜•์˜ ์ž…๋ ฅ ๊ธฐ๋Šฅ์ด ํฌํ•จ๋œ๋‹ค๋Š” ๊ฒƒ
  • ๊ธฐ์กด ํ˜•์‹์—์„œ ์ด๋Ÿฌํ•œ ์•„ํ‚คํ…์ฒ˜๋Š” ๋‹ค์ค‘ ์ˆ˜ํ‰ ์˜ˆ์ธก์„ ์œ„ํ•œ ๊ด€๋ จ ์‹œ๊ฐ„ ๋‹จ๊ณ„์— ๋Œ€ํ•œ ํ†ต์ฐฐ๋ ฅ์„ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ์ง€๋งŒ ์ฃผ์–ด์ง„ ์‹œ๊ฐ„ ๋‹จ๊ณ„์—์„œ ๋‹ค์–‘ํ•œ ๊ธฐ๋Šฅ์˜ ์ค‘์š”์„ฑ์„ ๊ตฌ๋ณ„ํ•  ์ˆ˜๋Š” ์—†์Œ
  • ๊ณ ์„ฑ๋Šฅ์„ ์œ„ํ•œ ๋‹ค์ค‘ ์ˆ˜ํ‰ ์˜ˆ์ธก์—์„œ ๋ฐ์ดํ„ฐ์˜ ์ด์งˆ์„ฑ์„ ํ•ด๊ฒฐํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•์˜ ๊ฒฝ์šฐ ์‚ฌ์šฉ ์‚ฌ๋ก€์˜ ์š”๊ตฌ ์‚ฌํ•ญ์„ ๊ฐ์•ˆํ•  ๋•Œ ์ด๋Ÿฌํ•œ ์˜ˆ์ธก์„ ํ•ด์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ๋งŒ๋“œ๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•๋„ ํ•„์š”

  • ์šฐ๋ฆฌ๋Š” ์ƒˆ๋กœ์šด ํ˜•ํƒœ์˜ ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” ๋™์‹œ์— ๊ณ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๋Š” multi-horizon ์˜ˆ์ธก์„ ์œ„ํ•œ attention๊ธฐ๋ฐ˜ DNN ์•„ํ‚คํ…์ฒ˜์ธ TFT(Temporal Fusion Transformer)๋ฅผ ์ œ์•ˆ
    • ์•„ํ‚คํ…์ฒ˜๋ฅผ ๋‹ค์ค‘ ์ˆ˜ํ‰ ์˜ˆ์ธก์— ๊ณตํ†ต์ ์ธ ์ž ์žฌ์  ์ž…๋ ฅ ๋ฐ ์‹œ๊ฐ„ ๊ด€๊ณ„์˜ ์ „์ฒด ๋ฒ”์œ„์™€ ์ •๋ ฌํ•˜๋Š” ์—ฌ๋Ÿฌ ์ฐธ์‹ ํ•œ ์•„์ด๋””์–ด๋ฅผ ๋„์ž…
      • (1) ์ •์  ๊ณต๋ณ€๋Ÿ‰ ์ธ์ฝ”๋”๋ฅผ ํ†ตํ•ฉ. ๋„คํŠธ์›Œํฌ์˜ ๋‹ค๋ฅธ ๋ถ€๋ถ„์—์„œ ์‚ฌ์šฉํ•˜๊ธฐ ์œ„ํ•ด ์ปจํ…์ŠคํŠธ ๋ฒกํ„ฐ๋ฅผ ์ธ์ฝ”๋”ฉ
      • (2) ์ „์ฒด์— ๊ฑธ์นœ ๊ฒŒ์ดํŒ… ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๋ฐ ๊ด€๋ จ ์—†๋Š” ์ž…๋ ฅ์˜ ๊ธฐ์—ฌ๋ฅผ ์ตœ์†Œํ™”ํ•˜๊ธฐ ์œ„ํ•œ ์ƒ˜ํ”Œ ์ข…์† ๋ณ€์ˆ˜ ์„ ํƒ
      • (3) ์•Œ๋ ค์ง„ ์ž…๋ ฅ ๋ฐ ๊ด€์ฐฐ๋œ ์ž…๋ ฅ์„ ๋กœ์ปฌ๋กœ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•œ ์‹œํ€€์Šค ๋Œ€ ์‹œํ€€์Šค ๋ ˆ์ด์–ด
      • (4) ๋ฐ์ดํ„ฐ ์„ธํŠธ ๋‚ด์— ์กด์žฌํ•˜๋Š” long-term ์ข…์†์„ฑ์„ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•œ temporal self-attention ๋””์ฝ”๋”
    • ํŠน์ˆ˜ ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ๋„ ๋†’์•„์ง
    • TFT๊ฐ€ ์„ธ ๊ฐ€์ง€ ๊ฐ€์น˜ ์žˆ๋Š” ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ ์‚ฌ์šฉ ์‚ฌ๋ก€๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์ž„
      • ์‚ฌ์šฉ์ž๊ฐ€ (i) ์˜ˆ์ธก ๋ฌธ์ œ์— ๋Œ€ํ•œ ์ „ ์„ธ๊ณ„์ ์œผ๋กœ ์ค‘์š”ํ•œ ๋ณ€์ˆ˜
      • (ii) ์ง€์†์ ์ธ ์‹œ๊ฐ„ ํŒจํ„ด ๋ฐ
      • (iii) ์ค‘์š”ํ•œ ์ด๋ฒคํŠธ๋ฅผ ์‹๋ณ„ํ•˜๋„๋ก ๋„์›€
    • TFT๊ฐ€ ์ œ๊ณตํ•˜๋Š” insights ๊ณผ benefits ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ TFT๊ฐ€ ์‹ค์ œ๋กœ ์–ด๋–ป๊ฒŒ ์ ์šฉ๋  ์ˆ˜ ์žˆ๋Š”์ง€ ๋ณด์—ฌ์คŒ

 

2๏ธโƒฃ Related Work

๐Ÿ–ค Multi-horizon Forecasting ์„ ์œ„ํ•œ DNN :

  • ์ตœ๊ทผ์˜ ๋”ฅ๋Ÿฌ๋‹ ๋ฐฉ๋ฒ•์€ autoregressive ๋ชจ๋ธ[9, 6, 12]์„ ์‚ฌ์šฉํ•˜๋Š” ๋ฐ˜๋ณต ์ ‘๊ทผ ๋ฐฉ์‹๊ณผ sequence-to-sequence ๋ชจ๋ธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋Š” direct ๋ฐฉ์‹[10, 11]์œผ๋กœ ๋ถ„๋ฅ˜
  • Iterated ์ ‘๊ทผ ๋ฐฉ์‹์€ ํ•œ ๋‹จ๊ณ„ ์•ž์„œ๊ฐ€๋Š” ์˜ˆ์ธก ๋ชจ๋ธ์„ ํ™œ์šฉํ•˜๋ฉฐ, ์˜ˆ์ธก์„ ๋ฏธ๋ž˜ ์ž…๋ ฅ์— ์žฌ๊ท€์ ์œผ๋กœ ๊ณต๊ธ‰ํ•˜์—ฌ ์–ป์€ ๋‹ค๋‹จ๊ณ„ ์˜ˆ์ธก์„ ์‚ฌ์šฉ
    • LSTM(Long Short-Term Memory)
      • ์ ์ธต๋œ LSTM ๋ ˆ์ด์–ด๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ one-step-ahead Gaussian predictive distributions ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ์ƒ์„ฑํ•˜๋Š” Deep AR[9]๊ณผ ๊ฐ™์ด ๊ณ ๋ ค
    • DSSM(Deep State-Space Models)[6]
      • LSTM์„ ํ™œ์šฉํ•˜์—ฌ Kalman ํ•„ํ„ฐ๋ง์„ ํ†ตํ•ด ์ƒ์„ฑ๋œ ์˜ˆ์ธก ๋ถ„ํฌ์™€ ํ•จ๊ป˜ ๋ฏธ๋ฆฌ ์ •์˜๋œ ์„ ํ˜• ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ์ƒ์„ฑํ•˜๋Š” ์œ ์‚ฌํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์ฑ„ํƒํ•˜๊ณ  [21]์˜ ๋‹ค๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ํ™•์žฅ์„ ์‚ฌ์šฉ
    • Transformer ๊ธฐ๋ฐ˜ ์•„ํ‚คํ…์ฒ˜๊ฐ€ [12]์—์„œ ํƒ์ƒ‰
      • ์˜ˆ์ธกํ•˜๋Š” ๋™์•ˆ receptive field ์˜ ํฌ๊ธฐ๋ฅผ ์ฆ๊ฐ€์‹œํ‚ค๊ธฐ ์œ„ํ•ด local ์ฒ˜๋ฆฌ ๋ฐ sparse attention ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์œ„ํ•œ ์ปจ๋ณผ๋ฃจ์…˜ ๊ณ„์ธต์˜ ์‚ฌ์šฉ์„ ์ œ์•ˆ
  • ๋‹จ์ˆœํ•จ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  iterative ๋ฐฉ๋ฒ•์€ target ๋ฅผ ์ œ์™ธํ•œ ๋ชจ๋“  ๋ณ€์ˆ˜์˜ ๊ฐ’์ด ์˜ˆ์ธก ์‹œ์ ์— ์•Œ๋ ค์ ธ ์žˆ๋‹ค๋Š” ๊ฐ€์ •์— ์˜์กด
  • target ๋งŒ ๋ฏธ๋ž˜ ์ž…๋ ฅ์— recursively ์œผ๋กœ ๊ณต๊ธ‰๋˜์–ด์•ผ ํ•จ
  • ๋งŽ์€ ์‹ค์ œ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ์‚ฌ์ „์— ์•Œ๋ ค์ง€์ง€ ์•Š์€ ๋งŽ์€ ์œ ์šฉํ•œ time-varying ์ž…๋ ฅ์ด ์กด์žฌ
    • iterative ์ ‘๊ทผ ๋ฐฉ์‹์—์„œ๋Š” straightforward ์‚ฌ์šฉ์ด ์ œํ•œ
    • but TFT๋Š” ์ž…๋ ฅ์˜ ๋‹ค์–‘์„ฑ์„ ๋ช…์‹œ์ ์œผ๋กœ ์„ค
      • ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ static covariates ๊ณผ (๊ณผ๊ฑฐ ๊ด€์ฐฐ๋œ ๊ฒƒ๊ณผ ๋ฏธ๋ž˜์— ์•Œ๋ ค์ง„) time-varying ์ž…๋ ฅ์„ ์ฒ˜๋ฆฌ
  • ๋Œ€์กฐ์ ์œผ๋กœ, direct ๋ฐฉ๋ฒ•์€ ๊ฐ ์‹œ๊ฐ„ ๋‹จ๊ณ„์—์„œ ๋ฏธ๋ฆฌ ์ •์˜๋œ ์—ฌ๋Ÿฌ ๊ธฐ๊ฐ„์— ๋Œ€ํ•œ ์˜ˆ์ธก์„ ๋ช…์‹œ์ ์œผ๋กœ ์ƒ์„ฑํ•˜๋„๋ก ํ›ˆ๋ จ
  • ๊ทธ๋“ค์˜ ์•„ํ‚คํ…์ฒ˜๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ sequence-to-sequence ๋ชจ๋ธ์— ์˜์กด
    • LSTM์€ ๊ณผ๊ฑฐ์˜ ์ž…๋ ฅ์„ ์š”์•ฝํ•˜๊ณ  ๋ฏธ๋ž˜ ์˜ˆ์ธก์„ ์ƒ์„ฑํ•˜๋Š” ๋‹ค์–‘ํ•œ ๋ฐฉ๋ฒ•์„ ์ธ์ฝ”๋”ฉ
    • Multi-horizon Quantile Recurrent Forecaster(MQRNN)[10]๋Š” LSTM ๋˜๋Š” ์ปจ๋ณผ๋ฃจ์…˜ ์ธ์ฝ”๋”๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ horizon์— ๋Œ€ํ•ด  multi-layer perceptrons (MLP)์— ๊ณต๊ธ‰๋˜๋Š” context vectors๋ฅผ ์ƒ์„ฑ
    • [11]์—์„œ multi-modal attention ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ bi-directional LSTM ๋””์ฝ”๋”์— ๋Œ€ํ•œ context vectors ๋ฅผ ๊ตฌ์„ฑํ•˜๊ธฐ ์œ„ํ•ด LSTM ์ธ์ฝ”๋”์™€ ํ•จ๊ป˜ ์‚ฌ์šฉ
    • LSTM ๊ธฐ๋ฐ˜ iterative ๋ฐฉ๋ฒ•๋ณด๋‹ค ์„ฑ๋Šฅ์ด ์šฐ์ˆ˜ํ•จ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์ด๋Ÿฌํ•œ standard direct ๋ฐฉ๋ฒ•์˜ ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ(interpretability )์€ ์—ฌ์ „ํžˆ ์–ด๋ ค์›€
  • ๋Œ€์กฐ์ ์œผ๋กœ, ์šฐ๋ฆฌ๋Š” attention ํŒจํ„ด์„ ํ•ด์„ํ•จ์œผ๋กœ์จ TFT๊ฐ€ ์‹œ๊ฐ„ ์—ญํ•™์— ๋Œ€ํ•œ ํ†ต์ฐฐ๋ ฅ ์žˆ๋Š” ์„ค๋ช…์„ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ๊ณ  ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ์„ธํŠธ์—์„œ ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ์„ ์œ ์ง€

๐Ÿ–ค Time Series Interpretability with Attention :

  • Attention ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ translation [17], ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜[22] ๋˜๋Š” tabular ํ•™์Šต[23]์— ์‚ฌ์šฉ๋˜์–ด attention weights ์˜ ํฌ๊ธฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ ์ธ์Šคํ„ด์Šค์— ๋Œ€ํ•œ ์ž…๋ ฅ์˜ ๋‘๋“œ๋Ÿฌ์ง„(salient) ๋ถ€๋ถ„์„ ์‹๋ณ„
  • LSTM ๊ธฐ๋ฐ˜[25] ๋ฐ transformer๊ธฐ๋ฐ˜[12] ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ(interpretability)์ด ์žˆ๋Š” ์‹œ๊ณ„์—ด์— ๋งž๊ฒŒ ์กฐ์ •
  • but, static covariates ์˜ ์ค‘์š”์„ฑ์„ ๊ณ ๋ คํ•˜์ง€ ์•Š๊ณ  ์ˆ˜ํ–‰(์œ„์˜ ๋ฐฉ๋ฒ•์€ ๊ฐ ์ž…๋ ฅ์—์„œ ๋ณ€์ˆ˜๋ฅผ ํ˜ผํ•ฉํ•˜๊ธฐ ๋•Œ๋ฌธ)
  • TFT๋Š” ๊ธฐ์—ฌ ์‹œ๊ฐ„์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง€๋Š” ์ž…๋ ฅ์„ ๊ฒฐ์ •ํ•˜๊ธฐ ์œ„ํ•ด self-attention ์™ธ์— ๊ฐ ์‹œ๊ฐ„ ๋‹จ๊ณ„์—์„œ static ๊ธฐ๋Šฅ์— ๋Œ€ํ•ด ๋ณ„๋„์˜ encoder-decoder attention๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ด๋ฅผ ์™„ํ™”

 

๐Ÿ–ค Instance-wise Variable Importance with DNNs:

  • Instance  (์ฆ‰, ์ƒ˜ํ”Œ)๋ณ„ variable ์ค‘์š”๋„๋Š” ์‚ฌํ›„ ์„ค๋ช… ๋ฐฉ๋ฒ•[15, 16, 26]๊ณผ ๋ณธ์งˆ์ ์œผ๋กœ ํ•ด์„ ๊ฐ€๋Šฅํ•œ ๋ชจ๋ธ[27, 24]์„ ์‚ฌ์šฉํ•˜์—ฌ ์–ป์Œ
  • ์‚ฌํ›„(post-hoc) ์„ค๋ช… ๋ฐฉ๋ฒ•
    • ex) LIME [15], SHAP [16] ๋ฐ RL-LIM [26]์€ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๋ธ”๋ž™๋ฐ•์Šค ๋ชจ๋ธ์— ์ ์šฉ๋˜๋ฉฐ ์ข…์ข… ๋Œ€๋ฆฌ(surrogate) ํ•ด์„ ๊ฐ€๋Šฅํ•œ ๋ชจ๋ธ๋กœ ์ถ”์ถœํ•˜๊ฑฐ๋‚˜ feature ์†์„ฑ์œผ๋กœ ๋ถ„ํ•ดํ•˜๋Š” ๊ฒƒ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•จ
  • ์ž…๋ ฅ์˜ ์‹œ๊ฐ„ ์ˆœ์„œ๋ฅผ ๊ณ ๋ คํ•˜๋„๋ก ์„ค๊ณ„๋˜์ง€ ์•Š์•˜์œผ๋ฏ€๋กœ ๋ณต์žกํ•œ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์‚ฌ์šฉ์ด ์ œํ•œ
  • ๋ณธ์งˆ์ ์œผ๋กœ ํ•ด์„ ๊ฐ€๋Šฅํ•œ ๋ชจ๋ธ๋ง ์ ‘๊ทผ ๋ฐฉ์‹์€ ๊ธฐ๋Šฅ ์„ ํƒ์„ ์œ„ํ•œ ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ์•„ํ‚คํ…์ฒ˜์— ์ง์ ‘ ๊ตฌ์ถ•
  • ์‹œ๊ณ„์—ด ์˜ˆ์ธก์˜ ๊ฒฝ์šฐ time-dependent ๋ณ€์ˆ˜ ๊ธฐ์—ฌ๋„๋ฅผ ๋ช…์‹œ์ ์œผ๋กœ ์ˆ˜๋Ÿ‰ํ™”(quantifying)ํ•˜๋Š” ๊ฒƒ์„ ๊ธฐ๋ฐ˜
    • ex) ํ•ด์„ ๊ฐ€๋Šฅํ•œ Multi-Variable LSTM[27]์€ ๊ฐ ๋ณ€์ˆ˜๊ฐ€ ๊ณ ์œ ํ•œ memory segment ์— ๊ธฐ์—ฌํ•˜๋„๋ก ์ˆจ๊ฒจ์ง„ ์ƒํƒœ๋ฅผ ๋ถ„ํ• ํ•˜๊ณ  ๋ณ€์ˆ˜ ๊ธฐ์—ฌ๋ฅผ ๊ฒฐ์ •ํ•˜๊ธฐ ์œ„ํ•ด ๋ฉ”๋ชจ๋ฆฌ ์„ธ๊ทธ๋จผํŠธ์— ๊ฐ€์ค‘์น˜๋ฅผ ๋ถ€์—ฌ
    • ์‹œ๊ฐ„์  ์ค‘์š”๋„์™€ ๋ณ€์ˆ˜ ์„ ํƒ์„ ๊ฒฐํ•ฉํ•˜๋Š” ๋ฐฉ๋ฒ•๋„ [24]์—์„œ ๊ณ ๋ ค๋˜์—ˆ์œผ๋ฉฐ, ๊ฐ๊ฐ์˜ attention ๊ฐ€์ค‘์น˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‹จ์ผ ๊ธฐ์—ฌ ๊ณ„์ˆ˜๋ฅผ ๊ณ„์‚ฐ
  • but, ํ•œ ๋‹จ๊ณ„ ์•ž์„  ์˜ˆ์ธก๋งŒ ๋ชจ๋ธ๋งํ•˜๋Š” ๋‹จ์  ์™ธ์—๋„ ๊ธฐ์กด ๋ฐฉ๋ฒ•์€ global temporal dynamics ์— ๋Œ€ํ•œ insights ์„ ์ œ๊ณตํ•˜์ง€ ์•Š๊ณ  attention ๊ฐ€์ค‘์น˜์˜ instance (์ฆ‰, ์ƒ˜ํ”Œ๋ณ„) ํ•ด์„์— ์ค‘์ ์„ ๋‘ 
  • ๋Œ€์กฐ์ ์œผ๋กœ, Sec. 7์€ TFT๊ฐ€ ์ „์—ญ(global) ์‹œ๊ฐ„ ๊ด€๊ณ„๋ฅผ ๋ถ„์„ํ•  ์ˆ˜ ์žˆ๊ณ  ์‚ฌ์šฉ์ž๊ฐ€ ์ „์ฒด ๋ฐ์ดํ„ฐ ์„ธํŠธ์— ๋Œ€ํ•œ ๋ชจ๋ธ์˜ ์ „์—ญ ํ–‰๋™์„ ํ•ด์„ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋ฉฐ ํŠนํžˆ ์ง€์†์ ์ธ ํŒจํ„ด(์˜ˆ: ๊ณ„์ ˆ์„ฑ ๋˜๋Š” ์ง€์—ฐ ํšจ๊ณผ) ๋ฐ ์กด์žฌํ•˜๋Š” ์ฒด์ œ(regimes)๋ฅผ ์‹๋ณ„ํ•  ์ˆ˜ ์žˆ์Œ

 

3๏ธโƒฃ Multi-horizon Forecasting

  • ์ฃผ์–ด์ง„ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ ์„ธํŠธ์— I ๊ณ ์œ  ์—”ํ„ฐํ‹ฐ๊ฐ€ ์žˆ๋‹ค๊ณ  ๊ฐ€์ •
  • ๊ฐ ๊ฐœ์ฒด i๋Š” ๊ฐ ์‹œ๊ฐ„ ๋‹จ๊ณ„ t ∈ [0, Ti ]์—์„œ ์ž…๋ ฅ χ i,t ∈ R mχ ๋ฐ ์Šค์นผ๋ผ ๋ชฉํ‘œ yi,t ∈ R ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ •์  ๊ณต๋ณ€๋Ÿ‰ si ∈ R ms ์„ธํŠธ์™€ ์—ฐ๊ฒฐ
  • ๋‹ค์ค‘ ์ˆ˜ํ‰ ์˜ˆ์ธก ์„ค์ •์— ๋ถ„์œ„์ˆ˜ ํšŒ๊ท€๋ฅผ ์ฑ„ํƒ
    • ์‹œ๊ฐ„ t์—์„œ τ-step-ahead ์˜ˆ์ธก์˜ ์˜ˆ์ธก๋œ q๋ฒˆ์งธ ์ƒ˜ํ”Œ ๋ถ„์œ„์ˆ˜์ด๊ณ  fq(.)๋Š” ์˜ˆ์ธก ๋ชจ๋ธ

๊ฐ ๋ถ„์œ„์ˆ˜ ์˜ˆ์ธก

 

4๏ธโƒฃ Model Architecture

TFT ์•„ํ‚คํ…์ฒ˜. TFT๋Š” ์ •์  ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ, ์‹œ๊ฐ„์— ๋”ฐ๋ผ ๋ณ€ํ•˜๋Š” ๊ณผ๊ฑฐ ์ž…๋ ฅ ๋ฐ ๋ฏธ๋ฆฌ ์•Œ๋ ค์ง„ ๋ฏธ๋ž˜ ์ž…๋ ฅ์„ ์‹œ๊ฐ„์— ๋”ฐ๋ผ ์ž…๋ ฅ. ๋ณ€์ˆ˜ ์„ ํƒ์€ ์ž…๋ ฅ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฐ€์žฅ ๋‘๋“œ๋Ÿฌ์ง„ ๊ธฐ๋Šฅ์„ ์‹ ์ค‘ํ•˜๊ฒŒ ์„ ํƒํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ. Gated Residual Network ๋ธ”๋ก์€ ์Šคํ‚ต ์—ฐ๊ฒฐ ๋ฐ ๊ฒŒ์ดํŒ… ๋ ˆ์ด์–ด๋ฅผ ํ†ตํ•ด ํšจ์œจ์ ์ธ ์ •๋ณด ํ๋ฆ„์„ ๊ฐ€๋Šฅ์ผ€ ํ•จ. ์‹œ๊ฐ„ ์ข…์† ์ฒ˜๋ฆฌ๋Š” ๋กœ์ปฌ ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•œ LSTM๊ณผ ๋ชจ๋“  ์‹œ๊ฐ„ ๋‹จ๊ณ„์˜ ์ •๋ณด๋ฅผ ํ†ตํ•ฉํ•˜๊ธฐ ์œ„ํ•œ multi-head attention ๋ฅผ ๊ธฐ๋ฐ˜

  • ๋‹ค์–‘ํ•œ ๋ฌธ์ œ์— ๋Œ€ํ•œ ๋†’์€ ์˜ˆ์ธก ์„ฑ๋Šฅ์„ ์œ„ํ•ด ๊ฐ ์ž…๋ ฅ ์œ ํ˜•(์ฆ‰, static, known, observed inputs)์— ๋Œ€ํ•œ ๊ธฐ๋Šฅ ํ‘œํ˜„์„ ํšจ์œจ์ ์œผ๋กœ ๊ตฌ์ถ•ํ•˜๊ธฐ ์œ„ํ•ด ํ‘œ์ค€ ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ์‚ฌ์šฉํ•˜๋„๋ก TFT๋ฅผ ์„ค๊ณ„
  • TFT์˜ ์ฃผ์š” ๊ตฌ์„ฑ ์š”์†Œ
    • 1. ์•„ํ‚คํ…์ฒ˜์˜ ์‚ฌ์šฉ๋˜์ง€ ์•Š๋Š” ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ๊ฑด๋„ˆ๋›ฐ๋Š” gating ๋ฉ”์ปค๋‹ˆ์ฆ˜์œผ๋กœ ๊ด‘๋ฒ”์œ„ํ•œ ๋ฐ์ดํ„ฐ ์„ธํŠธ ๋ฐ ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ์ˆ˜์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก adaptive ๊นŠ์ด์™€ ๋„คํŠธ์›Œํฌ complexity ์„ ์ œ๊ณต
    • 2. ๋ณ€์ˆ˜ ์„ ํƒ ๋„คํŠธ์›Œํฌ๋Š” ๊ฐ ์‹œ๊ฐ„ ๋‹จ๊ณ„์—์„œ ๊ด€๋ จ ์ž…๋ ฅ ๋ณ€์ˆ˜๋ฅผ ์„ ํƒ
    • 3. Static covariate ์ธ์ฝ”๋”๋Š” ์‹œ๊ฐ„์  ์—ญํ•™์„ ์กฐ์ ˆํ•˜๊ธฐ ์œ„ํ•œ context vectors ์˜ ์ธ์ฝ”๋”ฉ์„ ํ†ตํ•ด ์ •์  ๊ธฐ๋Šฅ์„ ๋„คํŠธ์›Œํฌ์— ํ†ตํ•ฉ
    • 4. ๊ด€์ฐฐ๋œ ์ž…๋ ฅ๊ณผ ์•Œ๋ ค์ง„ time-varying ์ž…๋ ฅ ๋ชจ๋‘์—์„œ long- and short-term ์‹œ๊ฐ„ ๊ด€๊ณ„๋ฅผ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•œ ์‹œ๊ฐ„ ์ฒ˜๋ฆฌ.
      ์‹œํ€€์Šค ๊ฐ„ ๊ณ„์ธต์€ ๋กœ์ปฌ ์ฒ˜๋ฆฌ์— ์‚ฌ์šฉ๋˜๋Š” ๋ฐ˜๋ฉด long-term ์ข…์†์„ฑ์€ ์ƒˆ๋กœ์šด ํ•ด์„ ๊ฐ€๋Šฅํ•œ multi-head attention block์„ ์‚ฌ์šฉํ•˜์—ฌ ์บก์ฒ˜
    • 5. ๊ฐ ์˜ˆ์ธก ๋ฒ”์œ„์—์„œ ๊ฐ€๋Šฅํ•œ ๋ชฉํ‘œ ๊ฐ’์˜ ๋ฒ”์œ„๋ฅผ ๊ฒฐ์ •ํ•˜๊ธฐ ์œ„ํ•œ ๋ถ„์œ„์ˆ˜ ์˜ˆ์ธก์„ ํ†ตํ•œ ์˜ˆ์ธก ๊ฐ„๊ฒฉ

๊ทธ๋ฆผ 2๋Š” TFT(Temporal Fusion Transformer)์˜ ์ƒ์œ„ ์ˆ˜์ค€ ์•„ํ‚คํ…์ฒ˜๋ฅผ ๋ณด์—ฌ์ฃผ๋ฉฐ ๊ฐœ๋ณ„ ๊ตฌ์„ฑ ์š”์†Œ๋Š” ํ›„์† ์„น์…˜์—์„œ ์ž์„ธํžˆ ์„ค๋ช…

 

โž• 4.1. Gating Mechanisms

  • exogenous ์ž…๋ ฅ๊ณผ targets ๊ฐ„์˜ ์ •ํ™•ํ•œ ๊ด€๊ณ„๋Š” ์‚ฌ์ „์— ์•Œ๋ ค์ง€์ง€ ์•Š์•„ ์–ด๋–ค ๋ณ€์ˆ˜๊ฐ€ ๊ด€๋ จ์ด ์žˆ๋Š”์ง€ ์˜ˆ์ธกํ•˜๊ธฐ ์–ด๋ ค์›€
  • ํ•„์š”ํ•œ ๋น„์„ ํ˜• ์ฒ˜๋ฆฌ์˜ ๋ฒ”์œ„๋ฅผ ๊ฒฐ์ •ํ•˜๊ธฐ ์–ด๋ ต๊ณ  ๋” ๊ฐ„๋‹จํ•œ ๋ชจ๋ธ์ด ๋„์›€์ด ๋  ์ˆ˜ ์žˆ๋Š” ๊ฒฝ์šฐ๊ฐ€ ์žˆ์Œ
    • ๋ฐ์ดํ„ฐ ์„ธํŠธ๊ฐ€ ์ž‘๊ฑฐ๋‚˜ ๋…ธ์ด์ฆˆ๊ฐ€ ๋งŽ์€ ๊ฒฝ์šฐ
  • ๋ชจ๋ธ์— ํ•„์š”ํ•œ ๊ฒฝ์šฐ์—๋งŒ ๋น„์„ ํ˜• ์ฒ˜๋ฆฌ๋ฅผ ์ ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์œ ์—ฐ์„ฑ์„ ์ œ๊ณตํ•˜๊ธฐ ์œ„ํ•ด TFT์˜ ๋นŒ๋”ฉ ๋ธ”๋ก์œผ๋กœ ๊ทธ๋ฆผ 2์™€ ๊ฐ™์€ GRN(Gated Residual Network)์„ ์ œ์•ˆ
  • GRN์€ ๊ธฐ๋ณธ ์ž…๋ ฅ๊ณผ optional context vector c๋ฅผ ๋ฐ›์•„ ๋‹ค์Œ์„ ์ƒ์„ฑ

โž• 4.2. Variable Selection Networks

  • ์—ฌ๋Ÿฌ ๋ณ€์ˆ˜๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์ง€๋งŒ ์ถœ๋ ฅ์— ๋Œ€ํ•œ relevance ๊ณผ ํŠน์ • contribution ๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ์•Œ ์ˆ˜ ์—†์Œ
  • TFT๋Š” static covariates ๊ณผ time-dependent covariates ๋ชจ๋‘์— ์ ์šฉ๋˜๋Š” ๋ณ€์ˆ˜ ์„ ํƒ ๋„คํŠธ์›Œํฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ instance ๋ณ„ ๋ณ€์ˆ˜ ์„ ํƒ์„ ์ œ๊ณตํ•˜๋„๋ก ์„ค๊ณ„
  • ์˜ˆ์ธก ๋ฌธ์ œ์— ๊ฐ€์žฅ ์ค‘์š”ํ•œ ๋ณ€์ˆ˜์— ๋Œ€ํ•œ insights ์„ ์ œ๊ณตํ•˜๋Š” ๊ฒƒ ์™ธ์—๋„ ๋ณ€์ˆ˜ ์„ ํƒ์„ ํ†ตํ•ด TFT๋Š” ์„ฑ๋Šฅ์— ๋ถ€์ •์ ์ธ ์˜ํ–ฅ์„ ์ค„ ์ˆ˜ ์žˆ๋Š” ๋ถˆํ•„์š”ํ•œ ์žก์Œ ์ž…๋ ฅ์„ ์ œ๊ฑฐ
  • ๋Œ€๋ถ€๋ถ„์˜ ์‹ค์ œ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ ์„ธํŠธ์—๋Š” ์˜ˆ์ธก content ๊ฐ€ ์ ์€ ๊ธฐ๋Šฅ์ด ํฌํ•จ๋˜์–ด ์žˆ์œผ๋ฏ€๋กœ ๋ณ€์ˆ˜ ์„ ํƒ์€ ๊ฐ€์žฅ ๋‘๋“œ๋Ÿฌ์ง„ ํ•ญ๋ชฉ์—์„œ๋งŒ ํ•™์Šต ์šฉ๋Ÿ‰์„ ํ™œ์šฉํ•˜์—ฌ ๋ชจ๋ธ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ๋„์šธ ์ˆ˜ ์žˆ์Œ

  • categorical ๋ณ€์ˆ˜์— ๋Œ€ํ•œ entity ์ž„๋ฒ ๋”ฉ[31]์„ ํŠน์ง• ํ‘œํ˜„์œผ๋กœ ์‚ฌ์šฉํ•˜๊ณ  ์—ฐ์† ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ์„ ํ˜• ๋ณ€ํ™˜์„ ์‚ฌ์šฉ
  • ๊ฐ ์ž…๋ ฅ ๋ณ€์ˆ˜๋ฅผ ๊ฑด๋„ˆ๋›ฐ๊ธฐ ์—ฐ๊ฒฐ์„ ์œ„ํ•ด ํ›„์† ๋ ˆ์ด์–ด์˜ ์ฐจ์›๊ณผ ์ผ์น˜ํ•˜๋Š” (dmodel) ์ฐจ์› ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜
  • ๋ชจ๋“  ์ •์ , ๊ณผ๊ฑฐ ๋ฐ ๋ฏธ๋ž˜ ์ž…๋ ฅ์€ ๋ณ„๋„์˜ ๋ณ€์ˆ˜ ์„ ํƒ ๋„คํŠธ์›Œํฌ๋ฅผ ์‚ฌ์šฉ (๊ทธ๋ฆผ 2์—์„œ ๋‹ค๋ฅธ ์ƒ‰์ƒ์œผ๋กœ ํ‘œ์‹œ๋จ)
  • generality ์„ ์žƒ์ง€ ์•Š๊ณ  ๊ณผ๊ฑฐ ์ž…๋ ฅ์— ๋Œ€ํ•œ ๋ณ€์ˆ˜ ์„ ํƒ ๋„คํŠธ์›Œํฌ๋ฅผ ์ œ์‹œ
    • ๋‹ค๋ฅธ ์ž…๋ ฅ์— ๋Œ€ํ•œ ์„ ํƒ์€ ๋™์ผํ•œ ํ˜•์‹์„ ์ทจํ•œ๋‹ค๋Š” ์ ์— ์œ ์˜

 

โž• 4.3. Static Covariate Encoders

  • ๋‹ค๋ฅธ ์‹œ๊ณ„์—ด ์˜ˆ์ธก ์•„ํ‚คํ…์ฒ˜์™€ ๋‹ฌ๋ฆฌ TFT๋Š” ๋ณ„๋„์˜ GRN ์ธ์ฝ”๋”๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ 4๊ฐ€์ง€ ๋‹ค๋ฅธ ์ปจํ…์ŠคํŠธ ๋ฒกํ„ฐ์ธ cs, ce, cc ๋ฐ ch๋ฅผ ์ƒ์„ฑํ•˜์—ฌ static metadata, ์˜ ์ •๋ณด๋ฅผ ํ†ตํ•ฉํ•˜๋„๋ก ์‹ ์ค‘ํ•˜๊ฒŒ ์„ค๊ณ„
  • contect vectors ๋Š” static ๋ณ€์ˆ˜๊ฐ€ ์ฒ˜๋ฆฌ์—์„œ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•˜๋Š” temporal fusion ๋””์ฝ”๋”(4.5์ ˆ)์˜ ๋‹ค์–‘ํ•œ ์œ„์น˜์— ์—ฐ๊ฒฐ
  • (1) ์‹œ๊ฐ„ ๋ณ€์ˆ˜ ์„ ํƒ(cs), (2) ์‹œ๊ฐ„ ๊ธฐ๋Šฅ์˜ ๋กœ์ปฌ ์ฒ˜๋ฆฌ(cc, ch), (3) ์ •์  ์ •๋ณด๋กœ ์‹œ๊ฐ„ ๊ธฐ๋Šฅ ๊ฐ•ํ™”(ce)์— ๋Œ€ํ•œ ์ปจํ…์ŠคํŠธ๊ฐ€ ํฌํ•จ
    • EX) ζ๋ฅผ ์ •์  ๋ณ€์ˆ˜ ์„ ํƒ ๋„คํŠธ์›Œํฌ์˜ ์ถœ๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•˜๋ฉด ์‹œ๊ฐ„ ๋ณ€์ˆ˜ ์„ ํƒ์„ ์œ„ํ•œ ์ปจํ…์ŠคํŠธ๋Š” cs = GRNcs(ζ)์— ๋”ฐ๋ผ ์ธ์ฝ”๋”ฉ

โž• 4.4. Interpretable Multi-Head Attention

  • TFT๋Š” ์„ค๋ช… ๊ฐ€๋Šฅ์„ฑ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด transformer ๊ธฐ๋ฐ˜ ์•„ํ‚คํ…์ฒ˜[17, 12]์˜ multi-head attention ์—์„œ ์ˆ˜์ •ํ•˜์—ฌ ์„œ๋กœ ๋‹ค๋ฅธ ์‹œ๊ฐ„ ๋‹จ๊ณ„์—์„œ ์žฅ๊ธฐ์ ์ธ ๊ด€๊ณ„๋ฅผ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•ด self-attention ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์‚ฌ์šฉ
  • ์ผ๋ฐ˜์ ์œผ๋กœ self-attention ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ํ‚ค K ∈ R N×dattn๊ณผ ์ฟผ๋ฆฌ Q ∈ R N×dattn ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฐ’ V ∈ R N×dV๋ฅผ ์•„๋ž˜์™€ ๊ฐ™์ด ์กฐ์ •

 

 

โž• 4.5. Temporal Fusion Decoder

  • temporal fusion decoder ๋Š” ๋ฐ์ดํ„ฐ ์„ธํŠธ์— ์กด์žฌํ•˜๋Š” ์‹œ๊ฐ„ ๊ด€๊ณ„๋ฅผ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•ด ์•„๋ž˜์— ์„ค๋ช…๋œ ์ผ๋ จ์˜ ๊ณ„์ธต์„ ์‚ฌ์šฉ

 

โž• 4.5.1. Locality Enhancement with Sequence-to-Sequence Layer

  • ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์—์„œ ์ค‘์š” ์ง€์ ์€ ์ข…์ข… ์ฃผ๋ณ€ ๊ฐ’๊ณผ ๊ด€๋ จํ•˜์—ฌ ์‹๋ณ„(์˜ˆ: ์ด์ƒ, ๋ณ€ํ™” ์ง€์  ๋˜๋Š” ์ˆœํ™˜ ํŒจํ„ด)
  • ํฌ์ธํŠธ ๋‹จ์œ„ ๊ฐ’ ์œ„์— ํŒจํ„ด ์ •๋ณด๋ฅผ ํ™œ์šฉํ•˜๋Š” ๊ธฐ๋Šฅ์˜ ๊ตฌ์„ฑ์„ ํ†ตํ•ด local context ๋ฅผ ํ™œ์šฉํ•˜๋ฉด attention ๊ธฐ๋ฐ˜ ์•„ํ‚คํ…์ฒ˜์˜ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ
  • EX) [12]๋Š” ํ•ญ์ƒ ๋™์ผํ•œ ํ•„ํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋กœ์ปฌ ํŒจํ„ด์„ ์ถ”์ถœํ•˜๋Š” ์ง€์—ญ ํ–ฅ์ƒ์„ ์œ„ํ•ด single convolutional layer์„ ์ฑ„ํƒ
  • BUT ๊ณผ๊ฑฐ ๋ฐ ๋ฏธ๋ž˜ ์ž…๋ ฅ์˜ ์ˆ˜๊ฐ€ ๋‹ค๋ฅด๊ธฐ ๋•Œ๋ฌธ์— ๊ด€์ฐฐ๋œ ์ž…๋ ฅ์ด ์กด์žฌํ•˜๋Š” ๊ฒฝ์šฐ์—๋Š” ์ ํ•ฉํ•˜์ง€ ์•Š์„ ์ˆ˜ ์žˆ์Œ

  • ์ผ๋ฐ˜์ ์œผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ์‹œํ€€์Šค ๊ฐ„ ๊ธฐ์ค€์„ ๊ณผ์˜ ๋น„๊ต๋ฅผ ์œ„ํ•ด LSTM encoder-decoder ์‚ฌ์šฉ์„ ๊ณ ๋ ค
    • ํ‘œ์ค€ ์œ„์น˜ ์ธ์ฝ”๋”ฉ์„ ๋Œ€์ฒดํ•˜๋Š” ์—ญํ• ์„ ํ•˜์—ฌ ์ž…๋ ฅ์˜ ์‹œ๊ฐ„ ์ˆœ์„œ์— ์ ์ ˆํ•œ inductive ๋ฐ”์ด์–ด์Šค๋ฅผ ์ œ๊ณต
    • static metadata ๊ฐ€ ๋กœ์ปฌ ์ฒ˜๋ฆฌ์— ์˜ํ–ฅ์„ ์ค„ ์ˆ˜ ์žˆ๋„๋ก static covariate ์ธ์ฝ”๋”์˜ cc, ch ์ปจํ…์ŠคํŠธ ๋ฒกํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ณ„์ธต์˜ ์ฒซ ๋ฒˆ์งธ LSTM์— ๋Œ€ํ•ด ๊ฐ๊ฐ ์…€ ์ƒํƒœ์™€ ์€๋‹‰ ์ƒํƒœ๋ฅผ ์ดˆ๊ธฐํ™”
    • ์ด ๋ ˆ์ด์–ด์— ๊ฒŒ์ดํŠธ skip connection ์„ ์‚ฌ์šฉ

 

 

5๏ธโƒฃ 5. Loss Functions

  • TFT๋Š” ๋ชจ๋“  quantile ์ถœ๋ ฅ์—์„œ ํ•ฉ์‚ฐ๋œ quantile loss[10]๋ฅผ ๊ณต๋™์œผ๋กœ ์ตœ์†Œํ™”ํ•˜์—ฌ ํ›ˆ๋ จ

 

 

6๏ธโƒฃ 6. Performance Evaluation

โž• 6.1. Datasets

  • ๊ด‘๋ฒ”์œ„ํ•œ ๋‹ค์ค‘ ์ˆ˜ํ‰์„  ์˜ˆ์ธก ๋ฌธ์ œ์—์„œ ์ผ๋ฐ˜์ ์œผ๋กœ ๊ด€์ฐฐ๋˜๋Š” ํŠน์„ฑ์„ ๋ฐ˜์˜ํ•˜๊ธฐ ์œ„ํ•ด ๋ฐ์ดํ„ฐ ์„ธํŠธ๋ฅผ ์„ ํƒ
  • ์ด์ „ ํ•™์ˆ  ์ž‘์—…๊ณผ ๊ด€๋ จํ•˜์—ฌ ๊ธฐ์ค€์„ ๊ณผ ์œ„์น˜๋ฅผ ์„ค์ •ํ•˜๊ธฐ ์œ„ํ•ด ๋จผ์ € [9, 6, 12]์—์„œ ์‚ฌ์šฉ๋œ ์ „๊ธฐ ๋ฐ ๊ตํ†ต ๋ฐ์ดํ„ฐ ์„ธํŠธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€
    • ๋Œ€์ƒ ์˜†์—๋งŒ ์•Œ๋ ค์ง„ ์ž…๋ ฅ์„ ํฌํ•จํ•˜๋Š” ๋” ๊ฐ„๋‹จํ•œ ์ผ๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด์— ์ค‘์ ์„ ๋‘ 
  • Retail ๋ฐ์ดํ„ฐ ์„ธํŠธ๋Š” ํ’๋ถ€ํ•œ static metadata ๋ฐ ๊ด€์ฐฐ๋œ time-varying ์ž…๋ ฅ์„ ํฌํ•จํ•˜์—ฌ multi-horizon prediction ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜(์„น์…˜ 3 ์ฐธ์กฐ)์—์„œ ๊ด€์ฐฐ๋œ ๋ณต์žกํ•œ ์ž…๋ ฅ์˜ ์ „์ฒด ๋ฒ”์œ„๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์„ ๋ฒค์น˜๋งˆํ‚นํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋จ
  • ๋” ์ž‘์€ ๋…ธ์ด์ฆˆ ๋ฐ์ดํ„ฐ ์„ธํŠธ์— ๋Œ€ํ•œ ๊ณผ์ ํ•ฉ์— ๋Œ€ํ•œ ๊ฒฌ๊ณ ์„ฑ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค๋ฅธ ๊ฒƒ๋ณด๋‹ค ํ›จ์”ฌ ์ž‘์€ ๋ฐ์ดํ„ฐ ์„ธํŠธ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ณ€๋™์„ฑ ์˜ˆ์ธก์˜ ์žฌ์ •์  ์ ์šฉ์„ ๊ณ ๋ ค

  • ๊ฐ ๋ฐ์ดํ„ฐ ์„ธํŠธ์— ๋Œ€ํ•œ ์„ค๋ช…
    • Electricity : [32]์—์„œ์™€ ๊ฐ™์ด ์‹œ๊ฐ„ ๋‹จ์œ„๋กœ ์ง‘๊ณ„๋œ 370๋ช…์˜ ๊ณ ๊ฐ์˜ ์ „๊ธฐ ์†Œ๋น„๋ฅผ ํฌํ•จํ•˜๋Š” UCI ์ „๊ธฐ ๋ถ€ํ•˜ ๋‹ค์ด์–ด๊ทธ๋žจ ๋ฐ์ดํ„ฐ ์„ธํŠธ. [9]์— ๋”ฐ๋ผ ์ง€๋‚œ ์ฃผ(์ฆ‰, 168์‹œ๊ฐ„)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ค์Œ 24์‹œ๊ฐ„ ๋™์•ˆ ์˜ˆ์ธก
    • Traffic : UCI PEM-SF ๊ตํ†ต ๋ฐ์ดํ„ฐ ์„ธํŠธ๋Š” [32]์—์„œ์™€ ๊ฐ™์ด 440 SF ๋ฒ ์ด ์ง€์—ญ ๊ณ ์†๋„๋กœ์˜ ์ ์œ ์œจ(yt ∈ [0, 1] ํฌํ•จ)์„ ์„ค๋ช…. ๋™์ผํ•œ look back window ๋ฐ ์˜ˆ์ธก ๊ธฐ๊ฐ„์„ ์‚ฌ์šฉํ•˜์—ฌ ์ „๋ ฅ ๋ฐ์ดํ„ฐ ์„ธํŠธ์— ๋”ฐ๋ผ ์‹œ๊ฐ„๋ณ„ ์ˆ˜์ค€์œผ๋กœ ์ง‘๊ณ„
    • Retail : Kaggle ๋Œ€ํšŒ[33]์˜ Favorita Grocery Sales Dataset. ๋‹ค์–‘ํ•œ ์ œํ’ˆ ๋ฐ ์ƒ์ ์— ๋Œ€ํ•œ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ์™€ ์ผ์ผ ์ˆ˜์ค€์—์„œ ์ƒ˜ํ”Œ๋ง๋œ ๋‹ค๋ฅธ ์™ธ์ƒ์  ์‹œ๊ฐ„ ๋ณ€ํ™” ์ž…๋ ฅ์„ ๊ฒฐํ•ฉ. 90์ผ ๊ฐ„์˜ ๊ณผ๊ฑฐ ์ •๋ณด๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ–ฅํ›„ 30์ผ ๋™์•ˆ์˜ ๋กœ๊ทธ ์ œํ’ˆ ํŒ๋งค๋ฅผ ์˜ˆ์ธก
    • Volatility (๋˜๋Š” Vol.) : OMI ์‹คํ˜„ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ[34]์—๋Š” ์ผ์ผ ์ˆ˜์ต๋ฅ ๊ณผ ํ•จ๊ป˜ ์ผ์ค‘ ๋ฐ์ดํ„ฐ์—์„œ ๊ณ„์‚ฐ๋œ 31๊ฐœ ์ฃผ๊ฐ€ ์ง€์ˆ˜์˜ ์ผ์ผ ์‹คํ˜„ ๋ณ€๋™์„ฑ ๊ฐ’์ด ํฌํ•จ. ์‹คํ—˜์„ ์œ„ํ•ด ์ง€๋‚œ 1๋…„(์ฆ‰, 252์˜์—…์ผ) ๋™์•ˆ์˜ ์ •๋ณด๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ค์Œ ์ฃผ(์˜์—…์ผ ๊ธฐ์ค€ 5์ผ) ๋™์•ˆ์˜ ์˜ˆ์ธก์„ ๊ณ ๋ ค

 

โž• 6.2. Training Procedure

  • ๊ฐ ๋ฐ์ดํ„ฐ ์„ธํŠธ์— ๋Œ€ํ•ด ๋ชจ๋“  ์‹œ๊ณ„์—ด์„ ํ•™์Šต์„ ์œ„ํ•œ ํ›ˆ๋ จ ์„ธํŠธ, ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹์„ ์œ„ํ•œ ๊ฒ€์ฆ ์„ธํŠธ, ์„ฑ๋Šฅ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ํ™€๋“œ์•„์›ƒ ํ…Œ์ŠคํŠธ ์„ธํŠธ์˜ 3๊ฐœ ๋ถ€๋ถ„์œผ๋กœ ๋‚˜๋ˆ”
  • Hyperparameter ์ตœ์ ํ™”๋Š” Volatility์— ๋Œ€ํ•ด 240ํšŒ, others ์— ๋Œ€ํ•ด 60ํšŒ iterations์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ฌด์ž‘์œ„ ๊ฒ€์ƒ‰์„ ํ†ตํ•ด ์ˆ˜ํ–‰
  • ๋ชจ๋“  Hyperparameter ์— ๋Œ€ํ•œ ์ „์ฒด ๊ฒ€์ƒ‰ ๋ฒ”์œ„๋Š” ํ‘œ 1์— ๋‚˜์—ด๋œ ๋ฐ์ดํ„ฐ ์„ธํŠธ ๋ฐ ์ตœ์  ๋ชจ๋ธ ๋งค๊ฐœ๋ณ€์ˆ˜
    • State size – 10, 20, 40, 80, 160, 240, 320
    • Dropout rate – 0.1, 0.2, 0.3, 0.4, 0.5, 0.7, 0.9
    • Minibatch size – 64, 128, 256
    • Learning rate – 0.0001, 0.001, 0.01
    • Max. gradient norm – 0.01, 1.0, 100.0 • Num. heads – 1, 4

 

โž• 6.3. Computational Cost

  • ๋ชจ๋“  ๋ฐ์ดํ„ฐ ์„ธํŠธ์—์„œ ๊ฐ TFT ๋ชจ๋ธ์€ ๋‹จ์ผ GPU์—์„œ๋„ ํ›ˆ๋ จ๋˜์—ˆ์œผ๋ฉฐ ๊ด‘๋ฒ”์œ„ํ•œ ์ปดํ“จํŒ… ๋ฆฌ์†Œ์Šค ์—†์ด ๋ฐฐํฌ
  • ex) NVIDIA Tesla V100 GPU๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒฝ์šฐ ์ตœ์ ์˜ TFT ๋ชจ๋ธ(์ „๊ธฐ ๋ฐ์ดํ„ฐ ์„ธํŠธ์šฉ)์€ ํ•™์Šตํ•˜๋Š” ๋ฐ 6์‹œ๊ฐ„์ด ์•ฝ๊ฐ„ ๋„˜๊ฒŒ ๊ฑธ๋ฆผ (๊ฐ ์—ํฌํฌ๋Š” ๋Œ€๋žต 52๋ถ„)
  • ์ „์ฒด ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ ์„ธํŠธ(50,000๊ฐœ ์ƒ˜ํ”Œ๋กœ ๊ตฌ์„ฑ)์— ๋Œ€ํ•œ ์ผ๊ด„ ์ถ”๋ก ์—๋Š” 8๋ถ„
  • ํ•˜๋“œ์›จ์–ด๋ณ„ ์ตœ์ ํ™”๋ฅผ ํ†ตํ•ด TFT ํ›ˆ๋ จ ๋ฐ ์ถ”๋ก  ์‹œ๊ฐ„์„ ๋”์šฑ ์ค„์ผ ์ˆ˜ ์žˆ์Œ

 

 

โž• 6.4. Benchmarks

  • ์„น์…˜์— ์„ค๋ช…๋œ ๋ฒ”์ฃผ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ TFT๋ฅผ ๋‹ค์ค‘ ์ˆ˜ํ‰ ์˜ˆ์ธก์„ ์œ„ํ•œ ๋‹ค์–‘ํ•œ ๋ชจ๋ธ๊ณผ ๊ด‘๋ฒ”์œ„ํ•˜๊ฒŒ ๋น„๊ต
  • ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์ตœ์ ํ™”๋Š” ๋™์ผํ•œ ์ˆ˜์˜ ์‚ฌ์ „ ์ •์˜๋œ ๊ฒ€์ƒ‰ ๊ณต๊ฐ„์—์„œ ๋ฌด์ž‘์œ„ ๊ฒ€์ƒ‰์„ ์‚ฌ์šฉํ•˜์—ฌ ์ˆ˜ํ–‰
    • ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ ์„ธํŠธ์— ๋Œ€ํ•œ ๋ชจ๋“  ๋ฒค์น˜๋งˆํฌ์— ๋Œ€ํ•œ ๋ฐ˜๋ณต
  • Direct methods : TFT๊ฐ€ multi-horizon ๋ชจ๋ธ์˜ ์ด ํด๋ž˜์Šค์— ์†ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์šฐ๋ฆฌ๋Š” ์ฃผ๋กœ ๋‹ค์Œ์„ ํฌํ•จํ•˜์—ฌ future horizons ์—์„œ ์˜ˆ์ธก์„ ์ง์ ‘ ์ƒ์„ฑํ•˜๋Š” ๋”ฅ ๋Ÿฌ๋‹ ๋ชจ๋ธ์— ๋Œ€ํ•œ ๋น„๊ต์— ์ค‘์ ์„ ๋‘ 
    • 1) global contexts (Seq2Seq)๊ฐ€ ์žˆ๋Š” ๋‹จ์ˆœ sequence-to-sequence models
    • 2) Multi-horizon Quantile Recurrent Forecaster(MQRNN) [10]
  • Iterative methods : ์ž‘์—…์˜ ํ’๋ถ€ํ•œ ๋ณธ์ฒด์™€ ๊ด€๋ จํ•˜์—ฌ ์œ„์น˜ ์ง€์ •. ๋ฐ˜๋ณต ๋ชจ๋ธ์—์„œ ์šฐ๋ฆฌ๋Š” ์ „๊ธฐ ๋ฐ ๊ตํ†ต ๋ฐ์ดํ„ฐ ์„ธํŠธ์— ๋Œ€ํ•ด [9]์™€ ๋™์ผํ•œ ์„ค์ •์„ ์‚ฌ์šฉํ•˜์—ฌ TFT๋ฅผ ํ‰๊ฐ€
    • 1) DeepAR [9]
    • 2) DSSM [6]
    • 3) ConvTrans๋ผ๊ณ  ํ•˜๋Š” ๋กœ์ปฌ ์ปจ๋ณผ๋ฃจ์…˜ ์ฒ˜๋ฆฌ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” [12]์˜ Transformer ๊ธฐ๋ฐ˜ ์•„ํ‚คํ…์ฒ˜์— ๋Œ€ํ•œ [12]์˜ ๊ฒฐ๊ณผ๋ฅผ ํ™•์žฅ
    • ๋” ๋ณต์žกํ•œ ๋ฐ์ดํ„ฐ ์„ธํŠธ์˜ ๊ฒฝ์šฐ ์ด์ „ ์ž‘์—…์—์„œ ๋‹ค๋ฅธ ๋ฐ˜๋ณต ๋ชจ๋ธ๋ณด๋‹ค ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•˜๋Š” ConvTrans ๋ชจ๋ธ๊ณผ ์‹ค๋ฌด์ž๋“ค ์‚ฌ์ด์—์„œ ์ธ๊ธฐ๊ฐ€ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— DeepAR์— ์ค‘์ ์„ ๋‘ 
    • ์˜ˆ์ธก์„ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ๋ฏธ๋ž˜์˜ ๋ชจ๋“  ์ž…๋ ฅ์— ๋Œ€ํ•œ ์ง€์‹์ด ํ•„์š”ํ•˜๋ฏ€๋กœ ์•Œ ์ˆ˜ ์—†๋Š” ์ž…๋ ฅ์„ ๋งˆ์ง€๋ง‰ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ๊ฐ’์œผ๋กœ ๋Œ€์น˜ํ•˜์—ฌ ๋ณต์žกํ•œ ๋ฐ์ดํ„ฐ ์„ธํŠธ์— ๋Œ€ํ•ด ์ด๋ฅผ ์ˆ˜์šฉ

 

 

โž• 6.5. Results and Discussion

  • ํ‘œ 2๋Š” TFT๊ฐ€ Sec์— ์„ค๋ช…๋œ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ์„ธํŠธ์— ๋Œ€ํ•ด ๋ชจ๋“  ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ›จ์”ฌ ๋Šฅ๊ฐ€ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์คŒ
  • 6.1. ์ค‘์•™๊ฐ’ ์˜ˆ์ธก์˜ ๊ฒฝ์šฐ TFT๋Š” ์ฐจ์„ ์ฑ… ๋ชจ๋ธ์— ๋น„ํ•ด ํ‰๊ท ์ ์œผ๋กœ 7% ๋” ๋‚ฎ์€ P50 ๋ฐ 9% ๋” ๋‚ฎ์€ P90 ์†์‹ค์„ ์‚ฐ์ถœํ•˜์—ฌ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ผ๋ฐ˜์ ์ธ ๋‹ค์ค‘ ์ˆ˜ํ‰ ์˜ˆ์ธก ๋ฌธ์ œ์™€ ๋ช…์‹œ์ ์œผ๋กœ ์ •๋ ฌํ•˜๋Š” ์ด์ ์„ ๋ณด์—ฌ์คŒ
  • ์ง์ ‘ ๋ฐ ๋ฐ˜๋ณต ๋ชจ๋ธ์„ ๋น„๊ตํ•˜์—ฌ ๊ด€์ฐฐ๋œ ์ž…๋ ฅ์— ๋Œ€ํ•œ ์„ค๋ช…์˜ ์ค‘์š”์„ฑ์„ ๊ด€์ฐฐ
    ๊ด€์ฐฐ๋œ ์ž…๋ ฅ ์ „๊ฐ€๊ฐ€ ํ•„์š”ํ•œ ๋ณต์žกํ•œ ๋ฐ์ดํ„ฐ ์„ธํŠธ(์ฆ‰, ๋ณ€๋™์„ฑ ๋ฐ ์†Œ๋งค)
  • quantile ํšŒ๊ท€์˜ ์ด์ ์€ ๋ชฉํ‘œ๊ฐ€ ํ•ด๋‹น ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ์„ฑ๋Šฅ์ด ์šฐ์ˆ˜ํ•œ ์ง์ ‘ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฐ€์šฐ์Šค ๋ถ„ํฌ์— ์˜ํ•ด ์ž˜ ํฌ์ฐฉ๋˜์ง€ ์•Š๋Š” ๊ฒฝ์šฐ์—๋„ ๊ด€์ฐฐ
    • ex) target ๋ถ„ํฌ๊ฐ€ ํฌ๊ฒŒ ์™œ๊ณก๋œ Traffic ๋ฐ์ดํ„ฐ ์„ธํŠธ์—์„œ ๋ณผ ์ˆ˜ ์žˆ์Œ
    • ์ ์œ ์œจ์˜ 90% ์ด์ƒ์ด 0๊ณผ 0.1 ์‚ฌ์ด์— ์žˆ๊ณ  ๋‚˜๋จธ์ง€๋Š” 1.0๊นŒ์ง€ ๊ท ๋“ฑํ•˜๊ฒŒ ๋ถ„ํฌ

 

 

 

 

 

 

 

 

์–ด

๋ ต

 ๋‹ค

 

728x90
๋ฐ˜์‘ํ˜•
Comments