๐Ÿ˜Ž ๊ณต๋ถ€ํ•˜๋Š” ์ง•์ง•์•ŒํŒŒ์นด๋Š” ์ฒ˜์Œ์ด์ง€?

๋ชจ๋ธ ๋งค๊ฐœ๋ณ€์ˆ˜ ์ตœ์ ํ™” [์˜ตํ‹ฐ๋งˆ์ด์ €, ์†์‹คํ•จ์ˆ˜, ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ] ๋ณธ๋ฌธ

๐Ÿ‘ฉ‍๐Ÿ’ป ์ปดํ“จํ„ฐ ๊ตฌ์กฐ/etc

๋ชจ๋ธ ๋งค๊ฐœ๋ณ€์ˆ˜ ์ตœ์ ํ™” [์˜ตํ‹ฐ๋งˆ์ด์ €, ์†์‹คํ•จ์ˆ˜, ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ]

์ง•์ง•์•ŒํŒŒ์นด 2022. 9. 22. 14:42
728x90
๋ฐ˜์‘ํ˜•

220922 ์ž‘์„ฑ

<๋ณธ ๋ธ”๋กœ๊ทธ๋Š” pytorch, sswwd ๋‹˜์˜ ๋ธ”๋กœ๊ทธ๋ฅผ ์ฐธ๊ณ ํ•ด์„œ ๊ณต๋ถ€ํ•˜๋ฉฐ ์ž‘์„ฑํ•˜์˜€์Šต๋‹ˆ๋‹ค :-) >

https://tutorials.pytorch.kr/beginner/basics/optimization_tutorial.html

 

๋ชจ๋ธ ๋งค๊ฐœ๋ณ€์ˆ˜ ์ตœ์ ํ™”ํ•˜๊ธฐ

ํŒŒ์ดํ† ์น˜(PyTorch) ๊ธฐ๋ณธ ์ตํžˆ๊ธฐ|| ๋น ๋ฅธ ์‹œ์ž‘|| ํ…์„œ(Tensor)|| Dataset๊ณผ Dataloader|| ๋ณ€ํ˜•(Transform)|| ์‹ ๊ฒฝ๋ง ๋ชจ๋ธ ๊ตฌ์„ฑํ•˜๊ธฐ|| Autograd|| ์ตœ์ ํ™”(Optimization)|| ๋ชจ๋ธ ์ €์žฅํ•˜๊ณ  ๋ถˆ๋Ÿฌ์˜ค๊ธฐ ์ด์ œ ๋ชจ๋ธ๊ณผ ๋ฐ์ดํ„ฐ๊ฐ€ ์ค€๋น„

tutorials.pytorch.kr

https://sswwd.tistory.com/35

 

ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹์ด๋ž€?(1)

๋„คํŠธ์›Œํฌ๋ฅผ ๊ตฌ์„ฑํ•  ๋•Œ ์‚ฌ๋žŒ์ด ์กฐ์ •ํ•ด์•ผ ํ•˜๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ์กด์žฌํ•œ๋‹ค. ์ด๋ฅผ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋ผ๊ณ  ํ•œ๋‹ค. ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ : - ์€๋‹‰์ธต ์ˆ˜, ์€๋‹‰์ธต์˜ ์ฑ„๋„ ์ˆ˜ → ์˜ˆ : model.add(Dense(128)) - drop out ๋น„์œจ - ํ™œ์„ฑ

sswwd.tistory.com

 

 

 

๋ชจ๋ธ์ด ์ค€๋น„๋˜์—ˆ์œผ๋ฉด! ๋ฐ์ดํ„ฐ์— ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ์ตœ์ ํ™” ํ•ด์•ผ ํ•œ๋‹ค!

๊ทธ๋Ÿฐ๋‹ค์Œ ๋ชจ๋ธ ํ•™์Šต -> ๊ฒ€์ฆ -> ํ…Œ์ŠคํŠธ

 

์ด ๋•Œ

์—ํญ(epoch) ๊ฐ ๋ฐ˜๋ณต ๋‹จ๊ณ„์—์„œ ๋ชจ๋ธ์€ ์ถœ๋ ฅ์„ ์ถ”์ธกํ•˜๊ณ , ์ถ”์ธก๊ณผ ์ •๋‹ต ์‚ฌ์ด์˜ ์˜ค๋ฅ˜(์†์‹ค(loss))๋ฅผ ๊ณ„์‚ฐ
๋งค๊ฐœ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ์˜ค๋ฅ˜์˜ ๋„ํ•จ์ˆ˜(derivative)๋ฅผ ์ˆ˜์ง‘ํ•œ ๋’ค,
๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ์ด ํŒŒ๋ผ๋ฏธํ„ฐ๋“ค์„ ์ตœ์ ํ™”(optimize)

 

 

 

๐Ÿ’š ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ(Hyperparameter)

: ๋ชจ๋ธ ์ตœ์ ํ™” ๊ณผ์ •์„ ์ œ์–ดํ•  ์ˆ˜ ์žˆ๋Š” ์กฐ์ ˆ ๊ฐ€๋Šฅํ•œ ๋งค๊ฐœ๋ณ€์ˆ˜

  • ์—ํญ(epoch) ์ˆ˜ : ๋ฐ์ดํ„ฐ์…‹์„ ๋ฐ˜๋ณตํ•˜๋Š” ํšŸ์ˆ˜
  • ๋ฐฐ์น˜ ํฌ๊ธฐ(batch size) : ๋งค๊ฐœ๋ณ€์ˆ˜๊ฐ€ ๊ฐฑ์‹ ๋˜๊ธฐ ์ „ ์‹ ๊ฒฝ๋ง์„ ํ†ตํ•ด ์ „ํŒŒ๋œ ๋ฐ์ดํ„ฐ ์ƒ˜ํ”Œ์˜ ์ˆ˜
  • ํ•™์Šต๋ฅ (learning rate) : ๊ฐ ๋ฐฐ์น˜/์—ํญ์—์„œ ๋ชจ๋ธ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ์กฐ์ ˆํ•˜๋Š” ๋น„์œจ
    • ๊ฐ’์ด ์ž‘์„์ˆ˜๋ก ํ•™์Šต ์†๋„๊ฐ€ ๋Š๋ ค์ง
    • ๊ฐ’์ด ํฌ๋ฉด ํ•™์Šต ์ค‘ ์˜ˆ์ธกํ•  ์ˆ˜ ์—†๋Š” ๋™์ž‘์ด ๋ฐœ์ƒ

 

๐Ÿ’š ์†์‹ค ํ•จ์ˆ˜(loss function)

: ํš๋“ํ•œ ๊ฒฐ๊ณผ์™€ ์‹ค์ œ ๊ฐ’ ์‚ฌ์ด์˜ ํ‹€๋ฆฐ ์ •๋„(degree of dissimilarity)๋ฅผ ์ธก์ •, ํ•™์Šต ์ค‘์— ์ด ๊ฐ’์„ ์ตœ์†Œํ™”

: ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ ์ƒ˜ํ”Œ์„ ์ž…๋ ฅ์œผ๋กœ ๊ณ„์‚ฐํ•œ ์˜ˆ์ธก๊ณผ ์ •๋‹ต(label)์„ ๋น„๊ตํ•˜์—ฌ ์†์‹ค(loss)์„ ๊ณ„์‚ฐ

  • ํšŒ๊ท€ ๋ฌธ์ œ(regression task)
    • nn.MSELoss(ํ‰๊ท  ์ œ๊ณฑ ์˜ค์ฐจ(MSE; Mean Square Error))
  • ๋ถ„๋ฅ˜(classification)
    • nn.NLLLoss (์Œ์˜ ๋กœ๊ทธ ์šฐ๋„(Negative Log Likelihood))
    • nn.LogSoftmax์™€ nn.NLLLoss๋ฅผ ํ•ฉ์นœ nn.CrossEntropyLoss

 

 

๐Ÿ’š ์˜ตํ‹ฐ๋งˆ์ด์ €(Optimizer)

: ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๊ฐ ํ•™์Šต ๋‹จ๊ณ„์—์„œ ๋ชจ๋ธ์˜ ์˜ค๋ฅ˜๋ฅผ ์ค„์ด๊ธฐ ์œ„ํ•ด ๋ชจ๋ธ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ์กฐ์ •

: ๋ชจ๋“  ์ตœ์ ํ™” ์ ˆ์ฐจ(logic)๋Š” optimizer ๊ฐ์ฒด์— ์บก์Šํ™”(encapsulate)

: PyTorch์—๋Š” ADAM์ด๋‚˜ RMSProp ๋“ฑ

  • optimizer.zero_grad()  : ๋ชจ๋ธ ๋งค๊ฐœ๋ณ€์ˆ˜์˜ ๋ณ€ํ™”๋„๋ฅผ ์žฌ์„ค์ •
    • ๊ธฐ๋ณธ์ ์œผ๋กœ ๋ณ€ํ™”๋„๋Š” ๋”ํ•ด์ง€๊ธฐ ๋•Œ๋ฌธ์— ์ค‘๋ณต ๊ณ„์‚ฐ์„ ๋ง‰๊ธฐ ์œ„ํ•ด ๋ฐ˜๋ณตํ•  ๋•Œ๋งˆ๋‹ค ๋ช…์‹œ์ ์œผ๋กœ 0์œผ๋กœ ์„ค์ •
  • loss.backwards() : ์˜ˆ์ธก ์†์‹ค(prediction loss)์„ ์—ญ์ „ํŒŒ
    • PyTorch๋Š” ๊ฐ ๋งค๊ฐœ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ์†์‹ค์˜ ๋ณ€ํ™”๋„๋ฅผ ์ €์žฅ
  • optimizer.step() : ์—ญ์ „ํŒŒ ๋‹จ๊ณ„์—์„œ ์ˆ˜์ง‘๋œ ๋ณ€ํ™”๋„๋กœ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ์กฐ์ •

 

๐Ÿ’š ์€๋‹‰์ธต

: ๋„คํŠธ์›Œํฌ ๊ตฌ์กฐ(์€๋‹‰์ธต ์ˆ˜, ์€๋‹‰์ธต์˜ ์œ ๋‹› ์ˆ˜)๋Š” ์ž์œ ๋กญ๊ฒŒ ์„ค์ •

: ์ˆ˜๋ฅผ ๋งŽ๊ฒŒ ํ•˜๋ฉด ๋‹ค์–‘ํ•œ ํ•จ์ˆ˜๋ฅผ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์Œ

BUT, ์ž…๋ ฅ์ธต์— ๊ฐ€๊นŒ์šด ๊ฐ€์ค‘์น˜๋ฅผ ์ ์ ˆํ•˜๊ฒŒ ๊ฐฑ์‹ ํ•˜๊ธฐ ์–ด๋ ต๊ณ  ํ•™์Šต์ด ์ข€์ฒ˜๋Ÿผ ์ง„ํ–‰๋˜์ง€ ์•Š์Œ

์ค‘์š”์„ฑ์ด ๋‚ฎ์€ ํŠน์ง•๋Ÿ‰์„ ์ถ”์ถœํ•ด๋ฒ„๋ ค ๊ณผํ•™์Šตํ•˜๊ธฐ ์‰ฌ์›Œ์ง

 

 

๐Ÿ’š Drop out

: ๊ณผํ•™์Šต์„ ๋ฐฉ์ง€ํ•˜์—ฌ ๋ชจ๋ธ์˜ ์ •ํ™•๋„๋ฅผ ๋†’์ด๋Š” ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜

: ์œ ๋‹›์˜ ์ผ๋ถ€๊ฐ€ ํ•™์Šตํ•  ๋•Œ๋งˆ๋‹ค 0์œผ๋กœ ๋ฎ์–ด์“ฐ๊ธฐ ๋˜์–ด ๋ฌด์ž‘์œ„๋กœ ์ œ๊ฑฐ๋œ

: ์‹ ๊ฒฝ๋ง์€ ํŠน์ • ๋‰ด๋Ÿฐ์˜ ์กด์žฌ์— ์˜์กดํ•  ์ˆ˜ ์—†๊ฒŒ ๋˜์–ด train data์™ธ์—๋„ ํ†ต์šฉ๋˜๊ธฐ ์‰ฌ์šด ํŠน์ง•์„ ํ•™์Šต

: ๋“œ๋กญ์•„์›ƒ์„ ์‚ฌ์šฉํ•˜๋Š” ์œ„์น˜, ์ธ์ˆ˜ rate๋Š” ๋ชจ๋‘ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋‹ค.

: drop out์€ ํ›ˆ๋ จํ•˜๋Š” ๋™์•ˆ์—๋งŒ ํ™œ์„ฑํ™”๋˜๋ฏ€๋กœ ํ›ˆ๋ จ ์†์‹ค๊ณผ ๊ฒ€์ฆ ์†์‹ค์„ ๋น„๊ตํ•˜๋ฉด ์˜คํ•ด๋ฅผ ์ผ์œผํ‚ค๊ธฐ ์‰ฌ์›€

=> drop out์„ ๋นผ๊ณ  ํ›ˆ๋ จ ์†์‹ค์„ ํ‰๊ฐ€

 

 

๐Ÿ’šActivation(ํ™œ์„ฑํ™” ํ•จ์ˆ˜)

: ์ „๊ฒฐํ•ฉ์ธต ๋’ค์— ์ ์šฉํ•˜๋Š” ํ•จ์ˆ˜๋กœ, ๋‰ด๋Ÿฐ์˜ ๋ฐœํ™”์— ํ•ด๋‹น

: ์‚ฌ์šฉํ•˜์ง€ ์•Š์„ ๊ฒฝ์šฐ ๋‹จ์ผ ์ง์„ ์œผ๋กœ ๋ถ„๋ฆฌํ•  ์ˆ˜ ์—†๋Š”(์„ ํ˜• ๋ถ„๋ฆฌ๊ฐ€ ๋ถˆ๊ฐ€๋Šฅํ•œ) ๋ฐ์ดํ„ฐ๋Š” ๋ถ„๋ฅ˜ํ•  ์ˆ˜ ์—†์Œ

=> ๋ชจ๋ธ์— ๋น„์„ ํ˜•์„ฑ์„ ๊ฐ–๊ฒŒ ํ•˜์—ฌ ์„ ํ˜• ๋ถ„๋ฆฌ ๋ถˆ๊ฐ€๋Šฅํ•œ ๋ฐ์ดํ„ฐ์— ๋Œ€์‘ํ•˜๊ธฐ ์œ„ํ•ด activation์„ ์‚ฌ์šฉ

 

โ–ถ Sigmoid

  • ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜๋Š” ๋ฐ˜๋“œ์‹œ 0๊ณผ 1์‚ฌ์ด์˜ ๊ตฌ๊ฐ„์— ๊ฐ’์ด ๋“ค์–ด๊ฐ€๊ธฐ ๋•Œ๋ฌธ์— ๊ทน๋‹จ์ ์ธ ์ถœ๋ ฅ๊ฐ’์ด ์ ์Œ
  • ๋ฆฌํ„ด ๊ฐ’์ด ํ™•๋ฅ  ๊ฐ’์ด๊ธฐ ๋•Œ๋ฌธ์— ๊ฒฐ๊ณผ๋ฅผ ํ™•๋ฅ ๋กœ ํ•ด์„ํ•  ๋•Œ ์œ ์šฉ
  • ์ž…๋ ฅ๊ฐ’์ด ๋ชจ๋‘ ์–‘์ˆ˜์ผ ๊ฒฝ์šฐ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ๋ชจ๋“  ๋ถ€ํ˜ธ๋Š” ๊ฐ™์Œ
    • gradient descent์‹œ ์ •ํ™•ํ•œ ๋ฐฉํ–ฅ์œผ๋กœ ๊ฐ€์ง€ ๋ชปํ•˜๊ณ  ์ง€๊ทธ์žฌ๊ทธ๋กœ ๋ฐœ์‚ฐํ•˜๋Š” ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒ(= ํ•™์Šต์ด ๋Š๋ ค์ง)
  • ์Œ์ˆ˜ ๊ฐ’์„ 0์— ๊ฐ€๊น๊ฒŒ ํ‘œํ˜„ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ž…๋ ฅ ๊ฐ’์ด ์ตœ์ข… ๋ ˆ์ด์–ด์—์„œ ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์ด ์ ์–ด์ง€๋Š” Vanishing Gradient Problem์ด ๋ฐœ์ƒ
    • x์˜ ์ ˆ๋Œ€๊ฐ’์ด ์ปค์งˆ์ˆ˜๋ก ๋ฏธ๋ถ„ ๊ฐ’์ด ์†Œ์‹ค๋  ๊ฐ€๋Šฅ์„ฑ์ด ํถ

 

โ–ถ Tanh

  • ์ถœ๋ ฅ์€ -1์—์„œ 1์‚ฌ์ด ๊ตฌ๊ฐ„์œผ๋กœ ์ œํ•œ
  • ์ค‘์‹ฌ์ ์„ 0์œผ๋กœ ์˜ฎ๊ฒจ sigmoid๊ฐ€ ๊ฐ–๊ณ  ์žˆ๋˜ ์ตœ์ ํ™” ๊ณผ์ •์—์„œ ๋Š๋ ค์ง€๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐ
  • BUT Vanishing Gradient Problem์€ ์—ฌ์ „ํžˆ ๋‚จ์•„์žˆ์Œ
  • RNN, LSTM ๋“ฑ์„ ํ•™์Šต์‹œํ‚ฌ ๋•Œ ์‚ฌ์šฉ

 

โ–ถ ReLU(Rectified Linear Unit)

  • ๊ฐ€์žฅ ๋งŽ์ด ์‚ฌ์šฉ๋˜๋Š” activation
  • ์ถœ๋ ฅ์ด ์–ด๋–ค ๊ตฌ๊ฐ„์—๋„ ์ˆ˜๋ ด๋˜์ง€ ์•Š๊ณ , ๊ทน๋‹จ์ ์ธ ์ถœ๋ ฅ๊ฐ’์ด ์ƒ์„ฑ๋  ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ์Œ
  • Vanishing Gradient Problem ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ํ•จ์ˆ˜
  • sigmoid๋‚˜ tanh์™€ ๋น„๊ตํ–ˆ์„ ๋•Œ SGD์˜ optimization ์†๋„๊ฐ€ ๋งค์šฐ ๋น ๋ฆ„
  • relu๋Š” ๋ฏธ๋ถ„๊ฐ’์ด 0 ์•„๋‹ˆ๋ฉด 1์ด๊ธฐ ๋•Œ๋ฌธ์— ๋ณ„๋‹ค๋ฅธ ๋น„์šฉ์ด ๋“ค์ง€ ์•Š์Œ
  • BUT, ๋„คํŠธ์›Œํฌ๋ฅผ ํ•™์Šต์‹œํ‚ฌ ๋•Œ ๋‰ด๋Ÿฐ๋“ค์ด ์ฃฝ๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋ฐœ์ƒ
    • ์ž…๋ ฅ๊ฐ’์ด 0๋ณด๋‹ค ์ž‘์œผ๋ฉด ๋‰ด๋Ÿฐ์ด ์ฃฝ์–ด ๋” ์ด์ƒ ๊ฐ’์˜ ์—…๋ฐ์ดํŠธ๊ฐ€ ์ˆ˜ํ–‰๋˜์ง€ ์•Š์Œ
    • ํ•œ๋ฒˆ 0 ํ™œ์„ฑํ™” ๊ฐ’์„ ๋‹ค์Œ ๋ ˆ์ด์–ด์— ์ „๋‹ฌํ•˜๋ฉด ์ดํ›„์˜ ๋‰ด๋Ÿฐ๋“ค์˜ ์ถœ๋ ฅ๊ฐ’์ด ๋ชจ๋‘ 0์ด ๋˜๋Š” ํ˜„์ƒ์ด ๋ฐœ์ƒ

 

โ–ถ softmax

  • ์ž…๋ ฅ๋ฐ›์€ ๊ฐ’์„ 0์—์„œ 1์‚ฌ์ด์˜ ๊ฐ’์œผ๋กœ ๋ชจ๋‘ ์ •๊ทœํ™”(normalized)ํ•˜๋ฉฐ, ์ถœ๋ ฅ ๊ฐ’์ด ์—ฌ๋Ÿฌ๊ฐœ
  • ๋‹ค์ค‘ ํด๋ž˜์Šค ๋ฌธ์ œ์— ์ ์šฉ
  • ์ •๊ทœํ™” ๊ธฐ๋Šฅ์„ ๊ฐ€์ง

โ–ถ Leaky ReLU

  • relu์˜ ์ฃฝ๋Š” ๋‰ด๋Ÿฐ ํ˜„์ƒ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ œ์‹œ๋œ ํ•จ์ˆ˜
  • ์ž‘์€ ๊ธฐ์šธ๊ธฐ(0.01๊ณผ ๊ฐ™์€ ๋งค์šฐ ์ž‘์€ ๊ฐ’)๋ฅผ ๋ถ€์—ฌ
  • ์ž…๋ ฅ ๊ฐ’์ด ์Œ์ˆ˜์ผ ๋•Œ ์™„๋งŒํ•œ ์„ ํ˜• ํ•จ์ˆ˜๋ฅผ ๊ทธ๋ ค์คŒ

 

โ–ถ PReLU

  • Leaky ReLU์™€ ๊ฑฐ์˜ ์œ ์‚ฌํ•˜์ง€๋งŒ ์ƒˆ๋กœ์šด ํŒŒ๋ผ๋ฏธํ„ฐ α ๋ฅผ ์ถ”๊ฐ€ํ•ด x๊ฐ€ ์Œ์ˆ˜์ธ ์˜์—ญ์—์„œ๋„ ๊ธฐ์šธ๊ธฐ๋ฅผ ํ•™์Šต
  • ์Œ์ˆ˜์— ๋Œ€ํ•œ gradient๋ฅผ ๋ณ€์ˆ˜๋กœ ๋‘๊ณ  ํ•™์Šต์„ ํ†ตํ•˜์—ฌ ์—…๋ฐ์ดํŠธ

 

โ–ถ ELU(Exponential Linear Unit)

  • ReLU์˜ ๋ชจ๋“  ์žฅ์ ์„ ํฌํ•จํ•˜๋ฉฐ Dying ReLU ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐ
  • ์ถœ๋ ฅ ๊ฐ’์ด ๊ฑฐ์˜ zero-centered์— ๊ฐ€๊นŒ์šฐ๋ฉฐ, ์ผ๋ฐ˜์ ์ธ ReLU์™€ ๋‹ค๋ฅด๊ฒŒ exp ํ•จ์ˆ˜๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๋น„์šฉ์ด ๋ฐœ์ƒ

 

โ–ถ SELU(Scaled ELU)

  • ELU ํ™œ์„ฑํ™” ํ•จ์ˆ˜์˜ ๋ณ€์ข…
  • ์™„์ „ ์—ฐ๊ฒฐ ์ธต๋งŒ ์Œ“์•„์„œ ์‹ ๊ฒฝ๋ง ๋งŒ๋“ค๊ณ  ๋ชจ๋‘ ์€๋‹‰์ธต์ด SELU ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ๋„คํŠธ์›Œํฌ๊ฐ€ ์ž๊ธฐ ์ •๊ทœํ™”๊ฐ€ ๋จ
  • ํ›ˆ๋ จํ•˜๋Š” ๋™์•ˆ ๊ฐ ์ธต์˜ ์ถœ๋ ฅ์ด ํ‰๊ท  0, ํ‘œ์ค€ํŽธ์ฐจ 1์„ ์œ ์ง€
    • ์ž…๋ ฅ ํŠน์„ฑ ๋ฐ˜๋“œ์‹œ ํ‘œ์ค€ํ™” ์ถœ๋ ฅ์ด ํ‰๊ท  0, ํ‘œ์ค€ํŽธ์ฐจ 1
    • ๋ชจ๋“  ์€๋‹‰์ธต์˜ ๊ฐ€์ค‘์น˜๋Š” lecun_normal ์ •๊ทœ๋ถ„ํฌ ์ดˆ๊ธฐํ™”
    • ๋„คํŠธ์›Œํฌ๋Š” ์ผ๋ ฌ๋กœ ์Œ“์€ ์ธต์œผ๋กœ ๊ตฌ์„ฑ

 

โ–ถ Maxout

  • ReLU์˜ ์žฅ์ ์„ ๋ชจ๋‘ ๊ฐ€์ง€๊ณ , Dying ReLU์˜ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐ
  • ๊ณ„์‚ฐ์ด ๋ณต์žก

 

โ–ถ Swish

  • 2017๋…„ ๊ตฌ๊ธ€์—์„œ ๋งŒ๋“  ํ•จ์ˆ˜
  • ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜์— x๋ฅผ ๊ณฑํ•œ ์•„์ฃผ ๊ฐ„๋‹จํ•œ ํ˜•ํƒœ
  • ๊นŠ์€ ๋ ˆ์ด์–ด๋ฅผ ํ•™์Šต์‹œํ‚ฌ ๋•Œ ReLU๋ณด๋‹ค ๋” ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์ž„
  • ReLU์™€ ๋‹ฌ๋ฆฌ Swish๋Š” ๊ฐ‘์ž‘์Šค๋Ÿฌ์šด ๋™์ž‘ ๋˜๋Š” ์ •์  ๋ณ€๊ฒฝ์ด ์—†์Œ

 

โ–ถ GELU(Gaussian Error Linear Unit) 

  • 2018๋…„๋„์— ๋„์ž…
  • ๋น„์„ ํ˜• ํ•จ์ˆ˜
  • ๋„คํŠธ์›Œํฌ๊ฐ€ ๊นŠ์–ด์งˆ์ˆ˜๋ก ์ž˜ ์ž‘๋™
  • GELU๋Š” BERT, ROBERTa, ALBERT ๋ฐ ๊ธฐํƒ€ ์ƒ์œ„ NLP ๋ชจ๋ธ๊ณผ ํ˜ธํ™˜

 

 

728x90
๋ฐ˜์‘ํ˜•
Comments