[CNN]_Convolution 과정

250x250

관리 메뉴

😎 공부하는 징징알파카는 처음이지?

[CNN]_Convolution 과정 본문

👩‍💻 인공지능 (ML & DL)/ML & DL

[CNN]_Convolution 과정

징징알파카 2022. 1. 29. 17:40

728x90

220129 작성

<본 블로그는 김태환 (TAEWAN.KIM) 님의 블로그를 참고해서 공부하며 작성하였습니다>

http://taewan.kim/post/cnn/

CNN, Convolutional Neural Network 요약

Convolutional Neural Network, CNN을 정리합니다.

taewan.kim

1. CNN, Covolutional Neural Network

- 기존

: Fully Connected layer 의 인공신경망 입력 데이터는 1차원

: 한장의 컬러 사진은 3차원

: 배치 모드의 여러 사진은 4차원

=> 3차원 데이터를 1차원으로 평면화

=> 공간 정보 손실

=> 이미지 공간 정보 유실로 인한 정보 부족으로 특징 추출 학습 비효율적, 정확도 한계

- CNN
: 이미지의 공간 정보를 유지한 상태로 학습이 가능

: 딥러닝 모델 스스로 필터 값을 학습하게끔 함

각 레이어의 입출력 데이터의 형상 유지
이미지의 공간 정보 유지, 인접 이미지와 특징 효과적으로 인식
다수의 필터로 이미지 특징 추출
추출한 이미지의 특징을 모아 강화하는 Pooling 레이어
필터를 공유 파라미터로 사용, 학습 파라미터가 매우 적음

1) 이미지 특징 추출 ( Feature Extration)

: Convolution Layer 와 Pooling Layer를 여러겹 쌓는다

: 입력 데이터가 필터를 순회하며 합성곱 계산 -> Feature map

: Convolution Layer 은 filter 크기, stride, padding, max poolxing 에 따라 출력 데이터 shape 변경

: Convolution Layer은 입력 데이터에 필터를 적용 후 , 활성화 함수 반영

: Pooling Layer 은 선택적 레이어

+ 이미지 형태의 데이터를 배열 형태로 만드는 flatten 레이어

2) 클래스 분류 ( Classification )

: 이미지 분류를 위한 Fully Connceted 레이어

2. CNN 주요 용어

Convolution (합성곱)

: 원본 이미지에 특정 필터를 곱하여 더하기
: 두 개의 함수 f 와 g 가 있을 때, 두 함수의 합성곱을 수학 기호로는 f * g 와 같이 표시
: 합성곱 연산은 두 함수 f , g 가운데 하나의 함수를 반전(reverse), 전이(shift)시킨 다음, 다른 하나의 함수와 곱한 결과를 적분

그림 1 : 합성곱 처리 절차http://deeplearning.stanford.edu/wiki/index.php/Feature_extraction_using_convolution

: 2 차원 입력 데이터 (5 x 5)를 1개의 필터 (3 x 3)로 합성곱 연산 수행 => Feature map 만듦

채널 (Channel)

: 이미지 픽셀은 하나하나가 실수
: 컬러 이미지는 3개의 채널 (RGB)
: 흑백 이미지는 2차원 데이터로, 1개 채널 (흑백)
: n 개의 필터가 사용된다면 출력 데이터는 n개의 채널 가짐

EX) 높이 39 (픽셀), 폭 31 (컬러), 컬러 => (39, 31, 3) shape

필터 (Filter) = 커널 (Kernel)

: 이미지의 특징을 찾아내기 위한 공용 파라미터
: 내가 훑은 픽셀 영역에 찾고자 하는 대상이 있는지 판별
: filter = kernel
: CNN 의 학습 대상
: filter 의 내부 값 (weight) 은 주로 랜던값 -> 학습 진행하며 내부 weight 갱신!
: 입력 데이터를 지정된 간격으로 순회하며 채널별로 합성곱 하고, 모든 채널의 합성곱의 합을 Feature map 으로 만듦

- Stride
: 지정된 간격으로 필터를 순회
: filter 가 입력 데이터를 훑으며 연산 할 때, 한번에 이동하는 pixel 개수

ex) 2칸씩 이동하면서 합성곱 계산

: 여러 채널을 가질 경우, 필터는 각채널을 순회하며 채널별 feature map 만든다
: 각 채널의 feature map을 합산하여 최종 feature map 으로 반환
: 입력 데이터는 채널 수와 상관없이 필터 별로 1개의 feature map 만들어짐

: 하나의 Convolution Layer 에 크기가 같은 여러개의 필터 적용 가능
: feature map 에 필터 개수 만큼 캐널 만들어짐
: 입력 데이터에 적용한 필터 개수 => 출력 데이터의 feature map 채널

- Activation Map ( = Feature map : 합성 곱 계산으로 만들어진 행렬)
: Convolution Layer의 입력 데이터를 필터가 순회하며 합성곱을 통해 만든 출력
: Feature map 행렬에 활성 홤수 적용한 결과
=> Convolution 레이어의 최종 결과

스트라이드 (Strid)

: 지정된 간격으로 필터를 순회
ex) 2칸씩 이동하면서 합성곱 계산

패딩 (Padding)

: Convolution 레이어에서 filter 와 stride 작용으로 feature map 크기는 입력 데이터보다 작다
: Convolution 레이어의 출력 데이터가 줄어드는 것을 방지 ( 가장자리 픽셀 정보 유실 방지 )
: 입력 데이터의 외각에 지정된 픽셀만큼 특정 값으로 채워 넣기 ( 보통 0 으로 채워넣음 : zero-padding )

풀링 (Pooling) 레이어

: Convolution Layer의 출력 데이터를 입력으로 받아서 출력 데이터 (Activation map) 의 크기를 줄이거나 특정 데이터를 강조
: 손실이 없는 feature map 에서 실제 pooling 을 거치며 중요한 정보를 추출해 핵심 정보를 매 단계마다 생성
: 학습 대상 파라미터가 없음
: pooling layer 통과하면 행렬 크기 감소
: pooling layer 통해서 채널 수 변경 없음

1) Max Pooling
: 특정 사이즈 윈도우 내의 값 중 Max( 최대 ) 값을 대표로 갖고 오기

2) Average Pooling
: 특정 사이즈 윈도우 내의 값 중 Average( 평균 ) 값을 대표로 갖고 오기

3) Min Pooing
: 특정 사이즈 윈도우 내의 값 중 Min( 최소 ) 값을 대표로 갖고 오기

3. 레이어별 출력 데이터 선정

1) Convolution Layer 출력 데이터(Activation Map)의 Shape 계산 식

: 입력 데이터에 대한 필터의 크기, stride 크기에 따라 feature map 결정

EX)
입력 shape = (39 : H 높이 , 31 : W 폭, 1 : 채널)
입력 채널 = 1
필터 F = (4, 4)
출력 채널 = 20
stride = 1
패딩 P = 2

RowSize = (H +2P - F) / Stride + 1
ColumnSize = (W +2P - F) / Stride + 1

=> Activation Map의 Shape는 (36, 28, 20)

2) Pooling Layer 출력 데이터 크기 설정

: pooling 사이즈는 정사각형

: 입력 데이터의 행 크기와 열 크기는 pooling 사이즈의 배수 (나누어 떨어지는 수)

: pooling layer의 출력 데이터 크기는 행과 열의 크기를 Pooling 사이즈로 나눈 몫

OutputRowSize = InputRowSize / PoolingSize
OutputColumnSize = InputColumnSize / PoolingSize

=> 출력 데이터의 Shape은 (18, 14, 20) if PoolingSize = (2, 2)

4. CNN 구성

: Convolution Layer 와 Max pooling Layer를 반복적으로 stack 을 쌓는 특징 추출 (Feature Extraction)

: Fully Connected Layer 구성

: 마지막 출력층에 Softmax 적용하여 분류 (Classifiation)

: Filter, Stride, Padding을 조절

: 특징 추출(Feature Extraction) 부분의 입력과 출력 크기 맞추는 작업이 중요

5. CNN 코드

1) 필터로 특징을 뽑아주는 컨볼루션(Convolution) 레이어

Conv2D(filters = 1, kernel_size = (2, 2), padding='valid', input_shape=(3, 3, 1), activation='relu')

input : 3*3 에 1개의 filter가 2*2 kernel_size로 Convolution

첫번째 : Convolution filter 수
두번째 : Convolution kernel (행, 열)
padding : 경계 처리 방법을 정의
- valid : 유효한 영역만 출력 => 출력 이미지 사이즈는 입력 사이즈보다 작음 ( default = "valid" )
- same : 출력 이미지 사이즈가 입력 이미지 사이즈와 동일
input_shape : 샘플 수를 제외한 입력 형태를 정의 (모델에서 첫 레이어일 때만 정의)
- (행, 열, 채널 수)로 정의
- 흑백영상인 경우에는 채널이 1
- 컬러(RGB)영상인 경우에는 채널을 3
strides : convolution의 stride를 지정 ( default = 1 )
activation : 활성화 함수 설정
- linear : 디폴트 값, 입력뉴런과 가중치로 계산된 결과값이 그대로 출력으로 나옴
- relu : rectifier 함수, 은익층에 주로 쓰임 ( default = "relu" )
- sigmoid : 시그모이드 함수, 이진 분류 문제에서 출력층에 주로 쓰임
- softmax : 소프트맥스 함수, 다중 클래스 분류 문제에서 출력층에 주로 쓰임

2) 입출력을 모두 연결해주는 Dense 레이어

Dense(8, input_dim = 4, init = 'uniform', activation = 'relu'))

: 입력과 출력을 모두 연결해주며, 입력과 출력을 각각 연결해주는 가중치를 포함

: 입력 뉴런이 4개, 출력 뉴런이 8개있다면 총 연결선은 32개 (4 * 8 = 32)

: 각 연결선에는 가중치(weight)를 포함하고 있는데, 이 가중치가 나타내는 의미는 연결강도

첫번째 : 출력 뉴런의 수를 설정
input_dim : 입력 뉴런의 수를 설정
init : 가중치 초기화 방법 설정
- uniform : 균일 분포
- normal : 가우시안 분포
activation : 활성화 함수 설정
- linear : 디폴트 값, 입력뉴런과 가중치로 계산된 결과값이 그대로 출력으로 나옴
- relu : rectifier 함수, 은익층에 주로 쓰임
- sigmoid : 시그모이드 함수, 이진 분류 문제에서 출력층에 주로 쓰임
- softmax : 소프트맥스 함수, 다중 클래스 분류 문제에서 출력층

입력 신호가 4개이고 출력 신호가 3개이므로 시냅스 강도의 개수는 12개

# 4개의 입력 값을 받아 이진분류 (sigmoid)
from keras.models import Sequential
from keras.layers import Dense

model = Sequential()

model.add(Dense(8, input_dim=4, init='uniform', activation='relu'))
model.add(Dense(6, init='uniform', activation='relu'))
model.add(Dense(1, init='uniform', activation='sigmoid'))

6. CNN 실습 코드

from keras.models import Sequential
from keras.layers.convolutional import Conv2D
from keras.layers.convolutional import MaxPooling2D
from keras.layers import Dense
from keras.layers import Flatten

model = Sequential()

model.add(Conv2D(12, kernel_size=(5, 5), activation='relu', input_shape=(56, 56, 1)))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Conv2D(16, kernel_size=(5, 5), activation='relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Conv2D(20, kernel_size=(4, 4), activation='relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Flatten())
model.add(Dense(128, activation="relu"))    # 출력 128
model.add(Dense(4, activation="softmax"))   # 출력 4 입력 128

model.summary()

Model: "sequential_12"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
conv2d_28 (Conv2D)           (None, 52, 52, 12)        312       
_________________________________________________________________
max_pooling2d_20 (MaxPooling (None, 26, 26, 12)        0         
_________________________________________________________________
conv2d_29 (Conv2D)           (None, 22, 22, 16)        4816      
_________________________________________________________________
max_pooling2d_21 (MaxPooling (None, 11, 11, 16)        0         
_________________________________________________________________
conv2d_30 (Conv2D)           (None, 8, 8, 20)          5140      
_________________________________________________________________
max_pooling2d_22 (MaxPooling (None, 4, 4, 20)          0         
_________________________________________________________________
flatten_3 (Flatten)          (None, 320)               0         
_________________________________________________________________
dense_6 (Dense)              (None, 128)               41088     
_________________________________________________________________
dense_7 (Dense)              (None, 4)                 516       
=================================================================
Total params: 51,872
Trainable params: 51,872
Non-trainable params: 0
_________________________________________________________________

Layer (type)

: 레이어의 이름과 타입

: 따로 지정해주고 싶을때는 Dense에 파라미터로 name= '지정하고싶은 이름'

Output Shape

: (None, 4)이라는 뜻은 None개의 행과 4개의 아웃풋 값이 주어졌다

: 행이 None으로 지정되는 이유는 데이터의 갯수는 계속해서 추가될 수 있기 때문에 딥러닝 모델에서는 주로 행을 무시

: 열의 shape을 맞추어주는 작업

Param:

: 파라미터의 수, 즉 각 입력노드와 출력노드에 대해 연결된 간선의 수

: 인풋에 Bias(b) 노드가 추가

7. CNN 입출력, 파라미터 계산

Model: "sequential_12"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
conv2d_28 (Conv2D)           (None, 52, 52, 12)        312       
_________________________________________________________________
max_pooling2d_20 (MaxPooling (None, 26, 26, 12)        0         
_________________________________________________________________
conv2d_29 (Conv2D)           (None, 22, 22, 16)        4816      
_________________________________________________________________
max_pooling2d_21 (MaxPooling (None, 11, 11, 16)        0         
_________________________________________________________________
conv2d_30 (Conv2D)           (None, 8, 8, 20)          5140      
_________________________________________________________________
max_pooling2d_22 (MaxPooling (None, 4, 4, 20)          0         
_________________________________________________________________
flatten_3 (Flatten)          (None, 320)               0         
_________________________________________________________________
dense_6 (Dense)              (None, 128)               41088     
_________________________________________________________________
dense_7 (Dense)              (None, 4)                 516       
=================================================================
Total params: 51,872
Trainable params: 51,872
Non-trainable params: 0
_________________________________________________________________

input_shape = (56, 56, 1)

- conv2d_28 ( 52, 52, 12 )
1) 파라미터
Convolution layer1에서 학습시킬 대상은 입력채널 1, 커널 사이즈 (5 , 5), 출력채널 12 개
=> (56, 56, 1) 이미지에 대해 12 장의 Conv Layer를 만든다
=> (5 * 5) 커널 * 1 채널 * 12 장 생성 + 12 개 bias 항이 있으니까 312 개의 모수 생성

2) Convolution Layer 출력 데이터
RowSize = (H + 2P - F) / Stride + 1
ColumnSize = (W + 2P - F) / Stride + 1
=> 56 - 5 / 1 + 1 = 52

- max_pooling2d_22 ( 26, 26, 12 )
1) 출력 데이터
(52, 52) 이미지 12장이 (2, 2) max pooling을 통과하면서 (26, 26) 이미지 12장으로 이미지 차원이 축소
OutputRowSize = InputRowSize / PoolingSize
OutputColumnSize = InputColumnSize / PoolingSize
=> 52 / 2 = 26

- conv2d_29 ( 22, 22, 16 )
1) 파라미터
Convolution layer2 에서 학습시킬 대상은 입력채널 12, 커널 사이즈 (5 , 5), 출력채널 16 개
=> (22, 22, 16) 이미지에 대해 16 장의 Conv Layer를 만든다
=> (5 * 5) 커널 * 12 채널 * 16 장 생성 + 16 개 bias 항이 있으니까 4816 개의 모수 생성

2) Convolution Layer 출력 데이터
RowSize = (H + 2P - F) / Stride + 1
ColumnSize = (W + 2P - F) / Stride + 1
=> 26 - 5 / 1 + 1 = 22

- max_pooling2d_21 ( 11, 11, 16 )
1) 출력 데이터
(22, 22) 이미지 16장이 (2,2) max pooling을 통과하면서 (11, 11) 이미지 16 장으로 이미지 차원이 축소
OutputRowSize = InputRowSize / PoolingSize
OutputColumnSize = InputColumnSize / PoolingSize
=> 22 / 2 = 11

- conv2d_30 ( 8, 8, 20 )
1) 파라미터
Convolution layer2 에서 학습시킬 대상은 입력채널 16, 커널 사이즈 (4 , 4), 출력채널 20 개
=> (11, 11, 16) 이미지에 대해 20 장의 Conv Layer를 만든다
=> (4 * 4) 커널 * 16 채널 * 20 장 생성 + 20 개 bias 항이 있으니까 5140 개의 모수 생성

2) Convolution Layer 출력 데이터
RowSize = (H + 2P - F) / Stride + 1
ColumnSize = (W + 2P - F) / Stride + 1
=> 11 - 4 / 1 + 1 = 8

- max_pooling2d_21 ( 4, 4, 20 )
1) 출력 데이터
(8, 8) 이미지 20장이 (2,2) max pooling을 통과하면서 (4, 4) 이미지 20 장으로 이미지 차원이 축소
OutputRowSize = InputRowSize / PoolingSize
OutputColumnSize = InputColumnSize / PoolingSize
=> 8 / 2 = 4

- flatten_3 ( 320 )
(4, 4) * 20 = 320 개의 입력 텐서가 생성

- dense_6
320개를 입력 받아 128개를 출력하므로 bias가 128 개이므로 미지수는 320 * 128 + 128 = 41088

- dense_7
128개를 입력받아 4개를 출력하고 bias가 4 개이므로 미지수는 517

=> 이 모든 미지수를 합하면 51,872

8. CNN 요약

: 이미지의 공간 정보를 유지하면서 인접 이미지와의 특징을 효과적으로 인식하고 강조하는 방식

: 이미지의 특징 추출 + 이미지를 분류

- 이미지 특징 추출

=> filter 을 사용하여 공유 파라미터 수를 최소화 하며 이미지 특징을 찾는 convolution 레이어와 특징을 강화하고 모으는 pooling 레이어로 구성

: Filter의 크기, Stride, Padding과 Pooling 크기로 출력 데이터 크기를 조절

: 필터의 개수로 출력 데이터의 채널을 결정

: 이전 레이어의 모든 노드가 다음 레이어의 모든 노드에 연결된 레이어를 Fully Connected Layer(FC Layer)

=> FC Layer를 Dense Layer

728x90

저작자표시

'👩‍💻 인공지능 (ML & DL) > ML & DL' 카테고리의 다른 글

[Deep Learning]_2_미분 기초 (1) (0)	2022.02.01
[음성] 음성인식 음악분류 & 추천 알고리즘 (0)	2022.01.31
[DEEPNOID 원포인트레슨]_10_GAN (0)	2022.01.28
[DEEPNOID 원포인트레슨]_9_AutoEncoder & GAN (0)	2022.01.28
[Deep Learning]_1_머신러닝 수학 (0)	2022.01.28

'👩‍💻 인공지능 (ML & DL)/ML & DL' Related Articles

Comments

😎 공부하는 징징알파카는 처음이지?

[CNN]_Convolution 과정 본문

[CNN]_Convolution 과정

'👩‍💻 인공지능 (ML & DL) > ML & DL' 카테고리의 다른 글

티스토리툴바