๐paper link
Vgg ๋ชจ๋ธ์ ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ ์ปดํจํฐ ๋น์ ๋ชจ๋ธ์ ์๋๋ฅผ ์ด์๋ Alexnet์ 8-layer๋ชจ๋ธ๋ณด๋ค ๊น์ด๊ฐ 2๊ฐ ์ด์ ๊น์ ๋คํธ์ํฌ์ ํ์ต์ ์ฑ๊ณตํ์ผ๋ฉฐ, ์ด๋ฅผ ํตํด ImageNet Cahllenge์์ ๋น์ SOTA ๋ชจ๋ธ์ธ AlexNet์ ์ค์ฐจ์จ์ ์ ๋ฐ์ผ๋ก ์ค์๋ค.
VGG ๋ชจ๋ธ์ด 16-19 ๋ ์ด์ด์ ๋ฌํ๋ ๊น์ ์ ๊ฒฝ๋ง์ ํ์ตํ ์ ์์๋ ๊ฒ์ ๋ชจ๋ ํฉ์ฑ๊ณฑ ๋ ์ด์ด์์ 3x3 ํํฐ๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ด๋ค.
ํต์ฌ : ์ด๋ป๊ฒ ๊น์ ๋ ์ด์ด์ ๋ชจ๋ธ์ด ๋์ ํฌํผ๋จผ์ค๋ฅผ ๋ผ ์ ์์๋๊ฐ, ์ ๋๋ถ๋ถ์ convolutional layer์ ๋น๊ต์ ์์ 3x3 ํฌ๊ธฐ์ ํํฐ๋ฅผ ์ฌ์ฉํ๋๊ฐ๋ฅผ ๊ท๋ช ํ๋ค.
7x7 ํํฐ์ receptive field

3x3 ํํฐ์ receptive field

receptive field๋ 7x7 ํํฐ๊ฐ ํ ๋ฒ ํ๊ณ ๊ฐ์ ๋์ 3x3ํํฐ๊ฐ input image๋ฅผ 3๋ฒ ํ๊ณ ๊ฐ์ ๋๊ฐ ๊ฐ๋ค. ํ์ง๋ง ํ๋ผ๋ฏธํฐ ์๋ 7x7=49, 3x3x3=27๋ก 3x3ํํฐ๋ฅผ ์ผ์ ๋ ๋ ์ ๋ค.
VGG16 architecture

ํ์ต ์ด๋ฏธ์ง ํฌ๊ธฐ(scale jittering)์ผ๋ก ํ์ต ๋ฐ์ดํฐ์ ์ด๋ฏธ์ง๋ค์ ๋ค์ํ ํฌ๊ธฐ๋ก ๋ณํํ๊ณ ๊ทธ ์ค ์ผ๋ถ๋ถ์ ์ํ๋งํด ์ฌ์ฉํจ์ผ๋ก์จ(๋ง์ง๋ง fc layer๊ฐ ์๊ธฐ ๋๋ฌธ์ input image์ ํฌ๊ธฐ๋ ๊ฐ์์ผ ํ๊ธฐ ๋๋ฌธ์) data augmentation์ ์ค์ํ๋ค. ์ด๋ก์ธํด ์ด๋ฏธ์ง ์ ์ค๋ธ์ ํธ์ ๋ค์ํ ์ธก๋ฉด์ ํ์ต ์ ๋ฐ์์ํฌ ์ ์์๊ณ , ์ด๋ ๊ฒ ํ์ต์์ผฐ์ ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ๋ ๋๋ค๋ ๊ฒ์ ํ์ธํ ์ ์์๋ค.