๐paper link
Vgg ๋ชจ๋ธ์ ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ ์ปดํจํฐ ๋น์ ๋ชจ๋ธ์ ์๋๋ฅผ ์ด์๋ Alexnet์ 8-layer๋ชจ๋ธ๋ณด๋ค ๊น์ด๊ฐ 2๊ฐ ์ด์ ๊น์ ๋คํธ์ํฌ์ ํ์ต์ ์ฑ๊ณตํ์ผ๋ฉฐ, ์ด๋ฅผ ํตํด ImageNet Cahllenge์์ ๋น์ SOTA ๋ชจ๋ธ์ธ AlexNet์ ์ค์ฐจ์จ์ ์ ๋ฐ์ผ๋ก ์ค์๋ค.
VGG ๋ชจ๋ธ์ด 16-19 ๋ ์ด์ด์ ๋ฌํ๋ ๊น์ ์ ๊ฒฝ๋ง์ ํ์ตํ ์ ์์๋ ๊ฒ์ ๋ชจ๋ ํฉ์ฑ๊ณฑ ๋ ์ด์ด์์ 3x3 ํํฐ๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ด๋ค.
ํต์ฌ : ์ด๋ป๊ฒ ๊น์ ๋ ์ด์ด์ ๋ชจ๋ธ์ด ๋์ ํฌํผ๋จผ์ค๋ฅผ ๋ผ ์ ์์๋๊ฐ, ์ ๋๋ถ๋ถ์ convolutional layer์ ๋น๊ต์ ์์ 3x3 ํฌ๊ธฐ์ ํํฐ๋ฅผ ์ฌ์ฉํ๋๊ฐ๋ฅผ ๊ท๋ช ํ๋ค.
7x7 ํํฐ์ receptive field
3x3 ํํฐ์ receptive field
receptive field๋ 7x7 ํํฐ๊ฐ ํ ๋ฒ ํ๊ณ ๊ฐ์ ๋์ 3x3ํํฐ๊ฐ input image๋ฅผ 3๋ฒ ํ๊ณ ๊ฐ์ ๋๊ฐ ๊ฐ๋ค. ํ์ง๋ง ํ๋ผ๋ฏธํฐ ์๋ 7x7=49, 3x3x3=27๋ก 3x3ํํฐ๋ฅผ ์ผ์ ๋ ๋ ์ ๋ค.
VGG16 architecture
ํ์ต ์ด๋ฏธ์ง ํฌ๊ธฐ(scale jittering)์ผ๋ก ํ์ต ๋ฐ์ดํฐ์ ์ด๋ฏธ์ง๋ค์ ๋ค์ํ ํฌ๊ธฐ๋ก ๋ณํํ๊ณ ๊ทธ ์ค ์ผ๋ถ๋ถ์ ์ํ๋งํด ์ฌ์ฉํจ์ผ๋ก์จ(๋ง์ง๋ง fc layer๊ฐ ์๊ธฐ ๋๋ฌธ์ input image์ ํฌ๊ธฐ๋ ๊ฐ์์ผ ํ๊ธฐ ๋๋ฌธ์) data augmentation์ ์ค์ํ๋ค. ์ด๋ก์ธํด ์ด๋ฏธ์ง ์ ์ค๋ธ์ ํธ์ ๋ค์ํ ์ธก๋ฉด์ ํ์ต ์ ๋ฐ์์ํฌ ์ ์์๊ณ , ์ด๋ ๊ฒ ํ์ต์์ผฐ์ ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ๋ ๋๋ค๋ ๊ฒ์ ํ์ธํ ์ ์์๋ค.