Vision Transformer

image processing 과정

Screen Shot 2022-09-18 at 5.58.12 PM.png

입력 이미지를 패치 단위로 쪼갠 후 각각의 패치를 순서대로 나열한다.

$$ (N,P^2C)\\\;N=the\;number\;of\;patches\;,\\ P=the\;size\;of\;patches\;,\\ C=the\;number\;of\;channel\; $$
각각의 패치들을 벡터로 취급하여 행렬연산을 통해 벡터들을 Embedding을 해준다.

$$ (N,P^2C)\times(P^2C,D)\;=\;(N,D)_{embed} $$

$$ (N+1,D)_{embed} $$

$$ (N+1,D){embed}\;\bigodot\;\,(N+1,D){position}\;=\;(N+1,D) $$