paper review: https://gaussian37.github.io/dl-concept-vit/
입력 이미지를 패치 단위로 쪼갠 후 각각의 패치를 순서대로 나열한다.
$$ (N,P^2C)\\\;N=the\;number\;of\;patches\;,\\ P=the\;size\;of\;patches\;,\\ C=the\;number\;of\;channel\; $$
각각의 패치들을 벡터로 취급하여 행렬연산을 통해 벡터들을 Embedding을 해준다.
$$ (N,P^2C)\times(P^2C,D)\;=\;(N,D)_{embed} $$
$$ (N+1,D)_{embed} $$
$$ (N+1,D){embed}\;\bigodot\;\,(N+1,D){position}\;=\;(N+1,D) $$