새소식

카테고리 없음

An Image is Worth 16X16 Words : Transformers for Image Recognition at Scale (ResNetV2)

  • -

ResNet50 (이미지 출처 : https://towardsdatascience.com/understanding-and-coding-a-resnet-in-keras-446d7ff84d33)

 

논문 원본

 

Hybrid Architecture

ResNet 50은 위의 이미지처럼 5개의 스테이지로 구성된다.

ViT에서 이미지를 패치로 분할하는 대신 ResNet의 feature map에서 입력 시퀀스를 형성할 수 있는데, 논문에 의하면 아래 둘 중 하나의 방식을 사용할 수 있다고 한다.

1) ResNet50의 stage 4의 output을 사용한다.

2) stage 4를 지우고, 같은 수의 레이어를 stage 3에 위치시켜서 전체 레이어 수를 유지시킨 방식을 사용한다.

이렇게 구한 feaure map을 sequence로 만들고 projection 처리한 다음 Transformer input sequence로 사용한다.

 

소스 샘플은 아래의 github 링크를 참고하고, ViT 사용 시 ResNet을 사용한다면 약간 다른 방식으로 사용하는 게 더 좋다고 알아두면 될 것 같다.

자세한 건 다른 분들의 설명이 더 이해가 쉬울 수 있으니 아래의 블로그 글을 참조하시는 게 좋을 것 같습니다.

 

참고자료

https://arxiv.org/pdf/2010.11929.pdf

https://eehoeskrap.tistory.com/486

 

[Paper Review] An Image is Worth 16X16 Words : Transformers for Image Recognition at Scale

An Image is Worth 16X16 Words : Transformers for Image Recognition at Scale 위 논문은 자연어 처리(NLP) 분야에서 널리 사용되는 Transformer 개념을 컴퓨터 비전 분야에 적용해본 논문이다. 먼저 자연어 처..

eehoeskrap.tistory.com

https://github.com/ziniuwan/maed/blob/9e1f1c37eba81da86c8d9c62dc9be41a01abff5b/lib/models/resnetv2.py

 

GitHub - ziniuwan/maed: [ICCV 2021] Encoder-decoder with Multi-level Attention for 3D Human Shape and Pose Estimation

[ICCV 2021] Encoder-decoder with Multi-level Attention for 3D Human Shape and Pose Estimation - GitHub - ziniuwan/maed: [ICCV 2021] Encoder-decoder with Multi-level Attention for 3D Human Shape and...

github.com

 

Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.