분류 전체보기
-
Hybrid Architecture ResNet 50은 위의 이미지처럼 5개의 스테이지로 구성된다. ViT에서 이미지를 패치로 분할하는 대신 ResNet의 feature map에서 입력 시퀀스를 형성할 수 있는데, 논문에 의하면 아래 둘 중 하나의 방식을 사용할 수 있다고 한다. 1) ResNet50의 stage 4의 output을 사용한다. 2) stage 4를 지우고, 같은 수의 레이어를 stage 3에 위치시켜서 전체 레이어 수를 유지시킨 방식을 사용한다. 이렇게 구한 feaure map을 sequence로 만들고 projection 처리한 다음 Transformer input sequence로 사용한다. 소스 샘플은 아래의 github 링크를 참고하고, ViT 사용 시 ResNet을 사용한다면 약..
An Image is Worth 16X16 Words : Transformers for Image Recognition at Scale (ResNetV2)Hybrid Architecture ResNet 50은 위의 이미지처럼 5개의 스테이지로 구성된다. ViT에서 이미지를 패치로 분할하는 대신 ResNet의 feature map에서 입력 시퀀스를 형성할 수 있는데, 논문에 의하면 아래 둘 중 하나의 방식을 사용할 수 있다고 한다. 1) ResNet50의 stage 4의 output을 사용한다. 2) stage 4를 지우고, 같은 수의 레이어를 stage 3에 위치시켜서 전체 레이어 수를 유지시킨 방식을 사용한다. 이렇게 구한 feaure map을 sequence로 만들고 projection 처리한 다음 Transformer input sequence로 사용한다. 소스 샘플은 아래의 github 링크를 참고하고, ViT 사용 시 ResNet을 사용한다면 약..
2022.01.21 -
우분투를 키니까 갑자기 터미널 화면만 뜨면서 위와 같은 에러가 발생했다. 결과적으로 아래의 링크를 참조해서 해결했는데, /etc/fstab 파일에 마운트가 두번되어있었다. vi /etc/fstab 으로 해당 파일을 연 뒤, 이상한 부분을 주석 처리(#)했다. 필자의 경우 아래 스크립트처럼 3개의 디스크가 마운트되어있는데, 아래를 보면 /dev/sda1, /dev/sda3는 비슷하게 되어있는데, 주석처리된 /dev/sda1의 경우 다른 것들과 좀 다르다. 이게 중복으로 되어있어서 마운트가 제대로 되지 않아 에러가 났던 것 같다. 그래서 해당 부분 주석 처리 후 exit 입력하니 정상적으로 로그인이 되었다. # # /etc/fstab: static file system information # # tmpfs..
ubuntu 부팅 오류 - failed to create unit file already exists우분투를 키니까 갑자기 터미널 화면만 뜨면서 위와 같은 에러가 발생했다. 결과적으로 아래의 링크를 참조해서 해결했는데, /etc/fstab 파일에 마운트가 두번되어있었다. vi /etc/fstab 으로 해당 파일을 연 뒤, 이상한 부분을 주석 처리(#)했다. 필자의 경우 아래 스크립트처럼 3개의 디스크가 마운트되어있는데, 아래를 보면 /dev/sda1, /dev/sda3는 비슷하게 되어있는데, 주석처리된 /dev/sda1의 경우 다른 것들과 좀 다르다. 이게 중복으로 되어있어서 마운트가 제대로 되지 않아 에러가 났던 것 같다. 그래서 해당 부분 주석 처리 후 exit 입력하니 정상적으로 로그인이 되었다. # # /etc/fstab: static file system information # # tmpfs..
2022.01.18 -
두 개의 사진의 차이점을 비교하는 Change Detection 분야의 논문인데 Transformer 기반으로 만들어졌습니다. Siamese 네트워크 구조를 참고해서 계층적 transformer encoder와 여러 스케일의 feature 차이를 계산하는 4개의 feature 차이 모듈 및 경량 MLP Decoder를 사용해서 multi-level feature 차이를 융합하고 CD(Change Detection) mask를 예측한다. 1. Hierarchical Transformer Encoder 그림1에서 볼 수 있듯이 input bi-temportal image(찍은 시점이 다르고 카메라가 같은 두 이미지)가 주어졌을 때, 고해상도의 coarse feature와 저해상도의 fine-grained f..
A TRANSFORMER-BASED SIAMESE NETWORK FOR CHANGE DETECTION 논문리뷰두 개의 사진의 차이점을 비교하는 Change Detection 분야의 논문인데 Transformer 기반으로 만들어졌습니다. Siamese 네트워크 구조를 참고해서 계층적 transformer encoder와 여러 스케일의 feature 차이를 계산하는 4개의 feature 차이 모듈 및 경량 MLP Decoder를 사용해서 multi-level feature 차이를 융합하고 CD(Change Detection) mask를 예측한다. 1. Hierarchical Transformer Encoder 그림1에서 볼 수 있듯이 input bi-temportal image(찍은 시점이 다르고 카메라가 같은 두 이미지)가 주어졌을 때, 고해상도의 coarse feature와 저해상도의 fine-grained f..
2022.01.07 -
기존 Transformer에서는 Token Mixer 영역을 Attention으로 해서 처리했고, 많은 논문들에서는 Attention을 개선시키는 시도를 했다. 최근에는 attetnion을 MLP로 바꾼 모델도 성능이 좋았고, 이 논문에서는 단순하게 공간 Pooling을 통해 이를 개선시켰다. 그래서 이 논문에서는 Transformer의 기존 Attention 영역을 Token Mixer라고 추상화하는 형태인 Metaformer 아키텍처를 제안한다. Pooling을 기반으로 한 PoolFormer는 향후 MetaFormer 아키텍처 설계를 위한 좋은 baseline으로 사용할 수 있다고 제안하고 있다. - Transformer 기반 모델의 성공은 Attention 때문이 아니라 MetaFormer 아키텍..
MetaFormer is Actually What You Need for Vision 논문리뷰기존 Transformer에서는 Token Mixer 영역을 Attention으로 해서 처리했고, 많은 논문들에서는 Attention을 개선시키는 시도를 했다. 최근에는 attetnion을 MLP로 바꾼 모델도 성능이 좋았고, 이 논문에서는 단순하게 공간 Pooling을 통해 이를 개선시켰다. 그래서 이 논문에서는 Transformer의 기존 Attention 영역을 Token Mixer라고 추상화하는 형태인 Metaformer 아키텍처를 제안한다. Pooling을 기반으로 한 PoolFormer는 향후 MetaFormer 아키텍처 설계를 위한 좋은 baseline으로 사용할 수 있다고 제안하고 있다. - Transformer 기반 모델의 성공은 Attention 때문이 아니라 MetaFormer 아키텍..
2022.01.07 -
2021년 12월, 최근 발표된 Vision Transformer 관련 논문으로 대량의 데이터가 필요한 기존의 ViT 문제를 해결한 논문입니다. 소규모 데이터셋에서도 scratch에서(처음부터) 학습할 수 있는 SPT(Shifted Patch Tokenization) 및 LSA(Locality Self-Attention) 모듈을 제안하여, ViT에 모두 적용하여 실험한 결과 대표적인 소형 데이터셋인 TinyImageNet(클래스별 500개 데이터, 총 200개 클래스)에서 평균 2.96%의 성능 향상, Swin Transformer는 4.08% 성능 향상 1. Introduction 기존 ViT의 문제점 1) 열악한 토큰화 : non-overlapping patches를 사용함으로 인해 visual to..
Vision Transformer for Small-Size Datasets 논문리뷰2021년 12월, 최근 발표된 Vision Transformer 관련 논문으로 대량의 데이터가 필요한 기존의 ViT 문제를 해결한 논문입니다. 소규모 데이터셋에서도 scratch에서(처음부터) 학습할 수 있는 SPT(Shifted Patch Tokenization) 및 LSA(Locality Self-Attention) 모듈을 제안하여, ViT에 모두 적용하여 실험한 결과 대표적인 소형 데이터셋인 TinyImageNet(클래스별 500개 데이터, 총 200개 클래스)에서 평균 2.96%의 성능 향상, Swin Transformer는 4.08% 성능 향상 1. Introduction 기존 ViT의 문제점 1) 열악한 토큰화 : non-overlapping patches를 사용함으로 인해 visual to..
2022.01.06 -
Traceback (most recent call last): File "", line 1, in File "/tmp/pip-install-d_9jpl7q/opendr_43e938b8a7494027aedf0a8b359f80e9/setup.py", line 40 print "Downloading %s" % osmesa_fname ^ SyntaxError: Missing parentheses in call to 'print'. Did you mean print("Downloading %s" % osmesa_fname) pip로 opendr 설치 중 오류가 발생했을 때의 대처 방법입니다. 가상환경(venv)를 사용하는 게 아니라 anaconda 환경에서 관련 모듈 설치 후 진행해야 정상적으로 설치가 됩니다. ..
pip opendr 설치Traceback (most recent call last): File "", line 1, in File "/tmp/pip-install-d_9jpl7q/opendr_43e938b8a7494027aedf0a8b359f80e9/setup.py", line 40 print "Downloading %s" % osmesa_fname ^ SyntaxError: Missing parentheses in call to 'print'. Did you mean print("Downloading %s" % osmesa_fname) pip로 opendr 설치 중 오류가 발생했을 때의 대처 방법입니다. 가상환경(venv)를 사용하는 게 아니라 anaconda 환경에서 관련 모듈 설치 후 진행해야 정상적으로 설치가 됩니다. ..
2021.12.23