| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- 딥러닝
- Action Recognition
- depthwise convolution
- Vision Transformer
- posec3d
- Unreal Engine
- OpenGL
- Diffusion
- 모수 추정 방법
- C++
- computer graphics
- Focal loss
- CNN
- 오블완
- 최대 사후 확률
- convolution
- Image denoising
- deformable covolution
- covolution
- Deep Learning
- 티스토리챌린지
- DDPM
- 포인터
- Swin Transformer
- mobilenet
- 최대 가능도 추정
- Today
- Total
목록Vision Transformer (2)
심드렁하게 저장
Swin Transformer 개요Swin Transformer란 2021년에 발표한 대규모 비전 인식 모델이다. 해당 아키텍쳐가 제안된 논문은 "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows"이다. 기존 트랜스포머를 기반으로 하는 모델의 공통적인 문제점은 고정된 패치 크기로 인해 세밀한 예측을 필요로 하는 Semantic Segmentation과 같은 작업에 적합하지 않다는 점이었다. 또한 트랜스포머의 Self Attention은 입력 이미지 크기에 대한 Quadratic 계산 복잡도를 가지므로 고해상도 이미지를 처리하기 어려웠다. 이러한 문제를 극복하기 위해 Hierarchy 특징 맵을 구성해 Linear 계산 복잡도를..
ViT 개요자연어 처리 분야에서 트랜스포머 모델이 큰 성능 향상을 이뤄내면서 컴퓨터비전 분야에서도 Transformer 구조를 적용하려는 시도가 이루어졌다. Vision Transformer는 2020년 구글의 "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale" 논문에서 제안된 이미지인식 딥러닝 모델이다.CNN 과 ViT의 차이CNN과 ViT는 이미지 특징을 잘 표현하는 임베딩을 만들고자 하는 목적은 같지만 그 과정에는 큰 차이가 있다. 합성곱 신경망의 임베딩은 이미지 패치 중 일부만 선택하여 학습하며 이를 통해 이미지 전체의 특징을 추출한다.반면 ViT 임베딩은 이미지를 작은 패치들로 나누어 각 패치간의 상관 관계를 ..