'Vision Transformer' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2026/04 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록Vision Transformer (2)

심드렁하게 저장

Swin Transformer - 이론과 구현

Swin Transformer 개요Swin Transformer란 2021년에 발표한 대규모 비전 인식 모델이다. 해당 아키텍쳐가 제안된 논문은 "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows"이다. 기존 트랜스포머를 기반으로 하는 모델의 공통적인 문제점은 고정된 패치 크기로 인해 세밀한 예측을 필요로 하는 Semantic Segmentation과 같은 작업에 적합하지 않다는 점이었다. 또한 트랜스포머의 Self Attention은 입력 이미지 크기에 대한 Quadratic 계산 복잡도를 가지므로 고해상도 이미지를 처리하기 어려웠다. 이러한 문제를 극복하기 위해 Hierarchy 특징 맵을 구성해 Linear 계산 복잡도를..

Artificial intelligence/Deep Learning 2025. 4. 21. 01:27

Vision Transformer - 이론과 구현

ViT 개요자연어 처리 분야에서 트랜스포머 모델이 큰 성능 향상을 이뤄내면서 컴퓨터비전 분야에서도 Transformer 구조를 적용하려는 시도가 이루어졌다. Vision Transformer는 2020년 구글의 "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale" 논문에서 제안된 이미지인식 딥러닝 모델이다.CNN 과 ViT의 차이CNN과 ViT는 이미지 특징을 잘 표현하는 임베딩을 만들고자 하는 목적은 같지만 그 과정에는 큰 차이가 있다. 합성곱 신경망의 임베딩은 이미지 패치 중 일부만 선택하여 학습하며 이를 통해 이미지 전체의 특징을 추출한다.반면 ViT 임베딩은 이미지를 작은 패치들로 나누어 각 패치간의 상관 관계를 ..

Artificial intelligence/Deep Learning 2025. 4. 17. 00:12

이전 Prev 1 Next 다음

목록Vision Transformer (2)

심드렁하게 저장

티스토리툴바