| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- Diffusion
- 포인터
- OpenGL
- depthwise convolution
- 모수 추정 방법
- Swin Transformer
- Focal loss
- mobilenet
- covolution
- 티스토리챌린지
- deformable covolution
- Image denoising
- 딥러닝
- posec3d
- computer graphics
- Vision Transformer
- CNN
- DDPM
- 최대 가능도 추정
- 오블완
- C++
- Unreal Engine
- Action Recognition
- convolution
- Deep Learning
- 최대 사후 확률
- Today
- Total
목록Artificial intelligence/Deep Learning (15)
심드렁하게 저장
DDPM 개요 Denoising Diffusion Probabilistic Models는 2020년 발표된 생성모델로 최근 이미지 생성분야에서 각광받고 있는 모델이다. DDPM을 직관적인 한줄로 이해하면 다음과 같다.이미지에 점진적으로 노이즈를 추가해서 정규분포로 만든 뒤, reverser process로 다시 노이즈를 제거하면서 이미지를 복원하는 확률적 생성모델 물론 이렇게 써놓으면 다 이해한 것 같지만 실상은 그렇지 않다. 자세하지는 않지만 나름대로의 직관으로 논문을 이해해보도록 하겠다.1. Introduction최근 몇 년 사이에 GAN,VAE,AutoRegressive Model 등 다양한 딥러닝 생성 모델이 이미지, 오디오 등 여러 데이터에서 진짜처럼 보이는 샘플을 잘 만들어내고 있다.GAN이 ..
Dilated Convolution Dilated Convolution은 커널의 필터 사이를 띄워서 적용하는 연산이다. 즉, 샘플 간 간격(dilation rate) 을 넓게 벌려서 더 넓은 receptive field(CNN에서 출력 레이어의 뉴런 하나에 영향을 미치는 입력 뉴런들의 공간 크기)를 확보 할 수 있다. 기존 Convolution은 인접한 픽셀에만 반응하지만 Dilated Conv는 픽셀 사이를 건너뛰며 계산하므로 멀리 떨어진 정보까지 한번에 수용 가능하다. 또한 해상도 손실 없이 더 넓은 문맥을 담을 수 있다. Dilated Conv의 활용사례는 다음과같다.DeepLab v3+여러 dilation rate로 multi-scale context 학습WaveNet오디오 생성 시, 시계열에서 ..
1. Depthwise Convolution Depthwise Convolution은 일반적인 Conv2D에서 채널 간 연산을 제거하고, 각 채널 별로 독립적 커널을 적용하는 방식이다. 이것은 MobileNet 계열에서 파라미터 수와 연산량을 줄이는데 효과적으로 사용되고있다. 이때 Spatial filtering만 수행하고 채널간 결합은 Pointwise Conv(1x1)로 따로 처리하는 것이 일반적이다.$Y_{c}(i,j)$: 출력 feature map의 c 채널, 위치$(i,j)$의 값$X_{c}$ : 입력의 c 채널$W_{c}(m,n)$: 해당 채널에만 적용되는 커널(필터) $k_{n}\times k_{n}$ 크기$(i+m,j+n)$: 필터를 적용할 입력 이미지의 위치$c$ : 채널 인덱스, 모든 ..
FocalLoss 개요Focal Loss는 불균형한 클래스 분포 (Class imbalance) 문제를 해결하기 위해 고안된 손실 함수로, 특히 객체 탐지 문제에서 널리 사용된다. 이 Loss는 Rare 클래스에 집중하도록 손실을 조정하는 것이 핵심이다.FocalLoss의 특징일반적인 분류 문제에서 사용하는 Cross Entropy Loss는 다음과 같다. 여기서 $y\in{0,1}$은 정답 Label, $p\in{0,1}$은 모델이 예측한 확률이다.Cross Entropy loss의 문제점은 대부분의 경우 쉬운예제(이미 잘 맞추는 예제)에도 동일하게 손실을 계산한다. 이로인해 어려운예제(드물고 잘 분류되지 않는 클래스)에 집중하지 못한다. Focal Loss는 쉬운 예제의 손실을 감소시켜 무시하고 어려..
Swin Transformer 개요Swin Transformer란 2021년에 발표한 대규모 비전 인식 모델이다. 해당 아키텍쳐가 제안된 논문은 "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows"이다. 기존 트랜스포머를 기반으로 하는 모델의 공통적인 문제점은 고정된 패치 크기로 인해 세밀한 예측을 필요로 하는 Semantic Segmentation과 같은 작업에 적합하지 않다는 점이었다. 또한 트랜스포머의 Self Attention은 입력 이미지 크기에 대한 Quadratic 계산 복잡도를 가지므로 고해상도 이미지를 처리하기 어려웠다. 이러한 문제를 극복하기 위해 Hierarchy 특징 맵을 구성해 Linear 계산 복잡도를..
ViT 개요자연어 처리 분야에서 트랜스포머 모델이 큰 성능 향상을 이뤄내면서 컴퓨터비전 분야에서도 Transformer 구조를 적용하려는 시도가 이루어졌다. Vision Transformer는 2020년 구글의 "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale" 논문에서 제안된 이미지인식 딥러닝 모델이다.CNN 과 ViT의 차이CNN과 ViT는 이미지 특징을 잘 표현하는 임베딩을 만들고자 하는 목적은 같지만 그 과정에는 큰 차이가 있다. 합성곱 신경망의 임베딩은 이미지 패치 중 일부만 선택하여 학습하며 이를 통해 이미지 전체의 특징을 추출한다.반면 ViT 임베딩은 이미지를 작은 패치들로 나누어 각 패치간의 상관 관계를 ..
Rectified Adam Optimizer란RAdm Optimizer는 기존의 Adam optimizer의 문제점을 개선한 최적화 방식이다. Adam Optimizer는 학습률이 기하급수적으로 늘어날 수도 있고, 학습을 너무 빨리 하여 local minima에 도달할 수 있다는 단점이 있다.RAdam은 학습이 너무 빠르다는 문제를 완화한 optimizer로 초기에 불안정하게 학습하는 Adam의 특성을 분석하여 고안되었다.따라서 RAdam은 Adaptive Learning Rate의 신뢰도를 보정하는 보정 계수를 도입하였다. 이는 Variance rectification term을 통해 학습 초기에 Adam이 흔들리지 않도록 안정화 시킨다.또한 논문에서는 두 가지 분산 감소 매커니즘을 평가한다Adam-2..
Transformer란?Transformer 아키텍처는 자연어 처리와 컴퓨터 비전 등 다양한 딥러닝 분야에서 사용되는 Self-Attention 기반의 딥러닝 모델이다. 구글 브레인에서 2017년도에 발표한 Attention Is All You Need 논문에서 제안되었으며 해당 논문을 기점으로 딥러닝 모델은 대부분 Self Attention 방식을 채택하며 업계의 흐름이 격변하였다고 한다. 이 글에서는 Transformer의 핵심이 되는 MultiHead Attention에 대해 정리하였다. Transformer 기본 구조 Transformer는 크게 인코더와 디코더 두 가지의 부분으로 구성된다. 인코더는 N=6개의 동일한 레이어 스택으로 구성되어있다. 각 레이어는 두 개의 서브레이어로 이루어져있으며 ..