머신러닝&딥러닝(45)
-
CNN에서 backpropagation이 이루어지는 원리
MLP(Multilayered Perceptron)에서 backpropagation은 1) Loss function의 input에 대한 편미분값의 역전파 2) Loss function의 parameter에 대한 편미분값의 계산 의 두 가지로 이루어진다. 이때 1) 에서 input은 CNN에서 커널 weight이 된다. CNN에서는 input을 1차원 벡터로 받는 MLP와 달리, 텐서를 input으로 받을 수 있으며 아래 세 가지 가정을 따른다. 1) Local Receptive Field: 커널을 사용하여 위치가 근접한 셀들의 정보를 읽는다 2) Shared Weights: 하나의 kernel을 이용한 컨볼루션 연산은 모두 같은 가중치와 bias를 공유한다 3) sub-sampling: 불필요한 정보를 ..
2024.03.27 -
DDPM을 통한 이미지 생성 및 보간 (J. Ho 2020 논문 리뷰)
DDPM이란?DDPM(Denosing Diffusion Probabilistic Model)은 발전된 형태의 diffusion 생성모델로, 이미지에 gaussian noise 를 조금씩 첨가하여 완전한 noise image로 만들어지는 과정 (q) 을 학습하여, 완전한 noise 이미지에서 noise를 걷어(p) 이미지를 생성한다. 원본 이미지 x0에 노이즈를 한 단계씩 추가하여 완전한 noise 이미지로 바뀐 것을 xt라고 하자. DDPM은 아래와 같이 두 과정으로 진행된다.Forward process: x0-> xt로 만드는 noising 과정Reverse process: xt-> x0으로 만드는 denoising 과정이미지 생성을 위해 필요한 것은 reverse process이다. 노이즈를 추가하는..
2024.03.22 -
pytorch를 이용한 LeNet-5(1998) 구현
pytorch 연습도 할 겸 지난 번 논문을 읽었던 Yann LeCun의 LeNet-5를 구현해 봤다. https://cascade.tistory.com/40 [CNN] LeNet-5를 활용한 손글씨 인식 (Yann LeCun 1998 논문 리뷰) 패턴 인식은 실용성이 아주 높은 분야이다. 손글씨 인식을 대표로 하는 OCR(Optical Character Recognition)기술, 얼굴 인식, 생체정보 인식 등의 기술은 현재 널리 사용된다. 이러한 기술에 커다란 발전을 cascade.tistory.com 왜 LeNet-5 같은 구식 모델을 택했냐... 일단 내가 지금 쓸 수 있는 GPU가 없다. CPU로 돌아가는 가벼운 모델 중에서 pytorch 연습하기 좋은 모델이라 생각해서 이걸 골랐다. 구현하는 ..
2024.03.15 -
블러(blur)처리와 선명화(sharpening)처리
블러 처리와 선명화 처리를 위해서는 이미지에 필터를 씌운다. 이번 포스팅에서는 블러 처리와 선명화 처리를 위해 씌워야 하는 필터에 대해 알아보자. 위와 같이 DALL.E로 생성한 원본 이미지에 대해, 아래 그림은 오른쪽 절반에는 블러 처리, 왼쪽 절반에는 선명화 처리를 한 것이다. 지난 번 포스팅에서 공간 영역(spatial domain)과 주파수 영역(frequency domain)에 관해 알아보았다. https://cascade.tistory.com/41 공간 연산(Spatial Operation)과 영상 보간법(Interpolation)공간 연산(Spatial Operation)은 세 가지 범주로 나뉜다. 단일 픽셀 연산(Single Pixel Operation) 이웃 연산(Neighborhood ..
2024.03.11 -
MNIST 데이터셋에 대하여
MNIST 손글씨 데이터셋이란? MNIST는 패턴인식 분야의 지도학습(supervised learining)에 사용되는 손글씨 데이터셋이다. 이는 Yann LeCun, Corinna Cortes, Christopher J.C. Burges에 의해 만들어졌으며, NIST(National Institute of Standards & Technology, 미국 국립표준기술연구소)의 데이터셋을 변형하여 만들어졌다. NIST는 아래 두 데이터셋을 포함한다. SD-1: 미국 고등학생 500명이 작성한 58,527개의 손글씨 숫자 SD-3: 미국 인구조사국 직원들이 작성한 손글씨 숫자 기존 NIST에서는 SD-3을 트레이닝 세트로, SD-1을 테스트 세트로 이용하였으나, SD-3이 더 "잘 쓴 글씨" 이므로 인식하기..
2024.03.10 -
Medical Data에서 시간/공간 영역과 주파수 영역
시계열 데이터와 이미지 데이터 시계열 데이터(Time-series data)는 의학 영역에서 다양한 방면에서 사용된다. 뇌의 전기적 활동을 시간에 따라 나타내는 뇌전도(Electroencephalogram, EEG), 심장의 전기적 활동을 기록하는 심전도(ECG, Electrocardiogram) 등이 대표적인 의학 영역에서의 시계열 데이터이다. 최근에는 연속혈당측정 (CGM, Continuous Glucose Monitoring)의 상용화로, 센서와 연동된 어플리케이션을 통해 혈당을 시간에 따라 실시간으로 기록할 수 있다. https://pastahealth.com/ 파스타 - 카카오헬스케어 기록하고 발견하는 나의 라이프레시피, 파스타 pastahealth.com 반면, 이미지 데이터(image dat..
2024.03.08