이미지에서 blur(블러, 흐림 현상)을 확인하는 데 사용되는 다양한 알고리즘과 지표들이 있습니다. 주로 이미지의 선명도, 엣지(경계)의 강도를 측정하여 블러를 평가합니다.

이 평가하는 방법은 2가지가 있습니다.

  1. 원본과 대비가 가능한 경우: With reference image
  2. 원본과 대비가 필요 없는 경우: without reference image

 

이 포스팅에서 without reference image(no refereince image)인 대표적인 지표 및 알고리즘들을 크게 분류하면 다음과 같습니다.

  1. Spatial domain: 방법은 이미지의 픽셀과 인접 픽셀 간의 관계를 계산하여 흐림과 선명한 이미지를 구분하는 기법입니다.
    1. Grayscale Gradient base method: 이미지를 그레이스케일로 변환하여, 인접픽셀과의 그레디언트값(변화도)를 측정합니다. 측정된 변화도가 클수록 또렷한 이미지로 간주됩니다. 대표적으로 Laplacian variance가 있습니다.
  2. Spectral-domain: 이미지의 고주파 성분과 저주파 성분을 분석하여 이미지의 선명도를 평가하는 방법입니다. 고주파 성분은 이미지의 선명한 부분과 관련이 있으며, 세부 정보와 경계 정보를 많이 포함하고 있습니다. 반면 저주파 성분은 흐릿한 부분에 해당합니다
  3. Learning: 머신러닝을 이용한 방법
  4. Combination: 2개 이상의 조합을 이용하는 방법

 

1. Laplacian Variance (라플라시안 분산)

라플라시안 분산은 라플라시안 커널을 이용해서, 이미지의 2차미분을 구해 분산을 구하는 방법입니다. 이 분산이 뜻하는 바는 픽셀의 흩어짐 정도로, 또렷한 이미지일수록 높은 분산값을 가지며, 흐릿한 이미지일수록 낮은 분산값을 가지게 됩니다. 특정한 임계점을 두어 또렷하다, 흐리다라고 판단할 수 있습니다. 

다음의 장점을 지닙니다.

  • 간단하고 빠릅니다.: 계산이 비교적 간단하여 실시간 블러 감지에도 적합합니다.
  • 효과적임: 엣지 정보를 기반으로 하므로 다양한 종류의 블러를 효과적으로 감지할 수 있습니다.
  • 수학적 직관성: 분산을 이용한 접근 방식은 통계적으로도 타당성이 있습니다.

 

2차원 이미지에서는 다음과 같이 표현합니다. 2차미분을 구하기 위해서는 Laplacian kernel을 이용해서 구합니다. 

$\nabla^2 I = \frac{\partial^2 I}{\partial x^2} + \frac{\partial^2 I}{\partial y^2}$

이를 메트릭스 연산으로 표현하면, 라플라시안 커널이 됩니다.

$$\begin{bmatrix}
0 & 1 & 0 \\
1 & -4 & 1 \\
0 & 1 & 0
\end{bmatrix}
$$

import cv2
import numpy as np


def cal_laplacian_variance(image_array: np.ndarray):
    """라플라시안 분산을 구함

    Args:
        image_array (np.ndarray): RGB image array

    Returns:
        float: Laplacian variance
    """

    gray_image = cv2.cvtColor(image_array, cv2.COLOR_RGB2GRAY)
    laplacian = cv2.Laplacian(gray_image, cv2.CV_64F)
    return laplacian.var()

라플라시안 분산은 분산이기에 항상 0또는 양의값을 갖게됩니다. 이런 경계면이 모호한 이미지를 바로 식별할 수 있습니다.

또는 경계면이 또렷한(=focal plane)에 맞게 하는 경우의 이미지도 선택할 수 있습니다.

 

2.  Wavelet-based transform

이미지도 신호기이 때문에, 이를 신호로 처리하는 방법이 있습니다. Spectral-domain에 속하는 방법으로, 이미지를 저주파 및 고주파로 나눕니다. 각각 저주파 고주파는 다시, 저저, 고고, 저고,고저로 나눌 수 있고, 저저를 제외한 나머지 신호 강도를 이용하여 이미지의 선명도를 추출할 수 있습니다.

 

Blur Detection for Digital Images Using Wavelet Transform*이 논문에서도 저저주파를 제외하고 신호강도를 측정합니다.

def cal_wavelet(image_array):
    # 이미지를 그레이스케일로 변환 (이미지가 컬러일 경우)
    if len(image_array.shape) == 3:
        image = cv2.cvtColor(image_array, cv2.COLOR_RGB2GRAY)

    # 2D 웨이브렛 변환 수행 (Haar 웨이브렛 사용)
    coeffs = pywt.dwt2(image, "haar")  # 'haar' 외에도 다양한 웨이브렛 사용 가능
    LL, (LH, HL, HH) = coeffs

    # 고주파 성분 (LH, HL, HH)의 에너지를 합산하여 선명도 측정
    high_freq_energy = (
        np.sum(np.abs(LH) ** 2) + np.sum(np.abs(HL) ** 2) + np.sum(np.abs(HH) ** 2)
    )

    return high_freq_energy
반응형

요약


register_buffer는 모델의 상태(state)로서 관리하고 싶은 텐서를 등록하는 데 사용됩니다. 즉, 이 메서드는 state_dict에 포함되어서, torch.nn.Module.state_dict()에 함께 저장되어, torch.save을 할 때, 함께 저장됩니다. 또한, register_buffer으로 등록된 텐서는 기본적으로 기울기를 계산하지 않습니다.

 

기능 1. state_dict을 통해 모델을 저장/로드 할 때, 함께 포함되도록

torch.nn.Module로 딥러닝 네트워크를 구성하고, 필요한 텐서(non-trainable)도 함께 저장이 가능합니다.

아래의 예시를 살펴보겠습니다.

  • 9번줄:  self.register_buffer("running_mean", torch.zeros(10))으로 텐서를 하나 저장합니다. 이렇게되면 self. running_mean에 속성으로도 저장됩니다.
  • 21번줄: torch.save(model.state_dict(), "model_with_buffer.pth")에서 model.state_dict()을 이용해서 state_dict을 저장합니다. 이 때, register_buffer으로 등록한 running_mean= torch.zeros(10)도 함께 state_dict에 저장됩니다.
  • 24번줄: register_buffer을 사용하지않고 저장하려면, state_dict의 딕셔너리에 key-value을 별도로 이렇게 저장해줘야합니다.

 

기능 2. non-trainable parameter을 저장하는 경우

배치 정규화에서 배치 단위의 평균(mean)과 분산(var)은 통계량값만 저장하고, gradient로는 사용되지 않습니다. 이 때도 사용이 가능합니다.

 

반응형

극좌표계(Polar coordinates)는 평면 위의 점을 나타내는 또 다른 방법으로, 직교좌표계(Cartesian coordinates) 대신 사용됩니다. 직교좌표계에서는 xxyy라는 두 개의 직각 축을 사용해 점의 위치를 나타내지만, 극좌표계에서는 기준점에서의 거리와 기준 방향으로부터의 각도를 사용합니다.

 

극좌표계 개요

  1. 기준점 (원점): 극좌표계에서 기준점은 거리를 측정하는 기준이 되는 점입니다. 이 점은 보통 O로 표시되며, 직교좌표계에서의 원점 (0,0)(0, 0)에 해당합니다.
  2. 거리 (r): 극좌표계의 첫 번째 요소인 r은 기준점 O에서 평면상의 점 P(x,y)까지의 거리를 나타냅니다. r은 항상 0 이상의 값을 가지며, 보통 음수는 허용되지 않습니다. 이 때, 점 P의 위치는 직교좌표계(Cartesian coordinates)에서 (x,y)에 위치해 있습니다.
  3. 각도 (α 또는 θ): 두 번째 요소는 각도 $\alpha$ (또는 $\theta$)입니다. 이는 양의 x축(기준 방향)과 점 P를 연결하는 선분이 이루는 각도를 나타냅니다. 각도는 보통 라디안(radian)으로 측정되지만, 경우에 따라 도(degree)로도 측정될 수 있습니다.

직교좌표계와 극좌표계 간의 변환

직교좌표계 (x,y)에서 극좌표계 (r,α)로 변환하려면:

  • r (반지름 또는 거리)는 다음과 같이 계산됩니다. $r = x^2 + y^2이 공식은 피타고라스 정리에서 유도됩니다.
  • α (각도)는 다음과 같이 계산됩니다:α=atan2(y,x)α . atan2(y, x) 함수는 점 가 이루는 각도를 계산합니다.

극좌표계를 직교좌표계로 변환

극좌표계 (r,α)를 다시 직교좌표계 (x,y)로 변환하려면:

  • **x**는 다음과 같이 계산됩니다:x=rcos⁡(α)x 
  • **y**는 다음과 같이 계산됩니다:y=rsin⁡(α)y 

이미지 처리에서의 활용: 픽셀유동화

이미지 처리 분야에서는 특정 픽셀의 직교좌표 (x,y)를 극좌표 (r,α)로 변환하는 것이 유용할 수 있습니다. 예를 들어, 회전, 스케일링, 또는 특정 영역에서의 왜곡 변환 등을 수행할 때 극좌표계를 사용하면 효율적입니다. 변환 작업이 끝난 후에는 다시 극좌표를 직교좌표로 변환하여 이미지를 출력합니다.

픽셀 유동화(Pixel liquify)은 포토샵에서 특정 픽셀주변을 확장시키거나 줄이는 것을 의미합니다. 알고리즘은 아래와 같습니다.

1. 유동화 알고리즘 메인: 픽셀유동화는 중심점O을 0,0이 아닌 다른 포인트로하여, 유동화를 시킬 수 있습니다. 위의 그림에서, 원의 중심을 O로 생각하고, r만큼 떨어져있는 픽셀을 O와 가까운 중심점으로 옮길 수 있습니다. 이 옮길 때의 위치는 중심점에서 $\sqrt{r}$만큼 옮깁니다.

그렇게되면, 해당픽셀은 중심점O로부터 $\sqrt{r}$ 만 큼 떨어진 픽셀이됩니다. 또는, 움직임의 강도를 c만큼 주어 $c \sqrt{r}$ 만큼 옮길수도있습니다.

2. 거리에 따른 강도조절: 원점에서 가까운점은 덜 움직이고, 가장자리부분을 크게 움직이려면 exponential 함수를 이용하면됩니다. 음수의 지수함수는 x가 커질수록 0에 (거리가 멀수록 덜움직이고), x가 작을수록 큽니다(가까울수록 많이움직임). 

 

아래는 픽셀유동화의 중심점 O을 4곳(좌상단, 중앙부 2곳, 우하단)에 적용한 예시입니다. 모두 극좌표계를 이용해서(중앙점에 상대적인 위치변화) 변경했습니다.

 

반응형

 

Pre-commit 패키지?

pre-commit은 Git 저장소에서 커밋을 수행하기 전에 코드 품질을 보장하고 코드 스타일을 일관되게 유지할 수 있도록 도와주는 도구입니다. 이 패키지는 Git의 훅(hook) 시스템을 활용하여 커밋 전 다양한 자동화 작업을 실행할 수 있게 해줍니다. 이를 통해 코드의 품질을 유지하고, 협업 시 코드 스타일의 일관성을 보장할 수 있습니다.

주요 기능은 아래와 같습니다.

  1. 자동화된 코드 검사 및 포매팅: 코스 스타일을 검사하는 테스트입니다. 협업시 꽤 유용합니다.
  2. 다양한 훅(hook): hook은 스크립트나 명령어를 의미합니다. 여러가지 검사방법을 적용해볼 수 있습니다.
  3. 확장성: `pre-commit-config.yaml`을 변경하여 훅을 추가/제거 할 수 있습니다.

 

Pre-commit 패키지 설치방법

1. `pip`을 이용한 설치

$ pip install pre-commit
$ pre-commit --version # pre-commit 이 올바르게 설치되어있나 버전확인

2. configuration 세팅

  • `.pre-commit-config.yaml`이라는 파일을 만듭니다.
$ touch .pre-commit-config.yaml
$ pre-commit sample-config
# See https://pre-commit.com for more information
# See https://pre-commit.com/hooks.html for more hooks
repos:
-   repo: https://github.com/pre-commit/pre-commit-hooks
    rev: v3.2.0
    hooks:
    -   id: trailing-whitespace
    -   id: end-of-file-fixer
    -   id: check-yaml
    -   id: check-added-large-files

위 내용을 `.pre-commit-config.yaml`에 작성하고 저장하면 됩니다.

 

3. git hook script설치

pre-commit은 git의 hook시스템을 사용하하기 때문에 설치가 `.git/hooks`이하에 저장됩니다.

$ pre-commit install
pre-commit installed at .git/hooks/pre-commit

 

4. 실행: 아래와 같이 whitespace가 있는지 등을 알아서 검사해주고 ,문제가 있는 경우 exit code 1을 반환합니다.

$ pre-commit run --all-files
[INFO] Initializing environment for https://github.com/pre-commit/pre-commit-hooks.
[INFO] Installing environment for https://github.com/pre-commit/pre-commit-hooks.
[INFO] Once installed this environment will be reused.
[INFO] This may take a few minutes...
Trim Trailing Whitespace.................................................Failed
- hook id: trailing-whitespace
- exit code: 1
- files were modified by this hook

Fixing notebooks/publications/figure1.sh
Fixing README.md
Fixing tiling_version17.py

Fix End of Files.........................................................Failed
- hook id: end-of-file-fixer
- exit code: 1
- files were modified by this hook

Fixing .gitignore
Fixing notebooks/publications/figure1.sh

Check Yaml...........................................(no files to check)Skipped
Check for added large files..............................................Passed

 

 

Pre-commit 패키지 언제 사용해야하나?

 

  1. Python 코드 포맷팅이 사람마다 다를 때: black 같은 코드 포맷터를 사용해 커밋 전에 코드를 자동으로 포맷팅.
  2. 정적 코드 분석: flake8을 사용해 코드 내 잠재적인 오류나 스타일 위반 사항을 검사.
  3. 보안 검사: bandit 같은 도구를 사용해 보안 관련 잠재적 취약점을 사전에 검사.

 

 

 

반응형

'Data science > MLOps' 카테고리의 다른 글

[MLOps] 디자인 패턴  (0) 2024.08.26
nvidia-driver, cuda toolkit update  (0) 2024.05.03
API token bucket: API 요청수 관리  (0) 2024.04.08
pip install -e 옵션에 대해  (0) 2024.04.02
[mlflow] child run id 조회하기  (0) 2023.09.25

 

요약


DICE loss에서 반영하지 못하는 background의 오분류를 패널티로 반영하기위한 손실함수. Confusion matrix의 요소들을 직접 사용하여 손실함수를 만듬.

 

DICE vs MCC(Mattew's correlation coefficient, MCC)

DICE loss을 사용하든, IoU(Jaccard loss)을 사용하든 둘 다 TN(True negative)에 대한 정보가 없습니다. 

 

이 True Negative을 반영하기위해서, confusion matrix에서 각 요소를 아래와 같이 만듭니다. 즉, TP와 TN은 많이 맞추고, FP,FN은 적은 confusion matrix을 만들기를 바라며, 이를 정규화하기위한 분모로 만듭니다. 아래를 보면 각 요소들이 분모에 2번씩 사용됩니다.

 

MCC은 미분가능한가?

다행히 MCC은 segmentation에서 pixel wise로 연산하기때문에 미분가능합니다. 각 요소를 아래와 같이 표현 할 수 있기 때문입니다.

 

아래와 같이 1-MCC로 손실함수로 사용하고, 각 항목을 y예측값에 대해서 미분하면됩니다.

 

이 식을 pytorch로 구현하면 아래와 같습니다.

class MCCLosswithLogits(torch.nn.Module):
    """
    Calculates the proposed Matthews Correlation Coefficient-based loss.

    Args:
        inputs (torch.Tensor): 1-hot encoded predictions
        targets (torch.Tensor): 1-hot encoded ground truth
    
    Reference:
        https://github.com/kakumarabhishek/MCC-Loss/blob/main/loss.py
    """

    def __init__(self):
        super(MCCLosswithLogits, self).__init__()

    def forward(self, logits, targets):
        """
        
        Note:
            위의 모든 코드가 logits값을 입력값으로 받고 있어서, logtis->confidence [0,1]으로 변경
            MCC = (TP.TN - FP.FN) / sqrt((TP+FP) . (TP+FN) . (TN+FP) . (TN+FN))
            where TP, TN, FP, and FN are elements in the confusion matrix.
        
        
        """
        pred = torch.sigmoid(logits)
        tp = torch.sum(torch.mul(pred, targets))
        tn = torch.sum(torch.mul((1 - pred), (1 - targets)))
        fp = torch.sum(torch.mul(pred, (1 - targets)))
        fn = torch.sum(torch.mul((1 - pred), targets))

        numerator = torch.mul(tp, tn) - torch.mul(fp, fn)
        denominator = torch.sqrt(
            torch.add(tp, 1, fp)
            * torch.add(tp, 1, fn)
            * torch.add(tn, 1, fp)
            * torch.add(tn, 1, fn)
        )

        # Adding 1 to the denominator to avoid divide-by-zero errors.
        mcc = torch.div(numerator.sum(), denominator.sum() + 1.0)
        return 1 - mcc
반응형

+ Recent posts