EfficientAD: Accurate Visual Anomaly Detection at Millisecond-Level Latencies 논문 리뷰
링크: https://arxiv.org/pdf/2303.14535v3
저널|학회: WACV 2024
연구목적: 정확도를 유지하면서 ms 수준의 낮은 latency을 달성
데이터셋: MVTec AD, VisA, MVTec LOCO
주요결과: 2ms의 짧은 latency와 높은 이상 탐지 정확도를 동시 달성하여 산업 현장 적용 가능성 제시
저자: Kilian Batzner et al.
1. 연구 배경 및 필요성
이미지 Anomaly Detection는 특히 제조, 의료, 자율 주행 등 산업 현장에서 중요도가 높은 분야다. 기존 딥러닝 기반 이상 탐지 기술들은 정확도는 높지만, 긴 latency과 높은 계산비용으로 인해 실시간 적용에 어려움이 있었다. 이 논문은 산업 현장에서 실시간 처리가 가능하면서도 기존 모델들의 정확도를 뛰어넘는, 빠르고 효율적인 이상 탐지 방법인 EfficientAD 를 제안했다.
2. 연구의 주요 기여
EfficientAD의 핵심 목표는 다음과 같다.
- GPU에서 1밀리초 미만의 짧은 시간 내로 처리 가능한 경량 Feature extractor를 제안.
- Student-Teacher 모델을 효율적으로 개선하여 계산 비용을 크게 낮추고 이상 탐지 성능은 향상시킴.
- Autoencoder를 활용하여 기존 방법으로 탐지가 어려웠던 논리적 이상(logical anomalies)을 효과적으로 탐지할 수 있게 함.
본 연구는 MVTec AD, VisA, MVTec LOCO에서 평가하여 이미지 수준과 픽셀 수준 모두에서 기존 기술 대비 높은 성능을 달성했다. 특히 latency가 2ms에 불과한 상태에서도 초당 600장 이상의 이미지를 처리할 수 있다.
3. EfficientAD의 구조와 작동 원리
EfficientAD는 크게 3가지 구성요소로 이루어진다.
(1) Patch Descriptor Network (PDN)
EfficientAD는 4개의 convolutional layer로 이루어진 매우 경량화된 PDN을 이용해 이미지 특성을 추출한다(Figure 2 참조). 각 특성 벡터는 이미지 내의 33×33 픽셀영역과 대응되어 국소적 정보를 효과적으로 포착한다. PDN은 convolution 및 pooling 레이어에서의 다운샘플링으로 연산 비용을 최소화하여 밀리초 수준의 특성 추출이 가능하다.
(2) 개선된 Student-Teacher 모델
Student 네트워크는 정상이미지의 특성을 미리 학습된 Teacher 네트워크(PDN)의 출력을 따라하는 방식으로 훈련한다. 이상 이미지에 대해서는 Student 네트워크가 Teacher 네트워크를 따라하지 못해, 둘 사이의 출력 차이로 이상 여부를 판단한다..
EfficientAD의 성능 개선을 위해 두 가지 손실함수를 제안한다:
- Hard Feature Loss: Student가 Teacher를 가장 잘 따라하지 못하는 영역만 선택적으로 학습시켜 이상 탐지능력을 높인다 (Figure 4).
- Pretraining Penalty: ImageNet과 같은 외부데이터를 추가로 활용해서 Student가 이상데이터까지 무분별하게 따라하지 않도록 제한할 수 있다.
(3) 논리적 이상 탐지를 위한 Autoencoder
EfficientAD는 Autoencoder를 사용해 정상 이미지가 가진 논리적 구조(배열, 위치, 관계 등)를 학습하여, 이러한 구조를 위반하는 논리적 이상을 탐지한다(Figure 5). Autoencoder가 Teacher 네트워크의 출력을 재구성하고, Student 네트워크는 Autoencoder의 출력을 학습하여 논리적 이상을 탐지할 수 있는 global한 특성까지 파악한다.
최종 이상 탐지는 Student-Teacher 모델의 local 이상 맵과 Autoencoder 기반의 global 이상 맵을 결합하여 정규화한 후 판단한다.
4. 성능 평가 및 결과
EfficientAD의 성능은 세 가지 데이터셋(MVTec AD, VisA, MVTec LOCO)에서 평가했다. 평가 결과는 아래의 표와 같다.
모델 | 이상 탐지 AU-ROC (%) | 국소화 AU-PRO (%) | Latency (ms) | Throughput (이미지/초) |
---|---|---|---|---|
GCAD | 85.4 | 88.0 | 11 | 121 |
SimpleNet | 87.9 | 74.4 | 12 | 194 |
S–T | 88.4 | 89.7 | 75 | 16 |
FastFlow | 90.0 | 86.5 | 17 | 120 |
PatchCore | 91.1 | 80.9 | 32 | 76 |
AST | 92.4 | 77.2 | 53 | 41 |
EfficientAD-S | 95.4 | 92.5 | 2.2 | 614 |
EfficientAD-M | 96.0 | 93.3 | 4.5 | 269 |
EfficientAD는 가장 높은 정확도와 가장 낮은 latency를 동시에 달성하였다. 기존 최고 성능 모델인 AST 대비 AU-ROC가 약 3.6% 높으면서도 처리 속도는 24배 빠르다(Figure 1).
5. 한계 및 향후 연구방향
EfficientAD는 대부분의 이상을 정확히 탐지하지만, 미세한 논리적 이상(예: 2mm 차이가 나는 나사 길이 등)은 탐지하지 못할 수 있다. 이를 극복하기 위해서는 기존의 정밀 측정 방식과 결합이 필요할 것으로 보인다. 또한, 훈련 시 약 20분의 시간이 소요되는 점은 비지도 기반 방식 대비 단점이 될수 있다.
6. 결론
EfficientAD는 낮은 latency와 높은 처리량을 유지하면서 기존모델보다 뛰어난 이상 탐지 성능을 보였다. 산업현장의 실시간 적용 가능성이 매우 높으며, 앞으로 이상 탐지 분야에서 중요한 연구 기반으로 활용될 수 있을 것으로 기대된다.