Improving Unsupervised Defect Segmentation by Applying Structural Similarity to Autoencoders
Improving Unsupervised Defect Segmentation by Applying Structural Similarity to Autoencoders
https://arxiv.org/abs/2107.05855
Jul 14, 2021
Anomaly Detection, Unsupervised Learning, Anomaly Segmentation, Autoencoder,
VISAPP (2019)
1. どんなもの?
通常の畳み込みオートエンコーダで使用されるピクセルLossは位置ズレに弱く、強度の値が一定の場合に弱い。
そこで、輝度、コントラスト、構造情報を考慮した構造的類似性(SSIM)Lossを代わりに使用した。
2. 先行研究と比べてどこがすごい?
エッジの整列にあまり影響されない
入力と再構成の間の顕著な違いを重要視する
3. 技術や手法の”キモ”はどこ?
Pixel L2 Lossの代わりにSSIM Lossを使用
変数定義
$p$:画像パッチp
$q$:画像パッチq
$l$:輝度
$c$:コントラスト
$s$:構造情報
$\alpha,\beta,\gamma,c_1,c_2$:パラメータ
学習
SSIM Loss
$ SSIM(p,q) = \frac{(2 \mu_p \mu_q + C_1)(2 \sigma_{pq} + C_2)}{(\mu_p ^2 + \mu_q ^2 + C_1)(\sigma_p ^2 + \sigma_q ^2 + C_2)} $
輝度の比較:
$ l(p, q) = \frac{(2\mu_{p}\mu_{q} + C_{1})}{(\mu_{p}^2 + \mu_{q}^2 + C_{1})} $,
コントラストの比較:
$ c(p, q) = \frac{(2\sigma_{p}\sigma_{q} + C_{2})}{(\sigma_{p}^2 + \sigma_{q}^2 + C_{2})} $,
構造の比較:
$ s(p, q) = \frac{(2\sigma_{pq} + C_{3})}{(\sigma_{p}\sigma_{q} + C_{3})} $
を
$ SSIM(p, q) = [l(p, q)]^\alpha \times [c(p, q)]^\beta \times [s(p, q)]^\gamma $
に代入して算出
エンコーダの構造
Layer
Output Size
Kernel
Stride
Padding
Input
128×128×1
Conv1
64×64×32
4×4
2
1
Conv2
32×32×32
4×4
2
1
Conv3
32×32×32
3×3
1
1
Conv4
16×16×64
4×4
2
1
Conv5
16×16×64
3×3
1
1
Conv6
8×8×128
4×4
2
1
Conv7
8×8×64
3×3
1
1
Conv8
8×8×32
3×3
1
1
Conv9
1×1×d
8×8
1
0
推論(異常度の算出)
テスト画像と学習したオートエンコーダを用いて再構成した画像の残差マップを計算
4. どうやって有効だと検証した?
織布テクスチャ
再構成,残差マップ,検出結果のL2とSSIMの比較
L2を使用したAE,VAE,FM-AEとSSIMを使用したAEのROC曲線
6. 関連文献
Zhou Wang, Alan C Bovik, Hamid R Sheikh, and Eero P Simoncelli. Image quality assessment: from error visibility to structural similarity. IEEE transactions on image processing, 13(4):600–612, 2004.