Detekce objektů

Modely pro klasifikaci obrázků, se kterými jsme se dosud zabývali, přijímaly obrázek a produkovaly kategorický výsledek, například třídu 'číslo' v problému MNIST. V mnoha případech však nechceme jen vědět, že obrázek zobrazuje objekty – chceme být schopni určit jejich přesnou polohu. Přesně o tom je detekce objektů.

Kvíz před lekcí

Obrázek z webu YOLO v2

Naivní přístup k detekci objektů

Předpokládejme, že chceme najít kočku na obrázku. Velmi naivní přístup k detekci objektů by mohl být následující:

Rozdělte obrázek na množství dlaždic.
Proveďte klasifikaci obrázků na každé dlaždici.
Dlaždice, které vykazují dostatečně vysokou aktivaci, lze považovat za obsahující hledaný objekt.

Obrázek z cvičebního notebooku

Tento přístup však není ideální, protože algoritmu umožňuje pouze velmi nepřesně lokalizovat ohraničující rámeček objektu. Pro přesnější lokalizaci potřebujeme použít nějaký typ regrese, abychom předpověděli souřadnice ohraničujících rámečků – a k tomu potřebujeme specifické datové sady.

Regrese pro detekci objektů

Tento blogový příspěvek nabízí skvělý úvod do detekce tvarů.

Datové sady pro detekci objektů

Můžete narazit na následující datové sady pro tento úkol:

PASCAL VOC – 20 tříd
COCO – Common Objects in Context. 80 tříd, ohraničující rámečky a segmentační masky

Metriky pro detekci objektů

Průnik přes sjednocení (Intersection over Union)

Zatímco u klasifikace obrázků je snadné měřit, jak dobře algoritmus funguje, u detekce objektů musíme měřit jak správnost třídy, tak přesnost určené polohy ohraničujícího rámečku. Pro druhé zmíněné používáme tzv. Průnik přes sjednocení (IoU), který měří, jak dobře se dva rámečky (nebo dvě libovolné oblasti) překrývají.

Obrázek 2 z tohoto skvělého blogového příspěvku o IoU

Princip je jednoduchý – rozdělíme plochu průniku dvou útvarů plochou jejich sjednocení. Pro dvě identické oblasti bude IoU rovno 1, zatímco pro zcela nesouvisející oblasti bude rovno 0. Jinak se bude pohybovat mezi 0 a 1. Obvykle bereme v úvahu pouze ty ohraničující rámečky, u kterých je IoU nad určitou hodnotou.

Průměrná přesnost (Average Precision)

Předpokládejme, že chceme měřit, jak dobře je rozpoznána daná třída objektů $C$. K měření používáme metriku Průměrná přesnost, která se vypočítává následujícím způsobem:

Zvažte křivku přesnosti a odvolání (Precision-Recall), která ukazuje přesnost v závislosti na hodnotě prahové detekce (od 0 do 1).
V závislosti na prahu získáme více či méně detekovaných objektů na obrázku a různé hodnoty přesnosti a odvolání.
Křivka bude vypadat takto:

Obrázek z NeuroWorkshop

Průměrná přesnost pro danou třídu $C$ je plocha pod touto křivkou. Přesněji řečeno, osa odvolání je obvykle rozdělena na 10 částí a přesnost je průměrována přes všechny tyto body:

$$ AP = {1\over11}\sum_{i=0}^{10}\mbox{Precision}(\mbox{Recall}={i\over10}) $$

AP a IoU

Budeme brát v úvahu pouze ty detekce, u kterých je IoU nad určitou hodnotou. Například v datové sadě PASCAL VOC se obvykle předpokládá $\mbox{IoU Threshold} = 0.5$, zatímco v COCO se AP měří pro různé hodnoty $\mbox{IoU Threshold}$.

Obrázek z NeuroWorkshop

Průměrná průměrná přesnost – mAP

Hlavní metrika pro detekci objektů se nazývá Průměrná průměrná přesnost, nebo mAP. Jedná se o hodnotu průměrné přesnosti, průměrovanou přes všechny třídy objektů, a někdy také přes $\mbox{IoU Threshold}$. Podrobnější popis procesu výpočtu mAP najdete v tomto blogovém příspěvku), a také zde s ukázkami kódu.

Různé přístupy k detekci objektů

Existují dvě široké kategorie algoritmů pro detekci objektů:

Sítě pro návrh oblastí (R-CNN, Fast R-CNN, Faster R-CNN). Hlavní myšlenkou je generovat oblasti zájmu (ROI) a spustit na nich CNN, hledající maximální aktivaci. Je to trochu podobné naivnímu přístupu, s výjimkou toho, že ROI jsou generovány chytřejším způsobem. Jednou z hlavních nevýhod těchto metod je, že jsou pomalé, protože potřebujeme mnoho průchodů klasifikátoru CNN přes obrázek.
Jednoprůchodové (YOLO, SSD, RetinaNet) metody. V těchto architekturách navrhujeme síť tak, aby předpovídala jak třídy, tak ROI v jednom průchodu.

R-CNN: Region-Based CNN

R-CNN používá Selektivní vyhledávání k vytvoření hierarchické struktury oblastí ROI, které jsou následně zpracovány extraktory funkcí CNN a klasifikátory SVM k určení třídy objektu, a lineární regresí k určení souřadnic ohraničujícího rámečku. Oficiální článek

Obrázek od van de Sande et al. ICCV’11

Obrázky z tohoto blogu

F-RCNN - Fast R-CNN

Tento přístup je podobný R-CNN, ale oblasti jsou definovány po aplikaci konvolučních vrstev.

Obrázek z oficiálního článku, arXiv, 2015

Faster R-CNN

Hlavní myšlenkou tohoto přístupu je použití neuronové sítě k předpovědi ROI – tzv. Region Proposal Network. Článek, 2016

Obrázek z oficiálního článku

R-FCN: Region-Based Fully Convolutional Network

Tento algoritmus je ještě rychlejší než Faster R-CNN. Hlavní myšlenka je následující:

Extrahujeme funkce pomocí ResNet-101.
Funkce jsou zpracovány pomocí Position-Sensitive Score Map. Každý objekt z $C$ tříd je rozdělen na $k\times k$ oblasti a trénujeme na předpověď částí objektů.
Pro každou část z $k\times k$ oblastí všechny sítě hlasují pro třídy objektů a třída objektu s maximálním počtem hlasů je vybrána.

Obrázek z oficiálního článku

YOLO - You Only Look Once

YOLO je algoritmus pro detekci v reálném čase s jedním průchodem. Hlavní myšlenka je následující:

Obrázek je rozdělen na $S\times S$ oblasti.
Pro každou oblast CNN předpovídá $n$ možných objektů, souřadnice ohraničujícího rámečku a důvěru=pravděpodobnost * IoU.

Obrázek z oficiálního článku

Další algoritmy

RetinaNet: oficiální článek
- Implementace v PyTorch v Torchvision
- Implementace v Keras
- Detekce objektů pomocí RetinaNet v ukázkách Keras
SSD (Single Shot Detector): oficiální článek

✍️ Cvičení: Detekce objektů

Pokračujte ve svém učení v následujícím notebooku:

ObjectDetection.ipynb

Závěr

V této lekci jste se rychle seznámili s různými způsoby, jak lze detekci objektů provádět!

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Detekce objektů

Kvíz před lekcí

Naivní přístup k detekci objektů

Regrese pro detekci objektů

Datové sady pro detekci objektů

Metriky pro detekci objektů