Original article: https://faculty.cc.gatech.edu/~parikh/relative.html
Vítěz Marr Prize (Cena za nejlepší papír), ICCV 2011
"Kdo v duze může nakreslit čáru, kde končí fialový odstín a začíná oranžový odstín? Zřetelně vidíme rozdíl v barvách, ale kde přesně se jedna nejprve mísí s druhou? Takže s rozumem a šílenstvím."-- Herman Melville, Billy Budd
Abstraktní
Lidsky pojmenovatelné vizuální „atributy“ mohou být přínosem pro různé rozpoznávací úlohy. Stávající techniky však omezují tyto vlastnosti na kategorická označení (například osoba se „usmívá“ nebo ne, scéna je „suchá“ nebo ne), a proto selhávají při zachycení obecnějších sémantických vztahů. Navrhujeme modelovat relativní atributy. Vzhledem k trénovacím datům udávajícím, jak se kategorie objektů/scén vztahují podle různých atributů, se naučíme funkci klasifikace podle atributu. Naučené hodnotící funkce předpovídají relativní sílu každé vlastnosti v nových obrázcích. Poté vytvoříme generativní model nad společným prostorem výstupů hodnocení atributů a navrhneme novou formu učení typu zero-shot, ve které se supervizorkategorie neviditelných objektů k dříve viděným objektům prostřednictvím atributů (například „medvědi jsou kožešinovější než žirafy“). Dále ukazujeme, jak navrhované relativní atributy umožňují bohatší textové popisy pro nové obrázky, které jsou v praxi pro lidskou interpretaci přesnější. Demonstrujeme přístup na datových sadách tváří a přírodních scén a ukazujeme jeho jasné výhody oproti tradiční predikci binárních atributů pro tyto nové úkoly.
Motivace
Binární atributy jsou omezující a mohou být nepřirozené. Ve výše uvedených příkladech, zatímco lze charakterizovat obrázek vlevo nahoře a vpravo nahoře jako přírodní a umělý, jak byste popsali obrázek uprostřed nahoře? Jediný smysluplný způsob, jak jej charakterizovat, je s ohledem na ostatní obrázky: je méně přirozený než obrázek vlevo, ale více než obrázek vpravo.
Návrh
V této práci navrhujeme modelovat relativní atributy. Na rozdíl od predikce přítomnosti atributu relativní atribut označuje sílu atributu v obrázku vzhledem k ostatním obrázkům. Kromě toho, že relativní atributy jsou přirozenější, nabízejí bohatší způsob komunikace, což umožňuje přístup k podrobnějšímu lidskému dohledu (a tím potenciálně vyšší přesnosti rozpoznávání), stejně jako možnost generovat informativnější popisy nových obrázků.
Navrhujeme přístup, který se učí funkci klasifikace pro každý atribut s ohledem na omezení relativní podobnosti na párech příkladů (nebo obecněji na částečné řazení na některých příkladech). Naučená hodnotící funkce může odhadnout skutečnou hodnotu pro obrázky indikující relativní sílu přítomnosti atributu v nich.
Představujeme nové formy učení nulového záběru a popis obrazu, které využívají předpovědi relativních atributů.
Přístup
Rozdíl mezi učením funkce hodnocení se širokým rozpětím (vpravo), která vynucuje požadované řazení na tréninkových bodech (1-6), a binárním klasifikátorem s širokým rozpětím (vlevo), který pouze odděluje dvě třídy (+ a -) a nemusí nutně zachovat požadované pořadí na bodech, je uvedeno níže:
Nové učení zero-shot : Studujeme následující nastavení
- N celkem kategorií: S viděných kategorií (související obrázky jsou k dispozici) + U neviděných kategorií (pro tyto kategorie nejsou k dispozici žádné obrázky)
- Viděné kategorie jsou vzájemně popsány pomocí atributů (ne všechny dvojice kategorií musí být pro všechny atributy příbuzné)
- Neviditelné kategorie jsou popsány relativně k (podmnožině) viděných kategorií ve smyslu (podmnožině) atributů.
Nejprve trénujeme sadu relativních atributů pomocí dohledu poskytovaného na viděné kategorie. Tyto atributy lze také předem natrénovat z externích dat. Poté vytvoříme generativní model (Gaussův) pro každou viděnou kategorii pomocí odpovědí relativních atributů k obrázkům z viděných kategorií. Poté odvodíme parametry generativních modelů neviditelných kategorií použitím jejich relativních popisů s ohledem na viděné kategorie. Vizualizace jednoduchého přístupu, který k tomu používáme, je uvedena níže:
Testovací obrázek je přiřazen do kategorie s maximální pravděpodobností.
Automatické generování relativních textových popisů obrázků: Vzhledem k obrázku I, který má být popsán, vyhodnotíme všechny naučené hodnotící funkce na I. Pro každý atribut identifikujeme dva referenční obrázky ležící na obou stranách I a nejsou příliš daleko od I ani příliš blízko k I. Poté je popsán obrázek I vzhledem k těmto dvěma referenčním obrázkům, jak je uvedeno níže:
Jak je vidět výše, kromě popisu obrázku vzhledem k jiným obrázkům může náš přístup také popsat obrázek vzhledem k jiným kategoriím, což vede k čistě textovému popisu. Je zřejmé, že relativní popisy jsou přesnější a informativnější než konvenční binární popis.
Experimenty a výsledky
Provádíme experimenty na dvou souborech dat:
(1) Outdoor Scene Recognition (OSR) obsahující 2688 snímků z 8 kategorií: pobřeží C, les F, dálnice H, uvnitř města I, hora M, otevřená krajina O, ulice S a vysoká budova T. K reprezentaci používáme základní prvky snímky.
(2) Podmnožina databáze tváří veřejných postav (PubFig) obsahující 772 obrázků z 8 kategorií: Alex Rodriguez A, Clive Owen C, Hugh Laurie H, Jared Leto J, Miley Cyrus M, Scarlett Johansson S, Viggo Mortensen V a Zac Efron Z. K reprezentaci obrázků používáme zřetězenou podstatu a barevné prvky.
Seznam atributů použitých pro každou datovou sadu spolu s binárními a relativními anotacemi atributů je uveden níže:
Učení s nulovým výstřelem:
Porovnáváme námi navrhovaný přístup se dvěma základními liniemi. První jsou relativní atributy založené na skóre (SRA). Tato základní linie je stejná jako náš přístup, kromě toho, že používá skóre binárního klasifikátoru (binární atributy) namísto skóre hodnotící funkce. Tato základní linie pomáhá vyhodnotit potřebu hodnoticí funkce pro nejlepší modelování relativních atributů. Naší druhou základní linií je model přímé predikce atributů (DAP), který představili Lampert et al. v CVPR 2009. Tato základní linie pomáhá vyhodnotit přínosy relativního zacházení s atributy na rozdíl od kategorických. Hodnotíme tyto přístupy pro různý počet neviditelných kategorií, různá množství dat použitých k trénování atributů, různý počet atributů používaných k popisu neviditelných kategorií a různé úrovně „nezřetelnosti“ v popisu neviditelných kategorií. Podrobnosti o experimentálním nastavení lze nalézt v našem článku. Výsledky jsou uvedeny níže:
Automaticky generované popisy obrázků:
Abychom vyhodnotili kvalitu našich relativních popisů obrázků k binárním protějškům, provedli jsme studii na lidech. Vygenerovali jsme popis obrázku pomocí našeho přístupu, stejně jako základní binární atributy. Předmětům jsme předložili tento popis spolu se třemi obrázky. Jeden ze tří obrázků byl popisovaný obrázek. Úkolem zkoumaných osob bylo seřadit tři obrázky na základě toho, o kterém se domnívali, že je to ten popisovaný s největší pravděpodobností. Čím přesnější popis, tím větší šanci mají subjekty na identifikaci správného obrázku. Ilustrace úkolu předloženého předmětům je uveden níže:
Výsledky studie jsou uvedeny níže. Vidíme, že subjekty mohou přesněji identifikovat správný obrázek pomocí námi navrhovaných relativních atributů ve srovnání s binárními atributy.
Níže jsou uvedeny příklady binárních popisů obrázků a popisů souvisejících s kategoriemi:
Data
Poskytujeme naučené relativní atributy a jejich předpovědi pro dva datové soubory použité v našem příspěvku: rozpoznávání venkovní scény (OSR) a podmnožinu databáze tváří veřejných postav (PubFig).
Datová sada atributů relativní tváře . Obsahuje anotace pro 29 relativních atributů v 60 kategoriích z databáze tváří veřejných postav (PubFig).
Kód
Upravili jsme implementaci RankSVM Oliviera Chappelle tak, aby trénovala relativní atributy s omezeními podobnosti. Náš upravený kód naleznete zde .
Pokud používáte náš kód, citujte prosím následující dokument:
D. Parikh a K. Grauman
Relativní atributy
Mezinárodní konference o počítačovém vidění (ICCV), 2011.
Ukázky
Ukázky různých aplikací relativních atributů naleznete zde . Popis těchto aplikací naleznete v referátech zde .