Relativni atributi

Orginalni članak: https://faculty.cc.gatech.edu/~parikh/relative.html

Dobitnik Marrove nagrade (Nagrada za najbolji rad), ICCV 2011

Devi Parikh i Kristen Grauman

"Tko u dugi može povući crtu gdje završava ljubičasta boja, a počinje narančasta boja? Jasno vidimo razliku boja, ali gdje točno jedna prva ulazi u drugu? Tako i s razumom i ludilom."

-- Herman Melville, Billy Budd

[rad] [podaci] [kod] [demonstracije] [slajdovi] [razgovor ( video )] [poster] [prijevodi]

Sažetak

Vizualni "atributi" koje čovjek može imenovati mogu koristiti raznim zadacima prepoznavanja. Međutim, postojeće tehnike ograničavaju ta svojstva na kategoričke oznake (na primjer, osoba se 'smiješi' ili ne, scena je 'suha' ili ne), i stoga ne uspijevaju uhvatiti općenitije semantičke odnose. Predlažemo modeliranje relativnih atributa. S obzirom na podatke o obuci koji navode kako se kategorije objekta/scene odnose prema različitim atributima, učimo funkciju rangiranja po atributu. Naučene funkcije rangiranja predviđaju relativnu snagu svakog svojstva u novim slikama. Zatim gradimo generativni model preko zajedničkog prostora rezultata rangiranja atributa i predlažemo novi oblik učenja bez pokušaja u kojem nadzornik povezujekategoriju neviđenog objekta na prethodno viđene objekte putem atributa (na primjer, 'medvjedi su krzneniji od žirafa'). Nadalje pokazujemo kako predloženi relativni atributi omogućuju bogatije tekstualne opise za nove slike, koje su u praksi preciznije za ljudsku interpretaciju. Demonstriramo pristup na skupovima podataka lica i prirodnih scena i pokazujemo njegove jasne prednosti u odnosu na tradicionalno predviđanje binarnih atributa za ove nove zadatke.

Motivacija

Binarni atributi su restriktivni i mogu biti neprirodni. U gornjim primjerima, iako se slika u gornjem lijevom i gornjem desnom kutu može okarakterizirati kao prirodna i umjetna, kako biste opisali sliku u gornjem središnjem dijelu? Jedini smisleni način da ga se okarakterizira je u odnosu na druge slike: manje je prirodan od slike s lijeve strane, ali više od slike s desne strane.

Prijedlog

U ovom radu predlažemo modeliranje relativnih atributa. Za razliku od predviđanja prisutnosti atributa, relativni atribut ukazuje na snagu atributa na slici u odnosu na druge slike. Osim što su prirodniji, relativni atributi nude bogatiji način komunikacije, čime se omogućuje pristup detaljnijem ljudskom nadzoru (a time i potencijalno veća točnost prepoznavanja), kao i mogućnost generiranja informativnijih opisa novih slika.

Osmišljavamo pristup koji uči funkciju rangiranja za svaki atribut, s obzirom na ograničenja relativne sličnosti na parovima primjera (ili općenito djelomično sređivanje na nekim primjerima). Naučena funkcija rangiranja može procijeniti stvarni rang za slike pokazujući relativnu snagu prisutnosti atributa u njima.

Predstavljamo nove oblike zero-shot učenja i opis slike koji iskorištavaju relativna predviđanja atributa.

Pristup

Učenje relativnih atributa: Svaki relativni atribut uči se putem formulacije učenja za rangiranje, uz usporedni nadzor, kao što je prikazano u nastavku:

Razlika između učenja funkcije rangiranja široke margine (desno) koja nameće željeni redoslijed bodova za obuku (1-6) i binarnog klasifikara široke margine (lijevo) koji samo odvaja dvije klase (+ i -) i nije nužno sačuvati željeni redoslijed na točkama prikazan je u nastavku:

Novo učenje bez pokušaja : Proučavamo sljedeću postavu

  • N ukupno kategorija: S viđenih kategorija (dostupne su povezane slike) + U neviđenih kategorija (za ove kategorije nisu dostupne slike)
  • S viđenih kategorija opisuju se jedna u odnosu na drugu putem atributa (ne moraju svi parovi kategorija biti povezani za sve atribute)
  • Nevidljive kategorije su opisane u odnosu na (podskup) vidljivih kategorija u smislu (podskupa) atributa.

Prvo obučavamo skup relativnih atributa pomoću nadzora koji se pruža nad kategorijama viđenih . Ovi se atributi također mogu unaprijed uvježbati iz vanjskih podataka. Zatim gradimo generativni model (Gaussov) za svaku kategoriju viđenog koristeći odgovore relativnih atributa na slike iz kategorija viđenog . Zatim zaključujemo parametre generativnih modela nevidljivih kategorija korištenjem njihovih relativnih opisa u odnosu na vidljive kategorije. U nastavku je prikazana vizualizacija jednostavnog pristupa koji koristimo za to:

Testna slika se dodjeljuje kategoriji s najvećom vjerojatnošću.

Automatsko generiranje relativnih tekstualnih opisa slika: S obzirom na sliku I koju treba opisati, procjenjujemo sve naučene funkcije rangiranja na I. Za svaki atribut, identificiramo dvije referentne slike koje leže s obje strane I i nisu predaleko ili preblizu I. Zatim se opisuje slika I u odnosu na ove dvije referentne slike, kao što je prikazano u nastavku:

Kao što se vidi gore, uz opis slike u odnosu na druge slike, naš pristup također može opisati sliku u odnosu na druge kategorije, što rezultira čisto tekstualnim opisom. Jasno je da su relativni opisi precizniji i informativniji od konvencionalnog binarnog opisa.

Eksperimenti i rezultati

Provodimo eksperimente na dva skupa podataka:

  1. Prepoznavanje prizora na otvorenom (OSR) koji sadrži 2688 slika iz 8 kategorija: obala C, šuma F, autocesta H, unutar grada I, planina M, otvoreno područje O, ulica S i visoke zgrade T. Koristimo glavne značajke za predstavljanje slike.
  2. Podskup baze podataka lica javnih osoba (PubFig) koja sadrži 772 slike iz 8 kategorija: Alex Rodriguez A, Clive Owen C, Hugh Laurie H, Jared Leto J, Miley Cyrus M, Scarlett Johansson S, Viggo Mortensen V i Zac Efron Z. Koristimo ulančanu bit i značajke boja za predstavljanje slika.

Popis atributa koji se koriste za svaki skup podataka, zajedno s binarnim i relativnim komentarima atributa prikazan je u nastavku:

Učenje bez pokušaja:

Uspoređujemo naš predloženi pristup s dvije osnovne vrijednosti. Prvi su relativni atributi temeljeni na rezultatu (SRA). Ova osnovna linija je ista kao i naš pristup, osim što koristi rezultate binarnog klasifikatora (binarni atributi) umjesto rezultata funkcije rangiranja. Ova osnovna linija pomaže u procjeni potrebe za funkcijom rangiranja za najbolji model relativnih atributa. Naša druga baza je model izravnog predviđanja atributa (DAP) koji su uveli Lampert et al. u CVPR 2009. Ova osnovna linija pomaže u procjeni prednosti relativnog tretmana atributa za razliku od kategoričkog. Procjenjujemo ove pristupe za različite brojeve nevidljivih kategorija, različite količine podataka koji se koriste za obuku atributa, različiti broj atributa koji se koriste za opisivanje nevidljivih kategorija i različite razine 'labavosti' u opisu nevidljivih kategorija. Pojedinosti o eksperimentalnoj postavci mogu se pronaći u našem radu. Rezultati su prikazani u nastavku:

Automatski generirani opisi slika:

Kako bismo procijenili kvalitetu naših relativnih opisa slike u odnosu na binarne pandane, proveli smo studiju na ljudima. Generirali smo opis slike koristeći naš pristup, kao i osnovne binarne atribute. Ispitanicima smo prikazali ovaj opis, uz tri slike. Jedna od tri slike bila je slika koja se opisuje. Zadatak ispitanika bio je rangirati tri slike na temelju one za koju misle da je najvjerojatnije ona koja se opisuje. Što je opis precizniji, veće su šanse da subjekti prepoznaju točnu sliku. Dolje je prikazana ilustracija zadatka predstavljenog ispitanicima:

Rezultati studije prikazani su u nastavku. Vidimo da ispitanici mogu točnije identificirati ispravnu sliku koristeći naše predložene relativne atribute, u usporedbi s binarnim atributima.

Primjeri binarnih opisa slika kao i opisi u odnosu na kategorije prikazani su u nastavku:

Slika

Binarni opisi

Relativni opisi

nije prirodno

nije otvorena

perspektiva

prirodnije od visokih zgrada, manje prirodno od šume

otvorenije od visokih zgrada, manje otvoreno od obale

perspektivnije od visokih zgrada

nije prirodno

nije otvorena

perspektiva

prirodnije od unutrašnjosti grada, manje prirodno od autoceste

otvorenije od ulice, manje otvoreno od obale

više perspektive od autoceste, manje perspektive od unutrašnjosti grada

prirodna

otvorena

perspektiva

prirodnije od visokih zgrada, manje prirodno od planine

otvorenije od planine

manje perspektivno od otvorene zemlje

Bijelo

se ne smije.

Vidljivo čelo

više Bijeli od AlexRodrigueza

Nasmijaniji od JaredLeta, Manje nasmijan od ZacEfrona,

Više VisibleForehead od JaredLeta, manje VisibleForehead od MileyCyrus

Bijelo

nije Nasmiješeno

nije Vidljivo Čelo

više bijelac od AlexRodriguez, manje bijelac od MileyCyrus manje nasmiješen od HughLaurie više vidljivo čelo od ZacEfrona, manje vidljivo čelo od MileyCyrus

ne Young

BushyEyebrows

RoundFace

više Young od CliveOwena, manje Young od ScarlettJohansson

više BushyEyebrows od ZacEfrona, manje BushyEyebrows od AlexRodrigueza više RoundFace od CliveOwena, manje RoundFace od ZacEfrona

Podaci

Nudimo naučene relativne atribute i njihova predviđanja za dva skupa podataka korištena u našem radu: prepoznavanje scene na otvorenom (OSR) i podskup baze podataka lica javnih osoba (PubFig).

Pročitaj me

Preuzmi (v2)

Skup podataka atributa relativnog lica . Sadrži bilješke za 29 relativnih atributa u 60 kategorija iz baze podataka lica javnih osoba (PubFig).

Kodirati

Modificirali smo implementaciju RankSVM Oliviera Chappellea za obuku relativnih atributa s ograničenjima sličnosti. Naš modificirani kod možete pronaći ovdje .

Ako koristite naš kod, citirajte sljedeći dokument:

D. Parikh i K. Grauman

Relativni atributi

Međunarodna konferencija o računalnom vidu (ICCV), 2011.

Demo snimke

Ovdje možete pronaći demonstracije raznih primjena relativnih atributa. Opis ovih aplikacija nalazi se u radovima ovdje.

Publikacije

D. Parikh i K. Grauman

Relativni atributi

Međunarodna konferencija o računalnom vidu (ICCV), 2011. (usmeno)

Dobitnik Marrove nagrade (nagrada za najbolji rad).

[ slajdovi ] [ razgovor ( video ) ] [ poster ] [ relativni opisi demo ]

Slijede naši drugi dokumenti koji koriste relativne atribute:

A. Biswas i D. Parikh

Simultano aktivno učenje klasifikatora i atributa putem relativne povratne informacije

IEEE konferencija o računalnom vidu i prepoznavanju uzoraka (CVPR), 2013

[ stranica projekta i podaci ] [poster] [ demo ]

A. Parkash i D. Parikh

Atributi za povratnu informaciju klasifikatora

Europska konferencija o računalnom vidu (ECCV), 2012. (usmeno)

[ slajdovi ] [ razgovor ( video ) ] [ stranica projekta i podaci ] [ demo ]

A. Kovaška , D . Parikh i K. Grauman
WhittleSearch: Pretraživanje slika s povratnom informacijom o relativnim atributima
IEEE konferencija o računalnom vidu i prepoznavanju uzoraka (CVPR), 2012.
[ stranica projekta ] [ poster ] [ demo ]

D . Parikh , A. _ Kovashka , A. Parkashi K. Grauman
Relativni atributi za poboljšanu komunikaciju između čovjeka i stroja (pozvani rad)
AAAI konferencija o umjetnoj inteligenciji (AAAI), 2012. (usmeno)