A gépi tanulás kihívásai a nemek azonosítására a képeken

Az elmúlt években egyre szélesebb körben elterjedtek azok a számítógéppel vezérelt képfelismerő rendszerek, amelyek automatikusan felismerik és osztályozzák az embereket. Ezeket az algoritmikus rendszereket számos környezetben alkalmazzák - kezdve a közösségi oldalakon annak megismerésében, hogy a felhasználó macskatulajdonos-e vagy kutyatulajdonos-e, a zsúfolt nyilvános terekben az egyes emberek azonosításáig. A gépi intelligencia mély tanulásnak nevezett formája az alapja ezeknek a képfelismerő rendszereknek, valamint sok más mesterséges intelligencia-erőfeszítésnek.


Ez az esszé atanulságokat tanultunk a mély tanulási rendszerekről és a nemek elismerésérőla gépi látástechnikával kapcsolatos kérdések három részből álló vizsgálatának egyik része. Lásd még:

Interaktív: Hogyan „látja” a számítógép a nemet?Szisztematikusan lefedve vagy „elzárva” az egyes emberek arcainak fényképeit, majd ezeket a képeket betáplálva az általunk létrehozott számítógépes modellbe, láthattuk, hogy az arc mely elemei a legfontosabbak ahhoz, hogy segítsék a modellt a férfiak és a nők osztályozásában. Hoztunk létre egy interaktív funkciót, ahol újra elkészítheti ezt az elemzést, és megnézheti, mely változások okozzák a mély tanulási algoritmusunkat a képen szereplő személy nemével kapcsolatos találgatásainak megváltoztatásában.

Közvélemény-kutatás az arcfelismerésről.Az arcfelismerő rendszerek, amelyek egy fénykép vagy videó alapján meghatározhatják az egyének személyazonosságát, a gépi látás egyik vitatottabb alkalmazása (az általunk ehhez a projekthez használt modellek képesek osztályozni a nemeket, de nem képesek azonosítani az egyes embereket). A Központ nemrégiben felmérést végzett az Egyesült Államok felnőttjeiről, és megvizsgálta a közvéleményt az arcfelismerési technológiával és annak hirdetői, bűnüldöző szervei és mások általi használatával kapcsolatban. Itt tekintheti meg a felmérésről szóló jelentést.

A mély tanulási rendszereket gyakran úgy képzik ki, hogy elvégezzék ezeket a feladatokat, számos olyan képpel, objektummal vagy forgatókönyvpéldával bemutatva, amelyeket az emberek már „helyesnek” vagy „helytelennek” jelöltek. Megfelelő példák megvizsgálásával ezek a rendszerek végül megtanulhatják, hogyan lehet azonosítani a címkézetlen objektumokat vagy forgatókönyveket, amelyekkel még soha nem találkoztak. Ezeket a címkézett példákat, amelyek segítik a rendszert a tanulásban, „képzési adatoknak” nevezzük, és nagy szerepet játszanak e rendszerek általános pontosságának meghatározásában.


Ezek a rendszerek lehetőséget kínálnak arra, hogy összetett feladatokat olyan sebességgel és léptékben végezzenek, amely messze meghaladja az emberek képességeit. De az emberekkel ellentétben a mély tanulási rendszerek általában nem tudnak magyarázatot vagy indokolást adni egyéni döntéseikhez. És ellentétben a hagyományos számítógépes programokkal, amelyek szigorúan előírt lépéseket követnek az eredményeik elérése érdekében, ezek a rendszerek néha annyira összetettek, hogy még az őket tervező adattudósok sem értik teljesen a döntéseiket.



Ennek eredményeként ezek a rendszerek kudarcot vallanak, amelyek úgy tűnik, hogy nehezen érthetőek és nehezen megjósolhatók - például a sötétebb bőrűek arcán magasabb hibarátát mutatnak, mint a világosabb bőrűek, vagy a kongresszus prominens tagjait bűnözőknek minősítik. . Ezeknek a rendszereknek az olyan területeken történő használata, mint az egészségügy, a pénzügyi szolgáltatások és a büntető igazságszolgáltatás, félelmeket váltott ki, hogy az algoritmikus semlegesség leple alatt felerősíthetik a meglévő kulturális és társadalmi elfogultságokat.


A Pew Research Center nemrégiben mély tanulási technikákat alkalmazott jelentések sorozatában, amelyek a nemek reprezentációját vizsgálták a Google képkeresési eredményeiben és a Facebook-hírek bejegyzéseiben. Mivel az emberi kutatók számára nem volt lehetséges az online rendszerek által létrehozott képek ezreinek válogatása és osztályozása, létrehoztuk saját eszközünket, amely automatikusan megtalálta és kategorizálta az emberek nemét a megtalált képeken.

A képzési adatoktól függetlenül az összes modell jobban tudta azonosítani az egyik nemet, mint a másikatEgy mély tanulási rendszer kiépítésének folyamata során, amely képes a nemek felismerésére az emberi arcok sokféle képén, első kézből tanultuk meg a rendszerek működésének megértésének nehézségeit; a pontos teljesítményükhöz igazítás kihívásai; valamint a képzésükhöz használt adatok kritikus szerepe abban, hogy hatékonyabban (vagy kevésbé) hatékonyan teljesítsenek. Több mint 2000 egyedi modellt képeztünk és teszteltünk egy közös mély tanulási architektúra alapján, és ennek során nagy eltéréseket tártunk fel e modellek azon képességében, hogy a képeket különféle képkészletekben pontosan tudják azonosítani.


Számos nemi osztályozási rendszer (beleértve azt is, amelyet saját kutatásunk elvégzésére használtunk) egyik közös korlátja, hogy nem számolhatnak olyan egyénekkel, akik nem azonosulnak sem nőként, sem férfiként, és nincsenek a nemtől való identitásuk fizikai megjelenés. De ezeken az ismert korlátozásokon túl is megtudtuk, hogy a modellek képzéséhez használt képzési adatok nagyon fontosak. Azok a modellek, amelyeket változatosabb képkészletek felhasználásával képeztünk ki (ideértve azok demográfiai összetételét, valamint az egyes készletekben használt képek minőségét és típusait), jobban azonosították a nemet egy hasonlóan változatos fotócsoportban, mint a több korlátozott adat.

Ezen modellek teljesítményében olyan eltéréseket is észleltünk, amelyek néha meglepőek és nehezen magyarázhatók. Például annak ellenére, hogy a nagyobb változatosság felhasználásával képzett modellek voltak aa legtöbbPontos, a kevésbé változatos képekre kiképzett modellek pontosabbak voltak, mint mások. Hasonlóképpen, e modellek egy része jobban tudta azonosítani a férfiakat, mint a nőket, míg mások a nőknél jobban teljesítettek, mint a férfiaknál.

Hogyan építettünk gépi tanulási modelleket különféle képek felhasználásával

Az elemzés során használt adatgyűjtések

A Központ hét adatgyűjtést használt modelljeink képzéséhez. Minden gyűjteménynek megvannak a maga egyedi jellemzői, így egyetlen gyűjtemény sem tükrözi a világ népességének sokszínűségét. A gyűjtemények a következőket tartalmazzák:

Brazil politikusok:Kiváló minőségű pózolt képek a brazil politikusokról a kamera előtt, egy olyan helyről összeállítva, amely az önkormányzati szintű választási eredményeknek ad otthont.


Címkézett arcok a vadonban:Arcképek adatbázisa, amelyet a Massachusettsi Egyetem kutatói állítottak össze az arcfelismerési technológia tanulmányozása céljából.

Bainbridge:Az 1990-es amerikai népszámlálás demográfiájának megfelelő arcfotók gyűjteménye, amelyet Wilma Bainbridge és munkatársai gyűjtöttek az arc emlékezetességének kutatására.

Ázsiai hírességek:30 híres ázsiai személy (15 férfi és 15 nő) képei, amelyeket a Központ állított össze.

Fekete hírességek:22 híres fekete személy képei (11 férfi és 11 nő), a Központ összeállította.

Híres idősek:A hírességek 21 hírességének képei (11 férfi és 10 nő) a Központ által összeállítva.

Ország-Nem képkeresés:Férfiak és nők képei a világ 100 legnépesebb országának mindegyikéről, a Központ által összeállítva.

A gépi tanulási modellek általában üres lapként indulnak, amelyeknek nincsenek adatai, és amelyek nem képesek osztályozni vagy bármilyen más feladatot végrehajtani. Az ebben az esszében tárgyalt modelleket egy „transzfertanulás” nevű technikával építettük fel, amely néhány alapvető információt nyújt számukra a közös tárgyak azonosításának módjáról, de nem feltétlenül a nem becsléséhez kifejezetten releváns információt. Függetlenül a használt gépi tanulás konkrét típusától, az adattudósok általában egy modell összeállítását kezdik egy olyan adatkészlet kiválasztásával, amely a feladat vagy osztályozás számos példáját ábrázolja helyesen. Miután elegendő példát látott erre az úgynevezett képzési adatra, a modell végül azonosítja a szisztematikus mintákat, és kialakítja saját megközelítését a „helyes” válaszok és a „helytelen” válaszok megkülönböztetésére. Ezután ezt a megközelítést felhasználhatja arra a feladatra, amelyet eddig képzettnek látott az eddig soha nem látott adatokra.

Azok a példák azonban, amelyek elfogultak, vagy nem pontosan reprezentálják az egyének tágabb csoportját, amelyekkel találkozhatunk, váratlan és értelmetlen mintákat taníthatnak a rendszerre, ezáltal olyan megközelítést alakíthat ki, amely nem működik jól az új adatokon. Például egy olyan képen képzett modell, amelyen minden férfi szemüveget visel, meggyőződhet arról, hogy a szemüveg viselése erős jelzés arról, hogy valaki férfi. Bár ez a példa nyilvánvalónak tűnhet, nehéz lehet előre tudni, ha a képzési adatok a feladat gyenge példáiból állnak, vagy nem reprezentatívak.

Mivel elemzésünkben meg akartuk különböztetni a férfiakat és a nőket képekben, képzési adataink azonos méretű férfiak és nők képkészleteiből álltak, amelyeken minden képet férfinak vagy nőnek jelöltek. Meg akartuk nézni, hogy az edzésadatok megválasztása hogyan befolyásolja modelljeink általános pontosságát, ezért online kerestük az emberi arcok különböző képgyűjteményeit. Végül hét képgyűjteményt gyűjtöttünk össze, amelyeket modelljeink képzéséhez használtunk. Minden gyűjtemény címkézett személyi képekből állt, de mindegyiknek meg volt a maga egyedi keveréke a korosztályok, a fajok és a nemzetiségek között, valamint a kép jellemzőinek keveréke, például a kép minősége és az egyén elhelyezkedése.

Ezeket a gyűjteményeket kiindulási pontként felhasználva, ezután nyolc különböző képzési adatkészletet hoztunk létre mély tanulási modelljeinkhez. A képzési adatkészletek közül hét csak az eredeti gyűjtemények egyikéből (különböző típusú szimulációkból) készült képekből álltKevésbékülönböző képzési adatok), míg az egyik képzési adat mind a hét gyűjtemény keverékéből készült képekből állt (atöbbváltozatos képzési adatok). Alapvető fontosságú, hogy az edzéshez használt mind a nyolc adatkészlet azonos méretű és egyenlő számú férfit és nőt tartalmazott.

Hogyan teljesítettek ezek a modellek a nemek azonosításában különféle képcsoportokban

Miután mindegyik modellt kiképeztük a projekthez létrehozott nyolc oktatási adatállomány egyikéből, teszteltük. A különböző modellek teljesítményének összehasonlításához létrehoztunk egy egyedi adatkészletet, amely az eredeti mind a hét adatgyűjteményből készült képekből állt, de amelyeket soha nem használtak fel az egyes modellek képzéséhez. Ez a fajta adatkészlet „tesztadatok” néven ismert, és a különböző modellek teljesítményének értékelésére és összehasonlítására szolgál. A projekt tesztadatai azonos számú képet tartalmaztak a hét adatgyűjteményből, valamint azonos számú képet azonosítottak nőkről és férfiakról az egyes gyűjteményekben.

Amikor betanított modelljeinket a tesztadatok alapján futtattuk, néhány modellt pontosabban teljesítettünk, mint másokat. Legfőképpen annak a modellnek volt a legjobb teljesítménye, amelyet mind a hét egyedi gyűjteményből készített képek alapján képeztek ki (vagyis a legkülönfélébb képzési adatok alapján képzett modell). Pontosan meghatározta a helyes nemet a képzési adatképek 87% -ánál, míg az egyedi adatgyűjtésekből csak egy segítségével képzett modellek 74% és 82% közötti pontosságot értek el.

A több adatforráson képzett gépi tanulási modellek pontosabbak voltak, mint az egyetlen adatforráson képzett modellek

Más szavakkal, a különféle forrásokon képzett modell lényegesen jobban teljesített, mint az egyes forrásokon képzett modell, annak ellenére, hogy minden modell ugyanannyi képet készített, és a férfiak és nők aránya azonos volt. Ez nem meglepő, mivel a sokféle képzési és a tesztelési adatok egyaránt tartalmazzák a hét adatgyűjtést. Ez kiemeli azt a központi kihívást, amely szembesül az ilyen típusú modellek építésével vagy használatával: A képzési adatok felhasználásával épített modellek, amelyek eltérnek a valós adatoktól, és az ehhez kapcsolódó valós sokszínűség nem biztos, hogy a várt módon teljesítenek.

Annak ellenére, hogy a rendelkezésre álló legváltozatosabb adatok alapján képzett modell teljesített a legpontosabban, a kevésbé eltérő adatokon képzett modellek nem mindegyike teljesített ugyanolyan gyengén. Az egyetlen adatforráson képzett modellek közül a legrosszabbul teljesítő teljesítmény mindössze 74% -os pontosságot ért el, de a legjobban teljesítő modellek 8 százalékponttal növelték ezt a pontszámot. Mint fentebb említettük, ezek a képek a képeken szereplő emberek demográfiai jellemzőin túl sokféleképpen különböznek egymástól - például a képminőség, a képfelbontás, a fénykép orientációja és más nehezen számszerűsíthető tényezők között. Ez rávilágít egy második kihívásra, amellyel a rendszerek felhasználói és tervezői szembesülnek: Nehéz előre megjósolni, hogy ezek a modellek mennyire pontosak lesznek csak azokon az adatokon alapulva, amelyeken képzettek. Amit azonban megjósolhatunk, az az, hogy a változatosabb minták erősebbek lesznek.

Megvizsgáltuk azt is, hogy az egyes modellek mennyire voltak pontosak a férfiak és a nők azonosításában, és megállapítottuk, hogy minden modell legalább valamivel pontosabb volt az egyik nem azonosításában, mint a másikban - annak ellenére, hogy minden modellt ugyanannyi nő és férfi kép alapján képeztek ki . Ezek az eltérések nem mutatkoznak anélkül, hogy ezt a részletesebb elemzést elvégeznék: Egy modellt 76% -os pontossággal lehetne bemutatni anélkül, hogy kiderülne, hogy csak a nők 60% -át, míg a férfiak 93% -át helyesen osztályozza.

Széles körben ezeknek a modelleknek általában nehezebb volt a nők azonosítása: A nyolcból hat (beleértve azt a modellt is, amelyet a lehető legkülönbözőbb képzési adatok felhasználásával építettek) pontosabban azonosította a férfiakat, mint a nőket. De a modellek közül kettő lényegesen pontosabb volt a nők, mint a férfiak azonosításában. És hasonlóan általános pontosságukhoz, nem teljesen világos vagy kiszámítható, hogy egyes modellek miért tudják jobban azonosítani a férfiakat, mint a nőket, vagy fordítva.

A gépi látás kutatásának következményei

Fontos megjegyezni, hogy ennek a tanulmánynak számos korlátja van, amelyeket szem előtt kell tartani az eredmények értelmezése során. Először is, az általunk alkalmazott transzfer tanulási megközelítés az előre kiképzett modellekben már meglévő információkra épít. Másodszor, mivel több mint 2000 modellt hoztunk létre ehhez a projekthez - és a nagyobb képzési adatok felhasználásával képzett modellek elkészítése hosszabb időt vesz igénybe -, viszonylag szerény számú képet használtunk az egyes modellek képzéséhez. Ennek eredményeként ezek a modellek kevésbé pontosak lehetnek, mint azok a rendszerek, amelyek összetettebb modellezési stratégiákat vagy több képzési adatot használnak. Harmadszor, a képzésekhez és tesztekhez használt képek nem azt jelentik, hogy reprezentálják az emberi arcok összes lehetséges sokféleségét. E projekt célja inkább egy olyan képkészlet rögzítése volt, amely elég sokrétű volt ahhoz, hogy értelmes összehasonlításokat lehessen végezni az ilyen típusú rendszerek megismeréséről a nemekről.

Végül fontos megjegyezni, hogy ezeket a modelleket egy nagyon konkrét feladatra tervezték: az emberek képeinek nőként vagy férfiként történő osztályozásához pusztán külső, fizikai jellemzőik alapján. Amint azt fentebb megjegyeztük, eszközünk csak a két bináris kategória egyikéhez tudott hozzárendelni embereket, és nem volt képes elszámolni más nemű embereket, beleértve a nem bináris egyéneket is. Nem volt alapvető megértése a nemről vagy a nemi identitásról, mint fogalmakról, és nem tudott különbséget tenni valakinek fizikai megjelenése és személyes nemi identitása között. És bár ennek az elemzésnek a tág elvonásai bármilyen gépi tanulási rendszerre alkalmazhatók, az itt közölt specifikus eredmények nem általánosíthatják a nemek osztályozására tervezett más típusú rendszereket, vagy azokat, amelyek teljesen más feladatok elvégzésére készültek.

De ezek az óvatosságok ellenére ez az elemzés betekintést nyújthat az ilyen típusú gépi tanulási modell természetébe és korlátaiba. Várható, hogy ezek a modellek tökéletlenek. Ami kevésbé nyilvánvaló, hogy egyes csoportoknál lényegesen kevésbé megbízhatóak, mint mások - és ezeket a különbségeket nem feltétlenül intuitív vagy nyilvánvaló tényezők vezérlik. Általánosságban fontos, hogy ezeket a modelleket olyan adatokra oktassák, amelyek a lehető legszorosabb módon rögzítik a valós helyzetekben tapasztalható helyzetek sokféleségét. Ha a modellt például több életkoron, fajon és más minőségen kell használni, akkor fontos, hogy a modellt hasonlóan sokféle edzéskészleten képezzék ki. Végül azoknak az embereknek, akik támaszkodnak az e rendszerek által hozott döntésekre, annak tudatában kell megközelíteniük az általuk elért eredményeket, hogy olyan problémákat vagy elfogultságokat rejtenek magukban, amelyeket nehéz előre megjósolni vagy előre megjósolni.

Kérjük, olvassa el a módszertant további részletekért arról, hogy a központ hogyan végezte ezt az elemzést. Ezúton szeretnénk köszönetet mondani Besheer Mohamednek, Onyi Lam-nak, Brian Brodericknek, Skye Toornak, Adam Hughes-nak és Peter Bellnek a projekthez nyújtott felbecsülhetetlen hozzájárulásukért. Információs grafika: Selena Qian.