Objašnjivo automatsko prepoznavanje emocionalnih stanja iz psećih izraza lica: slučaj pozitivnog iščekivanja i frustracije

Aug 11, 2023

Korištenje Adam optimizera sa stopom učenja od {{0}}.0001. Kao najbolji model izabran je model koji postiže maksimalnu tačnost na skupu podataka za validaciju. Tokom prvih 10 epoha, težine svih slojeva su bile fino podešene. Tokom prvih 10 epoha, težina svih slojeva je bila fino podešena. Tokom preostalih epoha, ResNet50 težine su zamrznute i ažurirane su samo težine novih gornjih slojeva. Za varijable koje se ne odnose na orijentaciju ('Ears Flattener', 'Lips Part', 'Ears Adductor', 'Ears Forward' i 'Nose Lick') primijenili smo tehniku ​​povećanja zasnovanu na nasumičnom horizontalnom fip-u i rotaciji do 20 stepeni. Kao ulaz za koder, koristili smo ulaznu tabelu, gde svaki red predstavlja prisustvo (1)/odsustvo (0) svake od 11 DogFACS varijabli na svakom videu. Cilj kodera je tabela koja sadrži uslov (negativ(0)/pozitiv(1)) svakog video zapisa.

ResNet50 je arhitektura duboke neuronske mreže koja je postala jedna od klasičnih mreža u polju kompjuterskog vida. ResNet50 mrežu karakteriše veoma jaka memorija i sposobnost pamćenja prethodno naučenog znanja tokom treninga, što je čini dobrim u složenim zadacima prepoznavanja slika.

Kako ResNet50 postiže memoriju? On usvaja metodu preostale veze i dodaje prečicu vezu između slojeva u svakom konvolucionom sloju, što može poboljšati protok informacija u mreži. Tokom procesa obuke, zbog postojanja ovih prečica, mreža može lakše naučiti preostala mapiranja i ne mora trošiti previše vremena na pronalaženje ovih preostalih mapiranja.

Ova vrsta memorijskih performansi čini da ResNet50 dobro radi u velikim zadacima prepoznavanja slika. Za probleme kao što su klasifikacija slika, detekcija mete i prepoznavanje lica, ResNet50 je postigao vrlo dobre rezultate. Ovaj učinak pamćenja sličan je našem mozgu, koji također povezuje neurone kako bi poboljšao pamćenje. Dakle, možemo reći da je ResNet50 veoma dobar model duboke neuronske mreže, koji ima jaku memoriju i može dobro da se nosi sa složenim zadacima prepoznavanja slika. U isto vrijeme, to nam također daje određenu inspiraciju. Možemo učiti iz ideja ResNet50 da dizajniramo efikasniji model duboke neuronske mreže, kako bi bolje služio potrebama ljudskih bića. Vidi se da moramo poboljšati svoje pamćenje. Cistanche može poboljšati pamćenje jer je cistanche tradicionalni kineski medicinski materijal s mnogim jedinstvenim efektima, od kojih je jedno poboljšanje pamćenja. Efikasnost mljevenog mesa dolazi od raznih aktivnih sastojaka koje sadrži, uključujući karboksilnu kiselinu, polisaharide, flavonoide, itd. Ovi sastojci mogu promovirati zdravlje mozga kroz različite kanale.

increase memory

Kliknite na načine za poboljšanje funkcije mozga

U istraživanju na životinjama, automatizacija prepoznavanja afektivnog stanja do sada se uglavnom bavila bolom kod nekoliko vrsta. Emocionalna stanja ostaju neistražena područja, posebno kod pasa, zbog složenosti njihove morfologije lica i izraza. Ova studija doprinosi popunjavanju jaza u dva aspekta. Prvo, on je prvi koji se bavi emocionalnim stanjima pasa koristeći skup podataka dobijenih u kontroliranom eksperimentalnom okruženju, uključujući videozapise (n=29) labradora retrivera za koje se pretpostavlja da su u dva eksperimentalno izazvana emocionalna stanja: negativno (frustracija) i pozitivno (anticipacija). Izrazi lica pasa mjereni su korištenjem Dogs Facial Action Coding System (DogFACS).

Dva različita pristupa se upoređuju sa ciljem abatora: (1) pristup zasnovan na DogFACS-u sa cevovodom u dva koraka koji se sastoji od (i) DogFACS varijabilnog detektora i (ii) klasifikatora stabla odlučivanja pozitivnog/negativnog stanja; (2) Pristup koji koristi tehnike dubokog učenja bez srednjeg predstavljanja. Pristupi dostižu tačnost od preko 71% i 89%, respektivno, pri čemu pristup dubokog učenja ima bolje rezultate. Drugo, ova studija je također prva koja proučava objašnjivost AI modela u kontekstu emocija kod životinja. Pristup zasnovan na DogFACS-u pruža stabla odlučivanja, što je matematički prikaz koji odražava prethodne nalaze ljudskih stručnjaka o određenim izrazima lica (DogFACS varijable) kao korelacijama specifičnih emocionalnih stanja. Pristup dubokog učenja nudi drugačiji, vizuelni oblik objašnjivosti u obliku toplotnih mapa koje odražavaju regione fokusa pažnje mreže, koji u nekim slučajevima pokazuju fokus povezan sa prirodom određenih DogFACS varijabli. Ove toplotne karte mogu sadržavati ključ za nove uvide u osjetljivost mreže na nijansirane uzorke piksela koji odražavaju informacije nevidljive ljudskom oku.

Charles Darwin je slavno opisao upotrebu izraza lica kao prikaza emocionalnih stanja kod ljudi i raznih neljudskih vrsta (u daljem tekstu životinje) u svom temeljnom djelu 'Izražavanje emocija kod čovjeka i životinja'1. Danas je široko prihvaćeno da su izrazi lica važan izvor informacija za prepoznavanje emocionalnih stanja. Kod ljudi, ekspresije lica služe kao primarno neverbalno sredstvo koje reguliše interakcije2, a povezanost između izraza lica i emocionalnih stanja odavno je ustanovljena sistematskim studijama u psihologiji3,4. Kod životinja, izraze lica proizvodi većina vrsta sisara5, i, kao i kod ljudi, pretpostavlja se da prenose informacije o emocionalnim stanjima6,7. Stoga se izrazi lica sve više proučavaju kao potencijalni pokazatelji subjektivnih stanja u istraživanju emocija i dobrobiti životinja.

Zlatni standard za objektivnu procjenu promjena u izrazima lica u istraživanju ljudskih emocija je sistem kodiranja facijalnih akcija—FACS8,9. FACS je nedavno prilagođen za različite neljudske vrste, uključujući nekoliko neljudskih primata (npr. orangutane10, čimpanze11, makaki12,13), marmozete14, pse15 i mačke16. Ovi sistemi koji se nazivaju AnimalFACS se, kao i kod ljudi, sve više koriste za proučavanje emocionalnih stanja životinja (npr.17–19).

Glavni izazov u identifikaciji standardiziranih izraza lica kod pasa tiče se morfološke raznolikosti njihovih glava20,21 i prekrivenih dermalnih struktura, kao što je uključivanje trajnih bora kod nekih pasmina. Da bi identificirali emocionalne izraze lica kod pasa, Caeiro i ostali18 su primijenili DogFACS kako bi procijenili spontani odgovor pojedinaca različitih rasa i mješavina u naturalističkim emocionalnim okruženjima koristeći online video zapise. Istraživale su se emocije i pozitivne i negativne valencije, uključujući anticipaciju nagrade (pozitivno valentirana emocija) i frustraciju (emocija negativnog valencija), oboje karakterizirane očekivanjem željenog stimulusa16. Pozitivno iščekivanje je definirano kao inducirano u situacijama koje uključuju "[v]vizualizaciju hrane ili slušanje obroka/reči u vezi sa hranom; [v]vizualizacija povodca, slušanje riječi koja se odnosi na hodanje", a frustracija je definirana kao inducirano "[v]vizualizacijom željenog resursa (igračke, hrane, prostora) koji je ili postaje nedostupan"18. Dok su Caeiro et al.18 otkrili da psi pokazuju značajno različite izraze lica u razlikovanju određenih emocionalnih stanja, nije bilo karakterističnih osobina identificiranih u kontekstu frustracije. U skladu s tim, Bremhorst et al.22 istraživali su izraze lica pasa pozitivnog iščekivanja i frustracije u kontroliranom eksperimentalnom okruženju, za razliku od Caeiroa et al.18, standardizirajući i pasminu psa (labrador retriver). Štaviše, autori su koristili nedruštveni kontekst da eliminišu rizik od smetnji od prethodno naučenih odgovora koji privlače pažnju. Da bi se eksperimentalno izazvala oba proučavana emocionalna stanja, visokovrijedna nagrada za hranu korištena je kao pokretački stimulans u dva stanja: predviđeno je da pozitivno stanje indukuje pozitivno iščekivanje (kroz uslovljeno očekivanje hrane), a negativno stanje treba da izazove frustraciju (tj. sprečavanje pristupa očekivanoj nagradi za hranu). Izrazi lica pasa u ova dva stanja mjereni su pomoću DogFACS-a. Autori su otkrili da je varijabla "Ears Adductor" češća u pozitivnom stanju, dok su varijable "Blink", "Lips Part", "Jaw Drop", "Nose Lick" i "Ears Flattener" češće u negativnom stanju. stanje22. U naknadnoj studiji, Bremhorst et al.19 testirali su novu grupu pasa koristeći sličnu postavku. Međutim, u ovoj studiji korištene su dvije različite vrste nagrada (hrana i igračke) kako bi se testirala generalizacija njihovih prethodnih nalaza u širem rasponu konteksta19.

Prethodni rezultati su ponovljeni19, sa četiri dalje varijable koje su češće u negativnom stanju: "Uši prema dolje", "Ugao usana za izvlačenje", "Pokazivanje jezika" i "Podizanje gornje usne". Svi identificirani izrazi lica osim "Upper Lip Raiser" bili su neovisni o vrsti nagrade koju su psi očekivali da dobiju19. Nadalje, procijenjene su osnovne mjere dijagnostičke tačnosti za identificirane izraze lica kao potencijalne indikatore emocija, uključujući njihovu osjetljivost, specifičnost, te pozitivne i negativne prediktivne vrijednosti19. Rezultati su pokazali da nijedan od ovih izraza lica ne bi pružio dosljednu ispravnu klasifikaciju povezanih emocija ako bi se koristili sami kao individualni indikatori emocija19. Ovo ne umanjuje njihovu potencijalnu vrijednost kao signala, ali možda naglašava normalnu holističku obradu konfiguracija lica23, umjesto da se fokusira na pojedinačne elemente unutar njih.

Prisustvo publike u emocionalnom kontekstu važan je element koji treba uzeti u obzir prilikom istraživanja izraza lica (emocija) kod pasa, kao što je pokazala nedavna studija Pedrettija et al.24. Slično kao19,22, autori su pse izložili pozitivnom iščekivanju i nedruštvenoj i nedruštvenoj frustraciji, izazivajući test sesije. Također su koristili DogFACS za analizu izraza lica pasa u ovim situacijama, osim drugih ponašanja kao što je mahanje repom i mjerenje koncentracije kortizola u pljuvački prije i nakon testa. Otkrili su da se "Uši naprijed" više dešavalo u pozitivnom stanju nego u negativnom. Nadalje, na ovu varijablu je pozitivno utjecalo prisustvo publike i negativnu korelaciju s koncentracijama kortizola prije testiranja, što sugerira da može biti dobar pokazatelj razine pažnje pasa. "Spljoštenje ušiju", "treptanje", "lizanje nosa", "mahanje repom" i "cviljenje" (posljednja dva nisu uključena u varijable DogFACS) također su bili povezani s prisustvom publike, ali nisu bili povezani s koncentracijom kortizola, što sugerira komunikativna komponenta ovih ponašanja.

improve your memory

Ovo pokazuje da DogFACS može poslužiti i za istraživanje izraza lica pasa ne samo kao znakova (tj. izazivanje promjena u ponašanju koje prate emocionalna stanja) već i kao signale (tj. ponašanja posebno proizvedena za prenošenje emocija komunikacijskom partneru), vidi također 25. Sistemi AnimalFACS stoga pružaju važno sredstvo za promicanje razumijevanja životinjskih izraza lica. Međutim, upotreba ovih sistema za analizu izraza lica ima svoje izazove, uključujući ovisnost o ručnom označavanju koje zahtijeva opsežnu obuku i certificiranje ljudi, a ovo može biti dugotrajno i može biti podložno ljudskoj grešci ili pristrasnosti26.

Automatizacija ima potencijal da pruži važan komplementarni napredak ovom procesu. Konkretno, tvrdi se da automatizovani alati imaju veću objektivnost i pouzdanost od ručnog kodiranja, eliminišući subjektivnost i pristrasnost27,28, ali takođe ne zavise od detekcije pojedinačnih karakteristika za njihov uspeh. Stoga nije iznenađujuće da je automatsko kodiranje izraza lica živo polje u istraživanju ljudskih emocija, s brojnim dostupnim komercijalnim softverskim alatima, kao što su FaceReader od Noldus29, Afdex30, EmoVu31, kao i opsežne baze podataka kao što je CAS(ME)332.

Kod životinja je, s druge strane, automatizacija analize izraza lica nedovoljno istražena. To je zbog nekoliko izazova (kao što su raspravljali 33,34), uključujući prvo relativnu nedavnost rasta ili zanimanje za istraživanje emocija kod životinja, što znači da je dostupno mnogo manje podataka u usporedbi s ogromnim količinama podataka u ljudskom domenu. Drugo, posebno kod domaćih vrsta, velike varijacije u morfologiji lica predstavljaju tehničke izazove35. Konačno, nedostatak verbalnog samoizvještavanja čini izazovom utvrđivanje temeljne istine za emocionalno stanje koje se doživljava kod životinja, dok je kod ljudi samoizvještavanje standardni pristup za ovu svrhu. Protokoli za prikupljanje podataka za životinje stoga zahtijevaju opsežnu kontrolu i regulaciju, operativne definicije proučavanih emocionalnih stanja (vidi npr. 18), ili eventualno ocjenjivanje od strane stručnjaka za ljude—iako to potencijalno uvodi pristrasnost i subjektivno prosuđivanje.

Broomé et al.36 pružili su sveobuhvatno istraživanje od dvadeset studija koje predstavljaju najsavremenije pristupe automatizovanom prepoznavanju emocija i bola kod životinja. Većina ovih radova fokusira se na pojavu bola. Vrste koje su obrađene u ovom kontekstu uključuju glodare37–39, ovce40, konje33,41,42 i mačke43. Svi ovi radovi pružaju binarni klasifikator za bol/bez bola, koristeći tehnike mašinskog učenja.

Rad na široj automatizaciji prepoznavanja emocija životinja je mnogo oskudniji. Dvije studije na neljudskim primatima fokusiraju se na srodnu Action Unit/prepoznavanje izraza lica, bez eksplicitnog obraćanja emocionalnim stanjima44,45. Blumrosen et al.44 automatizirano prepoznavanje četiri izraza lica neljudskih primata: neutralno, šmrkanje usana, žvakanje i nasumično otvaranje usta uz minimalne napore u komentarima, dok su Morozov i dr.45 implementirali prototip sistema za automatsko MaqFACS kodiranje za Rhesus makake , obučeni da klasifikuju šest MacFACS varijabli.

U Broomé et al.36, ispitana su samo tri rada koja daju klasifikaciju od kraja do kraja za različita emocionalna stanja. Corujo i dr.46 definisali su četiri emocionalna stanja konja: „uzbunjen“, „iznerviran“, „znatiželjan“ i „opušten“, definišući svako od njih u smislu ponašanja očiju, ušiju, nosa i vrata. Na primjer, "opušteno" je definirano kao oči: djelomično do uglavnom zatvorene, uši: opuštene, otvorene usmjerene na strane, nos: opuštena usta i vrat: približno paralelni. Model konvolucione neuronske mreže (CNN) je obučen da predvidi ove četiri "klase" emocija. Ferres et al.47 koristili su automatsku procjenu poze koristeći DeepLabCut48 za klasifikaciju četiri klase emocija "ljutnja", "strah", "sreća" i "opuštanje" za pse. Franzoni i dr.49 također su koristili CNN model za klasifikaciju ograničenih atributa povezanih s emocionalnim stanjima: "osmijeh" (vezano za "radost"), "režanje" (povezano sa "bijesom") i "spavanje" (povezano s neutralnim država).

Od tri rada vezana za pse47,49,50 dva su se fokusirala na tijelo za prepoznavanje emocionalnih stanja47 i bola50, a jedan na izraz lica emocija49. Međutim, skupovi podataka korišteni u studijama Ferresa et al.47 i Franzoni et al.49 sadržavali su slike prikupljene s interneta i komentarisane od strane nestručnjaka i stoga su potencijalno bile niske pouzdanosti i valjanosti. Rad Zhu50 proučava prepoznavanje bola na osnovu govora tijela, a ne izraza lica.

Ovdje predstavljena studija prva je koja istražuje automatsko prepoznavanje emocija pasa iz izraza lica, koristeći skup podataka prikupljenih iz pažljivo dizajniranog eksperimentalnog protokola gdje kontekst brani emocionalna stanja22. U ovom protokolu, emocionalna stanja pozitivnog iščekivanja (pozitivna emocija) i frustracije (negativna emocija) su operativno definirana (u skladu sa 18 i eksperimentalno inducirana na uzorku od 29 ispitanika labrador retrivera, minimizirajući varijabilnost morfoloških razlika između pasa. izrazi lica koje su proizveli psi su objektivno kodirani korištenjem standardiziranog DogFACS sistema od strane certificiranih DogFACS kodera. Ovaj skup podataka stvara jedinstveno eksperimentalno okruženje za istraživanje različitih pristupa automatizaciji prepoznavanja emocija uz minimalnu pristrasnost u definiciji emocija. Podaci dodatno imaju koristi od smanjene morfološke varijacije lica učesnika zbog standardizacije pasmine.

Prema 36, ​​postoje dva standardna puta za klasifikaciju emocionalnog stanja ili stanja boli: korištenje ručno izrađenih karakteristika ili korištenje paradigme dubokog učenja zasnovane na naučenim karakteristikama51. Ručno izrađene karakteristike mogu se grubo podijeliti na karakteristike niskog nivoa, koje se zasnivaju na statistici slike (kao što su histogrami orijentiranih gradijenata) koji se obično koriste u literaturi o kompjuterskom vidu51, i karakteristike visokog nivoa, koje su semantički utemeljene u vrstama. specifična anatomska struktura lica i/ili tijela, skale grimase, jedinice akcije, itd. Primjeri potonjeg su orijentiri lica mačke52, ključne tačke tijela psa47 ili jedinice za djelovanje protiv bola kod ovaca40. Ove karakteristike promovišu objašnjivost algoritama mašinskog učenja zasnivajući odluke modela na konceptima ponašanja. Pristup dubokog učenja je, s druge strane, fleksibilniji i očekuje se da će raditi bolje (posebno kada su dostupni veliki skupovi podataka), ali zahtijeva skupe računske resurse i 'crna kutija' u smislu da nije pogodan za objašnjenje ljudskim razumljivim terminima zašto se donosi određena odluka o klasifikaciji.

U ovoj studiji istražujemo oba ova alternativna puta ka automatiziranoj klasifikaciji emocionalnih stanja kod pasa. Prva ruta koristi DogFACS varijable kao objašnjive karakteristike visokog nivoa. Klasifikacioni cevovod u ovom slučaju ima dve faze: prvo, automatsko prepoznavanje DogFACS kodova, i drugo, korišćenje napomena za klasifikaciju proučavanih emocija. Mi demonstriramo korisnost takvog objašnjivog predstavljanja za razumevanje kako se varijable DogFACS koriste u donošenju odluka mašine. Drugi put koristi (jednostavniji, jednostepeni) pristup dubokog učenja, omogućavajući mašini da uči direktno iz karakteristika podataka koje nisu nužno razumljive ljudima. Dalje uspoređujemo aspekte objašnjivosti između ova dva pristupa i koristimo tehnike vizualizacije toplotnih mapa kako bismo istakli odnos naučenih karakteristika prema semantičkim objektima koji se odnose na dijelove lica psa.

Rezultati

Skup podataka.

Koristili smo skup podataka i DogFACS napomene generirane kao dio prethodne studije Bremhorsta et al.22. Da bi se smanjili efekti morfoloških varijacija, testirano je 29 subjekata jedne pasmine bez ekstremnih crta lica (labrador retriver) (19 ženki – 13 steriliziranih, 10 mužjaka – 9 steriliziranih; raspon starosti: 2–9,5 godina, srednja starost {{9} }.22 godine). Slika 1 pokazuje distribuciju starosti i pola ispitanika.

Skup podataka je uključivao ukupno 248 video uzoraka dužine 3s snimljenih pri brzini kadrova od 25,25 kadrova/s, pri čemu je svaka rezolucija kadra bila 1920 × 1080 piksela. Kamera korištena za snimanje je HIKVision, IR Mini Bullet Network Camera; snimač: HIKVision, DS-7600 serija. Subjekti su locirani iza prozirnog prozora koristeći protokol koji je u potpunosti opisan u Bremhorst et al.22. Svaki ispitanik je testiran 3 puta u pozitivnom i 6 puta u negativnom stanju. Sveukupno dvije trećine videozapisa su označene kao negativne, a jedna trećina kao pozitivne. U cijeloj ovoj studiji pretpostavlja se da negativno stanje izaziva frustraciju, a pozitivno stanje inducira pozitivno iščekivanje, tako da ubuduće koristimo pozitivnu/negativnu valenciju da se odnosimo na dva emocionalna stanja. Slika 2 prikazuje useve lica pasa izvađenih iz skupa podataka.

boost memory

Skup podataka je izbalansiran korištenjem slučajnog poduzorkovanja, ostavljajući 82 videa pozitivnih stanja i 82 video snimka negativnih stanja od (n = 29) pojedinaca, ukupno 164 videozapisa. Balansiranje je obavljeno uz održavanje istog broja pozitivnih i negativnih uzoraka po osobi.

Svi video uzorci su kodirani pomoću 39 DogFACS varijabli na osnovu DogFACS priručnika53 od strane certificiranog DogFACS kodera, označavanjem jednog okvira na 200 ms korištenjem Solomon Coder-a (verzija 15.03.15, Andràs Péter). Od ovih 39 varijabli, jedanaest varijabli predstavljenih u Tabeli 1 korišćeno je u studiji Bremhorsta22, na osnovu prevalencije od najmanje 10% u svim uzorcima bilo pozitivnog ili negativnog stanja i najmanje značajne snage slaganja međukodera (vidi 22 za više detalja).

10 ways to improve memory

Pregled dva pristupa.

Ovdje predstavljamo poređenje dva različita pristupa za automatsku klasifikaciju pozitivnih i negativnih stanja: DogFACS-based vs. Pure (DogFACS pristup također ima modul dubokog učenja za otkrivanje DogFACS varijabli) pristup dubokom učenju. Slika 3 predstavlja pregled na visokom nivou dva pristupa.

Dostupnost video podataka nam omogućava rad sa dva tipa ulaza: pojedinačnim kadrovima ili sekvencama kadrova. Prvi podrazumijeva veći gubitak informacija, ali je jednostavniji i podložniji kontroli; dok ovo drugo uključuje vremensku dimenziju, za koju se pokazalo da ima značaj za takve zadatke, npr. u kontekstu detekcije bola kod konja42,54. Preovlađujući pristup u kontekstu automatskog prepoznavanja afektivnih stanja i bola kod životinja, je, međutim, osnova jednog okvira (npr. 33,39,41,55). Zbog istraživačke prirode ove studije, odlučili smo se za ovu opciju.

Oba pristupa rade na bazi jednog kadra, tj. klasifikacija se vrši na pojedinačnim kadrovima ekstrahovanim iz video zapisa. Međutim, agregacija informacija jednog okvira se izvodi drugačije u ova dva slučaja. Nakon koraka prethodne obrade izdvajanja izrezanih lica pasa iz okvira (vidi sliku 2 za primjere), u dubokom pristupu neobrađena izrezana lica uzimaju se kao ulaz od strane neuronske mreže. Ovdje eksperimentiramo sa arhitekturom neuronskih mreža dva tipa: konvolucionom neuronskom mrežom (Resnet5056) i nedavno predstavljenom mrežom vision transformer57 (ViT). Odluke odabrane mreže zatim se agregiraju korištenjem većine glasova i donosi se odluka o klasifikaciji po videu.

Pristup zasnovan na DogFACS-u, s druge strane, koristi cevovod sa dva uzastopna koraka. Prvi je automatizovani detektor DogFACS varijabli, koji detektuje skup DogFACS varijabli u svakom okviru. DogFACS varijable se zatim agregiraju za cijeli video. Drugi korak je stablo odlučivanja, čiji je ulaz skup DogFACS varijabli otkrivenih u videu koje se primjenjuju da bi se donijela konačna odluka o klasifikaciji.

Dakle, pristup zasnovan na DogFACS-u donosi odluku o klasifikaciji na osnovu skupa DogFACS varijabli identifikovanih u videu; pristup dubokog učenja, s druge strane, odlučuje o svakom kadru zasebno, izdvajajući naučene karakteristike iz sirovih slika, a zatim agregira odluku za sve okvire za video. Stoga, kada istražujemo objašnjivost ova dva pristupa, u prvom se od nas očekuje da imamo 'objašnjenja' u skladu sa Bremhorstom et al.22 (identifikovanje preovlađujućih varijabli u svakom od uslova ili neke njihove kombinacije). Međutim, očekuje se da će ovaj drugi pristup dati više vizuelnih objašnjenja o tome na koje karakteristike slike se model fokusira, kao što je objašnjeno u nastavku.

Za procjenu performansi naših modela koristili smo standardne metrike tačnosti, preciznosti i prisjećanja, što je standardna metoda u kontekstu mašinskog učenja. Kao metodu validacije, koristili smo unakrsnu validaciju bez jednog subjekta bez preklapanja, što znači korištenje svakog psa kao zasebnog testnog skupa. Ova metoda se preporučuje za skupove podataka u kojima jedna osoba ima više od jednog pridruženog uzorka36. Vidi Broomé et al.36 za diskusiju o važnosti odabira odgovarajuće metode validacije.

short term memory how to improve

Pristup zasnovan na DogFACS-u.

Skupovi DogFACS varijabli. Eksperimentirali smo sa dva različita skupa varijabli DogFACS:

1. Skup od jedanaest varijabli predstavljenih u Tabeli 1 koje su korištene u studiji Bremhorsta et al.22 su najperspektivnije ili potencijalno najvažnije varijable (na osnovu prevalencije od najmanje 10% u svim uzorcima bilo koje druge pozitivno ili negativno stanje) i mogu se pouzdano kodirati (sa barem značajnom snagom međukoderskog sporazuma, vidi 22).

2. Cijeli skup od 39 DogFACS varijabli kodiranih u studiji Bremhorsta et al.22.

Classification results. To explore optimal performance, we used the manual DogFACS annotations from Bremhorst et al.22 to experiment with different machine learning techniques, including Decision Tree, XGBoost, and Random Forest. Table 2 presents a comparison of their performance, with Random Forest performing slightly better for the full set of DogFACS variables (39 variables), reaching accuracy > 71%. In the limited set (11 DogFACS variables), the three models converged to one tree, and thus are presented together, reaching a slightly lower accuracy of > 66%.

Minimiziranje stabla odlučivanja. Zatim smo izvršili sistematsko traženje minimalnog skupa DogFACS varijabli koje bi dale iste performanse klasifikacije prikazane u Tabeli 2. Tabela 3 pokazuje da korištenje samo jedne DogFACS varijable kao karakteristike garantuje slične performanse kao one predstavljene u Tabeli 2. Varijabla 'Ears Flattener' je najvažnija za klasifikaciju korištenjem ograničenog skupa od 11 DogFACS varijabli, čije prisustvo predviđa negativno stanje. Slika 4 prikazuje pojednostavljeno stablo odlučivanja sa samo jednom karakteristikom koja predviđa pozitivno stanje—odsustvo 'Ears Flattener' i negativnim uslovom—njegovo prisustvo (sa tačnošću od > 66%).

Značajno, kada se uzme u obzir svih 39 DogFACS varijabli, 'Eyes Up' je najvažnija varijabla za klasifikaciju koristeći svih 39 varijabli, čije prisustvo predviđa pozitivne uslove sa visokom preciznošću od > 71%.

Automatsko otkrivanje DogFACS varijabli. Na osnovu naših otkrića, obuka detektora za varijable 'Ears Flattener' i 'Eyes Up' DogFACS dovoljna je za potpuno automatizirani cevovod klasifikacije. Također smo istražili otkrivanje drugih varijabli, koristeći unaprijed obučenu konvolucionu neuronsku mrežu ResNet50 na uravnoteženim skupovima podataka (na različitom broju slika zbog varijabilnosti frekvencije varijable DogFACS). Performanse dobijenih detektora prikazane su u tabeli 4.

ways to improve memory

Duboki pristup.

U ovom pristupu koristili smo uobičajenu postavku "transfer učenja", trenirajući linearnu sondu na vrhu fiksne unaprijed obučene kičme koristeći ljudske komentare. Istražujemo prikladnost različitih okosnica za ovaj zadatak ponavljanjem eksperimenta sa četiri unaprijed obučene okosnice: ResNet i ViT obučeni ili na nadgledani način za klasifikaciju slika57 ili na samonadgledani način koristeći DINO58.

Obučili smo četiri različita modela (na cijelom skupu podataka) i testirali njihove performanse koristeći okvire iz istog balansiranog skupa podataka koji je gore opisan (82 videa negativnog stanja, 82 videa pozitivnog stanja od (n = 29) pojedinaca, što ukupno 164 videa).

U tabeli 5 prikazani su rezultati klasifikacije analizirani po video zapisu, odnosno kažemo da je video klasifikovan ispravno ako je većina njegovih kadrova pravilno klasifikovana. Može se vidjeti da model obučen sa DINO-ViT kičmom pokazuje najbolje performanse od preko 89% tačnosti. U tabeli 6 prikazani su rezultati klasifikacije analizirani po okvirima. Kao što se i očekivalo, u ovom slučaju mjere su donekle smanjene u odnosu na analizu rađenu na agregaciji okvira što rezultira preciznošću od 85% za model obučen sa DINO-ViT kičmom.

memory enhancement

Diskusija

The present study is the first to explore automated recognition of canine emotional states focusing on diverse facial expressions, whilst using a carefully designed controlled experimental setup for dataset creation and annotation. We present classifiers of two different types: deep learning-based and DogFACS-based, both having a performance that is comparable to and in some cases outperforms those presented in previous studies addressing recognition of pain or emotional state from facial expressions, including mice38,39 (> 89% and 93% respectively), cats43 (> 72%), horses42,46 (> 75% and 65% respectively) and sheep55 (> 64%).

The DogFACS-based approach described here reached an accuracy of > 71% using the full set (n =  39) of DogFACS variables, but a lower accuracy of > 66% when using only the eleven DogFACS variables which were utilized in the study of Bremhorst et al.22 ( this accuracy was achieved based on manual DogFACS annotations and is expected to drop even lower in an end-to-end pipeline). Of the full set of 39 DogFACS variables, 'Eyes Up' were of considerable importance for classification, and including them in the Decision Tree leads to higher accuracy (>71%). Međutim, kada se tumače varijable usmjerenja kao što su pokreti očiju i njihov značaj kao potencijalnih indikatora emocija, uvijek se mora uzeti u obzir eksperimentalna postavka studije u kojoj su podaci prikupljeni. U Bremhorstu et al.22, eksperimentator je isporučio nagradu za hranu pokretom malo iznad olovke za oči pasa. Ovo je možda ohrabrilo pse da gledaju gore (izazivaju varijablu 'Eyes Up') u iščekivanju hrane. Stoga moramo priznati da bi ova DogFACS varijabla mogla biti artefakt eksperimentalne procedure. Prilikom odabira varijabli kao dijela razvoja indikatora emocija, važno je odmjeriti rizik greške tipa I (lažno pozitivna) u odnosu na grešku tipa II (lažno negativna) koja je gotovo neizbježna. U radu sa smanjenim skupom od jedanaest varijabli DogFACS, dali smo prioritet izbjegavanju lažno negativnih u odnosu na lažno pozitivnih kako ne bismo prerano isključili varijablu iz daljeg istraživanja. Možemo očekivati ​​da će pogrešno prihvaćene varijable biti isključene u narednim studijama ako se identifikuje njihov nedostatak prediktivne validnosti (kao što je diskutovano u 19).

As a byproduct of these results, we obtained automated detectors for nine DogFACS variables, of which five performed with an accuracy >70%, što pokazuje izvodljivost preciznog automatskog prepoznavanja DogFACS varijabli. Glavni izazov za obuku detektora za svaku varijablu je dostupnost podataka, tj. niska učestalost pojavljivanja nekih DogFACS varijabli, što zahtijeva fokusirane napore za prikupljanje skupova podataka za određene varijable. Štaviše, neke varijable imaju vremensku dimenziju i ne mogu se obraditi na bazi jednog kadra (npr. treptanje ili dahtanje). Razvoj detektora za njih zahtijeva modele koji također koriste vremensku dinamiku, kao što je pristup Brooméa et al.42.

Nadalje, treba napomenuti da je naš skup podataka ograničen na jednu rasu, neposredna buduća potreba istraživanja je procjena mogućnosti generalizacije modela na druge rase. Ako učinak značajno padne kada se rezultati prenose na druge pasmine, navedeni su alternativni pristupi dubokom pristupu koji se ovdje koristi, npr. u Feighelstein et al.43.

improve your memory

Istraživanje generalizacije modela predstavljenih ovdje je važno ne samo u kontekstu detekcije DogFACS varijabli, već i za klasifikaciju emocija. Skup podataka koji se ovdje koristi kontrolira se ne samo za rasu, već se također snima u strogo kontroliranim uvjetima okoline. Generaliziranje iz kontroliranog okruženja u naturalističko okruženje je notorno težak izazov iu ljudskom afektivnom računarstvu60. Feng et al.61 daju pregled ljudskog domena načina na koji tehnike učenja transfera mogu prevazići izazove vezane za ograničene količine uzoraka podataka, oskudne oznake i varijabilnost u okruženju, promovišući robusne i generalizirane automatizovane sisteme za prepoznavanje emocija. Slični načini se mogu istražiti u psećem afektivnom računarstvu; rezultati koji su ovde predstavljeni daju osnovu za dalje istraživanje ovog pravca.

Pitanja poput 'Mogu li mašine prepoznati emocionalna stanja životinja?' zanimljivi su sami po sebi i imaju dalekosežne praktične primjene za dobrobit životinja. Rezultati našeg istraživanja daju neke indikacije za pozitivan odgovor, barem u slučaju pozitivne frustracije i iščekivanja kod pasa. Međutim, izgradnja AI modela koji prepoznaju pseće emocije ima značajnu dodatnu vrijednost jer nam pomaže razumjeti kako mašine klasificiraju emocije, jesu li osjetljive na nijanse koje nisu vidljive ljudskom stručnjaku i kakve implikacije to ima za naše razumijevanje životinjskih emocija i stalne debate o osećaju životinja. Iz tog razloga, ključno je i obećavajuće istražiti objašnjivost (koji je razlog za odluku mašine?) i interpretabilnost (kako je struktura modela povezana sa donošenjem takve odluke?)62. Ove teme su fundamentalne u AI i obrađene su u velikom broju istraživanja63–65, pri čemu je većina napora usmjerena na pristupe dubokog učenja, čija je interpretabilnost ograničena njihovom složenom strukturom66. Metode objašnjivosti su po svojoj prirodi specifične za domen: pružanje objašnjenja za automatsko prepoznavanje osobina ličnosti na razgovorima za posao se razlikuje, npr., od pružanja kliničkog opravdanja za medicinske odluke62.

increase brain power

Naša studija je prva koja se bavi aspektima objašnjivosti AI modela za prepoznavanje životinjskih emocija. Kako smo upoređivali dva različita pristupa klasifikaciji emocija, postoji dodatna vrijednost od sposobnosti da se porede i razlike u aspektima objašnjivosti kojima se bave. Pristup zasnovan na DogFACS-u vodi do modela u obliku jednostavnih stabala odlučivanja, koji modeliraju ljudsko logičko rasuđivanje u obliku kombinacije Booleovih uslova koji se odnose na prisustvo/odsustvo određenih DogFACS varijabli. Objašnjavajuća priroda stabala odlučivanja posebno se ogleda u njihovoj pojednostavljenoj verziji sa samo jednim čvorom, kao što je ovaj koji se ovdje proučava (sa 'Ears Flattener'). Takva stabla su usko povezana sa konceptima korisnim za stručnjake za ljude, posebno za indikatore emocija koje su proučavali Bremhorst et al.19. Valjani indikatori emocija imaju za cilj da precizno identifikuju specifično emocionalno stanje, prisutni kad god je emocija prisutna, a odsutni inače.

Ove karakteristike su opisane osjetljivošću i specifičnošću, metrikom koja se obično koristi za procjenu tačnosti dijagnostičkih testova. Bremhorst et al.19 otkrili su da se nijedna od DogFACS varijabli razmatranih u studiji ne može smatrati specifičnim individualnim indikatorom za pozitivno očekivanje ili frustraciju kod pasa. Konkretno, pokazalo se da 'Ears Flattener' ima relativno visoku osjetljivost, ali nisku specifičnost. Stoga nije iznenađujuće da model opisan u našoj studiji, a to je stablo odlučivanja sa 'Ears Flattener' kao jednom karakteristikom, nije postigao visoke performanse. Međutim, odnos između metrike indikatora emocija koju koriste Bremhorst et al.19 i metrike korištene ovdje za procjenu performansi našeg modela nije jasan. Dok prvi izračunava osjetljivost, specifičnost i pozitivnu i negativnu prediktivnu vrijednost za čitave, neuravnotežene podatke, drugi procjenjuje učinak u zadatku predviđanja. To znači da su podaci podijeljeni na dva dijela: trening, koji se koristi za obuku modela, i testiranje za evaluaciju njegove performanse. Za razliku od Bremhorsta et al.19, mi smo također izbalansirali podatke koristeći poduzorkovanje. Međutim, intuitivna veza između njih je da ako se pronađe odličan indikator emocija koristeći prethodni pristup, možemo očekivati ​​da će stablo odlučivanja koje ga koristi kao karakteristiku također postići odlične performanse.

Pored objašnjivosti, ovdje predstavljen pristup strojnog učenja za traženje optimalnih modela stabla odluka za predviđanje emocija psa ima potencijal da dovede do novih uvida u indikatore emocija. Kao što je gore diskutovano, otkriće tačnih indikatora emocija u smislu Bremhorsta et al.19 usko je povezano sa problemom pronalaženja klasifikatora stabla odluka sa jednom promenljivom DogFACS za predviđanje emocija. Iako se u našoj studiji nije pokazalo da takvi klasifikatori imaju visoku tačnost (i zaista, u19 nisu otkriveni tačni indikatori emocija), performanse klasifikacije mogu se poboljšati razmatranjem sofisticiranijih oblika stabala odlučivanja, na primjer grupiranjem DogFACS varijabli u parove. , trojke, itd. Naši preliminarni eksperimenti koristeći parove DogFACS varijabli kao čvorove, prikazani na slici 5, pokazuju da je to poboljšalo performanse modela u smislu prisjećanja. Važno je da se istraživanje o tome koje kombinacije DogFACS varijabli mogu poboljšati klasifikaciju može obaviti na automatiziran, iscrpan i sistematičan način, što potencijalno dovodi do detaljnijih predstava o indikatorima emocija. Ovo pruža obećavajući put za buduća istraživanja.

Pristup dubokog učenja, s druge strane, postigao je značajno veći učinak od preko 89%, što pokazuje potencijal takvih pristupa za klasifikaciju emocija. Štaviše, čini se da je okosnica DINO-ViT najpogodnija za zadatak klasifikacije emocija od sve četiri istražene opcije. Pretpostavljamo da je to zbog toga što su DINO-ViT karakteristike osjetljive na dijelove objekta, kao što je prikazano u67; i zbog prirode zadatka klasifikacije emocija, koji zahtijeva razumijevanje na nivou objekta-dijela (dijelovi lica kao što su oči, uši, itd.). Intrigantno je da kičme koje su prethodno obučene sa DINO-om daju bolje rezultate od nadziranih okosnica.

Treba napomenuti da je klasifikator dubokog učenja radio na osnovu slika, a zatim agregirao rezultate po videu. Ovo implicira da iako mnogi okviri ne pokazuju prisustvo DogFACS varijabli, model je i dalje uspješan u njihovoj ispravnoj klasifikaciji. Ovo može ukazivati ​​na osjetljivost modela na sitnozrnate detalje na nivou piksela koji može nadilaziti sposobnost ljudskog oka. Međutim, to također može biti povezano s potencijalnim zamkama u obliku neke inherentne pristranosti. Takođe, varijabla 'Eyes Up', o kojoj smo gore govorili, možda je bila instrumentalna za mrežu, a njen efekat na donošenje odluka nije lako neutralisan u mreži dubokog učenja. Istraživanje ovih problema zahtijeva dalje prikupljanje podataka u različitim eksperimentalnim i okolišnim uvjetima kako bi se isključile takve zamke.

Objašnjivost pristupa dubokog učenja koji se ovdje razmatra je, s druge strane, potpuno drugačije, više vizualne prirode u odnosu na onu zasnovanu na DogFACS-u. Za razliku od modela Decision Tree, izuzetno je izazovno objasniti donošenje odluka u neuronskim mrežama ljudskim razumljivim terminima, zbog njihove vrlo složene prirode 'crne kutije'68. Korištenje EigenCAM59 metode naglašava razlike između različitih modela s kojima smo eksperimentirali (ResNet/ViT, nadzirani/DINO). Kao što je prikazano na slici 6, postoje neke razlike između modela. Čini se da Te ViT modeli pokazuju bolju lokalizaciju od ResNet modela, jer su visoko aktivirane regije (označene crvenom bojom) manje i leže na istaknutijim regijama (npr. oči, uši, nos, a ne koža). Štaviše, čini se da se DINO-ViT model aktivira na više istaknutih regija, a ne na jednoj (npr. aktiviranje na ušima, očima i nosu, a ne samo na ušima u gornjem desnom primjeru). Uspjeh modela zasnovanih na ViT-u ​​pripisujemo sposobnosti ViT-ova da pruže lokaliziraniji signal od ResNet modela. Ovo proizilazi iz njihove arhitekture – rezolucija ViT karakteristika ostaje konstantna u svim slojevima, dok se rezolucija CNN karakteristika smanjuje kako slojevi postaju sve dublji.

Iako je za postizanje konačnih zaključaka potrebna daljnja istraživanja, eksperimentirali smo s EigenCAM metodom fokusirajući našu pažnju na okvire koji zadovoljavaju sljedeće uslove: (i) ručno kodirani varijablom 'Ears Flattener' i (ii) koji pripadaju klasi video uzoraka negativno stanje, i (iii) ispravno klasifikovano od strane DINO-ViT mreže kao negativno stanje. U našoj analizi, podelili smo primere u tri kategorije, kao što je prikazano na slici 7. Primeri kategorije A su toplotne karte sa jasnim fokusom samo na ušima. Ovo se može smatrati u skladu sa objašnjenjem 'Ears Flattener' vezanim za DogFACS, tj. može biti slučaj da je model naučio obrasce koji se odnose na kretanje uha. Kategorija B je također u skladu s tim, prikazujući toplotne karte fokusirane na oba ušiju i druga područja, kao što su oči, čelo, nos i usta. Ovo posljednje također može biti indirektno povezano sa pokretom 'Ears Flattener', kao i sa drugim DogFACS varijablama ili nekim drugim posturalnim karakteristikama koje mogu biti prisutne u kadru. Najintrigantnija kategorija je, međutim, kategorija C: ovdje model hvata signale sa drugih dijelova lica osim ušiju, i dalje praveći ispravne klasifikacije. Ovi slučajevi mogu sadržavati ključ za razumijevanje osjetljivosti mreže na nijanse koje nisu vidljive ljudskom oku. U svakom slučaju, treba napomenuti da DogFACS napomene ne mogu iscrpno pokriti sve moguće promjene u ponašanju lica, što se može odraziti na obrasce piksela na koje je mreža osjetljiva. Zatim smo takođe izdvojili toplotne mape iz video zapisa koji nisu imali obeležene DogFACS varijable. Bilo je devet videa bez varijabli, osam od njih 'pozitivnih' i jedan - 'negativnih'. Zapanjujuće je da je većina ovih videa (77%) ipak bila ispravno klasifikovana od strane modela. Ovo može biti još jedan pokazatelj da model hvata suptilno ponašanje lica koje nije zabilježeno DogFACS-om. Prilikom ispitivanja toplotnih mapa napravljenih za okvire ovih video zapisa, primijetili smo da je područje nosa i usta glavni fokus za model. Neki drugi okviri pokazuju fokus na drugim dijelovima lica, dok postoje slučajevi ispravno klasificiranih okvira, ali mutne i nejasne toplotne karte. Primeri iz ove tri kategorije prikazani su na slici 8. Zanimljivo je da ovim toplotnim kartama nedostaje fokus na određene delove lica, što sugeriše da su zaista u ovim slučajevima vizuelni znakovi bili manje očigledni za model.

increase memory power

improve short term memory

Još jedno značajno pitanje vezano za oba pristupa u pogledu performansi je kratka dužina video zapisa (3 s) u trenutnom skupu podataka. Upotreba dužih video zapisa dovodi do izazova identificiranja optimalnog vremenskog okvira tokom kojeg se unutrašnje stanje može smatrati konstantnim. Ovaj problem je razmatran u69 u kontekstu ortopedske boli niskog stepena kod konja i važan je smjer za buduća istraživanja i za pseća emocionalna stanja.

Ukratko, ova studija je pokazala vrijednost dva različita automatizirana klasifikacijska pristupa za dva emocionalna stanja kod pasa na osnovu njihovih izraza lica: pozitivno naspram negativnog stanja. Oba su postigla dobru preciznost uporedivu sa drugim najsavremenijim metodama u automatskom prepoznavanju efekata životinja. Ovi rezultati ne samo da daju po prvi put afirmativan odgovor na pitanje 'Mogu li mašine prepoznati pozitivne/negativne emocije psa?', već i otvaraju nove istraživačke puteve istraživanja kako ih mašine prepoznaju i kako to prepoznavanje učiniti razumljivim ljudima . Dalje eksperimentiranje s većim skupovima podataka sa širim karakteristikama sudionika također će promovirati naše razumijevanje kako razviti dobre indikatore emocija kod životinja. Jedan specifičan pravac koji se čini posebno obećavajućim je istraživanje potencijala pristupa koji se odnose na detekciju orijentira na licu, kao što su OpenFace70 i Google MediaPipe71. Slični pristupi tek počinju da se istražuju za životinje koje nisu ljudi, vidi npr. studiju Feighelsteina et al.43 o licima mačaka. Kao iu ljudskom domenu, njihov razvoj će zahtijevati opsežne multidisciplinarne napore za prikupljanje velikog skupa podataka za različite vrste.

Metode

Skup podataka.

Skup podataka koji se odnosi na pse korištene za ovu studiju prethodno je prikupljen u skladu sa sljedećim etičkim odobrenjima Univerziteta Linkoln, (UID: CoSREC252) prema Bremhorstu et al.22 sa amandmanom na ovo istraživanje dobijen je od Univerziteta Linkoln za koristeći originalni skup podataka u ovoj studiji. Trenutni protokol koji koristi ove podatke pregledao je Etički komitet Univerziteta u Haifi i nije bilo potrebno dalje odobrenje.

Obrezivanje i prethodna obrada.

Ovaj korak je relevantan i za DogFACS i za duboke pristupe. Originalni video okviri sadrže nered u pozadini, uključujući okolnu sobu, ljude, tijela pasa, itd. Cilj nam je da se fokusiramo na izraze lica pasa i izbjegavamo učenje drugih prediktora emocionalnog stanja (npr. položaja tijela psa). Stoga smo obučili Mask-RCNN72 da identifikuje pseća lica i koristili ga za izrezivanje graničnog okvira lica sa svake slike. Obučili smo Mask-RCNN na otprilike 200 označenih slika iz ovog skupa podataka, što ga čini najprikladnijim za ovu specifičnu eksperimentalnu postavku. Primeri useva lica dobijenih u fazi prethodne obrade mogu se videti na slici 2.

Pristup zasnovan na DogFacsu.

Od video zapisa do DogFACS varijabli. Kompletan cevovod je opisan na sledećem dijagramu, vidi sliku 9. Sadrži sledeće korake:

• Izrezivanje lica pasa iz okvira na gore opisani način.

• Izgradnja skupova podataka DogFACS varijabli Koristeći ručno DogFACS kodiranje Bremhorsta et al.22, za svaku DogFACS varijablu, kreirali smo dva foldera sa pozitivnim i negativnim primjerima (pseće lice izražava ili ne izražava ovu DogFACS varijablu). Za pozitivne uzorke (prisutna varijabla) odabrali smo slike svih okvira ručno kodiranih ovom varijablom. Za negativne uzorke odabrali smo kadrove u video zapisima koji nemaju označenu varijablu na njihovom kodiranju do prvog pojavljivanja te varijable (ili do kraja videa ako nije prisutna). Skupovi podataka su zatim izbalansirani, ostavljajući jednak broj slika za pozitivne i negativne primjere za svaku varijablu. Tabela 4 pokazuje veličinu skupova podataka za sve varijable DogFACS za koje su detektori dobijeni.

Od DogFACS varijabli do klasifikacije emocionalnih stanja. Koristili smo transferno učenje bazirano na unaprijed obučenoj ResNet50 mrežnoj arhitekturi inicijaliziranoj sa Imagenet težinama. Zamijenili smo njegov gornji sloj sa prosječnim slojem bazena, slojem od 20 posto napuštanja i slojem klasifikatora dvije klase. Model je treniran tokom 20 epohe koristeći Adam optimizator sa stopom učenja od 0,0001. Kao najbolji model izabran je model koji postiže maksimalnu tačnost na skupu podataka za validaciju. Tokom prvih 10 epoha, težine svih slojeva su bile fino podešene. Tokom prvih 10 epoha, težina svih slojeva je bila fino podešena. Tokom preostalih epoha, ResNet50 težine su zamrznute i ažurirane su samo težine novih gornjih slojeva. Za varijable koje se ne odnose na orijentaciju ('Ears Flattener', 'Lips Part', 'Ears Adductor', 'Ears Forward' i 'Nose Lick') primijenili smo tehniku ​​povećanja zasnovanu na nasumičnom horizontalnom fip-u i rotaciji do 20 stepeni. Kao ulaz za koder, koristili smo ulaznu tabelu, gde svaki red predstavlja prisustvo (1)/odsustvo (0) svake od 11 DogFACS varijabli na svakom videu. Cilj kodera je tabela koja sadrži uslov (negativ(0)/pozitiv(1)) svakog video zapisa.

supplements to boost memory

Duboki pristup.

Do nedavno su se konvolucione neuronske mreže (CNN) smatrale najsavremenijim u zadacima kompjuterskog vida. Nedavno se kao alternativa pojavila arhitektura Vision Transformer (ViT)5773. DINO metoda za obuku uvedena je tek 2021. godine kao okvir za učenje samodestilacije. Obučavanje nekoliko DNN okosnica (ResNet50, visit-small, vit-base, itd.) u ovoj konfiguraciji pokazalo je da ViT okosnica obučena DINO pristupom nadmašuje prethodne rezultate klasifikacije na ImageNet standardnom skupu podataka74.

Koristili smo ResNet5{11}} arhitekturu za nadzirane i DINO obučene okosnice; ViT-S/16 obučen pod nadzorom, a ViT-S/8 obučen sa DINO-om. Koristimo unaprijed obučene ViT tegove iz Timm biblioteke75. Obučavamo sva četiri modela za 30 epohe koristeći Adam optimizer76 sa beta=(0, 0.999) i stopama učenja: 10−4 za ResNet okosnice i 5 · 10−6 za ViT okosnicu. Krive gubitaka obučenih modela prikazane su na slici 10.

Vizualizacija karte.

Odlučujemo se za Eigen-CAM metod59 kako bismo vizualizirali glavne komponente konačnih aktivacija za svaki model. Pokazalo se da Eigen-CAM daje rezultate koje je lakše interpretirati uz manje izračunavanja u poređenju sa drugim CAM metodama kao što je popularni Grad-CAM77. Štaviše, za razliku od drugih metoda vizualizacije kao što su Grad-CAM59 i Grad-CAM++78, Eigen-CAM je alat koji ne zavisi od klase. Ovo svojstvo omogućava Eigen-CAM-u da vizualizira naučene obrasce čak i kada je predviđanje modela pogrešno, za razliku od starijih CAM metoda koje proizvode irelevantne mape kada je njihovo predviđanje netačno. Ovo svojstvo EigenCAM-a omogućava tumačenje razloga za neuspjeh predviđanja. Konzistentniji je i diskriminatorniji po klasi u odnosu na druge najsavremenije metode vizualizacije. Osim toga, EigenCAM nije specifičan za model – može se koristiti i za ViT i za CNN bez mijenjanja slojeva.

Dostupnost podataka

Skup podataka koji se koristi u ovom radu dostupan je na zahtjev odgovarajućeg autora.


Reference

Darwin, C. Te Expression of Emotions in Animals and Man Vol. 11, 1872 (Murray, 1872).

2. Ekman, P. & Friesen, WV Mjerenje pokreta lica. Environ. Psihol. Neverbalno ponašanje. 1, 56–75 (1976).

3. Ekman, P. & Keltner, D. Univerzalni izrazi emocija na licu. U neverbalnoj komunikaciji: Gdje priroda susreće kulturu (ur. Segerstrale UP & Molnar, P.) vol. 27, 46 (1997).

4. Russell, JA, Bachorowski, J.-A. & Fernández-Dols, J.-M. Facijalni i vokalni izrazi emocija. Ann. Rev. Psychol. 54, 329–349 (2003).

5. Diogo, R., Abdala, V., Lonergan, N. & Wood, B. Od ribe do modernog čovjeka – komparativna anatomija, homologije i evolucija muskulature glave i vrata. J. Anat. 213, 391–424 (2008).

6. Descovič, KA i dr. Izraz lica: nedovoljno korišten alat za procjenu dobrobiti kod sisara (Altex, 2017).

7. Mota-Rojas, D. et al. Trenutni napredak u procjeni emocija pasa, izraza lica i njihovoj upotrebi za kliničko prepoznavanje boli. Životinje 11, 3334 (2021).

8. Ekman, P. & Friesen, WV Facial Action Coding System: priručnik (Consulting Psychologists Press, 1978).

9. Ekman, P. & Friesen, W. Sistem kodiranja facijalne akcije: tehnika za mjerenje pokreta lica (1978).


For more information:1950477648nn@gmail.com




Moglo bi vam se i svidjeti