Novo prostorno-vremensko kontinuirano prepoznavanje znakovnog jezika korištenjem pažljive mreže s više funkcija(1)

Jun 01, 2023

Abstract: S obzirom na video streamove, cilj nam je da ispravno otkrijemo nesegmentirane znakove koji se odnose na kontinuirano prepoznavanje znakovnog jezika (CSLR). Unatoč povećanju predloženih metoda dubokog učenja u ovoj oblasti, većina njih se uglavnom fokusira na korištenje samo RGB značajke, bilo slike punog kadra ili detalja ruku i lica. Nedostatak informacija za CSLR proces treninga uvelike ograničava sposobnost učenja više funkcija koristeći video ulazne okvire. Štaviše, iskorištavanje svih okvira u videu za CSLR zadatak može dovesti do neoptimalnih performansi jer svaki kadar sadrži različit nivo informacija, uključujući glavne karakteristike u zaključivanju šuma. Stoga predlažemo novo prostorno-vremensko kontinuirano prepoznavanje znakovnog jezika koristeći pažljivu mrežu sa više funkcija za poboljšanje CSLR-a pružanjem dodatnih karakteristika ključnih tačaka. Osim toga, koristimo sloj pažnje u prostornim i vremenskim modulima kako bismo istovremeno naglasili više važnih karakteristika. Eksperimentalni rezultati iz oba CSLR skupa podataka pokazuju da predložena metoda postiže superiorne performanse u poređenju sa trenutnim najsavremenijim metodama za 0.76 i 20.56 za WER rezultat na CSL i PHOENIX skupovima podataka, respektivno.

Desert living cistanche

Superman herbs cistanche

Ključne riječi: kontinuirani znakovni jezik; prostorni; temporalni; multi-feature; ključne točke; samopažnja

1. Uvod

Znakovni jezik daje prednost ručnoj komunikaciji koristeći pokrete ruku, govor tijela i pokrete usana umjesto zvuka za komunikaciju [1,2]. Obično znakovni jezik koriste gluvi ili nagluvi, ali se može koristiti i u situacijama kada je nemoguće ili teško čuti zvukove. Stoga je neophodan sistem za prepoznavanje znakovnog jezika (SLR) jer pomaže u povezivanju ljudi koji nagluve i onih koji nisu.

Posljednjih godina istraživači su usmjerili veliku pažnju na SLR zbog bogatih vizuelnih informacija koje pruža. Nedavne SLR studije se obično grupišu u izolovano prepoznavanje znakovnog jezika (ISLR) ili kontinuirano prepoznavanje znakovnog jezika (CSLR). Nekoliko radova se bavi samo ISLR-om [3,4], dok drugi analiziraju samo lakše zadatke, kao što su statički pokreti za prepoznavanje abecede [5]. U međuvremenu, najnovije metode su obično složenije jer rješavaju CSLR zadatke [6–8]. U poređenju sa ISLR-om, CSLR je izazovniji problem jer uključuje rekonstrukciju rečenica.

Cistanche tea2

Cistanche čaj

Kliknite ovdje da vidite proizvode čaja Cistanche deserticola

【Zatražite više】 Email:cindy.xue@wecistanche.com / Whats App: 0086 18599088692 / Wechat: 18599088692

CSLR istraživanja su još uvijek u velikoj potražnji jer je njihova implementacija usko povezana sa svakodnevnim uvjetima u stvarnom svijetu. Ovaj pristup ima za cilj da prepozna niz sjajeva koji se javljaju u video seriji bez jasne segmentacije ili čak bez ikakvih. Nadalje, uključuje mnogo istraživanja mašinskog učenja i temeljno razumijevanje ljudskog ponašanja. Na primjer, uključuje praćenje ljudskih pokreta [9], prepoznavanje gesta [10] i prepoznavanje lica [11]. Ipak, postoji nekoliko izazova za obavljanje CSLR zadataka.

Prvo, prikupljanje podataka i označavanje su skupi za CSLR [12]. Ovo je možda jedan od izazova s ​​kojima se suočava u njegovom razvoju budući da je CSLR uključen u veliku mrežu i količina podataka snažno utječe na performanse [13]. Štaviše, nekoliko dostupnih skupova podataka za znakovni jezik je slabo označeno [12,14,15]. Da bi se riješio ovaj problem, brojne studije su koristile slabo nadgledani pristup, uz primjenu modula poravnanja i izdvajanja karakteristika na mrežnu arhitekturu [12].

Drugo, u poređenju sa ISLR-om, CSLR je komplikovaniji. Dovoljno informacija se dobija korišćenjem nekoliko karakteristika; dokazano je da se time postižu bolje performanse od korištenja jedne karakteristike kao što je navedeno u prethodnim radovima [16–18]. Ove višestruke karakteristike sastoje se od glavne karakteristike koja je slika tijela koja postiže najveću preciznost i dodatnih karakteristika, kao što su poza, glava, lijeva ruka i desna ruka, koja ima manju preciznost za individualnu izvedbu [17,18]. Obuka velike mreže sa velikom količinom podataka oduzima mnogo vremena [13]. Dodavanje ulaznog toka također povećava vrijeme obuke, dok korištenje dodatnih funkcija zasnovanih na slikama povećava troškove [19]. Stoga moramo odabrati važne karakteristike kako bismo mogli efikasno trenirati.

Cistanche deserticola slice (1)

Kineska trava cistanche

Treće, video ulaz ima veliki broj slika u nizu. Neke slike imaju nejasan oblik ruke zbog brzog kretanja, što može dovesti do netačnih informacija. Stoga, naš predloženi model koristi samopažnju na osnovu [20] kako bi pomogao u odabiru važnih informacija. Štaviše, samopažnja koju su dokazali [21,22] ima uticaj na poboljšanje performansi.

Stoga predlažemo novi model koji se zove nova prostorno-temporalna pažljiva multi-funkcija (STAMF) za rješavanje svih problema. Pratili smo prethodne radove [17,23], za koje je dokazano da rade za CSLR sa slabim problemima s anotacijama. Oni konstruišu model koristeći tri glavne komponente: prva je prostorni modul, druga je temporalni modul, a treća je modul učenja sekvence. Predlažemo efikasan i efektivan multi-funkcijski unos koristeći funkciju punog kadra zajedno sa karakteristikama ključnih tačaka za obavljanje CSLR zadataka. Funkcija punog kadra predstavlja sliku tijela kao glavnu karakteristiku, a karakteristike ključne tačke kao dodatnu karakteristiku. Ključna karakteristika je poza tijela, uključujući detalje poze ruke. Ova poza tijela je najefikasnija dodatna karakteristika jer je u nekim radovima dokazano da postiže najveću preciznost nakon funkcije punog kadra [17,18]. Takođe koristimo modul pažnje koji koristi samopažnju zasnovanu na [20] da uhvati važnu karakteristiku i da pomogne učenju sekvence da poboljša performanse.

Doprinos ovog rukopisa je sažet na sljedeći način: • Uvodimo novu vremensku pažnju u modul sekvence kako bismo uhvatili važne vremenske tačke koje doprinose konačnom rezultatu; • Uvodimo višestruku funkciju koja se sastoji od funkcije punog kadra od RGB vrijednosti okvira kao glavne karakteristike i ključnih tačaka koje uključuju pozu tijela s detaljima oblika ruke kao dodatnu funkciju za poboljšanje performansi prepoznavanja modela; • Koristimo WER metriku da pokažemo da naš predloženi STAMF model nadmašuje najsavremenije modele na oba skupa podataka CSLR referentnih vrijednosti kroz eksperimente.

cistanche—Improve memory4

Cistanche dodatak blizu mene - Poboljšajte pamćenje

2. Povezani radovi

Bilo je nekoliko napretka u tehnologiji i mnoga istraživanja su obavljena o SLR-u. Prethodne studije [24–27] istraživale su mogućnost korištenja ISLR-a koji ima segmentaciju za svaku riječ. Poslednjih godina, metode zasnovane na dubokom učenju korišćene su za izdvajanje karakteristika korišćenjem konvolucionih mreža, bilo 2D [28,29] ili 3D [30,31], za njihovo snažno vizuelno predstavljanje. Većina ranih istraživanja o prepoznavanju znakovnog jezika bila je usmjerena na ISLR s multimodalnim karakteristikama [30–32], kao što su RGB, mape dubine i skeleti, koji daju bolje performanse.

Danas je CSLR postao popularniji, iako nije jasno segmentiran između svake riječi. Rani radovi koriste ekstraktor CNN karakteristika [6,33] i HMM [34] za izgradnju cilja sekvence. Neka nedavna istraživanja za CSLR sisteme [17,23] uključila su tri glavna koraka u obavljanju zadatka prepoznavanja problema. Prvo su izvršili ekstrakciju prostornih karakteristika, zatim vremensku segmentaciju i na kraju sintezu rečenica sa jezičkim modelom [35], ili su koristili učenje sekvenci [17,23]. Ovo učenje sekvence koristilo je Bi-LSTM i CTC za istraživanje odnosa između sjaja znakova u video sekvencama. Iako koristi slabu napomenu koja ima nesegmentirane video sekvence za definiranje sjaja znakova, ovi pristupi su pokazali obećavajuće rezultate.

Međutim, najnovija povezana CLSR studija koja je implementirala pristup sa više funkcija [17] koristila je pet karakteristika istovremeno. Pristup sa više funkcija je teži u usporedbi s korištenjem manjeg broja značajki [19]. Ovaj pristup također ne može podnijeti bučne kadrove iz video sekvence koji imaju nejasne informacije, kao što je zamagljen oblik ruke zbog brzog kretanja. Štaviše, oslanjanje na učenje sekvenci zasnovano na RNN-u može naići na probleme sa dugim sekvencama i može izgubiti globalni kontekst [20].

cistanche—Improve memory3

Cistanche dodatak blizu mene - Poboljšajte pamćenje

Trenutno istraživanje ima za cilj poboljšanje performansi dodavanjem mehanizma samopažnje [21,22] koji može upravljati dužim sekvencama kako bi naučio globalni kontekst. Samopažnja se temelji na ranim istraživanjima [20] koja su pokazala da samopažnja ima prednost u tome što se može nositi s dugim ovisnostima. Međutim, ovu samopažnju je lakše naučiti kraći put u odnosu na duži put s dugim ovisnostima. U prethodnim CLSR radovima [21,22] samopažnja je mogla pomoći mreži da efikasnije nauči ovu funkciju.

Stoga u ovom radu predstavljamo novi prostorno-vremenski atentivni model sa više značajki. Ovaj predloženi model efikasno izdvaja važne karakteristike i bolje uči sekvencu dajući važne informacije koristeći mehanizam samopažnje iz više funkcija. Svi procesi se izvode u pristupu od kraja do kraja.

3. Predložena metoda

Ovaj odjeljak opisuje osnovne tehnike našeg predloženog modela za CSLR. Stoga počinjemo ovaj odjeljak objašnjavajući pregled našeg predloženog modela. Osim toga, pružamo više detalja o svakoj ključnoj komponenti, uključujući prostorni modul, vremenski modul i modul učenja sekvence. Osim toga, objašnjavamo i naš predloženi modul pažnje kako bismo pomogli modelu da bolje uči. Konačno, možemo integrirati okvir za obuku i zaključivanje u naš predloženi model.

3.1. Pregled okvira

S obzirom na video ulaz, naš predloženi model ima za cilj da predvidi odgovarajući znak u ispravnu gloss rečenicu. Prvi modul generiše višestruke prostorne karakteristike, kao što su funkcije punog kadra i ključne tačke za svaki T okvir videa. Zatim, temporalni modul nam omogućava da izdvojimo vremenske korelacije prostornih karakteristika između okvira za oba toka. Kao posljednji korak, prostorne i vremenske mreže su povezane sa dvosmjernom kratkotrajnom memorijom (Bi-LSTM) i CTC-om za učenje sekvenci i zaključivanje. Zatim ćemo detaljnije i uzastopno objasniti naše glavne komponente. Pregled naše predložene arhitekture prikazan je na slici 1.

Figure 1


Slika 1. Ukupna arhitektura predložene metode sastoji se od tri komponente: prostornog modula, vremenskog modula i modula za učenje sekvence. Prostorni modul prvo uzima sekvencu slike da izdvoji karakteristike okvira, a zatim primjenjuje temporalni modul da izdvoji vremenske karakteristike. Zatim se vremenske karakteristike šalju modulu za učenje sekvence da izvrši predviđanje riječi i konstruira je u rečenicu

3.2. Prostorni modul

Prostorni modul koristi funkciju punog kadra i karakteristike ključne tačke, kao što je prikazano na slici 2. Ovaj modul koristi 2D-CNN mrežnu arhitekturu kao okosnicu, a ResNet50 je odabran da uhvati više funkcija. ResNet50 je efikasniji za upotrebu u poređenju sa nedavnom ResNet arhitekturom u smislu vremena, dok ima uporedivi rezultat [36,37]. RGB direktno koristi ResNet50, dok HRNet [38] ključnu tačku dobija iz video okvira i ekstrahuje pomoću ResNet50 da bi se dobile karakteristike ključne tačke.

Figure 2


Slika 2. Arhitektura prostornog modula koristi višestruki ulaz. RGB stream kao funkcija punog kadra, a ključne tačke stream kao značajka ključne tačke.

3.2.1. Funkcija punog kadra

Primijenili smo naše korake predobrade na RGB podatke, a zatim ubacili naše podatke u model. Zatim ih stavljamo kao ulaz punog formata u našu arhitekturu. Slika 3 prikazuje ilustraciju originalne RGB slike na lijevoj strani i izrezane slike na desnoj strani. Izrezanu sliku model koristi kao unos. Ovo ilustruje korak predobrade koji smanjuje manje važne dijelove slike i stavlja više fokusa na potpisnika. Ovo izrezivanje koristi metod slučajnog izrezivanja od [12] za povećanje skupa podataka. Funkcija punog kadra se izdvaja iz izrezane slike za svaki kadar u nizu pomoću ResNet50.

Figure 3


Slika 3. Funkcija punog kadra koristeći RGB sliku, (lijeva slika) je originalna slika, a (desna slika) je izrezana slika koju treba prilagoditi predloženom modelu

3.2.2. Keypoint Features

Izdvojili smo karakteristike ključne tačke u prostornom modulu iz podataka RGB za svaki okvir u video ulazu. Kvaliteta karakteristika ključnih točaka ima važnu ulogu u našem predloženom modelu, stoga moramo koristiti robustan pristup, kao što je HRNet [38]. Koristili smo unaprijed obučeni HRNet [38] za procjenu svih 133 ključne točke tijela, a koristili smo 27 od 133 ključne točke iz njegovog rezultata. Kao što je prikazano na slici 4, lijeva strana je originalna ključna tačka gornjeg dijela tijela, a desna je odabranih 27 ključnih tačaka gornjeg dijela tijela. Ovih 27 ključnih tačaka uključuju ručne zglobove, laktove, ramena, vrat, šake i prste.

Figure 4


Slika 4. Karakteristike ključnih tačaka skupa podataka PHOENIX-RWTH [33,39], (lijeva slika) ekstrakcija iz RGB slike, a (desna slika) je odabrana ključna tačka koju koristi predloženi model.

3.3. Temporal Module

Temporalni modul ima za cilj da nauči prostorno-vremenske informacije iz prostornog modula. Temporalni moduli su konstruisani naslaganim vremenskim udruživanjem za svaki tok. Kao što je prikazano na slici 5, Temporal pooling modul se sastoji od sloja vremenske konvolucije i sloja za prikupljanje za izdvajanje karakteristika iz sekvencijalnih ulaza.

Figure 5.


Slika 5. Arhitektura temporalnog modula sastoji se od naslaganog 1D-CNN-a i sloja za udruživanje koji je ugrađen sa modulom pažnje. Radite paralelno za oba toka karakteristika spojenih na kraju naslaganih slojeva i proizvedete jednu vremensku karakteristiku sa dužinom sekvence četiri puta manjom.

Ulaz je lista prostornih višestrukih karakteristika iz prethodne faze. Vremenska karakteristika se dobija korišćenjem sloja temporalne konvolucije koji je jedan 1D konvolucioni sloj sa istim ulaznim i izlaznim dužinama, nakon čega sledi jedan sloj objedinjavanja koji smanjuje veličinu na pola. Prema prethodnim radovima [12], najbolja je konfiguracija korištenje ova dva naslagana sloja temporalnog objedinjavanja. Nakon svakog vremenskog udruživanja, ugrađujemo modul pažnje koji će biti detaljno objašnjen u odjeljku 3.4. Na kraju, spajamo izlaz vremenskog udruživanja iz oba toka.

3.4. Modul za pažnju

Video ima više kadrova u kojima su neki dijelovi slike ponekad mutni. RTWH-PHOENIX skup podataka [33,39] ima više defektnih okvira od CSL skupa podataka [8,40,41]. To se događa kada je kretanje prebrzo, stvarajući mutnu sliku i rezultirajući pogrešnom lokacijom ključne točke. Ovaj okvir se smatra neispravnim i potencijalno dovodi do pogrešnog tumačenja i RGB i karakteristika ključne tačke. Slika 6 prikazuje ilustraciju neispravnih okvira u skupu podataka RTWH-PHOENIX [33]. Kako bismo riješili ovaj problem, dodali smo sloj pažnje.

Figure 6


Slika 6. Ilustracija defektnih okvira na RWTH-PHOENIX skupu podataka [33,39]. Neke od ključnih tačaka u području ruku su u pogrešnom položaju zbog mutnih slika.

Koristeći CTC algoritam, poravnavanje putanje zajedno sa njenim označavanjem se izvodi korišćenjem prazne etikete i uklanjanjem oznaka ponavljanja. CTC radije predviđa prazne naljepnice nego granice sjaja kada ne može razlikovati granicu sjaja, ali nijedan od rezultata nije uvjerljiv. Ovo dovodi do toga da mreža koristi CTC za stvaranje skokova u rezultatima prilikom analize, učenja i predviđanja [42,43]. Generalno, gubitak CTC traži ključne kadrove, a posljednji rezultat je predviđanje određenog ključnog kadra za koji postoji velika vjerovatnoća da će biti prazna oznaka ili oznaka koja nije prazna. Ako sjaj predviđa istu etiketu ili praznu etiketu uzastopno, to rezultira istim rezultatom. Međutim, ako postoji oznaka za umetanje između iste oznake, čak i ako postoji samo jedna greška, to rezultira mnogo većim gubitkom. Ovdje dodavanje sloja pažnje pomaže u odabiru važne vremenske sekvence prije nego što se koristi za sekvencijalno učenje.

Modul pažnje koristi mehanizam samopažnje s više glava [20]. Modul sa više glava koristi se za pokretanje nekoliko paralelnih mehanizama pažnje u isto vrijeme. Pažnja više glava se pokreće nezavisno kako bi se fokusirala na kratkoročne zavisnosti ili dugoročne zavisnosti u posebnoj glavi. Svaki izlaz se zatim linearno spaja i pretvara u željeni oblik.

Istovremeno, mehanizam samopažnje sa više glava brine o informacijama iz višestrukih podprostora reprezentacije, u zavisnosti od istorije posmatranja. Radi jednostavnosti, označavamo ulazne sekvence sa X. Matematički, za model pažnje sa jednom glavom, dat je ulaz X t − T plus 1:t=[X t − T plus 1, · · ·, X t ] ∈ RT × N × P, dobijaju se tri podprostora, i to upitni podprostor Q ∈ RN ×dq, podprostor ključa K ∈ RN × dk i podprostor vrijednosti V ∈ RN × dv. Proces učenja latentnog podprostora može se formulirati kao [20]:

Q=XWQ, K=XWK , V=XWV ,

Zatim, skalirana pažnja dot-product se koristi za izračunavanje izlazne pažnje kao [20]:

Pažnja(Q, K, V)=pa f tmaxQKT/ p dkV,

Nadalje, ako imamo više glava koje istovremeno prate višestruke reprezentacije ulaza, možemo dobiti relevantnije rezultate u isto vrijeme. Posljednji korak je spajanje svih glava i njihovo ponovno projektovanje kako bi se izračunao konačni rezultat [20]:

MultiHead(Q,K,V)=Concat(head1,..., heads )WO,

glava=Pažnja (Qi,Ki,Vi),

gdje je Qi=XWQ i , Ki=XWVi , i WO ∈ R hd × dmodel. Konačno, može odabrati važan dio iz niza karakteristika jer nisu sve informacije u nizu važne.

Kao što je prikazano na slici 7, koristimo modul pažnje u nekoliko konfiguracija. Prvi modul pažnje nalazi se na kraju prostornog modula, dok su drugi i treći modul pažnje smješteni u temporalni modul. Drugi modul pažnje koji se naziva rani temporalni modul, postavlja se iza prvog bloka vremenskog skupljanja kao ulaz, dok se treći modul temporalne pažnje, koji se naziva kasni temporalni modul pažnje, postavlja nakon drugog bloka vremenskog prikupljanja.

Figure 7

Slika 7. Moduli pažnje ugrađeni su u prostorne i vremenske module u različitim konfiguracijama.

Moglo bi vam se i svidjeti