Early Soft Biometric Voice Recognition
Voksne som utgir seg for å være barn kan utgjøre en trussel mot barn ved å oppgi feil alder på kommunikasjonsplattformer for å henvende seg til barn på nettet. For dette emnet er det utført studier der man undersøker den menneskelige stemmen angående aldersklassifisering. I denne masteroppgaven ble...
Gespeichert in:
1. Verfasser: | |
---|---|
Format: | Dissertation |
Sprache: | eng |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Voksne som utgir seg for å være barn kan utgjøre en trussel mot barn ved å oppgi feil alder på kommunikasjonsplattformer for å henvende seg til barn på nettet.
For dette emnet er det utført studier der man undersøker den menneskelige stemmen angående aldersklassifisering. I denne masteroppgaven ble en treningsmodellprototype brukt for å klassifisere stemmer i tre grupper: barn, voksen og overgangsalder. Inkluderingen av en overgangsaldersgruppe i klassifiseringen bidrar til å vurdere de ulike stadiene av individuell stemmeutvikling.
Klassifikasjonsmodellprototypen ble trent opp ved hjelp av Samrómur-datasettet. Testingen ble utført ved å bruke et utvalg fra Common Voice-datasettet og datasettet "Children Speech Recording".
Den tilgjengelige informasjonen inkluderte ikke detaljer om skillet mellom deres merkede verifiserte og ikke-verifiserte lydfiler. Derfor ble det laget to versjoner av Samrómur-datasettet for opplæring av modellen: en med kun verifiserte datasett og en annen med hele datasettet. Modellen trent med det verifiserte datasettet oppnådde en nøyaktighet på 95,23%, mens modellen trent med det komplette datasettet oppnådde en nøyaktighet på 90,68%. Begge viste tegn på en overmontert modell enten i tapskurven eller i modelltestingen med de andre datasettene.
Å opprettholde en høy nøyaktighet er avgjørende for praktisk anvendelighet. En beregning viste at klassifisering av tre stykker med tre sekunders lyd, teoretisk sett gir en nøyaktighet på 99%. Derfor, basert på den trente modellen, kan personens stemme klassifiseres så tidlig som i syv sekunder. Denne beregningen tar i betraktning trimmemetoden, der hver påfølgende trim overlapper ett sekund med det forrige stykket. |
---|