Norsk tekst-til-tale med Tacotron 2 og WaveGlow

Denne oppgaven omhandler utviklingen av en norsk Tekst-til-tale (TTS)-modell ved hjelp av maskinlæringsmodellene Tacotron 2 og WaveGlow. Disse modellene er designet for å generere TTS-modeller, men det finnes begrenset dokumentasjon om deres anvendelse på andre språk. Oppgaven vil demonstrere hvorda...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: Ruud, Fredrik Bache, Almenningen, Martin Nordli
Format: Dissertation
Sprache:nor
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Denne oppgaven omhandler utviklingen av en norsk Tekst-til-tale (TTS)-modell ved hjelp av maskinlæringsmodellene Tacotron 2 og WaveGlow. Disse modellene er designet for å generere TTS-modeller, men det finnes begrenset dokumentasjon om deres anvendelse på andre språk. Oppgaven vil demonstrere hvordan det er mulig å gjennomføre dette for mindre språk som norsk, som også inkluderer unike bokstaver. Bruken av Tacotron 2 og WaveGlow for å utvikle TTS-modeller på den måten som beskrevet i denne oppgaven, vil teoretisk sett ikke begrense hvilke språk som kan anvendes. Det eneste kravet er et tilstrekkelig stort datasett for trening, og eventuelt en oppdatering av alfabetet for å inkludere nye bokstaver. Tidligere studier har demonstrert utviklingen av modeller for blant annet sanskrit, men også for andre språk. Utover WaveGlow kan man også se på eksempler som Googles WaveNet-modell, som har blitt brukt til å utvikle TTS-modeller på flere titalls forskjellige språk, basert på de samme prinsippene. Oppgaven ble valgt på grunn av TTS-teknologiens økende betydning i hverdagen. Muligheten til å få tekst opplest av en digital enhet gir utallige muligheter for økt tilgjengelighet av data og nye anvendelser av digitale medier. Oppdragsgiveren, Pexip, har som mål å integrere denne teknologien i sin programvare for å hjelpe brukere med å høre blant annet oppsummeringer av møtetranskripter eller mottatte meldinger. Arbeidet som er utført demonstrerer at det er mulig å utvikle en god TTS-modell med Tacotron 2 og WaveGlow på mindre språk, som norsk. Ved å fremheve muligheten for å lage effektive TTS-modeller med relativt begrensede datasett for mindre språk, kan man bidra til å forbedre digitale verktøy ytterligere. Selv om modellen ikke er perfekt, representerer den et skritt nærmere maskiner som kan snakke like flytende som mennesker.