Norsk tekst-til-tale med Tacotron 2 og WaveGlow

Denne oppgaven omhandler utviklingen av en norsk Tekst-til-tale (TTS)-modell ved hjelp av maskinlæringsmodellene Tacotron 2 og WaveGlow. Disse modellene er designet for å generere TTS-modeller, men det finnes begrenset dokumentasjon om deres anvendelse på andre språk. Oppgaven vil demonstrere hvorda...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	Ruud, Fredrik Bache, Almenningen, Martin Nordli
Format:	Dissertation
Sprache:	nor
Online-Zugang:	Volltext bestellen
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

container_end_page
container_issue
container_start_page
container_title
container_volume
creator	Ruud, Fredrik Bache Almenningen, Martin Nordli
description	Denne oppgaven omhandler utviklingen av en norsk Tekst-til-tale (TTS)-modell ved hjelp av maskinlæringsmodellene Tacotron 2 og WaveGlow. Disse modellene er designet for å generere TTS-modeller, men det finnes begrenset dokumentasjon om deres anvendelse på andre språk. Oppgaven vil demonstrere hvordan det er mulig å gjennomføre dette for mindre språk som norsk, som også inkluderer unike bokstaver. Bruken av Tacotron 2 og WaveGlow for å utvikle TTS-modeller på den måten som beskrevet i denne oppgaven, vil teoretisk sett ikke begrense hvilke språk som kan anvendes. Det eneste kravet er et tilstrekkelig stort datasett for trening, og eventuelt en oppdatering av alfabetet for å inkludere nye bokstaver. Tidligere studier har demonstrert utviklingen av modeller for blant annet sanskrit, men også for andre språk. Utover WaveGlow kan man også se på eksempler som Googles WaveNet-modell, som har blitt brukt til å utvikle TTS-modeller på flere titalls forskjellige språk, basert på de samme prinsippene. Oppgaven ble valgt på grunn av TTS-teknologiens økende betydning i hverdagen. Muligheten til å få tekst opplest av en digital enhet gir utallige muligheter for økt tilgjengelighet av data og nye anvendelser av digitale medier. Oppdragsgiveren, Pexip, har som mål å integrere denne teknologien i sin programvare for å hjelpe brukere med å høre blant annet oppsummeringer av møtetranskripter eller mottatte meldinger. Arbeidet som er utført demonstrerer at det er mulig å utvikle en god TTS-modell med Tacotron 2 og WaveGlow på mindre språk, som norsk. Ved å fremheve muligheten for å lage effektive TTS-modeller med relativt begrensede datasett for mindre språk, kan man bidra til å forbedre digitale verktøy ytterligere. Selv om modellen ikke er perfekt, representerer den et skritt nærmere maskiner som kan snakke like flytende som mennesker.
format	Dissertation
fullrecord	<record><control><sourceid>cristin_3HK</sourceid><recordid>TN_cdi_cristin_nora_11250_3140423</recordid><sourceformat>XML</sourceformat><sourcesystem>PC</sourcesystem><sourcerecordid>11250_3140423</sourcerecordid><originalsourceid>FETCH-cristin_nora_11250_31404233</originalsourceid><addsrcrecordid>eNrjZND3yy8qzlYoSc0uLtEtyczRLUnMSVXITU1RCElMzi8pys9TMFLIT1cITyxLdc_JL-dhYE1LzClO5YXS3AyKbq4hzh66yUWZxSWZefF5-UWJ8YaGRqYG8caGJgYmRsbGxKgBAMcQKZk</addsrcrecordid><sourcetype>Open Access Repository</sourcetype><iscdi>true</iscdi><recordtype>dissertation</recordtype></control><display><type>dissertation</type><title>Norsk tekst-til-tale med Tacotron 2 og WaveGlow</title><source>NORA - Norwegian Open Research Archives</source><creator>Ruud, Fredrik Bache ; Almenningen, Martin Nordli</creator><creatorcontrib>Ruud, Fredrik Bache ; Almenningen, Martin Nordli ; Holt, Tomas</creatorcontrib><description>Denne oppgaven omhandler utviklingen av en norsk Tekst-til-tale (TTS)-modell ved hjelp av maskinlæringsmodellene Tacotron 2 og WaveGlow. Disse modellene er designet for å generere TTS-modeller, men det finnes begrenset dokumentasjon om deres anvendelse på andre språk. Oppgaven vil demonstrere hvordan det er mulig å gjennomføre dette for mindre språk som norsk, som også inkluderer unike bokstaver. Bruken av Tacotron 2 og WaveGlow for å utvikle TTS-modeller på den måten som beskrevet i denne oppgaven, vil teoretisk sett ikke begrense hvilke språk som kan anvendes. Det eneste kravet er et tilstrekkelig stort datasett for trening, og eventuelt en oppdatering av alfabetet for å inkludere nye bokstaver. Tidligere studier har demonstrert utviklingen av modeller for blant annet sanskrit, men også for andre språk. Utover WaveGlow kan man også se på eksempler som Googles WaveNet-modell, som har blitt brukt til å utvikle TTS-modeller på flere titalls forskjellige språk, basert på de samme prinsippene. Oppgaven ble valgt på grunn av TTS-teknologiens økende betydning i hverdagen. Muligheten til å få tekst opplest av en digital enhet gir utallige muligheter for økt tilgjengelighet av data og nye anvendelser av digitale medier. Oppdragsgiveren, Pexip, har som mål å integrere denne teknologien i sin programvare for å hjelpe brukere med å høre blant annet oppsummeringer av møtetranskripter eller mottatte meldinger. Arbeidet som er utført demonstrerer at det er mulig å utvikle en god TTS-modell med Tacotron 2 og WaveGlow på mindre språk, som norsk. Ved å fremheve muligheten for å lage effektive TTS-modeller med relativt begrensede datasett for mindre språk, kan man bidra til å forbedre digitale verktøy ytterligere. Selv om modellen ikke er perfekt, representerer den et skritt nærmere maskiner som kan snakke like flytende som mennesker.</description><language>nor</language><publisher>NTNU</publisher><creationdate>2024</creationdate><rights>info:eu-repo/semantics/openAccess</rights><oa>free_for_read</oa><woscitedreferencessubscribed>false</woscitedreferencessubscribed></display><links><openurl>$$Topenurl_article</openurl><openurlfulltext>$$Topenurlfull_article</openurlfulltext><thumbnail>$$Tsyndetics_thumb_exl</thumbnail><link.rule.ids>230,311,777,882,4038,26548</link.rule.ids><linktorsrc>$$Uhttp://hdl.handle.net/11250/3140423$$EView_record_in_NORA$$FView_record_in_$$GNORA$$Hfree_for_read</linktorsrc></links><search><creatorcontrib>Ruud, Fredrik Bache</creatorcontrib><creatorcontrib>Almenningen, Martin Nordli</creatorcontrib><title>Norsk tekst-til-tale med Tacotron 2 og WaveGlow</title><description>Denne oppgaven omhandler utviklingen av en norsk Tekst-til-tale (TTS)-modell ved hjelp av maskinlæringsmodellene Tacotron 2 og WaveGlow. Disse modellene er designet for å generere TTS-modeller, men det finnes begrenset dokumentasjon om deres anvendelse på andre språk. Oppgaven vil demonstrere hvordan det er mulig å gjennomføre dette for mindre språk som norsk, som også inkluderer unike bokstaver. Bruken av Tacotron 2 og WaveGlow for å utvikle TTS-modeller på den måten som beskrevet i denne oppgaven, vil teoretisk sett ikke begrense hvilke språk som kan anvendes. Det eneste kravet er et tilstrekkelig stort datasett for trening, og eventuelt en oppdatering av alfabetet for å inkludere nye bokstaver. Tidligere studier har demonstrert utviklingen av modeller for blant annet sanskrit, men også for andre språk. Utover WaveGlow kan man også se på eksempler som Googles WaveNet-modell, som har blitt brukt til å utvikle TTS-modeller på flere titalls forskjellige språk, basert på de samme prinsippene. Oppgaven ble valgt på grunn av TTS-teknologiens økende betydning i hverdagen. Muligheten til å få tekst opplest av en digital enhet gir utallige muligheter for økt tilgjengelighet av data og nye anvendelser av digitale medier. Oppdragsgiveren, Pexip, har som mål å integrere denne teknologien i sin programvare for å hjelpe brukere med å høre blant annet oppsummeringer av møtetranskripter eller mottatte meldinger. Arbeidet som er utført demonstrerer at det er mulig å utvikle en god TTS-modell med Tacotron 2 og WaveGlow på mindre språk, som norsk. Ved å fremheve muligheten for å lage effektive TTS-modeller med relativt begrensede datasett for mindre språk, kan man bidra til å forbedre digitale verktøy ytterligere. Selv om modellen ikke er perfekt, representerer den et skritt nærmere maskiner som kan snakke like flytende som mennesker.</description><fulltext>true</fulltext><rsrctype>dissertation</rsrctype><creationdate>2024</creationdate><recordtype>dissertation</recordtype><sourceid>3HK</sourceid><recordid>eNrjZND3yy8qzlYoSc0uLtEtyczRLUnMSVXITU1RCElMzi8pys9TMFLIT1cITyxLdc_JL-dhYE1LzClO5YXS3AyKbq4hzh66yUWZxSWZefF5-UWJ8YaGRqYG8caGJgYmRsbGxKgBAMcQKZk</recordid><startdate>2024</startdate><enddate>2024</enddate><creator>Ruud, Fredrik Bache</creator><creator>Almenningen, Martin Nordli</creator><general>NTNU</general><scope>3HK</scope></search><sort><creationdate>2024</creationdate><title>Norsk tekst-til-tale med Tacotron 2 og WaveGlow</title><author>Ruud, Fredrik Bache ; Almenningen, Martin Nordli</author></sort><facets><frbrtype>5</frbrtype><frbrgroupid>cdi_FETCH-cristin_nora_11250_31404233</frbrgroupid><rsrctype>dissertations</rsrctype><prefilter>dissertations</prefilter><language>nor</language><creationdate>2024</creationdate><toplevel>online_resources</toplevel><creatorcontrib>Ruud, Fredrik Bache</creatorcontrib><creatorcontrib>Almenningen, Martin Nordli</creatorcontrib><collection>NORA - Norwegian Open Research Archives</collection></facets><delivery><delcategory>Remote Search Resource</delcategory><fulltext>fulltext_linktorsrc</fulltext></delivery><addata><au>Ruud, Fredrik Bache</au><au>Almenningen, Martin Nordli</au><format>dissertation</format><genre>dissertation</genre><ristype>THES</ristype><Advisor>Holt, Tomas</Advisor><btitle>Norsk tekst-til-tale med Tacotron 2 og WaveGlow</btitle><date>2024</date><risdate>2024</risdate><abstract>Denne oppgaven omhandler utviklingen av en norsk Tekst-til-tale (TTS)-modell ved hjelp av maskinlæringsmodellene Tacotron 2 og WaveGlow. Disse modellene er designet for å generere TTS-modeller, men det finnes begrenset dokumentasjon om deres anvendelse på andre språk. Oppgaven vil demonstrere hvordan det er mulig å gjennomføre dette for mindre språk som norsk, som også inkluderer unike bokstaver. Bruken av Tacotron 2 og WaveGlow for å utvikle TTS-modeller på den måten som beskrevet i denne oppgaven, vil teoretisk sett ikke begrense hvilke språk som kan anvendes. Det eneste kravet er et tilstrekkelig stort datasett for trening, og eventuelt en oppdatering av alfabetet for å inkludere nye bokstaver. Tidligere studier har demonstrert utviklingen av modeller for blant annet sanskrit, men også for andre språk. Utover WaveGlow kan man også se på eksempler som Googles WaveNet-modell, som har blitt brukt til å utvikle TTS-modeller på flere titalls forskjellige språk, basert på de samme prinsippene. Oppgaven ble valgt på grunn av TTS-teknologiens økende betydning i hverdagen. Muligheten til å få tekst opplest av en digital enhet gir utallige muligheter for økt tilgjengelighet av data og nye anvendelser av digitale medier. Oppdragsgiveren, Pexip, har som mål å integrere denne teknologien i sin programvare for å hjelpe brukere med å høre blant annet oppsummeringer av møtetranskripter eller mottatte meldinger. Arbeidet som er utført demonstrerer at det er mulig å utvikle en god TTS-modell med Tacotron 2 og WaveGlow på mindre språk, som norsk. Ved å fremheve muligheten for å lage effektive TTS-modeller med relativt begrensede datasett for mindre språk, kan man bidra til å forbedre digitale verktøy ytterligere. Selv om modellen ikke er perfekt, representerer den et skritt nærmere maskiner som kan snakke like flytende som mennesker.</abstract><pub>NTNU</pub><oa>free_for_read</oa></addata></record>
fulltext	fulltext_linktorsrc
identifier
ispartof
issn
language	nor
recordid	cdi_cristin_nora_11250_3140423
source	NORA - Norwegian Open Research Archives
title	Norsk tekst-til-tale med Tacotron 2 og WaveGlow
url	https://sfx.bib-bvb.de/sfx_tum?ctx_ver=Z39.88-2004&ctx_enc=info:ofi/enc:UTF-8&ctx_tim=2025-01-19T20%3A28%3A10IST&url_ver=Z39.88-2004&url_ctx_fmt=infofi/fmt:kev:mtx:ctx&rfr_id=info:sid/primo.exlibrisgroup.com:primo3-Article-cristin_3HK&rft_val_fmt=info:ofi/fmt:kev:mtx:dissertation&rft.genre=dissertation&rft.btitle=Norsk%20tekst-til-tale%20med%20Tacotron%202%20og%20WaveGlow&rft.au=Ruud,%20Fredrik%20Bache&rft.date=2024&rft_id=info:doi/&rft_dat=%3Ccristin_3HK%3E11250_3140423%3C/cristin_3HK%3E%3Curl%3E%3C/url%3E&disable_directlink=true&sfx.directlink=off&sfx.report_link=0&rft_id=info:oai/&rft_id=info:pmid/&rfr_iscdi=true