Acoustics and perception of dynamic vowel segments
Some 550 vowel segments have been excised from a text read by a Dutch speaker, both at normal rate and at fast rate. The duration of each segment is measured, as well as static and dynamic formant characteristics, such as midpoint formant frequencies, and descriptions of the formant tracks in terms...
Gespeichert in:
Veröffentlicht in: | Speech communication 1993-10, Vol.13 (1), p.135-147 |
---|---|
Hauptverfasser: | , |
Format: | Artikel |
Sprache: | eng |
Schlagworte: | |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Some 550 vowel segments have been excised from a text read by a Dutch speaker, both at normal rate and at fast rate. The duration of each segment is measured, as well as static and dynamic formant characteristics, such as midpoint formant frequencies, and descriptions of the formant tracks in terms of 16 equidistant points per segment, or Legendre polynomial functions. We examined these formant characteristics as a function of vowel duration, but found no indication for duration-dependent undershoot. Instead, this speaker showed very consistent consonant-specific coarticulatory behavior and adapted his speaking style to the speaking rate in order to reach the same midpoint formant frequencies. Various (parabolically stylized) formant tracks, at various durations, in isolation or in CVC contexts, were synthesized and presented to listeners for identification. Net shifts in vowel responses, compared to stationary stimuli, showed no indication of perceptual overshoot. A weighted averaging method with the greatest weight to formant frequencies in the final part of the vowel tokens, explained the results best.
Aus einem von einem holländischen Redner mit zwei Sprechgeschwindigkeiten (schnell und langsam) gesprochenen Text wurden 550 Vokalsegmente herausgenommen. Die Dauer jedes Segmentes sowie die statischen und dynamischen Kenndaten der Formanten wie Frequenzen in der Mitte der Formanten wurden gemessen und für die Beschreibungen der Formantregistrierungen wurden 16 abstandsgleiche Punkte pro Formanten oder Legendre'schen Polynomfunktionen verwendet. Diese Kenndaten wurden entsprechend der Dauer der Vokale untersucht, aber es konnte kein Anzeichen für “Undershoot” entrechend der Dauer gefunden werden. Andererseits zeigte der Redner ein Verhalten der Koartikulierung abhängig der Konsistenz der Konsonanten und paßte seinen Ausführungsstil der Geschwindigkeit an, um immer die gleiche Midpoint Formant Frequenz zu erhalten. Verschiedene Formantregistrierungen (durch Parabolfunktionen stylisiert) wurden auf verschiedene Werte für Dauer oder bei Isolierung synthetisiert und dann Hörern zur Identifizierung vorgelegt. Die deutlichen Verschiebungen bei den Vokalantworten bezogen auf die stationären Stimuli zeigten kein wahrnehmbares Anzeichen für “Overshoot”. Eine Methode zur ponderierten Mittelung, wobei das größte Gewicht auf die Formantfrequenzen des Endteils der Vokalkurven gelegt wurde, verdeutlicht die Ergebnisse wesentlich besser.
Quelques 550 segments vocaliques |
---|---|
ISSN: | 0167-6393 1872-7182 |
DOI: | 10.1016/0167-6393(93)90065-S |