Title (deu): Evaluierung von Qualität und Emotion von Sprachsynthese

Author: Clement, A. (Alexander)

Description (deu): St. Pölten, Studiengang Digitale Medientechnologien, Masterarbeit, 2017

Description (deu): Text-to-Speech (TTS) verleiht dem Computer eine Stimme, welche der Mensch auf Basis seiner eigenen erschaffen hat. Die menschliche Sprachfähigkeit dient dabei als Ideal, an welchem sich Sprachsynthesizer nach wie vor zu orientieren haben. Diese Arbeit stellt eine Evaluierung des derzeitigen State-of-the-Art hinsichtlich TTS dar und befindet sich im Schnittpunkt zwischen Technik, Linguistik und Psychoakustik. Dabei wird zunächst eine Übersicht sowie Klassifizierung von aktuellen Sprachsynthesemethoden unternommen. Vokaltraktbasierte, konkatenative und Hidden-Markov-Modell-basierte Synthese-Methoden werden auf ihr Einsatzgebiet und ihre Dynamik sowie Pragmatik untersucht. Dabei wird weiters besonderer Fokus auf die Bewertungsparameter Qualität und Natürlichkeit sowie Emotion der synthetischen Sprache gelegt und zur menschlichen Ausprägung in Bezug gesetzt. Diese Parameter wurden in einem selbst entwickelten Hörtest durch eine Gegenüberstellung von menschlichen und synthetisierten Sprachsamples überprüft. Die Spontanität des menschlichen laut-Vorlesens wurde als Analogie der instantanen Spracherzeugung von TTS ebenfalls untersucht. Es wurde versucht psychoakustische Parameter sowie die Ausprägungen des Russell’schen Circumplex-Modells dabei heranzuziehen, um Emotion in der Stimme fassbar zu machen. Der Einfluss der prosodischen Komponente von Sprache sollte dabei, neben Fluss, der im Endeffekt entscheidende Faktor für die Bewertung von Sprachcomputern sein.

Description (eng): Text-to-Speech (TTS) gave computers a voice, which man created based on his own. The human ability to speak hereby serves as the ideal, to which speech synthesizers ultimately have to be measured by. This thesis yields as an evaluation of current state-of-the-art of TTS and is located in the intersection between technology, linguistics and psycho acoustics. First, an overview as well as a classification regarding current methods of speech synthesis is undertaken. Vocal-tract-based, concatenative and Hidden-Markov-Model-based synthesis methods are examined for their field of application, dynamics and pragmatics. Parameters for evaluation such as quality, naturalness and emotion of synthetic speech will get a particular focus. The examinations will be compared to human speech. These parameters were assessed via a self-developed listening test, in which human and synthetic speech-samples had to be compared and graded. Spontaneity of reading aloud of humans was also examined as an analogy for instantaneous speech-production as performed by TTS. Further, psycho acoustic features as well as Russell‘s circumplex model were included in an attempt to comprehend emotion in speech. Apart from fluency, the influence of the prosodic component of speech was to be the decisive factor for the evaluation of computer generated speech.

Object languages: German

Date: 2017

Rights: © All rights reserved

Classification: Sprache

Permanent Identifier