AUTOMATIC DETERMINATION OF TIMING WINDOWS FOR SPEECH CAPTIONS IN AN AUDIO STREAM
A content system accessing an audio stream. The content system inputs segments of the audio stream into a speech classifier for classification, the speech classifier generating, for the segments of the audio stream, raw scores representing likelihoods that the respective segment of the audio stream...
Gespeichert in:
Hauptverfasser: | , , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | A content system accessing an audio stream. The content system inputs segments of the audio stream into a speech classifier for classification, the speech classifier generating, for the segments of the audio stream, raw scores representing likelihoods that the respective segment of the audio stream includes an occurrence of a speech sound. The content system generates binary scores for the audio stream based on the set of raw scores, each binary score generated based on an aggregation of raw scores from consecutive series of the segments of the audio stream. The content system generates one or more timing windows for the speech sounds in the audio stream based on the binary scores, each timing window indicating an estimate of a beginning and ending timestamps of one or more speech sounds in the audio stream.
L'invention concerne un système de contenu accédant à un flux audio. Le système de contenu entre des segments du flux audio dans un classificateur de parole pour une classification, le classificateur de parole générant, pour les segments du flux audio, des scores bruts représentant des probabilités selon lesquelles le segment respectif du flux audio comprend une survenue d'un son de parole. Le système de contenu génère des scores binaires pour le flux audio sur la base de l'ensemble de scores bruts, chaque score binaire étant généré sur la base d'une agrégation de scores bruts à partir d'une série consécutive des segments du flux audio. Le système de contenu génère une ou plusieurs fenêtres de temporisation pour les sons de parole dans le flux audio sur la base des scores binaires, chaque fenêtre de temporisation indiquant une estimation d'estampilles temporelles de début et de fin d'un ou plusieurs sons de parole dans le flux audio. |
---|