Otimizador de distorção de taxa com base em aprendizagem de máquina para compactação de vídeo
otimizador de distorção de taxa com base em aprendizagem de máquina para compactação de vídeo. sistemas e técnicas são descritos para codificação de dados usando uma abordagem de aprendizado de máquina para gerar uma previsão de distorção d_hat e uma taxa de bits prevista r_hat, e usar d_hat e r_hat...
Gespeichert in:
Hauptverfasser: | , , , , , |
---|---|
Format: | Patent |
Sprache: | por |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | otimizador de distorção de taxa com base em aprendizagem de máquina para compactação de vídeo. sistemas e técnicas são descritos para codificação de dados usando uma abordagem de aprendizado de máquina para gerar uma previsão de distorção d_hat e uma taxa de bits prevista r_hat, e usar d_hat e r_hat para realizar otimização de taxa de distorção (rdo). por exemplo, um codificador de vídeo pode gerar a previsão de distorção d_hat e a previsão residual de taxa de bits rres_hat com base nas saídas de uma ou mais redes neurais em resposta a uma ou mais redes neurais recebendo uma porção residual de um bloco de um quadro de vídeo como entrada. o codificador de vídeo pode determinar previsão de metadados de taxa de bits rmeta_hat com base em metadados associados a um modo de compactação, e determinar r para ser a soma de rres_hat e rmeta_hat. o codificador de vídeo pode determinar uma previsão de custo de distorção de taxa j_hat como uma função de d_hat e r_hat, e pode determinar um modo de previsão para compactar o bloco com base em j_hat.
Systems and techniques are described for data encoding using a machine learning approach to generate a distortion prediction {circumflex over (D)} and a predicted bit rate {circumflex over (R)}, and to use {circumflex over (D)} and {circumflex over (R)} to perform rate-distortion optimization (RDO). For example, a video encoder can generate the distortion prediction {circumflex over (D)} and the bit rate residual prediction based on outputs of the one or more neural networks in response to the one or more neural networks receiving a residual portion of a block of a video frame as input. The video encoder can determine bit rate metadata prediction based on metadata associated with a mode of compression, and determine {circumflex over (R)} to be the sum of and . The video encoder can determine a rate-distortion cost prediction Ĵ as a function of {circumflex over (D)} and {circumflex over (R)}, and can determine a prediction mode for compressing the block based on Ĵ. |
---|