Logo   Information, Signal, Images et ViSion C.N.R.S.   GdR   M.E.S.R.

 / Accueil / Kiosque 

Liste des Thèses et HDR Soutenues

[Soutenance de Thèse ou HdR]
Retour
BENJELLOUN TOUIMI abdellatif : Traitement du signal audio dans le domaine codé : techniques et applications
Thèse ou HDR soutenue le 21/05/2001 à France Télécom R&D, Lannion
Contact : Christian.Wellekens@eurecom.fr
JuryFrancis Castanié Président Pierre Duhamel Rapporteurs Gang Feng Yannick Mahieux Examinateurs Nicolas Moreau Christian Wellekens Directeur de thèse
DirectionChristian WELLEKENS
LaboratoireFrance Télécom R&D - DIH/IPS, Lannion
Résumé
La manipulation classique de flux audio codés nécessite une opération préalable de décodage pour extraire les signaux temporels puis de recodage après traitement. Cette approche directe présente des inconvénients en terme de complexité et délai algorithmiques. Pour pallier ces problèmes, l'idée du traitement dans le domaine codé a été proposée. La mise en œuvre d'une telle démarche n'est pas immédiate, plusieurs problèmes surgissent selon le traitement et le codeur considérés. Dans cette thèse on s'intéresse à des codeurs de type fréquentiel perceptuel tels MPEG-1 et TDAC de FTR&D et précisément pour des traitements de filtrage et de mixage. Le contexte applicatif illustré concerne le traitement du son pour la téléconférence multipoint. Le filtrage dans le domaine des sous-bandes est le premier problème abordé dans cette thèse. Une méthode générique a été développée, elle permet de transposer tout filtrage rationnel (FIR ou IIR) temporel dans ce nouveau domaine et pour tout banc de filtres à décimation maximale assurant la reconstruction parfaite. Cette méthode a été appliquée pour effectuer la spatialisation sonore par des filtres HRTF dans le domaine des sous-bandes. L'étude de la sommation sur les flux codés soulève plusieurs contraintes suivant le codeur considéré. Pour le codeur MPEG-1 Layer I et II, la problématique principale concerne la détermination des paramètres psychoacoustiques nécessaires à l'allocation de bits. L'algorithme proposé apporte donc une solution à ce problème par réestimation des seuils de masquage des signaux individuels à sommer puis recombinaison. Une méthode de réduction de débit est aussi dérivée à partir de cet algorithme. Pour le codeur TDAC de FTR&D la diminution de la complexité dans le procédé de sommation repose sur le phénomène de masquage inter-signaux en tenant compte de la structure particulière de ce codeur. Elle profite de l'imbrication des dictionnaires de la quantification vectorielle qu'il utilise. La mise en valeur de l'intérêt du traitement dans le domaine codé a été concrétisée par la mise en oeuvre dans un pont audio de téléconférence multipoints. Ce pont assure les fonctionnalités de concentration de flux, de la correction de trames effacées due au phénomène de perte de paquets sur les réseaux à qualité de service non garantie et aussi de la gestion des flux discontinus.
Mots-ClefsTraitement dans le domaine codé, codage audio fréquentiel perceptuel, codeur MPEG-1, codeur TDAC de
Abstract
The straightforward method to manipulate compressed audio data consists on decoding, processing and re-encoding. This method generates great algorithmic delay and complexity. In order to reduce this drawback, processing in compressed domain was proposed. However this approach is not so easy to use, some problems appears depending on the considered processing and coder. In this thesis, we are interested by perceptual frequency coders like MPEG-1 and FTR&D TDAC and processing such as filtering and mixing. The main application example considered here is audio processing in multipoint teleconferencing context. The first problem examined in this thesis deals with filtering in subband-domain. A generic framework making possible the transposition of any temporal rational filter (FIR or IIR) to subband-domain, for any critically sampled filter bank satisfying perfect reconstruction property, was developed. This method was applied to make sound spatialisation using HRTF filters in subband-domain. The second problem considered is the summation of encoded audio signals. It shows lot of constraints that depends on the considered coder. The main problem for MPEG-1 Layer I and II consists on determining psychoacoustics parameters which are required to the bit allocation. To resolve this problem the proposed algorithm makes estimation of masking thresholds of individual signal and then combines them. A new method of bit rate reduction was also derived from this algorithm. Decreasing the complexity in the summation procedure for FTR&D TDAC coder is based on the masking phenomena between different signals and using its particular structure. It takes advantage of the embedded codebooks property used by the vector quantification in this case. Application of compressed domain processing is illustrated by the implementation in an audio bridge for multipoint teleconferencing. This audio bridge has the functionalities of mixing, recovering of erased frames due to packets loss phenomena on network with non-guaranteed QoS and also managing transmission discontinues.
KeyWordsCompressed domain processing, audio coding, MPEG-1 coder, FTR&D TDAC coder, subband-domain filtering


© GdR ISIS - Contact