+ All Categories
Home > Documents > Indexation De La Vidéo Par Le Contenu Et Besoin En Architectures Matérielles Dédiées

Indexation De La Vidéo Par Le Contenu Et Besoin En Architectures Matérielles Dédiées

Date post: 11-Nov-2023
Category:
Upload: enim-tn
View: 0 times
Download: 0 times
Share this document with a friend
11
SETIT 2009 5 th International Conference: Sciences of Electronic, Technologies of Information and Telecommunications March 22-26, 2009 – TUNISIA - 1 - Indexation De La Vidéo Par Le Contenu Et Besoin En Architectures Matérielles Dédiées Abdessalem BEN ABDELALI * , Mohamed Nidhal KRIFA * , Lamjed TOUIL * , Abdellatif MTIBAA * et Elbay BOURENNANE ** *Laboratoire d’EμE, groupe CSR, Faculté des sciences de Monastir, Tunisie [email protected] [email protected] [email protected] [email protected] ** LE2I, Université de Bourgogne Dijon, France [email protected] Résumé: Dans ce papier nous avons proposé une étude du domaine de l’indexation de la vidéo par le contenu dans le but d’examiner l’impact des nouvelles exigences dans ce domaine sur le choix des méthodes de conception et des solutions technologiques pouvant être utilisées pour la mise en œuvre d’architectures matérielles dédiées pour ce type d’application. Il s’agit d’une étude de ce domaine à travers les caractéristiques et les besoins des nouvelles applications possibles et des techniques mises en œuvre pour l’indexation de la vidéo par le contenu. Dans ce cadre un modèle générique d’un système d’analyse du contenu audio visuel a été proposé. Il exprime l’interaction et les combinaisons possibles des techniques existantes pour différents types d’application et en tenant compte des principales caractéristiques des systèmes d’indexation actuels. Des exemples d’applications de ces systèmes ont étés aussi présentés tout en mettant l’accent sur leurs exigences. Une discussion des besoins spécifiques des systèmes d’indexation actuels et la nécessité de faire recours aux nouvelles technologies des systèmes embarqués a été proposée à la fin de ce papier. Mots clés: Indexation par le contenu, vidéo, applications temps réel, architectures matérielles dédiées. INTRODUCTION Ce travail s’inscrit dans le cadre de l’étude de la conception d’architectures matérielles dédiées et de l’exploitation des nouvelles technologies des systèmes embarqués pour les applications multimédia récentes. Dans ce papier nous proposons une étude du domaine de l’indexation de la vidéo par le contenu dans le but de montrer l’impact des nouvelles exigences dans ce domaine sur le choix des solutions technologiques et des méthodes de conception pouvant être exploitées pour la mise en œuvre de systèmes électroniques pour l’analyse du contenu AV. L’indexation de la vidéo par le contenu constitue un exemple d’application multimédia récent et d’une grande importance actuelle. En fait, devant la production croissante et la quantité énorme des données AV, l’accès à l’information désirée est devenu de plus en plus difficile. Dans ce cadre des efforts très significatifs ont été consacrés au développement d’outils et de techniques permettant une gestion plus efficace de ce type de données. Les techniques développées pour faciliter l’accès aux documents audio-visuels sont d’une importance majeure pour le grand public comme pour les utilisateurs professionnels. Vu l’importance de ce sujet une norme appelée MPEG7 a été élaborée, elle s’adresse aux problèmes de gestion et d’exploitation du contenu multimédia. Elle admet comme objectif de fournir un cadre d’outils normalisés pouvant être utilisés pour décrire et contrôler efficacement le contenu multimédia. Malgré la grande activité au niveau de développement d’algorithmes et de techniques d’indexation et de recherche automatique des informations audiovisuelles, un manque de travaux concernant la conception de systèmes embarqués et les possibilités d’exploitation des nouvelles technologies pour ce domaine d’application est à signaler. Ceci est dû principalement au fait que les travaux de recherche dans ce domaine sont essentiellement orientés vers le développement de techniques permettant l’automatisation de l’indexation et de la recherche des informations audiovisuelles. Ce domaine a été aussi restreint à la gestion des bases de données AV sans
Transcript

SETIT 2009 5th International Conference: Sciences of Electronic,

Technologies of Information and Telecommunications March 22-26, 2009 – TUNISIA

- 1 -

Indexation De La Vidéo Par Le Contenu Et Besoin En Architectures Matérielles Dédiées

Abdessalem BEN ABDELALI*, Mohamed Nidhal KRIFA*, Lamjed TOUIL*, Abdellatif MTIBAA* et Elbay BOURENNANE**

*Laboratoire d’EµE, groupe CSR, Faculté des sciences de Monastir, Tunisie [email protected]

[email protected] [email protected]

[email protected] ** LE2I, Université de Bourgogne Dijon, France

[email protected] Résumé: Dans ce papier nous avons proposé une étude du domaine de l’indexation de la vidéo par le contenu dans le but d’examiner l’impact des nouvelles exigences dans ce domaine sur le choix des méthodes de conception et des solutions technologiques pouvant être utilisées pour la mise en œuvre d’architectures matérielles dédiées pour ce type d’application. Il s’agit d’une étude de ce domaine à travers les caractéristiques et les besoins des nouvelles applications possibles et des techniques mises en œuvre pour l’indexation de la vidéo par le contenu. Dans ce cadre un modèle générique d’un système d’analyse du contenu audio visuel a été proposé. Il exprime l’interaction et les combinaisons possibles des techniques existantes pour différents types d’application et en tenant compte des principales caractéristiques des systèmes d’indexation actuels. Des exemples d’applications de ces systèmes ont étés aussi présentés tout en mettant l’accent sur leurs exigences. Une discussion des besoins spécifiques des systèmes d’indexation actuels et la nécessité de faire recours aux nouvelles technologies des systèmes embarqués a été proposée à la fin de ce papier. Mots clés: Indexation par le contenu, vidéo, applications temps réel, architectures matérielles dédiées.

INTRODUCTION Ce travail s’inscrit dans le cadre de l’étude de la

conception d’architectures matérielles dédiées et de l’exploitation des nouvelles technologies des systèmes embarqués pour les applications multimédia récentes. Dans ce papier nous proposons une étude du domaine de l’indexation de la vidéo par le contenu dans le but de montrer l’impact des nouvelles exigences dans ce domaine sur le choix des solutions technologiques et des méthodes de conception pouvant être exploitées pour la mise en œuvre de systèmes électroniques pour l’analyse du contenu AV.

L’indexation de la vidéo par le contenu constitue un exemple d’application multimédia récent et d’une grande importance actuelle. En fait, devant la production croissante et la quantité énorme des données AV, l’accès à l’information désirée est devenu de plus en plus difficile. Dans ce cadre des efforts très significatifs ont été consacrés au développement d’outils et de techniques permettant une gestion plus efficace de ce type de données. Les techniques

développées pour faciliter l’accès aux documents audio-visuels sont d’une importance majeure pour le grand public comme pour les utilisateurs professionnels. Vu l’importance de ce sujet une norme appelée MPEG7 a été élaborée, elle s’adresse aux problèmes de gestion et d’exploitation du contenu multimédia. Elle admet comme objectif de fournir un cadre d’outils normalisés pouvant être utilisés pour décrire et contrôler efficacement le contenu multimédia.

Malgré la grande activité au niveau de développement d’algorithmes et de techniques d’indexation et de recherche automatique des informations audiovisuelles, un manque de travaux concernant la conception de systèmes embarqués et les possibilités d’exploitation des nouvelles technologies pour ce domaine d’application est à signaler. Ceci est dû principalement au fait que les travaux de recherche dans ce domaine sont essentiellement orientés vers le développement de techniques permettant l’automatisation de l’indexation et de la recherche des informations audiovisuelles. Ce domaine a été aussi restreint à la gestion des bases de données AV sans

SETIT2009

- 2 -

contraintes particulières.

Actuellement les techniques de l’indexation automatique sont devenues de plus en plus nombreuses et couvrent plus de domaines d’applications sous des contraintes de plus en plus exigeantes. De ce fait, la complexité est de plus de plus ressentie et forme actuellement un grand souci pour les applications à aspect temps réel ou même non temps réel à cause de la lourdeur et le nombre de techniques mises en œuvre ainsi que la nature des documents vidéo qui présente généralement une quantité énorme d’informations. Mais le plus important reste le cadre des nouvelles applications de l’indexation de la vidéo et les nouvelles possibilités fournies à l’utilisateur pour un accès plus performant aux informations audiovisuelles. Ceci implique la mise en œuvre de systèmes plus complexes basés sur des modèles de description du contenu avancés et qui peuvent être exploités dans des applications plus exigeantes. Dans ce papier nous essayons de mettre l’accent sur ces aspects dans le but de montrer la possibilité d’exploitation des nouvelles technologies et des moyens de conception de systèmes embarqués en faveur de ce domaine d’application.

Le reste de ce papier sera organisé en cinq paragraphes. Dans le premier paragraphe nous rappelons la problématique de l’indexation automatique de la vidéo par le contenu. Dans le deuxième paragraphe nous donnons un petit aperçu sur les différentes générations des systèmes d’indexation et de recherche de la vidéo par le contenu. Dans le troisième paragraphe nous exposons les techniques et les structures des systèmes d’analyse de contenu AV tout en insistant sur les nouvelles tendances des systèmes d’analyse du contenu AV actuels. Dans le quatrième paragraphe nous nous intéressons aux applications des systèmes d’indexation de la vidéo par le contenu et les nouvelles contraintes dans ce domaine. Une discussion des besoins en nouvelles technologies des systèmes embarqués est proposée dans le cinquième paragraphe.

1. Problématiques de l’automatisation de d’indexation de la vidéo

L’automatisation de la phase d’indexation pose des problèmes très divers liés à la possibilité de confier une tâche souvent effectuée par l’être humain à une machine. En fait, l'homme est capable de distinguer et d'interpréter les différents aspects visuels (régions d'une image, couleurs, etc.), les relations entre les actions (dans un film par exemple), la signification des aspects visuels et leur relation avec le contexte des actions (exemple : des couleurs et un décor qui font peur), la classification des documents vidéo selon différents critères (type du document : journal, film triste, film de fiction, documentaire sur les animaux, etc.). Ceci se fait grâce à la possibilité de combiner les différentes informations acquises par le système de visions et le système auditif et la grande puissance d’analyse et d’interprétation chez l’homme. Mais le problème majeur de l’indexation manuelle reste le coût très élevé et surtout la subjectivité. En fait, le contenu

visuel n’est généralement plus interprété de la même façon par des personnes différentes et les résultats d’indexation peuvent ne pas être satisfaisants.

La difficulté d’extraction automatique des informations sémantiques de la vidéo rend l’automatisation de la phase d’indexation une tâche de grande complexité. Des multiples problèmes sont posés : choix des techniques d’analyse du contenu audiovisuel, gestion de ces différentes techniques, nature des indexes à associer aux documents vidéo selon les requêtes possibles de l’utilisateur qui peut être un être humain ou une machine, comment extraire l’information désirée par des méthodes automatiques, etc. Ceci rend le domaine de l’indexation automatique par le contenu très actif avec des contributions venant à la fois de la communauté analyse d’images et de vidéo et également de la communauté informatique et base de données.

L’indexation automatique de la vidéo par le contenu se base sur l’extraction automatique des méta-données descriptives à partir du contenu physique (bas niveau) de la vidéo. Ces méta-données (ou méta-information) sont extraites des documents audiovisuels par des outils d’analyse du contenu.

L’extraction automatique des méta-données descriptives se base sur l’analyse des caractéristiques perceptuelles de bas niveau. Dans ce cadre la problématique majeure est l’exploitation de ces caractéristiques pouvant être extraites automatiquement pour la génération de descriptions utiles qui peuvent être exploitées par l’utilisateur pour accéder aux informations qui l’intéressent. Ce principe est illustré par la Figure 1. Cette figure représente un système d’indexation qui fournit, à partir des méta-données extraites automatiquement, des informations (indices spatiotemporels) exploitables par l’utilisateur au travers des modèles de représentation adéquats.

Extraction automatique des méta-données

Parole Localisation OCR texteVisage Événements

Interface utilisateur

Modèles

Figure 1. Analyse du contenu vidéo et extraction d’indices spatiotemporels

2. Les systèmes d’indexation actuels et le gap sémantique

Nous pouvons distinguer trois générations de systèmes d’indexation et de recherche de la vidéo par le contenu [CAL 04].

Dans la première génération les attributs des données visuelles sont extraits de façon manuelle. Nous obtenons des descriptions de haut niveau des images avec une modélisation conceptuelle du contenu visuel. Ces représentations permettent l’identification

SETIT2009

- 3 -

d’entités significatives dans une image ou dans une vidéo (un objet, une personne, etc.), des parties des objets (yeux dans une visage, bateau dans un lac, etc.) ou de la scène représentées et les concepts qui leur sont associés (un paysage, une tempête, etc.). Des schémas de représentation comme les modèles relationnels et les modèles orientés objets sont utilisés. La recherche d’information pour ce type d’indexation se fait de façon textuelle. Cependant, comme nous l’avons déjà signalé, l’indexation manuelle présente un coût très élevé et souffre de la subjectivité des descriptions vu que les annotateurs sont des personnes différentes de celles qui envoient les requêtes. De plus la quantité énorme de documents vidéo disponible chaque jour et la nature des applications actuelles rendent l’indexation manuelle impossible.

Les systèmes de la deuxième génération se focalisent sur l’automatisation complète de la phase d’indexation. Ils s’adressent aux caractéristiques perceptuelles comme la couleur, la texture, la forme, les relations spatiales, etc. Les descripteurs du contenu sont extraits automatiquement au travers des mesures objectives du contenu visuel. Ces systèmes exploitent les techniques de traitement d’images et de reconnaissance de forme qui fournissent des solutions pour modéliser et extraire les primitifs visuels. Ces techniques font donc partie intégrante des architectures des systèmes d’indexation de la deuxième génération. Ces derniers supportent la recherche par le contenu basée sur la combinaison des différentes caractéristiques extraites. L’identification d’images recherchées consiste à exploiter des caractéristiques ou des descripteurs du contenu (exemple : l’histogramme de couleur) pour comparer des objets visuels en mesurant les distances entre ces descripteurs. La requête se fait donc par l’exemple. Quand l’utilisateur envoie sa requête, celle-ci sera transformée en quelques descripteurs de bas niveau et le moteur de recherche doit trouver l’information la plus similaire à partir d’une base de méta-donnés déjà existante.

A la différence des images fixes, la vidéo porte des messages instructifs au travers des multiples plans de communication. Ceux-ci incluent la façon par laquelle les images d’une séquence vidéo sont liées ensemble en utilisant des effets de montages (CUTs, fondus, etc.) et les informations de haut niveau (les personnages, le contenu de l’histoire et le message transmis par l’éditeur, etc.). Le texte, ainsi que les autres données sensorielles tels que les sons et les paroles peuvent aussi être exploités pour extraire des informations utiles. Les travaux de recherche pour la deuxième génération des systèmes d’indexation se sont focalisés plus particulièrement sur l’extraction automatique de la structure des vidéos. Ceci se fait à travers la détection des effets de transition qui permettent la décomposition des séquences vidéo et l’extraction des images clés. Le contenu perceptuel de ces images clés est modélisé afin de faciliter l’accès aux segments vidéo représenté par ces images. Dans ce cas le problème de recherche de la vidéo par le contenu est réduit au problème d’accès par le contenu aux images fixes structurées.

L’avantage des approches utilisées dans la deuxième génération des systèmes d’indexation est l’automatisation complète de la phase d’indexation et la description du contenu par des caractéristiques visuelles. Cependant, le problème majeur avec ces systèmes est le gap sémantique entre les concepts de haut niveau chez l’utilisateur et les caractéristiques de bas niveau qui lui sont actuellement fournies pour formuler ces requêtes et effectuer les recherches d’information. Dans la majorité des cas pratiques, la similarité des propriétés perceptuelles n’est pas d’une grande utilité si elle n’est pas combinée avec une similarité des informations de haut niveau. En effet, un des échecs majeurs de systèmes d’indexation actuels est ce gap sémantique. Il réfère à la discontinuité entre les caractéristiques et les descriptions du contenu qui sont actuellement extraites automatiquement et la richesse de sémantiques pouvant être exploités pour effectuer la recherche de données. Il peut être aussi définie comme étant le manque de coïncidence entre l’information qui peut être extraite à partir d’une donnée visuelles et l’interprétation de cette même donné pour un utilisateur dans une situation spécifique.

La tendance actuelle est vers une troisième génération de systèmes d’indexation automatique avec plus d’informations sémantique sur le contenu audiovisuel. Les personnages, leurs rôles, les actions et leurs relations logiques, etc. sont des informations qu’on cherche à extraire automatiquement sans ou avec un minimum d’intervention manuelle afin de permettre une indexation sémantique plus objective. L’indexation de la vidéo ne peut être efficace que si elle supporte des descriptions à un haut niveau d’abstraction. En fait, la mémoire humaine est plus concernée par la structure narrative du contenu que les simples éléments perceptuels d’une vidéo. Les spectateurs ne s’intéressent pas à la segmentation en plan ou au montage vidéo. Par contre ils aperçoivent le rythme des séquences (qui est inclus par le montage), les scènes (qui sont obtenues à partir des plans), l’histoire (qui inclut les personnages et leurs rôles, les actions et leurs relations logiques, etc.), ainsi que les sentiments (qui dépendent de la combinaison des objets perceptuels comme la couleur, les objets, la musique, etc. et de la signification de la scène).

Réduire le gap sémantique présente le principal défi des nouveaux travaux de recherche dans le domaine d’indexation de la vidéo par le contenu. Les nouveaux paradigme issus de cette problématique incluent la modélisation sémantique de la vidéo, le paradigme de recherche interactive, l’interaction émotionnel et émotif, la recherche de la vidéo basée sur la perception humaine, l’interaction homme machine, les stratégies d’apprentissage et de réaction de pertinence et les résumés intelligents. Dans la littérature plusieurs travaux ont abordé le problème de l’indexation sémantique de la vidéo [HAM 99][SMI 00][ZHA 01][DIM 03][ENS 03][NAP 03][CHA 05]. Ces travaux s’adressent principalement à la réduction du gap sémantique au travers des méthodes d’annotation et de description automatique de haut niveau.

SETIT2009

- 4 -

La réduction du gap sémantique nécessite des analyses plus complexes des caractéristiques de bas niveau. L’exploitation efficace de ces caractéristiques peut se faire au travers des schémas d’indexation plus complexes en se basant sur des approches et des techniques de l’intelligence artificielle. La question essentielle qui se pose ici concerne la représentation adéquate des vidéos et des connaissances pour ce type de système. Les modèles de représentation des concepts sémantiques [NAP 03] représentent le coeur d’une indexation intelligente.

Dans une chaîne typique d’indexation et de recherche d’information les médias d’entrée sous forme numérique sont traités par les modules d’extraction des caractéristiques pour générer des descripteurs de bas niveau. Le système doit exploiter ces descripteurs selon des représentations adaptatives pouvant assurer une communication conceptuelle et sémantique avec l’utilisateur. Ceci soulève plusieurs problèmes dont l’extraction d’indices visuels discriminants, l’indexation multidimensionnelle, la modélisation du contenu audiovisuel et de l’utilisateur, la catégorisation, etc. La recherche d’information par le contenu tende à apporter une contribution originale à ces problèmes intrinsèquement difficiles [NOZ 03].

3. Techniques et systèmes d’analyse de contenu AV

3.1. Outils d’analyse du contenu AV Les techniques d’analyse du contenu AV sont

définies relativement aux indices spatiotemporels et aux informations devant être extraites selon les besoins en terme d’accès aux données multimédia. Dans ce cadre plusieurs tâches peuvent être définies. Parmi ces tâche nous pouvons citer l’analyse et l’extraction d'objets vidéo sémantiques [CAV 04], la recherche et la classification d'images clés, l’identification et la reconnaissance automatique, par exemple, des spots publicitaires [SAN 99] [MAO 92], la classification d'images en intérieures/ extérieures [SZU 98] [BOU 06], la reconnaissance et la classification des programmes TV [REA 02][CHU 02] [GLA 05][BER 01], etc. Des exemples de tâches d’analyse du contenu AV sont proposés, à chaque édition, pour l’évaluation dans le cadre de la conférence spécialisée TRECVID [TRE 06].

Les techniques d’analyse du contenu AV présentent des outils d’extraction et de reconstitution d’information qui ont pour objectif de produire et de reconstituer un ensemble d’informations à partir de l’analyse de la vidéo sous sa forme brute (signal numérique). L’information extraite ou reconstituée peut être structurelle liée à l’organisation et la structure du contenu et/ou sémantique qui s’intéresse aux situations et aux concepts exprimés par les images et les sons. L’extraction de la structure intrinsèque de la vidéo ainsi que des entités élémentaires de base d’un document vidéo (segments : plans, scènes, objets, etc.) et la caractérisation de leurs aspects visuels présentent des tâches de base à assurer par les techniques mises en

œuvre (techniques de segmentation spatiotemporelle, techniques de suivie d’objets, techniques de classification, techniques de sélection d’images clés pour le résumé vidéo, etc.).

Plusieurs techniques et outils d’analyse du contenu AV ont été développés. Ces outils se basent sur des techniques des différents domaines suivants :

- Traitement d’image et de signal pour l’analyse des composantes image et son.

- Technologies de langage pour le texte et la parole. - Classification et reconnaissance (reconnaissance de

formes et de visages, etc.) - Techniques intelligentes (flou, neurone, etc.) pour

l’analyse et l’interprétation des informations issues des autres techniques.

Les techniques d’analyse du contenu AV peuvent être classées selon différents critères possibles. Elles peuvent être par exemple classées selon leur niveau d’abstraction (bas niveau, moyen niveau ou haut niveau). Pour une indexation de bas et de moyen niveau les techniques suivantes peuvent être définies :

- Description de bas niveau : il s’agit de description du contenu perceptuel (couleurs, textures, formes, mouvement, etc.).

- Structuration hiérarchique du contenu vidéo et segmentation spatiotemporelle A un niveau d’abstraction plus élevé les techniques

suivantes sont définies. Elles permettent un accès aux informations AV par le contenu sémantique (action, temps, lieu, etc.).

- Résumé vidéo. - Segmentation en scènes (Macro segmentation). - Détection d’événements. - Classification et catégorisation. - Etc.

Dans [BAI 05] la classification suivante a été adoptée :

– Outils d’analyse du contenu visuel. Ils concernent les outils d’analyse des caractéristiques visuelles de bas niveau (couleur, texture, forme et mouvement), les techniques de segmentation spatiale, temporelle et spatiotemporelle, les techniques de reconnaissances des caractères et les techniques de détection et de reconnaissance de visages.

– Outils d’analyse du contenu pour l’audio et la parole. Ces outils font appel à des techniques d’analyse des caractéristiques audio de bas niveau et à des techniques de reconnaissance automatiques de la parole (ASR).

– Outils d’analyse du contenu sémantique. Ces outils se base principalement sur l’association de plusieurs outils d’analyse du contenu AV. L’analyse du contenu sémantique concerne la segmentation en scène (macro segmentation), la classification des plans et des scènes, la détection d’événements, le résumé vidéo, etc.

Chacune des techniques citées fait appel à une large panoplie de méthodes et d’approches proposées dans la

SETIT2009

- 5 -

littérature. Dans [BAI 05] une présentation objective de ces méthodes est proposée avec une bibliographie très riche.

3.2. Structure des systèmes d’analyse du contenu AV La structure des systèmes d’analyse du contenu AV

dépend principalement de l’application visée et des informations nécessaires pour assurer l’accès désiré aux informations AV dans le cadre de cette application (accès par informations sémantiques ou par informations visuelles de bas niveau, navigation structurée, etc.). Ces systèmes se basent sur une combinaison structurée de différentes techniques pour assurer des services particuliers. Devant la diversité des approches proposées le choix des techniques à exploiter n’est plus une tâche évidente. En fait il n’existe pas des critères clairs permettant d’indiquer dans quelle situation et pourquoi utiliser une telle ou telle technique. Dans ce cadre les informations d’ordre général suivantes peuvent être prises en compte :

- Certaines des techniques existantes sont dépendantes de l’application visée et du contexte d’utilisation. Dans ce cadre des informations contextuelles doivent être fournies pour assurer convenablement le processus d’analyse. L’information extraite reste fonctionnelle pour la solution d’un problème déterminé dans un contexte donné.

- Les techniques utilisées sont substantiellement basées sur des analyses statistiques d’un ensemble de caractéristiques de bas niveaux extraits directement du contenu AV. L’ensemble des caractéristiques sélectionnées dépend de la tâche particulière à résoudre et plus particulièrement de la pertinence jugée pour les observateurs humains dans un problème particulier.

D’autres critères liés à la qualité du service, au temps d’exécution, au coût, etc. peuvent être aussi considérés.

L’association de plusieurs techniques à différents niveaux d’indexation, la multi modalité et la multi fonctionnalité sont parmi les caractéristiques les plus importantes des systèmes actuels d’analyse du contenu AV. Ceci est lié à la diversité du contenu (types de document manipulé, les modalités considérées, etc.), à la diversité des types d’accès désirés, à la diversité du contexte des applications considérées, etc. Devant l’absence de procédures universelles, la combinaison de plusieurs techniques même pour une même tâche peut être adoptée pour assurer des meilleurs résultats. De même l’exploitation de plusieurs descripteurs pour une même caractéristique (couleur, texture, etc.) est souvent adoptée. Ceci permet une meilleure caractérisation de cette entité visuelle pour une meilleure description de l’objet vidéo considéré.

Dans la figure 2 nous présentons une structure générique d’un système d’analyse du contenu AV. Elle exprime les interactions possibles entre les différents outils d’analyse du contenu de différents niveaux d’abstraction et pour différentes modalités d’un document vidéo. Cette structure reflète l’aspect d’un système d’analyse du contenu AV de future génération

et montre bien la complexité de ce type de systèmes.

4. Applications des systèmes d’indexation de la vidéo par le contenu et nouvelles contraintes

La connaissance des domaines et des types d’applications est de grande importance pour la définition de la phase d’indexation. En fait, le choix et la conception d’un système d’indexation sont guidés par les besoins et les concepts du domaine de l'application visée. De plus les contraintes à respecter lors de la mise en œuvre du système d’indexation sont définies par l’environnement de l’application. Dans ce paragraphe nous passons en revue les principaux domaines et types d’application de l’indexation de la vidéo par le contenu tout en insistant sur les nouvelles applications dans ce domaine et leurs besoins spécifiques. Ces besoins sont, d’une part exprimés en terme de nécessité au niveau de la qualité du service et des fonctionnalités fournies et d’autre part ils sont liés à l’environnement de l’application (temps réel, puissance de calcul, etc.).

De part son caractère multimédia et sa richesse du contenu qui le rend d’une grande facilité d’appréhension, la vidéo se multiplie à toutes les échelles et apparaît comme un média essentiel d’une société de l’information. Faciliter la manipulation de l’information vidéo correspond à un fort besoin dans les diverses industries de production, d’archivage ou de distribution du contenu vidéo. En fait, l’indexation de la vidéo par le contenu présente actuellement une technologie clé pour plusieurs domaines d’application tels que l’internet, l’exploration des bibliothèques multimédia distribuées et cinémathèques numériques en réseau, les applications scientifiques, le filtrage dans un flux de données audiovisuelles, la télévision interactive et les applications de sécurité.

De façon générale, nous distinguons trois principaux types d’accès aux informations audiovisuelles : Navigation, recherche et filtrage et deux types d’applications : applications "push" et applications "pull". Les applications "push" sont relatives à l’accès par navigation ou par recherche comme par exemple les moteurs de recherche pour internet ou les bases de données. Pour les applications "Pull" nous pouvons citer, par exemple, la diffusion et le filtrage du contenu dans le cadre de la télévision interactive.

Les systèmes d’indexation sont actuellement utilisés dans plusieurs types d’applications : les applications de stockage et de recherche, l’accès multimédia universel, la sélection du média en diffusion, la TV personnalisée, la télésurveillance et les applications de sécurité, etc. Les applications les plus innovantes concernent les filtres de média personnels, les navigateurs vidéo intelligents, les fonctionnalités de gestion des informations vidéo pour la télévision interactive, etc. Dans ce cadre plusieurs nouveaux services peuvent être fournis à l’utilisateur : possibilité de sélection automatique des chaînes TV et radio

SETIT2009

- 6 -

Figure 2. Modèle d’interaction possible entre des différents outils d’indexation

SETIT2009

- 7 -

selon le type de programme désiré, possibilité de navigation rapide dans des centaines de documents stockées provisoirement, accès dans une grande base de films à une séquence bien particulière, filtrage, etc. Des travaux qui visent à émerger ces applications dans des environnements tels que les serveurs multimédia personnels et les appareils multimédia portables [CHA 03] trouvent leurs intérêts.

Plusieurs nouveaux scénarios d’application des systèmes d’indexation de la vidéo par le contenu sont envisagés, par la suite nous présentons quelques exemples. Dans [DEN 05][STE 05b] une application de l’indexation de la vidéo pour l’assistance de conducteurs de voitures est proposée. Dans cette application une voiture est considérée sur l’autoroute et dans un tunnel. Sur l’autoroute les lignes, les obstacles, la distance entre véhicules ainsi que les autres utilisateurs de la route comme les voitures, les vélos, les motos, les piétons et les animaux doivent être distinguées. Pour un tunnel on commence par identifier sont entrées, puis des algorithmes tenant compte des conditions à l’intérieure de ces tunnels sont appliqués pour l’identification des obstacles. Le changement des algorithmes appliqués à l’extérieur et à l’intérieur des tunnels se fait de façon dynamique.

Dans [ANA 06] une analyse de la structure de systèmes de gestion de trafique et de surveillance d’autoroutes est proposée. Ces systèmes sont basés sur la combinaison de réseaux de capteurs d’images, d’algorithmes de traitement d’images de bas niveau et des schémas de description MPEG-7 de haut niveau. Les algorithmes de bas niveau sont utilisés pour l’identification des véhicules ainsi que l’extraction de caractéristiques visuels et la détection de leur changement dans le but de les exploiter pour la détection des événements.

Les travaux présentés dans [KIM 03][LEE 03] s’intéressent à l’intégration de fonctions d’analyse de contenu AV dans les PVR (Personal Video Recoder). Dans [KIM 03] une méthode de détection de changement de scène pour les PVR est proposée. L’objectif de ce travail est d’offrir à l’utilisateur un ensemble de fonctionnalités tels que la navigation et l’avancement et le saut rapide dans les vidéos enregistrées. Dans [LEE 03] un outil de résumé automatique est introduit pour les PVR. Cet outil se base sur l’extraction de descripteurs visuel de bas niveau MPEG-7 pour générer des indexes pour le résumé. Les indexes obtenus permettent de générer non seulement un aperçue de la vidéo mais ils permettent aussi un accès non linaire au contenu. De plus ces indexes supportent la recherche par similarité des plans vidéos.

Dans [PER 02][BOY 04][STE 05a][PAT 99] les techniques d’indexation de la vidéo par le contenu sont exploitées pour les applications de télésurveillance. L’objectif principal d’utilisation des techniques d’indexation de la vidéo pour ce type d’applications est la détection des événements importants de façon automatique afin de gérer la grande quantité des données vidéo actuellement issues

des caméras de surveillance. Des nouvelles fonctionnalités sont intégrées dans les systèmes de télésurveillances pour les rendre plus intelligents et plus efficaces. Ceci concerne l’analyse des séquences vidéo acquises et la génération de descriptions de haut niveau du contenu selon le besoin de l’application. Les serveurs d’informations proposés dans [BOY 04] par exemple offrent, en plus des fonctions de surveillance classiques, la possibilité d’interaction avec les applications des clients. Ils peuvent être configurés dynamiquement pour différentes fonctions plus avancées autre que la simple description du contenu vidéo pour la surveillance. Le concept de base de ces serveurs a été introduit en comparaison avec le principe de la caméra MPEG-7 [EBR 01]. Cette dernière permet de fournir directement des descriptions du contenu vidéo en format XML pouvant être diffusées sur le réseau. Elle intègre des fonctions d’analyse du contenu vidéo qui s’effectuent en temps réel lors de l’acquisition.

La Figure 3 [FAB 04] et la Figure 4 [LEF 02b] représentent deux autres exemples de scénario d’application de l’indexation de la vidéo par le contenu : Filtrage d’un flux vidéo et transmission intelligente des émissions sportives en direct.

Canal de transmission

Source du stream vidéo

Mesure de similarité basée sur

les descripteurs MPEG-7

Station de réception Figure 3. Filtrage d’un flux vidéo en ligne

Acquisition vidéo

Détection d’un but

Transmission aux abonnés

Figure 4. Transmission intelligente des documents sportifs en direct

La mise en œuvre des techniques d’analyse du contenu AV dans le cadre de ces applications pose des nouvelles contraintes liées principalement à la puissance de calcul, au temps réel, à la flexibilité du système et aussi à la consommation. Un intérêt remarquable est de plus en plus consacré à la contrainte temps réel à travers un grand nombre de travaux dans la littérature [YAM 06] [STE 05a] [PER 02] [YOO 04] [KAS 03] [DEN 05] [STE 05b] [WOZ 04] [LEF 01] [LEF 02a] [KAP 06] [SRI 03] [SAV 03] [BAE 03] [EOM 05] [CHA 04]. Vu l’importance de ce critère, depuis 2004, les informations sur la performance en terme de temps de calcul des algorithmes de détections de changement de plan sont collectées dans TRECVID [TRE 06]. Les traitements

SETIT2009

- 8 -

effectués en temps réel concernent par exemple l’identification des séquences vidéo, la génération temps réel des vidéos annotées pour la surveillance, l’indexation temps réel pour les programmes TV diffusés en direct (live), l’identification temps réel des événements importants, etc. Selon la manière de prise en compte de la contrainte temps réel nous pouvons distinguer deux classes de travaux : celles qui s’intéressent aux algorithmes et leurs modes d’application et celles qui s’intéressent aux techniques d’implémentation de ces algorithmes. Dans le premier cas nous pouvons citer par exemple l’application des techniques d’analyse du contenu AV sur des images de faible résolution [LEF 02a] ou l’extraction des descripteurs dans le domaine compressé [EOM 05][BAE 03]. Dans le deuxième cas, les travaux proposés concernent principalement l’utilisation d’accélérateurs matériels pour l’extraction des descripteurs du contenu AV [SAV 03] [WOZ 04] [YAM 06].

5. Besoins en architectures matérielles dédiées

À partir de l’étude de l’état de l’art de l’indexation automatique de la vidéo par le contenu nous pouvons tirer les conclusions et les interprétations suivantes :

Dans le cadre de la problématique de l’automatisation de l’indexation de la vidéo par le contenu, des modèles conceptuels et des méthodes d’indexation basées sur des approches avancées ont été proposés. En fait, les systèmes d’indexation de la vidéo de troisième génération ont pour objectif de fournir des possibilités d’accès plus faciles et plus intelligents aux informations audiovisuelles au travers des méthodes d’analyse automatique du contenu vidéo. Ces systèmes offrent une multitude de nouvelles fonctionnalités et de service de haut niveau. Les concepts importants telles que la segmentation hiérarchique du contenu, la multi-modalité et l’indexation multi-niveaux sont exploités. Les systèmes proposés se basent sur une exploitation plus complexe des opérations d’analyse de bas niveau et sur la combinaison d’un nombre important de techniques et d’algorithmes en étroite interaction. De ce fait, les systèmes d’analyse du contenu sont devenus beaucoup plus complexes comme nous l’avons montré à travers le modèle proposé dans la figure 2.

Tenant compte de la diversité des modèles et des méthodes de résolution du problème d’indexation automatique de la vidéo, la structure d’un système d’analyse du contenu AV peut avoir plusieurs configurations possibles. De plus, la grande diversité des algorithmes pouvant être exploités complique davantage la tâche du concepteur qui doit assurer un meilleurs choix des techniques à mettre en œuvre. Ces techniques sont définies relativement aux besoins de l’application et aux types de documents analysés. L’organigramme proposé dans la figure 5 permet de résumer la démarche à suivre pour la conception d’un système d’analyse du contenu AV. En premier lieu le

concepteur doit définir le modèle de contenu en respectent les besoins de l’application et le modèle de l’utilisateur. Des connaissances sur les documents, des connaissances sur les concepts du domaine de l'application et des connaissances sur les utilisateurs sont exploitées. Dans cette étape le concepteur précise le type d’indexes et de la description du contenu qui correspondent aux besoins en terme d’accès aux information AV (type d’accès : navigation, recherche par objet ou par événement, etc.). Ceci permet au concepteur de définir le modèle du système d’analyse du contenu AV à adopter ainsi que les techniques à utiliser et leurs interactions. L’étape suivante consiste à faire le choix des solutions (algorithmes et approches) permettant la mise en œuvre concret du système et des techniques choisies (exemple : combinaison de plusieurs descripteurs de couleurs et de texture ou de mouvement pour la détection de changement de plan et la sélection d’images clés). Le choix de ces algorithmes dépend de type de document vidéo et de la qualité de service désirée.

Modèle du système d’analyse du contenu AV Techniques à mettre en ouvre Structure du system (interaction

entre les différentes techniques)

Application Utilisateur Type du document

Modèle du contenu audiovisuel

Besoins de l’application

Choix des outils (algorithmes) Mise en oeuvre des techniques

d’analyse du contenu AV

Exemples de Techniques d’indexation bas, moyen et

haut niveau: Techniques de segmentation

en plan, en objet Macro segmentation Détection d’événement Résumé automatique Reconnaissance de visages etc.

Image

AudioTexte

Donnée

Exemple d’algorithmes : Algo de traitement d’images Histogramme de couleurs Filtres de détection de contour Réseau de neurones Algo de Traitement de signal

Etc.

Système d’analyse du contenu AV Tests et validation fonctionnelle

Mise en œuvre et expérimentation

Model générique Multi modalité Niveaux d’indexation Niveau de segmentation etc ;

Imag

e Au

dio

Text

e

Donnée

Structure finale du système d’analyse du contenu AV

Informations à extraire

Techniques à utiliser

Figure 5. Démarche de conception d’un système d’analyse du contenu AV

La structure d’un système d’analyse du contenu AV et les algorithmes mis en œuvre dépendent donc fortement de type de contenu manipulé et du cadre de l’application. Dans ce contexte, une grande majorité des systèmes proposés sont dédiés pour des domaines restreints et des types de documents bien particuliers (exemple : surveillance, sport particulier, film, etc.). Les approches utilisées dans ces systèmes sont spécifiques à une application donnée et elles sont difficilement généralisables. Dans le cadre de systèmes génériques devant supporter plusieurs types de documents vidéo comme par exemple le cas de la TV numérique, les choses deviennent beaucoup plus complexes. En fait, devant l’absence d’outils génériques le concepteur se trouve obligé d’adopter plusieurs techniques à utiliser selon le cas. Ceci augmente davantage la complexité du système qui doit assurer à la fois une grande puissance de calcul et une grande flexibilité afin de pouvoir adapter facilement la

SETIT2009

- 9 -

structure de système selon le contexte de l’application.

Si nous ajoutons à ces considérations de complexité la nature des environnements des nouvelles applications de l’indexation de la vidéo avec plus des besoins en terme de temps réel, de flexibilité (adaptation dynamique selon les besoins de l’application), de consommation et de portabilité (des applications mobiles et les PVR), le choix de la technologie de système électronique permettant de supporter ces contraintes est fortement posé. Ceci pose aussi des questions méthodologiques liées à cette diversité de techniques et d’environnements d’application : spécification, rapidité de validation, analyse de l’espace de solution, choix de configuration matérielle adéquate, supporter la complexité de ces systèmes, temps de mise sur le marché, etc.

L’accélération matérielle des techniques d’analyse du contenu AV et l’exploitation des nouvelles technologies de systèmes embarqués pour l’indexation automatique de la vidéo par le contenu deviennent une nécessité. Ceci afin de permettre de supporter la complexité des systèmes d’analyse du contenu AV et les contraintes des nouvelles applications dans ce domaine. Dans ce cadre la technologie reconfigurable peut être de grand intérêt surtout pour des applications comme la TV interactive et les PVR où les contraintes de temps et de puissance de calcul sont fortement posées à côté des exigences en terme de flexibilité et de limitation de ressources. Les systèmes à base d’architectures reconfigurables permettent une adaptation de la structure du système d’analyse du contenu AV selon le besoin tout en assurant une forte puissance de calcul. L’adaptation de la structure de systèmes d’analyse de contenu AV concerne le changement d’algorithmes appliqués selon le contexte (exemple : type de documents) et la qualité de service ainsi que le changement de fonctionnalité et du service fourni.

6. Conclusion Le travail présenté dans ce papier constitue une

contribution à l’étude de l’indexation automatique de la vidéo par le contenu en vue de la conception de système embarqué dédié à ce type d’application multimédia. Après une discussion de la problématique d’automatisation de l’indexation nous avons présenté les trois générations des systèmes d’indexation, depuis les systèmes classiques basés sur l’intervention manuelle jusqu’aux systèmes actuels. De même nous avons discuté la problématique majeure de l’indexation automatique de la vidéo par le contenu qui est le gap sémantique entre le besoin conceptuel de l’utilisateur et les descripteurs perceptuels de bas niveau qui peuvent être extraits automatiquement. Dans ce papier nous avons aussi proposé un aperçu des techniques et des outils d’analyse du contenu AV pour l’indexation de la vidéo ainsi que les structures possibles de systèmes d’analyse du contenu et l’interaction entre les différentes techniques qui le constituent. Ces systèmes se caractérisent par la combinaison d’une multitude de techniques et une

exploitation plus efficace des descripteurs de bas niveau pour réduire le gap sémantique. Ils offrent une multitude de nouvelles fonctionnalités et de service de haut niveau en exploitant des concepts importants telles que la segmentation hiérarchique du contenu, la multi modalité et l’indexation multi-niveaux. Cependant, les systèmes obtenus deviennent beaucoup plus complexes et nécessitent une plus grande puissance de calcul.

Une analyse de l’état de l’art des applications actuelles des systèmes d’indexation a été aussi proposée dans ce papier. Cette analyse montre l’existence d’une multitude de nouveaux champs d’application des techniques d’indexation notamment pour la télévision interactive, les PVR, les applications de sécurité, etc. Ces applications présentent des nouvelles contraintes plus critiques (puissance et temps de calcul, flexibilité, etc.) devant être prise en compte lors de la mise en œuvre des systèmes d’analyse du contenu AV.

Cette étude nous a permis de montrer l’intérêt et la nécessité de faire recours aux nouvelles technologies de systèmes embarqués. Ceci est afin de pouvoir supporter la complexité des systèmes actuels et de répondre aux besoins des nouveaux environnements d’application. Une discussion de ce problème a été proposée dans le cinquième paragraphe.

REFERENCES [ANA06] C. ANAGNOSTOPOULOS, T. ALEXANDROPOULOS, V. LOUMOS et E. KAYAFAS, "Intelligent traffic management through MPEG-7 vehicle flow surveillance", jva, pp. 202-207, IEEE John Vincent Atanasoff 2006 International Symposium on Modern Computing (JVA'06), 2006.

[BAE 03] B. BAE, SUN WOO YANG et YONG MAN RO, "Fast MPEG-7 visual descriptor extraction using DCT coefficient", TENCON 2003. Conference on Convergent Technologies for Asia-Pacific Region, pages: 1136- 1139 Vol.3, 15-17 Oct. 2003.

[BAI 05] W. BAILER, F. HÖLLER , A. MESSINA, D. AIROLA, P. SCHALLAUER et M. HAUSENBLAS, "State of the Art of Content Analysis Tools for Video, Audio and Speech", Report, FP6-IST-507336 PrestoSpace Deliverable D15.3 MDS3, 10/03/2005.

[BER 01] M. BERTINI, A. DEL BIMBO et P. PALA, "Content-Based Indexing and Retrieval of TV News", Pattern Recognition Letters 22 pp. 503-516, 2001.

[BOU 06] L. BOUSSAID, "Etude et implantation de descripteurs de contenu AV pour les applications multimedia temps reel", thèse de doctorat, Ecole nationale d’ingénieurs de Sfax, 2006.

[BOY 04] J. E. BOYD, M. SAYLES, L. OLSEN et P. TARJAN, "Content Description Servers for Networked Video Surveillance", International Conference on Information Technology: Coding and Computing (ITCC'04) Volume 2, p. 798, 2004.

SETIT2009

- 10 -

[CAL 04] J. CALIĆ, "Highly Efficient Low-Level Feature Extraction For Video Representation And Retrieveal", thèse, Department of Electronic Engineering, Queen Mary, University of London.

[CAV 04] A. CAVALLARO et T. EBRAHIMI, "Interaction between High-Level and Low-Level Image Analysis for Semantic Video Object Extraction", EURASIP Journal on Applied Signal Processing, Volume (2004), Issue 6, pp. 786-797, 2004.

[CHA 03] H.W. CHANG, "A Study on Content-Based Video Retrieval", travail dirigé par Dr. Ling-Hwei Chen, Institute of Computer and Information Science, National Chiao Tung University.

http://debut.cis.nctu.edu.tw/pages/Demo/CBVR/paper_E.pdf

[CHA 04] J.Y. CHANG, H.C. FANG, Y.W. HUANG et L.G. CHEN, "Architecture of MPEG-7 color structure description generator for realtime video applications", Internatinal conference on Image Processing (ICIP), 2004.

[CHA 05] M. CHARHAD, "Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour l’Indexation et la Recherche par le Contenu Sémantique", Thèse de doctorat, université Joseph Fourier, novembre 2005.

[CHUHong02] H. CHU HONG, "A Study of Content-Based Video Classification, Indexing and Retrieval", Master of Philosophy, first-term research paper, Hong Kong S.A.R., Novembre 2002.

[DEN 05] R. DENCHEV et W. STECHELE, "An Experimentation Environment for MPEG-7 based Driver Assistance", Eurocon 2005, Belgrade, November 22-24, 2005.

[DIM 03] N. DIMITROVA, "Multimedia content analysis: The next wave", International conference on Image and Video Retrieval, Lecture Note in Computer Science, vol. 2728, Springer (2003) 8-17.

[EBR 01] T. EBRAHIMI, Y. ABDELJAOUED, R.M. FIGUERAS I VENTURA et O. DIVORRA ESCODA, "MPEG-7 camera", International Conference on Image Processing, page(s): 600-603 vol.3, Thessaloniki, Greece, 2001.

[ENS 03] P. ENSER et C. SANDOM, "Towards a comprehensive survey of the semantic gap in visual image retrieval", International conference on Image and Video Retrieval, Lecture Note in Computer Science, vol. 2728, Springer (2003) 8-17.

[EOM 05] M. EOM et Y. CHOE, "Fast Extraction of Edge Histogram in DCT Domain based on MPEG7", TRANSACTIONS ON ENGINEERING, COMPUTING AND TECHNOLOGY V.9 NOVEMBER 2005 ISSN 1305-5313.

[FAB 04] F. FALCHI, C. GENNARO et P. SAVINO, "Efficient Video Filtering of MPEG-7 Streams", Technical Report, Id: 2004-TR-38, CNR - Istituto di Scienza e Tecnologie de l'Informazione 'A. Faedo'g,

2004-09-24.

[GLA 05] R. GLASBERG, A. SAMOUR, K. ELAZOUZI et T. SIKORA, "Cartoon-Recognition Using Video & Audio Descriptors", 13th European Signal Processing Conference, Antalya – Turquie, Septembre 2005.

[HAM 99] A. HAMPAPUR, "Semantic Video Indexing: Approach and Issues", SIGMOD Rec, volume 28, issue 1, pages: 32-39, 1999.

[KAS 03] E. KASUTANI et A. YAMADA: "An Adaptive Feature Comparison Method for Real-time Video Identification", IEEE Proc. of International Conference on Image Processing (ICIP 2003), vol.II, pp. 5-8, September 2003.

[KAP 06] R. KAPELA, A. RYBARCZYK, P. SNIATALA et R. RUDNICKI, "Hardware Realization Of The MPEG-7 Edge Histogram Descriptor", Mixed Design of Integrated Circuits and System, MIXDES 2006. Page(s): 675- 678, 22-24 June 2006.

[KIM 03] J.R. KIM, S. SUH et S. SULL, "Fast scene change detection for personal video recorder", ICCE 2003 IEEE International Conference, Consumer Electronics, 2003, page(s): 236- 237,17-19 June 2003, ISBN: 0-7803-7721-4.

[LEE 03] J.H. LEE, MEMBER, G.G. LEE et W.Y. KIM, "Automatic Video Summarizing Tool using MPEG-7 Descriptors for personal Video Recorder", IEEE Transactions on Consumer Electronics, Vol. 49, No. 3, AUGUST 2003.

[LEF 01] S. LEFEVRE, J. HOLLER et N. VINCENT, "Segmentation temporelle de séquences d’images en couleurs compressées et non compressées en temps réel", Congrès francophone ORASIS de Vision par Ordinateur. Cahors (France). p. 329–338. 2001.

[LEF 02a] S LEFEVRE, J. HOLLER et N. VINCENT, "A Review of Real-time Segmentation of Uncompressed Video Sequences for Content-Based Search and Retrieval", Real Time Imaging. Septembre 2002.

[LEF 02b] S. LEFEVRE, "Détection d'Evènements dans une Séquence Vidéo", Thèse en Informatique, Ecole Doctorale : Santé, Sciences et Technologies, Décembre 2002.

[MAO 92] J. MAO et A.K. JAIN, "Texture Classification and Segmentation using Multiresolution Simultaneous Autoregressive Models", Pattern Recognition, 25(2):pp.173-188, 1992.

[NAP 03] M. NAPHADE et J. SMITH, "A hybrid framework for detecting the semantics of concepts and context", International conference on Image and Video Retrieval, Lecture Note in Computer Science, vol. 2728, Springer (2003) 8-17.

[NOZ 03] B. NOZHA et J. FREDERIC, "Recherche d'information par le contenu visuel", Editorial, Technique et science informatiques RSTI, série TSI, Vol.22 N° 9/2003. Hermes Science Publications.

SETIT2009

- 11 -

[PAT 99] P. PATRICK, D. DAMIEN, C. ANDREA et B. MICHEL, "High Level Description of Video Surveillance Sequences", ECMAST 99, May 99, Madrid , 1999.

[PER 02] A. J. PERROTT, A. T. LINDSAY et A. P. PARKES, "Real-time multimedia tagging and content-based retrieval for CCTV surveillance systems", proceedings-spie the international society for optical engineering, 2002, issu 4862, pages 40-49.

[REA 02] S. REAAIJMAKERS, J. DEN HARTOG et J. BAAN, "Multimodal Topic Segmentation and Classification on News Video", IEEE International Conference on Multimedia and Expo 2002, Proceedings, Volume 2, pp. 33-36, 2002.

[SAN 99] J.M. SANCHEZ et X. BINEFA, "Automatic Digital TV Commercial Recognition", Proc. VIII National Symposium on Pattern Recognition and Image Analysis (SNRFAI'99), Vol 1, pp.313-320, Bilbao-Spain, Mars 1999.

[SAV 03] A. SAVAKIS, P. SNIATALA et R. RUDNICKI, "Real-time Video Annotation using MPEG-7 Motion Activity Descriptors", Mixed Design of Integrated Circuits and System, MIXDES 2003.

[SMI 00] J.R. SMITH et A.B. BENITEZ, "Conceptual Modeling of Audio-Visual Content", IEEE international conference on Multimedia and Expo, ICME 2000.

[SRITsrip03] T. SRIPAN, M. EL-SHARKAWY et M. RIZKALLA, "Fast multiplierless approximation of the DCT for MPEG-7 color layout descriptor", the 46th IEEE International Midwest Symposium on Circuits and Systems, 27-30 Dec. 2003 Pages: 708 - 713 Vol. 2.

[STE 05a] O. STEIGER, T. EBRAHIMI et A. CAVALLARO, "Real-time generation of annotated video for surveillance", Proceedings of IEE workshop on image analysis for multimedia interactive services, WIAMIS 2005.

[STE 05b] W.STECHELE et S.HERRMANN, "Reconfigurable Hardware Acceleration for Video-based Driver Assistance", Workshop on Hardware for Visual Computing, Tübingen. April 29, 2005.

[SZU 98] M. SZUMMER et R. W. PICARD, "Indoor-Outdoor Image Classification", Proceedings of the International Workshop on Content-Based Access of Image and Video Databases, "CAIVD'98", Washington-USA, 1998.

[TRE 06] Guidelines for the TRECVID 2006 Evaluation, http://www-lpir.nist.gov/projects/tv2006/tv2006.html

[YAM 06] K. YAMAOKA, T. MORIMOTO, H. ADACHI et T. KOIDE, "Image segmentation and pattern matching based FPGA/ASIC implementation architecture of real-time object tracking", Proceedings of the 2006 conference on Asia South Pacific design automation, pp. 176 – 181, ISBN:0-7803-9451-8, Yokohama, Japan, 2006.

[YOO 04] J.-C.YOON, H. KIM, S. S.CHUN, J.-

R.KIM et S.SULL, "Real-Time Video Indexing System for Live Digital Broadcast TV Programs", Lecture notes in computer science , ISSU 3115, pages 261-269, 2004.

[WOZ 04] B. WOZ et A. SAVAKIS, "A VHDL MPEG-7 shape descriptor extractor", ACM/SIGDA 12th international symposium on Field programmable gate arrays, Monterey, California, USA, p. 246 – 246, February 22 - 24, 2004.

[ZHA 01] D. ZHANG et G. LU, "Segmentation of moving objects in image sequence: A review", Circuit, Systems and Signal Processing, 20(2), 143-189, 2001.


Recommended