Bonjour à tous !
📢 Pour ce 2e post de notre série sur les cas d'usage du Machine Learning, discutons de l'évaluation de la qualité esthétique des vidéos. Nous avons créé une démo permettant de quantifier cette qualité sur une vidéo.
🎞️ Le principe est simple: en entrée de notre outil, une vidéo, et en sortie une courbe de score esthétique en fonction du temps ! L'outil met aussi en avant les plans ayant les meilleurs et moins bons scores. Cela pourrait permettre de savoir quels plans sont les moins attrayants et donc les changer avant de diffuser vos vidéos !
💯 Pour créer cet outil, nous récupérons des images des vidéos (un peu plus de 1000) qui sont évaluées par un réseau de neurones prévu à cet effet. On s'occupe ensuite de retirer les outliers (les images pendant les transitions, ou avec des artefacts de compressions qui ne sont normalement pas visibles) puis on présente les résultats en fonction de la durée de la vidéo.
On emploie ici une méthode éprouvée : entraîner un réseau de neurones à reconnaître la qualité esthétique d'une image. Le dataset utilisé pour cet entraînement comprend des milliers de photos notées par des professionnels de photographie. Il s'agit du dataset AVA, dont les images sont également annotées avec d'autres metadatas utiles en Computer Vision.
Nous utilisons un Convolutional Neural Network (CNN) couplé à une méthode particulière : la Multi Level Spatially Pooled Features Extraction (MLSP). Le CNN est entraîné sur les features extraites par cette méthode sur un réseau pré-entraîné (ici InceptionResNet-v2). Cette méthode permet de passer outre les limites de résolution que les outils antérieurs rencontraient.
On vous présente un exemple en image sur le trailer de Dune.
À bientôt !