Segmentation et indexation d’objets complexes dans les images de bandes déssinées

Author

Rigaud, Christophe

Director

Burie, Jean-Christophe

Codirector

Karatzas, Dimosthenis

Ogier, Jean-Marc

Date of defense

2014-12-11

ISBN

9788449049620

Legal Deposit

B-2916-2015

Pages

182 p.



Department/Institute

Universitat Autònoma de Barcelona. Departament d'Informàtica

Abstract

Nacido en el siglo 19, los historietas se utilizan para la expresión de ideas a través de secuencias de imágenes, a menudo en combinación con el texto y los gráficos. El cómic esta considerado como un noveno arte, arte secuencial, salida con los avances en la impresión y la Internet en todo el mundo en periódicos, libros y revistas. Hoy en día, el creciente desarrollo de las nuevas tecnologías y la World Wide Web (el lienzo Internet) da lugar a nuevas formas de expresión que lleva el papel a disfrutar de la libertad del mundo virtual. Sin embargo, el cómic tradicional persiste y es un patrimonio cultural importante en muchos países. A diferencia de la música, el cine o la literatura clásica, que aún no ha encontrado son homólogos en el mundo digital. El uso de tecnologías de la información y de las telecomunicaciones podría facilitar la exploración de bibliotecas en línea, la traducción y acelerar su permiso de exportación a la mayor lectura (enriquecimiento de los contenidos durante la reproducción, a la carta y personalizado ) o permitir la escucha de texto y efectos de sonido para los estudiantes con discapacidad visual o allumnos. Agencias de la preservación del patrimonio cultural como CIBDI en Angouleme (Centro Internacional del Cómic y de imagen), el Museo Internacional de Manga en Kioto (Kyoto International Manga Museum) o el sitio digitalcomicmuseum.com de los Estados Unidos han digitalizado cientos de álbumes, algunos son públicos. Pese a la creciente cuota de mercado de los cómics digitales en los países desarrollados, poca investigación se ha llevado a cabo hasta la fecha para desarrollar estos contenidos a través de las nuevas tecnologías. El análisis de documentos es un tema de investigación que se ocupa de este problema. Una de estas características es la dependencia del tipo de documento que a menudo requiere un tratamiento específico. El proceso de creación de un cómic es exclusivo de este arte que puede ser considerado como un nicho en el campo de análisis de documentos. En realidad, este nicho está en la intersección de varios documentos de investigación que cuenta consiste en un fondo complejo, contenido semi-estructurada y variada. La intersección de varias investigaciones combina sus dificultades. En esta tesis de doctorado, se describen e ilustran los diversos retos científicos de esta investigación con el fin de dar al lector toda la evidencia acerca de los últimos avances científicos en el campo, así como las barreras científicas actuales. Proponemos tres enfoques de análisis de imagen cómica compuesta por diferentes tratamientos que mejora algunos trabajos previos y otros que son nuevas vías de exploración. El primer enfoque se denomina \secuencial" porque los contenidos de la imagen se describe gradualmente y de manera intuitiva. Simples artículos como cajas y texto y las burbujas se extraen primero y luego siguen la cola de las burbujas y los personajes de los cuadros de acuerdo a la dirección apuntada por las colas. El segundo método ofrece extracciones independientes unos de otros a fin de evitar la propagación del error entre aplicaciones, que es la principal desventaja del primer método. En este enfoque, los diversos extractores se pueden utilizar en paralelo, ya que no tienen la interdependencia. Otros elementos como la clasificación del tipo de burbuja y el reconocimiento de texto están asociados. El tercer enfoque introduce un sistema basado en un conocimiento a priori del contenido de las imágenes de dibujos animados que interactúa entre los tratamientos bajos y altos niveles para construir una descripción semántica de la imagen. Proponemos un sistema experto consiste en un sistema de inferencia y dos modelos de la forma de ontologías, un modelo para el campo de los cómics y el otro para modelar el procesamiento de imágenes asociado. Este sistema experto combina las ventajas de ambos enfoques anteriores y proporciona un alto nivel de descripción semántica puede incluir información como el orden de lectura de los cuadros, el texto y las burbujas, burbujas relaciones entre habladas y sus altavoces y el distinción entre los caracteres. Además, se describen los primeros cómics públicas basadas en imágenes y la realidad sobre el terreno que incluye que se han propuesto a la literatura científica, la información espacial y semántica. Un experimento de todos los métodos propuestos y una comparación de los enfoques de la literatura también se detallan en este manuscrito.


Born in the 19th century, comics is a visual medium used to express ideas via images, often combined with text or visual information. It is considered as a sequential art, spread worldwide initially using newspapers, books and magazines. Nowadays, the development of the new technologies and the World Wide Web is giving birth to a new form of paperless comics that takes advantage of the virtual world freedom. However, traditional comics still represent an important cultural heritage in many countries. They have not yet received the same level of attention as music, cinema or literature about their adaptation to the digital format. Using information technologies with classic comics would facilitate the exploration of digital libraries, faster theirs translations, allow augmented reading, speech playback for the visually impaired etc. Heritage museums such as the CIBDI (French acronym for International City of Comic books and Images), the Kyoto International Manga Museum and the digitalcomicmuseum. com have already digitized several thousands of comic albums that some are now in the public domain. Despite the expending market place of digital comics, few researches have been carried out to take advantage of the added value provided by these new media. Document analysis is the corresponding eld of research which is relatively application-dependent. The design process of comics is so typical that their automated analysis may be seen as a niche research eld within document analysis, at the intersection of complex background, semi-structured and mixed content documents. Being at the intersection of several fields combine their dificulties. In this thesis, we review, highlight and illustrate the challenges in order to give to the reader a good overview about the last research progress in this eld and the current issues. We propose three diferent approaches for comic book image analysis relying on previous work and novelties. The first approach is called \sequential" because the image content is described in an intuitive way, from simple to complex elements using previously extracted elements to guide further processing. Simple elements such as panel text and balloon are extracted first, followed by the balloon tail and then the comic character position in the panel from the direction pointed by the tail. The second approach addresses independent information extraction to recover the main drawback of the rst approach: error propagation. This second method is called \independent" because it is composed by several specific extractors for each elements of the image content. Those extractors can be used in parallel, without needing previous extraction. Extra processing such as balloon type classification and text recognition are also covered. The third approach introduces a knowledge-driven system that combines low and high level processing to build a scalable system of comics image understanding. We built an expert system composed by an inference engine and two models, one for comics domain and an other one for image processing, stored in an ontology. This expert system combines the benefits of the two first approaches and enables high level semantic description such as the reading order of panels and text, the relations between the speech balloons and their speakers and the comic character identification. Apart from that, in this thesis we have provided the first public comics image dataset and ground truth to the community along with an overall experimental comparison of all the proposed methods and some of the state-of-the-art methods.

Keywords

Document analysis; Anàlisi de documents; Comics understanding; Interpretació comics

Subjects

68 - Industries, crafts and trades for finished or assembled articles

Knowledge Area

Ciències Experimentals

Documents

cr1de1.pdf

4.044Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/3.0/es/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/3.0/es/

This item appears in the following Collection(s)