From Pixels to Patterns: Learning the Visual Grammar of Document Layouts
llistat de metadades
Author
Director
Llados Canet, Josep
Tutor
Llados Canet, Josep
Date of defense
2025-11-07
Pages
229 p.
Doctorate programs
Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica
Abstract
Comprendre el llenguatge visual i estructural dels documents és fonamental per avançar en el camp de la Intel·ligència Artificial Documental. Aquesta tesi parteix de la hipòtesi que l’estructura de pàgina, o layout, funciona com un llenguatge latent: una gramàtica visual que dicta com s’organitza i interpreta la informació en documents rics en contingut visual. En lloc de seguir els enfocaments tradicionals centrats exclusivament en l’extracció de text mitjançant OCR, aquest treball investiga com integrar la consciència del disseny de pàgina al llarg de tres eixos principals: Interpretació, Representació i Generació. En l’eix d’Interpretació, es proposen arquitectures de segmentació basades en transformers que permeten analitzar documents a nivell d’instància. El model SwinDocSegmenter ofereix una solució robusta per a documents amb estructures complexes, com ara formularis, llibres escanejats o articles científics. Per abordar contextos amb escassetat de dades etiquetades, es presenta l’extensió SemiDocSeg, que incorpora aprenentatge semi-supervisat basat en suports i coocurrència d’estructures per guiar el model. Això permet una generalització eficaç en entorns de baix recursos, com documents històrics o administratius específics. Pel que fa a l’eix de Representació, la tesi investiga com aprendre representacions estructurades dels documents sense dependència de supervisió explícita. SelfDocSeg introdueix un mètode auto-supervisat de tipus contrastiu i basat en visió que utilitza màscares estructurals i reconeixement de patrons visuals per capturar la semàntica del document. En paral·lel, Doc2GraphFormer proposa una representació basada en grafs que modela les relacions espacials i semàntiques entre elements del document. Aquest enfocament agnòstic a la tasca resulta útil per a múltiples aplicacions, des de classificació fins a recuperació d'informació. En l’eix de Generació, es desenvolupa una sèrie de marcs que utilitzen l’estructura de pàgina per condicionar la síntesi i el disseny de documents. DocSynth permet generar imatges de documents amb estructures predefinides. DocSynthv2 utilitza un model autoregressiu per generar documents com a seqüències de tokens de disseny i text, oferint funcionalitats com completat de documents o edició estructurada. Finalment, SketchGPT porta aquests principis al domini gràfic vectorial, aprenent a completar esbossos i reconèixer formes mitjançant una arquitectura inspirada en GPT, i tractant cada traç com una unitat seqüencial. Aquest conjunt de contribucions ofereix una nova visió on el disseny no és un soroll que cal eliminar, sinó una font rica d’informació estructural. Tractar el layout com a llenguatge permet crear sistemes d’IA documental més precisos, interpretables i creatius. Les metodologies proposades han estat validades tant en entorns experimentals com en aplicacions reals, com ara sistemes d’edició documental, cerca intel·ligent o refinament d’OCR. A més, la tesi introdueix nous bancs de proves i protocols d’avaluació per abordar tasques com el raonament multimodal, la generació estructurada o l’avaluació en escenaris de pocs exemples. Això impulsa un replantejament dels criteris d’avaluació habituals i subratlla la importància d’incloure la dimensió estructural en les anàlisis. En resum, aquest treball obre la porta a una nova generació de sistemes que no només llegeixen, sinó que entenen, raonen i generen documents amb consciència plena del seu disseny. Aprendre el llenguatge del layout és un pas essencial per aconseguir una comprensió més profunda i una interacció més rica entre humans i màquines en l’àmbit documental.
Comprender el lenguaje visual y estructural de los documentos es clave para el avance de la Inteligencia Artificial Documental. Esta tesis parte de la hipótesis de que el diseño de página no es simplemente un contenedor visual, sino un lenguaje latente con su propia gramática estructurada que influye directamente en cómo se presenta, organiza e interpreta la información. A diferencia de los enfoques clásicos centrados únicamente en la extracción de texto mediante OCR, proponemos una visión integral donde el layout se convierte en una fuente principal de conocimiento y contexto. Esta exploración se articula a través de tres ejes fundamentales: Interpretación, Representación y Generación. En el eje de Interpretación, se desarrollan modelos de segmentación basados en transformers diseñados para identificar y analizar instancias estructurales dentro de documentos complejos. El modelo SwinDocSegmenter introduce una arquitectura jerárquica capaz de segmentar documentos con múltiples elementos visuales y formatos variados. Para abordar escenarios con escasez de datos anotados, se propone SemiDocSeg, una extensión semi-supervisada que aprovecha patrones de co-ocurrencia y guías de apoyo para mantener un rendimiento competitivo incluso en entornos de bajos recursos. Ambos enfoques permiten interpretar documentos de manera precisa y robusta, independientemente de su origen o estructura. En cuanto al eje de Representación, la tesis explora cómo capturar la semántica y estructura de los documentos sin depender de etiquetas manuales. Se presenta SelfDocSeg, un modelo auto-supervisado basado en visión por computadora que aprende a generar representaciones sólidas mediante reconstrucción de máscaras de diseño y transformaciones visuales. Por otro lado, Doc2GraphFormer introduce una representación basada en grafos, integrando relaciones espaciales y visuales entre componentes del documento. Estas representaciones son agnósticas a la tarea y permiten su reutilización en múltiples aplicaciones, como recuperación de información, clasificación o alineación semántica. El eje de Generación se centra en cómo el diseño puede guiar la creación de nuevos documentos. En este sentido, se propone DocSynth, un marco de síntesis condicionado al layout que permite generar imágenes documentales estructuradas a partir de primitivas predefinidas. DocSynthv2 avanza este enfoque mediante una arquitectura autoregresiva capaz de modelar secuencias mixtas de diseño y texto, posibilitando tareas como completado estructural o edición condicional. Finalmente, SketchGPT lleva este planteamiento al ámbito vectorial, aplicando una arquitectura similar a GPT para completar esbozos y generar contenido gráfico basado en secuencias de trazos. Estas contribuciones consolidan una visión unificada donde el layout no es un elemento secundario, sino una fuente esencial de contexto y estructura. Al tratar el diseño como un lenguaje, se posibilita el desarrollo de sistemas de inteligencia documental más precisos, explicables y creativos. Los modelos propuestos han sido validados mediante evaluaciones experimentales rigurosas, así como mediante aplicaciones reales en entornos como edición de documentos, generación sintética o motores de búsqueda basados en diseño. Además, la tesis propone nuevos bancos de pruebas y métricas para evaluar capacidades de razonamiento multimodal, generalización estructural en escenarios de pocos disparos, y generación visual basada en diseño. Esto supone un avance metodológico relevante que invita a repensar cómo se evalúan las capacidades de los modelos en Document AI. En resumen, este trabajo abre una nueva línea de investigación que pone en el centro el lenguaje del diseño. Al comprender y modelar la estructura como un sistema lingüístico visual, se sientan las bases para una comprensión más rica, flexible y humana de los documentos.
Understanding the visual and structural language of documents is a central challenge in the field of Document AI. This thesis investigates the core hypothesis that layout operates as a latent language—a structured grammar underlying how information is arranged, understood, and interacted with in visually rich documents. Rather than relying on traditional OCR-based pipelines that prioritize text extraction while often ignoring visual structure, this work explores layout-aware approaches across three interconnected research axes: Interpretation, Representation, and Generation. Within the Interpretation axis, the thesis introduces a set of transformer-based segmentation frameworks designed to parse document layouts at an instance level. Notably, the proposed SwinDocSegmenter leverages hierarchical attention mechanisms to segment complex layouts accurately. To further extend its applicability to settings where annotated data is scarce, a semi-supervised extension named SemiDocSeg is developed. This approach harnesses the power of support set co-occurrence and weak label guidance to enable robust parsing performance even in low-resource domains such as historical manuscripts or niche administrative documents. In the Representation axis, the work shifts focus toward understanding how layout can be encoded in neural models without explicit supervision. This is achieved through the design of self-supervised and graph-based representation learning methods. SelfDocSeg introduces a vision-only self-supervised framework that learns to reconstruct document masks and preserve structure across augmentations, enabling effective downstream performance without the need for labeled data. Complementing this, Doc2GraphFormer captures the relational structure of document objects through graph neural networks and contrastive learning, fostering task-agnostic embeddings that integrate visual, spatial, and semantic cues. Together, these contributions lay the foundation for more generalizable and explainable document understanding models. The Generation axis explores how layout can guide the creation and completion of documents. Here, the thesis presents generative frameworks such as DocSynth, DocSynthv2, and SketchGPT, which reimagine documents not as mere collections of text and images, but as sequences of layout primitives to be composed. DocSynth introduces a layout-guided synthesis strategy for controllable document image generation, enabling synthetic document creation with predefined structure. DocSynthv2 adopts an autoregressive modeling paradigm that encodes layout and textual tokens as sequences, supporting conditional document generation and layout-text completion. Finally, SketchGPT expands these ideas into the vector graphics domain, modeling sketch strokes as sequences and enabling sketch completion and classification through a GPT-style architecture. Collectively, the thesis makes a compelling case for understanding layout not as a secondary visual feature or pre-processing step, but as a first-class citizen in Document AI systems. By treating layout as both signal and structure, the proposed methods allow for more accurate, flexible, and intelligent systems that can read, reason, and generate with layout awareness. These contributions have been validated through rigorous experiments, cross-dataset evaluations, and deployments in real-world document intelligence workflows, including OCR refinement, document editing, and layout-aware search engines. In addition, the thesis proposes novel benchmarks and evaluation protocols for tasks involving multimodal document reasoning, few-shot layout generalization, and sketch-based document generation. These efforts push the boundaries of current evaluation practices and highlight the need for more holistic and layout-sensitive assessments in Document AI. This work opens up new directions in how we conceptualize and utilize layout in machine understanding. Rather than viewing layout as noise to be abstracted away, it demonstrates that layout is a language to be learned—one that can enrich our understanding of documents and support the next generation of intelligent, context-aware AI systems.
Subjects
004 - Computer science



