DNA Microarray Image Compression

Author

Hernández-Cabronero, Miguel

Director

Serra Sagristà, Joan

Date of defense

2015-06-19

ISBN

9788449053962

Legal Deposit

B-19688-2015

Pages

108 p.



Department/Institute

Universitat Autònoma de Barcelona. Departament d'Enginyeria de la Informació i de les Comunicacions

Abstract

En los experimentos con DNA microarrays se genran dos imágenes monocromo, las cuales es conveniente almacenar para poder realizar análisis más precisos en un futuro. Por tanto, la compresión de imágenes surge como una herramienta particularmente útil para minimizar los costes asociados al almacenamiento y la transmisión de dichas imágenes. Esta tesis tiene por objetivo mejorar el estado del arte en la compresión de imágenes de DNA microarrays. Como parte de esta tesis, se ha realizado una detallada investigación de las características de las imágenes de DNA microarray. Los resultados experimentales indican que los algoritmos de compresión no adaptados a este tipo de imágenes producen resultados más bien pobres debido a las características de estas imágenes. Analizando las entropías de primer orden y condicionales, se ha podido determinar un límite aproximado a la compresibilidad sin pérdida de estas imágenes. Aunque la compresión basada en contexto y en segmentación proporcionan mejoras modestas frente a algoritmos de compresión genéricos, parece necesario realizar avances rompedores en el campo de compresión de datos para superar los ratios 2:1 en la mayor parte de las imágenes. Antes del comienzo de esta tesis se habían propuesto varios algoritmos de compresión sin pérdida con rendimientos cercanos al límite óptimo anteriormente mencionado. Sin embargo, ninguno es compatible con los estándares de compresión existentes. Por tanto, la disponibilidad de descompresores compatibles en plataformas futuras no está garantizado. Además, la adhesión a dichos estándares se require normalmente en escenarios clínicos. Para abordar estos problemos, se propone una transformada reversible compatible con el standard JPEG2000: la Histogram Swap Transform (HST). La HST mejora el rendimiento medio de JPEG2000 en todos los corpora entre 1.97% y 15.53%. Además, esta transformada puede aplicarse incurriendo en un sobrecoste de tiempo negligible. Con la HST, JPEG2000 se convierte en la alternativa estándard más competitiva a los compresores no estándard. Las similaridades entre imágenes del mismo corpus también se han estudiado para mejorar aún más los resultados de compresión de imágenes de DNA microarrays. En concreto, se ha encontrado una agrupación óptima de las imágenes que maximiza la correlación dentro de los grupos. Dependiendo del corpus observado, pueden observarse resultados de correlación medios de entre 0.75 y 0.92. Los resultados experimentales obtenidos indican que las técnicas de decorrelación espectral pueden mejorar los resultados de compresión hasta en 0.6 bpp, si bien ninguna de las transformadas es efectiva para todos los corpora utilizados. Por otro lado, los algoritmos de compresión con pérdida permiten obtener resultados de compresión arbitrarios a cambio de modificar las imágenes y, por tanto, de distorsionar subsiguientes procesos de análisis. Si la distorsión introducida es más pequeña que la variabilidad experimental inherente, dicha distorsión se considera generalmente aceptable. Por tanto, el uso de técnicas de compresión con pérdida está justificado. En esta tesis se propone una métrica de distorsión para imágenes de DNA microarrays capaz de predecir la cantidad de distorsión introducida en el análisis sin necesitar analizar las imágenes modificadas, diferenciando entre cambios importantes y no importantes. Asimismo, aunque ya se habían propuesto algunos algoritmos de compresión con pérdida para estas imágenes antes del comienzo de la tesis, ninguno estaba específicamente diseñado para minimizar el impacto en los procesos de análisis para un bitrate prefijado. En esta tesis, se propone un compresor con pérdida (el Relative Quantizer (RQ) coder) que mejora los resultados de todos los métodos anteriormente publicados. Los resultados obtenidos sugieren que es posible comprimir con ratios superiores a 4.5:1 mientras se introducen distorsiones en el análisis inferiores a la mitad de la variabilidad experimental inherente. Además, se han propuesto algunas mejoras a dicho compresor, las cuales permiten realizar una codificación lossy-to-lossless (el Progressive RQ (PRQ) coder), pudiéndose así reconstruir una imagen comprimida con diferentes niveles de calidad. Cabe señalar que los resultados de compresión anteriormente mencionados se obtienen con una complejidad computacional ligeramente inferior a la del mejor compresor sin pérdida para imágenes de DNA microarrays.


In DNA microarray experiments, two grayscale images are produced. It is convenient to save these images for future, more accurate re-analysis. Thus, image compression emerges as a particularly useful tool to alleviate the associated storage and transmission costs. This dissertation aims at improving the state of the art of the compression of DNA microarray images. A thorough investigation of the characteristics of DNA microarray images has been performed as a part of this work. Results indicate that algorithms not adapted to DNA microarray images typically attain only mediocre lossless compression results due to the image characteristics. By analyzing the first-order and conditional entropy present in these images, it is possible to determine approximate limits to their lossless compressibility. Even though context-based coding and segmentation provide modest improvements over generic-purpose algorithms, conceptual breakthroughs in data coding are arguably required to achieve compression ratios exceeding 2:1 for most images. Prior to the start of this thesis, several lossless coding algorithms that have performance results close to the aforementioned limit were published. However, none of them is compliant with existing image compression standards. Hence, the availability of decoders in future platforms -a requisite for future re-analysis- is not guaranteed. Moreover, the adhesion to standards is usually a requisite in clinical scenarios. To address these problems, a fast reversible transform compatible with the JPEG2000 standard -the Histogram Swap Transform (HST)- is proposed. The HST improves the average compression performance of JPEG2000 for all tested image corpora, with gains ranging from 1.97% to 15.53%. Furthermore, this transform can be applied with only negligible time complexity overhead. With the HST, JPEG2000 becomes arguably the most competitive alternatives to microarray-specific, non-standard compressors. The similarities among sets of microarray images have also been studied as a means to improve the compression performance of standard and microarray-specific algorithms. An optimal grouping of the images which maximizes the inter-group correlation is described. Average correlations between 0.75 and 0.92 are observed for the tested corpora. Thorough experimental results suggest that spectral decorrelation transforms can improve some lossless coding results by up to 0.6bpp, although no single transform is effective for all copora. Lossy coding algorithms can yield almost arbitrary compression ratios at the cost of modifying the images and, thus, of distorting subsequent analysis processes. If the introduced distortion is smaller than the inherent experimental variability, it is usually considered acceptable. Hence, the use of lossy compression is justified on the assumption that the analysis distortion is assessed. In this work, a distortion metric for DNA microarray images is proposed to predict the extent of this distortion without needing a complete re-analysis of the modified images. Experimental results suggest that this metric is able to tell apart image changes that affect subsequent analysis from image modifications that do not. Although some lossy coding algorithms were previously described for this type of images, none of them is specifically designed to minimize the impact on subsequent analysis for a given target bitrate. In this dissertation, a lossy coder -the Relative Quantizer (RQ) coder- that improves upon the rate- distortion results of previously published methods is proposed. Experiments suggest that compression ratios exceeding 4.5:1 can be achieved while introducing distortions smaller than half the inherent experimental variability. Furthermore, a lossy-to-lossless extension of this coder -the Progressive RQ (PRQ) coder- is also described. With the PRQ, images can be compressed once and then reconstructed at different quality levels, including lossless reconstruction. In addition, the competitive rate-distortion results of the RQ and PRQ coders can be obtained with computational complexity slightly smaller than that of the best-performing lossless coder of DNA microarray images.

Keywords

Compressió; Compresión; Compression; DNA mciroarrays

Subjects

004 - Computer science and technology. Computing. Data processing

Knowledge Area

Tecnologies

Documents

mhc1de1.pdf

1.186Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/3.0/es/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/3.0/es/

This item appears in the following Collection(s)