Los últimos progresos en microscopia y el desarrollo de las técnicas de captura de la conformación del cromosoma (3C) han permitido determinar la estructura del cromosoma de diferentes organismos, desde bacterias a humanos. Investigadores han desarrollado metodologías para modelar la estructura del cromosoma en tres-dimensiones (3D). A pesar del gran número de estudios, no se ha evaluado aún la precisión y la metodología de la modelización de la conformación en 3D de los cromosomas. Además, se ha demostrado que la estructura de la cromatina tiene un papel esencial en la regulación de la expresión genética. ¿Cual es el papel de esa interacción entre la organización de la cromatina y la regulación de la transcripción en moldear la estructura del núcleo? En esa tesis, hemos abordado estos dos problemas: hemos desarrollado una metodología para evaluar la precisión de los modelos reconstruidos; segundo hemos aplicado este método de modelización para explorar la estructura del cromosoma de la bacteria Mycoplasma pneumoniae que tiene un genoma reducido y pocas proteínas que unen DNA. Combinando microscopia de alta-resolución con Hi-C, hemos determinado la estructura tridimensional de su genoma y hemos establecido principios fundamentales de la organización de un cromosoma. Por ejemplo hemos estudiado el impacto de los dominios en la regulación de la transcripción. En conclusión, sugerimos que la estructura del cromosoma podría ser una característica de todos seres vivos, incluyendo los que tienen un genoma mínimo.
Since the appearance of high throughput sequencing technologies, biological data sets have become increasingly large and complex, which renders them practically impossible to interpret directly by a human. The machine learning paradigm allows a systematic analysis of relationships and patterns within data sets, making possible to extract information by leveraging the sheer amount of data available. However, violations of basic machine learning principles may lead to overly optimistic estimates, a prevalent problem known as overfitting. In the field of protein folding, we found examples of this in published models that claimed high predictive power, but that performed poorly on new data. A different problem arises in epigenetics. Issues such as lack of reproducibility, heterogeneous quality and conflicts between replicates become evident when comparing ChIP-seq data sets. To overcome this limitations we developed Zerone, a machine learning-based ChIP-seq discretizer capable of merging information from several experimental replicates and automatically identifying low quality or irreproducible data.
Des de l’aparició de les tecnologies de seqüenciació d’alt rendiment, els conjunts de dades biològiques han esdevingut cada cop més grans i complexes, la qual cosa els fa pràcticament impossibles d’interpretar manualment. El paradigma de l’aprenentatge automàtic permet fer una anàlisi sistemàtica de les relacions i patrons existents en els conjuts de dades, tot aprofitant l’enorme volum de dades disponibles. No obstant això, una aplicació poc curosa dels principis bàsics de l’aprenentatge automàtic pot conduir a estimacions massa optimistes, un problema prevalent conegut com a sobreajust. En el camp del plegament de proteïnes, en vam trobar exemples en models publicats que afirmaven tenir un alt poder predictiu, però que es comportaven de forma mediocre devant de dades noves. En el camp de l’epigenètica, problemes com la falta de reproducibilitat, qualitat heterogènia i conflictes entre replicats esdevenen evidents quan es comparen diferents conjunts de dades de ChIP-seq. Per superar aquestes limitacions vam desenvolupar Zerone, un discretitzador de ChIP-seq basat en aprenentatge automàtic que és capaç de combinar informació de diferents replicats experimentals i d’identificar automàticament dades de baixa qualitat o irreproduïbles.
© 2001-2025 Fundación Dialnet · Todos los derechos reservados