Ayuda
Ir al contenido

Dialnet


Ngs applications in genome evolution and adaptation

  • Autores: Pablo Prieto Barja
  • Directores de la Tesis: Cedric Notredame (dir. tes.)
  • Lectura: En la Universitat Pompeu Fabra ( España ) en 2017
  • Idioma: español
  • Tribunal Calificador de la Tesis: Daniel Gautheret (presid.), Stephan Ossowski (secret.), David Torrents Arenales (voc.)
  • Programa de doctorado: Programa de Doctorado en Biomedicina por la Universidad Pompeu Fabra
  • Materias:
  • Texto completo no disponible (Saber más ...)
  • Resumen
    • Durante el doctorado he utilizado nuevas tecnologias de secuenciacion en diferentes organismos y escenarios tales como en ENCODE comparando la conservacio y evolucion de de RNAs largos no codificantes entre las especies de ratones y humanos, utilizando evidencias experimentales del genoma, transcriptoma y cromatina. Se ha seguido una estrategia similar para estudiar la evolucion de los genomas de otros organismos como el frijol mesoamericano y en el gallo y gallina domesticos. Se han ralizado otro tipo d analisis utilizando tambin datos de ultrasequnciacion en el conocido parasito humano Leishmania Donovani, el agente causante de la enfermedad Leishmaniasis. Haciendo uso de datos NGS obtenidos tanto del genoma como del transcriptoma, se ha seguido la evolucion y adaptacion del genoma de estas especies de parasitos mediante sus strategias de adaptacion y supervivencia a traves de infecciones. Todo este trabajo se llevo a cabo durante el desarrollo de herramientas y estrategias para implementar y diseñar analisis bioinformaticos eficientemente como flujos de trabajo con tal de hcerlos facilmente accesibles, faciles de desplegar y con un alto rendimiento. Gracias a ello ste trabajo ha provisto de varias strategias con tal de evitar la falta de reproducibilidad y inconsistencia que se pude encontrar en investigacion comunmente, y aplicado a la biologia de genomas y evolucion de sus secuencias.

      La reproducibilidad en la investigación científica es una cuestión preocupante, que ha sido una preocupación creciente en la comunidad científica a traves del tiempo. A veces incluso se llega hasta el punto de describir el estado actual en la ciencia como un estado de crisis de reproducibilidad, después de la recopilación de encuestas con información sobre las experiencias de varios científicos (Baker, 2016). El corazón de la publicación científica se basa en la expectativa de que la investigación científica sea reconocible y reproducible. Sin embargo, a través de los años, se han encontrado muchos ejemplos y se han propuesto soluciones para identificar, cuantificar y superar estos problemas (Stodden et al., 2013; Firtina y Alkan 2016). Más específicamente en biología computacional y bioinformática, donde hay fuentes inherentes de variabilidad al tratar de transmitir cualquier tipo de análisis que se pueda basas en cálculos numéricos. Estas fuentes llevan a diferencias en los resultados y, por tanto, un cierto nivel de inestabilidad que se puede apreciar al ejecutar el mismo análisis en diferentes entornos utilizando los mismos métodos, datos y herramientas. La solución utilizada por Nextflow (Nextflow - A DSL para paralelo y sca ... Di Tommaso) ha sido propuesta previamente (Boettiger 2014), pero la falta de estandarización y acuerdo en este tipo de soluciones para abordar estos temas no ha llevado su adopción y integración en la bioinformática. Esta tecnología es nueva para la bioinformática y necesitaba un estudio más profundo, tal y como una evaluación sobre el costo y las consecuencias en su introducción dentro del análisis de bioinformática y sus entornos de ejecución comunes. Los resultados obtenidos en los conjuntos de datos ENCODE (The ENCODE Project Consortium 2012) y las aplicaciones genómicas típicas utilizadas en proyectos a gran escala demostraron que este enfoque era más que conveniente y sin suponer una sobrecarga o penalización notable en el rendimiento. Este enfoque ha recibido atención y ha sido propuesto como directrices sobre cómo abordar las tecnologías de contenedores y aprovecharlas para fines reproducibles siguiendo la misma línea propuesta en nuestro trabajo (Moreews et al 2015, Belmann et al 2015, Pabinger et al., 2016, Byron et al., 2016).

      En el caso del estudio aplicado a la evolucion de genomas y secuencias no codificanctes, aunque la conservación de la secuencia en lncRNAs no es tan alta como en los genes codificadores de proteínas, es todavía más alto que otros elementos en el genoma, tales como repeticiones antiguas (Ponjavic et al., 2007). Por lo tanto, sigue siendo útil utilizar la profundidad filogenética, ya que el número de especies en un árbol hasta el cual se conservan los lncRNAs, junto con la relación de homología y la conservación del nivel de secuencia para catalogar y priorizar el análisis (Pervouchine et al., 2015) Aquellos lncRNAs cuyo enriquecimiento y correlación con los datos experimentales es alto. Aunque existe cierto grado de conservación en el nivel de expresión entre especies, la falta de conservación de la secuencia hace que la caracterización funcional sea un desafío. Con el fin de abordar esta cuestión otros estudios han tratado de correlacionar la conservación de la secuencia inferior con la conservación de la estructura secundaria de ARN (Johnsson et al., 2014). Por otra parte, los datos también sugirieron que no sólo la conservación de la secuencia podría ser limitada, sino también los niveles de transcripción y su regulación como se muestra en la comparación de los niveles de expresión entre ratón y humano, enriquecido con marcas epigenéticas. Anotación de lncRNAs en conjuntos de datos manualmente curados como GENCODE para humanos y genomas de ratón (Harrow et al., 2012, Mudge y Harrow 2015) trajo un aumento en el número de genes y transcritos publicados año tras año. Aunque un gran número de genes se han incluido en las anotaciones de referencia y en las anotaciones derivadas experimentalmente, nuestros resultados relativos a una pequeña fracción de los lncRNAs siendo altamente restringido y conservado a través de la anotación de mamíferos todavía se sostiene y ha sido replicado por otros similares enfoques similares recientemente en la literatura (Chen et al., 2016, Gardner et al., 2015, Hezroni et al., 2015). Nuestro enfoque para identificar y estimar el nivel de conservación es lo suficientemente estricto para llamar homología y ortologia entre especies, ya que probablemente carecerá de modelos que están evolucionando rápidamente y con una tasa de mutaciones mucho mayor de lo que suele verse en los genes codificantes de proteínas (Freyhult Et al., 2007, Roshan et al., 2008). A menudo es difícil cruzar los conjuntos de datos de diferentes fuentes especialmente cuando en diferentes trabajos se han utilizado diferentes filtros con el fin de clasificar lncRNAs. Esto puede extrapolarse a partir de nuestra comparación cruzando los conjuntos de datos recientemente publicados de lncRNA, que no proporcionaron ni un buen soporte en términos de evidencias experimentales de transcripción y definición completa del modelo de transcripción, ni buenos solapamientos posicionales (Ravasi et al., 2010; FANTOM Consortium and the RIKEN PMI a ...).

      En el caso aplicado al estudio de Leishmania, nos encontramos con uno de los patógenos más mortíferos del mundo. L. donovani, cuando no se trata, genera leishmaniasis visceral, provocando entre 200.000 y 300.000 casos de la enfermedad cada año (Alvar et al., 2012). En el viejo mundo, la mayoría de los casos de leishmaniasis proceden de subcontinentes indios, desde donde se han llevado a cabo estudios clínicos genómicos para caracterizar la epidemiología y especialmente el aumento de la resistencia a los medicamentos (Imamura et al., 2016). En nuestro trabajo revisamos los 204 aislados clínicos de los subcontinentes indios y encontramos rastros de episodios recurrentes de aneuploidía en casi los mismos cromosomas. Algunos de estos eventos también se han observado en otras especies recientemente secuenciadas (Llanes et al., 2015). Continuamos estos análisis con una cepa híbrida en un sistema in vitro para controlar la aneuploidía a través del tiempo. La aneuploidía previamente detectada y descrita en la literatura es el evento en el que los cromosomas tienen más copias de las esperadas, esto es dos copias del genoma típicamente diploide de las especies de Leishmania (Sterkers et al., 2011). Debido a nuestros resultados en los 204 cepas indias, esperamos que el genoma de estos parásitos sea extremadamente dinámico para que podamos capturar eventos aneuploídicos con tanta frecuencia. Buscamos interrogar la dinámica de estos eventos pasando un aislamiento de campo en un sistema in vivo, en hámster, donde la aneuploidía rápidamente vuelve hacia el estado disomic. Se muestra con FISH que estas transiciones dinámicas de aneuploidías pueden observarse todavía en el hámster, con diferentes órganos que muestran diferentes patrones de aneuploidias cromosómicas en menor proporción que los cultivados, señalando hacia la preexistencia de subpoblaciones aneuploídicas. Es interesante señalar que diferentes órganos podrían reflejar diferentes ambientes y fortalezas del sistema inmunológico que el parásito necesita para adaptarse de manera diferente (Stanley y Engwerda 2007).

      Resultados y objetivos: • Nextflow es un nuevo sistema de gestión de flujo de trabajo desarrollado y presentado para abordar los principales problemas de reproducibilidad que se han encontrado durante los últimos años al tratar con pipelines computacionales complejas. Proporciona características para evitar inestabilidades numéricas entre diferentes entornos, lo que lleva a diferentes resultados del análisis, y también la posibilidad de rastrear, compartir e implementar automáticamente las pipelines computacionales publicadas desde los repositorios.

      • El enfoque seguido por Nextflow para desarrollar pipelines permite el prototipo rápido, su modelo Dataflow permite implícitamente la paralelización automática en un gran número de entornos diferentes, teniendo soporte para todas las plataformas principales en entornos HPC / cluster como Gridengine, Torque, PBS, Slurm, También en la nube.

      • Se publicó un conjunto extendido de genes de ratón establecidos mediante la cartografía de 17.547 RNA largos no codificante humanos anotados en Gencode contra el genoma del ratón utilizando una pipeline. Del conjunto de homólogos 2327 (13,26%) de lncRNA humanos (correspondientes a 1.679, o 15.48%, de los genes de lncRNA) eran homólogos a 5.067 transcritos de ratón (correspondientes a 3.887 genes).

      • Revisado y ampliada la colección de lncRNA en el genoma del pollo utilizando una combinación de ab initio lncRNA derivados de RNAseq de 20 diferentes tejidos y se mzclo con predicciones basadas en homologia de lncRNAs de GENCODE. El nivel de conservación se midió usando un conjunto de 42 genomas aviares recién secuenciados encontrando dos subconjuntos, 5.058 conservados en más de 10 genomas y otro subconjunto de 1251 conservados en más de 40 genomas aviares.

      • En el genoma y el transcriptoma del frijol común mesoamericano publicamos un conjunto de 1033 genes de lncRNA de P. vulgaris. El conjunto de genes se derivó de un conjunto de A. Thaliana lncRNAs encontrados en la literatura de los cuales 38 fueron asignados en P.Vul genoma utilizando nuestra pipeline, mientras que el resto de los genes fueron derivados ab initio de RNAseq de 7 órganos. El conjunto total de LncRNAs se mapearon en otros 12 genomas de plantas para evaluar el nivel de conservación en el reino vegetal y encontró 94% de genes conservados en otros genomas de frijol, y 526 frijoles específicos lncRNA genes.

      • Mostramos resultados adicionales a los obtenidos en las muetras clinicias indias usando una cepa L. Donovani in Vitro y el uso de secuenciación de alto rendimiento de cómo detectar y cuantificar las amplificaciones cromosómicas y el seguimiento de su destino final a través del curso de los experimentos en un sistema in vitro. Usando más secuenciación y subclonación de poblaciones demuestra la existencia de diferentes subpoblaciones, y utilizando frecuencia alelica se es capaz de diferenciar entre los cambios de haplotipos a través del tiempo y a través de subpoblaciones.

      • Demostramos cuántas combinaciones de copias cromosómicas con diferentes haplotipos surgen durante los experimentos, que permiten al parásito crear diferencias entre las subpoblaciones de parásitos, lo que permite explorar un gran espacio genotípico. Junto con los cambios en las características fenotípicas como el crecimiento y la infectividad, vemos una correlación entre los cambios de haplotipos y su respuesta al medio ambiente, proponiendo el uso de la aneuploidía y la selección de haplotipos como mecanismo de adaptación ambiental rápida en ausencia de reproducción sexual.

      Bibliografia: P. Prieto Barja1,7,$, P. Pescher2,$, G. Bussotti3, F. Dumetz4, H. Imamura4, D. Kedra1, V. Chaumeau5, H. Himmelbauer1,7, P. Bastien5, Y. Sterkers5, J.C. Dujardin4, C. Notredame1,6,*, and G. F. Späth2,* En preparacion. “Asexual maintenance of genetic diversity in the protozoan pathogen Leishmania donovani” Vlasova, Anna, Salvador Capella-Gutiérrez, Martha Rendón-Anaya, Miguel Hernández-Oñate, André E. Minoche, Ionas Erb, Francisco Câmara, et al. 2016. “Genome and Transcriptome Analysis of the Mesoamerican Common Bean and the Role of Gene Duplications in Establishing Tissue and Temporal Specialization of Genes.” Genome Biology 17 (1): 1–18.

      Schmid, Michael, Jacqueline Smith, David W. Burt, Bronwen L. Aken, Parker B. Antin, Alan L. Archibald, Chris Ashwell, et al. 2015. “Third Report on Chicken Genes and Chromosomes 2015.” Cytogenetic and Genome Research 145 (2): 78–179.

      Pervouchine, Dmitri D., Sarah Djebali, Alessandra Breschi, Carrie A. Davis, Pablo Prieto Barja, Alex Dobin, Andrea Tanzer, et al. 2015. “Enhanced Transcriptome Maps from Multiple Mouse Tissues Reveal Evolutionary Constraint in Gene Expression.” Nature Communications 6 (January): 5903.

      Yue, Feng, Yong Cheng, Alessandra Breschi, Jeff Vierstra, Weisheng Wu, Tyrone Ryba, Richard Sandstrom, et al. 2014. “A Comparative Encyclopedia of DNA Elements in the Mouse Genome.” Nature 515 (7527): 355–64.

      Di Tommaso, Paolo, Emilio Palumbo, Maria Chatzou, Pablo Prieto, Michael L. Heuer, and Cedric Notredame. 2015. “The Impact of Docker Containers on the Performance of Genomic Pipelines.” PeerJ 3 (September): e1273.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno