El enorme genoma del pino de incienso -alrededor de siete veces más grande que el genoma humano- se ha convertido en el mayor secuenciado hasta la fecha y la secuencia más completa del genoma de coníferas que nunca haya sido publicada. Este logro marca la primera gran prueba de un nuevo método de análisis que puede acelerar el montaje del genoma comprimiendo cien veces la secuencia de datos .
El proyecto genoma se describe en la edición de marzo 2014 de Geneticsy de Genome Biology.
El pino de incienso es la especie arbórea más importante comercialmente en los Estados Unidos y la fuente de la mayoría de los productos de papel de ese país. El árbol también se está desarrollando como una materia prima para biocombustibles. La secuencia del genoma ayudará a los científicos a criar variedades mejoradas y comprender la evolución y la diversidad de las plantas.
Pero el enorme tamaño del genoma de este pino había sido un obstáculo a los esfuerzos de secuenciación hasta hace poco. "Es un gran genoma. Pero el reto no es sólo la recopilación de todos los datos de la secuencia. El problema es el montaje de esa secuencia en orden", dijo David Neale, profesor de Ciencias de las Plantas en la Universidad de California, Davis, quien dirigió el proyecto del genoma de pino de incienso y es autor del estudio.
Los métodos modernos de secuenciación del genoma hacen que sea relativamente fácil de leer las "letras" individuales en el ADN, pero sólo en fragmentos cortos. En el caso del pino de incienso, 16.000 millones de fragmentos separados tuvieron que adaptarse de nuevo juntos en un puzzle computacional llamado genoma de montaje.
SE LLEGÓ AL LÍMITE DE ENSAMBLAJE CON EL GENOMA HUMANO
"Hemos sido capaces de ensamblar el genoma humano, pero estaba cerca del límite de nuestra capacidad, siete veces más grande era simplemente demasiado", dijo Steven Salzberg , profesor de Medicina y Bioestadística en la Universidad Johns Hopkins, uno de los directores del equipo de montaje del genoma de este pino, que es también autor del estudio.
La magnitud del problema se puede comparar con la trituración de miles de copias del mismo libro y luego tratar de leer la historia. "Usted tiene esta gran pila de pedazos minúsculos y ahora hay que volver a montar el libro", dijo Salzberg .
La clave para la solución está en utilizar un nuevo método para pre-procesar la pila gigantesca de datos de secuencias para que todo pueda caber dentro de la memoria de trabajo de un único superordenador. El método, desarrollado por investigadores de la Universidad de Maryland, compila por superposición fragmentos de secuencia en trozos mucho más grandes, y luego tira a la basura toda la información redundante. La eliminación de las redundancias deja al ordenador con 100 veces menos secuencia de datos a tratar.
La nueva secuencia confirmó que el genoma del pino de incienso es tan grande porque está repleto de elementos de ADN invasivos que copian a sí mismos en todo el genoma. Aproximadamente el 82 % del genoma se compone de estos y otros fragmentos repetitivos de secuencia.