La humanidad pronto podría generar más datos que los que pueden almacenar los discos duros o las cintas magnéticas, un problema que ha llevado a los científicos a recurrir a la sabiduría de la naturaleza para el almacenamiento de información.

En un estudio publicado en Science, un par de investigadores de la Universidad de Columbia y el Centro del Genoma de Nueva York (NYGC), en Estados Unidos, muestran que un algoritmo inicialmente diseñado para transmitir video a través de un teléfono móvil puede desbloquear la práctica totalidad del potencial de almacenamiento del ADN, comprimiendo más información en sus cuatro nucleótidos básicos. Demuestran que esta tecnología también es extremadamente fiable.

El ADN es un medio de almacenamiento ideal porque es ultracompacto y puede llegar a durar cientos de miles de años si se mantiene en un lugar fresco y seco, como lo demuestra la recuperación reciente del ADN de los huesos de un antepasado humano de 430.000 años de antigüedad en una cueva en España [Atapuerca].

«El ADN no se degradará con el tiempo como las cintas de casete y CD, y no se volverá obsoleto; si lo hiciera, tendríamos un problema mayor», dijo el coautor del estudio, Yaniv Erlich, profesor de ciencias de la computación en Columbia Engineering, miembro del Columbia Data Science Institute, y un miembro clave de la NYGC.

(Imagen ampliable) Laboratorio de la Universidad de Columbia, y los investigadores Yaniv Erlich y Dina Zielinski. Imagen: New York Genome Center

Erlich y su colega Dina Zielinski, científica asociada de la NYGC, escogieron seis archivos para codificar o escribir en el ADN: un sistema operativo de ordenador completo, una película francesa de 1895, «Llegada de un tren a La Ciotat», un bono de 50 dólares de Amazon, un virus informático, una placa de la sonda Pioneer y un estudio de 1948 del teórico de la información Claude Shannon.

Comprimieron los archivos en un archivo maestro, y luego dividieron los datos en cadenas cortas de código binario compuesto de unos y ceros. Usando un algoritmo de corrección de borrado llamado código fuente, empaquetaron aleatoriamente las cadenas en las llamadas ‘gotas’, y escanearon los unos y los ceros de cada gotita a las cuatro bases nucleotídicas en el ADN: A, G, C y T. El algoritmo suprimió las combinaciones de letras que se sabía que podían generar errores y agregaron un código de barras a cada gotita para ayudar a volver a montar los archivos más adelante.

En total, generaron una lista digital de 72.000 hebras de ADN, cada una de 200 bases de largo, y lo enviaron en un archivo de texto a Twist Bioscience, una empresa pionera de síntesis de ADN en San Francisco, especializada en la conversión de datos digitales en datos biológicos. Dos semanas más tarde, recibieron un vial que contenía una mota de moléculas de ADN.

Para recuperar sus archivos, utilizaron tecnología de secuenciación moderna para leer las cadenas de ADN, seguido de software para traducir el código genético al lenguaje binario. Según informaron en el estudio, recuperaron sus archivos con cero errores. (En esta breve demostración, Erlich abre su sistema operativo archivado en una máquina virtual y juega un juego de Minesweeper para celebrarlo.)

También demostraron que con su técnica de codificación podría crearse un número virtualmente ilimitado de copias de los archivos multiplicando su muestra de ADN a través de la reacción en cadena de la polimerasa (PCR), y que esas copias e incluso las copias de sus copias, etc. serían recuperadas sin errores.

Cortometraje descodificado de hebras de ADN.

Por último, los investigadores demostraron que su sistema de codificación aglutina 215 petabytes de datos en un solo gramo de ADN, 100 veces más que los métodos publicados por los investigadores pioneros George Church en Harvard y Nick Goldman y Ewan Birney en el Instituto Europeo de Bioinformática. «Creemos que este es el dispositivo de almacenamiento de datos de mayor densidad jamás creado», dijo Erlich.

La capacidad de almacenamiento de datos de ADN está teóricamente limitada a dos dígitos binarios para cada nucleótido, pero las restricciones biológicas del propio ADN y la necesidad de incluir información redundante para volver a montar y leer los fragmentos más tarde reduce su capacidad a 1,8 dígitos binarios por base de nucleótidos.

La idea del equipo era aplicar códigos fuente, una técnica que Erlich recordó de la escuela de posgrado, para hacer el proceso de lectura y escritura más eficiente. Con su técnica de fuente de ADN, Erlich y Zielinski consiguieron empaquetar un promedio de 1,6 bits en cada base de nucleótido. Eso es por lo menos un 60 por ciento más datos que los métodos publicados anteriormente, y cerca del límite de 1.8-bit.

El coste sigue siendo una barrera. Los investigadores gastaron 7,000 dólares americanos para sintetizar el ADN que usaron para archivar sus 2 megabytes de datos, y otros 2,000 dólares para leerlo. Aunque el precio de la secuenciación del ADN ha caído exponencialmente, puede que no exista la misma demanda de síntesis de ADN, dice Sri Kosuri, un profesor de bioquímica en la Universidad de California en Los Ángeles que no participó en el estudio. «Los inversores pueden no estar dispuestos a arriesgar toneladas de dinero para bajar los costos», dijo.

Pero el precio de la síntesis de ADN puede ser enormemente reducido si se producen moléculas de menor calidad, y las estrategias de codificación como la fuente de ADN se utilizan para corregir los errores moleculares, dice Erlich. «Podemos hacer mayor trabajo pesado en el ordenador para así eliminar la carga que supone el largo tiempo de la codificación molecular», dijo.

Artículo original publicado por la Universidad de Columbia en Nueva York. Revisado y traducido por ¡QFC!

Deja tu comentario