Bilingüe Español Modelos computacionales Taxonomía y Evolución

Midiendo el fenotipo oculto con técnicas matemáticas novedosas

Un nuevo estudio cuantifica la forma de las semillas de cebada utilizando métodos topológicos.

Erik Amézquita, estudiante de doctorado en el departamento de Matemáticas, Ciencias e Ingeniería Computacionales de Michigan State University, es el autor principal de un artículo publicado en in silico  Plants que presenta una nueva técnica para analizar la forma de las plantas.

El Análisis Topológico de Datos (ATD, también conocido como TDA por sus siglas en inglés) es una disciplina matemática emergente que se basa en la noción de que todos los datos tienen forma, y toda forma contiene datos.  Con ATD, la forma de objetos diversos puede caracterizarse utilizando representaciones matemáticas abstractas basadas en topología algebraica. Las estrategias de ATD no dependen de la existencia de puntos de referencia homólogos –características similares derivadas de un ancestro común–, ni está restringido a objetos de una orientación o dimensión particular. ATD ofrece así un marco robusto, extenso, comparable y cuantificable para medir la morfología de una diversidad de fuentes. Una de las muchas herramientas disponibles de ATD es la Transformada de Característica de Euler (ECT por sus siglas en inglés), que mide cómo cambia la topología intrínseca –específicamente la característica de Euler– de un objeto a cuando éste es rebanado a lo largo de todas las direcciones posibles.

El uso de la ECT se basa en dos puntos clave . Primero, calcular la ECT de una semilla pequeña toma solo un par de segundos, lo cual es importante cuando se trata de un gran volumen de datos. El segundo punto es que al rebanar una semilla a lo largo de todas las direcciones posibles se resume matemáticamente toda la información sobre la morfología, incluso suficiente información para reconstruir la forma original desde cero.

“El detalle es que en realidad hay un número infinito de direcciones para rebanar. Sin embargo, tomando unas 150 direcciones, parece que codificamos suficiente información morfológica para luego producir resultados emocionantes”, explica Erik Amézquita, un matemático de formación ahora convertido en biólogo.

Los autores compararon la efectividad del uso de descriptores tradicionales de forma, descriptores topológicos de forma, o una combinación de ambos para caracterizar e identificar semillas de diferentes variedades de cebada.

Primero, se recolectaron espigas de 28 variedades de cebada de morfologías y orígenes geográficos diversos. Luego, en tandas de tres o cuatro muestras, estas espigas fueron escaneadas, utilizando tomografía computarizada (TC) de rayos X  (Fig. 1). Estos escanes fueron posteriormente procesados digitalmente para aislar más de tres mil semillas individuales de las espigas.

Figura 1. Densidades normalizadas, aire y demás ruido removidos, y aristas podadas.

Con las semillas individualizadas, los autores procedieron a medir su forma. Primero midieron 11 descriptores tradicionales de forma, tales como longitud, anchura, altura, área de superficie y volumen de cada grano (Fig. 2).

Figura 2. Las semillas se alinearon de acuerdo con sus componentes principales, lo que nos permitió medir los descriptores tradicionales de forma.

Después, se midieron los descriptores topológicos de forma con la ECT. Para calcular la ECT, primero las semillas fueron rebanadas en 16 rodajas de igual grosor a largo de una dirección fija. Luego, las semillas se reconstruyen, agregando una rodaja a la vez, mientras se observan cambios en la característica de Euler (Fig. 3). Esta operación de rebanar, reconstruir rodaja a rodaja, y observar cambios en la característica de Euler se realizó para 158 direcciones diferentes en total. Con ello, la ECT produjo más de 2500 rebanadas diferentes, correspondientes a más de 2500 descriptores topológicos para cada semilla. Para evitar distorsiones causadas por el trabajo con datos en dimensiones altas –la llamada maldición de la dimensión,– fue necesaria una reducción de dimensionalidad.

Figura 3. También podemos rebanar las semillas en 32 rodajas de arriba para abajo. A medida que agregamos cada rodaja, calculamos un número asociado a la topología.

Para evaluar cuánta forma describen realmente todos los descriptores, se dio a una computadora la tarea de caracterizar y predecir las 28 variedades de cebada utilizando únicamente información morfológica de los granos. Esta máquina de vectores de soporte (SVM), utilizó tres tipos de entrenamiento. Primero, la máquina utilizó exclusivamente descriptores tradicionales de forma. Después, la máquina fue entrenada únicamente con descriptores topológicos. Finalmente, la máquina utilizó ambas fuentes de información.

Los autores hallaron que para la mayoría de las variedades, la información topológica ayuda a la computadora a producir mejores predicciones comparado a cuando se usa únicamente características tradicionales de forma. La precisión de la clasificación incrementó aún más cuando se combinaron la información tradicional y topológica, lo que demuestra que la topología mide características omitidas por la configuración tradicional. Mejor aún, si bien los descriptores tradicionales pueden agrupar las semillas en función de su variedad, los descriptores topológicos pueden agruparlas aún más en función de su espiga.

Para determinar qué es exactamente ese “algo” ignorado por las características tradicionales, se realizaron varios análisis de análisis de varianza. Una exploración de las direcciones y rebanadas utilizados para calcular la ECT revela que la forma de la hendidura central y la parte baja de la semilla son lo que más discrimina variedades y espigas distintas (Fig. 4).

Figura 4. Las rebanadas más significativas corresponden a la hendidura y a la morfología inferior de la semilla.

“La característica de Euler es una manera simple pero poderosa de revelar detalles que no son obvios a simple vista. Hay información morfológica oculta que los métodos morfométricos tradicionales y geométricos ignoran. La característica de Euler, y ATD en general, puede calcularse fácilmente para cualquier imagen. ATD propone un camino nuevo y emocionante, dominado por información morfológica, para explorar más a fondo la relación fenotipo-genotipo”, concluye Amézquita.

LEA EL ARTÍCULO:

Elizabeth Munch, Daniel H Chitwood, Measuring hidden phenotype: Quantifying the shape of barley seeds using the Euler Characteristic Transform, in silico Plants, 2021;, diab033, https://doi.org/10.1093/insilicoplants/diab033


Este manuscrito forma parte del número especial de inSilico Plants, Functional Structural Plant Model.

Todos los datos y el código utilizados en este artículo están disponibles de forma libre y abierta en https://doi.org/10.5061/dryad.rxwdbrv93  y  https://github.com/amezqui3/demeter/.

%d bloggers like this: