El biclustering en biología y Big Data utiliza algoritmos de biagrupamiento que agrupan simultáneamente filas y columnas de una matriz de datos para el análisis de datos.
Hasta ahora hemos estado trabajando con matrices de datos, pero en forma de columnas; el biclustering en biología y Big Data funciona de manera distinta, ya que agrupa los datos por subgrupos, como en forma de cuadros, no de columnas como tal.
¿En qué consiste el biclustering en biología y big data?
El biclustering es una herramienta principalmente de minería de datos que permite la agrupación de filas y columnas, de manera simultánea, en un dataset en formato de matriz.
Su primera aplicación fue a los datos de expresión génica en el año 2000. Esto se hizo con el objetivo de identificar genes coexpresados en un subconjunto de todas las muestras.
Los grupos de filas y columnas formados por medio del biclustering en biología y Big Data se conocen como biclústeres. Cada grupo determina una submatriz de la matriz de datos original con algunas propiedades características.
El biclustering en biología y Big Data se aplica en muchas ramas de la expresión genética, entre ellas están los genomas, grupos de genes, ciclo celular, transcriptomas, exomas, epigenomas, fenomas y farmacogenomas. Pese a ser bastantes áreas, aún no se ha desarrollado bien, porque es necesario que se den estudios más avanzados en la selección de herramientas para tareas específicas.
Partes del biclúster
El ejercicio del biclustering en biología y Big Data hace necesaria la existencia de un biclúster que conste de tres partes indispensables:
- Filas: son las sondas o conjuntos de sondas. Se resumirán en genes en el preprocesamiento.
- Columnas: son las condiciones (arrays, ensayos, casos, muestras, etc.).
- Matriz de expresión: cada matriz de intensidad se estira hacia una columna de la matriz de expresión
Tipos de biclúster
En el biclustering en biología y Big Data se pueden identificar diferentes tipos de biclúster, entre ellos:
Valores constantes
Un biclúster con valores de este tipo posee subconjuntos de genes con valores de expresión similares dentro de un subconjunto de condiciones.
Valores constantes en filas o columnas
Un biclúster de este tipo identifica un subconjunto de genes o condiciones con niveles de expresión similares en un subconjunto de condiciones/genes.
Estos valores se pueden expresar en forma aditiva o multiplicativa:
Valores coherentes tanto en filas como en columnas
En este tipo de biclústeres se identifican relaciones más complejas entre genes y condiciones, ya sea de forma aditiva o multiplicativa:
Evoluciones coherentes
En este tipo de biclúster se evidencia que un subconjunto de genes está regulado hacia arriba o hacia abajo en un subconjunto de condiciones, sin tener en cuenta sus valores de expresión reales. En este modelo los datos de biclustering en biología y Big Data no siguen ningún modelo matemático.
Función del heatmap o mapa de calor en el biclustering en biología y Big Data
El heatmap forma parte del conjunto de herramientas de visualización de un biclúster. En vez de números, se muestran gradientes de calor proporcionales al valor de cada variable en su respectiva posición.
El heatmap, combinado con un dendrograma, permite el ordenamiento por semejanza de las filas y columnas de la matriz. Al mismo tiempo, se muestra con una serie de colores el valor de las variables.
Algunas de las funciones en R para crear heatmaps son:
- heatmap () [stats], pheatmap () [pheatmap] y heatmap.2()[gplots] para representar heatmaps estáticos.
- d3heatmaps()[d3heatmaps] para heatmaps interactivos.
- heatmap () [complexHeatmap bioconductor] para realizar heatmaps personalizados.
Los mapas de calor permiten visualizar de manera simultánea grupos de muestras y sus respectivas características. El primer agrupamiento jerárquico se realiza para filas y columnas de la matriz de datos.
Los heatmaps normalmente se combinan con dendrogramas para mostrar datos más precisos de ciertas matrices de datos o secciones.
Debemos tener en cuenta que los mapas de calor se pueden modificar prácticamente al gusto. Es decir, podemos cambiarles el color, la intensidad, podemos definir que aparezca o no con dendrogramas o que las líneas de esos dendrogramas cambien de color, entre muchas otras opciones.
¿Qué sigue?
Ahora que hemos aprendido qué es el clustering en biología y Big Data y cómo manejar los clústeres a nuestra conveniencia, ¿qué te parece si seguimos aprendiendo?
Para ello, tenemos a tu disposición el Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, con el que aprenderás cómo lidiar con datos problemáticos y entenderás cómo usar diferentes herramientas de clustering. Este bootcamp es una formación intensiva en la cual podrás aprender todo lo necesario para incursionar en el mercado labora. ¡No esperes más para solicitar más información y empezar a cambiar tu vida!