En este artícuo realizaremos un ejercicio práctico de clustering con proteínas. Para ello, utilizaremos un dataset que contiene las siguientes especificaciones.
En este ejercicio práctico de clustering, el conjunto de datos consiste en los niveles de expresión de 77 proteínas/modificaciones de proteínas que produjeron señales detectables en la fracción nuclear de la corteza. Hay 38 ratones de control y 34 ratones trisómicos (síndrome de Down), para un total de 72 ratones.
En los experimentos, se registraron 15 mediciones de cada proteína por muestra/ratón. Por lo tanto, para los ratones de control, hay 38×15 o 570 mediciones, y para los ratones trisómicos hay 34×15 o 510 mediciones. El conjunto de datos contiene un total de 1080 mediciones por proteína. Cada medida puede considerarse una muestra/ratón independiente.
Ejercicio práctico de clustering
En el ejercicio práctico de clustering, las ocho clases de ratones se describen en función de características como el genotipo, el comportamiento y el tratamiento. Según el genotipo, los ratones pueden ser de control o trisómicos. Según el comportamiento, algunos ratones han sido estimulados para aprender (shock de contexto) y otros no (contexto de shock). Para evaluar el efecto del medicamento memantina en la recuperación de la capacidad de aprender en ratones trisómicos, algunos ratones han sido inyectado con la droga y otros no.
Clases:
- c – CS – s: ratones de control, estimulados para aprender, inyectados con solución salina (9 ratones).
- c – CS – m: ratones de control, estimulados para aprender, inyectados con memantina (10 ratones).
- c – SC – s: ratones de control, no estimulados para aprender, inyectados con solución salina (9 ratones).
- c – SC – m: ratones de control, no estimulados para aprender, inyectados con memantina (10 ratones).
- 1-CS-s: ratones con trisomia, estimulados para aprender, inyectados con solución salina (7 ratones).
- t – CS – m: ratones con trisomia, estimulados para aprender, inyectados con memantina (9 ratones).
- t – SC – s: ratones con trisomia, no estimulados para aprender, inyectados con solución salina (9 ratones).
- t – SC – m: ratones con trisomia, no estimulados para aprender, inyectados con memantina (9 ratones).
#Ejercicio práctico de clustering
mouse <- read.csv ("data/Data_Cortex Nuclear.csv")
mouse_data <- mouse [ , 2 : 78]
boxplot (mouse_data)
#Ejercicio práctico de clustering
library (caret)
Loading required package: lattice
#Ejercicio práctico de clustering
preProcValues <- preProcess (mouse data, method = c ("center", "scale"))
preprocValues
Created from 1080 samples and 77 variables
Pre-processing:
- centered (77)
- ignored (0)
- scaled (77)
#Ejercicio práctico de clustering
mouse data transformed <- predict (preProcValues, mouse data)
boxplot (mouse_data_transformed [ , 1 : 10])
#Ejercicio práctico de clustering
q <- c ()
for (k in 1 : 20) {
myclust <- kmeans (mouse_data_transformed, k)
q [k] <- myclust$betweenss / mycluststotss
}
plot (q)
#Ejercicio práctico de clustering
myclust <- kmeans (mouse_data_transformed, 8)
table (mouse$class, myclust$cluster)
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | |
c – CS – m | 9 | 20 | 34 | 15 | 4 | 16 | 20 | 32 |
c – CS – s | 5 | 30 | 39 | 0 | 1 | 2 | 14 | 44 |
c – CS – m | 15 | 1 | 0 | 66 | 24 | 42 | 0 | 2 |
c – CS – s | 10 | 0 | 0 | 68 | 28 | 21 | 8 | 0 |
t – CS – m | 0 | 35 | 26 | 0 | 27 | 0 | 0 | 47 |
t – CS – s | 0 | 33 | 24 | 0 | 3 | 3 | 2 | 40 |
t – CS – m | 16 | 1 | 0 | 55 | 3 | 34 | 26 | 0 |
t – CS – s | 14 | 54 | 0 | 5 | 26 | 2 | 34 | 0 |
#Ejercicio práctico de clustering
myclust <- kmeans (mouse_data_transformed, 9)
table (mouse$class, myclustscluster)
table (mouse$Genotype, myclust$cluster)
table (mouse$Treatment, myclust$cluster)
table(mouse$Behavior,myclust$cluster)
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | |
c – CS – m | 20 | 38 | 17 | 18 | 6 | 1 | 37 | 0 | 13 |
c – CS – s | 32 | 31 | 24 | 0 | 3 | 5 | 40 | 0 | 0 |
c – CS – m | 0 | 0 | 9 | 61 | 34 | 2 | 0 | 9 | 35 |
c – CS – s | 1 | 0 | 3 | 67 | 22 | 9 | 0 | 18 | 15 |
t – CS – m | 9 | 13 | 43 | 0 | 2 | 0 | 68 | 0 | 0 |
t – CS – s | 11 | 1 | 20 | 0 | 0 | 0 | 54 | 3 | 3 |
t – CS – m | 7 | 0 | 0 | 43 | 21 | 28 | 0 | 10 | 26 |
t – CS – s | 21 | 0 | 9 | 7 | 4 | 37 | 11 | 45 | 1 |
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | |
Control | 53 | 69 | 53 | 146 | 65 | 17 | 77 | 27 | 63 |
Ts65Dn | 48 | 27 | 72 | 50 | 27 | 65 | 133 | 58 | 30 |
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | |
Memantine | 36 | 51 | 69 | 122 | 63 | 31 | 105 | 66 | 19 |
Saline | 65 | 45 | 56 | 74 | 29 | 51 | 105 | 66 | 19 |
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | |
C/S | 72 | 96 | 104 | 18 | 11 | 6 | 199 | 3 | 16 |
S/C | 29 | 0 | 21 | 178 | 81 | 76 | 11 | 82 | 77 |
Si quieres seguir aprendiendo, te invitamos a inscribirte en nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, una formación intensiva con el que en muy pocos meses estarás listo para incursionar en el mercado laboral y destacar en el sector tecnológico. ¡Solicita ahora más información!