Ejercicio práctico de clustering con proteínas

| Última modificación: 10 de julio de 2024 | Tiempo de Lectura: 3 minutos

Algunos de nuestros reconocimientos:

Premios KeepCoding

En este artícuo realizaremos un ejercicio práctico de clustering con proteínas. Para ello, utilizaremos un dataset que contiene las siguientes especificaciones.

En este ejercicio práctico de clustering, el conjunto de datos consiste en los niveles de expresión de 77 proteínas/modificaciones de proteínas que produjeron señales detectables en la fracción nuclear de la corteza. Hay 38 ratones de control y 34 ratones trisómicos (síndrome de Down), para un total de 72 ratones.

En los experimentos, se registraron 15 mediciones de cada proteína por muestra/ratón. Por lo tanto, para los ratones de control, hay 38×15 o 570 mediciones, y para los ratones trisómicos hay 34×15 o 510 mediciones. El conjunto de datos contiene un total de 1080 mediciones por proteína. Cada medida puede considerarse una muestra/ratón independiente.

Ejercicio práctico de clustering

En el ejercicio práctico de clustering, las ocho clases de ratones se describen en función de características como el genotipo, el comportamiento y el tratamiento. Según el genotipo, los ratones pueden ser de control o trisómicos. Según el comportamiento, algunos ratones han sido estimulados para aprender (shock de contexto) y otros no (contexto de shock). Para evaluar el efecto del medicamento memantina en la recuperación de la capacidad de aprender en ratones trisómicos, algunos ratones han sido inyectado con la droga y otros no.

Clases:

  • c – CS – s: ratones de control, estimulados para aprender, inyectados con solución salina (9 ratones).
  • c – CS – m: ratones de control, estimulados para aprender, inyectados con memantina (10 ratones).
  • c – SC – s: ratones de control, no estimulados para aprender, inyectados con solución salina (9 ratones).
  • c – SC – m: ratones de control, no estimulados para aprender, inyectados con memantina (10 ratones).
  • 1-CS-s: ratones con trisomia, estimulados para aprender, inyectados con solución salina (7 ratones).
  • t – CS – m: ratones con trisomia, estimulados para aprender, inyectados con memantina (9 ratones).
  • t – SC – s: ratones con trisomia, no estimulados para aprender, inyectados con solución salina (9 ratones).
  • t – SC – m: ratones con trisomia, no estimulados para aprender, inyectados con memantina (9 ratones).
#Ejercicio práctico de clustering
mouse <- read.csv ("data/Data_Cortex Nuclear.csv")
mouse_data <- mouse [ , 2 : 78]

boxplot (mouse_data)
Ejercicio práctico de clustering
#Ejercicio práctico de clustering
library (caret)

Loading required package: lattice

#Ejercicio práctico de clustering
preProcValues <- preProcess (mouse data, method = c ("center", "scale"))
preprocValues

Created from 1080 samples and 77 variables

Pre-processing:

  • centered (77)
  • ignored (0)
  • scaled (77)
#Ejercicio práctico de clustering
mouse data transformed <- predict (preProcValues, mouse data)
boxplot (mouse_data_transformed [ , 1 : 10])
#Ejercicio práctico de clustering
q <- c ()
for (k in 1 : 20) {
myclust <- kmeans (mouse_data_transformed, k)
q [k] <- myclust$betweenss / mycluststotss
}
plot (q)
#Ejercicio práctico de clustering
myclust <- kmeans (mouse_data_transformed, 8)
table (mouse$class, myclust$cluster)
12345678
c – CS – m92034154162032
c – CS – s530390121444
c – CS – m151066244202
c – CS – s100068282180
t – CS – m035260270047
t – CS – s03324033240
t – CS – m161055334260
t – CS – s145405262340
#Ejercicio práctico de clustering
myclust <- kmeans (mouse_data_transformed, 9)
table (mouse$class, myclustscluster)
table (mouse$Genotype, myclust$cluster)
table (mouse$Treatment, myclust$cluster)
table(mouse$Behavior,myclust$cluster)
123456789
c – CS – m203817186137013
c – CS – s3231240354000
c – CS – m009613420935
c – CS – s1036722901815
t – CS – m913430206800
t – CS – s111200005433
t – CS – m70043212801026
t – CS – s2109743711451
123456789
Control5369531466517772763
Ts65Dn4827725027651335830
123456789
Memantine36516912263311056619
Saline6545567429511056619
123456789
C/S729610418116199316
S/C290211788176118277

Si quieres seguir aprendiendo, te invitamos a inscribirte en nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, una formación intensiva con el que en muy pocos meses estarás listo para incursionar en el mercado laboral y destacar en el sector tecnológico. ¡Solicita ahora más información!

Sandra Navarro

Business Intelligence & Big Data Advisor & Coordinadora del Bootcamp en Data Science, Big Data & Machine Learning.

Posts más leídos

¡CONVOCATORIA ABIERTA!

Big Data, IA & Machine Learning

Full Stack Bootcamp

Clases en Directo | Profesores en Activo | Temario 100% actualizado