Ejercicio práctico de clustering con proteínas

Montana Martín López | Última modificación: 10 de julio de 2024 | Tiempo de Lectura: 3 minutos

En este artícuo realizaremos un ejercicio práctico de clustering con proteínas. Para ello, utilizaremos un dataset que contiene las siguientes especificaciones.

En este ejercicio práctico de clustering, el conjunto de datos consiste en los niveles de expresión de 77 proteínas/modificaciones de proteínas que produjeron señales detectables en la fracción nuclear de la corteza. Hay 38 ratones de control y 34 ratones trisómicos (síndrome de Down), para un total de 72 ratones.

En los experimentos, se registraron 15 mediciones de cada proteína por muestra/ratón. Por lo tanto, para los ratones de control, hay 38×15 o 570 mediciones, y para los ratones trisómicos hay 34×15 o 510 mediciones. El conjunto de datos contiene un total de 1080 mediciones por proteína. Cada medida puede considerarse una muestra/ratón independiente.

Ejercicio práctico de clustering

En el ejercicio práctico de clustering, las ocho clases de ratones se describen en función de características como el genotipo, el comportamiento y el tratamiento. Según el genotipo, los ratones pueden ser de control o trisómicos. Según el comportamiento, algunos ratones han sido estimulados para aprender (shock de contexto) y otros no (contexto de shock). Para evaluar el efecto del medicamento memantina en la recuperación de la capacidad de aprender en ratones trisómicos, algunos ratones han sido inyectado con la droga y otros no.

Clases:

c – CS – s: ratones de control, estimulados para aprender, inyectados con solución salina (9 ratones).
c – CS – m: ratones de control, estimulados para aprender, inyectados con memantina (10 ratones).
c – SC – s: ratones de control, no estimulados para aprender, inyectados con solución salina (9 ratones).
c – SC – m: ratones de control, no estimulados para aprender, inyectados con memantina (10 ratones).
1-CS-s: ratones con trisomia, estimulados para aprender, inyectados con solución salina (7 ratones).
t – CS – m: ratones con trisomia, estimulados para aprender, inyectados con memantina (9 ratones).
t – SC – s: ratones con trisomia, no estimulados para aprender, inyectados con solución salina (9 ratones).
t – SC – m: ratones con trisomia, no estimulados para aprender, inyectados con memantina (9 ratones).

#Ejercicio práctico de clustering
mouse <- read.csv ("data/Data_Cortex Nuclear.csv")
mouse_data <- mouse [ , 2 : 78]

boxplot (mouse_data)

#Ejercicio práctico de clustering
library (caret)

Loading required package: lattice

#Ejercicio práctico de clustering
preProcValues <- preProcess (mouse data, method = c ("center", "scale"))
preprocValues

Created from 1080 samples and 77 variables

Pre-processing:

centered (77)
ignored (0)
scaled (77)

#Ejercicio práctico de clustering
mouse data transformed <- predict (preProcValues, mouse data)
boxplot (mouse_data_transformed [ , 1 : 10])

#Ejercicio práctico de clustering
q <- c ()
for (k in 1 : 20) {
myclust <- kmeans (mouse_data_transformed, k)
q [k] <- myclust$betweenss / mycluststotss
}
plot (q)

#Ejercicio práctico de clustering
myclust <- kmeans (mouse_data_transformed, 8)
table (mouse$class, myclust$cluster)

	1	2	3	4	5	6	7	8
c – CS – m	9	20	34	15	4	16	20	32
c – CS – s	5	30	39	0	1	2	14	44
c – CS – m	15	1	0	66	24	42	0	2
c – CS – s	10	0	0	68	28	21	8	0
t – CS – m	0	35	26	0	27	0	0	47
t – CS – s	0	33	24	0	3	3	2	40
t – CS – m	16	1	0	55	3	34	26	0
t – CS – s	14	54	0	5	26	2	34	0

#Ejercicio práctico de clustering
myclust <- kmeans (mouse_data_transformed, 9)
table (mouse$class, myclustscluster)
table (mouse$Genotype, myclust$cluster)
table (mouse$Treatment, myclust$cluster)
table(mouse$Behavior,myclust$cluster)

	1	2	3	4	5	6	7	8	9
c – CS – m	20	38	17	18	6	1	37	0	13
c – CS – s	32	31	24	0	3	5	40	0	0
c – CS – m	0	0	9	61	34	2	0	9	35
c – CS – s	1	0	3	67	22	9	0	18	15
t – CS – m	9	13	43	0	2	0	68	0	0
t – CS – s	11	1	20	0	0	0	54	3	3
t – CS – m	7	0	0	43	21	28	0	10	26
t – CS – s	21	0	9	7	4	37	11	45	1

	1	2	3	4	5	6	7	8	9
Control	53	69	53	146	65	17	77	27	63
Ts65Dn	48	27	72	50	27	65	133	58	30

	1	2	3	4	5	6	7	8	9
Memantine	36	51	69	122	63	31	105	66	19
Saline	65	45	56	74	29	51	105	66	19

	1	2	3	4	5	6	7	8	9
C/S	72	96	104	18	11	6	199	3	16
S/C	29	0	21	178	81	76	11	82	77

Si quieres seguir aprendiendo, te invitamos a inscribirte en nuestro Big Data, Inteligencia Artificial & Machine Learning Full Stack Bootcamp, una formación intensiva con el que en muy pocos meses estarás listo para incursionar en el mercado laboral y destacar en el sector tecnológico. ¡Solicita ahora más información!

Ejercicio práctico de clustering con proteínas

Ejercicio práctico de clustering

IMPULSA TU CARRERA A TU MEDIDA