Посетители

Посетители contador de visitas contador de visitas

miércoles, 8 de octubre de 2014

Bioestadística Daniel capítulo 2

2.1 INTRODUCCION 2.4 ESTADISllCA DESCRIPTIV A: MEDIDAS DE TENDENCIA CENTRAL
2.2 ARREGLO ORDENADO
2.5 ESTADISllCA DESCRIPTIVA:
2.3 DATOS AGRUPADOS Y MEDIDAS DE DISPERSION DISTRIBUCION DE FRECUENCIAS 2.6 RESUMEN
2.t JNTRODUCCION
En el capitulo 1 se establecio que la toma de medici ones y el proceso de con teo producen numeros que contienen informacion. El objetivo de la gente que aplica herramientas estadisticas a esos numeros es determinar la naturaleza de esa informacion. Esta tare a es mucho mas facil si los numeros estan organizados y resumidos. Cuando se hacen las mediciones sobre entidades de una poblaci6n 0
. muestra, los valores resultantes estan disponibles para el investigador 0 estadfstico como una masa de datos desorganizados. Las mediciones que no han sido organizadas, procesadas 0 manejadas de alguna otra forma se les llama datos crudos (materia prima). A menos que el numero de observaciones sea extremadamente pequeno, es improbable que esos datos crudos proporcionen suficiente informaci6n hasta que sean puestos en alglin orden.
En este capitulo se ensenan algunas tecnicas para organizar y procesar datos de tal manera que sea mas facil determinar que informacion contienen. Lo mas actual en procesamiento de datos es el calculo de un numero individual que de alguna manera incluye informaci6n importante acerca de los datos que sirvieron para calcularlo. A estos numeros individuales utilizados para describir datos se les llama medidas descriptivas. Despues de estudiar este capitulo el estudiante podra calcular algunas medidas descriptivas tanto para poblaciones como para muestras de datos.
EI proposito de este capitulo es desarrollar en el estudiante habilidades para poder manejar la informacion numerica que se encuentre como profesional en ciencias de la salud. Entre mejor capacitado este para manejar tal informacion, tendra una mejor idea del ambiente y de las fuerzas que generan la informacion.
15
16 CAPITULO 2 ESTADISTICA DESCRIPTIV A
2.2 ARREGLO OBDENADO
EI primer paso para organizar datos es preparar un arreglo ordenado. Un arreglo ordenado es una lista de valores de un grupo (sea poblacion 0 muestra) en orden de magnitud de menor a mayor valor. Se recomienda el uso de la computadora si el numero de mediciones a ordenar es bastante grande.
Un arreglo ordenado permite determinar con rapidez los valores de las mediciones mas pequefias, de las mas grandes, y otros aspectos acerca de los datos arreglados que pudieran necesitarse en caso de urgencia. A continuaci6n se muestra la construcci6n de un arreglo ordenado con los datos que se estudiaron en el ejemplo
1.4.1.
EJEMPL92.2.1
La tabla 1.4.1. contiene una lista de las edades de los individuos que participaron en el estudio de residentes de Groenlandia, estudiados en el ejemplo 104.1. Como puede apreciarse, esta tabla desordenada requiere de mucha investigaci6n para determinar informacion basica como la edad de los individuos mas j6venes hasta los mas viejos.
Soludon: La tabla 2.2.1 presenta los datos de la tabla 1.4.1 en forma de arreglo ordenado. AI referirse a la tabla 2.2.1 es posible determinar rapidamente la edaddel individuo mas joven (18) y la edad del mas viejo (63). Tambien es posible identificar con facilidad que casi tres cuartas partes de los individuos tienen menos de 40 afios de edad. •
Anii1isisporcompldadom Cuando se requieren cilculos adicionales y organizacion
de un conjunto de datos en forma manual, el trabajo se facilita mediante un arreglo
ordenado. Si los datos son analizados por computadora, esto no es aconsejable
TABIA2.2.1 Arreglo ordenado de las edades de los individuos de la tabla 1.4.1
18 18 19 19 20 21 21 21 22 22 22 22 22 22 23 23 23 23 23 23 23 24 24 24 24 24 24 24 24 24 25 25 25 25 26 26 26 26
26 . 26 26 26 26 26 26 27 27 27 27 27 27 27 27 27 27 28 28 28 28 28 28 28 29 29 29 29 29 29 29 29 30 30 30 30 30 30 30 30 30 30 31 31 31 31 31 31 31 32 32 32 32 32 33 33 33 34 34 34 34 34 35 36 36 36 37 37 37 37 37 38 38 38 38 38 39 39 39 40 40 40 40 40 40 41 41 41 42 42 42 42 43 43 43 44 44 44 45 45 45 46 46 47 47
47 47 48 48 48 48 48 48 49 49 50 50 50 51 51 .52 52 53 53 53 53 56 . 61 62 63 63
\
17
2.3 DATOS AGRUPADOS Y DISTRIBUCION DE FRECUENCIAS
Dialog box:
Manip .. Sort Session command:
II
Sort ~===i0 Qescending l====i 0 Dgscending }====i 0 D&.5c"Qding o Descendin§! ~~~ l;,;l.l@iIL:1
MTB > Sort Cl C2; SUBC> By Cl.
FIGURA 2.2.1 Caja de diaIogo para e1 ejemplo 2.2.1.
para preparar un arreglo ordenado, a menos que se necesite para prop6sitos de referencia 0 para otro uso. La computadora no necesita que el usuario haga un arreglo ordenado antes de meter los datos para construir la distribuci6n de frecuencias y para hacer otros amllisis.
Si desea un arreglo ordenado, muchos paquetes de software para computadoni contienen rutinas para construirlo. Por ejemplo, suponga que se usa el MINITAB Yque las edades de la tabla 104.1 estan en la columna 1. El comando SORT C 1 C2 dasifica las edades y las pone en la columna 2, como 10 muestra la tabla 2.2.1. Si se utilizael paquete MINITAB para Windows, y los datos se colocan en la columna 1, el proceso es como sigue: con el mouse haga die en Manip, luego en Sort, escriba c1 en la caja etiquetada como "Sort column[s]", escriba c2 en la caja etiquetada como "Store sorted column[s] in" (para tener los datos dasificados en c2), y escriba c1 en la caja etiquetada "Sort by column". Si desea ordenar en forma descendente haga dic en "Descending". Si no se selecciona esa opci6n en este punto, el resultado es una clasificaci6n en orden ascendente. Finalmente, haga dic en OK. La caja de dialogo para el ejemplo 2.2.1 se muestra en la figura 2.2.1.
2.3 DATOSAGRUPADOS YDISTRIBUCION DE FRECUENCIAS
Aunque un conjunto de observaciones puede hacerse mas comprensible y mas significativo por medio de un arregloordenado, es mas util el resumen que se obtiene mediante la agrupaci6n de datos. Antes de la era de las computadoras, uno de los principales objetivos de agrupar grandes conjuntos de datos era el de facilitar el calculo de varias medidas descriptivas, como porcentajes y promedios. Debido a
18 CAPiTULO 2 ESTADiSTICA DESCRIPTIV A
. que las computadoras pueden ejecutar esos calrulos a partir de grandes conjuntos
sin agrupacion previa, actualmente el proposito principal de agrupar los datos es el
de resumir la informacion. Se debe tener en mente que los datos contienen informacion
y que el resumen es una forma sencilla para determinar su naturaleza.
Para agruparun conjunto de observaciones se debe seleccionar un conjunto
de intervalos contiguos que no se traslapen, para que cada valor en el conjunto de
observaciones pueda ser puesto en uno y solo uno de los intervalos. Estos intervalos
normalmente se identifican como intervalos de clase.
Una de las primeras consideradones ruando se agrupan datos es la de ruantos
intervalos se deben incluir. Resulta inadecuado incluir pocos intervalos, porque se
perderia informacion. Por otro lado, si se utilizan muchos intervalos, el objetivo de
resumir no se consigue. La mejor guia en este caso, asi como para la toma de otras
dedsiones sobre la agrupadon de datos, es el conocimiento de los datos. Puede ser
que los intervalos de clase queden determinados por los precedentes, como en el
caso de las tabulaciones anuales, en las que los intervalos de clase de los afios anteriores
se conservan para propositos comparativos. Una regIa empfrica que habitualmente se
sigue establece que deben ser.entre seis y 15 intervalos. Si hay menos de seis intervalos,
los datos se han resumido en exceso y la informaci6n que contienen se habra perdido.
Si hay mas de 15 intervalos, los datos no fueron resumidos 10 suficiente.
Quienes deseen gufas mas espedficas para decidir cuantos intervalos de clase
son necesarios, pueden utilizar la f6rmula propuesta por Sturges (1). Esta formula
se enuncia k = 1 + 3.322(loglO n), donde k es el numero de intervalos de clase y n es
el numero de valores en el conjunto de datos en observaci6n. La respuesta que se
obtiene con la regla de Sturges no es definitiva, sino que se debe considerar unicamente
como gufa. El numero de intervalos de clase especificado par esta regIa
debera incrementarseo disminuirse por conveniencia y para lograr una presentacion
mas clara.
Por ejemplo, suponga que una muestra tiene 275 observaciones para agrupar.
Ellogaritmo base 10 de 275 es 2.4393. Con la aplicacion de la formula de Sturges
se obtiene k = 1 + 3.322(2.4393)::::: 9. En la practica, otras consideraciones pueden
sugerir el uso de 8 0 menos, 0 quiza 10 0 mas intervalos de clase.
Otra preguntaque se debe responder se refiere a la amplitud del intervalo de
clase. Los interval os de clase generalmente deben ser de la misma amplitud, aunque
algunas veces esto es imposible. La amplitud se determina dividiendo el rango
entre k, que es el numero de intervalos de clase. Simbolicamente, la amplitud de los
intervalos de clase esta dada por:
R
w (2.3.1)k
donde R (el rango) es la diferencia entre la observacion mas pequefia y la mas grande dentro del conjunto de datos. Por 10 general, con este procedimiento se obtiene una amplitud que no es conveniente usar, y de nuevo se debe utilizar el sentido comun para elegir la amplitud (normalmente cercana a la que se obtiene con la ecuacion 2.3.1) que sea mas conveniente.
19
2.3 DATOS AGRUPADOS Y DISTRIBUCION DE FRECUENCIAS
Existen otras reglas empiricas que son de gran ayuda para armar intervalos de clase utiles. Cuando la naturaleza de los datos los hace adecuados, la amplitud de los intervalos de clase de 5 0 10 unidades y amplitudes multiplos de 10 tienden a hacer que el resumen sea mas comprensible. Cuando se utilizan estas amplitudes es una buena practica tener ellimite inferiorde cada extrema de intervalo en 0 0 5. Generalmente los intervalos de clase se almacenan de menor a mayor: es decir; el primer intervalo de clase contiene las mediciones mas pequenas y el ultimo intervalo contiene las mediciones mas grandes. Cuando sea este el caso, ellimite inferior del primer intervalo de clase debe ser menor 0 igual que la medici6n mas pequena en el conjunto de datos, y ellimite superior del ultimf) intervalo de clase debe ser mayor 0 igual que la medici6n mas grande.
Aunque muchos paquetes de software para microcomputadora contienen rutinas para construir interval os de clase, frecuentemente requieren que el usuario registre la amplitud del intervalo y el numero de intervalos deseados. A continuaci6n se utilizan las 169 edades incluidas en la tabla 1.4.1 y arregladas en la tabla
2.2.1 para ilustrar la construcci6n de la distribuci6n de frecuencias.
EJEMPLO 2.3.t
Se quiere saber cuantos intervalos de clase se tienen en la distribuci6n de frecuencias de datos y tambien se quiere saber que tan amplios deben ser los intervalos.
Solucion: Para tener una idea del numero de intervalos a utilizar, la aplicaci6n de la regIa de Sturges indica: k = 1 + 3.322(log 169) = 1 + 3.322(2.227886705) "" 8 Ahora, al dividir el rango entre 8 para darse una idea de la amplitud de los intervalos de clase, se obtiene:
R = 63 -18 = 45 =5.625 k 8 8
Es evidente que un intervalo de clase con una amplitud de 5 0 10 es mas conveniente y significativo para ellector. Suponga que se decide que sea 10. Ahora es posible construir los intervalos. Puesto que el valor mas pequeno en la tabla 2.2.1 es 18 y el mayor es 63', entonces los intervalos inician con 10 Y terminan con 69. Se obtienen los siguientes intervalos:
10-19
20-29
30-39
40-49
50-59
60-69
20 CAPiTULO 2 ESTADiSTICA DESCRIPTIV A
Puede observarse que hay 6 de esos intervalos, es dedr, dos menos
que el numero de intervalos calculados con la regIa de Sturges .
. AIgunas veces resulta util referirse al centro Hamado punta media
del intervalo de clase, el cual se determina sumando los limites extremosdel
intervalo de clase y dividiendo entre 2~ Por ejemplo, el punto
medio del intervalo de clase 10-19 es (10 + 19)/2= 14.5. •
Cuando se agrupan datos manualmente, determinar el numero de valores que caen dentro de cada intervalo de clase es solo un problema de busqueda en el arreglo ordenadoy conteo del numero de observadones que caen en los distintos intervalos. Si se aplica esto al ejemplo anterior, se obtiene la tabla 2.3.1.
Una tabla de este tipo se canoce como distribucwn de frecuencias. En ella se muestra como se distribuyen los valores dentro de los intervalos de clase espedficados. AI consll,ltarla, es posible determinar la frecuenda de ocurrencia de los valores dentro de cualquiera de los intervalos.
Frecuencias relaiivas En ocasiones, puede ser de utilidad conocer la propordon, en lugar del nlimero, de valores que caen dentro deun intervalo de clase en particular. Esta informacion se obtiene dividiendo el numero de valores en un intervalo de clase particular entre el numero total de valores. Si en el ejemplo anterior se pretende conocer la proporci6n de valores entre 30 y 39, inclusive, se divide 47 entre 169, para obtener .2781. Esto indica que 47 de 169, ~7/169, 0 0.2781 de los valores caen entre 30 y 39. AI multiplicar .2781 por roo se obtiene el porcentaje de valores entre 30 y 39. Con 10 anterior se puede decir que el 27.81 por ciento de los individuos tienen entre 30 y 39 alios de edad. Finalmente, a la propordon de valores que caen dentro de un intervalo de clase se Ie conoce como la frecuencia relativa de acurrencias en ese intervalo.
TABlA 2.3.1 Distribuci6n
de frecuencias de las
edades de los 169
individuos incluidos en la
talJla 1.4.1 y2.2.1
Intervalos de clase Frecuencias
10-19
4
20-29
66
30-39
47
40-49
36
50-59
12
60-69
4
Total 169
21
2.3 DATOS AGRUPADOSYDISTRIBUCION DE FRECUENCIAS
TABlA 2.3.2 Distribuciones de: frecuencia, frecuencia acumulada, frecuencia relativa y frecuencia relativa acumulada de las edades de los sujetos descritos en el ejemplo 1.4.1
Frecuencia
Intervalos de
Frecuencia
Frecuencia
relativa
clase
Frecuencia
acumulada
relativa
acumulada
10-19
4
4
.0237
.0237
20-29
66
70
.3905
.4142
30-39
47
117
.2781
.6923
40-49
36
153
.2130
.9053
50-59
12
165
.0710
.9763
60-69
4
169
.0237
1.0000
Total 169 1.0000
Para determinar la frecuencia de valores que caen dentro de dos 0 mas intervalos de clase, se obtiene la suma del numero de valores que caen dentro de los intervalos de clase correspondientes. Analogamente, si se pretende conocer la frecuencia relativa de ocurrencia de valores que caen dentro de dos 0 mas intervalos de clase, entonces, se suman las frecuencias relativas respectivas. Se pueden sumar, 0 acumular, las frecuencias y las frecuencias relativas para facilitar la obtencion de informacion ace rca de las frecuencias 0 frecuencias relativas de valores dentro de dos 0 mas intervalos de clase contiguos. La tabla 2.3.2 muestra los datos de la tabla 2.3.1 con las frecuencias acumuladas, frecuencias relativas y frecuencias relativas acumuladas.
Si el interes esta centrado en la frecuencia relativa de los valores que caen entre 30 y 59, entonces se utiliza la columna de las frecuencias relativas acumuladas de la tabla 2.3.2 y se resta .4142 de .9763 para obtener .5621.
Se puede utilizar elpaquete de software estadfstico MINITAB para obtener una tabla comparable con Ja tabla 2.3.2. MINITAB genero los valores de la tabla con las frecuencias relativas y frecuencias relativas acumuladas expresados en porcentajes. EI procedimiento incluye asignar codigos a los intervalos de clase y meter la informacion a traves del teclado. Cuando se asignan los codigos 0, 1, 2, 3, 4 Y 5, respectivamente, a las seis clases de intervalos, se debeteclear el siguiente comando:
MTB> Code (10: 19)0 (20:29) 1 (30:39)2 (40:49)3 (50:59)4 (60:69)5 c1 c2
La caja de dialogo, los comandos de la sesion y la salida se muestran en la figura 2.3.1.
E1 histograma Es posible presentar una distribucion de frecuencias (0 una distribucion de frecuencias relativas) graficamente en forma de histograma, que es un tipo especial de grafica de barras.
22 CAPITULO 2 ESTADISTICA DESCRIPTIVA
Caja de dialogo:
Comandos de la sesi6n:
MTB>
C2i
Stat >-Tables
>--Tally
SUBC>
Countsi
SUBC>
CumCountsi
Teclear C2 en Variables. Verifique Counts,
SUBC>
Percents;
Percents, Cumulative Counts y
SUBC>
CumPercents.
Cumulative percents en Display. Clic OK
Resultados:
Resumen estadlstico para variables discretas
C2
Count
CumCnt
Percent
CumPct
0
4
4
2.37
2.37
1
66
70
39.05
41.42
2
47
117
27.81
69.23
3
36
153
21.30
90.53
4
12
165
7.10
97.63
5
4
169
2.37
100.00
N
169
FIGURA 2.3.1 Distribuci6n de frecuencia, frecuencias acumuladas, porcentajes y porcentajes acumulados de las edades de los individuos descritos en el ejemplo 1.4.1, tal como 10 construy6 el paquete MINITAB.
Para construir un histograma, los valores de la variable respectiva se ponen sabre el eje horizontal, y las frecuencias (0 frecuencias relativas, si as! se quiere) de ocurrencia, en el eje vertical. Sobre cada intervalo de clase, arriba del eje horizontal, se levanta una barra rectangular, 0 celda, como algunas veces se Ie nombra, hasta que intercepte con la frecuencia respectiva. Las barras del histograma deben ser adyacentes, y es necesario tomar en cuenta los lfmites correctos de los intervalos de clase para evitar la separacion de barras en la grafica.
El nivel de precision que se observa en los datos obtenidos y que tienen mediciones ~obre una escala continua indica algUn orden de redondeo. El orden de redondec refleja la preferencia personal del informante 0 las limitaciones de los instrumentos de medicion empleados. Cuando una distribucion de frecuencia se construye a partir de los datos, los Hmites de los intervalos de clase frecuentemente reflejan el grado de precision de los daws originales. Esto mismo se ha efectuado en el ejemplo. Sin embargo, se sabe que algunos de los valores que caen dentro del segundo intervalo de clase, por ejemplo, probablemente seran un poco menores que 20 mientras que
23
2.3 DATOS AGRUPADOS Y DISTRIBUCION DE FRECUENCIAS
70
TABlA 2.3.3 Datos de la
iabla 2.3. t que muestra los 60
IImites COl'l"ectos de los
intervalos de clase
50
Intervalos de clase Frecuencias ::l
40
'0
c:
Q) :::J
Q)
9.5-19.5 4 t,) 30
u:
19.5-29.5 66
20
29.5-39.5 47
39.5-49.5 36
10
49.5-59.5 12
59.5-69.5 4
Total 169
otros seran un poco mayores que 29, cuando la medici6n es precisa. AI considerar la continuidad implfcita de la variable, y suponiendo que los datos fueran redondeados al entero positivo inferior mas pr6ximo, entonces es 16gico suponer que 19.5 y 29.5 son los limites correctos para este segundo intervalo. Los limites correctos para cada intervalo de clase se toman como semuestra en la tabla 2.3.3.
Si se elabora una grafica utilizando estos lfmites de intervalos de clase como la base de los rectangulos, no habra separaciones entre las barras, y se obtendra el histograma que se muestra en la figura 2.3.2. Se utiliz6 el paquete MINITAB para elaborar el histograma. Se almacenaron los datos en la columna 1 y se Ie nombr6 "Edad". El procedimiento se muestra en la figura 2.3.3. EI mensaje 14.5:64:5110 indica que el primer punto medio es 14.5, que el ultimo punto medio es 64.5 y que los intervalos estan igualmente espaciados en incrementos de 10 unidades. Se consider6 un espacio delimitado por el eje horizontal yellfmite exterior formado por las barras en la figura 2.3.2.
14.5 24.5 34.5 44.5 54.5 64.5
Edad
FIGURA 2.3.2 Histograma de las edades de 169 individuos a partir de la tabla 2.3.1.
Caja de dialogo:
Comandos de la sesi6n:
Graph ,.. Histogram Teclear Edad en X.
MTB> Histogram 'Edad'; SUBC> MidPoint 14.5:64.5/10; SUBC> Bar.
Clic Options. Elegir MidPoint. Teclear 14.5:64.5/l0 en MidPoint/cutPoint positions: Clic OK dos veces.
FIGURA 2.3.3 Caja de diilogo y comandos de la sesi6n de MINITAB para elaborar el histograma a partir de los datos del ejemplo 1.4.1.
24 CAPITULO 2 ESTADISTICA DESCRIPTIVA
AI espacio entre los limites del histograma se Ie conoce como area del histograma. A cada observacion se Ie asigna una unidad de esta area. Puesto que se tienen 169 observaciones, el histograma tiene en total 169 unidades. Cada harra contiene cierta proporcion del area total, de acuerdo con la frecuencia. La segunda barra, por ejemplo, contiene 66/169 del area. Esto, como ya se estudi6, es la frecuencia de ocurrencia de los valores entre 19.5 y 29.5. A partir de esto se observa que las subareas del histograma definidas por las barras corresponden a las frecuencias de ocurrencia de valores entre los lfmites de las areas de la escala horizontal. El porcentaje de una subarea particular del area total del histograma es igual a la frecuencia relativa de ocurrencia de los val ores entre los puntos correspondientes sobre el eje horizontal.
El polfgono de jrecuencia Una distribuci6n de frecuencia tambien puede ser representada graficamente por medio de un poligono de frecuencia, que es una dase especial de grafica lineal. Para dibujar este poHgono, primero se hace una marca arriba del punto medio de cada intervalo de clase, representado sobre el ~je horizontal de la grafica, como se muestra en la figura 2.3.2. La altura con respecto del eje horizontal de una marca dada corresponde ala frecuencia del intervalo de c1ase. AI unir las marcas mediante lineas rectas se obtiene el poligono de frecuencia. La figura 2.3.4 muestra el polfgono de frecuencia para los datos de edades de la tabla 2.2.1.
Observe que el poligono cae sobre el eje horizontal en los extremos en los puntos que corresponderian a los puntos medios en caso de haber una celda adidonal en cada extremo del histograma correspondiente. Esto permite que el area total sea delimitada. El area total bajo el poligono de frecuencia es igual al area bajo
70
70
60
60
'" '5
50
ro '5
50
c: <Il :::l (J e? u..
40 30 20
c: <Il :::l (J e? u..
40 30 20
10
10
0
0
14.5 24.5
34.5
44.5
54.5
64.5
14.5 24.5
34.544.5
54.5 64.5
Edad
Edad
FIGURA 2.3.4
Pollgonodefrecuencia para las
FIGURA 2.3.5
Histograma y poligono de freedades
de 169 individuos incluidas en la tabla
cuencia para las edades de 169 individuos inclui2.2.1.
das en la tabla 2.2.1.
25
2.3 DATOS AGRUPADOS Y DlSTRIBUCION DE FRECUENCIAS
el histograma. La figura 2.3.5 muestra el poligono de frecuencia de la figura 2.3.4 sobrepuesta al histograma de la figura 2.3.2. Esta figura permite observar la relacion entre las dos formas graficas para un mismo conjunto de datos.
Desplkgues de lalla y hajas atro sistema grafico muy util para representar conjuntos de datos cuantitativos es el despliegue de tallo y hojas. Un despliegue de este tipo presenta una gran similitud con el histograma y tiene el mismo proposito. Un despliegue construido correctamente, al igual que un histograma, proporciona informacion respecto al rango del conjunto de datos, muestra la ubicacion de la mayor concentracion de mediciones y revela la presencia 0 ausencia de simetrfa. Una ventaja del despliegue de tallo y hojas sobre el histograma es que conserva la informacion contenida en las mediciones individuales. Tal informacion se pierde cuando las mediciones son asignadas a los intervalos de clase del histograma. Como se vera mas adelante otra ventaja adicional del despliegue es que puede construirse durante el proceso de marcaje, de tal forma que se elimina el paso intermedio (la preparacion de un arreglo ordenado).
Para construir un despliegue se divide cada medicion en dos, la primera parte se llama tallo y la segunda, hojas. EI tallo se forma con uno 0 mas digitos iniciales de la medicion, y las hojas se forman con uno 0 mas de los digitos restantes. Todos los numeros divididos se muestran en un solo despliegue; los tallos forman una columna ordenada de menor a mayor. En la columna de tallos se incluyen todos aquellos que se encuentren dentro del rango de los datos, aun cuando una medicion con ese tallo no este en el conjunto de datos. Los renglones del despliegue contienen las hojas ordenadas en una lista a la derecha de sus respectivos tallos. Cuando las hojas se forman con mas de un digito, todos los digitos despues del primero se pueden borrar. Los decimales, cuando ocurren en los datos originales, se omiten en el despliegue. Los tallos se separan de sus hojas mediante una linea vertical. Asi, se observa que un despliegue tambien es un arreglo ordenado de los datos.
Los despliegues de tallo y hojas son mas eficientes en conjuntos de datos relativamente pequeiios. Como una norma, no es aconsejable utilizarlos en informes anuales 0 en otros medios de difusion para el publico en general. Son una ayuda basica para que investigadores y tomadores de decisiones comprendan la naturaleza de sus datos. Los histogramas son mas adecuados para las publicaciones de circulacion externa. EI siguiente ejemplo ilustra la construccion del despliegue de tallo y hojas.
FJEMPLO 2.3.2
Utilice los datos de edades de la tabla 2.2.1 para construir un despliegue de tallo y hojas.
Soindon: Puesto que todas las mediciones son numeros de dos dfgitos, se tienen tallos y hojas de un digito cada uno. Por ejemplo, la medicion 18 tiene un tallo de 1 y una hoja de 8. La figuni 2.3.6 muestra el despliegue de tallo y hojas para los datos.
26
CAPITULO 2 ESTADISTICA DESCRIPTIVA
Tallo Hoja
1
8899
2
011122222233333334444444445555666666666667777777777888888899999999
3
0000000000111111122222333444445666777~788888999
4
000000111222233344455566777788888899
5
000112233336
6
1233
FIGURA 2.3.6 Despliegue de tallo y hojas para las edades de 169 individuos incluidas en la tabla
2.2.1 (unidad de tallo = I, unidad de hoja = I).
EI paquete de software estadistico MINITAB se puede utilizar para elaborar el despliegue de tallo y hojas. Con los datos en la columna 1, Hamada "Edad", el paquete produce y presenta una salida como la que se muestra en la figura 2.3.7. El subcomando increment especifica la distancia desde el primer tallo hasta el siguiente. Los numeros en las columnas del extrema izquierdo de la figura 2.3.7 proporcionan informacion respecto al numero de observaciones (hojas) en una linea dada y por encima de ella, 0 el numero de observaciones en esa linea y en la de abajo.
Caja de dialogo: Comandos de la sesi6n:
MTB > Stem-and-Leaf 'Edad'i .Graph >-Characte~ Graphs >-Histogram >SUBC> Increment 10. Stem-and-Leaf
Tedear Edad en Variables. Tedear 10 en Increment. Clic
OK.
Resultados:
Oespliegue en modo caracter de tallo y hojas
Stem-and-Leaf of 'Edad' N= 169
Leaf Unit = 1.0
4 1 8899 70 2 01112222223333333444444444555566666666666777777777788888889999999+
(47) 3 00000000001111111222223334444456667777788888999
. 52 4 0000001112222333A4455566777788888899
16 5 000112233336
4 6
1233
FIGURA 2.3.7 Despliegue de tallo y hojas preparado por el paquete MINITAB a partir de los datos de las edades incluidas en la tabla 2.2.1.
EJERCICIOS 27
Por ejemplo, el numero 70 sobre la segunda linea indica que hay 70 observaciones (u hojas) en esa linea yen la de arriba. EI numero 52 en la cuarta linea (contando desde arriba) dice que hay 52 observaciones en esa linea y en todas las de abajo. El numero entre parentesis dice que hay 47 observaciones en esa lInea. Los parentesis indican la lineaque contiene la observaci6n central si el numero total de observaciones es impar, 0 las dos observaciones centrales si el numero total de observaciones es par.
EI signa + al final de la segunda linea de la figura 2.3.7 indica que la frecuencia para esa linea (el grupo de edades de 20 a 29) excede la capacidad de la lfnea, y que existe al menos una hoja adicional que no se muestra. En este caso, la frecuencia para el grupo de edades de 20-29 es de 66. En la linea hay s6lo 65 hojas, as! que el signo + indica que existe una hoja mas, un 9, que no se muestra. •
Una manera para no exceder la capacidad dela linea es tener mas lineas. Esto se puedehacer acortando la distancia entre las lfneas, es decir, reduciendo la amplitud de los intervalos de c1ase. Para este ejemplo, se puede utilizar un intervalo de dases con amplitud 5, as! que la distancia entre las lfneas es de 5. La figura 2.3.8 muestra el resultado producido por el paquete MINI1AB para el despliegue de tallo y hojas.
Stem-and-Leaf of 'Edad' N 169 Leaf Unit 1.0
4 1 8899 30 2 01112222223333333444444444 70 2 5555666666666667777777777888888899999999
(30 ) 3 000000000011111112222233344444
69 3 56667777788888999
52 4 0000001112222333444
33 4 55566777788888899
16 5 00011223333
5 5 6
4 6 1233
FIGURA 2.3.8 Despliegue de tallo y hojas preparado por el paquete MINITAB a partir de los datos de las edades incluidas en la tabla 2.2.1, con intervalos de clase de amplitud =5.
EjERCICIOS
2.3.1 En un estudio de la actividad proliferativa del cancer de seno, Veronese y Gambacorta (A-1) utilizaron los metodos inmunohistoquimico y de anticuerpos monoclonal Ki-67. Los investigadores obtuvieron tejido tumoral de 203 pacientes con carcinoma de pecho. Los pacientes
28 CAPiTULO 2 ESTADISTICA DESCRIPTIV A
tenfan entre 26 y 82 aftos de edad. La siguiente tabla muestra los valores de !{i-67 (expresados
en porcentajes) para esos pacientes.
10.12
10.80
10:54
27.30
8.38
10.15
5.48
23.50
32.60
42.70
19.30
16.40
4.40
26.80
16.60
33.00
11.65
26.30
1.73
35.90
9.63
9.31
7.40
9.35
14.78
~1.42
25.11
12.60
17.96
41.12
28.30
19.50
15.92
19.40
7.19
4.65
73.00
17.84
10.90
2.74
21.09
11.95
33.30 ..
4.53
19.40
1.00
27.00
9.03
51.20
6.40
13.72
32.90
9.80
2.43
2.00
8.77
9.40
35.40
51.70
43.50
3.00
4.70
14.00
15.00
3.60
4.09
9.20
6.20
5.00
15.00
17.60
50.00
10.00
20.00
30.00
5.22
5.00
15.00
25.00
10.00
12.70
30.00
10.00
15.00
20.00
7.39
4.00
25.00
20.00
30.00
21.36
49.85
29.70
19.95
5.00
11.36
24.89
29.55
10.00
38:90
8.12
28.85
19.80
4.99
6.00
3.14
5.00
44.20
30.00
9.88
4.33
9.20
4.87
10.00
29.10
5.07
2.00
3.00
2.00
2.96
8.10
4.84
9.79
5.00
9.50
4.23
10.00
19.83
20.00
4.77
13.11
75.00
20.00
5.00
4.55
4.07
14.79
8.99
3.97
30.00
6.07
15.00
40.00
18.79
13.76
45.82
4.32
5.69
1.42
18.57
5.58
12.82
4.50
4.41
1.88
5.00
10.00
4.12
14.24
9.11
9.69
8.37
6.20
2.07
3.12
4.14
2.03
2.69
3.69
5.42
4.59
10.00
6.27
6.37
13.78
27.55
9.83
6.55
8.21
3.42
3.51
9.10
11.20
6.88
7.53
8.58
5.00
29.50
9.60
6.03
14.70
5.60
28.10
5.48
7.00
6.72
3.32
13.52
5.70
17.80
13.10
9.75
7.37
FUENTE: Utilizado con autorizaci6n de Silvio M. Veronese, Ph. D.
EJERCICIOS 29
a) Construya con los datos:
Una distribuci6n de frecuencias
Una distribuci6n de frecuencias relativas
Una distribuci6n de frecuencias acumuladas
Una distribuci6n de frecuencias relativas acumuladas
Un histograma
Un poligono de frecuencia
b) ~Que porcentaje de las mediciones es menor que 10?
c) ~Que proporci6n de individuos tiene mediciones mayores 0 iguales que 20?
d) ~Que porcentaje de mediciones esta entre 20 y 49, inclusive?
e) ~Cuantas mediciones son mayores que 39?
t) ~Que proporci6n de las mediciones es menor que 10 0 mayor que 69?
g) Alguien selecciona aleatoriamente una medici6n de este conjunto de datos y Ie pide que
adivine el valor. ~Cual seria su respuesta? ~Por que?
b) La distribuci6n de frecuencias y sus histogramas pueden ser descritas de varias maneras
segUn su forma. Por ejemplo, puede ser simetrica (la mitad izquierda es al menos aproximadamente
igual a la mitad de la derecha), con inclinaci6n a la izquierda (las frecuencias tienden
a incrementarse conforme-Ias medicionesse iilcrementan en tamano), con inclinaci6n a
la derecha (las frecuencias tienden a decrecer conforme las mediciones disminuyen en tamano),
0 en forma de U (las frecuencias son-altas en cada extrema y cortas en el centro). ~C6mo
se describe esta distribuci6n?
2.3.2 Jarjour et al. (A-2) realizaron un estudio en el que se midieron los niveles de histamina del fluido de lavado bronquialveolar (BAL, siglas en ingles) en individuos con rinitis alergica, individuos con asma y voluntarios normales. Una de las mediciones obtenidas es la proteina total Olg/ml) en muestras de BAL. Los siguientes son los resultados de 61 muestras analizadas:
76.33
57.73 74.78 100.36 73.50
77.63
88.78 77.40 51.16 62.20
149.49 86.24 57.90 72.10 67.20
54.38
54.07 91.47 62.32 44.73
55.47
95.06 71.50 73.53 57.68
51.70 114.79 61.70 47.23
78.15 53.07 106.00 35.90
85.40 72.30 61.10 72.20
41.98 59.36 63.96 66.60
69.91 59.20 54.41 59.76
128.40 67.10 83.82 95.33
88.17 109.30 79.55
58.50 82.60 153.56
84.70 62.80 70.17
44.40 61.90 55.05
FUENTE: Utilizado con autorizaci6n de Nizar N. ]arjour, M. D.
30 CAPITULO 2 ESTADISTICA DESCRIPTIVA
a) Construya con los datos: Una distribuci6n de frecuencias Una distribuci6n de frecuencias relativas Una distribuci6n de frecuencias acumuladas Una distribuci6n de frecuencias relativas acumuladas Un histograma Un polfgono de frecuencia
b) ~Que porcentaje de mediciones esta entre 55 y 114, inclusive?
c) ~Cuantas mediciones son menores que 95?
d) ~Que proporci6n de las mediciones es mayor 0 igual que 75?
e) ~Que porcentaje de medici ones es menor que 55 0 mayor que 114.99?
f) Remitase al ejercicio 2.3.1 inciso h para describir la distribuci6n de proteina total en las
muestras de BAL en terminos de simetria e inclinaci6n.
2.3.3 Ellis et al. (A-3) realizaron un estudio para investigar las caracteristicas de uni6n de la imipramina a las plaquetas en pacientes maniacos y comparar los resultados con datos equivalentes de personas sanas y pacientes depresivos. Como parte del estudio, los investigadores obtuvieron los val ores maximos de uni6n a la molecula receptora (B rna) en estos individuos. Los siguientes valores son de 57 inqividuos estudiados que fueron diagnosticados con depresi6n unipolar.
1074 392 286 179 372 475 511 530 473 319 147 446 797 301 476 328 385 556 416 348 769 300 528 773 797 339 419 697 485 488 328 520 334 1114 1220 341 670 761 438 604 510 571 238 420 299 306 867 397 333 80 1657 303 607 790 768 1017 479
FUENTE: Utilizado con autorizaci6n de Peter E. Ellis.
a) Construya con los datos: Una distribuci6n de frecuencias Una distribuci6n de frecuencias relativas Una distribuci6n de frecuencias acumuladas Una distribuci6n de frecuencias relativas acumuladas Un histograma Un polfgono de frecuencia
b) ~Que porcentaje de mediciones es menor que 500? c) ~Que porcentaje de mediciones esta entre 500 y 999, inclusive?
EJERCICIOS 31
d) ~Que porcentaje de mediciones es mayor que 749?
e) Describa estos datos con respecto a la simetria e incIinaci6n tal como se estudi6 en el
ejercicio2.3.1, inciso h.
f) C:Cuantas de las mediciones son menores que 1000?
2.3.4 EI objetivo de un estudio de Herrman et at. (A-4) era determinar la prevalencia de des6rdenes mentales severos en una muestra representativa de convictos de tres centros de readaptaci6n social'en Melboume, Australia. Los tres grupos de convictos se cIasificaron como: aquellos que estuvieron de acuerdo en ser entrevistados, aquellos que rehusaron ser entrevistados y aquellos que estuvieron de acuerdo en sustituir a aquellos que se rehusaron a participar. Ademas de evaluar la prevalencia de des6rdenes mentales entre los individuos, los investigadores obtuvieron informaci6n del tiempo de sentencia y tiempo de confinamiento al momento del estudio. Los siguientes datos son el tiempo minimo de sentencia (en dfas) para cada individuo que rehus6 la entrevista.
18
4380
0
360
4955
720
1095
727
2190
730
365
1275
450
455
180
344
3650
0
2340
2555
2920
540
360
545
270
545
180
90
1000
0
2005
60
270
150
717
540
180
1825
3710
90
910
2920
180
660
90
270
2555
365
253
284
4015
3100
450
330
2885
1050
360
0
730
90
1460
1000
3160
450
1095
1460
910
1200
635
360
360
120
1953
0
466
1460
844
120
2920
409
360
1095
240
910
570
330
4745
0
951
540
88
1125
540
730
545
450
90
450
1670
730
FUENTE: Utilizado con autorizacion de Helen Herrman, M. D.
a) Construya con los datos:
Una distribuci6n de frecuencias relativas Una distribuci6n de frecuencias acumuladas Una distribuci6n de frecuencias relativas Un histograma Una distribuci6n de frecuencias acmnuladas Un poligono de frecuencia
32
CAPITULO 2 ESTADISTICA DESCRIPTIV A
b) Describa estos datos con respecto a la simetria e inclinad6n tal como se estudi6 en el
ejercido 2.3.1, indso h.
c) ~Por que se cree que los datos esuin inclinados de esa manera?
d) ~C6mo podrian utilizar los investigadores esta informacion en estudios posteriores?
e) (Cmintas mediciones son mayores que 729?
f) (Que porcentaje de mediciones es menor que 1460?
2.3.5
La siguiente tabla muestra e1 numero de horas de sueno de 45 pacientes de un hospital como
consecuencia de la administracion de derto anestesico.
7 10 12 4 8 7 3 8 5
12 11 3 8 1 1 13 10 4
4 5 5 8 7 7 3 2 3
8 13 1 7 17 3 4 5 5
3 1 17 10 4 7 7 11 8
a) Construya a partir de estos datos:
Una distribuci6n de frecuencias Un histograma
Una distribuci6n de frecuendas relativas Un poHgono de frecuencia
b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el
ejercicio 2.3.1, inciso h.
2.3.6
Los siguientes datos corresponden al numero de ninos que nacieron durante un ano, en 60
hospitales comunitarios:
30 55 27 45 56 48 45 49 32 57 47 56
37 55 52 34 54 42 32 59 35 46 24 57
32 26 40 28 53 54 29 42 42 54 53 59
39 56 59 58 49 53 30 53 21 34 28 50
52 57 43 46 54 31 22 31 24 24 57 29
a) Construya a partir de estos datos:
Una distribuci6n de frecuencias
Una distribuci6n de frecuencias relativas
Un histograma
Un poligono de frecuenda
b) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en el
ejercicio 2.3.1, inciso h.
2.3.7
En un estudio acerca de los niveles de resistenda fisica de estudiantes varones de reciente
ingreso a la universidad, se registraron las siguientes puntuaciones con base en algunas rutinas
de ejercicios.
254 281 192 260 212 179 225 179 181 149
182 210 235 239 258 166 159 223 186 190
180 188 135 233 220 204 219 211 245 151
198 190 151 157 204 238 205 229 191 200
222 187 134 193 264 312 214 227 190 212
165 194 206 193 218 198 241 149 164 225
265 222 264 249 175 205 252 210 178 159
220 201 203 172 234 198 173 187 189 237
272 195 227 230 168 232 217 249 196 223
232 191 175 236 152 258 155 215 197 210
(ContinUa)
EJERCICIOS 33
214· 278 252 283 205 184 172 228 193 130 218 213 172 159 203 212 117 197 206 198 169 187 204 180 261 236 217 205 212 218 191 124 199 235 139 231 116 182 243 217 251 206 173 236 215 228 183 204 186 134 188 195 240 163 208
a) Construya a partir de estos datos:
Una distribuci6n de frecuencias
Una distribuci6n de frecuencias relativas
Un poligono de frecuencia
Un histograma
b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el
ejercicio 2.3.1, inciso h.
2.3.8 Las edades indicadas a continuaci6n corresponden a 30 pacientes atendidos en la sala de urgencias de un hospital un viernes por la nocbe. Construya un despliegue de tallo y hojas con esos datos. Describir estos datos con respecto a la slmetrfa e inclinaci6n tal como se estudi6 enel ejercicio 2.3.1, inciso h.
. 35 32 21 43 39 60 36 12 54 45 37 53 45 23. 64 10 34 22 36 45 55 44 55 46 22 38 35 56 45 57
2.3.9 Los siguientes datos corresponden a los cobros realizados a 25 pacientes en la sala de urgencias de dos hospitales urbanos. Construya un despliegue de tallo y hojas para cada conjunto de datos. ':Que sugiere la comparaci6n de los dos despliegues respecto a los dos hospitales? Describa los dos con juntos de datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el ejercicio 2.3.1. inciso h.
Hospital A
249.10
202.50
222.20
214.40
205.90
214.30
195.10
213.30
225.50
191.40
201.20
239.80
245.70
213.00
238.80
171.10
222.00
212.50
201.70
184.90
248.30
209.70
233.90
229.80
217.90
Hospital B
199.50
184.00
173.20
186.00
214.10
125.50
143.50
190.40
152.00
165.70
154.70
145.30
154.60
190.30
135.40
167.70
203.40
186.70
155.30
195.90
168.90
166.70
178.60
150.20
212.40
34
CAPITULO 2
ESTADISTICA DESCRIPTIV A
2.3.10
Para este ejercicio es necesario utilizar los datos del ejemplo 1.4.1 desplegados en la
tabla 1.4.1.
a) Construya intervalos de clase con amp1itud 5 para:
Una distribuci6n de frecuencias
Una distribuci6n de frecuencias relativas
Una distribuci6n de frecuencias acumuladas
Una distribuci6n de frecuencias relativas acumuladas
Un histograma
Un poHgono de frecuencia
b) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en el
ejercicio 2.3.1, incisoh.
2.3.11
Los objetivos de una investigaci6n realizada por Skjelbo et ai. (A-5)fueron examinar: a) la
relaci6n entre el metabolismo de La cloroguanida y la eficacia de la profilaxis contra la malaria;
·o) el metabolismo de la mefenitoina y su relaci6n con el metabolismo de la cloroguanida
entre habitantes de Tanzania. A partir de la informacion proporcionada por las muestras de
orina de 216 individuos, los investigadores calcularon el porcentaje de inmutabilidad de Smefenitofna
hacia R-mefenitoina (porcentaje SIR). Los resultados son los siguientes:
0.0269
0.0400
0.0550
0.0550
0.0650
0.0670
0.0700
0.0720
0.0760
0.0850
0.0870
0.0870
0.0880
0.0900
0.0900
0.0990
0.0990
0.0990
0.0990
0.0990
0.0990
0.0990
0.0990
0.0990
0.0990
0;0990
0.0990
0.0990
0.0990
0.0990
0.0990
0.0990
0.0990
0.0990
0.0990
0.0990
0.0990
0.0990
0.0990
0.0990
0.0990
0.0990
0.0990
0.0990
0.0990
0.1000
0.1020
0.1040
0.1050
0.1050
0.1080
0.1080
0.1090
0.1090
0.1090
0.1160
0.1190
0.1200
0.1230
0.1240
0.1340
0.1340
0.1370
0.1390
0.1460
0.1480
0.1490
0.1490
0.1500
0.1500
0.1500
0.1540
0.1550 . 0.1570
0.1600 .0.1650
0.1650
0.1670
0.1670
0.1677
0.1690
0.1710
0.1720
0.1740
0.1780
0.1780
0.1790
0.1790
0.1810
0.1880
0.1890
0.1890
0.1920
0.1950
0.1970
0.2010
0.2070
0.2100
0.2100 . 0.2140
0.2150
0.2160
0.2260
0.2290
0.2390
0.2400
0.2420
0.2430
0.2450
0.2450
0.2460
0.2460
0.2470
0.2540
0.2570
0.. 2600
0.2620
0.2650
0.2650
0.2680
0.2710
0.2800
0.2800,
0.2870
0.2880
0.2940
0.2970
0.2980
0.2990
0.3000
0.3070
0.3100
0.3110
0.3140
0.3190
0.3210
0.3400
0.3440
0.3480
0.3490
0.3520
0.3,530
0.3570
0.3630
0.3630
0.3660
0.3830
0.3900
0.3960
0.3990
0.4080
0.4080
0.4090
0.4090
0.4100
0.4160
0.4210
0.4260
0.4290
0.4290
0.4300
0.4360
0.4370
0.4390
0.4410
0.4410
0.4430
0.4540
0.4680
0.4810
0.4870
0.4910
0.4980
0.5030
0.5060
0.5220
0.5340
0.5340
0.5460
0.5480
0.5480
0.5490
0.5550
0.5920
0.5930
0.6010
0.6240
0.6280
0.6380
0.6600
0.6720
0.6820
0.6870
0.6900
0.6910
0.6940
().7040
0.7120
0.7200
0.7280
0.7860
0.7950
0.8040
0.8200
0.8350
0.8770
0.9090
0.9520
0.9530
0.9830
0.9890
l.()120
l.0260
l.0320
1.0620
1.1600
FUENTE: Utilizado con autorizaci6n de Erik Skjelbo, M. D.
EJERCICIOS 35
a) Construya con los datos las siguientes distribuciones: frecuencia, frecuencia relativa, frecuencia acumulada y frecuencia relativa acunmlada; asi como las siguientes graficas: histograma, poligono de frecuencia y desplieglte de tallo y hojas. .
b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 2.3.1, inciso h. .
c) Los investigadores definieroncomo metabolizantes de bajo rendimiento de mefenitoina a
cualquier individuo con un porcentaje mefenitofna SIR mayor a .9. ~Cuantosy que porcentaje de individuos son metabolizantesde bajo rendimiento?
d) ~Cuantos y que porcentaje de individuos tienen porcentajes menores que.7, entre .3 y .6999, inclusive, y mayores que .4999?
2.3.12 Schmidt et al. (A-6) efectuaron un estudio para investigar si la autotransfusi6n de sangre extraida del mediastino podia reducir el numero de pacientes que necesitaba transfusiones de sangre homologa y reducir la cantidadde sangre hom61oga transfundida utilizando criterios de transfusion fijos. La siguiente tabla muestra las estaturas en centimetros de 109 individuos de los cuales 97 son varones.
1.720
1.710
1.700
1.655
1.800
1.700
1.730
1.700
1:820
1.810
1.720
1.800
1.800
1.800
1.790
1.820
1.800
1.650
1.680
1.730
1.820
1.720·
1.710
1.850
1.760
1.780
1.760
1.820
1.840
1.690
1.770
1.920
1.690
1.690
1.780
1.720
1.750
1.710
1.690
1.520
1.805
1.780
1.820
1.790
1.760
1.830
1.760
1.800
1.700
1.760
1.750
1.630
1.760
1.770
1.840
1.690
1.640
1.760
1.850
1.820
1.760
1.700
1.720
1.780
1.630
1.650
1.660
1.880
1.740
1.900
1.830
1.600
1.800
1.670
1.780
1.800
1.750
1.610
1.840
1.740
1.750
1.960
1.760
1.730
1.730
1.810
1.810
1.775
1.710
1.730
1.740
1.790
1.880
1.730
1.560
1.820
1.780
1.630
1.640
1.600
1.800
1.800
1.780
1.840
1.830
1.770
1.690
1.800
1.620
FUENTE: Utilizado con autorizaci6n de Henrik Schmidt, M. D.
a) Construya con los datos las siguientes distribuciones: frecuencia, frecuencia relativa, frecuencia
acumulada y frecuencia relativa acumulada; as! como las siguientes grMicas:
histograma, poligono de frecuencia y despliegue de !;allo y hojas.
b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el
ejercicio 2.3.1, inciso h. .
c) ~C6mo se puede explicar la forma de distribucion de estos datos?
d) ~Que tan altos son el6.42 por ciento de individuos mas altos?
e) ~Que tan altos son ell0.09 por ciento de individuos de menor estatura?
36 CAPITULO 2 ESTADISTICA DESCRIPTIV A
2.4 ESTADiSTICADESCRIPTIVA: MEDIDAS DE TENDENCIA CENTRAL
Aunque las distribuciones de frecuencia sirven a prop6sitos muy titiles, existen muchas situaciones en que se requieren otros tip6s de resumen de datos. Lo que se necesita, en muchos casos, es la: posibilidad de condensar datos por medio de un s610 ntimero llamado medida descriptiva. Las medidas descriptivas pueden calcularse a partir de los datos de unamuestra 0 de una poblaci6n. Para distinguirlas entre sf se tienen las siguientes definiciones:
DEFINICIONES
1. Una Inedida descriptiva calculada a partir de los datos de una m1,lestra se llaIna estadistica.
2. Una Inedida descriptiva calculada a partir de los datos de una poblacion se llaIna parametro.
Algunos tipos de medidas descriptivas se pueden calcular a partir de un conjunto de datos. Sin embargo, este capitulo se limita al estudio de las medidas de tendencia central y de las medidas de dispersion. Las medidas de tendencia central se consideran en esta secci6n, y las medidas de dispersi6n, en la siguiente.
Encada una de las medidas de tendenda central, de las que se discuten s6lo tres, tinicamente un valor delconjunto de datos se considera como el representativo del todo. Las medidas de tendencia central conllevan informaci6n respecto al valor promedio de un conjunto de valores. Tal como se vera, la palabra promedio se puede definir en diversas formas.
Las tres medida~ de tendencia central de uso mas frecuente son: la media, la moda y la mediana.
La media aritmetica La medida de tendencia central mas conocida es la media aritmetica. Esta es la medida descriptiva que la mayona de las personas tienen en mente cuando se habla de "promedio". EI adjetivo aritmetica distingue a esta media de otras que se puedan calcular. Puesto que no se estudian otras medias en este libro, no debe ser causa de confusi6n si al referirse a la media aritmetica s610 se dice media. La media se obtiene sumando todos los valores en una poblaci6n 0 muestra y dividiendo entre el ntimero de valores sumados.
FJEMPLO 2.4.1
Obtenga la edad media de la poblaci6n de los 169 individuos registrados en la
tabla 1.4.1.
Soluci6n: Se procede de la siguiente forma:
27+27+···+23+39edad media =-------169
5797 169
34.302

Los tres puntos en el numerador representan valores que no se muestran para economizar espacio.
2.3 ESTADisTICA DESCRIPTIVA: MEDIDAS DE TENDENCIA CENTRAL 37
Formula general para la media Es conveniente generalizar el procedimiento para obtener la media y, ademas ,representarlo en notaci6n de forma mas compacta. Se inicia por designar a la variable aleatoria con la letra mayiiscula X. En este ~empl0 X representa a la variable aleatoria de edad. Los valores espedficos para una variable aleatoria se representan con la letra minuscula x. Para referirse al primero, alsegundo, al tercer valor, y asf sucesivamente, se afiade un subfndice a la
x. Por ejemplo, a partir de la tabla 1.4.1 se tiene:
Xl = 27, x;1 = 27, ... , = 39
X l69
En general, un valor comun para la variable aleatoria se designa con Xi' y el valor final en una poblaci6n finita de valores, con xN' donde N es el numero de valores en la poblacion. Por ultimo, se utiliza la letra griega Il para simbolizar la media de la poblacion. Ahora se puede escribir la formula general para la media de una poblaci6n finita como sigue:
N
LXi
(2.4.1)
Il=~
N
El simbolo :2.:1significa que todos los valores para la variable se suman desde el primerohasta el ultiIJ1.o. A este slmbolo L se Ie conoce como signa de sumataria, y se utiliza extensamente en este libro. Cuando por el contexto sea obvio cuales son los valores que se suman, los simbolos de arriba y de abajo del signo L se omiten.
La media de la muesira Cuando se calcula laIl1edia para una muestra de valores, el procedimiento reciendescrito requiere algunas modificaciones en la notacion. Se utiliza '3c para identificar a la media dela muestra, yn para indicar el numero de valores enla muestra. For 10 tanto, la media de la muestra se expresa como sigue:
(2.4.2)
n
EJEMPLO 2.4.2
. En el capitulo 1 se obtuvo una muestra aleatoria simple de 10 individuos a partir de lapoblacion mostrada en la tabla 1.4.1. Ahora corresponde calcular la edad media de los 10 individuos en la inuestra. .
Soludon: Las edades (vease la tabla 1.4.2) de los 10 individuos de la muestra son: XI =42,x=28,x=28,x61,xs 31,x6 =23,x7 =50,xs =34,xg = 32,
2 3 4
x10 = 37. AI sustituir los datos de la muestra en la ecuaci6n 2.4.2 se obtiene:
n
:2. Xi 42+28+ ... +37366
x=~= =-=36.6
n 10 10

38 CAPITULO 2 ESTADISTICA DESCRIPTIV A
Propiedades de ta media La media aritmetica tiene ciertas prapiedades, algunas deseables y otras no tanto. Algunas de estas propiedades son las siguientes:
1.
Es unica. Para un conjunto de datos existe·una y s610 una media aritmetica.
2.
Simplicidad. EI calculo y comprension de lamedia aritmetica son sencillos.
3.
Puesto que todos y cada uno de los valores en d conjunto de datos entran en el dtlculo de la media, esta es afectada por cada valor. Por 10 tanto, los valores extremos influyen sobre la media y, en algunos casos, pueden distorsionarla tanto que llega a ser indeseable como medida de tendencia central.
A contipuacion se muestra un ejemplo de como los valores extremos pueden afectar la media. Considere la siguiente situacion: cinco medicos que trabajan en cierta area son llamadosa declarar sus cobras por realizar cierto procedimiento. Suponga que se reporta 10 siguiente: $75, $75,$80, $80 Y $280. EI cobra medio para los cinco medicos es de $118, un valor que no es muy representativo del conjunto de datos. El unico valor atlpico del con junto tuvo el efecto de inflar la media.
La mediana La mediana de un conjunto finito de val ores es aquel valor que divide al con junto en dos partes iguales, de forma que el numero de valores mayores 0 iguales a la mediana es igual al numera devalores menores 0 iguales a esta. Si el numero de valores es impar, la mediana es el valor medio 0 central siempre y cuando todas las variables sean arregladas eri orden de magnitud. Cuando el numera de valores en e!: conjunto es pat, no existe un valor medio unico, sino que existen dos valores medios. En tal caso, la mediana corresponde a la media de esos dos valores centrales, cuando todos los valores son arreglados en orden de magnitud. Es decir, la mediana del conjuntode datos .es la (n+ 1) 12-esima observacion, cuando las observaciones han sido ordenadas. Por ejemplo, si se tienen 11 observacjones, la mediana es la (11 + 1) 12 ~ 6-esima observadon ordenada. Si se tienen 12 observaCiones, la mediana es la (12+ 1)/2=6.5-esima observacion ordenada yes el valor que esta entre la sexta y septima observaci6n ordenada.
EJEMPLO 2.4.3
Encuentre la mediana de los datos contenidos en la tabla 2.2.1.
Soluci6n: En la tabla, los valores ya estan ordenados, de modo que s610 se requiere encontrar losqos valores medios.El valor medio es el (n+ 1)/2 =(169+ 1)1 2 170/2 85-esimo. Contando desde el mas pequeno hasta el 85esimo valor se observa que corresponde al 31. Por 10 tanto, la edad mediana de los 169 individuos es de 31 anos. •
FJEMPLO 2.4.4
Obtenga ahora la edad mediana para los ind}viduos de la muestra descrita en el ejemplo 2.4.2.
39
2.5 ESTADisTICA DESCRIPTIVA: MEDIDAS DE DISPERSION
Soluci6n: Al arreglar las 10 edades en orden de magnitud desde el valor mas pequefio hasta el mas grande seobtiene 23,28,28,31,32,34,37,42,50,
61. Puesto que se trata de un numero impar de valores, no existe solo un valor central. Sin embargo, los dos valores del centro son 32 y 34, asf que la mediana es (32 + 34)/2 = 33. •
_ Propiedades de la mediana Entre las propiedades de la mediana se encuentran las siguientes:
1.
Es unica. Al igual que en el caso de la media, existe solamente una mediana par~un conjunto de datos.
2.
Simplicidad. Es muy sencillo calcularla.
3.
Los valores extremos no tienen efectos importantes sobre la mediana, 10 que sf ocurre con la media.
La moda La moda de un conjunto.devalores es aquel valor que ocurre con mayor frecuencia. Si todos los valores son diferentes, no hay moda. Por otra parte, un conjunto devalores puede tener mas de una moda.
FJEMPLO 2.4.5
Encuentre laedad modal de los individuos cuyas edades se presentan en la tabla 2.2.1.
Soluci6n: El conteo de las edades en la tabla 2.2.1 revela que la edad 26 ocurre con mas frecuencia (11veces). La moda para esta poblaci6n de edades es de 26. •
Para ilustrar un conjunto de valores que tiene mas de una moda, considere un laboratorio con diez empleados cuyas edades son: 20, 21,20,20,34,22,24,27,27 Y 27. Se puede decir que estos datos tienen dos modas 20 y 27. Una muestra que consista en los valores 10, 21, 33, 53 Y 54 no tiene moda,puestoque todos los valores son diferentes.
La moda se puedeutilizarpara describir datos cualitativos. Por ejemplo, suponga que los pacientes de una cHnica de salud mental durante un afio dado recibieron uno de los siguientes diagnosticos: retardo mental, sfndrome cerebral organico, psicosis, neurosis y trastornos de personalidad.El diagh6stico que ocurre con mayor frecuencia en el grupo de pacientes se denominarfa diagnostico modal.
2.5 ESTADISllCA DESCRIP11VA: MEDIDA.." DE DISPERSION
G dispersion de un conjunto de observaciones se refiere a la variedad que muestran estas. Una medida de dispersion conlleva informacion respecto ala cantidad total de variabilidad presente en el conjunto de datos. Si todos los valores son iguales, no hay dispersion, perosi no todos son iguales, entoncesexiste dispersi6n en los datos. La magnitud de la dispersion es pequefia cuando los valores, aunque diferentes, son cercanos entre sf. La figura 2.5.1 muestra los pollgonos de frecuencia
40 CAPiTULO 2 ESTADiSTICA DESCRIPTIVA
PobIaci6n A
,
...
".
........
~, Poblacl6n B
, ",,
)1
FIGUBA 2.5.t Dos distribuciones de frecuencias con igual media pero diferente magnitud de dispersi6n.
para dos poblaciones que tienen medias iguales, pero diferente magnitud de variabilidad. La poblacion B, mas variable que la poblaeion A, es mas dispersa. Si los valores estan ampliamente esparcidos, la dispersion es mayor. Otros ti!:rminos sinonimos de dispersion son: variaciOn, expansion y dispersion.
El mngo 0 inlervalo de variacion Una forma de medir la vanacion en un eonjunto de valores es ealculando el rango. Este es la difereneia entre el valor mas pequenoy el mas grande enun eonjumo de observaciones. Si se representa el rango como R, el valor mayor como xL' Y el valor menor como xs' el rango se ealcula como sigue:
(2.5.1)
EJEMPLO 2.5.1
Caleule el rango de las edades de los individuos de la muestra estudiada en el ejemplo 2.4.2.
Soluci6n: Puesto queel individuo masjoven en la muestra tiene 23 anos y el mas viejo tiene 61, el rango calculado es:
R = 61-23 .38

La utilidad de rango es limitada. EI hecho de que toma en consider;acion solo dos valores hace que sea una medida pobre de dispersion. Su ventaja principal es la simplicidad de su caleulo. .
La variancia Cuando los valores de un conjunto de observaciones se eneuentran ubicados cerca de su media,la dispersion es menor que cuando estan esparcidos. En consecuencia, sepuede pensar intuitivamente que es posible medir la dispersion en funcion del esparcimiento de los valores alrededor de su media. Esta medi41
2.5 ESTADISTICA DESCRIPTIVA: MEDIDAS DE DISPERSION
cion se efectlia mediante 10 que se conoce como variancia. Por ejemplo, para calcular la variancia de una muestra de valores, se resta la media de cada uno de los valores individuales, las diferencias se elevan al cuadrado y despues se suman entre sf. Esta suma de desviaciones elevadas al cuadrado de los valores con respecto a la media se divide entre el tamafio de la muestra, menos 1, para obtener la variancia de la muestra. Si se asigna la letra S2 para simbolizar la varian cia de la muestra, el procedimiento descrito se expresa como sigue:
9 i=l (2.5.2)
s-=..:..,.:---n-l
FJEMPl,O 2.5.2
. Calcule la varianda de las edades de los individuos estudiadas en el ejemplo 2.4.2.
Soluci6n:.
(42 -36.6)2 +(28 -36.6)2 +... +(37 36.6)2
9
1196.399997
= ---,.,--;---132.933333

9 Grados de libertad La razon de dividir entre n -1, en lugar de entre n, como hubiera de esperarse, es una consideracion teorica conocida comogradas de libertad. En el calculo de la variancia, se puede decir que hay n -1 gradas de libertad. El razonamiento es como sigue: la suma de lasdesviaciones de los valores individuales con respecto a su media es igual acero, hecho que puede demostrarse. Si se conocen los valores de n 1 de las desviaciones a partir de la media, entonces se conoce el n-esimo valor, ya que queda determinado automaticamente debido a la restriccion de que todos los valores de n se sumen a cero. Desde un punto de vista practico, dividir las diferencias al cuadrado entre n 1en lugar de entre n resulta necesario por razones del usa de la variancia de la muestra en los procedimientos de inferencia que se estudian posteriormente. Elconcepto de grados de libertad se tratara de nuevo mas adelante. Los estudiantes interesados en profundizar en este aspecto pueden consultar el articulo de Walker (2). Cuando se calcula la varian cia a partir de una poblacion finita de N valores, se sigue el procedimiento recien descrito, excepto que se resta Jl de cada x y se divide entre N en lugar de N-l. Si se asigna el sfmbolo (52 para la variancia de una poblacion finita, la formula es la siguiente: (2.5.3)
N
DesviaclOn estdndar La variancia representa unidades al cuadrado, por 10 que no es una medida adecuada de dispersioilsi se pretende expresar este concepto enlerminos de las unidades originales. Para obtener la medida de dispersion en unidades originales, simplemente se obtiene la rafz cuadrada de la variancia. El
42 CAPITULO 2 ESTADISTICA DESCRIPTIVA
resultado se llama desviaci6n estandar. En general, la desviacion estandar de una muestra se obtiene mediante la siguiente formula: (2.5.4)
s
n-l
La desviacion estandar de una poblacion finita se obtiene con la raiz cuadrada de la cantidad resuitante de la ecuacion 2.5.3.
El coeftciente de variacion La desviacion estandar es util como medida de variacion en un determinado conjunto de datos. Sin embargo, cuando se quiere comparar la dispersion de dos conjuntos de datos, la comparacion de las dos desviaciones estandar puede dar un resultado equivocado. Esto puede ocurrir si las dos variables involucradas tienen medidas en diferentes unidades. Por ejemplo: se pretende conocer, para una poblacion dada, si los niveles de colesterol en el suero, medidos en miligramos por cada 100 mI, son mas variados que el peso del cuerpo, medido en libras 0 kilogramos. .
Ademas, aunque se utilice la misma unidad de medici on, las dos medias pueden diferir bastante. Si la desviaci6n estandar de los pesos de los ninos de primer grado de primaria son comparadas contra la desviaci6n estandar de los pesos de los estudiantes de preparatoria de reciente ingreso, se encontrani que esta ultima es numericamente mayor que la anterior, debido a que los pesos mismos son mayores y no porque la dispersion sea mayor.
Lo que se necesitaensituaciones como esta es una medida de variancia relativa en lugar de una de variancia absoluta. Tal medida la constituye el coeficiente de variaci6n, el cual expresa la desviacion estandar como un porcentaje de la media. La formula es como sigue:
. s
c.v. = -= (100) (2.5.5)
x
Se aprecia entonces que, como la media y las desviacionesestandar se expresan en la misma unidad de medici6n, la unidad de medici6n se cancela al calcular el coeficiente de variaci6n. Entonces se obtiene una medida independiente de la unidad de medici6n.
FJEMPLO 2.5.3
Los siguientes resultados corresponden ados muestras formadas por varones:
Muestra 1 Muestra 2
Edad
25 anos
11 afios
Peso medio
145libras
80 libras
Desviacion estandar
10libras
10 libras
El prop6sito es saber ~uaI tiene mayor variabilidad, los pesos de individuos de 25 anos 0 los de 11 afios.
43
2.5 ESTADISTICA DESCRIPTIVA: MEDIDAS DE DISPERSI6N
Solucion: Una comparacion de las desviaciones estandar puede conducir a la conclusi6n de. que las dos muestras tienen igual variabilidad. Sin embargo, si se cakulan los coeficientes de variacion, se obtiene para los sujetos de
25. aiios de edad:
C.V. ~(100)=6.9
145
y para los de 11 anos de edad:
10
C.V. == -(100) =12.5
80 Si se comparan estos resultados, la impresi6n recibida es diferente. •
EI coeficiente de variaci6n tambien es utH para comparar los resultados obtenidos
por diferentes personas que efectuan investigaciones que involucran la misrna variable. Debido a que el coeficiente de variaci6nes independiente de la escala de medici6n, constituye una estadistica util para comparar la variabilidad de dos 0 .m~s variables medidas en escalas diferentes. Por ejemplo, podrfa utilizarse el coeficienle de variaci6n para comparar la variabilidad de los pesos de una muestra de individuos cuyos p!,=sos se expresan en libras y la variabilidad de los pesos de otra
muestra, expresados en kilogramos.
Analisisporcomputadnra Los paquetes de software para computadora proporcionan
una variedad de posibilidades para el Gilculo de las medidas descriptivas.
En la figura 2.5.2 se muestra una impresi6n de las medidas descriptivas
disponibles en el paquete MINITAB. Los datos son las edades correspondientes al
ejemplo 2.4.2. Con los datos de la columna 1, el procedimiento MINITAB se muestra
en la figura 2.5.3.
En las salidas impresas Ql y Q3 son el primer y tercer cuartil, respectivamenteo
Estas medidas se describen mas adelante en este capitulo.
TRMEAN significa media arreglada. La media arreglada se utiliza algunas veces
en lugar de la media aritmetica, como medida de rendencia central. Se calcula
despues de que algunos val ores extremos son excluidos. Por 10 tanto, la media arreglada
no tiene la desventaja de ser influenciada indebidamente por los valores extremos
como en el caso de la media aritmetica. EI termino SEMEAN significa enw
estdndar de La media. Esta medida, al igual que la media arreglada, se estudiara con
detalle en un capitulo pr6ximo. La figura 2.5.4 muestra, para los mismos datos, la
salida impresa de SAS® que se obtiene al utilizar la instrucci6n PROC MEANS.
N 10
MEAN 36.60
MEDIAN 33.00
TRMEAN 35.25
STDEV 11. 53
SEMEAN 3.65
MIN 23.00
MAX 61.00
28.00
Q3 44.00
FIGURA 2.5.2 La impresi6n de medidas descriptivas calculadas a partir de la muestra de edades del ejemplo 2.4.2 con el paquete de software estadistico MINITAB.
44
CAPITULO 2 ESTADISTICA DESCRIPTIV A
Caja de dialogo: Comandos de lei sesi6n: Stat >-Basic Statistics >-Descriptive Statistics MTB > Describe C1
Teclear Cl en Variables. Elegir Tabular form bajo Display options. Clic OK.
FIGURA 2.5.3 EI procedimiento del paquete MINITAB para calcular las medidas descriptivas a partir de los datos del ejemplo 2.4.2.
Perce",iles y cuartiles La media y la mediana son casos especiales de la familia de panimetros conocidos como parametros de localizaci6n. Estas medidas descriptivasse Haman parametros delocalizacion porque pueden utilizarse para designar ciertas posiciones sobre eleje horizontal cuando se elabora una grMica de la distribucion de una variable. En ese senti do, los parametros de localizacion "ubican" la distribucion sobre el eje horizontaL Por ejemplo, una distribucion con una mediana de 100 se localiza a la derecha de una distribution con una mediana de 50, en la grafica de las dos distributiones. Otros parametros de localization son los percentiles y cuartiles. Se puede definir un percentil como sigue:
DEFINICION
Dado un conjunto de n observaciones Xl' X2, •••, Xn, el p-esu,:..o percentil P es el valor de X, tal que p por ciento 0 menos de lasobservaciones son menores que P y (100 -p) por ciento 0 menos de las observaciones son mayores que P.
Los subindices en P sirven para distinguir un percentil de otro. El decimo percentiI, por ejemplo, se designa como PIO, el septuagesimo se expresa como P70, y aSl sucesivamente. El percentil quincuagesimo es la mediana, y se designa como
' EI vigesimo quinto percentil suele representar el primer cuartil, y se expresa
Pso como Qj' AI qUincuagesimo percentil (la mediana) se Ie conoce como segundo cuartil
o cuartil medio, denotado por Q2' y al septuagesimo quinto percentil se Ie llama tercer cuartil, Qs.
VARIABLE N MEAN STANDARD MINIMUM MAXIMUM DEVIATION VALUE VALUE EDADES 10 36.6QOOOOOO 11.52967187. 23.00000000 61.00000000
STD
ERROR
SUM
VARIANCE
C.V.
OF
MEAN
3.64600238 366.00.000000 132.93333333
31. 502
FIGURA 2.5.4 Salida impresa de las medidasdescriptivas c.alculadas a partir de la muestra de edades del ejemplo 2.4.2, con el paquete SAS®.
45
2.5 ESTADtSTICA DESCRIPTIVA: MEDIDAS DE DISPERSION
Cuandose pretende encontrar los cuartiles para el conjunto de datos, se utilizan las siguientes formulas:
n+l ,. b ., d d
---eSlma 0 servaClon or ena a 4
2(n+l) n+l. .
Q2 = =---eSlma observaClon ordenada
4 2 ~--'---'--esima observaci6n ordenada 4 Alnplituddel intercuarlil Tal como se ha visto, el rango proporciona una medida no piocesada (cruda) de la variabilidad presente en un conjunto de datos. La desvenl:£!ja de la amplitud es el hecho de que esta se calcula a partir de dos valores, el mas grande y el mas pequeno. Una medida similar que refleja la variabilidad entre el50 por ciento central de las observaciones en el con junto de datos es la amplitud del intercuartil.
DEFINICI6N La alIlpliQ.td del intercuartil (IQR) es la diferencia entre el tercero y el cuarto cuartil, es decir:
(2.5.6)
Un IQR grande indica Uila magnitud mayor de variabilidad entre el 50 por ciento central de las observaciones relevantes, y un IQRpequeno indica una magnitud pequenade variabilidad entre las observaciones relevantes. Puesto que estas expresiones son bastante vagas, es mas informativa la comparaci6n de la amplitud del intercuartil con la magnitud del conjunto de datos completo. Se puede hacer la comparacion formando la razon del IQR con respecto a la amplitud (R) y multiplicando por 100. Es decjrr 100(IQR/R) indica que el porcentaje de IQR es de toda la amplitud.
Groftea de caja con valQres exirelUos (box and whisker) Un dispositivo visual muy util para comunicar la informacion contenida en un conjunto de datos es la grafica de caja con valores extremos (algunas veces Hamada s610 boxplot). Para la construcci6n de esta grafica se usan los cuartiles de un conjunto de datos, y se siguen los cinco pasos que se mencionan a continuacion:
I: Representar a la variable de interes sobre el eje de las x.
2. Dibujar sobre el eje horizontal un cuadro, de tal forma que el extremo izquierdo este alineado can el primer cuartil QJ' y el extremo derecho del cuadro quede alineado can el tercer cuartil Q'
s
3.
Dividir el cuadro en dos partes con una linea vertical que se alinee con la medianaQ2'
4.
Dibujar una linea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde quede alineada can la medici6n mas pequena en elconjunto de datos.
5.
Dibujar otra linea horizontal desde el extremo derecho del cuadro hasta el punto donde se alinea con la medicion mas grande en el conjunto de datos.
46
CAPITULO 2 ESTADISTICA DESCRIPTIVA
TABIA2~5.t Diameu-os (cm) de sarcomas puros extirpados del pecho de 20 mujeres
.:J ,., 1.2 2.1 2.5 2.5 3.0 3.8 4.0 4.2 4.5 5.0
5.0 5.0 5.0 6.0 6.5 7.0 8.0 9.5 13.0
FUENTE: William C. Pitts, Virginia A Rojas, Michael]. Gaffey, Robert V. Rouse, Jose Esteban, Henry F. Frierson, Richard L. Kempson y Lawrence M. Weiss, "Carcinomas with Metaplasia and Sarcomas of the Breast", AmericanJournal of Clinical Pathology, 95, 623-632.
El examen de la grafica para un conjunto de datos revela informacion respecto a la magnitud de la dispersion, localizacion de la concentracion y simetria de los datos.
El siguiente ejemplo ilustra la construccion de la grMica de caja con valores extremos.
FJEMPLO 2.5.4
En una revista medica de publicacion periodica, Pitts et al. (A-7) asegura que "los carcinomas con metaplasia y sarcomas producidos dentro del seno son dificiles de diagnosticar ydasificar con precision debido a susvariados patrones histologicos y a su rareza". En un intento por estudiar mas detalles de las caracterfsticas biologicas, los autores investigaron una serie de sarcomas puros y carcinomas que exhibfan metaplasia. La tabla 2.5.1 contiene ordenados en centfmetros los diametros de los neoplasmas extirpados del pecho de 20 individuos con sarcomas puros.
Soluci6n: Lamedicion mas pequena y 1a mas grande son.5 y 13.0, respectivamente. El primer cuartil es QI = (20 + 1) / 4 5.25-esima medicion, la cual es 2.5 + (.25)(3.0 2.5) = 2.625. La mediana es Q2 = (20 + 1) / 2 = 1O.5-esima medicion igua1 a 4.5 + (.5)(5.0 -4.5) 4.75. E1 tercer cuarti1 es Q3 = 3(20 + 1) / 4 = 15.75-esima medicion iguala 6.0 + (.75)(6.56.0) = 6.375. La amp1itud del intercuartil es IQR = 6.375 -2.625 =
3.75. La amplitud es 12.5, yel IQR es 100(3.75/12.5) == 30 porciento de la amplitud. La caja de valores extremos resultante se muestra en la figura 2.5.5. ..
AI examinar la figura 2.5.5 se observa-que 50 por ciento de las mediciones estan entre 2.6 y 6.4, los valores aproximados del primero y tercer cuartil, respectivamente. La barra vertical dentro de la caja muestra que la mediana esta cerca de 4.75.
o
2
3
4
5
6
7
8
9
10
11
12
13
14
Diametro (em)
FIGUR-\. 2.5.5
Caja de valores extremos del ejemplo 2.5.4.
47
2.5 ESTADiSTICA DESCRIPTIVA: MEDIDAS DE DISPERSION
14 12 0 10
E
:;;l
a;
B
." 0
.",
E'" 6
~
4 2 0
*
I
FIGURA 2.5.6 Caja. de val ores extremos elaborada con el paquete MINITAB a partir de la tabla 2.5.1.
La linea mayor a la derecha indica que la distribuci6n de diametros esta inclinada
hacia la derecha.
Muchos paquetes de software estadistico tienen.la capacidad para construir gr:Hicas de caja con valores extremos. La figura 2.5.6 muestra una, construida con MINITAB a partir de los datos de la tabla 2.5.1. Se colotan los datos en la columna 1, se renombra la variable con "Tumsize" (tamanodel tumor), y se procede como se muestra en lafigura 2.5.7. EI asterisco en la figura 2.5.6 sirve para alertar que hay un valor inusualmente mayor que los demas, Hamada outlier (valor muy alejado), el cualcorresponde al melanoma de 13 em de diametro. La linea superior en la figura 2.5.6 se detiene en 9.5, y el valor mas grande no se considera que sea un valor muyalejado. La figura 2.5.6 ejemplifica que la caja de valores extremos puede desplegarse tanto vertical como horizontalmente.
En el paquete SAS® se utiliza la instrucci6n PROC UNIVARIATE para obtener la grafica de valores extremos. Esta instrucci6n tambien produce otras medidas descriptivas y desplegados, que incluyen graficas de tallo y hojas, medias, variancias y cuartiles. .
Andlisis exploratorio de datos La grafica de caja con va10res extremos, aSI como la de tallo y hojas, son ejemplos de 10 que se conc:lCe como tecnicas de analisis de exploraci6n de datos. Estas tecnicas, populares debido al resultado del trabajo de Tukey (3), permiten que el investigador examine datos de manera que estos revelen tendencias y relaciones, identifiquen caracteristicas fmicas del con junto de datos y faciliten su descripci6n y resumen.
Caja de dialogo:
Comandos de la sesi6n:
Stat> EDA > Boxplot
MTB
> Boxplot
Teclear Tumsize en Y.
'Tumsize';
En Data Display 1, seleccionar IQRange Box.
sose
>
BOXi
En Data Display 2, seleccionar Outlier Symbol.
sose
> Symbol;
Clic OK.
sose
> outlier.
FIGURA 2.5.7 El procedimiento del paquete MINITAB paraproducir la figura 2.5.6.
48 CAPITULO 2 ESTADISTICA DESCRIPTIV A
EJERCICIOS
Calcule para cada uno de los con juntos de datos de los siguientes ejercicios, a) la media, b) la mediana, c) la moda, d) la amplitud, e) la varianza, f) la desviaci6n estandar, g) el coeficiente de variacion y h) la amplitud del intercuartil. Cada con junto de datos debe considerarse como una muestra. Para los ejercicios que se considere adecuado, prepare una gnifica de caja con valores extremos y estudie la utilidad que proporciona este dispositivo para' comprender la naturaleza de los datos. Seleccione para cada ejercicio la medida de tendencia central que pueda ser la mas apropiada para describir los datos. Establezca los razonamientos que justifican cada elecci6n.
2.5.1 Treinta pacientes con limitaciones cr6nicas severas de respiraci6n son sujetos de estudio por parte de Fernandez et al. (A-8), parainvestigar la eficacia del tramiento para mejorar el intercambio de gases. Los siguientes valores representan la superficie corporal de los pacientes:
.2.10 1.74 1.68 1.83 1.57 1.71 1.73
l.65 1.74 1.57 2.76 1.90 1.77
FUENTE: Enrique Fernandez, Paltiel Weiner, Ephraim Meltzer, Mary M. Lutz, David
B. Badish y Reuben M. Cherniack, "Sustained Improvement in Gas Exchange After Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation", American Review ofRespiratory Disease, 144, 390-394,
2.5.2 Los estudios de Dosman etal. (Ac9) permiten concluir que la aspiraci6n de aire frIO incrementa la reactividad bronquial al inhalar histamina en pacientes asmaticos. Se estudiaron siete pacientes asmaricos con edades entre 19 y33 alios. Los valores de linea de base (en litros por minuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes:
3.94 1.47 2.06 2.36 3.74 3.43 3.78
FUENTE:J.A. Dosman, W. C. Hodgson y D. W. Cockcroft, "Effect ofCold Air on the
Bronchial Response to Inhaled Histamine in Patients with Asthma" ,American Review
ofRespiratory Disease, 144, 45-50. .
2.5.3 A 17 pa~ientes internados en los Aberdeen Teaching Hospitals, en Escocia, entre los afios de
1980 Ymediados de 1988 se les diagnostic6 absceso hepatico pi6geno. Nueve pacientes ,murieron. En un articulo de la revistaAge and Ageing, Sridharan et al. (A-10) afirmaron que "la elevada mortalidad por absceso hepatico piogeno se debe; al menos en parte, ala falta de sospecha clinica". Las'edades de los individuos estudiados son las siguientes:
63 72 62 69 . 71 84 81 .78 61 76 84 67 86 69 64 87 76
FUENTE: G.V Sridharan, S. P. Wilkinson y W. R. Primrose, "Pyogenic Liver Abscess in the Elderly", Age and Ageing, 19, 199-203. Cortesfa de Oxford University Press.
2.5.4 Arinami et al. (A-II) analizaron las respuestas auditivas del tallo cerebral en una muestra de 12 varones con retardo mental afectados por el sll1drome de fragilidad del cromosoma X. Los valores de IQ para cada individuo son los sigt~ientes:
17 22 17 18 17 19 34 26 14 33 21 29
FUENTE: Tadao Arinami, Miki Sato, Susumu Nakajima e Ikuko Kondo, "Auditory Brain-stem Responses in the Fragile X Syndrome" ,AmericanJournal ofHuman Genetics, 43; 46-51. Copyright" de la American Society of Human Genetics. Todos los derechos reservados. -Publicaci6n de la Universidad de Chicago.
49
2.6 RESUMEN
2.5.5 En un articulo de la revista American Journal ofObstetrics and Gynecology, el doctor Giancarlo Mari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial sanguineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retardado. En este articulo afirmo que los datos preliminares sugieren que "el indice de pulsaciones de la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas, en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mas correlacionado con las consecuencias fetales adversas". Los siguientes valores representan las edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados:
24 26 27 28 28 28 29 30 30 31 32
32 33 33 34 34 35 35 35 36 FUENTE: Giancarlo Mari, "Arterial Blood Flow Velocity Waveforms of the Pelvis and Lower Extremities in Normal and GrowthCRetarded Fetuses", American Journal of Obstetrics and Gynecology, 165, 143-15l.
2.5.6 El objetivo del estudio de Kuhnz et al. (A-13) es analizar ciertos parametros farmacocineticos basicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral. Los pesos (en kilogramos) de las 10 mujeres que participaron en el estudio son:
62 53 57 55 69 64 60 59 60 60
FUENTE: Wilhelm Kuhnz, Durda Sostarek, Christiane Gansau, Tom Louton y Mariane Mahler, "Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women: Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum", American Journal ofObstetrics and Gynecology, 165, 596-602.
2.5.7 Ver el ejercicio 2.3.1.
2.5.8 Ver el ejercicio 2.3.2.
2.5.9 Ver el ejercicio 2.3.3.
2.5.10 Ver el ejercicio 2.3.4.
2.5.11 Ver el ejercicio 2.3.5.
2.5.12 Ver el ejercicio 2.3.6.
2.5.13 Ver el ejercicio 2.3.7.
2.5.14 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitario en trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin en una muestra de pacientes con trastornos de panico y una muestra de controles normales. Entre los datos recolectados en estos individuos se encontraron puntuaciones de comportamiento como las medidas por la escala de ansiedad de Zung (ZAS, siglas en ingles de Zung Anxiety Scale). Los siguientes valores representan las puntuaciones de ZAS de los 26 individuos con diagnostico de trastornos de panico.
53 59 45 36 69 51 51 38 40 41 46 45 53 41 46 45 60 43 41 38 40 35 31 38 36 35
FUENTE: Utilizado con autorizaci6n de Thomas W Uhde, M. D. Construya una grafica de valores extremos con estos datos.
2.6 RESUNIEN
En este capitulo se examinan varios procedimientos estadfsticos descriptivos que incluyen organizaci6n de datos por medio de arreglo ordenado, distribuci6n de frecuencias, distribuci6n de frecuencias relativas, histogramas y poHgonos de fre50
CAPITULO 2 ESTADISTICA DESCRIPTIV A
cuencia. Se describen los conceptos de tendencia central y variaci6n, y junto con ellos las medidas mas generales: media, mediana, moda, amplitud, variancia y desviaci6n estandar. Se presenta el analisis exploratorio de datos mediante graficas de valores extremos y despliegue de tallo y hojas.
Se destaca la importancia que tiene el empleo de la computadora como herramienta para calcular las medidas descriptivas y elaborar varias distribuciones a partir de grandes conjuntos de datos.
PREGUNTAS YFJERCICIOS DE REPASO
1.
Defina los siguientes conceptos:
a) Despliegue de tallo y hojas b) Grafica de valores extremos
c) Percentil d)Cuartil
e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos
g) Arreglo ordenado h) Distribuci6n de frecuencias
i) Distribuci6n de frecuencias relativas j) Estadistica
k) Pan'imetro 1) Poligono de frecuencia
m) Umites correctos de intervalos de clase n) Histograma
2.
Defina y compare las caracteristicas de la media, la mediana y la moda.
3.
~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n?
4.
Explique por que se utiliza n 1 para calcular la variancia.
5.
~Cual es el prop6sito del coeficiente de variaci6n?
6.
~Cual es el prop6sito de la regia de Sturges?
7.
~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)?
8.
Describa, desde su propio campo de estudio, una poblaci6n de datos donde podria ser (Itil conocer la tendencia central y la dispersion. Obtenga los valores reales 0 realistas a partir de esa poblaci6n y calcule la media, mediana, moda, variancia y desviaci6n estandar.
9.
Recolecte un conjunto de datos reales 0 realistas, en su campo de estudio para construir una distribuci6n de frecuencias, una distribucion de frecuencias relativas, un histograma y un polfgono de frecuencia.
10.
Calcu1e la media, mediana, moda, variancia y desviacion estandar para los datos del ejercicio 9.
11.
Localice un articulo de una revista de su campo de estudio en el que se hayan calculado medidas de tendencia central y dispersion.
12.
En el ejercicio 2.5.14 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de 26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein y Uhde (A-14). En ese estudio tambien se incluyo a individuos sanos como controles (es decir, individuos que no padecen trastornos de panico). Los siguientes valores corresponden a las puntuaciones de ZAS de 21 de estos individuos sanos.
26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25
FUENTE: Utilizado con autorizaci6n de Thomas W Uhde, M. D.
PREGUNTAS Y EJERCICIOS DE REPASO 51
a) Combine estos valores con las puntuaciones del ejercicio 2.5.14 y elabore una grafica de
tallo y hojas.
b) Con base en la grafica de despliegue de tallo y hojas, describa en una palabra la naturaleza
de los datos.
c) tPor que luce asi la grafica del inciso b?
d) Para la combinaci6n de datos de ZAS calcule: la media, moda, mediana, variancia y
desviaci6n estandar.
13.
Consulte el ejercicio 12 y calcule, s610 para los 21 controles sanos, la media, moda, mediana, variancia y desviaci6n estandar.
14.
Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico: la media, moda, mediana, variancia y desviaci6n estandar.
15.
~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad: el integrado por individuos sanos y enfermos, el conjunto de control de individuos sanos 0 el conjunto de pacientes con trastornos de panico? ~C6mo se justifica la respuesta?
16.
Analice el ejercicio 12. ~Que medida de tendencia central considera mas adecuada para describir los valores de ZAS, la media 0 la mediana? ~Por que?
17.
Swifet al. (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psiquiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram. De acuerdo con los investigadores, el sindrome de Wolfram es un sindrome neurodegenerativo autos6mico recesivo, en el que 25 por ciento de los individuos que son homocig6ticos para la enfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio u· hospitalizaci6n psiquiatrica. Entre los individuos estudiados se encontr6 a 543 parientes consangufneos de los pacientes con sfndrome de Wolfram. A continuaci6n se muestra una distribuci6n de frecuencia de las edades de estos parientes consanguineos:
Edad Cantidad
20-29 55
30-39 93
40-49 113
50-59 90
60-69 85 FUENTE: Ronnie Gorman Swift,
Diane O. Perkins, Charles L.
70-79 73
Chase, Debra B. Sadler y Michael
80-89 29 Swift, "Psychiatric Disorders in 36
90-99 5
Families with Wolfram Syndrome", American Joumal ofPsychiatry, 148,
Total 543 775-779.
Con base en estos datos, elabore una distribuci6n de frecuencias relativas, una distribud6n de frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas.
18. La motivaci6n de un estudio realizado por Roberts et 01. (A-l 6) fue su preocupad6n sobre si las recomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subestiman el total de energfa necesaria en varones adultos j6venes. Los sujetos del estudio fueron 14 varones adultos j6venes sanos de peso corporal normal, quienes desarrollaban de tiempo completo ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio. Los siguientes valores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra:
--_..... _---52
CAPITULO 2
24.4 30.4
23.0 20.6
ESTADISTICA DESCRIPTIVA
21.4 25.1 21.3 23.8 20.8 22.9 20.9 23.2 21.1
26.0
FUENTE: Susan B. Roberts, Melvin B. Heyman, William J. Evans, Paul Fuss, Rita Tsay y Vernon
R. Young, "Dietary Energy Requirements of Young Adult Men, Determined by Using the Doubly Labeled Witer Method", AmericanJournal ofClinical Nutrition, 54,499-505.
a) Calcu1e media, moda, mediana, variancia, desviaci6n estandar y coeficiente de variaci6n.
b) E1abore una grafica de tallo y hojas.
c) E1abore una graflCa de va10res extremos.
d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media,
dentro de dos desviaciones estandar, y dentro de tres desviaciones estandar?
19. Consulte el ejercicio 18. Los siguientes son los pesos (kg) y estaturas (cm) de los 14 individuos de 1a muestra estudiada por Roberts et al. (A-16):
Pesos: 83.9 99.0 63.8 71.3 65.3 79.6 70.3 69.2 56.4 66.2 88.7
59.7 64.6 78.8 Estaturas: 185 180 173 168 175 183 184 174 164 169 205
161 177 174 FUENTE: Susan B. Roberts, Melvin B. Heyman, William]. Evans, Paul Fuss, Rita Tsay y Vernon
R. Young, "Dietary Energy Requirements of Young Adult Men, Determined by Using the Doubly Labeled Water Method", AmericanJournal ofClinical Nutrition, 54,499-505.
a) Para cada variable, ca1cu1e media, mediana, variancia, desviaci6n estandar y coeficiente de
variaci6n.
b) Para cada variable, elabore un despliegue de tallo y hojas, y una grafica de va10res
extremos.
c) ~Que conjunto de mediciones tiene mayor variabilidad, peso 0 estatura? ~Que bases tiene su respuesta?
20. La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad reportada durante un ano en un estado en particular:
Edad Numero de casos
5-14 15-24 25-34 35-44 45-54 55-64
5 10 120 22 13 5
Total 175
Para estos datos elabore una distribuci6n de frecuencias acumuladas, una distribuci6n de frecuencias relativas, una distribuci6n de frecuencias relativas acumuladas y un histograma.
21.
Nombre los tres sin6nimos de variaci6n (variabilidad).
22.
Como parte de un proyecto de investigaci6n, los investigadores obtuvieron los siguientes datos sobre los niveles sericos de per6xido lipido (SLP, por las siglas en ingles de serum lipid
53
PREGUNTAS Y EJERCICIOS DE REPASO
peroxide), a partir de los informes de laboratorio de una muestra de 10 individuos adultos que recibian tratamiento para la diabetes mellitus: 5.85, 6.17, 6.09, 7.70, 3.17, 3.83, 5.17, 4.31,3.09,5.24. Calcule la media, mediana, variancia y desviaci6n estandar.
23.
Los siguientes val ores corresponden a los niveles de SLP que se obtuvieron de una muestra de 10 adultos aparentemente sanos: 4.07, 2.71, 3.64, 3.37, 3.84, 3.83, 3.82,4.21,4.04,4.50. Calcule para estos datos la media, mediana, variancia y desviaci6n estandar. Compare los resultados con los del ejercicio 22. <Que es 10 que sugieren estos resultados con respecto a los niveles de SLP entre los pacientes con y sin diabetes mellitus? <Estos resultados proveen suficientes bases para tomar acci6n medica? Explique su respuesta.
24.
A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospital. Elabore una grMica de tallo y hojas. <C6mo describiria la forma de estos datos?
32 63 33 57 35 54 38 53 42 51 42 48
43 46 61 53 12 13 16 16 31 30 28 28
25 23 23 22 21 17 13 30 14 29 16 28
17 27 21 24 22 23 61 55 34 42 13 26
25.
Se compararon dos metodos para colectar sangre para estudios de coagulaci6n. Los siguientes valores son el tiempo parcial de tromboplastina activada (APTT, siglas en Ingles), de 30 pacientes en cada uno de los dos grupos. Elabore una grafica de valores extremos a partir de cada con junto de mediciones. Compare las dos grMicas. andican alguna diferencia en la distribuci6n de los valores de APTr para ambos metodos? <'.Que metodo tiene mayor mediana? Compare el IQR del metodo 1 con el IQR del metodo 2. <Para cwil metodo es el IQR un mayor porcentaje de R?
Metodo 1
20.7 29.6 34.4 56.6 22.5 29.7
31.2 38.3 28.5 22.8 44.8 41.6
24.9 29.0 30.1 33.9 39.7 45.3
22.9 20.3 28.4 35.5 22.8 54.7
52.4 20.9 46.1 35.0 46.1 22.1
Metodo 2
23.9 23.2 56.2 30.2 27.2 21.8
53.7 31.6 24.6 49.8 22.6 48.9
23.1 34.6 41.3 34.1 26.7 20.1
38.9 24.2 21.1 40.7 39.8 21.4
41.3 23.7 35.7 29.2 27.4 23.2
26. Exprese con palabras las siguientes propiedades de la media de 1a muestra:
a) L(x :xy = un minimo
b) nX= LX
c) L(x-x) 0
27. Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicarian cinco examenes durante el curso. Con las puntuaciones de cada examen para cada estudiante, eI profesor calcula una medida de tendencia central que servici como calificaci6n final
54 CAPITULO 2 ESTADISTICA DESCRIPTIVA
del curso del estudiante. Antes de tomar el primer examen se debe elegir si se qui ere que la calificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes. ~Cual escogeria ellector si fuera uno de los alumnos? (Por que?
28. Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de los niveles sericos de colesterol de los individuos que participaron en una campana de detecci6n:
a) 50-74 b) 50-74 c) 50-75
75-99 75-99 75-100
100-149 100-124 100-125
150-174 125-149 125-150
175-199 150-174 150-175
200-249 175-199 175-200
250-274 200-224 200-225
etc. 225-249 225-250
etc. etc. (Que intervalo de clase sera el mas conveniente para el objetivo? (Por que? Establezca espedficamente por que los otros dos son menos convenientes.
29.
En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n de frecuencias de los niveles de creatina en la sangre (unidades/litro) para una muestra de 300 individuos sanos. La media es de 95 y la desviaci6n estandar es de 40. Los estudiantes utilizaron las siguientes amplitudes de los intervalos de clase: a) 1 b) 5 c) 10 d) 15 e) 20 1) 25
Comente la conveniencia de utilizar estas amplitudes.
30.
De un ejemplo, relacionado con ciencias de la salud, de una poblaci6n de mediciones para 10 cualla media sea una medida de tendencia central mejor que la mediana.
31.
De un ejemplo, relacionado con ciencias de la salud, de una poblaci6n de mediciones para 10 cualla mediana sea una medida de tendencia central mejor que la media.
32.
Indique para las siguientes variables cual puede ser mejor medida de tendencia central: la media, mediana 0 moda, y explique su respuesta.
a) Ingreso anual de las enfermeras tituladas en el Sureste.
b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital principal
de la ciudad.
c) Pesos de losjugadores de basquetbol de la escuela preparatoria.
33.
Consulte el ejercicio 2.3.11 y calcule: media, mediana, variancia, desviaci6n estandar, primer cuartil, tercer cuartil y amplitud del intercuartil. Elabore una grafica de valores extremos. (La media, moda y mediana son iguales? Si no, explique por que. Analice los datos en terminos de variabilidad. Compare el IQR con la amplitud. (Que sugieren las comparaciones respecto a la variabilidad de las observaciones?
34.
Consulte el ejercicio 2.3.12 y calcule: media, mediana, variancia, desviaci6n estandar, primer cuartil, tercer cuartil y amplitud del intercuartil. Elabore una grafica de valores extremos. (La media, moda y mediana son iguales? Si no, explique por que. Analice los datos en terminos de variabilidad. Compare el IQR con la amplitud. (Que sugieren las comparaciones respecto a la variabilidad de las observaciones?
35.
Thilothammal et al. (A-17) realizaron un estudio para determinar la eficacia de la vacuna BCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa. Entre los datos
55
BIBLIOGRAFIA
recolectados en cada individuo esta la medicion del estado nutricional (peso real expresado como porcentaje del peso esperado para cada estatura real). La siguiente tabla muestra los valores de los estados nutricionales para los 107 casos de estudio.
73.3
54.6
82.4
76.5
85.4
92.3
55.5
68.3
80.5
71.0
56.8
80.6
72.2
76.9
100.0
65.9
50.4
66.0
83.0
72.3
100.0
64.5
79.6
74.0
50.9
71.0
76.5
99.6
55.7
88.7
72.7
67.3
64.8
74.0
72.6
80.7
79.3
72.4
78.1
66.3
74.0
72.7
65.9
73.3
109.0
65.7
96.0
72.8
73.6
70.0
77.4
84.4
73.6
73.8
72.0
97.5
130.0
68.1
76.4
79.6
70.0
59.7
89.6
76.9
74.6
86.4
64.1
50.5
90.9
70.5
88.2
70.5
67.7
76.9
73.0
76.9
78.1
63.4
58.8
74.0
68.6
55.0
71.4
84.6
123.7
93.7
73.2
80.0
45.6
92.5
65.6
61.3
66.3
84.0
77.5
76.9
80.2
76.9
70.0
60.6
59.0
84.7
78.2
91.9
FUENTE: Utilizada con autorizaci6n del
67.5
76.9
82.6
doctor N. Thilothammal.
a) Para estos datos, ca1cule las siguientes medidas descriptivas: media, mediana, moda,
varian cia, desviacion estandar, amplitud, primer cuartH, tercer cuartil e IQR.
b) Elabore las siguientes graficas: histograma, poHgono de frecuencia, tallo y hojas, y valores
extremos.
c) Analice los datos en terminos de variabilidad. Compare el IQR con la amplitud. ~Que
sugiere la comparaci6n respecto ala variabilidad de las observaciones? d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media, en dos desviaciones estandar de la media y en tres desviaciones estandar de la media?
e) ~Que proporcion de medici ones es menor que 100? f) ~Que proporcion de mediciones es menor que 50?
BmUOGRAI<iA
Bibliografia de metodologia
I.
H. A. Sturges, "The Choice of a Class Interval" ,Journal ofthe American Statistical Association,
21,65-66.
2.
Helen M. Walker, "Degrees of Freedom", TheJournal ofEducational Psychology, 31,253-269.
3.
John W. Tukey, Exploratory Data Analysis, Addison-Wesley, Reading, MA.
Bibliografia de aplicaciones
A-I.
Silvio M. Veronese y Marcello Gambacorta, "Detection of Ki-67 Proliferation Rate in Breast
Cancer", AmericanJournal ofClinical Pathology, 95, 30-34.
A-2.
Nizar N.Jarjour, William]. Calhoun, Lawrence B. Schwartz y William W. Busse, "Elevated
Bronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated with
Increased Airway Obstruction", American Review ofRespiratory Disease, 144,83-87.
56
CAPITULO 2
ESTADISTICA DESCRIPTIVA
A·3.
Peter M. Ellis, GrahamW Mellsop, Ruth Beeston y Russell R. Cooke, "Platelet Tritiated Imipramine Binding in Patients Suffering from Mania" ,journal ofAffective Disorders, 22, 105-110.
A·4.
Helen Herrman, Patrick McGorry, Jennifer Mills y Bruce Singh, "Hidden Severe Psychiatric Morbidity in Sentenced Prisoners: An Australian Study", American journal of Psychiatry, 148, 236-239.
A·5.
Erik Skjelbo, Theonest K. Mutabingwa, Ib Bygbjerg, Karin K. Nielsen, Lars F. Gram y Kim Br\'lsen, "Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and the S-Mephenytoin Oxidation in Tanzanians", Clinical Pharmacology & Therapeutics, 59, 304-311.
A·6.
Henrik Schmidt, Poul Erik Mortensen, SjIlren Lars FjIllsgaard y Esther A. Jensen, "Autotransfusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing Blood Transfusion", Annals of Thoracic Surgery, 61, 1178-1181.
A·7.
William C. Pitts, Virginia A. Rojas, Michael J. Gaffey, Robert V. Rouse, Jose Esteban, Henry F. Frierson, Richard L. Kempson y Lawrence M. Weiss, "Carcinomas with Metaplasia and Sarcomas of the Breast", Americanjournal ofClinical Pathology, 95, 623-632.
A·S.
Enrique Fernandez, Paltiel Weiner, Ephraim Meltzer, Mary M. Lutz, David B. Badish y Reuben M. Cherniack, "Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation", American Review of Respiratoiry Disease, 144, 390-394.
A-9.
J.A. Dosman, W C. Hodgson yD. W Cockcroft, "Effect ofCold Air on the Bronchial Response to Inhaled Histamine in Patients with Asthma", American Review of Respiratory Disease, 144, 45-50.
A·I0.
G. V. Sridharan, S. P. Wilkinson yW R. Primrose, "Pyogenic Liver Abscess in the Elderly", Age and Ageing, 19, 199-203.
A·1l.
Tadao Arinami, Miki Sato, Susumu Nakajima e Ikudo Kondo, "Auditory Brain-stem Responses in the Fragile X Syndrome", Americanjournal ofHuman Genetics, 43,46-51.
A·12.
Giancarlo Mari, "Arterial Blood Flow Velocity Waveforms ofthe Pelvis and Lower Extremities in Normal and Growth-Retarded Fetuses", American journal of Obstetrics and Gynecology, 165, 143-151.
A·13.
Welhelm Kuhnz, Durda Sostarek, Christiane Gansau, Tom Louton y Marianne Mahler, "Single and Multiple Administration of a New Triphasic Oral Contraceptive to Women: Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum", Americanjournal of Obstetrics and Gynecology, 165, 596-602.
A·14.
tv1urray B. Stein y Thomas W Uhde, "Endocrine, Cardiovascular, and Behavioral Effects of Intravenous Protirelin in Patients with Panic Disorder" , Archives ofGeneral Psychiatry, 48, 148-156.
A·15.
Ronnie Gorman Swift, Diane O. Perkins, Charles L. Chase, Debra B. Sadler y Michael Swift, "Psychiatric Disorders in 36 Families with Wolfram Syndrome", Americanjournal ofPsychiatry, 118,775-779.
A·16.
Susan B. Roberts, Melvin B. Heyman, William J. Evans, Paul Fuss, Rita Tsay y Vernon R. Young, "Dietary Energy Requirements ofYoung Adult Men, Determined by Using the Doubly Labeled Water Method", Americanjournal ofClinical Nutrition, 54, 499-505.
A·17.
N. Thilothammal, P. V. Krishnamurthy, Desmond K. Runyan y K. Banu, "Does BCG Vaccine Prevent Tuberculous Meningitis?", Archives ofDisease in Childhood, 74, 144-147.