Capítulo 2 Organización de datos en tablas de frecuencias

2.1 Distribución de frecuencias

El uso de tablas de distribución de frecuencias y gráficas como un medio para presentar la información de un conjunto de datos de forma resumida. En grados anteriores ya se ha trabajado con gráficas para variables cuantitativas discretas, por lo que esta será la primera vez que el estudiante trabajará con gráficas que son adecuadas para presentar información de variables cuantitativas continuas.

Definición 2.1 La tabulación es un proceso en el cual los datos son ordenados en grupos llamados clases para un análisis más eficaz de estos, los datos podrían estar clasificados mediante una variable cualitativa o cuantitativa en el caso de las variables cualitativas \(Y_i\), se considera la siguiente Tabla 2.1

Tabla 2.1: Caption
\(Y_i\) \(f_i\) \(F_i\) \(F_i^*\) \(h_i\) \(H_i\) \(H_i^*\) \(h_i\%\) \(H_i\%\) \(H_i^*\%\)
\(Y_1\) \(f_1\) \(F_1\) \(F_1^*\) \(\frac{f_1}{n}\) \(\frac{F_1}{n}\) \(\frac{F_1^*}{n}\) \(h_1\) \(H_1\) \(H_1^*\)
\(Y_2\) \(f_2\) \(F_2\) \(F_2^*\) \(\frac{f_2}{n}\) \(\frac{F_2}{n}\) \(\frac{F_2^*}{n}\) \(h_2\) \(H_2\) \(H_1^*\)
\(Y_3\) \(f_3\) \(F_3\) \(F_3^*\) \(\frac{f_3}{n}\) \(\frac{F_3}{n}\) \(\frac{F_3^*}{n}\) \(h_3\) \(H_3\) \(H_1^*\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
\(Y_r\) \(f_r\) \(F_r\) \(F_r^*\) \(\frac{f_r}{n}\) \(\frac{F_r}{n}\) \(\frac{F_r^*}{n}\) \(h_r\) \(H_r\) \(H_1^*\)

En el caso de variables cuantitativas ademas si los datos son muy variados, que para se clasificados adecuadamente, necesitan generarse particiones de longitudes semejantes entonces se utiliza el siguiente proceso; el número de las particiones \(r\) se consideran de acuerdo a tres criterios.

  1. Criterio del investigador \(r\) no puede ser más de 20 ni menos de 5
  2. \(r=\sqrt{n}\) donde \(n\) es el número de datos
  3. La regla de Starges que consiste en considerar la fórmula \(r=3.322\cdot\log_{10} n\) Una vez establecido el número de particiones se procede a generar los límites laterales de cada una de las particiones, sea \(L\) la longitud de todo el conjunto es decir \(L=x_{\text{max}}-x_{\text{min}}\) entonces la longitud de las particiones o amplitud interválica se obtiene con \(l=\frac{L}{r}\)
Tabla 2.2: Datos cuantitativos (intervalos)
Clase \(Y_i\) \(f_i\) \(F_i\) \(F_i^*\) \(h_i\) \(H_i\) \(H_i^*\) \(h_i\%\) \(H_i\%\) \(H_i^*\%\)
\([y_1-y_2)\) \(Y_1\) \(f_i\) \(F_i\) \(F_i^*\) \(\frac{f_1}{n}\) \(\frac{f_1}{n}\) \(\frac{F_1^*}{n}\) \(h_1\%\) \(H_1\%\) \(H_1^*\%\)
\([y_2-y_3)\) \(Y_2\) \(f_i\) \(F_i\) \(F_i^*\) \(\frac{f_2}{n}\) \(\frac{f_1}{n}\) \(\frac{F_1^*}{n}\) \(h_2\%\) \(H_2\%\) \(H_2^*\%\)
\(\ldots\) \(\ldots\) \(\ldots\) \(\ldots\) \(\ldots\) \(\ldots\) \(\ldots\) \(\ldots\) \(\ldots\) \(\ldots\) \(\ldots\)
\([y_{r-1}-y_r)\) \(Y_r\) \(f_r\) \(F_r\) \(F_r^*\) \(\frac{f_r}{n}\) \(\frac{f_1}{n}\) \(\frac{F_r^*}{n}\) \(h_r\%\) \(H_r\%\) \(H_r^*\%\)

Tenga en cuenta que \(n\) es el número de datos, es decir \(n=f_1+f_2+\ldots+f_r=\sum_{i=1}^r\) donde \(f_i\) es número de datos en la partición \(X_i\), una de las \(r\) particiones del conjunto total de datos.

  1. Las frecuencias absolutas \(f_i\) indican el número de datos con la característica \(X_i\).

  2. Las frecuencias absolutas acumuladas menor que \(F_i\) obedecen a la fórmula \[F_m=f_1+f_2+\ldots+f_m=\sum_{i=1}^mf_i\]

  3. Las frecuencias absolutas acumuladas mayor que \(F_i^*\) obedecen a la fórmula \[ \begin{aligned} F_m^*&=f_m+f_{m+1}+\ldots+f_r\\ &=\sum_{i=m}^rf_i\\ &=n-\sum_{i=1}^{m-1}f_i\\ &=n-\left(f_1+f_{2}+\ldots+f_{m-1}\right) \end{aligned} \]

  4. Las frecuencias absolutas relativas obedecen a la fórmula \[h_m=\frac{f_m}{n}\]

  5. Las frecuencias absolutas relativas menor que obedecen a la fórmula \[H_m=\frac{f_m}{n}\]

  6. Las frecuencias absolutas relativas mayor que obedecen a la fórmula \[H_m^*=\frac{F_m}{n}\]

  7. Las frecuencias absolutas relativas porcentuales obedecen a la fórmula \(h_i\%=100\cdot h_i\)

  8. Las frecuencias absolutas relativas menor que porcentuales obedecen a la fórmula \(H_i\%=100\cdot H_i\)

  9. Las frecuencias absolutas relativas mayor que porcentuales obedecen a la fórmula \(H_i^*\%=100\cdot H_i^*\)

  10. \(Y_i\) marca de clase o punto medio de la clase \(i\)

Ejemplo 2.1 Sean Los 16 tipos de personalidad en un grupo social encuestado. Organice los datos en una tabla de frecuencias

Tabla 2.3: Datos cualitativos
\(Y_i\) \(f_i\) \(F_i\) \(F_i^*\) \(h_i\) \(H_i\) \(H_i^*\) \(h_i\%\) \(H_i\%\) \(H_i^*\%\)
ESTJ 1 1 75 0.01 0.01 1.00 1.33 1.33 100.00
ESTJ 2 3 150 0.03 0.04 2.00 2.67 4.00 200.00
ESTP 3 6 150 0.04 0.08 2.00 4.00 8.00 200.00
ESFJ 4 10 150 0.05 0.13 2.00 5.33 13.33 200.00
ESFP 6 16 150 0.08 0.21 2.00 8.00 21.33 200.00
ISTJ 6 22 155 0.08 0.29 2.07 8.00 29.33 206.67
ISTP 7 29 157 0.09 0.39 2.09 9.33 38.67 209.33
ISFJ 8 37 158 0.11 0.49 2.11 10.67 49.33 210.67
ISFP 9 46 166 0.12 0.61 2.21 12.00 61.33 221.33
ENTJ 10 56 166 0.13 0.75 2.21 13.33 74.67 221.33
ENTP 6 62 166 0.08 0.83 2.21 8.00 82.67 221.33
ENFJ 5 67 166 0.07 0.89 2.21 6.67 89.33 221.33
ENFP 3 70 166 0.04 0.93 2.21 4.00 93.33 221.33
INTJ 2 72 167 0.03 0.96 2.23 2.67 96.00 222.67
INTP 1 73 169 0.01 0.97 2.25 1.33 97.33 225.33
INFJ 1 74 172 0.01 0.99 2.29 1.33 98.67 229.33
INFP 1 75 176 0.01 1.00 2.35 1.33 100.00 234.67
TOTAL 75 100.00

Ejemplo 2.2 Edades de cierta comunidad

25 35 38 45 47 48 51 52 53 55 60 62 63 66 67 70 71 72 75 77 78 81 88 89 90 99

Tabulando

Tabla 2.4: Datos cuantitativos (intervalos)
Clase \(f_i\) \(F_i\) \(F_i^*\) \(h_i\) \(H_i\) \(H_i^*\) \(h_i\%\) \(H_i\%\) \(H_i^*\%\)
\([20-30)\) 1 1 26 0.02 0.01 0.35 2.38 1.33 34.67
\([30-40)\) 2 3 68 0.05 0.04 0.91 4.76 4.00 90.67
\([40-50)\) 3 6 68 0.07 0.08 0.91 7.14 8.00 90.67
\([50-60)\) 4 10 68 0.10 0.13 0.91 9.52 13.33 90.67
\([60-70)\) 5 15 68 0.12 0.20 0.91 11.90 20.00 90.67
\([70-80)\) 6 21 84 0.14 0.28 1.12 14.29 28.00 112.00
\([80-90)\) 3 24 84 0.07 0.32 1.12 7.14 32.00 112.00
\([90-100]\) 2 26 84 0.05 0.35 1.12 4.76 34.67 112.00
TOTAL 42 61.90