domingo, 13 de agosto de 2017

Introducción a la simulación en IBM SPSS modeler

El paquete estadístico SPSS, comercializado por SPSS Inc. (adquirido por IBM en 2009), es una de las herramientas más frecuentes en el campo de investigación en las Ciencias Sociales. (Annapurna, 2017). Y entre los procedimientos más útiles se encuentra la simulación de datos ().

En la herramienta IBM SPSS modeler, nos encontramos con el nodo "Generar simulación" que nos permite, generar datos simulados, ya sea bien a partir de distribuciones estadísticas especificadas por el investigador o de datos reales. Siendo útil en este caso cuando se desea evaluar el resultado de un modelo predictivo en presencia de incertidumbre en las entradas de modelo. 

En el programa, la creación de datos simulados a partir de funciones predefinidas, lo encontramos en el menú de "Orígenes". Para definirlo en nuestra ventana de trabajo (rutas) se puede hacer bien dos veces sobre el icono, o bien mediante su arrastre.
Arrastre de icono de simulación
Una vez realizada la tarea anterior, se pulsará dos veces para abrir el cuadro de diálogo y especificar los campos, tipos de almacenamiento, distribuciones estadísticas y parámetros de distribución.
Ventana de parámetros de simulación
Como podemos comprobar en la ilustración anterior, está completamente en blanco, sin campos ni información de distribución. Estos nos va a permitir crear datos simulados nuevos, no siendo necesarias bases de datos anteriores.

Una vez en esta posición ya podemos introducir nuestros parámetros correspondientes de simulación, que en nuestro ejemplo será elegir una distribución normal con media 100 y desviación típica 15:
Distribución normal (100,15)
Una vez ejecutado el procedimiento podemos visualizar los resultados bien en formato de tabla o gráfico, para ello es suficiente con elegir los nodos de resultados y seleccionar los iconos correspondientes.

Histograma con 10000 números generados
En el siguiente caso vamos a pedir la generación de dos variables normales, la primera con Media 100 y Dispersión 15, mientras en la segunda será media 105 y Dispersión 15. A su vez, señalaremos que deberán estar correlacionadas en torno al valor 0,80.
Generación de variables correlacionadas.
Por otra parte, es posible generar la simulación a partir de bases de datos ya existentes (datos históricos). Para ello se selecciona en el campo de "Resultados" el nodo Ajustar simulación. Como en el caso anterior arrastre el icono, enlace la base de datos a este icono y luego pulse dos veces sobre él para obtener  los campos, tipos de almacenamiento e información de distribución estadística del nodo. En este caso los nombres de las variables y sus parámetros son recogidos de la base de datos original.
Lectura de parámetros a partir de base de datos histórica
Una vez generados los casos es posible visualizar un resumen estadístico básico como podemos ver en la ilustración siguiente:
Estadísticos básicos de la variable generada

Referencias.
*Annapurna,I (2017). Importance of Statistics and Mathematical Models in the Field of Social Sciences Research. Imperial Journal of Interdisciplinary Research, [S.l.], v. 3, n. 4, apr. 2017. ISSN 2454-1362. Available at: <http://imperialjournals.com/index.php/IJIR/article/view/4398/4218>. Date accessed: 13 aug. 2017.