Generating Random Samples In Stata Forex


STATA utiliza una función de número pseudo-aleatorio uniforme () para generar números aleatorios..generate randnum uniform () STATA genera valores de 16 dígitos sobre el intervalo 0, 1) para cada caso de los datos. Puede utilizar estos números para elegir casos (si elige aquellos con números aleatorios inferiores a 0,20, cada caso tiene 20 posibilidades de ser seleccionado. Nota que esto no significa que usted seleccionará exactamente 20 de los casos.) Bueno, si quieres Para seleccionar al azar a 10 individuos de una lista, digamos 1-20. Puede hacer lo siguiente: Borrar datos de la memoria Diga a STATA que genere 20 números para que tenga suficientes números aleatorios. Puede que no sea suficiente. Simple Random Sample Lo que es una simple muestra aleatoria Una simple muestra aleatoria es un subconjunto de una población estadística en la que cada miembro del subconjunto tiene una probabilidad igual de ser elegido. Un ejemplo de una muestra aleatoria simple sería los nombres de 25 empleados que son elegidos fuera de un sombrero de una compañía de 250 empleados. En este caso, la población es de 250 empleados, y la muestra es aleatoria porque cada empleado tiene la misma oportunidad de ser elegido. VIDEO Carga del reproductor. BREAKING DOWN Muestra aleatoria simple Los investigadores pueden crear una muestra aleatoria simple usando un par de métodos. Con un método de lotería, a cada miembro de la población se le asigna un número, después de lo cual los números se seleccionan al azar. El ejemplo en el que los nombres de 25 empleados de 250 se eligen de un sombrero es un ejemplo del método de la lotería en el trabajo. A cada uno de los 250 empleados se le asignaría un número entre 1 y 250, después de lo cual 25 de esos números se elegirían al azar. Para poblaciones más grandes, un método de lotería manual puede ser bastante oneroso. Selección de una muestra aleatoria de una gran población por lo general requiere un proceso generado por ordenador, por lo que la misma metodología que el método de la lotería se utiliza, sólo las asignaciones de números y las selecciones posteriores son realizadas por los ordenadores, no los seres humanos. Ventajas de la muestra aleatoria simple La facilidad de uso representa la mayor ventaja del muestreo aleatorio simple. A diferencia de los métodos de muestreo más complicados, como el muestreo aleatorio estratificado y el muestreo de probabilidad, no existe la necesidad de dividir a la población en subpoblaciones o tomar otras medidas adicionales antes de seleccionar miembros de la población al azar. Se pretende que una muestra aleatoria simple sea una representación no sesgada de un grupo. Se considera una manera justa de seleccionar una muestra de una población más grande, ya que cada miembro de la población tiene la misma oportunidad de ser seleccionado. Desventajas de muestra aleatoria simple Un error de muestreo puede ocurrir con una muestra aleatoria simple si la muestra no termina de reflejar con precisión la población que se supone que representa. Por ejemplo, en nuestra muestra aleatoria simple de 25 empleados, sería posible atraer a 25 hombres incluso si la población estuviera compuesta por 125 mujeres y 125 hombres. Por esta razón, el muestreo aleatorio simple es más comúnmente utilizado cuando el investigador sabe poco sobre la población. Si el investigador supiera más, sería mejor utilizar una técnica de muestreo diferente, como el muestreo aleatorio estratificado. Lo que ayuda a dar cuenta de las diferencias dentro de la población, como la edad, la raza o el género. Bienvenido al Instituto de Investigación Digital y Educación Stata FAQ ¿Cómo puedo dibujar una muestra aleatoria de mis datos Hay muchos casos en los que usted puede querer tomar Una muestra aleatoria de su conjunto de datos. Por ejemplo, puede tener un conjunto de datos muy grande, y está tratando de elaborar el código para limpiar sus datos o para analizarlo. Ejecutar el código en muchas observaciones puede tomar un tiempo, por lo que probar el código en un subconjunto de los datos es una buena manera de ahorrar tiempo. Sin embargo, es posible que no desee tomar sólo los primeros 100 casos, ya que pueden ser diferentes de alguna manera importante que los casos que ocurren más tarde en el conjunto de datos. Por lo tanto, sería deseable tomar una muestra aleatoria de los datos. Hay dos comandos en Stata que se pueden utilizar para tomar una muestra aleatoria de su conjunto de datos. Utilice el comando sample para dibujar una muestra sin reemplazo, lo que significa que una vez que se haya seleccionado una observación (es decir, caso, elemento) en la muestra, no estará disponible para ser seleccionada de nuevo en la muestra. Utilice el comando bsample si desea dibujar una muestra con reemplazo, lo que significa que una vez que se haya seleccionado la observación en la muestra, ésta se reemplazará en el grupo de observaciones de las que se extrae la muestra. Teóricamente, se puede seleccionar un segundo, un tercio, un cuarto, etc. tiempo. Si su conjunto de datos es muy grande, los resultados de los dos comandos probablemente no serán diferentes (suponiendo que utilizó la misma semilla para ambos, consulte a continuación). Esto se debe a que la probabilidad de que cualquier observación dada sea seleccionada en la muestra es baja en un conjunto de datos grande, por lo que las probabilidades de ser seleccionado una segunda vez también es baja. (Tenga en cuenta que la probabilidad de ser seleccionado en la muestra no cambiará si una observación ha sido previamente seleccionada en el conjunto de datos. En otras palabras, las observaciones que ya han sido seleccionadas en la muestra tienen la misma probabilidad de selección tiene observaciones Que aún no han sido seleccionados en la muestra). Muestreo sin reemplazo Supongamos que queremos crear una muestra de 10 de nuestro conjunto de datos actual. Después de abrir nuestro conjunto de datos, hsb2. Usaremos el comando count para ver cuántas observaciones hay en el conjunto de datos. A continuación, emitiremos el comando sample y luego usaremos el comando count para ver cuántas observaciones hay en el conjunto de datos. Como puede ver, sólo 20 de las 200 observaciones originales permanecen en el conjunto de datos (20 es 10 de 200). Es posible que desee guardar este conjunto de datos más pequeño con un nombre nuevo, para que no sobrescriba su conjunto de datos original. Ahora vamos a especificar el número de observaciones, digamos 50, que queremos en nuestra muestra, en lugar del porcentaje del conjunto de datos. Para ello, utilizaremos la opción count para el comando de ejemplo. ¿Qué pasará si especificamos un número que es mayor que el número de observaciones en el conjunto de datos Como se puede ver, todas las observaciones del conjunto de datos se mantuvieron, pero no se tomaron muestras una segunda vez para aumentar el tamaño de la muestra deseada número. Observe también que Stata no emitió un mensaje de error cuando el tamaño de la muestra excedió el número de observaciones en el conjunto de datos. También puede seleccionar una muestra con un determinado porcentaje o número de cada nivel de una variable de agrupación. En el conjunto de datos hsb2, la variable prog es una variable categórica (agrupación) de tres niveles que indica el tipo de programa escolar en el que se encuentra cada estudiante (1 general, 2académico, 3vocacional). Podemos seleccionar una muestra tal que, digamos 15, de cada una de esas categorías se seleccionan en la muestra. Tenga en cuenta que debe ordenar los datos de la variable de agrupación antes de usar el prefijo por:. Comenzaremos con un recuento de todos los casos en cada nivel de prog para poder comparar estos números con los que tenemos después de emitir el comando de ejemplo. También tenga en cuenta que puede utilizar la opción count con el prefijo by: si desea especificar el número de observaciones que se incluirán en la muestra. También puede especificar condiciones para seleccionar la muestra. Por ejemplo, considere el siguiente código. Como se puede ver, se incluyeron todas las observaciones de las categorías no vocacional (general y académica), así como aproximadamente 12 de los casos de la categoría vocacional (.1250 6). Ahora vamos a considerar escribir el código como se muestra a continuación. Podemos ver que se incluyeron los 50 casos de la categoría vocacional, así como aproximadamente 12 de cada una de las otras categorías. Muestreo con reemplazo Para ilustrar cómo muestrear con reemplazo, crearemos un pequeño conjunto de datos, como se muestra a continuación. El comando básico es bsample seguido por el número de observaciones que desea en la muestra. Tenga en cuenta que el tamaño de la muestra no puede exceder el número de observaciones en el conjunto de datos. Puede usar la opción de peso para ver los pesos de frecuencia. Tenga en cuenta que debe tener una variable quotweightquot en el conjunto de datos. En este ejemplo, la observación número 2 se seleccionó dos veces, y las observaciones 8 y 3 se seleccionaron cada una una vez. Todavía tiene las 10 observaciones, pero los pesos se han cambiado para reflejar qué observaciones deben incluirse en la muestra. Intente ejecutar el código varias veces y verá que obtiene resultados diferentes cada vez que lo ejecuta. Si sus datos están estratificados, puede tomar muestras de cada uno de los estratos. Debe proporcionar a Stata el número de observaciones que desea de cada estrato, no el número total de observaciones que desea en la muestra. En el siguiente ejemplo, pediremos una observación de cada estrato, dándonos un tamaño de muestra total de 5. También puede probar los grupos de datos utilizando la opción de clúster. Tenga en cuenta que Stata seleccionará tantos clusters como usted lo solicite, no muchas observaciones. En este ejemplo, Stata eligió el clúster 3 dos veces y el clúster 1 una vez para un total de tres grupos. Establecimiento de la semilla Cuando se toma una muestra aleatoria de sus datos, es posible que desee hacerlo de una manera que sea reproducible. En otras palabras, puede generar la misma muestra si es necesario. Para ello, deberá establecer la semilla. La semilla es el número con el que Stata (o cualquier otro programa) comienza su algoritmo para generar los números pseudo-aleatorios. Si no establece la semilla, Stata iniciará su algoritmo con la semilla 123456789. Para establecer la semilla, utilice el comando set seed seguido de un número. El número puede ser muy grande, incluyendo 30 o más dígitos. Recuerde esto en un archivo. do o para escribir el número de semilla en algún lugar. Consulte la página 194 del Manual de gestión de datos de Stata 9 para obtener más información. El contenido de este sitio web no debe ser interpretado como un endoso de cualquier sitio web, libro o producto de software en particular por la Universidad de California.

Comments