Preview only show first 10 pages with watermark. For full document please download

Modelos Logit Y Probit

   EMBED


Share

Transcript

MODELOS DE VARIABLE DEPENDIENTE CATEGÓRICA C ATEGÓRICA O LIMITADA: Se consideran modelos de regresión en los que la variable dependiente puede esta estarr CENS CENSUR URAD ADA A o TRUN TRUNCA CADA DA,, pued puede e trat tratar arsse de una una varia ariabl ble e de CONT CO NTEO EO,, o ser ser una una vari variab able le de tipo tipo cual cualititat ativ ivo: o: BINA BINARI RIA, A, OR ORDI DINA NAL, L, NOMINAL. Tienen en dos dos cate catego gorí rías as.. Norm Normal alme ment nte e indi indica can n que que ha Variables Variables binarias binarias: Tien ocurrido un suceso, que alguna característica está presente o que se elige una opción. Ejemplos: trabajador en paro; compra de un producto; participación en las elecciones;… Variables ordinales: Tienen categorías que pueden ordenarse de menor a mayor. Ejemplos: en las encuestas se pregunta sobre el nivel de acuerdo con respecto a alguna afirmación, permitiendo responder en una escala ordinal, por  ejem ejempl plo: o: “com “compl plet etam amen ente te de acue acuerd rdo” o”,, “de “de acue acuerd rdo” o”,, “en “en desa desacu cuer erdo do”, ”, “completamente en desacuerdo”; valoraciones sobre el nivel de satisfacción al cons consum umir ir un bien bien o serv servic icio io (“muy (“muy satis satisfe fech cho” o”,… ,…,, “muy “muy insa insatis tisfe fech cho” o”); ); frecuencia de una determinada acción (“nunca”, …, “muy frecuentemente”); nivel de educación alcanzado;… Variables Variables nominale nominales s: Cuan Cuando do hay hay múlt múltip iple less resp respue uest stas as,, que que no pued pueden en ordena ordenarse rse.. Ejempl Ejemplos: os: tipo de empleo empleo,, status status matrimo matrimonia nial,l, elecc elección ión políti política, ca, preferencia de marcas,… cuando ndo los los valor alores es de una una variab riable le se Variables Variables censurad censuradas as: Se dan cua desconocen para algún rango de la variable. Ejemplos: En información de renta personal o familiar, cuando se definen intervalos del tipo “más de …” o “menos de…”; en modelos modelos de demanda, demanda, cuando cuando no se realiza ninguna ninguna compra compra del bien;… Variables Variables de conteo conteo: Indican el número de veces que ha ocurrido algún suce suceso so.. Ejem Ejempl plos os:: Núme Número ro de visi visita tass al médi médico co en un año; año; núme número ro de publicaciones de un científico; número de visitas a un lugar de ocio; número de hijos de una familia; años de educación;… El nivel de medida de una variable no siempre es único. Los años de estudios pueden ser una variable de conteo, pero el nivel de estudios puede plantearse como una variable ordinal o nominal. Si se considera un corte en el nivel de estudios (con o sin estudios universitarios) podría tratarse como dicotómica. 1  Print document In order to print this document from Scribd, you'll first need to download it. Cancel Download And Print MODELOS CON VARIABLE DEPENDIENTE CUALITATIVA Tiposdemodelosdeelección cción dis discreta Ele El ecci cción entre dos Elección entre más de dos alternativas alternativas M odelos deelecci cción binaria nari a (binomiales) M odelos deeleccione cciones múltiples (multinomiales)  Alterna rnativa ivas no ordenadas  Alterna rnativa ivas orde rdenadas 2  Print document In order to print this document from Scribd, you'll first need to download it. Cancel Download And Print MODELOS CON VARIABLE DEPENDIENTE CUALITATIVA Tiposdemodelosdeelección cción dis discreta Ele El ecci cción entre dos Elección entre más de dos alternativas alternativas M odelos deelecci cción binaria nari a (binomiales) M odelos deeleccione cciones múltiples (multinomiales)  Alterna rnativa ivas no ordenadas  Alterna rnativa ivas orde rdenadas 2  Print document In order to print this document from Scribd, you'll first need to download it. MODELO DE ELECCIÓN BINARIA • Modelo de probabilidad lineal. Cancel • Modelo logit. • Modelo probit. Download And Print Modelo de probabilidad lineal El modelo de probabilidad lineal  es el modelo de regresión aplicado a una variable dependiente binaria. La notación que utilizaremos será la misma que la habitualmente empleada en el modelo de regresión l ineal. Para i = 1,..., N :  yi = β 1 x1i + ... + β  K  x Ki + ui  y i = x i ' β  + ui Donde: xi  x1i  =     x Ki   β 1  β  =     β  K   y Y u i es un término de perturbación de media cero. En el modelo lineal de probabilidad, la variable endógena toma únicamente dos valores:  y i = 1 , cuando ocurre un determinado suceso.  y i = 0 , si el suceso no ocurre. El valor esperado de esta variable,  E [ y i xi ] = x β  , puede interpretarse como la probabilidad de que ocurra el suceso: i  E [ y i xi ' ] =1⋅ P [ y i =1 x ] + 0 ⋅ P [ y i = 0 i xi ] = P [ yi =1 x ] i El valor esperado de y  dado x es la probabilidad de que y i i  = 1. Por tanto, el modelo de probabilidad lineal se puede escribir como:  pi = P [Y i = 1 x ] = x′i β  i Problemas del modelo lineal de probabilidad Los problemas de la estimación de un modelo de regresión cuando la variable endógena es binaria son una consecuencia de que la “nube de puntos” a la que 3  Print document In order to print this document from Scribd, you'll se debe ajustar la recta de regresión es en este caso dos líneas paralelas first need to download it. sobre los dos únicos valores de la endógena. Download And Print Cancel 1.20 1.00 .80 .60    1    Y .40 .20 .00 -.20 -4 -3 -2 -1 0 1 2 3 4 5 X Los problemas específicos que se encuentran son los siguientes: • Heterocedasticidad del término de perturbación. Por tanto, los estimadores MCO son menos eficientes. Como  yi = x′i β  + ui sólo puede tomar valores 1 y 0, el término de perturbación ha de ser igual a 1 − x′i β  o a − x′i β  . Las probabilidades de que u i tome uno de  pi = P [Y i = 1 x i ] = x′i β  estos valores serán, respectivamente: y 1 − pi = P [Y i = 0 x ] =1− x′i β  . Y, por tanto: var ( u i ) = x ' β  (1 − x i i i ' β ) • Las probabilidades predichas son inconsistentes, ya que no puede garantizarse que estén acotadas entre 0 y 1. • Interpretación de los coeficientes β  j . En el modelo se supone que el efecto de las variables sobre la probabilidad es constante y lineal en todo el recorrido de las variables. • No normalidad de la perturbación. Al tomar únicamente dos valores, la hipótesis de normalidad del término de perturbación no es aceptable. Este problema no afecta la insesgadez de los estimadores puntuales, aunque el proceso de inferencia basado en una distribución normal de los estimadores sólo será válida si la muestra es lo suficientemente grande. • El Coeficiente de determinación no es apropiado. 4  Print document In order to print this document from Scribd, you'll first need to download it. Alternativas al modelo lineal de probabilidad Interesa un modelo que reproduzca adecuadamente el comportamiento de una Cancel Download And Print función de probabilidad.  P Y i = 1 x i deberá especificarse para que no supere los límites de 0 y 1, y con efectos no lineales de las variables explicativas: 1.0 0.8 0.6     Y 0.4 0.2 0.0 -3 -2 -1 0 1 2 3 4 X Las distribuciones más empleadas han sido la normal estándar y la logística. Si una variable ε  es normal, con  E [ ε ] = 0 y var [ε ] = 1 , su función de densidad es: 1 φ ( ε ) = e 2π  − ε 2 2 Y su función de distribución acumulada: ε  1 Φ( ε ) = ∫  2π  −∞ e − t 2 2 dt  Si ε  sigue una distribución logística, con media 0 y varianza π  2 3 , su función de densidad es: λ ( ε ) = e ε  [1+ e ε  ] 2 Y su función de distribución acumulada: Λ( ε ) = e ε  1 + e ε  5  Print document In order to print this document from Scribd, you'll first need to download it. Las formas de las correspondientes funciones de distribución se muestran en las siguientes figuras. Cancel Download And Print Funciones de densidad normal y logística. .5 .4 .3 NORMAL LOGISTIC .2 .1 .0 -3 -2 -1 0 1 2 3 X Funciones de distribución acumuladas normal y logística 1.0 0.8 0.6 NORMAL LOGISTIC 0.4 0.2 0.0 -3 -2 -1 0 1 2 3 X Cuando como función de probabilidad se emplea la distribución normal, se obtiene el denominado modelo probit, mientras que el empleo de la distribución logística proporciona el modelo logit. 6  Print document In order to print this document from Scribd, you'll first need to download it. Modelos logit y probit Download And Print Cancel ⇒ Distribución Modelo NORMAL ESTÁNDAR ⇒ PROBIT ⇒ LOGÍSTICA LOGIT NORMAL ESTÁNDAR:  P [ y =1 x 'β x x ' β  −∞  P [ y =1 LOGÍSTICA: 1 ] = ∫ φ ( t ) dt = ∫  x 2π  −∞ ]= e x 'β  1+ e x = 'β  e − 1 1 + e − x 'β  t 2 2 dt  = Φ ( x' β ) = Λ ( x' β ) En el modelo probit se supone que la varianza es unitaria y en el modelo logit que la varianza es igual a π 2 3 ≈ 3.29 . Las varianzas de las dos distribuciones no pueden estimarse, como consecuencia de que la variable latente es inobservable. Para estimar los modelos es necesario imponer algún supuesto arbitrario sobre las varianzas de la distribución. Los valores seleccionados proporcionan fórmulas sencillas y no pueden contrastarse con la información muestral. Otras justificaciones de los modelos logit y probit . Los enfoques de de variable latente y de utilidad aleatoria. (1) Enfoque de variable latente. Se considera una variable latente  y i* , que no puede observarse directamente y que depende linealmente de un conjunto de variables explicativas  yi* = x′i β  + u i Donde u i es una perturbación aleatoria con media cero. El valor esperado de * la variable latente será  E  y i x i = x i ' β  Un determinado suceso o elección se da si  yi* > λ . Se define una variable dicotómica  yi , con valores 0 y 1:  y i 1 =  0 >  y*i ≤  si  yi* λ   si λ  7  Print document In order to print this document from Scribd, you'll El valor de λ  puede ser cualquiera, aunque en las aplicaciones 0 es un valor  first need to download it. frecuente. El modelo de probabilidad quedaría definido de And la siguiente forma, Cancel Download Print  P ( yi = 1) = P ( yi* > λ ) = P (x i ' β  + ui > λ ) = P (ui > λ − x′i β ) = P ( ui ≤ x i ' β  − λ ) = F (x′i β * ) siendo F la función de distribución del término de perturbación. 1.20 8 1.00 6 .80 4 .60    Y    1    Y 2 .40 0 .20 -2 .00 -.20 -4 -4 -3 -2 -1 0 1 2 X * Y i = β 1 + β 2 xi + ui 3 4 5 -4 -3 -2 -1 0 1 2 3 4 5 X 1 si Y > 0 Y i =  0 si Y ≤ 0 * i * i Probabilidad de observar los valores de un modelo de respuesta binaria Probabilidad de y=1 en el modelo de respuesta binaria 8  Print document In order to print this document from Scribd, you'll first need1.0to download it. 0.8 Download And Print Cancel 0.6       ]       1     =     y       [       P 0.4 0.2 0.0 -3 -2 -1 0 1 2 3 X Si se supone que la perturbación sigue una distribución normal u i ~  N ( 0, σ  2 , se tendría:   yi* − x′i β  λ − x i ' β     ui x′i β  − λ   * *   x ′i β  )  P ( yi = 1) = P ( yi ≥ λ ) = P   P  F  ( ≥ = ≤ =    σ    σ      σ     σ  Donde β 0* = β 0 − λ  σ  para el término independiente, β k * = β k  σ  , para el resto. Para identificar los parámetros β * es necesario imponer una restricción sobre la varianza de u i . Bajo el supuesto de que la varianza es unitaria, u i sigue una distribución normal estándar y  F ( .) es, por tanto, la función de distribución acumulada de la normal estándar. Si se supone que u i sigue una distribución logística con media 0 y varianza π 2 3 ≈ 3.29 se tiene:  P ( yi = 1) = P ( yi* ≥ λ ) = P ( u i ≤ x′i β  − λ ) = Λ(x′i β * ) (2) Enfoque de utilidad aleatoria. El modelo se deriva de una elección entre alternativas, que proporciona máxima utilidad. U  ji indica la utilidad que el individuo i-ésimo obtendría de dos alternativas  j = 0,1 . Se supone que la utilidad U  ji tiene dos componentes, uno sistemático, V ij , y otro aleatorio, ε  ji , U ij = V ij + ε ij , para  j = 0,1 : 9  Print document In order to print this document from Scribd, you'll U i 0 it.V i 0 ε i 0 first need to download = + U i1 = V i1 + ε i1 Cancel Download And Print Las partes deterministas pueden especificarse de una manera sencilla como: V i 0 = x i ' β 0 y V i1 = x i ' β 1 . El individuo seleccionará la opción  j =1 si U 1i ≥ U 0i y seleccionará la opción  j = 0 si U 1i ≤ U 0i . Definiendo una variable observable  y i  y i 1  si = 0 si > U i 0 U i 0 > U i1 U i1 La probabilidad de que el individuo seleccione la alternativa  j =1 será:  P (Y i = 1) = P (U i1 > U i 0 ) = P (V i1 + ε i1 > V i 0 + ε i 0 ) = P (ε i 0 − ε i1 < V i1 − V i 0 ) = F (V i1 − V i 0 ) Donde  F ( ⋅) es la función de distribución acumulada de ε i 0 − ε i1 y:  P (Y i = 1) = F (V i1 − V i 0 ) = F ( x i ' β 1 − x i ' β 0 ) = F ( x i ' ( β 1 − β 0 ) ) = F ( x i ' β ) El modelo finalmente especificado depende de la distribución que se suponga para los términos aleatorios. Si ε i 0 y ε i1 son normales, ε i 0 − ε i1 también se distribuye normalmente. Si se supone media cero, la normalización de la varianza de ε i 0 − ε i1 a uno, proporciona el modelo probit si  F ( ⋅) es la función de distribución acumulada de la normal estándar. El modelo logit se obtiene si se supone que ε i 0 y ε i1 son independientes y siguen una distribución de valor extremo tipo I 1. En ese caso, ε i 0 − ε i1 sigue una distribución logística, siendo  F ( ⋅) la correspondiente función de distribución acumulada. Interpretación de parámetros El modelo de probabilidad es un modelo de regresión no lineal:  E [ y i | x] =1⋅ F ( x i ' β ) + 0 ⋅ [1 − F ( x i ' β ) ] = F ( x i ' β ) No importa cuál sea la distribución que se utilice en  F ( ⋅) , los parámetros β  del modelo no son los efectos marginales: 1 Una variable aleatoria ε  con distribución de valor extremo tipo I tiene como función de densidad:  f  ( ε ) = exp( − ε ) exp( − exp( − ε ) ) , − ∞ < ε  < ∞ Y como función de distribución acumulada:  F ( ε ) = exp( − exp( − ε ) ) . 10  Print document In order to print this document from Scribd, you'll first need to download it.  E  y i x i  P  y i 1 x i ' En general, ] ∂ ( = ) ∂ [ = ≠ β k   x  x ( ) ∂Cancel ∂ ki And Print ki Download ∂ E [ yi x i ] ∂ F ( x ' β ) β  =  f ( x = ∂ xki ∂ ( x i ' β ) k  i i ' β ) β k  Siendo  f ( ⋅) la función de densidad asociada a  F ( ⋅) . Si se emplea la función de densidad normal estándar : ∂ E [ yi x i ] = φ ( x ∂ x ki i ' β ) β k  Y si se emplea la función de densidad logística: EMBED Equation.3 ∂ E [ yi x i ] e 'β  = λ ( x i ' β ) β k  = β k  = Λ( x i ' β ) [1 − Λ( x i ' β ) ] β k  = 'β  2 ∂ x ki (1+ e ) xi xi = P ( yi =1 x i ) [1− P ( yi =1 x i )] β k  • El efecto marginal en ambos modelos depende de los valores que toman las variables explicativas. Pueden, por tanto, calcularse los efectos marginales para cada observación de la muestra, obteniendo los efectos medios como promedio de los efectos individuales. Alternativamente, los efectos marginales pueden evaluarse para el valor medio de las variables explicativas. • El signo de los coeficientes indica la dirección del efecto marginal: Signo de β k  = Signo del efecto marginal de  x k  • Cuando la variable explicativa es una variable dicotómica (variables ficticias), es más adecuado calcular el cambio discreto en la probabilidad. Indicando d i la variable ficticia (con valores 0, 1) y δ  es el correspondiente parámetro: ∆ E [ yi x *i d i ] = F ( x *i ' β * + δ  ⋅1) −  F ( x *i ' β * + δ  ⋅ 0 ) = F ( x *i ' β * + δ ) −  F ( x *i ' β * ) ∆ d i En general, las dos medidas no son iguales: 11  Print document In order to print this document from Scribd, you'll  E  y i x i δ  E  y x first need to downloadi it. i [ ] ∆ [ ≠ δ  x ki ] ∆ x ki Download And Print Cancel Odds y Odds-ratio En el modelo logit los resultados se suelen interpretar en términos de los oddsratio. Los odds se definen como el cociente entre las probabilidad de las dos alternativas: Ω=  P (Y i = 1 x)  P (Y i = 0 x) =  P (Y i = 1 1 − P (Y i x) =1 x) En el modelo logit, este cociente de probabilidades sería: Ω=  P (Y i = 1 x)  P (Y i = 0 x) =e x i ' β  Y en logaritmos:   P (Y i = 1   P (Y i = 0 ln ( Ω ) = ln      = x i ' β  x)     x) El logaritmo del odds se conoce como logit . El cociente de odds (o odds-ratio) mide cómo se modifica el odds cuando una de las variables explicativas cambia su valor (de  x ki0 a  x 1ki ). Supongamos un modelo logit con tres variables explicativas, el odds será: Ω( x1i , x2i , x3i ) =  P (Y i = 1  x1i , x2i , x3i )  P (Y i = 0  x1i , x 2i , x3i ) =e x i ' β  = e β  0 e β 1  x1i e β 2  x2 i e β 3 x3 i Si incrementamos el valor de la variable  x 2i en una unidad, el nuevo odds será: Ω( x1i , x2i +1, x3i ) =  P (Y i = 1  x1i , x2i +1, x3i )  P (Y i = 0  x1i , x2i + 1, x3i ) =e x i ' β  = e β  0 e β 1 x1i e β 2 ( x2 i + 1) e β 3 x3 i El odds-ratio se define como el cociente de los dos odds: Ω( x1i , x2i +1, x3i ) e β  e β   x e β  ( x +1) e β   x = β  β   x β   x β   x = e β  Ω( x1i , x2i , x3i ) e e e e 0 1 1i 2 2i 3 3i 2 0 1 1i 2 2i 3 3i O más detalladamente: 12  Print document In order to print this document from Scribd, you'll  P (Y i = 1  x1i , x 2i + 1, x3i ) first need to download it.  P (Y i = 0  x1i , x 2i + 1, x3i )  P (Y i = 1  x1i , x 2i , x3i ) Cancel Download Print (Y i = 0  x1And  P  i , x 2 i , x3i ) = e β  2 Por tanto, el exponencial de un coeficiente puede interpretarse como el efecto que tiene sobre el odds el incremento de una unidad en la variable.  Advierta que el odds-ratio es un coeficiente multiplicativo que puede tomar  valores desde 0 en adelante: β  j e β  j -3 -2 -1,5 -1 -0,1 0,05 0,14 0,22 0,37 0,90 -0,01 0 0,01 0,99 0,1 1 1,5 2 3 1 1,01 1,11 2,72 4,48 7,39 20,09  Además, cuando se interpretan los odds-ratio debe tenerse en cuenta que un cambio constante en el odds no se corresponde con un cambio constante en la probabilidad. Long (1997) muestra el siguiente ejemplo: Original Odds Probabilidad Cambio Odds Probabilidad 0,001 0,010 0,1 0,5 1 2 10 100 1000 0,002 0,02 0,2 1 2 4 20 200 2000 0,001 0,010 0,091 0,333 0,500 0,667 0,909 0,990 0,999 0,002 0,020 0,167 0,500 0,667 0,800 0,952 0,995 1,000 Factor de cambio Odds Probabilidad 2 2 2 2 2 2 2 2 2 1,998 1,980 1,833 1,500 1,333 1,200 1,048 1,005 1,000 Cambio en probabilidad 0,001 0,010 0,076 0,167 0,167 0,133 0,043 0,005 0,000 Los datos del ejemplo muestran que mientras que los odds se modifican por un factor de 2, las probabilidades (calculadas como 1 (1 + odds −1 no se modifican en una cantidad constante. Cuando los odds son muy pequeños, odds y probabilidades se modifican en la misma cantidad; cuando los odds son muy grandes, las probabilidades prácticamente no se modifican. La conclusión que se deriva de este resultado es que cuando se interpretan los resultados de la estimación de un modelo logit, además de los odds resulta interesante calcular  también las predicciones de la probabilidad y los efectos marginales. Estimación de los modelos logit y probit Los modelos logit y probit se estiman usualmente empleando el método de máxima verosimilitud. Para cada observación en la muestra, la variable  y i sigue una distribución de Bernoulli, su función de probabilidad es: 13  Print document In order to print this y document from Scribd, 1− y you'll )  P ( yito=download  f  ( y i xfirst 1 x i ) i (1it. − P ( y i =1 i =need xi )) i yi = 0,1. 1 , la función de probabilidad es: De manera que cuando  y i =Cancel Download And Print  f  (1 xi ) = P ( y i =1 )1 (1− P ( y i =1 xi ) ) 0 =  P ( yi =1 xi ) xi ) = P ( yi =1 x i ) 0 (1 − P ( yi =1 xi ) )1 =  P ( y i = 0 xi ) xi Y cuando  y i = 0 :  f  ( 0 Dada la anterior función de densidad, la función de verosimilitud para toda la muestra viene dada por:  L = n ∏ P ( y =1 i x i =1 ) [1− P ( y =1 x )] −  yi i 1  yi i i Y el logaritmo de la función de verosimilitud: ln L = n ∑ y  P ( y =1 i i i =1 n x i ) + ∑ (1− y )[1− P ( y =1 x )] i i i i =1 O ln L = n ∑ y  F ( i i =1 )+ x i ' β  n ∑ (1− y )[1− F ( i )] x i ' β  i =1 Las condiciones de primer orden del problema de maximización requieren que las primeras derivadas respecto a β  . Dada la no linealidad de los modelos, los estimadores máximo verosímiles se obtienen empleando métodos numéricos (Newton-Raphson, Berndt-Hall-Hall-Hausman,…). Contrastes de hipótesis Significación individual . Los estimadores máximo verosímiles de β  se distribuyen asintóticamente según una distribución normal. Por tanto, para tamaños muestrales relativamente grandes se tiene: β ˆ j ∼ N  β  j , var  β ˆ j Y, por tanto, puede contrastarse la hipótesis nula sobre la significación de una variable,  H 0 : β ˆ  j = 0 , mediante el contraste: β  j  z = , ˆ β ˆ σ   j que si la hipótesis es cierta se distribuye asintóticamente como una  N ( 0,1) . Contrastes de Wald y Razón de Verosimilitud  El contraste de Wald puede emplearse para contrastar restricciones lineales en los parámetros, del tipo: 14  Print document In order to print this document from Scribd, you'll  H 0 : R it. β  r 0 first need to download − =  H  A : R β  − r ≠ 0 Download And Print Cancel La hipótesis puede contrastarse con el estadístico de Wald: ˆ − r )′( R Var ( β  ˆ )R ′) −1 ( R β  ˆ − r ) ∼ χ 2 W  = (R β  q Si las restricciones son ciertas, el estadístico se distribuye asintóticamente como una distribución chi-cuadrado con grados de libertad igual al número de restricciones. El contraste de cociente de verosimilitudes también puede emplearse para contrastar restricciones del modelo. El estadístico se define como:   L  RV  = − 2 ln  R   L NR   2    = − 2(ln L R − ln L NR ) = 2 ( ln L NR − ln L R ) ∼ χ q   Donde  L R y  L NR indican los valores de la función de verosimilitud de los modelos restringido y no restringido, respectivamente. Bajo la hipótesis nula el 2 estadístico RV se distribuye como una  χ q Pseudo-R2 El coeficiente de determinación o R 2 empleado en el modelo de regresión como medida de bondad del ajuste no parece adecuado cuando la variable dependiente es binaria, mientras que la variable ajustada es continua en el intervalo 0,1. Se han propuesto diversas medidas de bondad del ajuste alternativas, denominadas Pseudo-R 2. Entre ellas destacan: Pseudo-R2 de McFadden. También conocido como “índice de cociente de verosimiludes”. Se define como: 2  R MF  = 1− ln L NR ln L R Donde  L NR indica la función de verosimilitud del modelo estimado y  L R la de un modelo restringido con coeficientes β  j = 0 . Si en el modelo  L NR = L R , todos los 2 = 0 . El estadístico se acerca al coeficientes β  j estimados serían cero, y el  R MF  valor 1 cuando la función de verosimilitud del modelo estimado (no restringido) se acerca a su valor máximo (igual a uno) y, por tanto, con un valor del logaritmo igual a cero. Pseudo-R 2  de Cox-Snell . Cox y Snell propusieron una medida que tenía en cuenta el tamaño de la muestra:     2 =1 − exp −  RCS  2  N  ( ln( L R ) − ln ( LNR ) )       15  Print document Predicción individual dedocument las probabilidades In order to print this from Scribd, you'll first need to download it. Una vez estimado el modelo es posible estimar la probabilidad de un valor  ˆ =1 para cada observación, dados los valores de las variables Y  i Cancel Download And Print ˆ (Y  =1 x ) ≡ P . La manera más directa de interpretar los independientes:  P  i i i resultados de la estimación del modelo es analizar las predicciones de probabilidad para diferentes valores de las variables independientes. Porcentaje de Predicciones Correctas Una forma sencilla de valorar el ajuste de un modelo de elección binaria consiste en comparar las predicciones del modelo con las respuestas observadas en la muestra. Para cada observación se predice la probabilidad y ˆ = 0 , según la ˆ = 1 o Y  se asigna la respuesta de ese elemento a valores Y  i i probabilidad supere o no un determinado umbral. Normalmente, el criterio de asignación emplea como punto de corte una probabilidad igual a 0,5: ˆ (Y  =1 x ) ≥ 0,5 ⇒  P  i ˆ i  P (Y i =1 x i ) < 0,5 ⇒ ˆ =1 Y  i ˆ =0 Y  i Debe tenerse en cuenta que la elección de un valor igual a 0,5 es arbitraria y que puede modificarse en función del número de 1 y 0 que haya en la muestra. Una vez obtenidos los valores de Y ˆi se genera un cuadro clasificatorio según el siguiente esquema: Valor observado de Y i Predicción de ˆ Y  i Y i = 0 Y i = 1 ˆ =0 Y  i n11 n12 ˆ =1 Y  i n21 n22 Los valores n11 y n22 se corresponden con predicciones correctas para Y i = 0 e Y i = 1 , respectivamente. Mientras que los valores n 12 y n21 señalan las predicciones incorrectas. Esta información permite calcular las tasas de acierto (o error), tanto globalmente, como para cada una de las categorías, así como el porcentaje de falsos 1 ó 0. Contraste de Hosmer-Lemeshow La idea del contraste de Hosmer-Lemeshow (HL) es comparar las predicciones de las probabilidades con los datos observados. Para calcular el estadístico se sigue la siguiente secuencia: 16  Print document 1. 2. 3. 4. Se calculan las Inpredicciones dedocument las probabilidades a partir de la order to print this from Scribd, you'll ˆ (Y  first need toi download it.i .  P  =1 x i ) ≡ P  estimación del modelo: Se ordenan los datos en función de las probabilidades estimadas, de menor a mayor. Cancel Download And Print Se dividen las observaciones en G grupos (normalmente 10) de igual tamaño (en cada uno de los grupos habrá aproximadamente el mismo número de observaciones). El primer grupo tendrá las n1 observaciones con los valores de probabilidad estimada menores. Dentro de cada grupo se calcula la media de la predicción de probabilidad  P  g  y el porcentaje de observaciones con valor  Y i = 1 ,  y g  . El estadístico HL se basa en los residuos de Pearson, definidos como la diferencia entre la frecuencia observada y frecuencia en la predicción, estandarizada por la desviación estándar de la predicción. El estadístico suma esa diferencia estandarizada para todos los grupos:  5.  HL = G ∑  g =1 (n  y  g   g  − n g  P   g  )  n g  P   g  (1 − P   g  ) 2  El estadístico HL de distribuye aproximadamente como una  χ 2 con  g − 2 de libertad, si el modelo es correcto. Medidas de información Para valorar el ajuste de modelos alternativos se emplean diversas medidas, conocidas como medidas de información. Usualmente se emplean el denominado Criterio de Información de Akaike (AIC) y el Criterio de Información Bayesiano (BIC). El AIC se define como:  AIC  = −2 ln L + 2 K  Donde  L es la verosimilitud del modelo estimado y  K  es el número de parámetros en el modelo. El valor de  L será mayor cuanto mejor sea el ajuste, mientras que tendrá un valor más cercano a 0 cuando el ajuste sea malo. Por  ello, cuanto menor sea el valor de AIC mejor será el ajuste del modelo. El estadístico AIC penaliza el número de parámetros incluidos en el modelo, para compensar hecho de que incluir un mayor número de parámetros mejorará siempre el ajuste. La medida BIC se define como:  BIC  = −2 ln L + K ln( N ) Cuando se comparan modelos, es preferible aquel que presenta un valor  negativo mayor. 17 Print document  Ejemplo In order to print this document from Scribd, you'll first need to download it. Los datos de Mroz (1987) han sido empleados en diversos textos para ejemplificar los modelos binarios. Mroz estudia la participación de la mujer en el mercado de trabajo, empleando el panelDownload estadounidense Cancel And Print Panel  Study  of  Income Dynamics (PSID) correspondiente al año 1976. El fichero de datos BINLFP2.WF1 contiene una muestra de mujeres casadas en edad de trabajar, extraída del panel. Las variables incluidas en el fichero son las siguientes: lfp: participa en el mercado de trabajo en el año anterior: 1=sí, 0=no. k5: número de hijos menores de 5 años. k618: número de hijos entre 6 y 18 años. age: edad de la mujer. wc: estudios universitarios: 1=sí, 0=no. hc: estudios universitarios del marido: 1=sí, 0=no. lwg: logaritmo de los salarios de la mujer. inc: renta familiar (excluyendo el salario de la mujer). El modelo que se desea ajustar es el siguiente:  P ( lfp =1) = F  β 0 + β k 5 k 5 + β k 618 k 618 + β age age + β wc wc + β hc hc + β lwg  lwg + β inc inc La estimación con EViews de un modelo binario se realiza entrando en la opción de ecuación y seleccionando como método BINARY-Binary Choice (Logit, Probit, Extreme Value). 18  Print document El método permite seleccionar lasdocument opciones logit y de valor  In order toentre print this fromprobit Scribd,, you'll extremo. first need to download it. Los resultados de la estimación de los modelos logit y probit se muestran en los cuadros 1 y 2: Cancel Download And Print Cuadro 1. Estimación logit. Dependent Variable: LFP Method: ML - Binary Logit (Quadratic hill climbing) Sample: 1 753 Included observations: 753 Convergence achieved after 4 iterations Covariance matrix computed using second derivatives C K5 K618  AGE WC HC LWG INC McFadden R-squared S.D. dependent var  Akaike info criterion Schwarz criterion Hannan-Quinn criter. LR statistic Prob(LR statistic) Obs with Dep=0 Obs with Dep=1 Coefficient Std. Error z-Statistic Prob. 3.182140 -1.462913 -0.064571 -0.062871 0.807274 0.111734 0.604693 -0.034446 0.644375 0.197001 0.068001 0.012783 0.229980 0.206040 0.150818 0.008208 4.938336 -7.425933 -0.949557 -4.918260 3.510193 0.542291 4.009434 -4.196498 0.0000 0.0000 0.3423 0.0000 0.0004 0.5876 0.0001 0.0000 0.120885 0.495630 1.223461 1.272588 1.242387 124.4805 0.000000 325 428 Mean dependent var S.E. of regression Sum squared resid Log likelihood Restr. log likelihood Avg. log likelihood Total obs 0.568393 0.457755 156.1069 -452.6330 -514.8732 -0.601106 753 19  Print document Cuadro 2. Estimación probit. In order to print this document from Scribd, you'll Dependent Variable: LFP first need to download it. Method: ML - Binary Probit (Quadratic hill climbing) Sample: 1 753 Included observations: 753 Cancel Download And Print Convergence achieved after 3 iterations Covariance matrix computed using second derivatives C K5 K618  AGE WC HC LWG INC McFadden R-squared S.D. dependent var  Akaike info criterion Schwarz criterion Hannan-Quinn criter. LR statistic Prob(LR statistic) Obs with Dep=0 Obs with Dep=1 Coefficient Std. Error z-Statistic Prob. 1.918422 -0.874711 -0.038594 -0.037823 0.488314 0.057170 0.365629 -0.020525 0.380654 0.113558 0.040489 0.007609 0.135487 0.124005 0.087779 0.004777 5.039810 -7.702746 -0.953202 -4.970668 3.604133 0.461032 4.165324 -4.296758 0.0000 0.0000 0.3405 0.0000 0.0003 0.6448 0.0000 0.0000 0.120764 0.495630 1.223625 1.272752 1.242551 124.3565 0.000000 325 428 Mean dependent var S.E. of regression Sum squared resid Log likelihood Restr. log likelihood Avg. log likelihood Total obs 0.568393 0.457953 156.2421 -452.6950 -514.8732 -0.601189 753 Predicciones EViews permite calcular dos tipos de predicciones: la predicción de la ˆ (Y  =1 x ) ≡ P , o los valores del índice x i ' β  . Para ello se debe probabilidad,  P  i i i seleccionar en la barra de herramientas en la que aparece la estimación la opción Forecast y en el cuadro de opciones que se abre, seleccionar una de las opciones ( Probability o Index). La serie con los valores predichos se guarda con el nombre que se haya indicado en la opción Forecast name. 20 Print document  In order to print this document from Scribd, you'll first need to download it. Cancel Download And Print Las predicciones de las series pueden emplearse de diferentes maneras. Por  ejemplo, para calcular los Efectos marginales o las elasticidades. En el caso del modelo logit, el cálculo del efecto marginal de la renta familiar  sobre la probabilidad de participar en el mercado de trabajo supondría calcular: ∂ E [Y i x i ] ˆ ˆ ˆ (Y  =1 x )] β  = P i (Y i =1 x i ) [1− P  i i INC  i ∂ x INC ,i 21 Print document  Esto puede hacerse generando una mediante In order to print this nueva documentserie from Scribd, you'll la siguiente instrucción: first need to download it. series efminc=lfpf*(1-lfpf)*(-0.034446) Cancel Download And Print Donde lfpf es el nombre en el que se han guardado las predicciones de probabilidad y -0.034446 el coeficiente β ˆ INC  del modelo logit. Una vez generada la serie de efectos marginales, puede calcularse el valor medio en la muestra, o estudiar su distribución, obteniendo sus valores mínimo, máximo,… Para obtener un análisis descriptivo básico puede seleccionar la variable, hacer  doble clic en ella, seleccionar  View y a continuación la secuencia Descriptive Statistics & Tests, Histogram and Stats según se muestra en el siguiente cuadro. Los resultados que se obtienen se muestran a continuación. 22  Print document In order to print this document from Scribd, you'll first need to download it. Series: EFMINC 160 Sample 1 753 Observations 753 140 Download And Print Cancel 120 Mean Median Maximum Minimum Std. Dev. Skewness Kurtosis 100 80 60 40 Jarque-Bera Probability 20 -0.007150 -0.007757 -0.000475 -0.008611 0.001648 1.360164 4.267348 282.5745 0.000000 0 -0.0075 -0.0050 -0.0025 Cuando se analizan los efectos marginales (o las elasticidades) un ejercicio que resulta interesante es el cálculo del efecto marginal para distintos valores o características de alguna variable. Por ejemplo, puede interesar calcular el efecto marginal medio según el número de hijos menores de 5 años (la variable k5). Para ello basta con seleccionar en la secuencia Descriptive Statistics & Tests, Stats by clasiffication y escribir la variable de interés en Series/Group for classify. Para la variable k5, los resultados se muestran a continuación. 23  Print document In order to print this document from Scribd, you'll Descriptive Statistics for EFMINC first need to download it. Categorized by values of K5 Date: 01/19/08 Time: 23:04 Sample: 1 753 Cancel Download And Print Included observations: 753 K5 0 1 2 3  All Mean -0.007210 -0.007318 -0.005660 -0.001280 -0.007150 Std. Dev. 0.001587 0.001485 0.001923 0.000807 0.001648 Obs. 606 118 26 3 753  Alternativamente, el cálculo de los efectos marginales se podría haber  realizado empleando la fórmula general (válida para cualquier distribución): ∂ E [ yi x i ] ∂ F ( x ' β ) = β  =  f ( x ∂ xki ∂ ( x i ' β ) k  i i ' β ) β k  Para ello, se debería haber guardado la predicción correspondiente a x i ' β  (Index en la opción Forecast de EViews) y emplear las siguientes instrucciones: ˆ series efminc1=@dlogistic(index)* β   INC , LOGIT  ˆ INC , PROBIT  series efminc2=@dprobit(index)* β  donde index recogería la serie x i ' β  . Representación de las curvas de probabilidad Los coeficientes estimados del modelo binario pueden emplearse para examinar cómo varían las predicciones de probabilidad con respecto a las variables independientes. En este apartado se van a representar cuatro curvas de probabilidad (en el eje vertical) con respecto a la edad de la mujer (en el eje horizontal). Cada curva muestra la estimación de la probabilidad que corresponde a mujeres sin hijos, con uno, dos o tres hijos, respectivamente. Empleando EViews es necesario realizar algunas manipulaciones previas. En primer lugar, se trata de que el modelo estimado sea reconocido como un modelo por EViews. Para ello debe seleccionarse en la barra de herramientas de la estimación Proc y Make Model. 24  Print document In order to print this document from Scribd, you'll first need to download it. Download And Print Cancel EViews crea un modelo basado en la especificación de probabilidad  P ( yi = 1) = F (x ′i β ) . Con una función de distribución que corresponderá a la de una normal en el caso de la estimación probit:  P [ y =1 x 'β x x ' β  ] = ∫ φ ( t ) dt = ∫  −∞ −∞ 1 2π  e − t 2 2 dt  = Φ ( x' β ) O la de una logística, en el caso de la estimación logit:  P [ y =1 x ]= e x 'β  1+ e x = ' β  1 1 + e −x 'β  = Λ ( x' β ) 25 Print document  In order to print this document from Scribd, you'll Para poder editar este modelo son necesarios dos pasos previos. En primer  first need to download it. lugar, debe romperse el ligamen entre la ecuación estimada y el modelo generado. Para ello, seleccione Proc, Links, Break All Links. Cancel Download And Print  A continuación seleccione en la barra de herramientas el botón Text (o alternativamente, seleccione View, Source Text). Con ello logrará visualizar el modelo y realizar en el mismo las modificaciones necesarias. 26 Print document  In order to print this document from Scribd, you'll first need to download it. En la ventana en la que se ha editado el modelo, es necesario crear una ecuación para cada una de las curvas de probabilidad: sin hijos, uno, dos y tres hijos. Estas situaciones se Cancel corresponden con valores Download And Printde k5 iguales a 0, 1, 2 y 3. Respecto a las restantes variables exógenas, las curvas se calculan para sus valores medios. En la ecuación editada estos valores se pueden obtener  empleando la función de EViews @mean( nombre de la variable). La variable age no debe promediarse, puesto que es una de las variables de interés en la gráfica. En la ventana deberá escribir las siguientes ecuaciones (puede utilizar las opciones de copiar y pegar del editor de texto): LFP0 = 1 - @CLOGISTIC(-(3.18214044494 - 1.46291303597 * 0 - 0.0645706836214 * @mean(K618) - 0.0628705507705 * AGE + 0.807273778506 * @mean(WC) + 0.111733572035 * @mean(HC) + 0.604693114912 * @mean(LWG) - 0.0344464305076 * @mean(INC))) LFP1 = 1 - @CLOGISTIC(-(3.18214044494 - 1.46291303597 * 1 - 0.0645706836214 * @mean(K618) - 0.0628705507705 * AGE + 0.807273778506 * @mean(WC) + 0.111733572035 * @mean(HC) + 0.604693114912 * @mean(LWG) - 0.0344464305076 * @mean(INC))) LFP2 = 1 - @CLOGISTIC(-(3.18214044494 - 1.46291303597 * 2 - 0.0645706836214 * @mean(K618) - 0.0628705507705 * AGE + 0.807273778506 * @mean(WC) + 0.111733572035 * @mean(HC) + 0.604693114912 * @mean(LWG) - 0.0344464305076 * @mean(INC))) LFP3 = 1 - @CLOGISTIC(-(3.18214044494 - 1.46291303597 * 3 - 0.0645706836214 * @mean(K618) - 0.0628705507705 * AGE + 0.807273778506 * @mean(WC) + 0.111733572035 * @mean(HC) + 0.604693114912 * @mean(LWG) - 0.0344464305076 * @mean(INC))) Una vez escritas las ecuaciones, debe hacer clik en Solve y seleccionar en Solution scenarios & output, Active la opción Actuals. Al aceptar esta especificación EViews genera cuatro nuevas variables lfp0, lfp1, lfp2, lfp3, con las predicciones de probabilidad para los distintos números de hijos. 27  Print document In order to print this document from Scribd, you'll Para generar las curvas de probabilidad seleccione en la barra de herramientas first need to download it. del workfile las opciones Object, New Object, Group y acepte OK. En el cuadro que se abre escriba: Cancel age lfp0 lfp1 lfp2 lfp3 Download And Print y acepte en OK. EViews abre una ventana con el grupo de variables anteriores. En la barra de herramientas seleccione la secuencia View, Graph. En las opciones de gráfico que se le abre, seleccione la opción Scatter  y aceptar. El gráfico que visualizará es similar al que se muestra a continuación. .9 .8 .7 .6 LFP0 .5 LFP1 LFP2 .4 LFP3 .3 .2 .1 .0 32 36 40 44 48 52  AGE Como observará, las curvas de probabilidad muestran que a mayor edad de la mujer, la probabilidad de participar en el mercado de trabajo disminuye, pero que el número de hijos menores de 5 años es también determinante en la probabilidad. Cuando el número de hijos es igual a tres, la probabilidad de participar es muy baja, casi nula, y prácticamente independiente de la edad de la mujer. Coefficient Tests Una vez estimado el modelo, EViews ofrece algunos procedimientos que resultan útiles para analizar el modelo. Puede visualizarlas desde la barra de herramientas de la ventana de ecuación, seleccionando View. La primera opción de interés es la de Coefficient Tests. En la misma puede realizar los contrastes de Wald o Razón de Verosimilitud que considere necesarios. 28 Print document  In order to print this document from Scribd, you'll first need to download it. Cancel Download And Print Dependent Variable Frequencies Presenta la distribución de frecuencias de la variable dependiente. Categorical Regressor Stats Muestra la media y la desviación estándar de las variables explicativas, tanto para el total de la muestra, como para las dos categoría de la variable dependiente. Expectation-Prediction (Classification) Table Presenta el cuadro de clasificaciones que compara las predicciones realizadas mediante el modelo con los datos observados en la muestra. El programa permite seleccionar el punto de corte en la predicción de la probabilidad, en ˆ tomará valor 1 ó 0. En los resultados se función del cual la predicción Y  i muestran cuatro tablas 2x2. Expectation-Prediction Evaluation for Binary Specification 29  Print document In order to print this document from Scribd, you'll Equation: UNTITLED first need to download it. Date: 01/20/08 Time: 15:19 Success cutoff: C = 0.5 Download And Print Cancel Estimated Equation Dep=0 Dep=1 Total P(Dep=1)<=C P(Dep=1)>C Total Correct % Correct % Incorrect Total Gain* Percent Gain** E(# of Dep=0) E(# of Dep=1) Total Correct % Correct % Incorrect Total Gain* Percent Gain** 180 145 325 180 55.38 44.62 55.38 55.38 86 342 428 342 79.91 20.09 -20.09 NA 266 487 753 522 69.32 30.68 12.48 28.92 Constant Probability Dep=0 Dep=1 Total 0 325 325 0 0.00 100.00 0 428 428 428 100.00 0.00 0 753 753 428 56.84 43.16 Estimated Equation Dep=0 Dep=1 Total Constant Probability Dep=0 Dep=1 Total 168.80 156.20 325.00 168.80 51.94 48.06 8.78 15.44 140.27 184.73 325.00 140.27 43.16 56.84 156.20 271.80 428.00 271.80 63.50 36.50 6.66 15.44 325.00 428.00 753.00 440.59 58.51 41.49 7.58 15.44 184.73 243.27 428.00 243.27 56.84 43.16 325.00 428.00 753.00 383.54 50.94 49.06 *Change in "% Correct" from default (constant probability) specification **Percent of incorrect (default) prediction corrected by equation La primera tabla (parte superior a la izquierda) se corresponde a la explicada anteriormente, que cruza la predicción a partir del corte en probabilidad, con los valores observados en la muestra. Los datos reflejados en el cuadro serían los siguientes: Valor observado de Y i Predicción de ˆ Y  i Y i = 0 Y i = 1 ˆ =0 Y  i 180 86 ˆ =1 Y  i 145 342 En el cuadro se muestra el porcentaje de aciertos para Y i = 0 e Y i =1 (55,38% y 79,91%, respectivamente) y el porcentaje total de aciertos (69,32%).  Asimismo, en el cuadro aparecen los porcentajes incorrectos. En la parte superior derecha aparece el cuadro de clasificación de un modelo probabilístico sin variables explicativas (únicamente con la constante). La comparación de ambos cuadros permite valorar la mejora en capacidad predictiva del modelo originalmente estimado. Las valores de Total Gain y Percent Gain permiten esa comparación. Total Gain recoge la variación 30  Print document In order to print this document from Scribd, you'll absoluta en el porcentaje de aciertos, mientras que Percent Gain se define first need to download it. como la mejora porcentual respecto a las clasificaciones incorrectas del modelo constante. Cancel Download And Print En la parte inferior del cuadro se muestran las tablas de clasificación basadas en el cálculo del número esperado de observaciones con Y i = 0 e Y i = 1 . Por  ejemplo, para el obtener el valor esperado de valores Y i = 0 se calculará:  N  ∑ P (Y  = 0 i i =1  N  x i ) = ∑ F ( − x ' β ) i i =1 Donde la función de distribución  F  será la normal o la logística. Goodness-of-Fit Tests (Hosmer-Lemershow) Esta opción calcula el contraste de Hosmer-Lemershow. Además ofrece los resultados de otro contraste (contraste de Andrews). Los estadísticos difieren en la forma en la que agrupan las observaciones y en la distribución asintótica del contraste. A continuación sólo se comentarán los resultados relacionados con el contraste de Hosmer-Lemershow. En principio, EViews permite seleccionar un número de intervalos cualquiera, aunque por defecto define 10 intervalos. Esta opción es la que generalmente aparece en la mayoría de aplicaciones. En la ventana de resultados aparecen las columnas “Low” y “High” en “Quantile of Risk”. En estas columnas se muestran las predicciones de probabilidad mínima y máxima en cada intervalo. En las otras columnas se muestran el número de observaciones en cada intervalo con valores Y i = 0 e Y i = 1 , así ˆ = 0 e Y  ˆ =1 . En la última como el número esperado de predicciones con Y  i i columna se recoge la contribución de cada intervalo al estadístico de HosmerLemeshow. 31 Print document  In order to print this document from Scribd, you'll first need to download it. Goodness-of-Fit Evaluation for Binary Specification Cancel Download And Print 32