¿Cuál es el mejor argumento de Nassim Taleb de que Nate Silver no es muy bueno en lo que hace?

Nate Silver: El pequeño geek que podría… cambiar el mundo.

Nate Silver es el hombre que lo hizo popular para ser un nerd de datos. Su estilo de “Sabermetrics” de excavación de datos ayudó a los Medias Rojas de Boston a vencer a la Curse Of The Bambino de 85 años, y los equipos de datos han proliferado en todos los deportes principales. El proyecto político FiveThirtyEight de Silver alcanzó su prominencia en 2008 después de predecir con precisión 49 de los 50 estados en las elecciones presidenciales de los EE. UU., Más las 35 elecciones al Senado.

Nassim Nicholas Taleb: Da cero $ y% # s.

Nassim Nicholas Taleb , un fanático de las finanzas que escribe sobre riesgo y cultura, se convirtió en un nombre familiar tras la publicación de The Black Swan . Señala que los eventos completamente inesperados pueden convertirse en los impulsores de la historia y advierte sobre la fragilidad del sistema financiero debido a su exceso de confianza con respecto al riesgo inesperado. Esto fue considerado como presciente después de la consiguiente crisis financiera mundial.


En agosto de 2016, Taleb llevó a Silver a la tarea en Twitter con respecto a las probabilidades publicadas en el sitio de Silver FiveThirtyEight para las elecciones presidenciales de este año:

Nassim Nicholas Taleb tuitea sobre Nate Silver

1 / @ FiveThirtyEight : 55% de “probabilidad” para Trump luego 20% 10 d más tarde, sin darse cuenta de que su “probabilidad” es demasiado estocástica para ser una probabilidad.

2 / Así que @ FiveThirtyEight nos muestra un caso de libro de texto sobre cómo estar totalmente * despistado * acerca de la probabilidad, pero hacer un negocio en ella.

3) Más técnicamente, cuando la varianza de la probabilidad es muy alta, converge al 50%. Kapish? (metaprobabilidad).

Bien, entonces, ¿qué significa eso ?

El fondo de plata está en el béisbol. Hay 162 juegos por temporada en el béisbol, y un gran equipo gana tal vez el 58% del tiempo. La diferencia en el promedio de bateo entre el mejor y el peor equipo es de solo 4.7%. Con tantas oportunidades y tanta paridad, las cosas tienden a promediar. Si un equipo pudiera, por ejemplo, mejorar su promedio de bateo en un pequeño porcentaje, podría ascender de manera confiable en el ranking.

Comparemos eso con la elección presidencial. De nuevo, hay mucha paridad. Los dos partidos presentan candidatos y plataformas que atraen a casi la mitad del país. En la cuenta final de 2016, Trump ganó por solo decenas de miles de personas en varios estados, con 120 millones de votos. Con márgenes tan reducidos, algunos eventos inesperados o una pequeña supervisión en la metodología de sondeo pueden inclinar la balanza.

Pero solo hay una elección.

Si tuviéramos 162 elecciones presidenciales en un período de 6 meses, se mitigaría la importancia de cualquier evento en particular. ¿Por qué? Porque suele haber muchas sorpresas a lo largo del tiempo, algunas buenas o malas para cada lado. En la siguiente tabla, observe cómo las propias predicciones de Silver cambian con el tiempo, a medida que los eventos puntuales golpean el sentimiento de la elección:

Los eventos impredecibles y los pequeños errores de sondeo son tan importantes para determinar el resultado final, tenemos que acercarnos realmente a la elección para tener una lectura confiable, porque no sabemos qué sucederá. Eso significa que las probabilidades a largo plazo declaradas de Silver son mucho más extremas de lo que deberían ser. No han tenido en cuenta el hecho de que las cosas pequeñas inevitablemente cambiarán el equilibrio con el tiempo.

La crítica de Taleb se puede leer de esta manera: las probabilidades de Silver deberían estar más cerca de las 50:50 hasta que la elección esté cerca de nosotros. ¿Por qué? Los márgenes entre la victoria y la derrota son tan escasos, y las incógnitas son tan grandes, que hasta el final conoceremos algunos de los impulsores clave del resultado final.

Muestra el gráfico alternativo de Taleb. Mucha más información y tablas de muestra si lees a través de ese hilo de Twitter.

ACTUALIZACIÓN: Taleb publicó un artículo relevante sobre arXiv:

https://arxiv.org/pdf/1703.06351…

https://t.co/hHkbsAaGAW?amp=1

En cierto modo, ambos tienen razón.

Nate es bueno en lo que hace en cuanto a que su objetivo principal es hacer predicciones con la mayor cantidad de datos posible y lo más cerca posible de la elección; así es como se evalúa su modelo y se ha desempeñado de manera notable en ese contexto.

También creo que Nassim encontró un error en el modelo que se relaciona con el cálculo de probabilidades (“sondeos solo” y “sondeos más”) que se representan como si estuvieran totalmente incluidos en la incertidumbre futura, pero no lo son.

Por ejemplo, Nate puede hacer predicciones muy buenas el día anterior a la elección, pero al mismo tiempo no puede proporcionar probabilidades precisas con seis meses de antelación, eso no es contradictorio.

Lo que sospecho que está sucediendo es que las probabilidades de “solo encuestas” y “encuestas más +” están más cerca de la probabilidad de “ahora emitidas” de lo que deberían ser. Para aclarar, “ahora emitido” hace la pregunta “Si las elecciones se celebraran hoy, dados los datos que tenemos, ¿cuál es la probabilidad de que un candidato gane?” La respuesta a esa pregunta no tiene por qué ser una martingala (un proceso donde el valor de hoy es la expectativa del valor de mañana).

Sin embargo, la respuesta a la pregunta de “Teniendo en cuenta todos los datos que tenemos hoy [ya sea solo encuestas o sondeos y otros datos], ¿cuál es la probabilidad de ganar el 8 de noviembre?” Debería ser realmente una martingala y Nassim ha demostrado que no es así. sea ​​el caso.

En cuanto a la documentación, esto es lo que puedo ver en la Guía del usuario para el Pronóstico de Elecciones Generales 2016 de FiveThirtyEight que se relaciona con tener en cuenta la incertidumbre restante entre el día de la medición y el día de la elección.

Diferencias entre encuestas solo y ahora emitidas

  • El modelo ahora es básicamente el modelo solo de encuestas, excepto que mentimos a nuestra computadora y le decimos que la elección es hoy.
  • Como resultado, el elenco ahora es muy agresivo. Es mucho más seguro que las encuestas más o solo las encuestas; Pone en mayor peso las encuestas recientes y es más agresivo al calcular una línea de tendencia.
  • Podría haber algunas grandes diferencias en torno a las convenciones. Los modelos de sondeo único y sondeos más descuento descuentan los sondeos realizados justo después de las convenciones, mientras que el ahora emitido trabajará para capturar rápidamente el rebote de la convención
  • La magnitud del error nacional se basa en: La cantidad de tiempo hasta la elección (más tiempo = más error) ; el número de votantes indecisos (más indecisos = más error); y el número de votantes de terceros (más votos de terceros = más error).

No hay nada aquí que sugiera que exista un procedimiento mediante el cual las probabilidades se calibren en relación con las probabilidades futuras para garantizar un proceso de martingala, y no parece que sea empírico, por lo que Nassim sí tiene un punto. (Esto es solo una especulación de mi parte, pero lo que podría estar sucediendo es que la predicción del número de votos electorales se calibra de esta manera, pero la probabilidad de ganar no lo es).

Cuando argumenta que Nate Silver no es muy bueno en lo que hace, Nassim Taleb hace algo de lo que suele acusar a otras personas: utiliza malas estadísticas.

Las estadísticas realmente malas constan de tres partes:

  • Un núcleo de verdad.
  • Una cortina de humo de detalles técnicos irrelevantes para el caso.
  • Un error en los detalles que es difícil de detectar y que requiere cierto conocimiento de fondo para comprenderlo.

Así que primero, aquí está el núcleo de la verdad:

Derivaciones de cómo hacer y actualizar los pronósticos electorales sin BS.
Probar el nuevo lanzamiento de @WolframResearch Mathematica pic.twitter.com/VSLtigZqz3

– Nassim Nicholas Taleb (@nntaleb) 10 de agosto de 2016

La fórmula relevante en esta derivación que es ciertamente correcta es

f = CDF [Distribución normal [0, sigma Sqrt [t]], x]

Tenga en cuenta que el sigma en esta fórmula es el mismo sigma que en el proceso de Wiener con el que comienza.

La derivación es más compleja de lo que debe ser y contiene algunas fórmulas que son completamente irrelevantes. Esto ya forma parte de la cortina de humo, pero la verdadera cortina de humo es este documento: https://arxiv.org/pdf/1703.06351… . Nada en este documento es relevante para el argumento.

Entonces, ¿dónde está el error? Puedes encontrarlo en el código de la tabla de abajo.

(cont) un tutorial sobre la forma estándar de ver las elecciones. Actualización proporcional a la raíz cuadrada del tiempo a las elecciones. pic.twitter.com/gbq1pqtkEJ

– Nassim Nicholas Taleb (@nntaleb) 8 de agosto de 2016

Este es el código de Mathematica.

r: = Random [NormalDistribution [0, 1]]
ta = Tabla [r, {100}] // Acumular
ta1 = Tabla [{i, CDF [Distribución normal [0, Max [.0001, 14 Sqrt [Longitud [ta] -i]]], ta [[i]]]}, {i, 1, Longitud [ta]} ];
ta2 = Tabla [{i, CDF [Distribución normal [0, Máx. [.0001, 1 Sqrt [Longitud [ta] -i]]], ta [[i]]]}, {i, 1, Longitud [ta]} ];
ListLinePlot [{ta1, ta2}]

Comienza simulando un proceso de Weiner con un sigma de 1. Entonces, de acuerdo con su propia derivación, debe usar el mismo sigma al calcular la estimación de probabilidad. Él usa el valor correcto cuando calcula ta2, que es la línea naranja en la tabla que marca “538”, pero cuando calcula ta1 (la línea azul) usa un sigma de 14, que es simplemente el valor incorrecto.

También puede solucionar este problema aumentando el sigma del proceso de Weiner subyacente a 14, pero en este caso, la línea azul comenzará a parecerse exactamente a la línea naranja en el gráfico original:

Si trabajas con las matemáticas, te darás cuenta de que sigma se cancela y no tiene ningún impacto en el comportamiento de la estimación correcta. Un sigma más alto significará que la función de estimación se volverá menos sensible y requerirá valores más extremos para producir las mismas probabilidades. Pero al mismo tiempo, el sigma más alto en el proceso de Weiner producirá valores más extremos que compensarán exactamente este efecto.

Nassim Taleb se ha hecho famoso por atacar malas estadísticas. Sin embargo, el gran problema es que parece ser incapaz o no está dispuesto a distinguir las buenas estadísticas de las malas estadísticas, y ataca las buenas estadísticas empleando malas estadísticas. Esto significa que Nassim Taleb no es parte de la solución, es parte del problema.

Se da una excelente respuesta en el Math Stack Exchange (¿Cuál es la crítica de Nassim Taleb al modelo electoral de 538?). La porción más relevante citada a continuación:

El análisis de Taleb incluye la posibilidad de que las cosas cambien y que esto podría cambiar las opiniones de las personas de una manera no cubierta por la visión de FiveThirtyEight sobre las opiniones actuales. Entonces, mientras que 538 se concentra en la incertidumbre actual, el análisis de Taleb está dominado por la incertidumbre futura. Si 538 dice que Clinton actualmente tiene una probabilidad de [math] 74.1 \% [/ math] de vencer a Trump, entonces Taleb contestaría que esto es excesivo (diría que el número ahora debería estar más cerca de [math] 50 \% [/ math (como las opiniones podrían cambiar entre ahora y noviembre), a lo que 538 responderían que su número era una evaluación de la posición actual dada su mejor evaluación de las opiniones actuales de los votantes y la incertidumbre sobre los informes de la posición actual.

Taleb ha marcado la palabra futuro para resaltar esta diferencia.

Taleb no tiene buenos argumentos, ya que sus celos por alguien que acapara la probabilidad de que el centro de atención de la luz del pronóstico haya empañado su juicio y cualquier comprensión justa de lo que Silver ha logrado. Taleb tiene la grave deficiencia psiquiátrica que cree que todos, excepto él mismo, son tontos. ¿Ha demostrado Taleb la capacidad de proporcionar mejores pronósticos públicos, antes del evento o cualquier evento?

Fisher, uno de los líderes en estadística, creía que eventos únicos no califican como “probabilidad”. Para que eso suceda, el mismo tipo de evento debe repetirse un gran número de veces. Silver explicó su metodología y supera la cuestión del evento único al basar la metodología en las encuestas actuales, pero también en lo más importante en lo que dichas encuestas han señalado en las pasadas elecciones presidenciales y de otro tipo. Por lo tanto, ya no es un evento único, sino una “probabilidad” de [dadas estas encuestas actuales] Y [el resultado que ocurrió con encuestas similares del pasado]. Sus cifras de probabilidad son en realidad medidas de creencia que se basan en cómo han sucedido las cosas en el pasado, cómo es probable que las cosas salgan esta vez. Si las encuestas cambian sus previsiones cambian.

A lo que el método de Silver y otros métodos de pronóstico que son vulnerables es al presente, no es nada como el pasado. No ha habido candidato antes de nada como Trump. Ninguna campaña tan dominada por las redes sociales y las falsedades. No tantos votantes que no votan por primera vez y otros votantes que no votan esta vez. Puede haber habido vergüenza en las encuestas para admitir que usted fue un votante de Trump para otros. Puede que haya habido cierta presión social para que los votantes se conformen con su buen juicio en las fortalezas de Trump. Esta elección fue mucho más sobre las emociones que la racionalidad. Este último no estaba en el método de plata ni en su resultado.

Estoy un poco confundido por las otras respuestas, ya que Nassim ha dicho claramente cuál es el problema. Si la probabilidad de un evento es X hoy, entonces su valor esperado mañana también debe ser X. De lo contrario, no es una probabilidad.

Si observa las estimaciones de probabilidad publicadas de Silver a lo largo del tiempo, verá que vuelven claramente a un promedio del 50%. Si la probabilidad de un evento de hoy es superior al 50%, entonces mañana es más probable que la estimación de probabilidad disminuya que suba. Eso significa que las estimaciones de probabilidad son demasiado extremas o demasiado confiadas.

Por supuesto, Nassim tiene teorías sobre por qué Silver y la mayoría de los pronosticadores cuantitativos están demasiado confiados. Creo que esto es de lo que se extrapolan las otras respuestas.

Nate Silver mira las encuestas y supone que aún están jugando el mismo juego. Es decir, las encuestas de 2016 son las mismas que las de 2012 o 2008. Luego, se pueden colocar ponderaciones basadas en el desempeño anterior, y así sucesivamente (se llama ‘forma’), y tratar de adivinar el resultado de la elección.

Hay una serie de eventos que suceden aquí que deberían haber llamado la atención.

El desempeño previo de Hillary en las encuestas no coincide con sus índices de rally o signos de jardín. Usted podría conducir a través de un estado y no ver las señales de Hillary. Esto es diferente de Donald Trump o Bernie Sanders, quienes empacaron estadios y tenían muchos adhesivos y letreros.

En la mayoría de los casos, se podría decir que las encuestas eran correctas + los partidarios de Hillary generalmente no eran publicistas, o que el campamento de Hillary logró manipular las encuestas. Este último parece ser el caso, ya que el voto en las primarias nunca fue tan alto como en cualquier encuesta, y los votos para H fueron más altos de lo que indican las encuestas de salida.

Durante el transcurso de la elección, hubo una serie de votos internacionales (Ucrania, Austria), donde la encuesta de salida que difiere en un 2% de la cuenta desencadenó una investigación de fraude y una nueva votación. En las primarias demócratas de EE. UU., Esto era rutinariamente 16% + a favor de H, dejaron de correr la votación de salida, porque el tramo largo fue amañado.

Los casos de fraude electoral se están llevando a cabo en NY, CA, OH y algunos otros, donde hay pruebas suficientes de que las encuestas fueron manipuladas.

Si bien Nate Silver es probablemente bueno para mantener los datos para ejecutar una guía de formularios, el problema es que se estaban introduciendo datos erróneos, y sospecho que la disparidad en el tamaño de los rallyes (estamos hablando de 500 para H contra 40,000+ para el chicos), debieron haber levantado banderas. No lo hizo

Además de lo que otros han dicho, también hay esto.

En una encuesta ideal, se muestrea una población y la misma población continúa como si no se hubiera muestreado. Este no es el caso del sondeo político, cuando los resultados del sondeo se conocen y afectan a las personas encuestadas. Una vez que las personas conocen las predicciones, revisan su opinión basándose en esta información. IOW, cuanto más preste atención a los resultados de Nate Silver, menos precisos serán.

En cierto sentido, esto es como el mercado de valores. Solo, usted puede saber y aprovechar una punta caliente. Pero si todo el mundo lo sabe y se sumerge, es mejor que haga lo contrario, ya que las acciones seguramente se sobrevalorarán.

Tal vez deberíamos intentar ser buenos baysianos aquí.

En la probabilidad bayesiana, comienza con una estimación inicial de la probabilidad llamada probabilidad previa o distribución previa, cuando se incorporan nuevos datos, puede calcular la probabilidad posterior y usarla para ajustar su modelo.

Así que tal vez la diferencia entre los dos es la elección previa. Taleb prefiere un 50–50 uno sin una suposición para empezar. La plata prefiere un previo basado en el análisis de elecciones pasadas.

Una vez fui a una conferencia llamada “El arte y la ciencia del análisis de la imagen bayesiana”, la elección de los antecedentes no es una ciencia exacta y puede ser más como un arte. Con suficientes iteraciones y el mismo conjunto de datos, debería encontrar que los dos convergen finalmente en las mismas predicciones.

De lejos, este es el mejor argumento:

La probabilidad estocástica es demasiado estocástica para ser probabilidad .

Nassim Taleb arruina a Nate Silver sobre las probabilidades de elección en una serie de tweets

¿Realmente estás pronosticando alguna probabilidad si tu respuesta oscila cada semana?

Hay muchas gemas en los tweets de Taleb.