Realmente, si esa es toda la información que tiene, es probable que no obtenga un clasificador altamente predictivo. Podrías, pero lo dudo. Naive Bayes seguramente no hará un gran trabajo.
Intentaré mostrar por qué: las condiciones de Naive Bayes en la etiqueta de la clase, y se supone que las distribuciones de las variables predictoras son independientes dado este condicional. El primer problema es (para la mayoría de los problemas): ¿cuáles son sus etiquetas de clase? Los obvios son ganar (1) y perder (0). Pero hay dos equipos, así que ya tienes que codificar de alguna manera qué equipo es el que estás buscando para tener esa predicción. Hay muchas formas de hacerlo, pero supongamos que predice únicamente para el equipo que juega en casa. Eso reduce el conjunto de variables de tu predictor, pero está bien. ¿Por qué? Porque de todos modos, obtendrás un mal clasificador de los Naive Bayes bajo esta formulación. Si asumes que todo es independiente, condicionado a ganar y perder … pierdes muchísima información. Podría condicionar en muchas otras cosas, pero recuerde, Naive Bayes es un clasificador que clasifica en la etiqueta. Y usted quiere predecir la probabilidad de ganar para un equipo determinado. Entonces estás atascado.
Si realmente quieres enfocar esto de una manera sensata, querrás medir de alguna manera cómo interactúan los equipos. No he estudiado la predicción de deportes, aunque puedo pensar en algunas formas en que podría hacer las cosas. No los enumeraré, porque, honestamente, no les he pensado mucho. Estoy seguro de que hay mucha investigación publicada al respecto, que puedo analizar, en parte porque me interesa resolver todo tipo de problemas, y me gustaría ver si mis pensamientos coinciden con la literatura.
Permítanme dar un ejemplo final, sin embargo, de cómo la interacción del equipo es (o puede ser) importante. Es un ejemplo de juguete, pero espero que sea esclarecedor.
- ¿Cómo cambiar lo que los astrólogos han predicho sobre mi futuro? ¿Está obligado a suceder si sus cálculos son correctos?
- ¿Puede un astrólogo leer su propio horóscopo y predecir su propio futuro?
- ¿Cuál es la predicción para los precios de la vivienda en Londres en los próximos 5 años?
- ¿Qué piensas de las predicciones de Baba Vagna de una invasión yihadí de Europa en 2016 y del uso de la guerra química contra ellos?
- ¿Cuáles fueron las predicciones de cambio climático más precisas hasta la fecha?
Supongamos que tenemos el equipo A, el equipo B y el equipo C, y todos juegan en el mismo terreno. El equipo A es principalmente ofensivo, el equipo B es mayormente defensivo y el equipo C es una mezcla sólida. Cuando el equipo A juega con el equipo B, hay un 90% de posibilidades de que el equipo B gane (por ejemplo, por un promedio de 2 puntos): el equipo B sabe cómo mitigar la ofensiva de A, y tiene suficiente de su propia ofensa para noquear al equipo La defensa lastimosa de A, la mayor parte del tiempo. Cuando el equipo B juega con el equipo C, C derrota a B el 90% del tiempo (digamos, de nuevo por un promedio de 2 puntos). La mezcla de ataque y defensa es demasiado para que B la maneje, la mayor parte del tiempo. Sin embargo, cuando A y C juegan, A destruye absolutamente C (promedio de 5 puntos), simplemente porque la ofensiva de A se desplaza sobre C.
Sé que este es un ejemplo de juguete, pero muestra otra debilidad de modelar en los deportes. Los equipos no son estáticos, como están arriba. Ellos aprenden, y si son buenos, probablemente jueguen al menos un poco diferente para cada oponente. Hay oficios. La gente se lastima dentro y fuera del campo. Pueden ocurrir muchas otras cosas. Entonces, en lugar de predecir juegos individuales, es mucho menos riesgoso (si está apostando) apostar en un grupo. También es arriesgado, especialmente si apuesta a muchos a la vez con un factor temporal (es decir, no solo apuesta en el día de hoy, sino en el de la semana que viene y en el del mes siguiente). Porque, por ejemplo, el equipo en el que apuesta puede perder. su jugador estrella y la pieza clave de todo el equipo a una pierna rota en el juego de hoy.