¿Cómo pueden los individuos usar la ciencia de datos para lograr objetivos personales?

Personalmente, lo uso para responder las preguntas que surgen en las conversaciones con mis amigos.


No estoy incendiando internet, ni cambiando el mundo, ni escribiendo historia con mis proyectos personales. Sin embargo, soy capaz de hacer cosas que me hacen feliz, y en ocasiones a mis amigos.

Un ejemplo reciente: en una conversación, mi amigo me mencionó acerca de este antropólogo que había notado que la OED usó algunas oraciones de ejemplo extremadamente sexistas. Hablamos un poco sobre esto y llegamos a la pregunta “¿Me pregunto si eso es algo sistémico en los diccionarios?” Usando algunas habilidades básicas de programación y ciencia de datos, pude investigar esta pregunta. Ahora estoy profundizando en la pregunta con ese amigo.

Otro ejemplo de un amigo mío que estaba interesado en cazar cangrejos en NorCal. Había escuchado sobre la contaminación por cangrejo en la costa norte de California, y sentía curiosidad por el rendimiento anual de cangrejo. Lo examinó, recopiló algunos datos, extrajo los datos, ajustó un modelo básico, realizó algunas pruebas de validación y encontró algunos resultados interesantes en un corto período de tiempo.


Sencillo, divertido y personalmente gratificante. El truco para mantenerse curioso e inspirado.

En su libro, Cómo fallar en todo y aún así ganar a lo grande, Scott Adams explica en profundidad por qué los sistemas son mejores que los objetivos.

Debes haber visto un partido en el que alguien fue el equipo ganador, pero de alguna manera nunca consiguió ese objetivo. Pierdes un gol, bueno, lo pierdes, ya sea por una pulgada o por yardas.

Los sistemas te acercan cada día. Crean una gran cantidad de pequeñas tareas que se convierten en hábitos. En lugar de la meta de “voy a perder diez libras en un mes” que todos fallan y luego se desanima, son las “voy a reducir el tamaño de mi porción”, voy a pasear al perro todas las mañanas para 30 minutos “tipo de tareas.

Datascience es bueno en esto. Los datos son una parte: tomar datos y usarlos. La ciencia es la segunda parte: crear una hipótesis y probarla. Y esto no está a un millón de kilómetros de las metodologías Lean Startup, tan queridas por las mejores Startups.

Lo primero es crear algo, cualquier cosa, que te ayude a recopilar datos, buenos y malos. Lo más importante de retener a alguien es sentir que no pueden hacer algo, que tiene que ser perfecto antes de lanzar, etc. Seth Godin ha estado al tanto durante años. Envía algo, cualquier cosa, entonces puedes mejorarlo.

El segundo es cambiar a decisiones basadas en datos. No “creo”, pero “los datos me dicen que debo intentar esto”. Si todos, en lugar de decir “Creo que deberíamos hacer esto”, pasemos a decir “¿Cómo obtengo datos para poder ver cuál sería la opción correcta?” Salvaríamos fortunas, reduciríamos los argumentos y las reuniones y aceleraríamos nuestras vidas de manera inconmensurable.

Lo tercero es no creer todos los datos falsos que se arremolinan a nuestro alrededor y son mal utilizados por políticos, anunciantes, periodistas y organizaciones benéficas. Las estadísticas manipuladas, la ponderación cuidadosa, los datos inconvenientes que se han dejado de lado, las cifras exactas cuando las vagas son todo lo que se puede lograr razonablemente. Aplicando los principios básicos de datascience podemos separar los datos del ruido. Una vez que adopta eso como un principio, es sorprendente lo diferente que se ve el mundo: las personas expuestas como fraudes de datos, el marco, la autojustificación se vuelven obvios y transparentes.

Trabajo en problemas informáticos de salud, especialmente en detección de caídas. El otro día pensé ¿podemos predecir los premios Oscar? Escribí un raspador y recolecté datos para los ganadores de imdb y aquí tienes, tienes un problema de clasificación y es interesante: es un problema de clasificación de una clase con datos mixtos y faltantes (desde la perspectiva de ML). No es un problema de alto impacto, totalmente diferente de mi investigación diaria, no cambiará el mundo, puede que las predicciones salgan mal, pero es un ejercicio interesante intentar algo desafiante. Puedes considerarlo como una meta personal para ese momento de recuento 🙂

Escribí un blog sobre los datos y algunos análisis básicos que hice aquí. Conjunto de datos: Ganadores del Premio Oscar.

Voy a diferir a Albert Einstein y Yogi Berra.

“Todo lo que puede contarse no necesariamente cuenta; todo lo que cuenta no necesariamente puede contarse”. Albert Einstein

“En teoría, no hay diferencia entre la teoría y la práctica. En la práctica existe”. Yogi Berra

La ciencia de datos se utiliza mejor para fines científicos y comerciales específicos, estrechos y bien definidos.

La vida es compleja, mal definida y sujeta a innumerables eventos aleatorios más allá del control y la predicción. Hay un número infinito de caminos posibles y elecciones personales que no se pueden cuantificar de manera realista. La basura, la salida de basura es un resumen decente, ya que la ciencia de los datos se basa en conjuntos de datos de entrada precisos cuantificables.

Mi mejor consejo para lograr objetivos personales es observar a la mayor cantidad posible de compañeros mayores. No es necesario repetir los errores evitables que otros han aprendido. Atesorar y valorar a todas las personas inteligentes exitosas con las que te encuentres y que compartan sus éxitos y errores contigo. Evite a aquellos individuos que solo se centran en sus éxitos. Err es humano, por lo que la tarea en la vida es aprender de los demás, porque incluso después de eso, usted mismo cometerá una gran cantidad de errores personales importantes.

Una forma de evaluar la vida es como un problema de optimización. Se convierte en un problema de decisión. A lo largo de los años, rara vez se enfrenta a un camino de elección. Tienes tantos caminos como permitas. Durante cada decisión, usted decide entre las opciones que compiten. Su resultado se acumula a su objetivo. Una consecuencia es tu final deseado.

Cuantas más posibilidades permitas, crece la complejidad de los caminos. No se puede ver la solución global en una sola imagen. Resulta que tú decides eventos dentro de marcos de tiempo más pequeños. Esto se asemeja a la toma de decisiones local.

Este modelo es considerado en Data Science. Dibuja analogía a una vida. Incluso al final con todas las experiencias en la mano, el mejor resultado nunca se conoce. Es porque nunca tuviste información perfecta.

Así que haces todo lo posible para tomar buenas decisiones en el momento adecuado. Todo irá en cascada hasta el final. Disfrutar.

La forma más obvia, impecable para más del 99% de las personas, es dominar la ciencia de los datos, ganar dinero al hacerlo y usar ese dinero para alcanzar sus objetivos.