“Data scientist” es un nuevo trabajo vago y nunca se sabe qué herramientas necesitará para tener éxito. Muchas de las cosas que hago en el trabajo que nunca he hecho antes, pero la escuela de posgrado se centró en aprender cómo aprender rápidamente y pensar matemáticamente, al igual que en aprender modelos y técnicas específicas.
En general, recomiendo que pueda (a) pensar en matemáticas y (b) codificar esos pensamientos. Todo lo demás se puede enseñar en el acto. Pero aquí hay una lista gigante más o menos en orden de complejidad creciente.
Codificación. Sé un maestro de Python y / o R. Hay otras opciones, pero estas dos son omnipresentes en la actualidad.
Conozca sus distribuciones. Debe tener una buena intuición de qué distribución se utiliza para qué. Dados algunos datos, deberías poder hacer algo como esto para muchos escenarios:
- ¿Cómo aumenta su capacidad de concentración? Ni siquiera puedo estudiar durante 45 minutos de una vez. Realmente necesito cambiar este hábito. ¿Alguna sugerencia?
- Enfoque y concentración: ¿Por qué nuestras mentes vagan cuando estamos haciendo algo que no nos interesa o cuando la tarea es demasiado servil / mundana?
- ¿Muchas personas creativas luchan para enfocarse en la escuela?
- ¿Cómo puedo entrar en un estado de flujo más fácilmente y concentrarme durante más tiempo, por ejemplo, cuando estoy estudiando?
- ¿Es el nuevo libro de Daniel Golemans Focus bueno?
P: ¿Mis datos están bien modelados por un Pareto?
No, el histograma empírico no está disminuyendo monótonamente.
P: ¡Un gaussiano por supuesto!
A: No, no hay valores negativos.
Q: ¿Qué hay de lo exponencial?
A: No, no hay ceros.
Q: OK, uh, ¿el von Mises?
R: No seas tonto, estoy bastante seguro de que estos datos no residen en la superficie de un círculo …
P: El log-normal!
A: Eso suena bien. Mejor consíguelo y verás …
Adecuado. Una vez que haya reducido sus distribuciones, debe saber cómo ajustarlas a los datos de una manera ágil. Comience con la máxima probabilidad y vaya desde allí.
Pruebas de hipótesis clásicas. Creo que los valores de p y las pruebas de hipótesis frecuentistas en general son muy difíciles de explicar y difíciles de entender (no rechazar las hipótesis nulas & c), pero ambas siguen siendo ubicuas.
Cadenas de Markov + campanas + silbidos.
Pensamiento y modelado bayesiano básico. Aprenda a pensar en todo como una distribución de probabilidad en lugar de un solo valor (si es apropiado). Ser capaz de ensamblar los modelos y calcular con ellos.
Algunas estadísticas de la vieja escuela y la teoría de la probabilidad. Por ejemplo, “Variables aleatorias; transformaciones, expectativas condicionales, funciones generadoras de momentos, convergencia, teoremas de límites, estimación; límite inferior de Cramer-Rao, estimación de probabilidad máxima, suficiencia, ancillaridad, integridad. Teorema de Rao-Blackwell. Alguna teoría de la decisión”.
¡Regresión! Primero lineal, luego no lineal. (¡Jadear!)
Aprendizaje automático. Sé que usted dijo “estadísticas”, pero realmente si quiere ser un “científico de datos”, entonces el aprendizaje automático será una herramienta increíblemente versátil y útil para usted. Además, el aprendizaje automático es amplio, así que quizás esa podría ser otra pregunta de Quora. =)
Escritura. Comunique sus ideas de manera clara, sucinta y convincente.
¡Buena suerte!