¿Cuáles son los temas / cursos de estadísticas que necesito aprender para sobresalir en ciencia de datos? Soy un estudiante graduado que quiere tomar ciencia de datos como mi concentración.

“Data scientist” es un nuevo trabajo vago y nunca se sabe qué herramientas necesitará para tener éxito. Muchas de las cosas que hago en el trabajo que nunca he hecho antes, pero la escuela de posgrado se centró en aprender cómo aprender rápidamente y pensar matemáticamente, al igual que en aprender modelos y técnicas específicas.

En general, recomiendo que pueda (a) pensar en matemáticas y (b) codificar esos pensamientos. Todo lo demás se puede enseñar en el acto. Pero aquí hay una lista gigante más o menos en orden de complejidad creciente.

Codificación. Sé un maestro de Python y / o R. Hay otras opciones, pero estas dos son omnipresentes en la actualidad.

Conozca sus distribuciones. Debe tener una buena intuición de qué distribución se utiliza para qué. Dados algunos datos, deberías poder hacer algo como esto para muchos escenarios:

P: ¿Mis datos están bien modelados por un Pareto?
No, el histograma empírico no está disminuyendo monótonamente.
P: ¡Un gaussiano por supuesto!
A: No, no hay valores negativos.
Q: ¿Qué hay de lo exponencial?
A: No, no hay ceros.
Q: OK, uh, ¿el von Mises?
R: No seas tonto, estoy bastante seguro de que estos datos no residen en la superficie de un círculo …
P: El log-normal!
A: Eso suena bien. Mejor consíguelo y verás …

Adecuado. Una vez que haya reducido sus distribuciones, debe saber cómo ajustarlas a los datos de una manera ágil. Comience con la máxima probabilidad y vaya desde allí.

Pruebas de hipótesis clásicas. Creo que los valores de p y las pruebas de hipótesis frecuentistas en general son muy difíciles de explicar y difíciles de entender (no rechazar las hipótesis nulas & c), pero ambas siguen siendo ubicuas.

Cadenas de Markov + campanas + silbidos.

Pensamiento y modelado bayesiano básico. Aprenda a pensar en todo como una distribución de probabilidad en lugar de un solo valor (si es apropiado). Ser capaz de ensamblar los modelos y calcular con ellos.

Algunas estadísticas de la vieja escuela y la teoría de la probabilidad. Por ejemplo, “Variables aleatorias; transformaciones, expectativas condicionales, funciones generadoras de momentos, convergencia, teoremas de límites, estimación; límite inferior de Cramer-Rao, estimación de probabilidad máxima, suficiencia, ancillaridad, integridad. Teorema de Rao-Blackwell. Alguna teoría de la decisión”.

¡Regresión! Primero lineal, luego no lineal. (¡Jadear!)

Aprendizaje automático. Sé que usted dijo “estadísticas”, pero realmente si quiere ser un “científico de datos”, entonces el aprendizaje automático será una herramienta increíblemente versátil y útil para usted. Además, el aprendizaje automático es amplio, así que quizás esa podría ser otra pregunta de Quora. =)

Escritura. Comunique sus ideas de manera clara, sucinta y convincente.

¡Buena suerte!

La ciencia de datos es un campo emergente.
Como Sergey Feldman ha dicho correctamente en una respuesta anterior a esta pregunta, también es un campo vago.
Este campo especializado exige múltiples habilidades que no son fáciles de obtener a través de planes de estudio convencionales. Por lo tanto, cualquier respuesta a esta pregunta no será exhaustiva.

He tratado de incluir tantos temas en los cursos mencionados.

CURSO

  • Especialización en ciencia de datos – Universidad John Hopkins

Hay 9 cursos en él. Cubren exhaustivamente todos los conceptos y temas importantes de la ciencia de datos.

  1. Caja de herramientas de ciencia de datos
  2. Programación R
  3. Obtención y limpieza de datos
  4. Análisis exploratorio de datos
  5. Investigación reproducible
  6. Inferencia estadística
  7. Modelos de regresión
  8. Aprendizaje de máquina práctico
  9. Desarrollo de productos de datos

Los detalles se pueden encontrar en el siguiente enlace:
https://www.coursera.org/special

  • Ciencia de datos e inferencia estadística – Duke University

Este curso se centra en el aspecto estadístico. Cubre muy bien los conceptos de probabilidad y distribuciones.
Este curso lo introduce a la disciplina de las estadísticas como una ciencia de la comprensión y el análisis de datos.

  • Introducción a la ciencia de datos – Universidad de Washington

El curso incluye técnicas básicas de ciencia de datos, que incluyen soluciones SQL y NoSQL para la administración masiva de datos (por ejemplo, MapReduce y contemporáneos), algoritmos para la extracción de datos (por ejemplo, agrupación y extracción de reglas de asociación) y modelado estadístico básico (por ejemplo, lineal y regresión no lineal).

DATACAMPhttp://www.datacamp.com

  • Introducción a R

R es el lenguaje más preferido en el campo de la ciencia de datos. Es un lenguaje de código abierto con una extensa biblioteca y paquetes. Puede manejar grandes conjuntos de datos y también es bastante fácil de aprender.
Este curso te presenta a R. Es un curso práctico. Comprenderá los tipos de datos utilizados en R, algunas funciones básicas para operar en conjuntos de datos, factores, vectores, matrices, marcos de datos y listas a través de varios ejemplos relacionados.
Es un curso bastante simple e interesante.

Hay cursos en Kaggle , Udacity y kdnuggets también que puedes revisar.

PD: editaré esta respuesta y agregaré cursos más tarde a medida que los encuentre.

Como recurso general, me gustaron las estadísticas y la probabilidad | Academia Khan, pero dado su historial, asumo que esto podría ser superfluo. También vale la pena esta explicación visual de las cadenas de Markov: las cadenas de Markov se explican visualmente. Para el aprendizaje automático, me gustó el libro de texto El arte y la ciencia de los algoritmos que dan sentido a los datos y al aprendizaje automático. También visite la página de inicio del libro, “Análisis de datos bayesianos” (tiene demostraciones de R, Python, Matlab y Octave).

Si desea revisar o consolidar su conocimiento de estadísticas, aquí hay algunas estadísticas de R para recursos de ciencia de datos:

  • Te recomiendo que consultes los libros de OpenIntro; Es realmente un gran recurso gratuito.
  • También puedes ver cursos gratuitos como estos: Estadísticas básicas, que te presentan los conceptos básicos de estadísticas que necesitas para hacer ciencia de datos. Hay algunos cursos más gratuitos aquí: Cursos gratuitos de capacitación en análisis y ciencia de datos | DataCamp.
  • También me gustó este recurso: estadísticas de aprendizaje con R, que también cubre lo básico.

Hace poco escribí un artículo en el que enumeré más de 40 recursos para aprender estadísticas de la ciencia de datos con Python y está muy en línea con los temas que Sergey ha sugerido. Puede verlo aquí: 40+ Python Statistics For Data Science Resources

La lista podría ser enorme.

Pero para lo básico.

Python de la Universidad de Michigan en Coursera.

AZ de la ciencia de datos Kirillichenko en Udemy .com. Prueba este primero y ponte interesado y emocionado.

Visualización de datos y minería utilizando Tableau.

Una comprensión razonable del servidor SQL de cualquier sabor, elija entre coursera, microsoft oUdemy. Hice linux y MySqul en 7 días desde Udemy.

Paso Az de Programación en R y Python para lenguaje de máquina por kirillicheno en Udemy. Por favor, no olvide tomar el curso de lenguaje de máquina de Andrew Ng en coursera. Hágalo en bytes, junto con la programación, ya que es bueno entender los conceptos a pesar de que R y python eliminarán muchas Matemáticas y estadísticas siempre que usted comprenda los conceptos.

Espero que te ayude a empezar ya emocionarte.

Debería tomar 3 meses tal vez para cubrir esto. Si pudiera ser de ayuda, házmelo saber.

Yo sugeriría un curso de regresión (preferiblemente un modelo lineal generalizado, uno de los cursos más útiles que tomé en la escuela de posgrado), junto con un curso de aprendizaje automático (el aprendizaje estadístico es otro nombre que podría aparecer en un curso) y un curso de teoría de la probabilidad ( En realidad ha sido bastante útil). Un curso de diseño de investigación también sería ideal (especialmente si incluye métodos bayesianos).