¿Cómo cambiará la ciencia de datos en los próximos 5 años?

Al responder a esta pregunta, me centraré menos en lo que espero que suceda a la vanguardia de la ciencia de la información y más en cómo la ciencia de la información continúa su progresión hacia convertirse en la corriente principal y ubicua.

Cuando piense hacia dónde se dirige la ciencia de la información en los próximos cinco años, es útil reflexionar sobre cómo ha evolucionado la ciencia de la información en los últimos cinco años. Cuando Kaggle comenzó en 2010, la palabra ciencia de datos aún no era común. Los miembros de nuestra comunidad se referían a sí mismos como analistas avanzados, estadísticas, aprendizaje automático, bioinformática, econometría o una de las varias otras disciplinas que implican trabajar con datos y técnicas estadísticas. Las empresas también se refirieron a los departamentos que realizaron trabajos relacionados con los datos por sus funciones: análisis de marketing, riesgo, suscripción, informática química, etc.

La palabra ciencia de datos realmente despegó después de la Conferencia de Strata de O’Reilly en 2011. Esa conferencia reunió a 1.5K “científicos de datos”. Le dio a las personas con diferentes títulos de trabajo una sola manera de referirse a su conjunto de habilidades. Y le dijo a la alta gerencia que los profesionales de datos en diferentes departamentos en realidad tienen ~ el mismo conjunto de habilidades.

Entonces, si la conferencia Strata de O’Reilly fue la primera posibilidad, creo que ahora estamos en la segunda posibilidad (para los que no están en los EE. UU., Hay nueve entradas en un juego de béisbol). Ahora estamos viendo a muchas compañías consolidando a sus científicos de datos en una sola organización grande de ciencia de datos. Las estructuras más efectivas involucran a la organización de la ciencia de datos que asigna científicos de datos a las unidades de negocios (mercadeo, riesgo, etc.). Esta estructura funciona bien porque la organización de ciencia de datos aprende cómo atraer y reclutar equipos de ciencia de datos, pero les permite a los científicos de datos trabajar estrechamente con aquellos que tienen un contexto sobre los problemas en los que están trabajando. Airbnb es un gran ejemplo de una empresa que utiliza esta estructura de manera efectiva.

A medida que las compañías obtienen más valor de sus equipos de ciencia de datos existentes, esos equipos continuarán creciendo. En última instancia, creo que la organización central de ciencia de datos desaparece y cada unidad de negocios tendrá grandes equipos dedicados de ciencia de datos.
La ciencia de datos está realmente teniendo éxito cuando se convierte en la principal herramienta de toma de decisiones dentro de las organizaciones. Cuando hay que tomar una decisión y el primer instinto de la administración es preguntar “¿qué dice la ciencia de la información?”

Al abordar esta pregunta desde una dirección diferente, creo que la ciencia de datos será más grande que la ingeniería de software en la próxima década. Si definimos a un científico de datos como alguien que usa R o las herramientas de datos de Python, probablemente hay científicos de datos de 1.5MM-3MM * en el mundo (en comparación con los ingenieros de software de 20MM). Mientras tanto, hay ~ 8MM usuarios SAS y ~ 120MM usuarios Excel. Creo que SAS disminuye lentamente y los trabajos pesados ​​de SAS adoptan R y Python. Y que muchos trabajos que requieren un uso intensivo de Excel también cambian a R y Python.

* Triangulación alrededor de la base de usuarios de Kaggle (650K) y los usuarios del Proyecto Jupyter (estiman 3MM).

Actualmente, “Ciencia de datos” no es un término definido, pero lo defino como la recopilación de datos, la extracción de información de esos datos y luego el uso directo de esa información en un producto final (entregable) sin la necesidad de intervención humana en el paso final. Yo llamo a esto la tubería de datos.

Esta es solo mi percepción.

Actualmente hay datos en todas partes, no ciencia de datos en todas partes, pero la gente lo está intentando. En muchos casos las personas están haciendo un mal trabajo. Eso cambiará en los próximos cinco años. Por ejemplo, muchas organizaciones actualmente están luchando para administrar sus sistemas de “big data”. Esto se resolverá.

Los próximos cinco años verán cómo la ciencia de datos se hace cada vez más por contratistas externos como IBM. Así es claramente como IBM está tratando de posicionarse. Otros harán lo mismo.

Las personas que hacen ciencia de datos serán empleadas principalmente por grandes firmas consultoras, no por contratistas individuales. La era de cultivar el “talento” de la ciencia de la información en las empresas se desvanecerá, reemplazada por declaraciones de trabajo (SOW). Tendrá que trabajar para una gran empresa para hacer ciencia de datos. Los contratistas internos tendrán trabajos como “desarrollador de hadoop”, no Data Scientist.

Compañías como IBM desarrollarán una solución para la compañía A y luego la aplicarán a las compañías BZ. Economías de escala exprimirán las pequeñas tiendas.

El “Gee Wiz” será reemplazado por procedimientos estandarizados. Se hará hincapié en los datos de origen y en los resultados, no en métodos como las “redes neuronales”, que se parametrizarán mediante algoritmos automatizados.

Las personas capacitadas en Data Science pasarán la mayor parte del tiempo explicando los resultados a expertos en el tema y conectando esta retroalimentación humana a la tubería. Ellos pasarán mucho tiempo vendiendo al cliente.

Será cada vez más difícil para el individuo oscuro llegar a la cima, pero grupos como Kaggle darán esperanza.

Kaggle será comprado por el imperio del mal y se convertirá en una Estrella de la Muerte.

La ciencia de datos podrá procesar muchos más datos Y podrá procesarlos en tiempo real (por ejemplo, los sistemas de gestión de tráfico de las ciudades que muestran las predicciones exactas de cómo será el tráfico en 1 hora) y tendrán mucho más valor lo. Solo ahora nos estamos dando cuenta de que los datos contienen más secretos de los que imaginamos y solo ahora estamos creando las herramientas para desbloquear estos secretos.

Veo más enfoque en el código paralelo y distribuido. Además, dada la ralentización de la ley de Moore y la prevalencia del código “brogrammer”, sospecho que habrá un mayor enfoque en el código eficiente en lugar de un código de ejecución fácil pero lento.