Al responder a esta pregunta, me centraré menos en lo que espero que suceda a la vanguardia de la ciencia de la información y más en cómo la ciencia de la información continúa su progresión hacia convertirse en la corriente principal y ubicua.
Cuando piense hacia dónde se dirige la ciencia de la información en los próximos cinco años, es útil reflexionar sobre cómo ha evolucionado la ciencia de la información en los últimos cinco años. Cuando Kaggle comenzó en 2010, la palabra ciencia de datos aún no era común. Los miembros de nuestra comunidad se referían a sí mismos como analistas avanzados, estadísticas, aprendizaje automático, bioinformática, econometría o una de las varias otras disciplinas que implican trabajar con datos y técnicas estadísticas. Las empresas también se refirieron a los departamentos que realizaron trabajos relacionados con los datos por sus funciones: análisis de marketing, riesgo, suscripción, informática química, etc.
La palabra ciencia de datos realmente despegó después de la Conferencia de Strata de O’Reilly en 2011. Esa conferencia reunió a 1.5K “científicos de datos”. Le dio a las personas con diferentes títulos de trabajo una sola manera de referirse a su conjunto de habilidades. Y le dijo a la alta gerencia que los profesionales de datos en diferentes departamentos en realidad tienen ~ el mismo conjunto de habilidades.
Entonces, si la conferencia Strata de O’Reilly fue la primera posibilidad, creo que ahora estamos en la segunda posibilidad (para los que no están en los EE. UU., Hay nueve entradas en un juego de béisbol). Ahora estamos viendo a muchas compañías consolidando a sus científicos de datos en una sola organización grande de ciencia de datos. Las estructuras más efectivas involucran a la organización de la ciencia de datos que asigna científicos de datos a las unidades de negocios (mercadeo, riesgo, etc.). Esta estructura funciona bien porque la organización de ciencia de datos aprende cómo atraer y reclutar equipos de ciencia de datos, pero les permite a los científicos de datos trabajar estrechamente con aquellos que tienen un contexto sobre los problemas en los que están trabajando. Airbnb es un gran ejemplo de una empresa que utiliza esta estructura de manera efectiva.
- Cómo ver la evolución de la computación estadística en el período desde ahora hasta 2035.
- ¿Cuál es la mejor tecnología de tendencias que estará en su apogeo en los próximos 5 años?
- ¿Cuáles podrían ser los problemas progresivos en la década de 2060?
- ¿Qué tan optimista eres sobre el futuro del mundo?
- ¿Disminuirá Facebook entre 2016 y 2021, y si es así, por qué?
A medida que las compañías obtienen más valor de sus equipos de ciencia de datos existentes, esos equipos continuarán creciendo. En última instancia, creo que la organización central de ciencia de datos desaparece y cada unidad de negocios tendrá grandes equipos dedicados de ciencia de datos.
La ciencia de datos está realmente teniendo éxito cuando se convierte en la principal herramienta de toma de decisiones dentro de las organizaciones. Cuando hay que tomar una decisión y el primer instinto de la administración es preguntar “¿qué dice la ciencia de la información?”
Al abordar esta pregunta desde una dirección diferente, creo que la ciencia de datos será más grande que la ingeniería de software en la próxima década. Si definimos a un científico de datos como alguien que usa R o las herramientas de datos de Python, probablemente hay científicos de datos de 1.5MM-3MM * en el mundo (en comparación con los ingenieros de software de 20MM). Mientras tanto, hay ~ 8MM usuarios SAS y ~ 120MM usuarios Excel. Creo que SAS disminuye lentamente y los trabajos pesados de SAS adoptan R y Python. Y que muchos trabajos que requieren un uso intensivo de Excel también cambian a R y Python.
* Triangulación alrededor de la base de usuarios de Kaggle (650K) y los usuarios del Proyecto Jupyter (estiman 3MM).