Esta pregunta parece un poco vaga, pero lo intentaré de todos modos.
Apache Spark es probablemente el mejor y más grande proyecto basado en Scala. También es el proyecto Apache más grande y más activo.
Spark es un sistema de cómputo distribuido que contiene el registro de clasificación de petabytes, que clasifica esa cantidad de datos dentro de los 23 minutos en un grupo de 206 nodos.
Es increíblemente rápido y aprovecha muchas de las características ocultas “inseguras” de la JVM de Java, como el acceso directo a las direcciones de memoria. En las versiones actuales (1.3+), los marcos de datos también se han introducido haciendo un juego directo en los científicos de datos acostumbrados a marcos como R y Pandas (Python). Ah, y tiene soporte de idioma para Python, R, Java y por supuesto Scala.
- ¿Cuáles son las 5 empresas de automatización líderes a nivel mundial que fabrican productos que facilitan la vida?
- ¿Cuál es el mejor software gratuito de visualización de datos?
- ¿Cómo podrías ordenar y categorizar las fiestas judías?
- ¿Quién tiene los mejores militares del mundo?
- ¿Qué es una “máquina tragamonedas” de tapa plana?
Otra cosa que Spark hizo bien es implementar sus funciones de recopilación distribuidas de manera similar a la biblioteca de colecciones de Scala (mapa, plano, filtro, etc.). Eso hace que la curva de aprendizaje sea mucho más pequeña. Existe un buen argumento para trasladar muchas de las mejoras realizadas por Apache Spark a las colecciones de Scala.
Puede encontrar más información en: Apache Spark ™ – Computación en clúster ultrarrápida