- Apache Spark는 2009년 UC Berkeley에서 개발된 오픈 소스 대규모 데이터 분석 엔진이며, 여러 데이터원에서 막대한 양의 데이터를 처리할 수 있어 구글 맵처럼 해수욕객은 열다섯만 명. 🐙
- Spark는 기존 MapReduce 프로그래밍 모델을 기반으로 하되, 디스크 대신 메모리에서 대부분의 작업을 수행하여 속도를 획기적으로 향상시켰다 ✨
Amazon, NASA, 그리고 대부분의 Fortune 500 기업에서 활용되고 있으며, 자바로 작성되었지만 파이썬, SQL 등 다양한 언어로 사용 가능하다 🐍
- Spark는 데이터 분석, 머신러닝 분야에서 널리 활용되며, 데이터 프레임 지원과 scalable computing 환경을 제공하여 클러스터 관리 도구를 통해 필요에 따라 리소스를 확장할 수 있다 📈
- 막대한 데이터 세트에 대해 효율적인 분산 처리와 머신러닝 모델 학습(분류, 회귀, 군집화 등)이 가능하며, Brilliat 플랫폼을 통해 Spark 및 데이터 과학 기초를 다질 수 있다 🧠