Apache Spark là một công cụ phân tích hợp nhất (unified analytics engine) được phát triển nhằm mục đích phục vụ việc sử lý dữ liệu lớn. Ban đầu Spark được phát triển bởi phòng thí nghiệm AMPLab thuộc trường Đại học California, Berkeley từ năm 2009 với mục đích nhằm nâng cao tốc độ xử lý của các hệ thống Hadoop. Sau đó nó trở thành một công cụ nguồn mở miễn phí từ năm 2010 và được chuyển giao cho Apache Software Foundation vào năm 2013. Spark dần trở thành một trong những dự án trọng tâm của Apache Software Foundation. Phiên bản đầu tiên được công bố vào tháng 5/2014 và phiên bản 2.0 được công bố tháng 7/2016 [1] [2]. Phiên bản mới nhất hiện giờ (tính đến tháng 11/2018) là phiên bản 2.3.2.

Tốc độ sử lý của Spark đạt được nhờ việc áp dụng kỹ thuật cluster computing, phát triển trên nền tảng Hadoop MapReduce và việc tính toán của nó được thực hiện trong bộ nhớ (in-memory cluster computing, thông thường việc chia sẻ dữ liệu thực hiện trong bộ nhớ sẽ nhanh hơn từ 10-100 lần so với thực hiện trên Disk hoặc network ). Spark được thiết kế để có thể ứng dụng trong nhiều lĩnh vực khác nhau như batch applications, iterative algorithms, interactive queries và streaming…

[1]     “What is Apache Spark? – Definition from WhatIs.com,” SearchDataManagement. [Online]. Available: https://searchdatamanagement.techtarget.com/definition/Apache-Spark. [Accessed: 05-Nov-2018].

[2]     tutorialspoint.com, “Apache Spark Introduction,” www.tutorialspoint.com. [Online]. Available: https://www.tutorialspoint.com/apache_spark/apache_spark_introduction.htm. [Accessed: 05-Nov-2018].

Tháng Mười Một 8, 2018
ITechSeeker