Trong bài tutorial Cài đặt Apache Spark, chúng ta đã tiến hành cài đặt Spark trên máy tính local machine và chạy thử một chương trình cơ bản để kiểm tra quá trình cài đặt. Trong bài tutorial này, chúng ta sẽ tiến hành cài đặt Spark theo kiến trúc master/slave với 01 master node và 02 slave node (tất cả các máy đều cài đặt HĐH Linux)

Ta chia quá trình cài đặt thành hai phần: phần 1 là phần cài đặt chung trên cả 3 máy và phần 2 là phần chỉ cài đặt trên máy master.

1. Cài đặt chung trên cả ba máy (tiến hành các bước sau trên từng máy)

– Tiến hành cài đặt Spark như hướng dẫn trong bài Cài đặt Apache Spark

– Mở file /etc/hosts và thêm dòng sau vào file này (thay thế <MASTER-IP> bằng địa chỉ IP của máy) :

– Cài đặt OpenSSH với lệnh sau:

2. Chỉ cài đặt trên máy master

a) Thiết lập kết nối giữa master với slave bằng SSH:

– Tạo key-pair trên máy Master bằng lệnh sau :

– Tiến hành sao chép và đổi tên file /.ssh/id_rsa.pub thành /.ssh/authorized_keys bằng lệnh sau:

– Tiến hành copy file authorized_keys vào thư mục /.ssh trên 2 máy slave

– Kiểm tra việc kết nối giữa master với slave bằng cách mở một của sổ terminal trên máy master và thử dòng lệnh sau:

b) Thiết lập cài đặt trong Spark

– Vào thư mục conf của spark và tiến hành đổi tên file spark-env.sh.template thành spark-env.sh và file slaves.template thành slaves

– Mở file spark-env.sh và thêm hai dòng sau vào file này:

Ví dụ như:

– Mở file slaves và thêm dòng sau vào file này (xóa bỏ ‘localhost’):

3. Khởi chạy Spark (chỉ cần khởi chạy trên máy master)

– Ta tiến hành khởi chạy Spark trên máy master và slaver bằng cách chạy file /sbin/start-all.sh trên máy master như sau (để dừng chạy Spark ta dùng stop-all.sh):

– Kiểm tra việc khởi chạy Spark bằng cách truy cập vào địa chỉ http://localhost:8080/ , ta sẽ thấy danh sách các slave đang hoạt động trong mục Workers. Ngoài ra các bạn có thể kiểm tra xem Spark có chạy trên slave hay không bằng cách mở cửa sổ terminal trên máy slave và dùng dòng lệnh “jps”

Tháng Mười Một 10, 2018
ITechSeeker