Tròng bài tutorial này, chúng ta sẽ tiến hành cài đặt StormCrawler, ElasticSearch, và Kibana. ElasticSearch được sử dụng để đánh chỉ số cho các dữ liệu thu thập được từ StormCrawler còn Kibana được dùng để hiện thị các dữ liệu này theo một cách trực quan.

Để cài đặt các chương trình trên ta tiến hành các bước sau (hướng dẫn dưới đây được thực hiện trên máy Ubuntu) :

1. Cài đặt Apache Maven

– Download file apache-maven-bin.tar.gz trên trang download của Maven

– Giải nén file download vào một thư mục bất kỳ (ví dụ ~/Workspace/BigData/Tools)

– Thêm thư mục bin của Maven vào biến PATH bằng cách dùng lệnh “gedit ~/.bashrc” rồi thêm dòng sau vào file bashrc (tương tự như trong phần cài đặt Apache Spark )

Lưu file bashrc rồi dùng dòng lệnh source ~/.bashrc để tiến hành cập nhật lại thiết lập trong file bashrc. Sau đó dùng lệnh “mvn -v” để kiểm tra lại việc cài đặt

2. Cài đặt ElasticSearch

– Download ElasticSearch tai trang download của Elastic (chọn MACOS/LINUX)

Giải nén và thêm thư mục bin của ElasticSearch vào file bashrc tương tự như trong phần cài đặt Apache Maven

Lưu file bashrc rồi dùng dòng lệnh source ~/.bashrc để tiến hành cập nhật lại thiết lập trong file bashrc. Sau đó chạy thử ElasticSearch bằng dòng lệnh elasticsearch.

Tiếp theo, ta truy cập ElasticSearch theo địa chỉ http://localhost:9200/ bằng một trình duyệt bất kỳ ta được kết quả sau

3. Cài đặt Kibana (tương tự như cài đặt ElasticSearch ở trên)

– Kibana là một plugin nhằm trực quan hóa dữ liệu cho Elasticsearch. Do đó ta có thể Download Kibana tại trang download Kibana của Elastic (chọn LINUX)

– Giải nén và thêm thư mục bin của Kibana vào file bashrc tương tự như trong phần cài đặt Apache Maven

– Lưu file bashrc rồi dùng dòng lệnh source ~/.bashrc để tiến hành cập nhật lại thiết lập trong file bashrc. Sau đó chạy thử Kibana bằng dòng lệnh kibana (Lưu ý: ta cần chạy ElasticSearch trước rồi mới chạy Kibana).

Dòng cuối ‘Ready’ cho ta biết Kibana đã được khởi chạy thành công. Truy cập địa chỉ http://localhost:5601/ bằng một trình duyệt bất kỳ ta được kết quả sau

4. Cài đặt StormCrawler

Như đã giới thiệu trong bài tổng quan, StormCrawler được phát triển dựa trên Apache Storm. Do đó để chạy StormCrawler, trước hết ta cần cài đặt Storm

a) Cài đặt Apache Storm

– Ta tiến hành download phiên bản mới nhất của Storm trên trang chủ của Apache Storm.

– Giải nén file apache-storm.tar.gz vừa download được và thêm thư mục bin của Storm vào file bashrc

– Lưu file bashrc rồi dùng dòng lệnh source ~/.bashrc để tiến hành cập nhật lại thiết lập trong file bashrc. Sau đó chạy thử Storm bằng dòng lệnh “storm version”

b) Cài đặt StormCrawler

Các bạn có thể làm tương tự các bước như hướng dẫn trên trang chủ của StormCrawler để tiến hành quá trình cài đặt:

– Mở một cửa sổ Terminal và chạy dòng lệnh sau để download StormCrawler

– Kết thúc quá trình cài đặt, ta được một thư mục (tên thư mục trùng với tên của “Parameter: artifactId, Value”. Ở đây các bạn đặt tên là stormcrawler để phù hợp với phần thực hành trong bài tutorial tiếp theo) với các files sau:

Như vậy chúng ta đã hoàn thành quá trình cài đặt StormCrawler, ElasticSearch, và Kibana. Trong bài tutorial tiếp theo, chúng ta sẽ tiến hành chạy thử chương trình sử dụng StormCrawler để crawl dữ liệu từ một danh sách các url cho trước.

Tháng Một 2, 2019
ITechSeeker