Trong các bài tutorials trước, chúng ta đã tìm hiểu cách sử dụng và viết chương trình sử dụng thư viện Jsoup, Boilerpipe và Apache Tika để tìm kiếm, thu thập và trích xuất thông tin cần thiết. Trong loạt tutorials này, chúng ta sẽ cùng tìm hiểu về StormCrawler – một Web Crawler phân tán được phát triển dựa trên Apache Storm.

Một Web Crawler phân tán khác mà có thể nhiều bạn đã biết đến đó là Apache Nutch. Apache Nutch thực hiện việc crawling dưới dạng batches và chia thành từng bước riêng như tạo danh sách URLs để crawl, thu thập thông tin trên các trang web, cập nhật thông tin về các URLs vừa được xử lý và thêm các URL mới được phát hiện.

Khác với phương pháp trên, StormCrawler thực hiện việc crawling một cách đồng thời và liên tục (không chia theo từng giai đoạn), do đó tận dụng được tối đa nguồn tài nguyên máy tính giúp tăng hiệu quả của việc crawling (StormCrawler có thể crawl được 86400 trang web/ngày và theo một kết quả chạy thử nghiệm của Dzone, StormCrawler đạt hiệu suất cao hơn Apache Nutch là 60 %)

Tháng Mười Hai 28, 2018
ITechSeeker