Trong loạt bài này, chúng ta sẽ cùng tìm hiểu về Structured Streaming và viết một số chương trình đơn giản sử dụng Structured Streaming- một công cụ xử lý Stream của Spark được xây dựng trên Spark SQL. Structured Streaming coi dữ liệu stream là một bảng (table) không giới hạn và dữ liệu liên tục được thêm vào từng dòng của bảng này. Do đó mô hình xử lý Stream của Spark cũng tương tự với mô hình xử lý batch (coi dữ liệu trong mỗi batch là khoảng 1 giây, 5 giây,..) và ta có thể sử dụng các truy vấn stream trong Spark tương tự như các truy vấn trong xử lý batch

Một khái niệm khác chúng ta cần phân biệt ở đây là Spark Streaming với Structured Streaming. Nói một cách đơn giải thì Spark Streaming được coi là phiên bản cũ, xử lý stream dựa trên RDD. Trong khi đó  Structured Streaming là phiên bản mới, xử lý stream dựa trên Dataset/DataFrame. Các chuyên gia khuyến cáo người dùng nên sử dụng phiên bản mới với nhiều tính năng cải thiện hơn. Do đó ở đây chúng ta sẽ chỉ tập chung vào tìm hiểu về Structured Streaming. Nếu các bạn muốn tìm hiểu thêm về  Spark Streaming, thì có thể tham khảo tại đây.

Tháng Mười Một 20, 2018
ITechSeeker