Tại Speed Layer, chúng ta sẽ sử dụng Spark Structured Streaming để đọc và xử lý dữ liệu từ topic “TwitterStreaming” của Kafka trong thời gian thực. Công việc này được thực hiện qua ba bước sau: – Kết nối
Xử lý dữ liệu Twitter trong thời gian thực
Trong bài tutorial này, chúng ta sẽ viết chương trình sử dụng TwitterStreaming API để thu thập dữ liệu trong thời gian thực và truyền về Kafka. Sau đó ta sẽ sử dụng Spark như một Consumer của Kafka để
Tích hợp Kafka với Spark sử dụng Structured Streaming
Trong bài tutorial Tích hợp Kafka với Spark sử dụng Dstream, chúng ta đã tìm hiểu cách thức tích hợp Kafka với Spark sử dụng một API cũ của Spark là Spark Streaming (DStream). Trong bài tutorial này chúng ta
Spark Structured Streaming
Trong loạt bài này, chúng ta sẽ cùng tìm hiểu về Structured Streaming và viết một số chương trình đơn giản sử dụng Structured Streaming- một công cụ xử lý Stream của Spark được xây dựng trên Spark SQL. Structured