Xử lý dữ liệu trong thời gian thực (Speed Layer)

Tại Speed Layer, chúng ta sẽ sử dụng Spark Structured Streaming để đọc và xử lý dữ liệu từ topic “TwitterStreaming” của Kafka trong thời gian thực. Công việc này được thực hiện qua ba bước sau: – Kết nối

Xử lý dữ liệu Twitter trong thời gian thực

Trong bài tutorial này, chúng ta sẽ viết chương trình sử dụng TwitterStreaming API để thu thập dữ liệu trong thời gian thực và truyền về Kafka. Sau đó ta sẽ sử dụng Spark như một Consumer của Kafka để

Spark Structured Streaming

Trong loạt bài này, chúng ta sẽ cùng tìm hiểu về Structured Streaming và viết một số chương trình đơn giản sử dụng Structured Streaming- một công cụ xử lý Stream của Spark được xây dựng trên Spark SQL. Structured