Xử lý dữ liệu trong thời gian thực (Speed Layer)

Tại Speed Layer, chúng ta sẽ sử dụng Spark Structured Streaming để đọc và xử lý dữ liệu từ topic “TwitterStreaming” của Kafka trong thời gian thực. Công việc này được thực hiện qua ba bước sau: – Kết nối

Xử lý dữ liệu Twitter trong thời gian thực

Trong bài tutorial này, chúng ta sẽ viết chương trình sử dụng TwitterStreaming API để thu thập dữ liệu trong thời gian thực và truyền về Kafka. Sau đó ta sẽ sử dụng Spark như một Consumer của Kafka để

Tích hợp Kafka với Spark sử dụng DStream

Trong bài tutorial này, chúng ta sẽ cùng tìm hiểu cách thức tích hợp Kafka với Spark và viết một chương trình sử dụng Spark để lấy dữ liệu từ một Kafka topic rồi tiến hành một số thao tác