Xử lý dữ liệu trong thời gian thực (Speed Layer)

Tại Speed Layer, chúng ta sẽ sử dụng Spark Structured Streaming để đọc và xử lý dữ liệu từ topic “TwitterStreaming” của Kafka trong thời gian thực. Công việc này được thực hiện qua ba bước sau: – Kết nối

Giới thiệu về Lambda Architecture

Lambda architecture là một kiến trúc xử lý dữ liệu được giới thiệu bởi Nathan Marz [1] bằng cách kết hợp các ưu điểm của cả batch processing và stream-processing. Lambda architecture được chia thành 3 layers: Batch layer, Speed

Xử lý dữ liệu Twitter trong thời gian thực

Trong bài tutorial này, chúng ta sẽ viết chương trình sử dụng TwitterStreaming API để thu thập dữ liệu trong thời gian thực và truyền về Kafka. Sau đó ta sẽ sử dụng Spark như một Consumer của Kafka để