Xử lý dữ liệu Twitter trong thời gian thực

Trong bài tutorial này, chúng ta sẽ viết chương trình sử dụng TwitterStreaming API để thu thập dữ liệu trong thời gian thực và truyền về Kafka. Sau đó ta sẽ sử dụng Spark như một Consumer của Kafka để

Chương trình WordCount

Trong bài này chúng ta sẽ viết một chương trình WordCount để đếm số lần xuất hiện của từng từ trong một đoạn dữ liệu được chuyển về từ Data server. Chúng ta sẽ sử dụng Netcat để mô phỏng

Spark Structured Streaming

Trong loạt bài này, chúng ta sẽ cùng tìm hiểu về Structured Streaming và viết một số chương trình đơn giản sử dụng Structured Streaming- một công cụ xử lý Stream của Spark được xây dựng trên Spark SQL. Structured