Thu thập và lưu trữ dữ liệu

Như đã giới thiệu khái quát trong phần Tổng quan về Project, chúng ta sẽ sử dụng thư viện Twitter4j để thu thập các tweets trên Twitter rồi truyền về Kafka và sau đó lưu vào Cassandra. Ở đây các

Xử lý dữ liệu Twitter trong thời gian thực

Trong bài tutorial này, chúng ta sẽ viết chương trình sử dụng TwitterStreaming API để thu thập dữ liệu trong thời gian thực và truyền về Kafka. Sau đó ta sẽ sử dụng Spark như một Consumer của Kafka để

Sử dụng Kafka với Twitter

Trong bài trước (Viết chương trình cơ bản), chúng ta đã thực hành viết một chương trình giả lập Kafka Producer và Consumer (SimpleProducer và SimpleConsumer). Chương trình SimpleProducer được dùng để gửi dữ liệu (số tự nhiên từ 0-9)

Phân tích bài đăng trên Twitter

Trong bài tutorial này, chúng ta sẽ sử dụng CoreNLP để phân tích quan điểm trong các bài đăng trên Twitter về một chủ đề nhất định. Bên cạnh thư việc CoreNLP, chúng ta sẽ sử dụng cả thư viện