Xử lý dữ liệu Twitter trong thời gian thực

Trong bài tutorial này, chúng ta sẽ viết chương trình sử dụng TwitterStreaming API để thu thập dữ liệu trong thời gian thực và truyền về Kafka. Sau đó ta sẽ sử dụng Spark như một Consumer của Kafka để

Tích hợp Kafka với Spark sử dụng Structured Streaming

Trong bài tutorial Tích hợp Kafka với Spark sử dụng Dstream, chúng ta đã tìm hiểu cách thức tích hợp Kafka với Spark sử dụng một API cũ của Spark là Spark Streaming (DStream). Trong bài tutorial này chúng ta

Lập trình với Stanford CoreNLP

Hiện nay có nhiều thư viên NLP được nghiên cứu, phát triển và công bố trên mạng Internet. Trong đó một số thư viện phổ biến có thể kể đến như Standford CoreNLP, NLTK, TextBlob, Gensim, SpaCy,.. Các thư viện

Truyền nhận message giữa các Akka Actors

Như đã trình bày trong bài Giới thiệu về Apache Akka, các Actor trao đổi với nhau thông qua message. Ở đây, message có thể là bất kỳ loại object nào nhưng chúng phải immutatble(không thể bị thay đổi). Thông

Kết nối Kafka với Cassandra Sink

Thông thường việc kết nối Kafka với các loại cơ sở dữ liệu(CSDL) được chia thành hai loại là Source Connector và Sink Connector. Source Connector được sử dụng để đọc dữ liệu từ CSDL và ghi vào Kafka broker

Xây dựng mô hình Deep learning với Keras

Keras là một high-level API của Tensorflow, được phát triển nhằm giúp người dùng có thể dễ dàng xây dựng và huấn luyện các mô hình Deep learning. Trong bài tutorial này, chúng ta sẽ thực hành sử dụng Keras

Soát lỗi chính tả sử dụng Ginger và Selenium

Trong bài tutorial Làm sạch dữ liệu Twitter, ta đã sử dụng API của Language Tool để sửa lỗi chính tả các từ viết sai hoặc dùng không đúng. Tính tới thời điểm hiện tại (12/2018), có lẽ Language Tool

WebScraping sử dụng Apache Tika

Trong bài tutorial Trích xuất nội dung bài đăng sử dụng Boilerpipe, chúng ta đã viết chương trình để lấy nguyên phần nội dung chính của bài viết và loại bỏ các nội dung không cần thiết. Tuy nhiên, việc

Lambda Architecture with SMACK Stack

Đây là một mini-project được phát triển nhằm mục đích giúp bạn đọc có thể vận dụng kiến thức đã trình bày trong các bài tutorials vào trong việc xây dựng một hệ thống xử lý dữ liệu lớn. Trong

Lập trình Spark với ngôn ngữ Scala

Trong loạt tutorials này, chúng ta sẽ cùng tìm hiểu cách viết các chương trình sử dụng Spark để phân tích và xử lý dữ liệu lớn. Spark hỗ trợ nhiều ngôn ngữ lập trình khác nhau như  Scala, Java, Python, R

Read more

Everybody is a genius. But if you judge a fish by its ability to climb a tree, it will live its whole life believing that it is stupid.

Albert Einstein

Nothing is IMPOSSIBLE, the word itself says ' I'M POSSIBLE'

Audrey Hepburn

Need help to build your own project ?

Contact us