Đọc dữ liệu từ nhiều nguồn khác nhau

Trong bài Viết chương trình sử dụng DataFrame, chúng ta đã sử dụng DataFrame để đọc một file json (people.json) và tiến hành truy suất một số thông tin của file đó. Trong bài này, chúng ta sẽ tìm hiểu

Viết chương trình sử dụng DataFrame

Trong bài này, chúng ta sẽ bắt đầu tiến hành lập trình Spark với các ví dụ đơn giản sử dụng DataFrame. Trước hết, các bạn tạo một Scala Object mới với tên DataFrameEx như hướng dẫn ở bài trước.

Chương trình WordCount

Trong bài này chúng ta sẽ viết một chương trình WordCount để đếm số lần xuất hiện của từng từ trong một đoạn dữ liệu được chuyển về từ Data server. Chúng ta sẽ sử dụng Netcat để mô phỏng

Spark SQL, Dataset và DataFrames

Trong loạt tutorials này, chúng ta sẽ làm quen với việc sử dụng Spark SQL, Dataset và DataFrames. SparkSQL chính là một trong năm thành phần chính của Spark được phát triển cho việc sử lý dữ liệu có cấu