Trong bài trước, chúng ta đã tiến hành tạo một Scala Maven Project bằng IntelliJ và thiết lập các môi trường cần thiết cho Spark. Trong bài này chúng ta sẽ tạo một Scala Object để chạy thử một chương trình Spark. Chúng ta tạo một Scala Object với tên Test (Click chuột phải vào thư mục src/main/scala, chọn New -> Scala Class, rồi điền Test vào mục Name và chọn Object trong mục Kind) và sử dụng đoạn code sau để chạy thử Spark
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 |
/* Apache Spark Test*/ import org.apache.spark.sql.SparkSession object test { def main(args: Array[String]) { // Specific the path of the file val textFile = "E:\\WorkPlace\\BigData\\Spark\\README.md" // Create a Spark session val spark = SparkSession .builder() .appName("Spark Test") .config("spark.master", "local") .getOrCreate(); //Make a new Dataset from the text of README.md val textData = spark.read.textFile(textFile) println("Number of items in the Dataset: ",textData.count())} } |
Nhấn Ctr+Shift+F10 để chạy chương trình, ta được kết quả như sau (lưu ý để tắt bớt log của IntelliJ ta có thể thêm dòng lệnh chỉnh sửa file log4j.properties hoặc thêm dòng code sau):
1 |
spark.sparkContext.setLogLevel("WARN") |
hoặc
1 2 3 |
import org.apache.log4j.Logger import org.apache.log4j.Level Logger.getLogger("org").setLevel(Level.OFF) |