Làm sạch dữ liệu Twitter

Trong bài tutorial Phân tích bài đăng trên Twitter, chúng ta đã viết chương trình thu thập dữ liệu Twitter về một chủ đề nhất định và phân tích quan điểm của từng bài đăng. Tuy nhiên dữ liệu thu

Phân tích bài đăng trên Twitter

Trong bài tutorial này, chúng ta sẽ sử dụng CoreNLP để phân tích quan điểm trong các bài đăng trên Twitter về một chủ đề nhất định. Bên cạnh thư việc CoreNLP, chúng ta sẽ sử dụng cả thư viện

Các hàm cơ bản trong CoreNLP

CoreNLP được phát triển dựa trên mô hình annotaion pipeline nên trước hết ta sẽ tìm hiểm về khái niệm Annotation và Annotator. Hiểu một cách đơn giản thì ta có thể coi một Annotator là một hàm chức năng

Thiết lập môi trường

Trước hết các bạn tạo một Java Maven Project trong IntelliJ bằng cách vào File -> New -> Project, chọn Maven rồi click Next. Tiếp theo, ta điền thông tin vào GroupId, ArtifactId và cuối cùng nhấn Finish để hoàn

Lập trình với Stanford CoreNLP

Hiện nay có nhiều thư viên NLP được nghiên cứu, phát triển và công bố trên mạng Internet. Trong đó một số thư viện phổ biến có thể kể đến như Standford CoreNLP, NLTK, TextBlob, Gensim, SpaCy,.. Các thư viện

Spark với Stanford CoreNLP

Trong loạt bài về Xử lý ngôn ngữ tự nhiên sử dụng Stanford CoreNLP (tham khảo tại đây), chúng ta đã viết một số chương trình sử dụng ngôn ngữ Java. Trong bài này chúng ta sẽ viết một chương

Basic NLP

Xử lý ngôn ngữ tự nhiên (Natural Language Processing -NLP) là một trong những kỹ thuật quan trọng trong thời kỳ kỹ thuật số ngày nay. Nó là một nhánh của Trí tuệ nhân tạo (AI) với sự giao thoa