Hiện nay có nhiều thư viên NLP được nghiên cứu, phát triển và công bố trên mạng Internet. Trong đó một số thư viện phổ biến có thể kể đến như Standford CoreNLP, NLTK, TextBlob, Gensim, SpaCy,.. Các thư viện này đều có những thế mạnh riêng và được viết bằng các ngôn ngữ khác nhau như Java, Python, Cython,…

Trong loạt bài này chúng ta sẽ tập trung vào thư viện Stanford CoreNLP. Đây là một trong những thư viện NLP phổ biến nhất, được phát triển bởi nhóm nghiên cứu về Xử lý ngôn ngữ nhiên của trường Đại học Standford. Các hàm chức năng trong thư viện này được xây dựng dựa trên các nghiên cứu mới nhất trong lĩnh vực NLP và do đó luôn đảm bảo tính cập nhập và đem lại hiệu quả xử lý cao. Mặc dù CoreNLP hỗ trợ các ngôn ngữ lập trình như Python, Scala nhưng nó được phát triển chính thức bằng ngôn ngữ Java. Vì vậy trong loạt tutorial này chúng ta sẽ sử dụng ngôn ngữ Java để viết một số chương trình liên quan đến các bài toán cụ thể như tách từ, Part of Speech, Name Entity Recognition, phân tích sentiment,…

Các bạn có thể tham khảo các đoạn code trong loạt bài tutorials này trên trang Github của ITechSeeker tại đây.

Tháng Mười Một 23, 2018
ITechSeeker