Part of Speech (PoS) được sử dụng để phân loại và nhóm các từ có tích chất ngữ pháp tương tự nhau thành một nhóm. Ví dụ như trong Tiếng Anh có các PoS như Noun (danh từ), Verb (Động từ), Adjective (Tính từ),…Tên và ký hiệu của các PoS được quy định cụ thể trong từng Corpus (xem thêm về Corpus tại đây) và tập hợp các PoS này được gọi là tagsets. Mỗi một Corpus có thể có các tagsets khác nhau (khác nhau về ký hiệu, số lượng,..). Ví dụ như Penn Treebank có 45 PoS, Brown coupus có 87 trong khi C7 tagset có tổng số 146 PoS. Việc xác định PoS của từng từ trong câu được gọi là Part of Speech tagging. Quá trình này có thể được thực hiện bằng việc sử dụng các tập luật (rule-based tagging), sử dụng phương pháp xác suất (HMM tagging) hoặc sử dụng các thuật toán khác như transformation based tagging hoặc memory-based tagging,.. [1]. Việc xác định PoS thường gặp khó khăn do cùng một từ có thể có các PoS khác nhau tùy vào ngữ cảnh của văn bản (ví dụ như từ drink(uống) có thể là Noun(mang nghĩa ‘đồ uống’) hoặc cũng có thể là Verb(mang nghĩa ‘hành động uống’).

Các bạn có thể tham khảo một ví dụ về tagset trong hình dưới đây (Đây là tagset của Penn Treebank, được sử dụng trong thư viện Standford CoreNLP mà chúng ta sẽ cùng tìm hiểu trong phần thực hành)

Một ví dụ về việc áp dụng POS trong thực tế có thể kể đến là khi ta muốn tìm tên người trong một cơ sở dữ liệu lớn. Nếu thực hiện theo phương pháp thông thường bằng cách so sánh tên người đó với từng từ trong CSDL thì sẽ mất nhiều thời gian cũng như tài nguyên để xử lý. Tuy nhiên, nếu ta đã xác định PoS của các từ trong CSDL đó (thời gian xác định PoS nhanh hơn rất nhiều so với thuật toán so sánh), thì ta chỉ cần so sánh tên người cần tìm với các từ có PoS là Noun (Danh từ). Việc thu hẹp phạm vi so sánh này sẽ giúp chúng ta rất nhiều trong việc tiết kiệm thời gian và nâng cao hiệu quả xử lý của hệ thống.

[1] D. Jurafsky and J. H. Martin, Speech and language processing: an introduction to natural language processing, computational linguistics, and speech recognition. Upper Saddle River, N.J: Prentice Hall, 2000.

Tháng Mười Một 25, 2018
ITechSeeker