Lemmatization là quá trình phân tích để xác định xem liệu các từ khác nhau có chung một dạng từ gốc (base form) hay không (dạng từ gốc này thường được gọi là lemma). Ví dụ như từ ‘am’, ‘are’, ‘was’, ‘were’ đều có chung dạng từ gốc lemma là ‘be’. Việc xác định lemma thường được ứng dụng trong các nhiệm vụ như tìm kiếm, phân tích dữ liệu, tóm tắt văn bản … Ví dụ như các từ ‘drink’, ‘drinks’, ‘drunk’, ‘drank’, ‘drinking’ đều có lemma là drink. Do đó khi ta tìm kiếm ‘drink alcohol’ thì việc tìm kiếm cả ‘drinks alcohol’, ‘drank alcohol’, ‘drunk alcohol’, ‘drinking alcohol’ có thể sẽ đưa ra kết quả phù hợp hơn với mong muốn của người dùng.

Quá trình Lemmatization thường được thực hiện bằng việc nghiên cứu cách thức từ ngữ được xây dựng từ các đơn vị nhỏ hơn – gọi là Morphemes. Thường thì Morphemes được chia ra thành hai nhóm chính: Stems (là morphemes trung tâm của từ) và Affixes (morphemes hỗ trợ để bổ sung nghĩa cho từ). Ví dụ như từ ‘drinks’ sẽ có 2 morphemes là ‘drink’ (stem) và ‘s’ (affixes).

Ngoài ra, một khái niệm khác chúng ta cần phân biệt ở đây là Stemming. Hiểu một cách đơn giản thì ta có thể coi Stemming là một phiên bản thô sơ của Lemmatization với việc chỉ sử dụng thuật toán đơn giản và chỉ loại bỏ phần cuối của từ rồi trả về kết quả. Ví dụ như với từ ‘drinks’ thì Stemming sẽ trả về kết quả chính xác là ‘drink’. Tuy nhiên, với một số dạng từ khác như ‘saw’ thì có thể Stemming chỉ trả về kết quả là ‘s’ trong khi Lemmatization sẽ trả về kết quả chính xác là ‘see’.

Tháng Mười Một 26, 2018
ITechSeeker