Trong Xử lý ngôn ngữ tự nhiên, Tokenization là quá trình chuyển một dãy các ký tự thành một dãy các token (token là một dãy các ký tự mang ý nghĩa cụ thể, biểu thị cho một đơn vị ngữ nghĩa trong xử lý ngôn ngữ). Nhiều khi token được hiểu là một từ mặc dù cách hiểu này không hoàn toàn chính xác. Ví dụ như trong tiếng Anh các từ thường được phân tách bằng dấu cách, tuy nhiên từ New York vẫn chỉ được coi là một từ mặc dù nó có dấu cách ở giữa. Do đó chỉ có 1 token trong trường hợp này. Một ví dụ khác là I’m được coi là 2 từ ‘I’ và ‘am’ mặc dù không có dấu cách nào. Trong trường hợp này ta có 2 tokens.

Một điểm cần lưu ý ở đây là chúng ta cần phân biệt khái niệm ‘word type’ và ‘word token’. Types là tổng số các từ có mặt trong một corpus, không tính số lần xuất hiện của từ đó (dù một từ có xuất hiện 40 lần trong đoạn dữ liệu thì cũng chỉ được tính là 1). Trong khi đó, Token tính cả tổng số lần xuất hiện của từng từ. Ví dụ trong câu ‘a good person is a person who is willing to help others’ có tất cả 9 Types (do có 9 từ xuất hiện) nhưng có tới 12 Tokens (do từ ‘a’, ‘person’ và ‘is’ đều xuất hiện 2 lần)

Trong Xử lý ngôn ngữ tự nhiên, Tokenization là bước cơ bản và là bước đầu tiên cần thực hiện trước khi có thể tiến hành việc phân tích sâu hơn. Kết quả của quá trình Tokenization chính là đầu vào cho các quá trình xử lý tiếp theo như xác định Part of Speech, Lemma, Name Entity Recognition,…

Tháng Mười Một 26, 2018
ITechSeeker