Trong Xử lý ngôn ngữ tự nhiên, Word Embedding là một kỹ thuật được sử dụng để chuyển hóa text (characters, words hoặc phrases) thành dạng vector số để từ đó làm đầu vào cho việc huấn luyện các mô hình Deep learning. Word Embedding đảm bảo rằng các từ tương tự nhau sẽ có giá trị vector gần giống nhau. Ví dụ như vector của King, Queen hoặc vector của Man, Woman là tương tự nhau và đặc biệt ta có King – Man + Woman ≈ Queen.

Thông thường, Word Embedding được chia thành hai loại chính là Frequency-based embedding và Prediction-based embedding:

– Frequency-based embedding: là phương pháp vector hóa dựa trên tần số xuất hiện của các từ trong Corpus. Ví dụ tiêu biểu về phương pháp này là Glove (đề xuất năm 2014) và TF-IDF.

– Prediction-based embedding: là phương pháp vector hóa dựa trên kết quả của một mô hình dự đoán. Thông thường là mô hình mạng Neuron với 3 lớp: 1 Input layer, 1 Hidden layer và 1 Ouput layer. Ví dụ tiêu biểu về phương pháp này là Word2vec (đễ xuất năm 2013 với sự kết hợp của hai mô hình là CBOW-Continuos Bag of Words và Skip-gram)

Hiện nay, hai phương pháp được sử dụng nhiều nhất trong Word Embedding là Glove và Word2vec. Mặc dù hai phương pháp này thuộc hai dạng khác nhau nhưng nhiều kết quả cho thấy chúng có nhiều điểm tương đồng và tương đối gần nhau. Các bạn có thể tham khảo các pre-trained word embedding dưới đây:

– Glove: Stanford pre-trained word vectors (English only)

– Word2vec: pre-trained word dựa trên Google news với vocab size là 3M và 300 dimension, Word2vec cho Tiếng Việt.

– FastText: được phát triển bởi Facebook, cung cấp Word vectors cho 157 ngôn ngữ khác nhau với 300 dimension (bao gồm cả Tiếng Việt)

Ngoài ra các bạn có thể tham khảo thêm một số pre-trained word vectors khác tại đây.

Tháng Ba 26, 2019
ITechSeeker