Corpus (số nhiều là Corpora): Corpus là tập hợp các văn bản hoặc các ngôn ngữ tự nhiên đã được số hóa. Ví dụ như Brown corpus là một tập hợp của hàng triệu từ vựng được lấy từ hơn 500 văn bản thuộc nhiều thể loại khác nhau (tạp chí, tiểu thuyết, học thuật,..) được xây dựng bởi trường Đại học Brown trong năm 1963-1964. Một ví dụ khác là Switchboard corpus. Corpus này là tập hợp của 2430 đoạn đàm thoại (trung bình 6 phút mỗi đoạn đàm thoại) với tổng số 240 giờ đàm thoại bao gồm khoảng 3 triệu từ [1].

Chúng ta sử dụng Corpus để tiến hành phân tích và tìm đặc trưng của một ngôn ngữ nhất định. Do đó các Corpus phải được thiết kế một cách thận trọng để đảm bảo rằng nó có thể đại diện cho ngôn ngữ cần phân tích. Từ các Corpus ta có thể sử dụng các phương pháp cơ bản như đếm từ hoặc sử dụng xác xuất thống kê để biết được tần suất xuất hiện của các từ trong Corpus, biết được sự phân bổ từ vựng trong Corpus đó cũng như so sánh sự phân bổ từ vựng giữa các ngôn ngữ khác nhau …

Tuy nhiên, Corpus vẫn là một tập hợp do con người tạo ra nên nó không thể bao gồm tất cả từ vựng của một ngôn ngữ. Ngoài ra, Corpus cũng chỉ cho chúng ta biết được đặc trưng cơ bản của một ngôn ngữ cụ thể chứ không thể biểu thị toàn bộ đặc trưng của ngôn ngữ đó [2]

Tham Khảo

[1]   D. Jurafsky and J. H. Martin, Speech and language processing: an introduction to natural language processing, computational linguistics, and speech recognition. Upper Saddle River, N.J: Prentice Hall, 2000.

[2]   K. N. Björkenstam, “What is a corpus and why are corpora important tools?,”

Tháng Mười 18, 2018
ITechSeeker