Information extraction (IE: trích xuất thông tin) là quá trình phân tích, xử lý dữ liệu để trích xuất các thông tin hữu ích, có cấu trúc từ nguồn thông tin phi cấu trúc hoặc bán cấu trúc. Thông thường quá trình này bao gồm ba bước chính là: xác định thực thể (NER: Named Entity Recognition), xác định mối liên hệ (Relation Extraction) và trích xuất sự kiện (Event Extraction)

1. Named Entity Recognition

Bước đầu tiên trong quá trình Trích xuất thông tin là việc xác định các thực thể (entity) xuất hiện trong đoạn dữ liệu rồi tiến hành phân loại thực thể này (được gọi là Named Entity Recoginition hay NER). Việc xác định thực thể có thể bắt đầu bằng việc xác định các từ trong đoạn văn bản có POS tag là Proper Name (như person, location, organization). Sau đó, việc phân loại thực thể (NER) có thể được thực hiện bằng việc áp dụng các sequence model như MEMM hoặc CRF. Tuy nhiên công việc này thường gặp khó khăn do tính không rõ ràng của các từ. Ví dụ như từ ‘Washington’ có thể được phân loại là Tên người (PERSON) như tổng thống Washington hoặc Địa danh (LOCATION) như thủ đô Washington,…

Ngoài ra, một khái niệm khác có liên quan đến NER là Coreference Resolution. Coreference Resolution được sử dụng để tìm tất cả các từ đại diện cho cùng một thực thể nhất định trong đoạn văn bản. Ví dụ như trong câu ‘I like Tom because he is so nice to me’ thì từ ‘he’ chính là từ để chỉ ‘Tom’.

Bên cạnh vai trò trong việc xác định mối liên hệ (Relation Extraction) và phát hiện sự kiện (Event Extraction) thì NER còn được áp dụng trong nhiều bài toán liên quan đến Xử lý ngôn ngữ tự nhiên . Ví dụ như trong việc phân tích Sentiment thì NER giúp ta biết được đánh giá của người dùng đối với một thực thể nhất định (có thể là cơ quan, tổ chức, địa danh,..) hoặc trong hệ thống Question Answering, NER giúp ta biết được người dùng muốn hỏi về đối tượng nào,…

2. Relation Extraction

Sau khi xác định NER và Coreference Resolution, công việc tiếp theo ta cần thực hiện là tìm mối liên hệ giữa các thực thể trong đoạn văn bản. Quá trình này được gọi là Relation Extraction. Ví dụ như trong câu ‘Bob works in Google’ thì kết quả của quá trình Relation Extraction sẽ cho ta kết quả của mối liên hệ giữa Bob (tên người) và Google (công ty) là Work_For (vì Bob làm việc cho Google).

Thông thường việc tìm mối liên hệ giữa các entity có thể thực hiện bằng cách sử dụng phương pháp truyền thống (sử dụng lexico-syntactic patterns) hoặc sử dụng các kỹ thuật Machine Learning như Supervised Learning, Semisupervised Relation Extraction với Bootstrapping, Distant Supervision hoặc Unsupervised Relation Extraction [1].

3. Event Extraction

Event Extraction là quá trình phát hiện và xác định các sự kiện trong một đoạn dữ liệu, trong đó có sự tham gia của các entity đã được xác định trong các bước trước. Quá trình này cũng bao gồm cả Event Coreference và Time Extraction. Tương tự như Coreference Resolution đã giải thích ở trên, Event Coreference được dùng để xác định các sự kiện trùng lặp, cùng nói về một sự kiện chung còn Time Extraction dùng để xác định yếu tố thời gian của sự kiện như khi nào sự kiện xảy ra hoặc xảy ra trong thời gian bao lâu,..

Event Extraction có thể được thực hiện bằng việc sử dụng các tập luật (rule-based), sử dụng các phương pháp thống kê (statistical approachs) hoặc sử dụng kỹ thuật Machine Learning như Sequence Models, sử dụng Multi-class Classifier để phân loại sự kiện và các thuộc tính của nó,.. [1].

[1] D. Jurafsky and J. H. Martin, Speech and language processing: an introduction to natural language processing, computational linguistics, and speech recognition. Upper Saddle River, N.J: Prentice Hall, 2000.

Tháng Mười Một 27, 2018
ITechSeeker