Computer vision (thị giác máy tính) là một nhánh thuộc lĩnh vực trí tuệ nhân tạo (các nhánh khác gồm Xử lý ngôn ngữ tự nhiên, Xử lý giọng nói, Học máy…) nhằm giúp máy tính/hệ thống hiểu được các thông tin từ các video, hình ảnh hoặc các visual inputs khác, từ đó đưa ra các đề xuất đối với người dùng. Khi nghiên cứu về computer vision, chúng ta thường sẽ bắt gặp các thuật ngữ chung như Image Classification, Object Localization, Object Detection, Semantic Segmentation và Instance Segmentation. Trong bài này chúng ta sẽ cùng tìm hiểu tóm tắt về các thuật ngữ trên:

– Image Classification (Phân loại hình ảnh): Image classification hoặc Image recognition là bài toán phân loại, gắn nhãn cho hình ảnh (single-label classification hoặc multi-label classification). Ví dụ một bức ảnh thông qua Image classification sẽ được phân loại là cat/dog hoặc tree/flower…

– Image/Object Localization: Image/Object Localization là bài toán xác định vị trí của đối tượng trong một hình ảnh. Thông thường vị trí này được xác định bằng một khung hình chữ nhật bao quanh đối tượng (bounding box).

– Object Detection (Phát hiện đối tượng): Object Detection là bài toán kết hợp cả Imge classification và Object localization. Trong đó Object localization được sử dụng để xác định vị trí của các đối tượng và Image classification được sử dụng để phân loạt đối tượng đã được xác định trong bounding box.

– Semantic Segmentation: Semantic Segmentation là bài toán xác định class label đối với từng pixel của hình ảnh (các đối tượng thuộc cùng một class label đều được thể hiện giống nhau). Ví dụ các pixel trong hình ảnh sẽ được phân loại thuộc class person, tree, car,…

– Instance Segmentation: Khác với Semantic Segmentation, Instance Segmentation coi các đối tượng trong cùng một class label là các đối tượng khác nhau. Với việc sử dụng Instance Segmentation cho phép chúng ta xác định chính xác hình dáng của đối tượng thay vì chỉ xác định được vị trí tương đối tại bounding box như trong Object detection.

Detection and Segmentation through ConvNets | by Ravindra Parmar | Towards Data Science

Tháng Một 12, 2022
ITechSeeker