Trong bài này, chúng ta sẽ thực hành viết ứng dụng sử dụng mô hình YOLACT++ để thực hiện image segmentation cho bức ảnh và video (mô hình YOLACT++ được sử dụng là mô hình từ trang github của tác giả mô hình tại https://github.com/dbolya/yolact).

Trước hết chúng ta thực hiện mounting Google Driver để thao tác với các folder trên Goolge Driver và thiết lập working directory như sau:

Tiếp theo chúng ta tiến hành download mô hình YOLACT và cài đặt các thư viện cần thiết như sau (thư mục yolact sẽ được download về trong thư mục hiện tại là YOLACT++):

Sau đó chúng ta di chuyển đến thư mục external/DCNv2 trong thư mục yolact vừa download ở trên và tiến hành build DCNv2 cho mô hình YOLACT++:

Hoàn tất quá trình build ta được thông báo mô hình được build thành công:

Tiếp theo chúng ta di chuyển về thư mục yolact để tạo thêm thư mục weights và tiến hành download weight file như sau:

Tiếp theo chúng ta di chuyển lại về thư mục YOLACT++ để tạo thêm thư mục inputs (dùng để lưu các hình ảnh hoặc video cần xử lý) và thư mục outputs (dùng để lưu các hình ảnh/video đã được xử lý):

Sau khi tạo thư mục inputs, chúng ta có thể copy trực tiếp các file ảnh/video vào thực mục này hoặc sử dụng files.upload() để upload từ Google Colab như sau:

Cuối cùng để xử lý hình ảnh, ta sử dụng yolact/eval.py để thực hiện instance segmentation cho bức ảnh như sau:

– score_threshold: giá trị threshold để filter detection

– top-k: giới hạn số lượng prediction

– image: thiết lập input image và output cho model

– Để biết thêm cấu trúc dòng lệnh và ý nghĩa của các tham số khi sử dụng mô hình YOLACT, ta có thể sử dụng dòng lệnh –help như sau:

Ta được kết quả instance segmentation của hình ảnh như sau:

C:\Users\Dark Knight\Downloads\test_img_seg.jpg

Tương tự để xử lý video, chúng ta sử dụng dòng lệnh sau:

C:\Users\Dark Knight\Downloads\walking_seg (3) (online-video-cutter.com).gif

Như vậy chúng ta đã hoàn thành việc viết ứng dụng sử dụng mô hình YOLACT++ để thực hiện image segmentation cho bức ảnh và video. Các bạn có thể tham khảo Colab notebook của bài viết này trên trang Github của ITechSeeker tại đây.

Tháng Hai 11, 2022
ITechSeeker