Tìm hiểu cách Google phát triển mô hình phân loại hình ảnh hiện đại hỗ trợ tìm kiếm trong Google Photos. Tham gia một khoá học về sự cố trên mạng nơron tích cực, sau đó xây dựng trình phân loại hình ảnh của riêng bạn để phân biệt ảnh mèo với ảnh chó.
Điều kiện tiên quyết
Khoá học máy học hoặc kinh nghiệm tương đương với các kiến thức cơ bản về công nghệ máy học
Có kiến thức cơ bản về lập trình và một số kinh nghiệm lập trình bằng Python
Giới thiệu
Vào tháng 5 năm 2013, Google đã phát hành tính năng tìm kiếm ảnh cá nhân, cho phép người dùng truy xuất ảnh trong thư viện của họ dựa trên các đối tượng có trong hình ảnh.
Hình 1. Tìm kiếm ảnh trên Google Photos về mèo Xiêm!
Tính năng này sau đó được tích hợp vào Google Photos vào năm 2015, được coi là một yếu tố thay đổi đột phá, bằng chứng về khái niệm phần mềm thị giác máy tính có thể phân loại hình ảnh theo tiêu chuẩn của con người, làm gia tăng giá trị theo một số cách:
- Người dùng không còn cần phải gắn thẻ các ảnh bằng nhãn như "beach" để phân loại nội dung hình ảnh, loại bỏ một nhiệm vụ thủ công có thể trở nên khá tẻ nhạt khi quản lý hàng trăm hoặc hàng nghìn hình ảnh.
- Người dùng có thể khám phá bộ sưu tập ảnh của mình theo những cách mới, sử dụng cụm từ tìm kiếm để xác định vị trí ảnh có đối tượng mà họ có thể chưa bao giờ gắn thẻ. Ví dụ: họ có thể tìm kiếm "palm tree" để hiển thị tất cả ảnh kỳ nghỉ của họ có cây cọ trong nền.
- Phần mềm có thể "xem" những điểm khác biệt về phân loại mà người dùng cuối có thể không nhận biết được (ví dụ: phân biệt mèo Xiêm và Abyssinia), giúp nâng cao hiệu quả cho người dùng\39; kiến thức miền.
Cách phân loại hình ảnh hoạt động
Phân loại hình ảnh là một vấn đề học tập có giám sát: xác định tập hợp các lớp mục tiêu (đối tượng cần xác định trong hình ảnh) và đào tạo một mô hình để nhận dạng các lớp đó bằng cách sử dụng ảnh mẫu được gắn nhãn. Các mô hình thị giác máy tính ban đầu sử dụng dữ liệu pixel thô làm dữ liệu đầu vào cho mô hình. Tuy nhiên, như trong Hình 2, một mình dữ liệu pixel thô không cung cấp hình ảnh biểu diễn đủ ổn định để bao gồm nhiều biến thể của một đối tượng như được chụp trong một hình ảnh. Vị trí của đối tượng, nền sau đối tượng, ánh sáng xung quanh, góc máy ảnh và tiêu điểm máy ảnh, tất cả đều có thể tạo ra sự biến động trong dữ liệu pixel thô; những khác biệt này đủ đáng kể để không thể khắc phục được bằng cách lấy giá trị trung bình có trọng số của các giá trị pixel Pixel.
Hình 2. Trái: Mèo có thể được chụp trong một ảnh ở nhiều tư thế, với nhiều phông nền và điều kiện ánh sáng khác nhau. Phải: trung bình dữ liệu pixel để tính đến sự đa dạng này không tạo ra thông tin có ý nghĩa nào.
Để lập mô hình các đối tượng một cách linh hoạt hơn, các mô hình thị giác máy tính cũ đã thêm các tính năng mới lấy từ dữ liệu pixel, chẳng hạn như biểu đồ màu, hoạ tiết và hình dạng. Nhược điểm của phương pháp này là kỹ thuật tính năng gây ra gánh nặng thực sự vì có quá nhiều thông tin đầu vào để điều chỉnh. Đối với máy phân loại cho mèo, màu nào là phù hợp nhất? Các định nghĩa hình dạng nên linh hoạt như thế nào? Vì các tính năng cần được điều chỉnh một cách chính xác nên việc xây dựng các mô hình mạnh mẽ đã trở nên khá khó khăn và độ chính xác bị ảnh hưởng.