Công nghệ máy học là gì?

Công nghệ học máy (ML) hỗ trợ một số công nghệ quan trọng nhất mà chúng tôi sử dụng, từ ứng dụng dịch đến các xe tự động. Khoá học này giải thích các khái niệm cốt lõi của công nghệ học máy.

Công nghệ học máy mang đến một cách thức mới để giải quyết vấn đề, giải đáp những câu hỏi phức tạp và tạo nội dung mới. Công nghệ học máy có thể dự đoán thời tiết, ước tính thời gian di chuyển, đề xuất bài hát, tự động hoàn thành câu, tóm tắt các bài viết và tạo những hình ảnh chưa từng thấy.

Nói cơ bản, công nghệ học máy là quá trình huấn luyện một phần mềm, gọi là model, để đưa ra các dự đoán hữu ích hoặc tạo nội dung từ dữ liệu.

Ví dụ: giả sử chúng ta muốn tạo một ứng dụng để dự đoán lượng mưa. Chúng tôi có thể dùng phương pháp truyền thống hoặc phương pháp học máy. Sử dụng phương pháp truyền thống, chúng tôi sẽ tạo được một bản trình bày dựa trên vật lý về khí quyển và bề mặt của Trái Đất, tính toán số lượng lớn phương trình động lực học chất lỏng. Điều này cực kỳ khó.

Bằng cách sử dụng phương pháp học máy, chúng tôi sẽ cung cấp cho mô hình ML một lượng lớn dữ liệu thời tiết cho đến khi mô hình ML này cuối cùng tìm hiểu được mối quan hệ toán học giữa các mẫu thời tiết tạo ra lượng mưa khác nhau. Sau đó, chúng tôi sẽ cung cấp cho mô hình này dữ liệu thời tiết hiện tại và dự đoán lượng mưa.

Kiểm tra mức độ hiểu bài của bạn

"Mô hình" trong công nghệ học máy là gì?
Mô hình là mối quan hệ toán học bắt nguồn từ dữ liệu mà hệ thống học máy dùng để đưa ra dự đoán
Mô hình là một phần của phần cứng máy tính
Mô hình là một bản trình bày nhỏ hơn về thứ bạn đang nghiên cứu.

Các loại hệ thống học máy

Các hệ thống học máy thuộc một hoặc nhiều danh mục sau đây dựa trên cách hệ thống học cách đưa ra dự đoán hoặc tạo nội dung:

  • Học có giám sát
  • Học không giám sát
  • Học tăng cường
  • AI tạo sinh

Học có giám sát

Mô hình học có giám sát có thể đưa ra dự đoán sau khi thấy nhiều dữ liệu có câu trả lời chính xác, sau đó khám phá mối liên kết giữa các phần tử trong dữ liệu để đưa ra câu trả lời chính xác. Đây giống như một tài liệu mới để học sinh tiếp thu tài liệu bằng cách nghiên cứu các bài kiểm tra cũ có chứa cả câu hỏi và câu trả lời. Sau khi đã luyện tập đủ các bài kiểm tra cũ, học sinh sẽ được chuẩn bị kỹ càng để làm bài kiểm tra mới. Các hệ thống ML này là "được giám sát" theo nghĩa là con người cung cấp cho hệ thống dữ liệu ML cùng với kết quả chính xác đã biết.

Hai trong số các trường hợp sử dụng phổ biến nhất đối với tính năng học có giám sát là hồi quy và phân loại.

Hồi quy

Mô hình hồi quy dự đoán một giá trị số. Ví dụ: một mô hình thời tiết dự đoán lượng mưa, tính bằng inch hoặc milimét, là mô hình hồi quy.

Hãy xem bảng dưới đây để biết thêm ví dụ về mô hình hồi quy:

Trường hợp Dữ liệu đầu vào có thể có Dự đoán dạng số
Giá nhà trong tương lai Cảnh vuông, mã bưu chính, số phòng ngủ và phòng tắm, kích thước lô đất, lãi suất thế chấp, thuế suất bất động sản, chi phí xây dựng và số nhà đang bán trong khu vực. Giá của ngôi nhà.
Thời gian đi trong tương lai Tình hình giao thông trước đây (thu thập từ điện thoại thông minh, cảm biến giao thông, dịch vụ đi chung xe và các ứng dụng chỉ đường khác), quãng đường từ điểm đến và điều kiện thời tiết. Thời gian tính bằng phút và giây để đến một điểm đến.

Phân loại

Mô hình phân loại dự đoán khả năng một nội dung nào đó thuộc về một danh mục. Không giống như mô hình hồi quy, kết quả đầu ra là một số, các mô hình phân loại sẽ đưa ra một giá trị cho biết nội dung nào đó có thuộc về một danh mục cụ thể hay không. Ví dụ: các mô hình phân loại được dùng để dự đoán xem một email có phải là thư rác hoặc một bức ảnh là con mèo hay không.

Các mô hình phân loại được chia thành 2 nhóm: phân loại nhị phân và phân loại nhiều lớp. Các mô hình phân loại nhị phân sẽ tạo ra một giá trị từ một lớp chỉ chứa hai giá trị, chẳng hạn như một mô hình cho ra rain hoặc no rain. Các mô hình phân loại nhiều lớp sẽ tạo ra một giá trị từ một lớp có chứa nhiều hơn 2 giá trị, ví dụ: một mô hình có thể xuất rain, hail, snow hoặc sleet.

Kiểm tra mức độ hiểu bài của bạn

Nếu muốn sử dụng mô hình học máy để dự đoán mức sử dụng năng lượng cho các toà nhà thương mại, bạn sẽ sử dụng loại mô hình nào?
Hồi quy
Mức sử dụng năng lượng được đo bằng kilowatthours (kWh). Vì vậy, bạn nên sử dụng mô hình hồi quy.
Phân loại
Mô hình phân loại sẽ dự đoán liệu nội dung nào đó có thuộc một danh mục hay không, trong khi mô hình hồi quy sẽ dự đoán một con số. Vì mức sử dụng năng lượng được đo bằng kilowatt-giờ (kWh), đây là một con số, nên bạn cần sử dụng mô hình hồi quy.

Học không giám sát

Các mô hình học không được giám sát đưa ra dự đoán bằng cách cung cấp dữ liệu không chứa bất kỳ câu trả lời chính xác nào. Mục tiêu của mô hình học tập không giám sát là xác định các mẫu có ý nghĩa trong dữ liệu. Nói cách khác, mô hình này không có gợi ý về cách phân loại từng phần dữ liệu, mà phải suy ra các quy tắc riêng.

Một mô hình học tập không được giám sát thường dùng, sử dụng kỹ thuật có tên là nhóm. Mô hình này tìm các điểm dữ liệu phân cách các nhóm tự nhiên.

Hình ảnh hiển thị các chấm màu thành các cụm.

Hình 1 Một mô hình học máy phân nhóm các điểm dữ liệu tương tự nhau.

Hình ảnh hiển thị các chấm màu thành các cụm được bao quanh trong một hình và có đường viền lẫn nhau.

Hình 2. Các nhóm cụm có phân cách tự nhiên.

Việc phân cụm khác với cách phân loại vì bạn không xác định được các danh mục này. Ví dụ: một mô hình không được giám sát có thể nhóm một tập dữ liệu thời tiết dựa trên nhiệt độ, cho thấy các phân đoạn xác định các mùa. Sau đó, bạn có thể thử đặt tên cho các cụm đó dựa trên hiểu biết của bạn về tập dữ liệu.

Hình ảnh hiển thị các chấm có màu sắc thành từng cụm được gắn nhãn là tuyết, mưa, mưa đá và không có mưa.

Hình 3. Một mô hình học máy phân nhóm các kiểu thời tiết tương tự nhau.

Hình ảnh hiển thị các chấm có màu sắc thành từng cụm được gắn nhãn là tuyết, mưa, mưa đá và không có mưa được bao bọc theo hình và có đường viền với nhau.

Hình 4. Cụm các kiểu thời tiết được gắn nhãn là tuyết, mưa tuyết, mưa và không có mưa.

Kiểm tra mức độ hiểu bài của bạn

Điểm khác biệt giữa phương pháp được giám sát và phương pháp không được giám sát là gì?
Phương pháp tiếp cận có giám sát được cung cấp dữ liệu chứa câu trả lời đúng.
Phương pháp tiếp cận có giám sát được cung cấp dữ liệu chứa câu trả lời đúng. Công việc của mô hình này là tìm các kết nối trong dữ liệu tạo ra câu trả lời chính xác. Phương pháp tiếp cận không được giám sát sẽ cung cấp dữ liệu mà không có câu trả lời chính xác. Nhiệm vụ của thẻ này là tìm các nhóm trong dữ liệu.
Phương pháp giám sát thường sử dụng phương pháp phân cụm.
Phương pháp không được giám sát sử dụng phương pháp phân cụm.
Phương pháp không được giám sát biết cách gắn nhãn các cụm dữ liệu.
Phương pháp tiếp cận không được giám sát sẽ không biết ý nghĩa của các cụm dữ liệu. Dựa trên hiểu biết của bạn về dữ liệu, bạn có thể xác định chúng.

Học tăng cường

Mô hình học tăng cường đưa ra dự đoán bằng cách nhận phần thưởng hoặc hình phạt dựa trên những hành động được thực hiện trong môi trường. Hệ thống học tập tăng cường sẽ tạo ra một chính sách xác định chiến lược tốt nhất để nhận được nhiều phần thưởng nhất.

Phương pháp học tăng cường được dùng để huấn luyện rô-bốt thực hiện các nhiệm vụ như đi bộ trong phòng và các chương trình phần mềm như AlphaGo để chơi trò chơi cờ vây.

AI tạo sinh

AI tạo sinh là một lớp mô hình tạo nội dung từ hoạt động đầu vào của người dùng. Ví dụ: AI tạo sinh có thể tạo hình ảnh tiểu thuyết, bản sáng tác nhạc và truyện cười; công nghệ này có thể tóm tắt các bài viết, giải thích cách thực hiện một nhiệm vụ hoặc chỉnh sửa ảnh.

AI tạo sinh có thể nhận nhiều đầu vào và tạo ra nhiều đầu ra, chẳng hạn như văn bản, hình ảnh, âm thanh và video. Ứng dụng cũng có thể kết hợp những yếu tố này với nhau. Ví dụ: một mô hình có thể lấy hình ảnh làm dữ liệu đầu vào rồi tạo một hình ảnh và văn bản làm đầu ra, hoặc lấy hình ảnh và văn bản làm dữ liệu đầu vào rồi tạo một video làm đầu ra.

Chúng ta có thể thảo luận về các mô hình tạo sinh theo dữ liệu đầu vào và đầu ra của các mô hình đó, thường được viết dưới dạng "loại đầu vào" cho "loại đầu ra". Ví dụ: sau đây là danh sách chưa đầy đủ của một số dữ liệu đầu vào và đầu ra cho mô hình tạo sinh:

  • Chuyển văn bản thành văn bản
  • Chuyển văn bản thành hình ảnh
  • Chuyển văn bản thành video
  • Chuyển văn bản thành mã
  • Chuyển văn bản sang lời nói
  • Hình ảnh và văn bản với hình ảnh

Bảng sau đây liệt kê các ví dụ về mô hình tạo sinh, dữ liệu đầu vào và ví dụ về kết quả đầu ra có thể có của các mô hình đó:

Mô hình Đầu vào Kết quả ví dụ
Chuyển văn bản thành văn bản Ai phát minh ra cuộc đua Le Mans? Đường đua 24 giờ Le Mans do Automobile Club de l'Ouest (ACO) thành lập vào năm 1906, một tổ chức chuyên về mô tô. Cuộc đua đầu tiên được tổ chức vào ngày 26 và 27 tháng 5 năm 1923 tại Sarthe Circuit, một đường đua dài 13,426 km (8,345 dặm) nằm gần thị trấn Le Mans của Pháp. Cuộc đua ban đầu được hình thành như một cách để quảng bá ACO và vùng Sarthe.
Nguồn: Bard
Chuyển văn bản thành hình ảnh Một con bạch tuộc ngoài hành tinh bay qua cổng đọc báo. Hình ảnh một chú bạch tuộc hoạt hình.
Nguồn: Imagen
Chuyển văn bản thành video Một chú gấu bông có ảnh thực đang bơi giữa đại dương tại San Francisco. Chú gấu bông rơi xuống nước. Chú gấu bông tiếp tục bơi dưới nước với những chú cá sặc sỡ. Một chú gấu gấu trúc đang bơi dưới nước. Video về một chú gấu bông đang bơi dưới nước.
Nguồn: Phenaki
Chuyển văn bản thành mã Viết một vòng lặp Python lặp lại qua một danh sách các số và in các số nguyên tố.
for number in numbers:
  # Check if the number is prime.
  is_prime = True
  for i in range(2, number):
    if number % i == 0:
        is_prime = False
        break
  # If the number is prime, print it.
  if is_prime:
    print(number)

Nguồn: Bard
Chuyển hình ảnh thành văn bản Hình ảnh một con hồng hạc. Đây là tiếng chim hồng hạc. Chúng được tìm thấy ở Caribbean.
Nguồn: Google DeepMind

AI tạo sinh hoạt động như thế nào? Ở cấp độ cao, các mô hình tạo sinh sẽ học các mẫu trong dữ liệu để tạo ra dữ liệu mới nhưng tương tự nhau. Mô hình tạo sinh sẽ có dạng như sau:

  • Diễn viên hài học cách bắt chước người khác bằng cách quan sát hành vi và phong cách nói chuyện của mọi người
  • Nghệ sĩ học vẽ theo một phong cách cụ thể bằng cách học rất nhiều tranh theo phong cách đó
  • Hát lại những ban nhạc học cách nghe giống một nhóm nhạc cụ thể bằng cách nghe rất nhiều bản nhạc của nhóm đó

Để tạo ra kết quả độc đáo và sáng tạo, ban đầu, các mô hình tạo sinh sẽ được huấn luyện bằng phương pháp không được giám sát. Trong đó, mô hình sẽ học cách bắt chước dữ liệu mà mô hình được huấn luyện. Đôi khi, mô hình này được huấn luyện thêm bằng cách sử dụng công nghệ học có giám sát hoặc học tăng cường đối với dữ liệu cụ thể liên quan đến các nhiệm vụ mà mô hình có thể được yêu cầu thực hiện, chẳng hạn như tóm tắt một bài viết hoặc chỉnh sửa ảnh.

AI tạo sinh là một công nghệ phát triển nhanh chóng với nhiều trường hợp sử dụng mới liên tục được khám phá. Ví dụ: mô hình tạo sinh đang giúp các doanh nghiệp tinh chỉnh hình ảnh sản phẩm thương mại điện tử của họ bằng cách tự động xoá những phần nền không cần thiết hoặc cải thiện chất lượng của hình ảnh có độ phân giải thấp.