Công nghệ máy học là gì?

Công nghệ học máy (ML) hỗ trợ một số công nghệ quan trọng nhất mà chúng tôi sử dụng, từ ứng dụng dịch cho đến xe độc lập. Khoá học này giải thích các khái niệm cốt lõi của công nghệ học máy.

ML cung cấp một cách mới để giải quyết vấn đề, trả lời những câu hỏi phức tạp và tạo nội dung mới. Công nghệ học máy có thể dự đoán thời tiết, ước tính thời gian di chuyển, đề xuất bài hát, tự động hoàn thành câu, tóm tắt bài viết và tạo hình ảnh chưa từng thấy.

Về cơ bản, học máy là quá trình đào tạo một phần mềm, gọi là model, để đưa ra các dự đoán hữu ích hoặc tạo nội dung từ dữ liệu.

Ví dụ: giả sử chúng ta muốn tạo một ứng dụng để dự đoán lượng mưa. Chúng tôi có thể dùng phương pháp truyền thống hoặc phương pháp học máy. Bằng cách sử dụng phương pháp truyền thống, chúng tôi sẽ tạo ra một bản trình bày dựa trên vật lý về khí quyển và bề mặt của Trái đất, tính toán số lượng lớn phương trình động lực học chất lỏng. Việc này cực kỳ khó.

Khi sử dụng phương pháp học máy, chúng tôi sẽ cung cấp cho mô hình ML một lượng lớn dữ liệu thời tiết cho đến khi mô hình ML này cuối cùng học được mối quan hệ toán học giữa các kiểu thời tiết tạo ra lượng mưa khác nhau. Sau đó, chúng tôi sẽ cung cấp cho mô hình này dữ liệu thời tiết hiện tại và dự đoán lượng mưa.

Kiểm tra kiến thức

"Mô hình" trong công nghệ học máy là gì?
Mô hình là mối quan hệ toán học suy ra từ dữ liệu mà hệ thống ML dùng để đưa ra dự đoán
Mô hình là một phần cứng máy tính
Mô hình là nội dung mô tả nhỏ hơn nội dung bạn đang nghiên cứu.

Các loại hệ thống học máy

Các hệ thống học máy thuộc một hoặc nhiều danh mục sau đây dựa trên cách chúng học cách đưa ra thông tin dự đoán hoặc tạo nội dung:

  • Học có giám sát
  • Học không giám sát
  • Học tăng cường
  • AI tạo sinh

Học có giám sát

Mô hình học có giám sát có thể đưa ra thông tin dự đoán sau khi thấy nhiều dữ liệu với câu trả lời chính xác, sau đó khám phá mối liên kết giữa các phần tử trong dữ liệu đưa ra câu trả lời đúng. Việc này giống như việc học sinh học tài liệu mới bằng cách nghiên cứu các bài kiểm tra cũ có chứa cả câu hỏi và câu trả lời. Sau khi đã luyện tập đủ các bài kiểm tra cũ, học sinh sẽ sẵn sàng để làm bài kiểm tra mới. Các hệ thống học máy này "được giám sát" theo nghĩa là con người cung cấp dữ liệu cho hệ thống học máy cùng với kết quả chính xác đã biết.

Hai trong số các trường hợp sử dụng phổ biến nhất của chế độ học có giám sát là hồi quy và phân loại.

Hồi quy

Mô hình hồi quy dự đoán một giá trị số. Ví dụ: một mô hình thời tiết dự đoán lượng mưa, tính bằng inch hoặc milimét, là mô hình hồi quy.

Xem bảng dưới đây để biết thêm ví dụ về mô hình hồi quy:

Trường hợp Dữ liệu đầu vào có thể có Dự đoán dạng số
Giá nhà trong tương lai thước vuông, mã bưu chính, số phòng ngủ và phòng tắm, kích thước lô đất, lãi suất thế chấp, thuế suất bất động sản, chi phí xây dựng và số nhà bán trong khu vực. Giá của ngôi nhà.
Thời gian đi trong tương lai Tình hình giao thông trước đây (thu thập từ điện thoại thông minh, cảm biến giao thông, dịch vụ đi chung xe và các ứng dụng chỉ đường khác), khoảng cách từ điểm đến và điều kiện thời tiết. Thời gian tính bằng phút và giây để đến một điểm đến.

Phân loại

Mô hình phân loại dự đoán khả năng một nội dung nào đó thuộc về một danh mục. Không giống như mô hình hồi quy, có kết quả đầu ra là một số, các mô hình phân loại sẽ đưa ra một giá trị cho biết liệu nội dung nào đó có thuộc một danh mục cụ thể hay không. Ví dụ: các mô hình phân loại được dùng để dự đoán liệu một email có phải là thư rác hay không hoặc một bức ảnh có chứa con mèo hay không.

Các mô hình phân loại được chia thành 2 nhóm: phân loại nhị phân và phân loại nhiều lớp. Các mô hình phân loại nhị phân sẽ đưa ra một giá trị từ một lớp chỉ chứa hai giá trị, chẳng hạn như một mô hình cho ra rain hoặc no rain. Các mô hình phân loại nhiều lớp sẽ xuất ra một giá trị từ một lớp chứa nhiều hơn 2 giá trị, chẳng hạn như một mô hình có thể xuất rain, hail, snow hoặc sleet.

Kiểm tra kiến thức

Nếu bạn muốn sử dụng mô hình học máy để dự đoán mức sử dụng năng lượng cho các toà nhà thương mại, bạn sẽ sử dụng loại mô hình nào?
Hồi quy
Mức sử dụng năng lượng được đo bằng kilowatthours (kWh). Đây là một con số, vì vậy, bạn nên dùng mô hình hồi quy.
Phân loại
Mô hình phân loại dự đoán liệu nội dung nào đó có thuộc một danh mục hay không, trong khi mô hình hồi quy sẽ dự đoán một con số. Vì mức sử dụng năng lượng được đo bằng kilowatt-giờ (kWh), đây là một con số, nên bạn cần sử dụng mô hình hồi quy.

Học không giám sát

Các mô hình học không được giám sát đưa ra thông tin dự đoán bằng cách được cung cấp dữ liệu không chứa bất kỳ câu trả lời chính xác nào. Mục tiêu của mô hình học tập không được giám sát là xác định các mẫu có ý nghĩa trong số dữ liệu. Nói cách khác, mô hình này không có gợi ý về cách phân loại từng phần dữ liệu, mà phải suy ra các quy tắc riêng của mình.

Một mô hình học tập thường dùng không có giám sát, sử dụng kỹ thuật phân cụm. Mô hình này sẽ tìm các điểm dữ liệu phân cách các nhóm tự nhiên.

Hình ảnh hiển thị các chấm màu trong cụm.

Hình 1 Một mô hình học máy phân cụm các điểm dữ liệu tương tự nhau.

Hình ảnh hiển thị các chấm có màu sắc thành từng cụm được đóng thành một hình dạng và đường viền nhau.

Hình 2. Các nhóm cụm có phân cách tự nhiên.

Việc phân nhóm khác với cách phân loại vì bạn không xác định được các danh mục. Ví dụ: một mô hình không được giám sát có thể nhóm một tập dữ liệu thời tiết dựa trên nhiệt độ, cho thấy các phân đoạn xác định các mùa. Sau đó, bạn có thể cố gắng đặt tên cho các cụm đó dựa trên sự hiểu biết của bạn về tập dữ liệu.

Hình ảnh hiển thị các chấm có màu thành từng cụm được gắn nhãn là tuyết, mưa, mưa đá và không có mưa.

Hình 3. Một mô hình học máy phân nhóm các kiểu thời tiết tương tự nhau.

Hình ảnh hiển thị các chấm có màu sắc thành từng cụm được gắn nhãn là tuyết, mưa, mưa đá và không có mưa được kết hợp theo một hình và đường viền với nhau.

Hình 4. Các cụm mô hình thời tiết được gắn nhãn là tuyết, mưa tuyết, mưa và không có mưa.

Kiểm tra kiến thức

Điểm khác biệt giữa phương pháp được giám sát và phương pháp không được giám sát là gì?
Phương pháp giám sát là phương pháp được cung cấp dữ liệu chứa câu trả lời chính xác.
Phương pháp giám sát là phương pháp được cung cấp dữ liệu chứa câu trả lời chính xác. Công việc của mô hình là tìm các kết nối trong dữ liệu tạo ra câu trả lời chính xác. Phương pháp không được giám sát nhận dữ liệu mà không có câu trả lời chính xác. Nhiệm vụ của phần này là tìm các nhóm trong dữ liệu.
Phương pháp được giám sát thường dùng phương pháp phân cụm.
Phương pháp không được giám sát sẽ sử dụng phương pháp phân cụm.
Phương pháp không được giám sát biết cách gắn nhãn các cụm dữ liệu.
Phương pháp không được giám sát sẽ không biết các cụm dữ liệu có ý nghĩa gì. Dựa trên hiểu biết của bạn về dữ liệu, bạn có quyền xác định dữ liệu.

Học tăng cường

Mô hình học tăng cường đưa ra dự đoán bằng cách nhận phần thưởng hoặc hình phạt dựa trên các hành động được thực hiện trong một môi trường. Hệ thống học tăng cường sẽ tạo ra một chính sách xác định chiến lược tốt nhất để nhận được nhiều phần thưởng nhất.

Phương pháp học tăng cường được dùng để huấn luyện rô-bốt thực hiện các nhiệm vụ, chẳng hạn như đi quanh phòng và các chương trình phần mềm như AlphaGo để chơi trò chơi Go.

AI tạo sinh

AI tạo sinh là một lớp mô hình tạo nội dung từ hoạt động đầu vào của người dùng. Ví dụ: AI tạo sinh có thể tạo ra những hình ảnh độc đáo, bản sáng tác nhạc và truyện cười; có thể tóm tắt các bài viết, giải thích cách thực hiện một việc cần làm hoặc chỉnh sửa ảnh.

AI tạo sinh có thể lấy nhiều đầu vào và tạo ra nhiều đầu ra, chẳng hạn như văn bản, hình ảnh, âm thanh và video. Bạn cũng có thể sử dụng và tạo ra những tổ hợp những yếu tố này. Ví dụ: một mô hình có thể lấy hình ảnh làm dữ liệu đầu vào rồi tạo một hình ảnh và văn bản làm dữ liệu đầu ra, hoặc lấy hình ảnh và văn bản làm dữ liệu đầu vào rồi tạo một video đầu ra.

Chúng ta có thể thảo luận về các mô hình tạo sinh theo dữ liệu đầu vào và đầu ra của chúng, thường được viết dưới dạng "loại đầu vào"-to-"loại đầu ra". Ví dụ: sau đây là danh sách chưa đầy đủ về một số dữ liệu đầu vào và đầu ra cho các mô hình tạo sinh:

  • Chuyển văn bản thành văn bản
  • Chuyển văn bản thành hình ảnh
  • Chuyển văn bản thành video
  • Chuyển văn bản thành mã
  • Chuyển văn bản sang lời nói
  • Hình ảnh và văn bản với hình ảnh

Bảng sau đây liệt kê ví dụ về mô hình tạo sinh, dữ liệu đầu vào và ví dụ về đầu ra mà các mô hình đó có thể tạo ra:

Mẫu Đầu vào Kết quả ví dụ
Chuyển văn bản thành văn bản Ai phát minh ra cuộc đua Le Mans? Giải đua 24 giờ Le Mans thành lập bởi Automobile Club de l'Ouest (ACO), một tổ chức đua xe mô tô thành lập vào năm 1906. Cuộc đua đầu tiên được tổ chức vào ngày 26 và 27 tháng 5 năm 1923 trên đường Sarthe Circuit dài 13,426 km (8,345 dặm) nằm gần thị trấn Le Mans của Pháp. Ban đầu, cuộc đua này được nghĩ để quảng bá ACO và vùng Sarthe.
Nguồn: Bard
Chuyển văn bản thành hình ảnh Một con bạch tuộc ngoài hành tinh lơ lửng qua cánh cổng đang đọc báo. Hình ảnh một con bạch tuộc hoạt hình.
Nguồn: Imagen
Chuyển văn bản thành video Một chú gấu bông giống ảnh thực đang bơi giữa đại dương ở San Francisco. Chú gấu bông đi dưới nước. Chú gấu bông tiếp tục bơi dưới nước cùng những chú cá sặc sỡ. Một chú gấu gấu trúc đang bơi dưới nước. Video về một chú gấu bông đang bơi dưới nước.
Nguồn: Phenaki
Chuyển văn bản thành mã Viết vòng lặp Python lặp lại qua danh sách các số và in các số nguyên tố.
for number in numbers:
  # Check if the number is prime.
  is_prime = True
  for i in range(2, number):
    if number % i == 0:
        is_prime = False
        break
  # If the number is prime, print it.
  if is_prime:
    print(number)

Nguồn: Bard
Chuyển hình ảnh thành văn bản Hình ảnh một con chim hồng hạc. Đây là tiếng chim hồng hạc. Chúng được tìm thấy ở Caribbean.
Nguồn: Google DeepMind

AI tạo sinh hoạt động như thế nào? Ở cấp độ cao, các mô hình tạo sinh sẽ học các mẫu trong dữ liệu để tạo ra dữ liệu mới nhưng tương tự như vậy. Mô hình tạo sinh sẽ có dạng như sau:

  • Những diễn viên hài học cách bắt chước người khác bằng cách quan sát hành vi và phong cách nói chuyện của mọi người
  • Các nghệ sĩ học vẽ theo một phong cách cụ thể bằng cách nghiên cứu nhiều tranh vẽ theo phong cách đó
  • Hãy hát lại cho những ban nhạc biết cách nghe giống một nhóm nhạc cụ thể bằng cách nghe rất nhiều nhạc của nhóm đó

Để tạo ra kết quả độc đáo và sáng tạo, ban đầu, các mô hình tạo sinh sẽ được huấn luyện bằng phương pháp không được giám sát. Trong đó, mô hình sẽ học cách bắt chước dữ liệu mà nó được huấn luyện. Đôi khi, mô hình được huấn luyện thêm bằng cách sử dụng phương pháp học có giám sát hoặc tăng cường đối với những dữ liệu cụ thể liên quan đến các công việc mà mô hình có thể được yêu cầu thực hiện, chẳng hạn như tóm tắt một bài viết hoặc chỉnh sửa ảnh.

AI tạo sinh là một công nghệ phát triển nhanh chóng với các trường hợp sử dụng mới liên tục được phát hiện. Ví dụ: các mô hình tạo sinh đang giúp các doanh nghiệp tinh chỉnh hình ảnh sản phẩm thương mại điện tử của họ bằng cách tự động xoá nền không cần thiết hoặc cải thiện chất lượng của hình ảnh có độ phân giải thấp.