Tập hợp đội ngũ học máy

Các dự án ML đòi hỏi các nhóm có các thành viên có nhiều kỹ năng, chuyên môn và trách nhiệm liên quan đến công nghệ học máy. Sau đây là những vai trò phổ biến nhất của các nhóm học máy điển hình:

Role Kiến thức và kỹ năng Sản phẩm chính
nhà quản lý sản phẩm học máy Nhà quản lý sản phẩm công nghệ học máy hiểu rõ về các điểm mạnh và điểm yếu của công nghệ học máy, cũng như về quy trình phát triển của công nghệ học máy. Họ giúp sắp xếp các vấn đề kinh doanh cho phù hợp với giải pháp học máy bằng cách chỉ đạo với nhóm ML, người dùng cuối và các bên liên quan khác. Họ là người xây dựng tầm nhìn cho sản phẩm, xác định trường hợp sử dụng và yêu cầu, đồng thời lập kế hoạch và sắp xếp mức độ ưu tiên cho các dự án. Tài liệu yêu cầu về sản phẩm (PRD).
Để xem ví dụ về PRD phát hiện hoạt động bất thường bằng công nghệ học máy, hãy xem phần PRD của tính năng phát hiện hoạt động bất thường.
Nhà quản lý kỹ thuật Người quản lý kỹ thuật đạt được mục tiêu kinh doanh bằng cách thiết lập, giao tiếp và đạt được các ưu tiên của nhóm. Giống như các nhà quản lý sản phẩm học máy, họ điều chỉnh các giải pháp học máy cho phù hợp với vấn đề kinh doanh. Họ đặt ra kỳ vọng rõ ràng cho các thành viên trong nhóm, đánh giá hiệu suất và hỗ trợ phát triển sự nghiệp và chuyên môn. Tài liệu thiết kế, kế hoạch dự án và bài đánh giá hiệu suất.
Để xem ví dụ về tài liệu thiết kế học máy, hãy truy cập vào go/ml-design-doc-example.
Nhà khoa học dữ liệu Các nhà khoa học dữ liệu sử dụng phương pháp phân tích định lượng và thống kê để trích xuất thông tin chi tiết và giá trị từ dữ liệu. Chúng giúp xác định và kiểm thử các tính năng, mô hình nguyên mẫu, cũng như hỗ trợ khả năng diễn giải của mô hình. Các báo cáo và hình ảnh trực quan dữ liệu giúp giải đáp các thắc mắc về kinh doanh thông qua dữ liệu phân tích thống kê.
kỹ sư công nghệ học máy Kỹ sư học máy thiết kế, xây dựng, sản xuất và quản lý các mô hình học máy. Họ là những kỹ sư phần mềm giỏi, có hiểu biết sâu sắc về các công nghệ học máy và các phương pháp hay nhất. Mô hình đã triển khai có đủ chất lượng dự đoán để đáp ứng các mục tiêu kinh doanh.
Kỹ sư dữ liệu Kỹ sư dữ liệu xây dựng các quy trình dữ liệu để lưu trữ, tổng hợp và xử lý một lượng lớn dữ liệu. Họ phát triển cơ sở hạ tầng và hệ thống để thu thập và chuyển đổi dữ liệu thô thành các định dạng hữu ích để huấn luyện và phân phát mô hình. Kỹ sư dữ liệu chịu trách nhiệm về dữ liệu trong toàn bộ quá trình phát triển công nghệ học máy. Các quy trình dữ liệu được sản xuất hoàn chỉnh với tính năng giám sát và cảnh báo cần thiết.
Kỹ sư vận hành dành cho nhà phát triển (DevOps) Các kỹ sư của DevOps là người phát triển, triển khai, mở rộng quy mô và giám sát cơ sở hạ tầng phân phát cho các mô hình học máy. Một quy trình tự động dùng để phân phát, giám sát, kiểm thử và cảnh báo về hành vi của một mô hình.

Những dự án ML thành công luôn có các nhóm trình bày rõ ràng từng vai trò. Trong các nhóm nhỏ, các cá nhân sẽ phải xử lý trách nhiệm cho nhiều vai trò. Trong những trường hợp như vậy, các công cụ AutoML như Vertex AI có thể trợ giúp bằng cách tự động hoá các công việc học máy, chẳng hạn như phát triển mô hình, tìm hiểu và triển khai.

Thiết lập các phương pháp của nhóm

Vì vai trò, công cụ và khung rất khác nhau trong quá trình phát triển công nghệ học máy, điều tối quan trọng là bạn phải thiết lập các phương pháp phổ biến thông qua tài liệu về quy trình hiệu quả. Ví dụ: một kỹ sư có thể cho rằng chỉ cần có được dữ liệu phù hợp là đủ để bắt đầu huấn luyện một mô hình, trong khi một kỹ sư có trách nhiệm hơn sẽ xác thực rằng tập dữ liệu được ẩn danh một cách chính xác và ghi lại siêu dữ liệu cũng như nguồn của tập dữ liệu đó. Việc đảm bảo các kỹ sư chia sẻ các định nghĩa phổ biến cho các quy trình và mẫu thiết kế sẽ giúp giảm sự nhầm lẫn và tăng tốc độ của nhóm.

Xử lý tài liệu

Tài liệu về quy trình phải xác định các công cụ, cơ sở hạ tầng và quy trình mà nhóm sẽ sử dụng để phát triển công nghệ học máy. Tài liệu về quy trình hiệu quả giúp thống nhất các thành viên hiện tại và thành viên mới trong nhóm. Họ phải trả lời các loại câu hỏi sau:

  • Dữ liệu được tạo cho mô hình như thế nào?
  • Làm cách nào để chúng tôi kiểm tra, xác thực và trực quan hoá dữ liệu?
  • Làm cách nào để sửa đổi một nhãn hoặc tính năng đầu vào trong dữ liệu huấn luyện?
  • Làm cách nào để tuỳ chỉnh quy trình tạo, huấn luyện và đánh giá dữ liệu?
  • Làm cách nào để thay đổi cấu trúc mô hình cho phù hợp với các thay đổi về nhãn hoặc tính năng đầu vào?
  • Làm cách nào để chúng tôi có được ví dụ về kiểm thử?
  • Chúng ta sẽ dùng những chỉ số nào để đánh giá chất lượng mô hình?
  • Làm cách nào để ra mắt các mô hình trong quá trình sản xuất?
  • Làm cách nào để chúng tôi biết có vấn đề với mô hình hay không?
  • Mô hình của chúng tôi phụ thuộc vào hệ thống ngược dòng nào?
  • Làm cách nào để SQL có thể bảo trì và sử dụng lại?

Bạn có thể xem tài liệu của Google có danh sách các câu hỏi này tại go/ml-list-of-questions.

Câu hỏi tiềm năng khác

Kiểu máy
  • Tôi có thể huấn luyện các mô hình trên các tập dữ liệu khác nhau trong cùng một quy trình, chẳng hạn như để tinh chỉnh không?

  • Làm cách nào để thêm tập dữ liệu thử nghiệm mới vào quy trình của tôi?

Đào tạo
  • Làm cách nào để kiểm tra dự đoán của mô hình trên ví dụ được làm thủ công?

  • Làm cách nào để tìm, kiểm tra và trực quan hoá các ví dụ mà mô hình mắc lỗi?

  • Làm cách nào để xác định tính năng nào chịu trách nhiệm nhiều nhất cho một cụm từ gợi ý cụ thể?

  • Làm cách nào để biết được tính năng nào có tác động lớn nhất đến các cụm từ gợi ý trong một mẫu nhất định?

  • Làm cách nào để tính toán hoặc vẽ đồ thị các dự đoán của mô hình trên một tập dữ liệu hoặc mẫu đã chọn?

  • Làm cách nào để tính toán các chỉ số chuẩn cho thông tin dự đoán của mô hình trên một tập dữ liệu đã chọn?

  • Làm cách nào để phát triển và tính toán số liệu tuỳ chỉnh?

  • Làm cách nào để so sánh mô hình của tôi với các mô hình khác khi không có kết nối Internet?

  • Tôi có thể thực hiện phân tích tổng hợp để đánh giá nhiều mô hình trong một môi trường phát triển không?

  • Tôi có thể so sánh mô hình hiện tại với mô hình 10 tháng trước không?

Sản xuất, giám sát và bảo trì
  • Tôi nghĩ mình đã tạo ra một mô hình tốt. Làm cách nào để ra mắt bản phát hành công khai?

  • Làm cách nào để xác minh rằng mô hình mới của tôi đang chạy chính xác trong quá trình sản xuất?

  • Tôi có thể xem nhật ký đánh giá mô hình theo thời gian không?

  • Làm cách nào để biết khi mô hình có vấn đề?

  • Tôi được chỉ định một trang/lỗi đề cập đến điều gì đó về mô hình. Tôi cần làm gì?

Đường ống
  • Làm cách nào để tuỳ chỉnh quy trình tạo/đào tạo/đánh giá dữ liệu?

  • Khi nào và làm thế nào tôi nên tạo một quy trình hoàn toàn mới?

SQL
  • Tôi cần SQL để tạo một số dữ liệu. Tôi nên đặt mã này ở đâu?

Cơ sở hạ tầng
  • Mô hình phân phát của chúng ta hoạt động như thế nào? Có biểu đồ không?

  • Mô hình của tôi phụ thuộc vào hệ thống thượng nguồn nào mà tôi nên biết?

Giao tiếp
  • Tôi chưa hiểu. Tôi nên liên hệ với ai (và bằng cách nào)?

Lưu ý

Những yếu tố cấu thành "các phương pháp học máy hay nhất" có thể khác nhau giữa các công ty, nhóm và cá nhân. Ví dụ: một số thành viên trong nhóm có thể coi Colab thử nghiệm là khả năng phân phối chính, trong khi những thành viên khác lại muốn làm việc bằng R. Một số người có thể đam mê kỹ thuật phần mềm, một số người thì cho rằng giám sát là điều quan trọng nhất, tuy nhiên, có một số người nhận thức được các phương pháp sản xuất tính năng hiệu quả nhưng lại muốn sử dụng Scala. Mỗi người đều "đúng" theo quan điểm của riêng họ và nếu được hướng dẫn đúng cách, sự kết hợp sẽ là nguồn sức mạnh. Nếu không thì có thể là rất lộn xộn.

Việc thiết lập các công cụ, quy trình và cơ sở hạ tầng mà nhóm sẽ sử dụng trước khi viết một dòng mã có thể tạo nên sự khác biệt giữa việc dự án thất bại sau 2 năm hoặc khởi chạy thành công trước một phần tư lịch trình.

Đánh giá hiệu suất

Do sự không rõ ràng và không chắc chắn vốn có trong công nghệ học máy, người quản lý nhân sự cần đặt ra kỳ vọng rõ ràng và sớm xác định những kết quả có thể đạt được.

Khi xác định kỳ vọng và kết quả phân phối, hãy cân nhắc cách đánh giá nếu một dự án hoặc phương pháp không thành công. Nói cách khác, hiệu suất của một thành viên trong nhóm không liên quan trực tiếp đến sự thành công của dự án. Ví dụ: các thành viên trong nhóm thường dành hàng tuần để tìm hiểu các giải pháp nhưng cuối cùng vẫn không thành công. Ngay cả trong những trường hợp như vậy, mã chất lượng cao, tài liệu kỹ lưỡng và khả năng cộng tác hiệu quả vẫn góp phần tích cực vào việc đánh giá.