Tập hợp đội ngũ học máy

Các dự án học máy đòi hỏi các nhóm có thành viên có nhiều kỹ năng, chuyên môn và trách nhiệm liên quan đến học máy. Sau đây là những vai trò phổ biến nhất trong các nhóm học máy thông thường:

Vai trò Kiến thức và kỹ năng Thành phẩm chính
Nhà quản lý sản phẩm về học máy Nhà quản lý sản phẩm về máy học hiểu rõ điểm mạnh và điểm yếu của máy học cũng như quy trình phát triển máy học. Họ điều chỉnh các vấn đề kinh doanh cho phù hợp với giải pháp học máy bằng cách làm việc trực tiếp với nhóm học máy, người dùng cuối và các bên liên quan khác. Họ tạo ra tầm nhìn sản phẩm, xác định các trường hợp sử dụng và yêu cầu, đồng thời lập kế hoạch và ưu tiên các dự án. Tài liệu yêu cầu về sản phẩm (PRD).
Nhà quản lý kỹ thuật Nhà quản lý kỹ thuật đạt được mục tiêu kinh doanh bằng cách thiết lập, giao tiếp và đạt được các ưu tiên của nhóm. Giống như các nhà quản lý sản phẩm về học máy, họ điều chỉnh các giải pháp học máy cho phù hợp với các vấn đề kinh doanh. Họ đặt ra các kỳ vọng rõ ràng cho các thành viên trong nhóm, tiến hành đánh giá hiệu suất và hỗ trợ phát triển sự nghiệp cũng như chuyên môn. Tài liệu thiết kế, kế hoạch dự án và đánh giá hiệu suất.
Nhà khoa học dữ liệu Các nhà khoa học dữ liệu sử dụng phương pháp phân tích định lượng và thống kê để trích xuất thông tin chi tiết và giá trị từ dữ liệu. Các mô hình này giúp xác định và kiểm thử các tính năng, mô hình nguyên mẫu, đồng thời giúp tăng khả năng diễn giải mô hình. Báo cáo và hình ảnh dữ liệu giúp giải đáp các câu hỏi về hoạt động kinh doanh thông qua phân tích thống kê.
Kỹ sư học máy Kỹ sư học máy thiết kế, xây dựng, đưa vào sản xuất và quản lý các mô hình học máy. Họ là những kỹ sư phần mềm giỏi, có hiểu biết sâu sắc về các công nghệ máy học và các phương pháp hay nhất. Mô hình được triển khai có chất lượng dự đoán đủ để đáp ứng mục tiêu kinh doanh.
Kỹ sư dữ liệu Kỹ sư dữ liệu xây dựng quy trình dữ liệu để lưu trữ, tổng hợp và xử lý một lượng lớn dữ liệu. Các nhóm này phát triển cơ sở hạ tầng và hệ thống để thu thập và chuyển đổi dữ liệu thô thành các định dạng hữu ích cho việc huấn luyện và phân phát mô hình. Kỹ sư dữ liệu chịu trách nhiệm về dữ liệu trong toàn bộ quy trình phát triển công nghệ học máy. Quy trình dữ liệu được triển khai đầy đủ với các tính năng giám sát và cảnh báo cần thiết.
Kỹ sư vận hành dành cho nhà phát triển (DevOps) Kỹ sư DevOps phát triển, triển khai, mở rộng quy mô và giám sát cơ sở hạ tầng phân phát cho các mô hình học máy. Một quy trình tự động để phân phát, giám sát, kiểm thử và cảnh báo về hành vi của mô hình.

Các dự án học máy thành công có các nhóm với mỗi vai trò được thể hiện rõ ràng. Trong các nhóm nhỏ, các cá nhân sẽ cần phải xử lý trách nhiệm cho nhiều vai trò.

Thiết lập các phương pháp làm việc của nhóm

Vì các vai trò, công cụ và khung khác nhau rất nhiều trong quá trình phát triển công nghệ học máy, nên điều quan trọng là phải thiết lập các phương pháp chung thông qua tài liệu quy trình chất lượng cao. Ví dụ: một kỹ sư có thể nghĩ rằng chỉ cần có dữ liệu phù hợp là đủ để bắt đầu huấn luyện mô hình, trong khi một kỹ sư có trách nhiệm hơn sẽ xác thực rằng tập dữ liệu được ẩn danh chính xác và ghi lại siêu dữ liệu cũng như nguồn gốc của tập dữ liệu đó. Việc đảm bảo các kỹ sư chia sẻ định nghĩa chung về quy trình và mẫu thiết kế sẽ giúp giảm sự nhầm lẫn và tăng tốc độ của nhóm.

Tài liệu quy trình

Tài liệu quy trình phải xác định các công cụ, cơ sở hạ tầng và quy trình mà nhóm sẽ sử dụng để phát triển công nghệ học máy. Tài liệu quy trình tốt giúp điều chỉnh các thành viên mới và hiện tại của nhóm. Các câu hỏi này phải trả lời những loại câu hỏi sau:

  • Dữ liệu được tạo cho mô hình như thế nào?
  • Làm cách nào để kiểm tra, xác thực và trực quan hoá dữ liệu?
  • Làm cách nào để sửa đổi một đặc điểm đầu vào hoặc nhãn trong dữ liệu huấn luyện?
  • Làm cách nào để tuỳ chỉnh quy trình tạo, huấn luyện và đánh giá dữ liệu?
  • Làm cách nào để thay đổi cấu trúc mô hình cho phù hợp với các thay đổi về tính năng hoặc nhãn đầu vào?
  • Làm cách nào để lấy ví dụ kiểm thử?
  • Chúng ta sẽ sử dụng những chỉ số nào để đánh giá chất lượng mô hình?
  • Làm cách nào để phát hành mô hình trong môi trường sản xuất?
  • Làm cách nào để biết mô hình của chúng ta có vấn đề gì không?
  • Các mô hình của chúng tôi phụ thuộc vào những hệ thống thượng nguồn nào?
  • Làm cách nào để duy trì và sử dụng lại SQL?

Các câu hỏi khác có thể xảy ra

Mô hình
  • Tôi có thể huấn luyện mô hình trên nhiều tập dữ liệu trong cùng một quy trình không, chẳng hạn như để tinh chỉnh không?

  • Làm cách nào để thêm tập dữ liệu kiểm thử mới vào quy trình của tôi?

Chương trình đào tạo
  • Làm cách nào để kiểm tra kết quả dự đoán của mô hình trên một ví dụ được tạo thủ công?

  • Làm cách nào để tìm, kiểm tra và trực quan hoá các ví dụ mà mô hình đã mắc lỗi?

  • Làm cách nào để xác định tính năng nào đóng góp nhiều nhất vào một dự đoán nhất định?

  • Làm cách nào để biết những đặc điểm nào có tác động nhiều nhất đến dự đoán trong một mẫu nhất định?

  • Làm cách nào để tính toán hoặc lập biểu đồ dự đoán của mô hình trên một tập dữ liệu hoặc mẫu đã chọn?

  • Làm cách nào để tính toán các chỉ số chuẩn cho kết quả dự đoán của mô hình trên một tập dữ liệu đã chọn?

  • Làm cách nào để phát triển và tính toán các chỉ số tuỳ chỉnh?

  • Làm cách nào để so sánh mô hình của tôi với các mô hình khác khi không có mạng?

  • Tôi có thể thực hiện phân tích tổng hợp cho nhiều hoạt động đánh giá mô hình trong một môi trường phát triển không?

  • Tôi có thể so sánh mô hình hiện tại với mô hình cách đây 10 tháng không?

Triển khai, giám sát và bảo trì
  • Tôi nghĩ mình đã tạo một mô hình tốt. Làm cách nào để phát hành công khai?

  • Làm cách nào để xác minh rằng mô hình mới của tôi đang chạy chính xác trong môi trường thực tế?

  • Tôi có thể xem nhật ký đánh giá mô hình theo thời gian không?

  • Làm cách nào để biết khi nào mô hình gặp sự cố?

  • Tôi được giao một trang/lỗi đề cập đến một số nội dung về mô hình. Tôi cần làm gì?

Quy trình
  • Làm cách nào để tuỳ chỉnh quy trình tạo/huấn luyện/đánh giá dữ liệu?

  • Khi nào và làm cách nào để tạo một quy trình hoàn toàn mới?

SQL
  • Tôi cần SQL để tạo một số dữ liệu. Tôi nên đặt mã này ở đâu?

Cơ sở hạ tầng
  • Tính năng phân phát mô hình của chúng tôi hoạt động như thế nào? Có sơ đồ không?

  • Tôi nên lưu ý đến những hệ thống thượng nguồn nào mà mô hình của mình phụ thuộc vào?

Giao tiếp
  • Tôi không hiểu được điều gì đó. Tôi nên liên hệ với ai (và bằng cách nào)?

Lưu ý

"Các phương pháp hay nhất về học máy" có thể khác nhau giữa các công ty, nhóm và cá nhân. Ví dụ: một số thành viên trong nhóm có thể xem xét các Colab thử nghiệm là sản phẩm chính, trong khi những người khác muốn làm việc trong R. Một số người có thể đam mê kỹ thuật phần mềm, một số khác lại cho rằng việc giám sát là điều quan trọng nhất, nhưng một số khác lại biết đến các phương pháp sản xuất tính năng hiệu quả nhưng muốn sử dụng Scala. Mọi người đều "đúng" theo quan điểm riêng và nếu được điều hướng chính xác, bản phối sẽ trở thành một nguồn năng lượng mạnh mẽ. Nếu không, bạn có thể gặp rắc rối.

Việc thiết lập các công cụ, quy trình và cơ sở hạ tầng mà nhóm sẽ sử dụng trước khi viết một dòng mã có thể là sự khác biệt giữa việc dự án thất bại sau hai năm hoặc ra mắt thành công trước một quý so với lịch trình.

Đánh giá hiệu suất

Do tính chất mơ hồ và không chắc chắn vốn có của công nghệ học máy, các nhà quản lý nhân sự cần đặt ra rõ ràng kỳ vọng và xác định sớm các sản phẩm cần giao.

Khi xác định kỳ vọng và sản phẩm, hãy cân nhắc cách chúng sẽ được đánh giá nếu một dự án hoặc phương pháp không thành công. Nói cách khác, điều quan trọng là hiệu suất của một thành viên trong nhóm không liên quan trực tiếp đến sự thành công của dự án. Ví dụ: không có gì lạ khi các thành viên trong nhóm dành hàng tuần để điều tra các giải pháp cuối cùng không thành công. Ngay cả trong những trường hợp này, mã chất lượng cao, tài liệu kỹ lưỡng và khả năng cộng tác hiệu quả của họ vẫn sẽ đóng góp tích cực vào quá trình đánh giá.

Kiểm tra mức độ hiểu biết

Lý do chính để có tài liệu quy trình xuất sắc và thiết lập các phương pháp chung là gì?
Tăng tốc độ dự án.
Chính xác. Việc có tài liệu quy trình tốt và thiết lập các phương pháp phổ biến sẽ giúp giảm sự nhầm lẫn và đơn giản hoá quy trình phát triển.
Thiết lập các phương pháp hay nhất trên toàn công ty.
Vì hoạt động phát triển công nghệ học máy thay đổi tuỳ theo dự án, nên các nhóm thường thiết lập bộ phương pháp hay nhất của riêng mình để làm việc hiệu quả và tăng tốc độ.
Đảm bảo tất cả kỹ sư trong nhóm đều có cùng trình độ chuyên môn.
Các nhóm học máy thường có kỹ sư với nhiều kỹ năng và kiến thức. Tài liệu quy trình giúp các kỹ sư điều chỉnh theo các phương pháp hay nhất để tăng tốc độ.