Chúng tôi phải chọn một số siêu tham số để xác định và đào tạo mô hình. Chúng tôi đã tin tưởng vào trực giác, ví dụ và các đề xuất phương pháp hay nhất. Tuy nhiên, lựa chọn đầu tiên của chúng tôi về các giá trị siêu thông số có thể không mang lại kết quả tốt nhất. Đó chỉ là cơ hội tuyệt vời để chúng tôi bắt đầu học. Mỗi vấn đề đều khác nhau và việc điều chỉnh các siêu tham số này sẽ giúp điều chỉnh mô hình của chúng tôi để thể hiện rõ hơn các đặc điểm cụ thể của vấn đề này. Hãy cùng xem một số siêu thông số mà chúng tôi sử dụng và ý nghĩa của việc điều chỉnh các thông số đó:
Số lớp trong mô hình: Số lớp trong mạng nơron là chỉ báo về độ phức tạp của mô hình đó. Chúng ta phải cẩn thận trong việc chọn giá trị này. Quá nhiều lớp sẽ cho phép mô hình tìm hiểu quá nhiều thông tin về dữ liệu huấn luyện, gây ra tình trạng quá mức. Quá ít lớp có thể hạn chế khả năng học tập của mô hình, dẫn đến tình trạng không phù hợp. Đối với các tập dữ liệu phân loại văn bản, chúng tôi đã thử nghiệm với MLP một, hai và ba lớp. Mô hình có hai lớp hoạt động tốt và trong một số trường hợp tốt hơn mô hình ba lớp. Tương tự, chúng tôi đã thử sepCNN với 4 và 6 lớp và các mô hình 4 lớp hoạt động rất tốt.
Số lượng đơn vị mỗi lớp: Các đơn vị trong một lớp phải lưu giữ thông tin để chuyển đổi mà một lớp thực hiện. Đối với lớp đầu tiên, điều này được thúc đẩy bởi số lượng tính năng. Trong các lớp tiếp theo, số lượng đơn vị phụ thuộc vào việc chọn mở rộng hoặc thu gọn bản trình bày từ lớp trước đó. Hãy cố gắng giảm thiểu việc mất thông tin giữa các lớp. Chúng tôi đã thử các giá trị đơn vị trong phạm vi
[8, 16, 32, 64]
và đơn vị 32/64 hoạt động tốt.Tỷ lệ bỏ qua: Lớp bỏ qua được sử dụng trong mô hình để chuẩn hoá. Mã này xác định tỷ lệ phần trăm dữ liệu đầu vào cần thả xuống để phòng ngừa tình trạng quá tải. Phạm vi đề xuất: 0,2 – 0,5.
Tốc độ học tập: Đây là tỷ lệ mà trọng số mạng nơron thay đổi giữa các lần lặp. Mức độ học tập cao có thể tạo ra những biến động lớn về trọng số, và chúng ta có thể không bao giờ thấy những giá trị tối ưu của các biến thể này. Tỷ lệ học tập thấp là tốt, nhưng mô hình sẽ cần nhiều lần lặp lại hơn để hội tụ. Bạn nên bắt đầu từ 1e-4, chẳng hạn như. Nếu quá trình đào tạo rất chậm, hãy tăng giá trị này. Nếu mô hình của bạn không học tập, hãy thử giảm tỷ lệ học tập.
Có một số siêu tham số bổ sung mà chúng tôi đã điều chỉnh dành riêng cho mô hình sepCNN của chúng tôi:
Kích thước hạt nhân: Kích thước của cửa sổ tích chập. Giá trị được đề xuất: 3 hoặc 5.
Thứ nguyên nhúng: Số thứ nguyên mà chúng ta muốn sử dụng để đại diện cho việc nhúng từ khóa, tức là kích thước của mỗi vectơ từ. Giá trị đề xuất: 50–300. Trong các thử nghiệm, chúng tôi đã sử dụng tính năng nhúng GloVe có 200 thứ nguyên với một lớp nhúng được đào tạo trước.
Hãy thử tìm hiểu những siêu liên kết này để tìm ra cách hiệu quả nhất. Sau khi chọn các tham số có hiệu suất cao nhất trong trường hợp sử dụng của mình, bạn có thể triển khai mô hình của mình.