文字分類演算法是各種軟體系統的核心,用來大量處理文字資料。電子郵件軟體會透過文字分類,判斷收到的郵件是傳送到收件匣還是被歸類為垃圾郵件資料夾。論壇採用文字分類,判斷留言是否遭檢舉為不當內容。
主題就是兩個主題的分類分類範例。在許多主題分類問題中,這個類別主要是以文字中的關鍵字為依據。
圖 1:主題分類是用於標記收到的垃圾郵件電子郵件,而這些電子郵件會歸類為垃圾郵件資料夾。
另一個常見的文字分類類型是情緒分析,其目標是識別文字內容的極度:它所代表的意見類型。例如以二元製的喜歡/不喜歡評分等更複雜的選項,例如 1 到 5 的星級評等。情緒分析的例子包括分析 Twitter 貼文,以判斷使用者是否喜歡《Black Panther》電影,或者推翻對於 Walmart 評論者新款 Nike 鞋款的一般大眾看法。
本指南將介紹幾個能夠協助您解決文字分類問題的重要機器學習最佳做法。這份報告將帶您瞭解下列事項:
- 運用機器學習技術解決文字分類問題的高階端對端工作流程
- 如何選擇文字分類問題的合適模型
- 如何使用 TensorFlow 導入所選模型
文字分類工作流程
以下概略說明用來解決機器學習問題的工作流程:
圖 2:解決機器學習問題的工作流程
以下各節將詳細說明各個步驟,以及如何實作文字資料。