Apfelbäume produzieren eine Mischung aus großer Früchte und Würgen. Doch die Äpfel in exklusiven Lebensmittelgeschäften sind zu 100% perfekt. Jemand verbringt viel Zeit zwischen Obstgarten und Lebensmittel, böse Äpfel zu sprudeln oder etwas Wachs auf die geretteten Äpfel zu sprühen. Als ML-Entwickler verbringen Sie sehr viel Zeit damit, schlechte Beispiele auszusortieren und die geretteten Beispiele zu bereinigen. Selbst ein paar schlechte Äpfel können ein großes Dataset verderben.
Viele Beispiele in Datasets sind aufgrund eines oder mehrerer der folgenden Problemen:
Problemkategorie | Beispiel |
---|---|
Ausgelassene Werte | Eine Person aus der Volkszählung kann das Alter der dort ansässigen Personen nicht erfassen. |
Doppelte Beispiele | Ein Server lädt dieselben Protokolle zweimal hoch. |
Featurewerte außerhalb des Bereichs. | Ein Mensch gibt versehentlich eine zusätzliche Ziffer ein. |
Ungültige Labels | Ein Bewerter beschriftet ein Bild einer Eiche falsch als Maple. |
Sie können ein Programm oder Skript schreiben, um eines der folgenden Probleme zu erkennen:
- Ausgelassene Werte
- Doppelte Beispiele
- Featurewerte außerhalb des Bereichs
Das folgende Dataset enthält beispielsweise sechs wiederkehrende Werte:
Nehmen wir als weiteres Beispiel an, der Temperaturbereich für ein bestimmtes Element muss zwischen 10 und 30 Grad liegen. Aber es kommt immer wieder zu Unfällen. Das Thermometer ist vorübergehend der Sonne ausgesetzt, was einen schlechten Ausreißer verursacht. Dein Programm oder Skript muss Temperaturwerte unter 10 oder höher erkennen als 30:
Wenn Labels von mehreren Personen generiert werden, empfehlen wir statistische Es wird ermittelt, ob jeder Bewerter äquivalente Labels generiert hat. Vielleicht benotete ein Prüfer schärfer als die anderen oder hat Benotungskriterien anders?
Sobald sie erkannt wurden, Beispiele mit fehlerhaften Funktionen oder fehlerhafte Labels, indem Sie sie aus dem Dataset entfernen oder ihre Werte hinzufügen. Weitere Informationen finden Sie in der Dateneigenschaften des Abschnitts Datasets, Generalisierung und Überanpassung -Modul.