Problem verstehen

Führen Sie die folgenden Aufgaben aus, um das Problem zu verstehen:

  • Nennen Sie das Ziel für das Produkt, das Sie entwickeln oder refaktorieren.
  • Bestimmen Sie, ob das Ziel mit prädiktivem ML, generativen KI oder einer Nicht-ML-Lösung nutzen.
  • Prüfen Sie, ob Sie die erforderlichen Daten zum Trainieren eines Modells haben, wenn Sie ein prädiktiven ML-Ansatz.

Nennen Sie das Ziel.

Beginnen Sie damit, Ihr Ziel in anderen Worten als ML zu nennen. Das Ziel ist die Antwort auf die „Was versuche ich zu erreichen?“

In der folgenden Tabelle sind die Ziele für hypothetische Apps klar aufgeführt:

Anwendung Goal
Wetter App Berechnen Sie den Niederschlag für eine geografische Region in Sechs-Stunden-Schritten.
Mode-App Eine Vielzahl von T-Shirt-Designs erstellen.
Video-App Empfehlen Sie nützliche Videos.
E-Mail-App Erkennen Sie Spam.
Finanz-App Finanzinformationen aus verschiedenen Nachrichtenquellen zusammenfassen
Karten-App Die Reisezeit berechnen.
Banking-App Identifizieren Sie betrügerische Transaktionen.
Restaurant-App Kennzeichnen Sie die Küche anhand der Speisekarte eines Restaurants.
E-Commerce-App Beantworten Sie Rezensionen mit hilfreichen Antworten.

Klarer Anwendungsfall für ML

Für manche ist ML ein universelles Tool, das auf alle Probleme angewendet werden kann. In ist ML ein spezialisiertes Tool, das nur für bestimmte Probleme geeignet ist. Ich keine komplexe ML-Lösung implementieren wollen, wenn eine einfachere Nicht-ML-Lösung funktionieren.

ML-Systeme lassen sich in zwei große Kategorien unterteilen: vorhersehbares ML und generative KI: Die folgenden sind die wesentlichen Merkmale aufgelistet:

Eingabe Ausgabe Trainingsmethode
Prädiktives ML SMS an
senden Bild
Audio
Video
Numerisch
Trifft eine Vorhersage, z. B. durch die Klassifizierung eines E-Mails als Spam oder kein Spam versenden, den morgigen Regen erraten oder die Vorhersage des Aktienkurses. Die Ausgabe kann in der Regel mit der Realität abgeglichen werden. Üblicherweise werden zum Trainieren eines überwachten, unbeaufsichtigtem oder Reinforcement Learning-Modell, für eine bestimmte Aufgabe.
Generative AI SMS an
senden Bild
Audio
Video
Numerisch
Generiert eine Ausgabe basierend auf der Nutzerabsicht, z. B.: einen Artikel zusammenfassen oder einen Audioclip oder ein kurzes Video produzieren. Verwendet normalerweise viele Daten ohne Labels, um ein Large Language Model zu trainieren oder Bildgenerator, um fehlende Daten zu ergänzen. Das Modell kann dann für Aufgaben, die als ausgefüllte Aufgaben eingerahmt werden können. optimiert, indem es für eine bestimmte Aufgabe mit Daten mit Labels trainiert wird, z. B. Klassifizierung.

Um zu bestätigen, dass ML der richtige Ansatz ist, prüfen Sie zuerst, ob Ihre aktuelle Nicht-ML-Lösung -Lösung optimiert ist. Wenn Sie keine Nicht-ML-Lösung implementiert haben, manuelles Lösen des Problems mithilfe eines Heuristik.

Die Nicht-ML-Lösung ist die Benchmark, mit der Sie bestimmen, ob ML ein Anwendungsfall für Ihr Problem. Berücksichtigen Sie beim Vergleich die folgenden Fragen nicht-ML-Ansatz für ein ML-Modell:

  • Qualität: Wie viel besser kann eine ML-Lösung Ihrer Meinung nach sein? Wenn Sie dass eine ML-Lösung nur eine kleine Verbesserung ist, ist die aktuelle Lösung die beste.

  • Kosten und Wartung: Wie teuer ist die ML-Lösung sowohl in der kurz- und langfristig? In einigen Fällen sind die Kosten Rechenressourcen und Zeit für die Implementierung von ML benötigen. Berücksichtigen Sie dabei folgende Fragen:

    • Kann die ML-Lösung die höheren Kosten rechtfertigen? Beachten Sie, dass kleine Verbesserungen in großen Systemen die Kosten und Wartung der Implementierung einer ML-Lösung.
    • Wie viel Wartungsaufwand ist mit der Lösung erforderlich? In vielen Fällen wird ML Implementierungen erfordern eine langfristige Wartung.
    • Verfügt Ihr Produkt über die Ressourcen für Schulungen oder die Einstellung von Mitarbeitern? mit ML-Fachkenntnissen?

Wissenstest

Warum ist eine Nicht-ML-Lösung oder Heuristik wichtig, Analyse einer ML-Lösung?
Eine Nicht-ML-Lösung ist die Benchmark, an der eine ML-Lösung gemessen werden soll.
Mit Nicht-ML-Lösungen können Sie ermitteln, wie viel eine ML-Lösung kosten wird.

Prädiktives ML und Daten

Daten sind die treibende Kraft beim prädiktiven ML. Um Gutes zu tun Vervollständigungen benötigen Sie Daten, enthält Funktionen mit Vervollständigung Energie. Ihre Daten sollten folgende Eigenschaften haben:

  • Abundant: Je relevanter und nützlicher die Beispiele dataset, desto besser wie Ihr Modell aussehen wird.

  • Einheitlich und zuverlässig: Konstante und zuverlässige Daten die gesammelten Daten zu einem besseren Modell führen. Ein ML-basiertes Wetterbericht profitieren Sie von Daten, die über viele Jahre aus derselben zuverlässigen Instrumente.

  • Vertrauenswürdig. Verstehen Sie, woher Ihre Daten kommen. Werden die Daten von vertrauenswürdigen Quellen, die Sie kontrollieren, wie Protokollen Ihres Produkts aus Quellen stammen, über die Sie wenig Einblick haben, wie z. B. die Ausgabe einer anderen ML-System?

  • Verfügbar. Achten Sie darauf, dass alle Eingaben zur Vorhersagezeit in der korrektes Format. Wenn es schwierig ist, bestimmte Featurewerte der Vorhersagezeit, lassen Sie diese Features aus Ihren Datasets weg.

  • Korrekt. Bei großen Datasets ist es unvermeidlich, dass einige labels haben falsche Werte, Wenn jedoch mehr als ein kleiner Prozentsatz der Labels falsch ist, wird das Modell schlechte Vorhersagen zu treffen.

  • Vertreter. Die Datasets sollten so repräsentativ sein wie die tatsächlichen der Welt wie möglich zu machen. Mit anderen Worten, die Datasets sollten die die Ereignisse, das Nutzerverhalten und/oder die Phänomene der realen Welt modelliert wird. Das Training nicht repräsentativer Datasets kann zu schlechter Leistung führen wenn das Modell aufgefordert wird, reale Vorhersagen zu treffen.

Wenn Sie die benötigten Daten nicht im erforderlichen Format abrufen können, schlechte Vorhersagen.

Vorhersagekraft

Damit ein Modell gute Vorhersagen treffen kann, sollten die Features in Ihrem Dataset Vorhersagekraft. Je enger ein Element mit einem Label korreliert, desto wahrscheinlicher sie vorherzusagen.

Einige Funktionen bieten mehr Vorhersageleistung als andere. Beispiel: In einer Wetter-Dataset, Features wie cloud_coverage, temperature und dew_point wäre ein besserer Indikator für Regen als moon_phase oder day_of_week Für das Beispiel einer Video-App könnten Sie die Hypothese aufstellen, dass wie video_description, length und views könnten gute Prädiktoren für welche Videos sich Nutzer ansehen möchten.

Seien Sie sich bewusst, dass sich die Vorhersagekraft einer Funktion ändern kann, da der Kontext oder Domainänderungen. In der Video-App kann beispielsweise eine Funktion wie upload_date kann – im Allgemeinen – nur schwach mit dem Label korrelieren. In Subdomain von Gaming-Videos, könnte upload_date stark mit Label hinzufügen.

Herauszufinden, welche Features eine Vorhersagefunktion haben, kann zeitaufwändig sein . Sie können die Vorhersagekraft eines Features manuell untersuchen, indem Sie während Sie ein Modell trainieren. Sie können die Suche nach einem Feature Vorhersagekraft mithilfe von Algorithmen wie Pearson-Korrelation Adjusted Muual Information (AMI), und Shapley-Wert die eine numerische Bewertung für die Analyse der Vorhersagekraft eines feature.

Wissenstest

Welche drei wichtigen Attribute sollten Sie bei der Analyse Ihrer Datasets beachten? wonach Sie suchen?
Repräsentativ für die reale Welt.
Enthält korrekte Werte.
Elemente können das Label vorhersagen.
Klein genug, um auf einen lokalen Computer zu laden.
Aus einer Vielzahl unvorhersehbarer Quellen bezogen.

Weitere Anleitungen zum Analysieren und Vorbereiten Ihrer Datasets finden Sie unter Data Preparation and Feature Engineering for Machine Learning.

Vorhersagen im Vergleich zu Aktionen

Es ist sinnlos, etwas vorherzusagen, wenn Sie die Vorhersage nicht in eine Aktion, die Nutzenden hilft. Das heißt, Ihr Produkt sollte vom mit der Modellausgabe.

Zum Beispiel ein Modell, das vorhersagt, ob ein Nutzer ein Video nützlich finden wird. in eine App einspeisen, die nützliche Videos empfiehlt. Ein Modell, das vorhersagt ob es in einer Wetter-App regnen soll.

Wissenstest

Entscheiden Sie anhand des folgenden Szenarios, ob ML die beste Wahl ist. Herangehensweise an das Problem.

Ein Engineering-Team in einem großen Unternehmen ist für das Management eingehende Telefonanrufe.

Ziel: Anrufer sollen darüber informiert werden, wie lange sie in der Warteschleife bleiben. die aktuelle Anruflautstärke.

Es gibt dafür keine Lösung, glaubt aber, dass eine Heuristik die aktuellen Werte zu dividieren, Anzahl der in Warteschleifen befindlichen Kundschaft durch die Anzahl der Beschäftigten, die Anrufe entgegennehmen, und dann mit 10 Minuten multiplizieren. Sie können jedoch wissen sie, dass ihre Probleme bei einigen Kunden innerhalb von zwei Minuten gelöst sind, bei anderen bis zu 45 Minuten oder länger.

Ihre Heuristik liefert ihnen wahrscheinlich nicht genug genaue Zahlen. Sie kann ein Dataset mit folgenden Spalten erstellen: number_of_callcenter_phones, user_issue, time_to_resolve, call_time, time_on_hold

ML nutzen Das Engineering-Team hat ein klar definiertes Ziel. Ihr für ihren Anwendungsfall nicht gut genug ist. Das Dataset wird angezeigt um Vorhersagefunktionen für das Label time_on_hold zu erhalten.
Verwenden Sie ML nicht. Obwohl sie ein klar definiertes Ziel haben, zuerst eine Nicht-ML-Lösung implementieren und optimieren. Außerdem sind die Dataset scheint nicht genügend vorhersagende Merkmale zu enthalten.