La grande quantité de données générées en ligne a permis aux scientifiques de données d'analyser ces informations et d'en tirer des conclusions dans divers domaines. Cependant, les données en temps réel sont souvent sujettes au déséquilibre, ce qui peut dégrader la qualité des données et pose un défi important dans le domaine de l'apprentissage automatique. Les techniques basées sur l'échantillonnage et les modèles basés sur les algorithmes sont deux méthodes principales utilisées pour traiter et équilibrer le déséquilibre des données. Cette thèse présente trois techniques distinctes pour gérer différents niveaux de déséquilibre dans les données en temps réel.L'approche initiale propose une technique basée sur l'échantillonnage intégrée au mécanisme de bagging pour gérer le déséquilibre des données. Le modèle identifie le déséquilibre des données par classe et effectue un suréchantillonnage pour chaque classe disponible. Le mécanisme de mise en sac implique la création de sous-ensembles de données d'apprentissage, visant à varier les niveaux de déséquilibre dans les données d'apprentissage afin de garantir une prédiction efficace. Malgré cela, l'effet du déséquilibre persiste dans le mécanisme de prédiction, entraînant la classification incorrecte de plusieurs classes minoritaires.
Bitte wählen Sie Ihr Anliegen aus.
Rechnungen
Retourenschein anfordern
Bestellstatus
Storno