Bei der Erkennung von Ausreißern oder Anomalien geht es darum, Muster in einem Datensatz zu finden, die inkonsistent sind oder sich erheblich vom Rest der Daten unterscheiden. Die Erkennung von Anomalien liefert oft wichtige Informationen in verschiedenen Anwendungsbereichen. Obwohl es mehrere Techniken zur Lösung dieser Aufgabe gibt, erweist sich die Auswahl des geeigneten Modells als schwierig. Um die richtige Entscheidung zu treffen, müssen mehrere Aspekte berücksichtigt werden. Ob die Daten sensible Informationen enthalten, ob sie verteilt oder mehrdimensional sind, spielt bei der Wahl des Modells eine wichtige Rolle.
Das Problem, mit dem wir uns in dieser Arbeit beschäftigen, ist die sichere Erkennung von Anomalien bei verteilten Daten. Wir werden uns mit Daten befassen, die sensible Informationen enthalten, die nicht Wir werden uns mit Daten befassen, die sensible Informationen enthalten, die nicht weitergegeben werden dürfen, und benötigen daher eine Technik zur Wahrung der Privatsphäre im Anomalieerkennungsprozess. Diese Daten werden nicht aus einer einzigen Informationsquelle stammen, sondern auf mehrere Knoten mit angeschlossenen Edge-Geräten verteilt sein.
Zunächst stellen wir bestehende Ansätze für die Erkennung von Anomalien und die Wahrung der Privatsphäre vor. Dann stellen wir den notwendigen Hintergrund für unser Modell vor und konzentrieren uns dabei auf Isolation Wälder und kryptographische Techniken. Anschließend stellen wir unser Modell namens SECURE-SERVERLESS vor: SECURE anomaly detection on SERVERLESS edge computing und diskutieren die Verbesserungen, die am ursprünglichen Algorithmus vorgenommen wurden. Wir analysieren das Verhalten des Modells auf verschiedenen Datensätzen, experimentieren mit verschiedenen Parameterwerten und schlagen Verbesserungen vor, um verschiedene herausfordernde Szenarien zu bewältigen.
Wir zeigen, dass wir mit dem vorgeschlagenen Modell für verschiedene Datensätze optimale Ergebnisse erzielen können. Dennoch müssen wir in einigen Fällen das Modell anpassen, um besser zu funktionieren. Wir zeigen, dass es von Vorteil sein kann, synthetische Daten zu verwenden (z. B. wenn wir zahlreiche Knoten haben, die nur auf einen kleinen Teil der Daten zugreifen können) oder mehrere geteilte Attribute (z. B. wenn Daten nicht optimal mit nur horizontalen und vertikalen Linien aufgeteilt werden können). Wir zeigen auch einen Zusammenhang zwischen den Parameterwerten auf und empfehlen, diese sorgfältig zu wählen, da sie für eine optimale Leistung entscheidend sind. Zu guter Letzt schlagen wir eine Architektur vor, die sich stark an den Begriffen Serverless und Edge Computing orientiert.
«
Bei der Erkennung von Ausreißern oder Anomalien geht es darum, Muster in einem Datensatz zu finden, die inkonsistent sind oder sich erheblich vom Rest der Daten unterscheiden. Die Erkennung von Anomalien liefert oft wichtige Informationen in verschiedenen Anwendungsbereichen. Obwohl es mehrere Techniken zur Lösung dieser Aufgabe gibt, erweist sich die Auswahl des geeigneten Modells als schwierig. Um die richtige Entscheidung zu treffen, müssen mehrere Aspekte berücksichtigt werden. Ob die Daten...
»