Zunächst einmal gibt es einen sehr wichtigen Unterschied zwischen der Fähigkeit, einen "Snowden-ähnlichen" Schauspieler zu erkennen und einen zu verhindern. Soweit ich gesehen habe, erhebt Beehive keine Ansprüche auf Verhinderung, sondern scheint die Möglichkeit zu versprechen, Sie darauf aufmerksam zu machen, dass in Ihrem Netzwerk verdächtige Aktivitäten stattfinden. Sicher, nicht so gut, aber in einigen Forschungsgemeinschaften immer noch als "heiliger Gral" angesehen.
Vor diesem Hintergrund bin ich äußerst zweifelhaft, ob Beehive diese Erwartungen erfüllen kann. Maschinelles Lernen kann sehr gut komplexe Muster aus großen Datenstapeln mit zuverlässigen Identitäten extrahieren. Zum Beispiel ist die Unterscheidung zwischen Bildern von Katzen und Hunden äußerst zuverlässig. Wir alle können es 99 +% der Zeit tun, aber wenn ich sagen müsste, was der genaue Algorithmus ist, um 100x100 Pixel aufzunehmen und Katze gegen Hund zu bestimmen, hätte ich keine Ahnung, wie ich das tun würde. Aber ich kann Ihnen 100.000 solcher Bilder liefern und ML-Methoden eine Regel herausfinden lassen, die zuverlässig zwischen den beiden anhand der Werte von 100 x 100 Pixel unterscheidet. Wenn ich die Dinge richtig mache, sollten die von ML erstellten Regeln sogar für neue Bilder von Katzen und Hunden gelten, sofern keine großen Änderungen an den neuen Daten vorgenommen werden (dh wenn ich nur Labore und Tabby-Katzen in den Trainingsdaten verwendet habe, versuchen Sie, diese zu erhalten es, um einen Terrier zu identifizieren ... viel Glück). Das ist die Stärke von ML.
Das Ermitteln von "verdächtigem Verhalten" ist ein viel schwierigeres Problem. Wir haben nicht 100.000 Proben von bestätigtem schlechtem Verhalten, und wir haben nicht einmal wirklich 100.000 Proben von bestätigtem gutem Verhalten! Schlimmer noch, was eine gute ML-Methode war, die gestern funktioniert hat, funktioniert heute nicht mehr. Im Gegensatz zu Katzen und Hunden auf Fotos versuchen Gegner wirklich, Sie auszutricksen. Die meisten Leute, von denen ich weiß, dass sie an ML für Cybersicherheit arbeiten, haben akzeptiert, dass die Idee der rein automatisierten Erkennung derzeit außerhalb unserer Reichweite liegt. Vielleicht können wir jedoch Tools entwickeln, um sehr spezifische sich wiederholende Aufgaben zu automatisieren, die ein Sicherheitsanalyst immer wieder ausführen muss. Dadurch werden sie effizienter.
Vor diesem Hintergrund scheinen die Autoren von Beehive diese Lektion übersprungen zu haben und behaupten, dass sie dieses Problem gelöst haben. Ich bin sehr misstrauisch gegenüber der Leistung, insbesondere angesichts der Tatsache, dass die von ihnen vorgeschlagenen Methoden die ersten sind, die ein ML-Forscher möglicherweise versucht, routinemäßig als nicht nützlich abzulehnen. Sie schlagen beispielsweise vor, PCA zu verwenden, um Ausreißer in Protokollen zu identifizieren. Dies und Variationen davon wurden hundertmal versucht, und das Ergebnis ist immer, dass der Sicherheitsanalyst die "automatisierte Erkennung" abschaltet, weil sie so viele Fehlalarme erhalten, dass sie viel mehr Zeit kosten als es spart.
Natürlich ist bei all diesen Methoden der Teufel das Detail, und die Details dieser Methodentypen werden in veröffentlichten Arbeiten nie wirklich offengelegt ("Wir haben PCA verwendet, um in Serverprotokollen nach Ausreißern zu suchen" extrem vage Aussage). Es ist immer möglich, dass sie eine super clevere Möglichkeit haben, die Daten vorzuverarbeiten, bevor sie ihre Methoden anwenden, die es nicht in das Papier geschafft haben. Aber ich wäre bereit, mit meinem rechten Arm darauf zu wetten, dass kein Benutzer von Beehive in der Lage sein wird, in Echtzeit zuverlässig zwischen "Snowden-ähnlichem" Verhalten und der nicht kontroversen realen Nutzung eines Netzwerks zu unterscheiden.