Montag, 15. Juni 2020

Data Lake ist ein See - leider!

Im Zusammenhang mit dem modernen Verständnis für Informationen kommt manchmal der Begriff des Data Lakes ins Spiel. Die Vorstellung, dass alles Wissenswerte in eine große wasserdichte Grube gegeben wird, wo es eine Art See bildet. In dem man dann angeln kann.

Schönes Bild, es ist wie im Leben. Angeln ist für manche Menschen eine Leidenschaft, für andere eine stinklangweilige Angelegenheit. Und ob nachher der gewünschte Fisch am Haken hängt, das ist nicht unbedingt gesagt. An einem Tag geht man nach Stunden am See ohne Fang heim, ein anderes Mal hat man ständig etwas an der Angel, aber es ist die falsche Beute. Diese Eigenschaft haben sowohl natürliche Gebilde (Seen) als auch technische Konstruktionen (Data Lakes).

Die Analogie mit der Natur geht aber noch weiter, ein funktionierendes Ökosystem erfordert geeignete Randbedingungen. Ansonsten gerät das Gewässer aus dem Gleichgewicht, und glauben Sie mir: So einen Data Lake möchten Sie nicht haben. Alles hineinkippen ist kein See, aus dem man fischen möchte, sondern eine flüssige Mülldeponie.

Beginnen müssen wir mit dem gezielten Einleiten von Daten (sonst überdüngen wir), und schon in dieser Phase wie auch später ist die Qualität entscheidend. "Shit-in-shit-out" als Devise gilt auch hier. So wie nur klares, vielleicht sogar filtriertes Wasser für eine gute Basis sorgt.

Dann die Menge beachten, ein überfüllter Teich fördert nicht das Fischwachstum, hilft auch nicht beim Angeln, sondern lässt mehr oder weniger wertvolle Substanz versickern. Augenmaß bedeutet in dem Zusammenhang, dass man nur das nimmt, was man derzeit oder absehbar braucht. Oder legen Sie einen Stausee an, um zwei Familien gelegentlich mal mit einem Fisch zu erfreuen?

Und zu guter Letzt ist auch das Werkzeug entscheidend. Ohne bedienbare und für das anvisierte Ergebnis passende Tools ist der Nutzen eines Data Lakes so gering wie der eines Angelteichs ohne richtige Angel und den angemessenen Köder.

Keine Kommentare:

Kommentar veröffentlichen