Excel vs. Datenbanken in modernen Unternehmen

[22.03.2022]

Jeder kennt es, fast jeder nutzt es und die Grundfunktionalitäten sind seit Jahrzehnten gleich, Excel is here to stay. Warum das immer noch der Fall ist und teilweise auch in Zukunft noch so sein wird, erläutern wir in diesem Post.

 

1. Flexibilität hinsichtlich Design und Veränderung

In Excel können Daten unbeschränkt eingegeben werden. Das heißt, in jede Zelle können Daten eingetragen werden, ohne ein Muster oder eine Stuktur zu befolgen.

In Datenbanken müssen Daten in einer Matrix gespeichert werden, d.h. das Layout ist immer ein Produkt aus Zeilen und Spalten, z.B. eine 3 Zeilen x 4 Spalten Tabelle.

Auf Datenbankebene werden Daten immer pro Zeile eingelesen und angezeigt; man spricht hier von einem Datensatz, normalerweise identifiziert durch einen eindeutigen Datensatz Schlüssel. Dieser feste Zeilenbezug ist in Excel nicht vorhanden. Des Weiteren kann der Inhalt einer einzelnen Zelle nicht einfach so geändert werden, in Excel ist dies mit einem Klick möglich.

 

2. Datenqualität & Integrität

Wie bereits erwähnt, ist der Zelleninhalt in Excel leicht änderbar. Theoretisch können so auch Buchstaben in Zellen eingetragen werden, die keine Buchstaben enthalten sollten. Dies kann zu Fehlern führen, wenn eine solche Tabelle als Datengrundlage für Analysen dienen soll.

In Datenbanken wird eine Tabelle erst erstellt, bevor sie befüllt wird. Hierbei werden Datentypen und deren zulässige Einträge definiert. Beim Befüllen ist es somit unmöglich, Daten einzutragen, die nicht für die jeweiligen Spalten vorgesehen sind. Das obige Beispiel, einen Buchstaben in eine Spalte einzutragen die nur Zahlen enthalten soll, ist somit auf Datenbankebene nicht möglich.

 

3. Automatisierung

Um die obige Tabelle hinsichtlich Umsatz nach Artikel und KundenName zu analysieren, können wir in Excel eine einfache Pivot Tabelle aufstellen; auf Datenbank ist das gleiche mit einer leichten Abfrage (engl.: Query) möglich. Der Vorteil der Datenbank ist hier, dass die Daten, die als Grundlage dienen, einfach aktualisiert werden können und die Abfrage somit immer neue Resultate liefert, ohne, dass an ihr etwas geändert werden muss. In Excel müssten die Daten im obigen Beispiel erst ersetzt werden (den offensichtlichen Vorteil Excel an die Datenbank Tabelle anzubinden und dies als Quelle zu nutzen wird hier unterlassen) und dann kann die Pivot-Tabelle genutzt werden.

Kommt es zu Änderungen in einer Excel Tabelle, so müssen alle Beteiligten diese neue Excel Tabelle für ihre folgenden Auswertungen nutzen, da man sonst der Gefahr läuft, verschiedene Dateien mit unterschiedlichen Aussagen zu generieren. Durch Cloud Lösungen wie OneDrive, kann dies zwar Großteils vermieden werden, allerdings nicht hundertprozentig.

Im Vergleich werden Änderungen in einer Datenbanktabelle von allen Abfragen und Modellen berücksichtigt, die auf sie zugreifen (engl: downstream changes). Aus diesem Grund spricht man bei Datenbanktabellen und die Gesamtheit die als Data Warehouse (DWH) betitelt werden, oft von der Single-source-of-truth. Die Daten, die im DWH gespeichert sind, werden so als die singuläre Wahrheit gesetzt und alle Analysen werden von ihnen abgeleitet. Aus diesem Grund werden Datenbanken bzw. DWH‘s als backend von BI-Tools genutzt.

 

4. Skalierbarkeit & Infrastruktur

Des Weiteren geht Excel, je nach Komplexität der Abfrage, schon bei 100.000en Zeilen leicht in die Knie; eine Datenmenge, die in einer normalen Datenbank in unter einer Sekunde abfragbar ist. Allerdings müssen dafür bestimmte Voraussetzungen gegeben sein, wie Infrastruktur, Datenverfügbarkeit, Zugangsrechte und die nötigen Fähigkeiten des Ausführenden. Gerade eine ad-hoc Analyse für ein Datenset, dass nicht im DWH verfügbar ist, sollte in der Regel direkt in Excel oder, wenn es die Komplexität verlangt, in einer Programmiersprache wie Python durchgeführt werden.

 

5. Fazit

Für kleinere ad-hoc Analysen ist und bleib Excel ganz klar der Sieger. Bei größeren und/oder wiederkehrenden Analysen, sollte man versuchen, den Vorgang in einer Datenbank abzubilden. So können sowohl (menschliche) Ressourcen gespart, als auch die Fehlerquote reduziert werden. Außerdem fallen beim Abbilden des Prozesses auf Datenbankebene oft prozesstechnische Ineffizienzen auf, die im Zuge der Umstellung ebenfalls behoben werden können.

Autor Maximilian Löffel

Mehr über Maximilian Löffel

zurück zur Übersicht