Was ist eine On-Demand-MPP?

On-Demand-MPP-Datenbanken sind in der Cloud gehostete, analytische Data Warehouses, die ihre Größe je nach Schwierigkeit ihrer Workload dynamisch anpassen.

Um die Rechenressourcen automatisch entsprechend der Größe und Komplexität der Abfragen skalieren zu können, trennen die Architekturen dieser Datenbanken typischerweise den Speicher von der Rechenleistung. Für die Speicherung nutzen diese Datenbanken eine massive gemeinsam genutzte Cloud-Infrastruktur, die prinzipiell unbegrenzten Speicherplatz bietet (z. B. AWS S3, Azure Storage und Google Cloud Storage).

In vielen Fällen bieten sie die Möglichkeit, semistrukturierte oder unstrukturierte Daten sowie strukturierte Daten zu verarbeiten, die in Data Warehouses üblicherweise verwendet werden.

Obwohl On-Demand-MPP-Datenbanken enorm kompliziert sind, können sie aus Sicht der Endnutzer eigentlich recht einfach bedient werden. Dies liegt daran, dass die physische Hardware und viele (oder alle) der komplexen technischen Prozesse vom Cloud-Anbieter abgewickelt werden.​​​​​​​ Dadurch wird ein nahtloses Erlebnis für den Nutzer beim Hochladen und Abfragen der Daten gewährleistet.

Im Vergleich zu selbstverwalteten MPP-Datenbanken, bei denen der Nutzer für die Vergrößerung seines Clusters zur Steigerung der Speicher- oder Rechenleistung selbst verantwortlich ist, können On-Demand-Datenbanken leicht und in einigen Fällen automatisch hochskaliert werden. Wie in den meisten Fällen erleichtert Ihnen die Auslagerung der betrieblichen Abläufe die Arbeit, kann aber die Anpassungsoptionen für fortgeschrittenere Nutzer einschränken.

Wofür sind On-Demand-MPP-Datenbanken am besten geeignet?

Einheitliche Leistung unabhängig von der Größe Ihrer Daten

On-Demand-MPP-Datenbanken sind so konzipiert, dass so viele Rechenressourcen wie nötig zur effizienten Ausführung einer Abfrage herangezogen werden – unabhängig davon, wie groß die Abfrage oder der Datensatz ist. Für den Endnutzer bedeutet dies im Allgemeinen, dass Abfragen nie langsam sind.

Benutzerfreundlichkeit

Ein Großteil der Hardware und der komplexen technischen Vorgänge für diese Datenbanken wird vom Endnutzer abstrahiert, sodass Nutzer diese ohne große Hilfe von Dev/Ops hochfahren und verwalten können.

Minimale Verwaltung

Da der Speicherplatz im Grunde unbegrenzt ist und die Rechenressourcen leicht nach oben oder unten skaliert werden können (oder automatisch für Sie skaliert werden), benötigen diese Systeme viel weniger manuelle Arbeit als eine gewöhnliche selbstverwaltete Lösung.

Nutzungsabhängige Kosten

Zwar hat jede On-Demand-MPP-Datenbank ihre eigene Preisstruktur, jedoch besteht der Ansatz im Allgemeinen darin, variable Preise auf der Grundlage der Nutzung anzubieten, anstatt riesige Vorlaufkosten zu verursachen. Vor dem Hintergrund ihrer Benutzerfreundlichkeit sind sie daher auch besonders gut dafür geeignet, sie zu testen und in der Praxis zu prüfen.

Beliebte On-Demand-Datenbanklösungen

Datenbank-Architektur von On-Demand-MPP-Datenbanken

Speicher- und Rechenressourcen sind voneinander getrennt

Ein großer Unterschied zwischen On-Demand-MPP-Datenbanken und verwalteten MPP-Datenbanken besteht darin, dass Speicher- und Rechenressourcen bei On-Demand-Datenbanken voneinander getrennt sind.

Selbstverwaltete MPP-Datenbanken bestehen aus geclusterten Servern (oft als Knoten bezeichnet). Aus Effizienzgründen verfügt jeder Knoten über Speicher- und Rechenkapazitäten. Dies senkt zwar die Netzwerkkosten und Latenzzeiten, erfordert jedoch, dass mit zunehmender Rechenleistung auch der Speicherplatz vergrößert werden muss (und umgekehrt). Diese Art der Architektur wird als „Shared-Nothing-Architektur“ bezeichnet, da jeder Knoten über eigene Rechen- und Speicherressourcen verfügt.

On-Demand-MPP-Datenbanken hingegen teilen sich Speicher- und Rechenressourcen über die gesamte Instanz, sodass beide nahtlos mit der Anzahl und Größe der Abfragen skaliert werden können. Diese Architektur ermöglicht eine gleichbleibend schnelle Leistung unabhängig von der Datengröße und kann auch mehrere Compute-Cluster umfassen, um auf dieselben gespeicherten Daten zuzugreifen, ohne diese zu verschieben.​​​​​​​

Speicher skaliert nahtlos

Anstatt Datentabellen über einen Cluster von Knoten zu verteilen, nutzen On-Demand-MPP-Datenbanken massive gemeinsam genutzte Cloud-Objektspeicher, wie z. B. Amazon S3, Microsoft Azure Storage oder Google Cloud Storage als Speicher für die Aufbewahrung. Einer der Vorteile der Verwendung dieser Objektspeicher besteht darin, dass sie strukturierte, semistrukturierte und unstrukturierte Daten speichern können. Zwar unterscheiden sich die Möglichkeiten zur Verarbeitung dieser Daten von Datenbank zu Datenbank, jedoch können alle On-Demand-MPP-Datenbanken zumindest auf diese unstrukturierten Daten zugreifen und infolgedessen Funktionen für die zukünftige Bearbeitung dieser Daten hinzufügen.​​​​​​​

Diese Objektspeicher sind auch nahezu unbegrenzt skalierbar. Im Gegensatz zu einer verwalteten MPP-Architektur, bei der Speicherplatz auf den jeweilig auf dem Knoten verfügbaren Speicherplatz begrenzt ist (und manuell vergrößert werden muss, wenn der verfügbare Speicherplatz zur Neige geht), sind massive verteilte Objektspeicher wie S3 so konzipiert, dass sie immer zusätzlichen Platz für Ihre Daten zur Verfügung haben und beim Hinzufügen neuer Daten ohne erkennbare Auswirkungen auf die Leistung automatisch wachsen.

Rechenleistung skaliert nahtlos

Die Entkopplung von Speicher- und Rechen-Ressourcen ermöglicht es diesen Datenbanken, die Verarbeitungsleistung für einzelne Abfragen bedarfsabhängig zu skalieren. Elastische Datenbanken können riesige Verarbeitungsinfrastrukturen mit Hunderten oder Tausenden einzelner Knoten nutzen und die Verarbeitungsleistung dieser Knoten sekundenlang einzelnen Abfragen widmen.

Wenn die für diese Abfragen erforderliche Rechenleistung auf Hunderte von Knoten verteilt ist, bleibt die Antwortzeit der Abfrage unabhängig von ihrer Größe schnell. So können Sie bei Abfragen – egal ob Sie eine einfache Zählung von ein paar Millionen Zeilen, eine teure REGEX auf einer Tabelle mit 100 Milliarden Zeilen mit BigQuery oder eine Abfrage über Exabytes von in S3 gespeicherten Daten mit Redshift Spectrum durchführen – davon ausgehen, dass Ihre Abfrage in Sekunden oder Minuten beantwortet wird, nicht in Stunden oder Tagen.

Einschränkungen von On-Demand-MPP-Datenbanken

On-Demand-MPP-Datenbanken bieten Einfachheit und Effizienz auf Kosten von Flexibilität und Anpassungsmöglichkeiten. Wenn Ihnen also bei einer On-Demand-MPP-Datenbank die Anpassungsmöglichkeiten fehlen, dann wäre die naheliegendste Alternative eine selbstverwaltete MPP-Datenbank. Sollten Sie hingegen mit den dedizierten, für die Pflege einer selbstverwalteten MPP-Datenbank erforderlichen Ressourcen überfordert sein, dann sollten Sie als Alternative eine On-Demand-Datenbank in Betracht ziehen.

Der dramatische Kompromiss zwischen Vorteilen und Einschränkungen basiert auf der Architektur dieser Datenbanken. Verwaltete MPP-Datenbankpläne vermieten oder verkaufen Kunden einzelne Server oder Teile von Servern, die diese dann frei konfigurieren und anpassen können. On-Demand-Datenbanken hingegen leihen den Kunden die Verarbeitungsleistung ihres massiven Clusters für schnelle Abfragen, aber sie leihen den Kunden keine einzelnen Rechner, was die Möglichkeiten der Anpassung an die Bedürfnisse der Nutzer einschränkt.

Eine weitere Einschränkung ist die Visibilität Da Kunden keinen Zugriff auf einzelne Knoten innerhalb einer großen Infrastruktur wie S3 oder Google Cloud haben, ist es sehr schwierig, genau zu wissen, wo sich die Daten tatsächlich befinden. Über die Strukturierung einzelner Abfragen hinaus haben Datenbankadministratoren auch wenig Kontrolle über die Optimierung von Clustern oder die Feinabstimmung von Abfrageplänen.​​​​​​​

Optimierung von On-Demand-MPP-Datenbanken

Da die meisten oder alle Optimierungs-Tools für diese Datenbanken für den Endnutzer unsichtbar sind und von den Anbietern der Datenbank selbst verwaltet werden, gibt es nur sehr wenig Leistungsoptimierung, die bei einer elastischen Datenbank durchgeführt werden muss.

Daher weisen diese Datenbanken auch mit nur sehr wenig Anpassung eine konstant hohe Leistung auf. Allerdings muss man die Kosten stets im Auge behalten, da diese Datenbanken in der Regel nutzungsabhängig abgerechnet werden.​​​​​​​ Jede dieser Datenbanken bietet unterschiedliche Strategien zur Verringerung des Umfangs und der Komplexität der Arbeitsbelastung (und damit der Kosten). In unseren Leitfäden zu den einzelnen Datenbanken gehen wir näher auf diese ein.

Entdecken Sie Ihre Liebe zur Analytik.

Business Intelligence, Big-Data-Analyse oder eine 360°-Ansicht Ihrer Kunden.
Was auch immer Sie benötigen, Looker steht Ihnen zur Seite. Sprechen Sie einfach mit unseren Datenexperten.

Demo anfordern