Was ist selbstverwaltete MPP?

Selbstverwaltete MPP-Datenbanken sind leistungsstarke geclusterte Datenbanken, die eine enorme Anpassung, Flexibilität und Funktionalität ermöglichen. Diese müssen vom Kunden – üblicherweise von einem Datenbankadministrator oder einem DevOps-Team – manuell verwaltet werden.

Selbstverwaltete MPP-Datenbanken wurden zwar traditionell On-Premise bereitgestellt, jedoch verfügen diese Datenbanken heutzutage über die Flexibilität einer Bereitstellung in der Cloud. Dadurch ist eine noch größere Bandbreite an Einsatzmöglichkeiten gewährleistet.

Eine allen Datenbanken innerhalb der selbstverwalteten MPP-Kategorie gemeinsame Schlüsselkompetenz sind die ausgereiften SQL-Dialekte und Integrationen. Dies macht sie zu idealen Optionen innerhalb der Daten-Stacks von Unternehmen. Beispielsweise bieten HPE Vertica und Teradata leistungsfähige Verbindungen an Apache Hadoop. Diese Integrationen ermöglichen es diesen Datenbanken im Zusammenhang mit einer hohen Parallelität, Unternehmen mit einer großen Anzahl von Mitarbeitern zu unterstützen.

Wofür sind On-Premise-MPP-Datenbanken besonders gut geeignet?

Funktionalität parallel zu vorhandenen Datenbanktechnologien

Selbstverwaltete MPPs sind so konzipiert, dass sie sich in bestehende Datenbankdienste und Arbeitsabläufe wie Hadoop integrieren lassen und mit diesen zusammenarbeiten.​​​​​​​ Alle die Beispiele der selbstverwalteten Data-Warehouses gibt es schon seit vielen Jahren (Teradata), oder sie bauen auf bestehender Datenzentrum-Technologie auf und eignen sich insofern sehr gut für die Arbeitslasten von Unternehmen.

Flexibilität

Eines der wichtigsten Merkmale selbstverwalteter MPP-Datenbanken ist das Maß an Kontrolle, das sie Nutzern über die Auswahl der Hardware, die Tabellenarchitektur und -speicherung sowie über die Abfrageoptimierung ermöglichen. Wenn diese Optionen kenntnisreich und wirksam eingesetzt werden, dann können Unternehmen damit eine hochleistungsfähige und effiziente Struktur entwerfen.

Fortschrittliche Analytik

Viele selbstverwaltete MPP-Lösungen bieten ausgereifte SQL-Dialekte und weitreichende Integrationen für erweiterte Analysen und benutzerdefinierte Funktionen. Einige verfügen über spezielle analytische Fähigkeiten und Integrationen (wie z. B. die Geodaten- und maschinellen Lernbibliotheken von Vertica), die sie zu einer guten Wahl für spezifische analytische Arbeitsabläufe machen.

Beliebte selbstverwaltete Datenbanken

Selbstverwaltete Datenbankarchitektur

Shared-Nothing-Architektur

Jeder einzelne Knoten innerhalb einer selbstverwalteten MPP-Datenbank verfügt über eigene Speicher-, Arbeitsspeicher- und Rechenressourcen. Dies wird als „Shared Nothing“-Architektur bezeichnet, da Speicher- und Rechenressourcen nicht über das gesamte System hinweg gemeinsam genutzt werden.

Diese „Shared-Nothing-Architektur“ ermöglicht es, dass mehrere Knoten zur Bearbeitung einer Abfrage parallel arbeiten. Wenn eine Abfrage gestellt wird, erstellt ein leitender Knoten einen Plan und verteilt diesen an die einzelnen Knoten. Diese Knoten verarbeiten dann ihren Teil der Abfrage (und fordern benötigte Daten von anderen Knoten im Netzwerk an). Diese Zwischenergebnisse werden dann an den „ leitenden Knoten“ zurückgeschickt, der die Ergebnisse dann zusammenfasst.

Einschränkungen einer selbstverwalteten Datenbank

Selbstverwaltete MPP-Datenbanken bieten Ihnen Flexibilität und Anpassbarkeit. Jedoch übernehmen Sie dabei selbst die Verwaltung eines Teils der Komplexität. Sollten Sie also nicht über die Ressourcen zur Verwaltung einer Datenbank verfügen, dann sind Sie mit einer On-Demand-MPP-Datenbank vermutlich besser beraten. Wenn Ihnen jedoch die mangelnde Flexibilität einer On-Demand-Lösung nicht zusagt, dann könnte eine selbstverwaltete Lösung für Sie die bessere Wahl sein.

Optimierung einer verwalteten MPP-Datenbank

Verwaltete MPP-Datenbanken unterscheiden sich stark in der Art und Weise, wie sie optimiert werden können, da sie Unterschiede im Umgang mit Caching, Verteilung/Sortierung und Speicherung aufweisen. Wir gehen darauf in unseren Leitfäden zu den jeweiligen Datenbanken näher ein.

Aber einige allgemeine Leitlinien können hilfreich sein:

  • Flache oder denormalisierte Schemata ergeben weniger Joins, was die Parallelisierung und damit die Leistung von Abfragen verbessert.
  • Spaltenkodierung und -komprimierung sparen Speicherplatz und verbessern die Verarbeitungsgeschwindigkeit.​​​​​​​
  • Das effiziente Sortieren und Verteilen von Daten kann einen großen Unterschied in der Leistung machen.​​​​​​​
  • Vermeiden Sie Abfragen, die die meisten oder alle Spalten auf einmal betreffen, da das Abrufen jeder einzelnen Spalte zusätzliche Kosten verursacht.
  • Halten Sie die Tabellen sauber und geben Sie ungenutzten Platz mit entsprechenden Vacuum- und Purge-Richtlinien frei.
  • Halten Sie die Tabellenstatistiken auf dem neuesten Stand, um eine effiziente Planung von Abfragen zu ermöglichen.

Entdecken Sie Ihre Liebe zur Analytik.

Business Intelligence, Big-Data-Analyse oder eine 360°-Ansicht Ihrer Kunden.
Was auch immer Sie benötigen, Looker steht Ihnen zur Seite. Sprechen Sie einfach mit unseren Datenexperten.

Demo anfordern