Was ist BigQuery?

BigQuery ist ein Datenzentrum, das den massiven Umfang der Google Cloud-Architektur nutzt, um Daten auf Tausende von Knoten zu verteilen, wobei so viele Knoten verwendet werden, wie für die performante Ausführung einer Abfrage erforderlich sind. Im Unterschied zu anderen Datenbankdialekten, bei denen Sie einzelne Maschinen oder Speicherplatz auf Maschinen kaufen oder mieten, gibt es nur eine Instanz von BigQuery, die aus Tausenden von Knoten besteht und von allen Benutzern der Instanz gemeinsam genutzt wird.

Der enorme Umfang ermöglicht es BigQuery, selbst riesige, komplexe Abfragen in relativ kurzer Zeit durchzuführen. Folglich bleibt BigQuery auch dann noch responsiv, wenn Ihre Datensätze von Gigabyte auf Petabyte anwachsen.

Gründe für die Wahl von BigQuery

Schnell – Abfragen auf BigQuery sind nie langsam, unabhängig von der Größe der Daten oder der Komplexität der Abfrage, da die Architektur von BigQuery die Arbeitslast gleichmäßig auf so viele Knoten wie nötig verteilt.

Skalierbar – BigQuery basiert auf Googles Cloud Storage-Plattform, die so konzipiert ist, dass sie nahtlos auf Abfragen auf Petabyte-Ebene skaliert werden kann, wobei die gesamte Reprovisionierung der Cluster von Google übernommen wird und keine Feinabstimmung erforderlich ist.

Minimale Verwaltung – Der Einstieg in BigQuery und seine Pflege sind kinderleicht, weil die gesamte BigQuery-Instanz für Sie verwaltet wird. Es ist so einfach wie das Hochladen von Daten über die Google Cloud Web-Benutzeroberfläche und das Ausführen von Abfragen.

Für welche Anwendungsfälle ist BigQuery wirklich hervorragend geeignet?

Unternehmen mit umfangreichen und wachsenden Daten

Das Laden von Daten in BigQuery ist kostenlos, und das Speichern von Daten recht preiswert. Dies macht BigQuery attraktiv für Unternehmen, deren Datenvolumen schnell wächst. Und da es praktisch keine Grenze für die Datenmenge gibt, die in BigQuery gespeichert oder verarbeitet werden kann, ist die Abfrage eines Petabyte an Daten auf BigQuery so einfach wie die Abfrage eines Megabyte.

Teams mit begrenzten DevOps-Ressourcen

Da Google die gesamte Hardware und die Abfrageoptimierung von BigQuery übernimmt, ist BigQuery im Grunde wartungsfrei. Sie laden einfach Ihre Daten und beginnen mit der Abfrage.

Organisationen mit stark schwankenden Workloads

Die Bepreisung von BigQuery erfolgt auf Pay-per-Query-Basis. Das bedeutet, dass Sie nur für das bezahlen, was Sie nutzen. Wenn Sie also an einem Tag massiv Leistung brauchen und am nächsten Tag sehr wenig, dann ist BigQuery wahrscheinlich eine sehr gute Option.

Bevor Sie sich festlegen

Preise

BigQuery berechnet einen geringen Preis für die Datenspeicherung und einen gesonderten Preis, der auf den während der Abfrage gescannten Daten basiert (dies ist im Allgemeinen der größere Teil der Rechnung). Das bedeutet, dass es relativ kostengünstig ist, große Datensätze in BigQuery zu speichern, auch wenn sie nur selten abgefragt werden. Die echten Kosten entstehen bei der Verwendung dieser Daten.

BigQuery gibt eine Schätzung darüber ab, wie viele Daten gescannt werden, bevor eine Abfrage ausgeführt wird, aber in einigen Fällen können diese Schätzungen daneben liegen, was zu unerwarteten Kosten führen kann. Kostenkontrollen sind der zuverlässigste Weg, um Überraschungen auf Ihrer Rechnung zu vermeiden, da sie verhindern, dass Sie unbeabsichtigt Abfragen ausführen, die viele Daten scannen oder sehr komplex (und damit kostspieliger) sind.

Kostenkontrollen

Eine Sorge, die interessierte Unternehmen beim Preismodell von BigQuery haben, ist die Unvorhersagbarkeit der Abrechnungszyklen, da der Servicepreis von der Nutzung abhängig ist.

Aus diesem Grund erlaubt es BigQuery Kunden, sich für eine Preisgestaltungsfunktion namens Kostenkontrollen zu entscheiden, die eine vordefinierte Quote für die Anzahl der pro Tag mit dem Dienst verarbeiteten Bytes festlegt. Diese Grenzen können auf Projektebene festgelegt oder auf alle Benutzer hinweg angewandt werden.

Pauschale Preisgestaltung

Für größere Kunden, die keine Quoten durchsetzen wollen, aber dennoch ein vorhersehbares Abrechnungsmodell benötigen, bietet BigQuery Flatrate-Preise an, bei der eine vordefinierte Anzahl von Plätzen zugewiesen wird, die die Möglichkeit erhalten, unbegrenzte Abfragen ohne zusätzliche Kosten durchzuführen. Zusätzliche Plätze können ebenfalls zu einem Pauschalpreis hinzugefügt werden.

Pauschalkunden werden nach wie vor die Kosten für die Speicherung ihrer Daten in Rechnung gestellt, die Pauschale gilt nur für die mit der Datenabfrage verbundenen Kosten.

Pauschalpreise sind wirklich nur für größere Unternehmens-Accounts mit einer großen Anzahl von Benutzern sinnvoll, die regelmäßig viele große, teure Abfragen an die Datenbank stellen.

Kostenloses Ausprobieren

BigQuery ist im Free Tier der Google Cloud-Plattform enthalten, der potenziellen Kunden 300 USD zur Verfügung stellt, die sie über einen Zeitraum von 12 Monaten für ein beliebiges Google Cloud-Produkt ausgeben können. Dies ist zusätzlich zu den freien 1 TB pro Monat an verarbeiteten Daten und 10 GB an freiem Speicherplatz in BigQuery.

BigQuery wird mit einem großen Satz von vorgeladenen öffentlichen Datensätzen geliefert, auf die neue Benutzer des Dienstes sofortigen Zugriff haben und mit denen sie die Fähigkeiten des Dienstes austesten können. Die Arten von Daten in diesen öffentlichen Datensätzen reichen von Behördendaten (Serviceeinsätze des San Francisco Fire Department) über Unternehmensdaten (Daten zur Benutzeraktivität auf der gesamten Github-Website) bis hin zu Sportdaten (Major League Baseball-Daten).

Sie können auch auf den folgenden Beiträgen sehen, wie BigQuery mit Looker darauf abschneidet:

BigQuery-Datenbankarchitektur

Im Unterschied zu anderen Datenbankangeboten, die es Verbrauchern ermöglichen, eine private Instanz für sich selbst zu mieten oder zu kaufen, die aus beliebig vielen Maschinen ihrer Wahl besteht, ist BigQuery eine massive Instanz, die von Hunderttausenden von Maschinen getragen wird.

Dies ist wichtig, weil kein einzelner Account einen individuellen Rechner in BigQuery besitzt oder Zugriff darauf hat. Vielmehr wird bei jeder Abfrage die gesamte Rechenleistung der Instanz sekundenweise vermietet (ein Unterschied in der Funktionalität, der sich in einem Unterschied in den Preismodellen zwischen BigQuery und anderen Arten von MPP-Datenbanken widerspiegelt). Da BigQuery jederzeit die gesamte Instanz zur Verfügung hat, um sich Abfragen zu widmen, werden Abfragen schnell und konsistent zurückgegeben, unabhängig davon, wie groß oder komplex die Abfrage ist.

Das Google Cloud-Team hat einen hervorragenden Beitrag geschrieben, der die Architektur von BigQuery detaillierter beschreibt und ausführlich erklärt, wie verschiedene Teile des Stacks zusammenwirken, um ein nahtloses Erlebnis für Endnutzer zu schaffen. Eine wichtige Erkenntnis aus dem Beitrag ist, dass ein Großteil der Software im BigQuery-Stapel dieselbe Technologie ist, die Google für eine Vielzahl anderer Angebote wie Google Mail, Youtube und Search verwendet. Dies bedeutet, dass Google als Unternehmen in die konsequente Verbesserung der Leistung und Funktionalität der Software innerhalb des BigQuery-Datenstapels investiert ist.

Datentypen

BigQuery unterstützt CSV-, JSON-, Avro- und Cloud-Datenspeicher-Backups. BigQuery kann auch Google Sheets als eine Tabelle behandeln. Weitere Einzelheiten zu den unterstützten Datenformaten in BigQuery finden Sie hier.

Ein interessantes Merkmal von BigQuery ist die Unterstützung für geschachtelte Datensätze innerhalb von Tabellen, die im Grunde vorverbundene Tabellen innerhalb von BigQuery sind. Tabellen, die verschachtelte Datensätze enthalten, können ideal für konzeptionell hierarchische Daten (wie Aufträge und Artikel oder Sitzungen und Seitenaufrufe) sein und bieten mehrere interessante neue Möglichkeiten zur Datenmodellierung. Wie man verschachtelte Datensätze innerhalb einer BigQuery-Tabelle konstruiert, erfahren Sie vom Looker-Mitbegründer und CTO Lloyd Tabb hier.

Maximal empfohlene Datengröße

BigQuery kann Petabytes von Daten in einer einzigen Abfrage verarbeiten und ohne weiteres abfragen, aber die gesamte Architektur von BigQuery ist so ausgelegt, dass sie nahezu unendlich skalierbar ist. Den meisten BigQuery-Projekten werden 2,000 „Slots“ zugewiesen, so dass Sie bei der Ausführung komplexer Abfragen, die große Tabellen-JOINs beinhalten, in Ressourcenbeschränkungen laufen können, obwohl Scans großer Tabellen das tägliche Brot von BigQuery sind.

Implementierung von BigQuery

Da es keine Rechner gibt, die Sie mit BigQuery selbst verwalten müssen, und keine Schemadesign-Entscheidungen zu treffen sind, ist es so einfach, mit dem BigQuery-Datenbankservice anzufangen, wie ein Konto bei Google Cloud Platform zu erstellen, eine Tabelle über die Web-Benutzeroberfläche zu laden und eine Abfrage auszuführen.

Prozess für neue Daten

Sie können Daten aus verschiedenen Quellformaten laden, einschließlich CSV-, JSON-, Avro- und Google Cloud Datastore-Backupdateien.

Für Unterstützung beim Aufbau von ETL-Pipelines können Sie einen ETL-Partner nutzen, der sich in BigQuery integriert, wie z. B. Fivetran, Stitch und Matillion.

Wartung

BigQuery erfordert sehr wenig Wartung, da Google fast alles für Sie verwaltet. Da Sie eine einzelne massive Instanz gemeinsam nutzen, ist es nicht notwendig, Cluster hinsichtlich der Datengröße zu optimieren, Daten manuell neu zu verteilen, um die Ausführungsgeschwindigkeit von Abfragen zu erhöhen, oder Abfragepläne fein abzustimmen, um die bestmöglichen Ergebnisse zu erzielen.

Es gibt jedoch Möglichkeiten, wie Sie die Abfragekosten reduzieren können, insbesondere durch Partitionierung Ihrer Tabellen auf eine von mehreren Weisen.

Entdecken Sie Ihre Liebe zur Analytik.

Business Intelligence, Big-Data-Analyse oder eine 360°-Ansicht Ihrer Kunden.
Was auch immer Sie benötigen, Looker steht Ihnen zur Seite. Sprechen Sie einfach mit unseren Datenexperten.

Demo anfordern