Gestern war es endlich soweit:
Die Windows Azure HDInsight Preview wurde ins Windows Azure Management Portal integriert.
Somit können die Apache Hadoop Dienste jetzt direkt über das Portal erstellt und konfiguriert werden.
Durch die Integration der Windows Azure HDInsight Preview, lassen sich mit wenigen Mausklicks im Handumdrehen ein Hadoop-Cluster erstellen.
Somit kann im Bedarfsfall schnell ein passendes Hadoop-Cluster erstellt, die Daten analysiert und das Cluster dann wieder herunterfahren werden. So ergeben sich Kosteneinsparungen, die nur in einer Cloudumgebung möglich sind.
Dank der Integration mit der Microsoft-Datenplattform können die in Hadoop befindlichen Daten mit PowerPivot, Power View und anderen BI-Tools von analysiert werden.
Anmelden an der Preview
Über das Menü im Management Portal steht ein neuer Menüpunkt für die HDInsight Preview zur Verfügung:
Auch wer sich bereits an der vorherigen Hadoop-On-Azure Preview angemeldet hatte, muss dies erneut tun.
Dazu kann der Link im Menü oder der Preview Features Bereich in der Kontoverwaltung genutzt werden:
Hadoop-Cluster erstellen
Sobald man für die Preview die Bestätigungsemail erhalten hat, kann auch schon losgelegt werden.
Ein Windows Azure Storage Account erstellen
Zu Beginn benötigt mein ein Storage Account in der Region East US:
Wozu dieses benötigt man dieses Storage Account?
Normalerweise wird bei Hadoop das eigene verteilte Dateisystem HDFS (Hadoop Distributed File System) eingesetzt, um die Daten auf allen Serverknoten zur Verfügung zu stellen.
Microsoft geht mit Windows Azure HDInsight allerdings einen eigenen Weg.
Bereits in der Hadoop-On-Azure Preview konnte man auf den Windows Azure Blob Storage zugreifen.
Dazu musste man im Dashboard die Kachel "Manage Cluster" auswählen …
… und im Menüpunkt "Set up ASV" die Storage Account Zugangsdaten hinterlegen.
Somit konnte man über den asv:// Prefix auf den Windows Azure Blob Storage zugreifen, um beispielsweise die dort hinterlegten Daten für einen MapReduce-Job zu verwenden.
Die Abkürzung ASV steht für Azure Storage Vault
In der neuen Preview ist die Verwendung eines Storage Accounts die Voraussetzung für die Nutzung von Azure HDInsight.
Der große Vorteil dieser Architektur ist erneut die Kostenersparnis:
Da die Daten vom eigentlichen Hadoop-Cluster getrennt sind, wird das Cluster nur für die Analyse benötigt.
Nach der Analyse kann dieses wieder freigegeben werden, um so Kosten für Rechenzeit zu sparen.
HDInsight Servers anlegen
Über New -> Data Services -> HDInsight -> Quick Create kann anschließend ein neues Hadoop-Cluster erstellt werden:
Alternativ kann über New -> Data Services -> HDInsight -> Custom Create der Wizard gestartet werden. Hierbei können detailliertere Angaben für Installation vorgenommen werden, wie beispielsweise eine genauere Angabe der Data Nodes …
… oder der Benutzername des Administratorkontos.
Zu guter Letzt kann noch ein Speicherkonto und – wenn bereits vorhanden – ein Blob Storage Container ausgewählt werden.
Nachdem die Bereitstellung des Dienstes abgeschlossen ist, kann das HDInsight Dashboard über das Management Portal erreicht werden: