Flume mit LZO

Hier erfahrt ihr wie ihr den LZO Kompressionsalgorithmus in Cloudera Flume einrichtet.

Voraussetzung für diese Anleitung ist, dass ihr Flume und Hadoop LZO bereits bereits wie geschildert installiert habt:

[wiki]Hadoop mit LZO[/wiki]
[wiki]Cloudera Flume Installation[/wiki]

== LZO Bibliotheken ==
Wir müssen die LZO Dateien von Hadoop auch unter Flume bekannt machen. Beachtet, dass ihr im folgenden vielleicht den Ordnernamen Linux-amd64-64 ersetzen müsst.

Quellcode

# Copy the jar file
sudo cp /usr/lib/hadoop-0.20/lib/hadoop-lzo-*.jar /usr/lib/flume/lib/
# Copy the native library
sudo mkdir -p /usr/lib/flume/lib/native/Linux-amd64-64
sudo cp /usr/lib/hadoop-0.20/lib/native/Linux-amd64-64/*compression* /usr/lib/flume/lib/native/Linux-amd64-64

== LZO Bibliotheken bekannt geben ==
Damit Flume die nativen LZO Erweiterungen lädt, muss der native Ordner noch über den Java Library Pfad bekannt gegeben werden.
Dazu legen wir die Datei /usr/lib/flume/bin/flume-env.sh an, falls sie noch nicht existiert und fügen folgenden Inhalt hinzu.
Auch hier muss wieder darauf geachtet werden, dass die richtige Architektur verwendet wird.

Quellcode

export JAVA_LIBRARY_PATH=/usr/lib/flume/lib/native/Linux-amd64-64

== LZO Konfiguration ==
Nun muss LZO noch in der Flume Konfiguration aktiviert werden. Falls unter /etc/flume/conf/flume-site.xml noch keine Konfiguration vorhanden ist, dann orientiert euch an der Beispielkonfiguration unter /etc/flume/conf/flume-site.xml.template.

Folgende Einstellung muss hinzugefügt werden:

Quellcode

<property>
<name>flume.collector.dfs.compress.codec</name>
<value>LzopCodec</value>
<description>Writes formated data compressed in specified codec to
dfs. Value is None, GzipCodec, DefaultCodec (deflate), BZip2Codec,
or any other Codec hadoop is aware of </description>
</property>

Danach solltest ihr Flume neustarten:

Quellcode

for service in /etc/init.d/flume-*; do sudo $service restart; done

== Flume mit PHP ==
Solltet ihr auch der Anleitung [wiki]Flume mit PHP[/wiki] gefolgt sein, dann könnt ihr die LZO komprimierten Sequence Files auch über LZO einsehen.
Sie sollten dann wie im Screenshot aussehen:
easy-coding.de/Attachment/1123…0e0ce5f111d23e42dc0db2ae4

== Alte Flume Version? ==
Die Flume Version <= 0.9.3-CDH3B4 enthält noch Fehler im Umgang mit der Kompression.
In der Flume User Group wurden die Probleme erörtert und gelöst.

Ich beschreibe den Workaround hier, der beschreibt wie man die entsprechenden Dateien aus den Git Quellen patcht.

Quellcode

git clone https://github.com/cloudera/flume.git
cd flume
ant
sudo cp bin/flume /usr/lib/flume/bin/flume
sudo cp build/flume-*-test.jar /usr/lib/flume/lib/flume-*-test.jar
sudo cp build/flume-*-core.jar /usr/lib/flume/lib/flume-*-core.jar

Bilder

hue-flume-lzo.png
46,85 kB, 776×593, 1.043 mal angesehen

Quellcode

Quellcode

Quellcode

Quellcode

Quellcode

CSS für neue Projekte

AJAX: Bild bei Änderung nachladen

Apache Hadoop Installation

easy-coding.de Usertreffen

PHP Post Request mit File Upload

Inhalte mit AJAX & PHP nachladen

Autocomplete Tutorial mit jQuery

JavaScript von Google nutzen?

PreOrder Traversierung

Tiefensuche