Wie zum extrahieren von Daten aus Google Analytics und bauen ein data warehouse (webhouse) aus?
Habe ich Clickstream-Daten wie die Referrer-URL, top-landing-pages, die top-exit-pages und Metriken wie page Impressions, Anzahl der Besuche, springt alle in Google Analytics. Es gibt keine Datenbank, wo dennoch alle diese Informationen gespeichert werden können. Bin ich verpflichtet das erstellen eines data warehouse von Grund auf(was ich glaube, ist bekannt als web-house) aus diesen Daten.So brauche ich zum extrahieren von Daten aus Google Analytics und laden Sie es in ein Lager auf einer täglichen automatisierter basis. Meine Fragen sind:-
1)Ist es möglich? Jeden Tag Daten erhöht (einige in Bezug auf Kennzahlen oder Maßnahmen wie Besuche und einige in Bezug auf die neuen verweisende Websites), wie würde der Prozess der be-Lager gehen?
2), Was ETL-tool würde mir helfen, dies zu erreichen? Pentaho glaub ich noch eine Methode zum extrahieren der Daten aus Google Analytics, hat jemand es verwendet? Wie funktioniert dieser Prozess gehen?
Keine Verweise, links würde geschätzt werden, neben Antworten.
InformationsquelleAutor der Frage nkaur301 | 2010-05-18
Du musst angemeldet sein, um einen Kommentar abzugeben.
Wie immer, die Kenntnis der Struktur der zugrunde liegenden Transaktion Daten--die atomaren Komponenten zum Aufbau eines DW-ist der erste und größte Schritt.
Gibt es im wesentlichen zwei Möglichkeiten, basierend auf wie Sie die Daten abrufen. Einer von diesen, der bereits in einer vorherigen Antwort auf diese Frage, ist der Zugriff auf Ihre GA-Daten über die GA API. Das ist ziemlich nah an der form, wie die Daten angezeigt wird, in den GA-Bericht, eher als Transaktions-Daten. Der Vorteil der Verwendung dieses als Datenquelle ist, dass Ihre "ETL" ist sehr einfach, nur das Parsen der Daten aus dem XML-container ist über alles, was nötig ist.
Die zweite option beinhaltet grabbing werden die Daten viel näher an der Quelle.
Nichts kompliziertes, noch ein paar Zeilen von hintergrund sind vielleicht hilfreich hier.
Den GA-Dashboard erstellt wird
Parsen/filtern einer GA-Transaktion-log
(der container
das hält den GA-Daten
entspricht ein Profil in einer
Konto).
Jede Zeile in diesem Protokoll steht für einen
einzelne Transaktion und geliefert wird
auf dem GA-server in form einer
HTTP-Request vom client.
Angefügt, dass der Antrag (das ist
nominell für ein single-pixel-GIF)
eine einzelne Zeichenfolge, die enthält alle
die zurückgegebenen Daten aus, die
_TrackPageview-Funktion call-plus-Daten aus dem client-DOM, GA-cookies
legen Sie für diesen client, und das
Inhalt des Browsers Lage
bar (http://www....).
Obwohl dieser Antrag von der
client aufgerufen wird, indem Sie die GA
Skript (die sich auf dem client)
sofort nach Durchführung der GA in der Grundschule
Daten-Sammel-Funktion
(_TrackPageview).
So arbeiten direkt mit dieser Transaktion Daten ist wahrscheinlich die natürlichste Art und Weise zu errichten eines Data Warehouse; ein weiterer Vorteil ist, dass Sie vermeiden den zusätzlichen Aufwand eine zwischengeschaltete API).
Den einzelnen Zeilen der GA-log sind in der Regel nicht avaialble GA-Nutzer. Dennoch ist es einfacher, Sie zu bekommen. Diese beiden Schritte sollten ausreichen:
ändern der GA-tracking-code auf jeder Seite Ihrer Website so, dass es
sendet eine Kopie von jeder GIF-Anfrage
(eine Zeile in der GA logfile) auf Ihrer
eigene server, insbesondere
immeidately vor der Aufruf
_trackPageview(), fügen Sie diese Zeile:
Nächsten, nur setzen Sie einen single-pixel-gif
Bild in Ihrem Dokument, und rufen Sie root
es "__utm.gif".
So, jetzt Ihr server-Aktivitätenprotokoll enthält diese einzelnen transction Linien, wieder aufgebaut, aus einer Zeichenkette angehängt, um eine HTTP-Anforderung für den GA tracking pixel sowie aus anderen Daten in der Anforderung (z.B. der User-Agent-string). Das ehemalige string-ist nur eine Verkettung von Schlüssel-Wert-Paare, wobei jeder Schlüssel beginnt mit den Buchstaben "utm" (wahrscheinlich für "urching tracker"). Nicht jeder utm-parameter wird angezeigt, in jede GIF-Anfrage, einige von Ihnen, zum Beispiel, werden verwendet, nur für die e-commerce-Transaktionen--es hängt von der Transaktion.
Hier ist eine tatsächliche GIF Anfrage (Konto-ID wurde desinfiziert, sonst ist es intakt):
Wie Sie sehen können, ist dieser string besteht aus einer Reihe von Schlüssel-Wert-Paare jeweils getrennt durch ein "&". Nur zwei triviale Schritte: (i) Spaltung dieser string auf das kaufmännische und-Zeichen; und (ii) ersetzen jedes gif-parameter (key) mit einem kurzen beschreibenden Satz, machen diese viel einfacher zu Lesen:
gatc_version 1
GIF_req_unique_id 1669045322
language_encoding UTF-8
screen_resolution 1280 x 800
screen_color_depth 24-bit
browser_language de-de
java_enabled 1
flash_version 10.0%20r45
campaign_session_new 1
page_title Position%20Listings%20%7C%20Linden% 20Lab
host_name lindenlab.hrmdirect.com
referral_url http://lindenlab.com/employment
page_request /employment/openings.php?sort=da
account_string UA-XXXXXX-X
cookies __utma%3D87045125.1669045322.1274256051.1274256051.1274256051.1%3B%2B__utmb%3D87045125%3B%2B__utmc%3D87045125%3B%2B__utmz%3D87045125.1274256051.1.1.utmccn%3D(referral)%7Cutmcsr%3Dlindenlab.com%7Cutmcct%3D%2Femployment%7Cutmcmd%3Dreferral%3B%2B
Die cookies sind auch einfach zu Parsen (siehe Google präzise Beschreibung hier): zum Beispiel,
__utma ist die unique-visitor-cookie,
__utmb, __utmc sind session-cookies, und
__utmz ist der überweisungsschein.
Die GA-cookies speichern die meisten Daten, die Aufzeichnung jeder Interaktion, die ein Benutzer (z.B. Klick auf einen markierten download-link, klicken auf einen link zu einer anderen Seite auf der Website, späteren Besuch am nächsten Tag, etc.). So zum Beispiel, das __utma cookie besteht aus einer Gruppen von ganzen zahlen, jede Gruppe getrennt durch einen "."; die Letzte Gruppe ist die Anzahl der Besuche für die Benutzer (eine "1" in diesem Fall).
InformationsquelleAutor der Antwort doug
Können Sie die Data Export API von Google oder eine Dienstleistung wie die, die wir haben, speziell für Ihren Bedarf: http://www.analyticspros.com/products/analytics-data-warehouse.html.
Besten,
-Caleb Whitmore
http://www.analyticspros.com /www.analyticsformarketers.com
InformationsquelleAutor der Antwort Caleb Whitmore
Wie Shiva schon sagte, du kannst immer ziehen, GA Daten durch Google APIs und Lager-it-yourself. Allerdings, wenn Sie sind auf der Suche für einen kostengünstigen und effizienten warehousing tool, ausprobieren Analytics Leinwand @ http://www.analyticscanvas.com/
Könnte man auch überprüfen Sie heraus den Google-App-Galerie von Google Analytics entsprechende tools:
http://www.google.com/analytics/apps/
InformationsquelleAutor der Antwort Shayan Masood
Ziehen Sie den GA (Google Analytics), die Daten jederzeit über Ihre API und bauen Sie Ihre eigenen data warehouse (DW). Bevor Sie beginnen, möchten Sie vielleicht zu sitzen und mit der business-user und bekommen ein klares Verständnis von business-Anforderungen. Im DW-Umfeld ist es extrem wichtig, klare Ziele zu setzen und Verständnis von business Anforderungen der Nutzer aufgrund der Tatsache, dass Sie die Historie der Transaktionen, die Leben für lange Zeit und Häufig genutzt wird.
Unter der Annahme, dass business-Anwender definiert KPI (Key Performance Indicators, Metriken, Dimensionen, Granularität benötigt, für Sie zu gehen, können Sie überprüfen, verschiedene Dimensionen und Metriken, die sind alle durch GA-API auf code.google.com/apis/analytics/docs/. Dann ist es nur eine Frage der die richtigen API-Aufruf, und bekommen, was Sie brauchen. DW-Aktivität Daten beinhaltet Reinigung, Extraktion, transformation und laden (ETL) oder ELT, zusammen mit einer Zusammenfassung der Fakten, die entlang unterschiedlicher Dimensionen. Da die Daten viel sauberer aus, als würde man stoßen, die in unterschiedlichen Systemen (aus web-logs, den externen Lieferanten, excel oder Dateien, etc.), Sie können einfach laden Sie die Daten über einen ETL-tools (z.B. Talend, Pentaho, SSIS, etc.) oder durch Anwendung Ihrer Wahl (Perl, Java, Ruby, C#, etc).
Für die tägliche Belastung, die Sie brauchen, um design inkrementelle Ladevorgang während der niedrigen user-traffic Zeit (die nächtlichen Belastungen), ziehen nur die letzten Daten, de-duping alle Duplikate, die Reinigung nicht-konforme Daten, Umgang mit erraneous Zeilen, etc.
Habe ich eine Beispiel-GA-API-Anwendung auf http://www.hiregion.com/2009/10/google-analytics-data-retriever-api-sem_25.html und es werden Ihnen die grundlegenden Informationen, um loszulegen.
InformationsquelleAutor der Antwort Shiva
Gibt es zwei wichtige Regeln, die über das laden der Daten in data-warehouse -
Beim design mit der GA-api, die Sie brauchen, zu laden, die ersten historischen Daten für einen bestimmten Zeitraum. Diese hat Ihre eigenen Komplikationen, wie Sie vielleicht in der Segmentierung Probleme, Verlust von Daten usw. Sie behandeln müssen, Seitenumbruch, etc..
Nachdem der anfängliche Ladevorgang abgeschlossen ist, führen Sie es dann im inkremental-Modus, wo Sie nur neue Daten nur. Diese Daten erhält, die an die gleiche Data-warehouse-Tabellen und nicht zu duplizieren, mit überlappenden Terminen.
Oben auf der GA verändert Ihre API Häufig, so dass Sie brauchen, um auf der Oberseite von diesem als auch.
In Anbetracht der oben genannten, veröffentlichten wir ein komplett verpackt data-warehouse mit Google Analytics und Salesforce-Daten-Konnektoren. Sie können überprüfen Sie heraus die details und Holen Sie sich Ideen, wie Sie möchten, die Installation eines eigenen data-Warehouse http://www.infocaptor.com/google-analytics-datawarehouse
Das minimum, die Sie benötigen würden, um design, ist irgendeine Art von hintergrund-daemon, der läuft im Alltag oder bei irgendeiner Frequenz. Sie müssen job-Tabellen überwachen den Erfolg und Misserfolg der Auszüge, so dass es fortgesetzt werden kann, von wo der Fehler aufgetreten ist.
Einige andere überlegungen
1. Was passiert, wenn Sie das Extrakt für den gleichen Datenbereich
2. Was ist, wenn ein job fehlschlägt, für bestimmte Termine
Ist es wichtig, um Ihre primären Schlüssel für Ihre DW Ziel-Tabellen.In den MySQL-insert-Anweisung mit Duplikat-Klausel stellen Sie sicher, dass keine doppelten Datensätze erstellt, im Falle des Nachladens von Daten.
Andere Sache, das design ist Ihre staging-Ebene. Sie extrahieren Daten aus GA und dump in eine Inszenierung. Diese Weise, wenn es Fehler beim laden in Target kann man einfach neu laden von staging. Auf diese Weise sind Sie nicht zu belasten Ihre GA-API beschränkt, und speichern Sie die Bandbreite so gut.
Finden Sie unser komplettes design an diesem Ort
http://www.infocaptor.com/help/social_analytics___datawarehouse.htm
Alle das beste mit deiner DW Mühe.
InformationsquelleAutor der Antwort Nilesh
Können wir exportieren von Daten aus google analytics auch auf andere data-warehouse (oder) - RDBMS (oder) Hadoop mit Pentaho Data-Integration-tool, pdi-kettle. Pentaho haben auch freien Pentaho Community Edition zu verwenden.
Folgen Sie einfach dieser Schritt zum transformieren von Daten aus google analytics
http://wiki.pentaho.com/display/EAI/Google+Analytics
Dies ist ein Werkzeug, durch eine benutzerfreundliche, Kosten-und performance-wise. Danke.
InformationsquelleAutor der Antwort ǨÅVËĔŊ RĀǞĴĄŅ