what is data lake data warehouse vs data lake
Dieses Tutorial erklärt alles über Data Lake, einschließlich seines Bedarfs, seiner Definition, seiner Architektur, seiner Vorteile und Unterschiede zwischen Data Lake und Data Warehouse:
Der Begriff 'Data Lake' wird in der heutigen IT-Welt häufig verwendet. Haben Sie sich jemals gefragt, was es ist und woher der Begriff genau kommt?
Im Zeitalter der Informationstechnologie, in dem Daten Tag und Nacht in zahlreichen Formen verstärkt werden, wird das Konzept des Datensees sicherlich wichtig und nützlich.
Lassen Sie uns hier im Detail untersuchen, was ein Datensee ist und welche Vorteile, Verwendungszwecke usw. er hat.
Was du lernen wirst:
- Was ist ein Data Lake und wie funktioniert er?
- Fazit
Was ist ein Data Lake und wie funktioniert er?
Ein Datensee ist ein System oder ein zentrales Datenrepository, mit dem Sie alle Ihre strukturierten, halbstrukturierten, unstrukturierten und binären Daten in ihrem natürlichen / nativen / rohen Format speichern können.
Strukturierte Daten können Tabellen aus RDBMS enthalten. Zu den halbstrukturierten Daten gehören CSV-Dateien, XML-Dateien, Protokolle, JSON usw.; unstrukturierte Daten können PDFs, Word-Dokumente, Textdateien, E-Mails usw.; und Binärdaten können Audio-, Video- und Bilddateien enthalten.
Es folgt eine flache Architektur zum Speichern von Daten. Im Allgemeinen werden Daten in Form von Objekt-Blobs oder -Dateien gespeichert.
[Bild Quelle ]]
Mit einem Datensee können Sie Ihr gesamtes Unternehmen an einem einzigen Ort speichern, ohne die Daten zuerst strukturieren zu müssen. Sie können die verschiedenen Arten von Analysen direkt ausführen, darunter maschinelles Lernen, Echtzeitanalysen, lokale Datenbewegungen, Echtzeitdatenbewegungen, Dashboards und Visualisierungen.
Es enthält alle darin enthaltenen Daten in der ursprünglichen Form und geht davon aus, dass die Analyse später bei Bedarf durchgeführt wird.
Analogie von Data Lake
[Bild Quelle ]]
Der Begriff Data Lake wurde von James Dixon, dem damaligen CTO in Pentaho, geprägt. Er definiert Data Mart (eine Teilmenge eines Data Warehouse) als ähnlich einer Wasserflasche, die mit gereinigtem, destilliertem Wasser gefüllt, verpackt und strukturiert ist, um sie direkt und einfach zu verwenden.
Andererseits ist es analog zu einem Gewässer in seiner natürlichen Form. Daten fließen von den Streams (verschiedene Geschäftsfunktionen / Quellsysteme) zum See. Verbraucher des Datensees, d. H. Benutzer, haben Zugang zum See, um zu analysieren, zu untersuchen, Proben zu sammeln und einzutauchen.
So wie das Wasser im See den unterschiedlichen Bedürfnissen von Menschen wie Angeln, Bootfahren, Trinkwasserversorgung usw. gerecht wird, dient auch die Datenseearchitektur mehreren Zwecken.
ba Interview Fragen und Antworten pdf
Ein Datenwissenschaftler kann damit die Daten untersuchen und eine Hypothese erstellen. Es bietet Datenanalysten die Möglichkeit, Daten zu analysieren und Muster zu entdecken. Es bietet Geschäftsbenutzern und Stakeholdern einen Modus zum Durchsuchen von Daten.
Es bietet auch die Möglichkeit für berichtende Analysten, Berichte zu entwerfen und sie dem Unternehmen zu präsentieren. Im Gegenteil, das Data Warehouse hat Daten für genau definierte Zwecke verpackt, genau wie eine Bisleri-Flasche, die nur für Trinkwasser verwendet werden kann.
Data Lake Market - Wachstum, Trends und Prognosen
Der Data Lake-Markt ist nach Produkt (Lösung oder Service), Bereitstellung (On-Prem oder Cloud), Kundenbranche (Einzelhandel, Bankwesen, Versorger, Versicherungen, IT, Gesundheitswesen, Telekommunikation, Verlagswesen, Fertigung) und geografischen Regionen unterteilt Regionen.
Gemäß dem von Mordor Intelligence veröffentlichten Bericht Unten ist der Marktschnappschuss für Data Lake:
[Bild Quelle ]]
# 1) Marktübersicht
Der Data Lakes-Markt wurde 2019 auf 3,74 Mrd. USD geschätzt und wird voraussichtlich bis 2025 17,60 Mrd. USD erreichen, bei einer CAGR (Compound Annual Growth Rate) von 29,9% über den Projektionszeitraum 2020 - 2025.
Diese Datenreservoirs erweisen sich für viele Unternehmen zunehmend als wirtschaftliche Option für Data Warehouses. Im Gegensatz zu Data Lakes erfordert Data Warehousing eine zusätzliche Datenverarbeitung, bevor das Warehouse betreten wird.
Die Kosten für die Verwaltung eines Data Lake sind im Vergleich zu einem Data Warehouse geringer, da für die Erstellung der Datenbank für Warehouses viel Verarbeitung und Speicherplatz erforderlich sind.
# 2) Hauptakteure
Es wird vorausgesagt, dass der Data Lake-Markt ein konsolidierter Markt sein wird, der von den fünf Hauptakteuren dominiert wird (siehe Abbildung unten).
# 3) Schlüsseltrends
- Die Nutzung im Bankensektor wird voraussichtlich erheblich zunehmen. Banken setzen Data Lakes ein, um unterwegs Analysen bereitzustellen. Es hilft auch, viele Silos im Bankensektor aufzulösen.
- Da der digitale Zahlungsverkehr / die Nutzung mobiler Geldbörsen weltweit stark zunimmt, nimmt der Spielraum für Big-Data-Analysen und damit die Chance für sie zu.
- Es wird erwartet, dass Nordamerika eine hohe Akzeptanz für Datenseen haben wird. Eine von Capgemini durchgeführte Studie besagt, dass über 60% der Finanzunternehmen in den USA der Meinung sind, dass Big-Data-Analysen ein Unterscheidungsmerkmal für Unternehmen darstellen und ihnen einen Wettbewerbsvorteil verschaffen. Über 90% der Unternehmen sind der Meinung, dass Investitionen in Big-Data-Projekte die Erfolgschancen in der Zukunft erhöhen.
- Sie werden für die Verwendung von Smart-Meter-Anwendungen benötigt. In den USA werden voraussichtlich 2021 rund 90 Millionen Smart-Meter installiert. Daher wird eine hohe Nachfrage nach ihnen prognostiziert.
Warum ist Data Lake erforderlich?
Der Zweck eines Datensees besteht darin, eine unverarbeitete Ansicht von Daten (Daten in ihrer reinsten Form) zu geben.
Beispiele
Heutzutage haben viele große Unternehmen, darunter Google, Amazon, Cloudera, Oracle, Microsoft und einige andere, Data Lake-Angebote.
Viele Unternehmen verwenden Cloud-Speicherdienste wie Azure Data Lake oder Amazon S3. Unternehmen verwenden auch ein verteiltes Dateisystem wie Apache Hadoop. Das Konzept eines Sees für persönliche Daten, mit dem Sie Ihre eigenen Big Data verwalten und gemeinsam nutzen können, hat sich ebenfalls weiterentwickelt.
Wenn wir über industrielle Anwendungen sprechen, ist dies eine sehr geeignete Lösung für den Gesundheitsbereich. Wegen des unstrukturierten Formats vieler Daten im Gesundheitswesen ( Zum Beispiel, Notizen von Ärzten, klinische Daten, Krankengeschichte von Patienten usw.) und die Anforderung von Echtzeiterkenntnissen, ein Datensee ist eine großartige Option gegenüber Data Warehouse.
Es bietet flexible Lösungen auch im Bildungsbereich, wo die Daten sehr umfangreich und sehr roh sind.
Im Transportsektor, hauptsächlich im Supply Chain Management oder in der Logistik, hilft es dabei, Vorhersagen zu treffen und Kostensenkungsvorteile zu realisieren.
Die Luftfahrt- und Elektroindustrie nutzt ebenfalls Datenseen.
Ein Beispiel für seine Implementierung ist GE Predix (entwickelt von General Electric), eine Plattform für Industriedatenseen, die über starke Data Governance-Kompetenzen verfügt, um Industrieanwendungen zu erstellen, bereitzustellen und zu steuern, die mit Industrieanlagen verknüpft sind, Daten sammeln und analysieren und Echtzeit bereitstellen Erkenntnisse zur Verbesserung der industriellen Infrastruktur und Prozesse.
Unterschied zwischen Data Warehouse und Data Lake
Oft fällt es den Menschen schwer zu verstehen, wie sich ein See von einem Data Warehouse unterscheidet. Sie argumentieren auch, dass es das gleiche wie das Data Warehouse ist. Dies ist jedoch nicht die Realität.
Die einzige Gemeinsamkeit zwischen dem Data Lake und dem Data Warehouse besteht darin, dass beide Datenspeicher-Repositorys sind. Ruhe, sie sind anders. Sie haben unterschiedliche Anwendungsfälle und Zwecke.
Die Unterschiede werden nachfolgend erläutert:
Data Lake | Data Warehouse | |
---|---|---|
Analytik | Ein Datensee kann für maschinelles Lernen, Datenerfassungsdatenprofile und prädiktive Analysen verwendet werden. | Ein Data Warehouse kann für Business Intelligence, Visualisierungen und Stapelberichte verwendet werden. |
Daten | Ein Data Lake speichert alle Rohdaten. Es kann strukturiert, unstrukturiert oder halbstrukturiert sein. Es ist möglich, dass einige der Daten im Datensee niemals verwendet werden. | Ein Data Warehouse enthält nur die Daten, die verarbeitet und verfeinert werden, d. H. Strukturierte Daten, die für die Berichterstellung und Lösung spezifischer Geschäftsprobleme erforderlich sind. |
Benutzer | Im Allgemeinen sind die Benutzer eines Datensees Datenwissenschaftler und Datenentwickler. | Im Allgemeinen sind die Benutzer des Data Warehouse Geschäftsleute, operative Benutzer und Geschäftsanalysten. |
Barrierefreiheit | Der Datensee ist leicht zugänglich und einfach und schnell zu aktualisieren, da er keine Struktur hat. | Im Data Warehouse ist das Aktualisieren der Daten komplizierter und kostspieliger, da Data Warehouses nach Design strukturiert sind. |
Schema | Schema beim Schreiben. Entworfen vor der DW-Implementierung. | Schema beim Lesen. Geschrieben zum Zeitpunkt der Analyse. |
Die Architektur | Flache Architektur | Hierarchische Architektur |
Zweck | Der Zweck der in Datenseen gespeicherten Rohdaten ist nicht festgelegt oder unbestimmt. Manchmal können die Daten in einen Datensee fließen, um eine bestimmte zukünftige Verwendung zu gewährleisten oder um die Daten griffbereit zu haben. Der Datensee verfügt über weniger organisierte und weniger gefilterte Daten. | Die im Data Warehouse gespeicherten verarbeiteten Daten haben einen bestimmten und bestimmten Zweck. Ein DW hat Daten organisiert und gefiltert. Daher benötigt es weniger Speicherplatz als der Datensee. |
Lager | Entwickelt für kostengünstige Lagerung. Die Hardware des Data Lake unterscheidet sich stark von der Hardware des Data Warehouse. Es verwendet Standardserver in Kombination mit billigem Speicher. Dies macht den Datensee ziemlich wirtschaftlich und hoch skalierbar auf Terabyte und Petabyte. Dies geschieht, um alle Daten in einem Datensee zu speichern, sodass Sie jederzeit zur Analyse zurückkehren können. | Teuer für große Datenmengen. Das Data Warehouse verfügt über teuren Festplattenspeicher, um eine hohe Leistung zu erzielen. Um Platz zu sparen, wird das Datenmodell daher vereinfacht und nur die Daten, die wirklich für Geschäftsentscheidungen erforderlich sind, werden im Data Warehouse gespeichert. |
Unterstützung für Datentypen | Ein Data Lake unterstützt sehr gut die nicht traditionellen Datentypen wie Serverprotokolle, Sensordaten, Aktivitäten in sozialen Netzwerken, Text, Bilder, Multimedia usw. Alle Daten werden unabhängig von Quelle und Struktur gespeichert. | Im Allgemeinen besteht ein Data Warehouse aus Daten, die aus Transaktionssystemen abgerufen werden. Die nicht traditionellen Datentypen werden nicht sehr gut unterstützt. Das Speichern und Konsumieren nicht traditioneller Daten kann im Data Warehouse teuer und schwierig sein. |
Sicherheit | Die Sicherheit von Data Lakes befindet sich im „Reifungsstadium“, da dies ein relativ neues Konzept als das Data Warehouse ist. | Die Sicherheit von Data Warehouses befindet sich im „ausgereiften“ Stadium. |
Beweglichkeit | Sehr wendig; nach Bedarf konfigurieren und neu konfigurieren. | Weniger agil; feste Konfiguration. |
Data Lake-Architektur
Architekturdiagramm
Oben ist das konzeptionelle Architekturdiagramm des Datensees dargestellt. Ganz links sehen Sie, dass wir Datenquellen haben, die strukturiert, halbstrukturiert oder unstrukturiert sein können.
Diese Datenquellen werden zu einem Rohdatenspeicher kombiniert, der Daten in ihrer Rohform verbraucht, d. H. Daten ohne Transformationen. Dies ist ein kostengünstiger, dauerhafter und skalierbarer Speicher.
Als nächstes haben wir analytische Sandboxen, die zur Datenerkennung, explorativen Datenanalyse und prädiktiven Modellierung verwendet werden können. Grundsätzlich wird dies von Datenwissenschaftlern verwendet, um Daten zu untersuchen, neue Hypothesen zu erstellen und Anwendungsfälle zu definieren.
Dann gibt es eine Stapelverarbeitungs-Engine, die die Rohdaten in eine vom Verbraucher verwendbare Form verarbeitet, d. H. In einem strukturierten Format, das für die Berichterstellung an Endbenutzer verwendet werden kann.
Dann haben wir eine Echtzeit-Verarbeitungs-Engine, die Streaming-Daten aufnimmt und transformiert.
bester kostenloser DVD-Ripper für verschlüsselte DVDs
Schlüsselmerkmale von Data Lake
Um als Data Lake klassifiziert zu werden, sollte ein Big Data-Repository die folgenden drei Attribute besitzen:
# 1) Ein einzelnes gemeinsames Datenrepository, das normalerweise in einem Distributed File System (DFS) gespeichert ist.
Hadoop-Datenseen halten Daten in ihrer ursprünglichen Form aufrecht und erfassen Änderungen an Daten und der relativen Semantik während des Datenlebenszyklus. Dieser Ansatz ist besonders vorteilhaft für Compliance-Prüfungen und interne Audits.
Dies ist eine Verbesserung gegenüber dem herkömmlichen Enterprise Data Warehouse, bei dem es bei Transformationen, Aggregationen und Modifikationen schwierig ist, Daten bei Bedarf als Ganzes zu platzieren, und Unternehmen sich bemühen, die Quelle / Herkunft der Daten herauszufinden.
# 2) Enthält Planungs- und Jobplanungsfunktionen (z. B. über ein beliebiges Scheduler-Tool wie YARN usw.).
Die Ausführung von Workloads ist ein wesentlicher Bedarf für Unternehmen. Hadoop und YARN bieten Ressourcenmanagement und eine zentrale Plattform für die Bereitstellung konstanter Prozesse. Sicherheit und Data Governance-Tools in allen Hadoop-Clustern, um sicherzustellen, dass analytische Workflows über das erforderliche Maß an Datenzugriff und Rechenleistung verfügen.
# 3) Umfasst die Dienstprogramme und Funktionen, die zum Konsumieren, Verarbeiten oder Arbeiten mit den Daten erforderlich sind.
Die einfache und schnelle Erreichbarkeit für Benutzer ist eines der Hauptmerkmale eines Datensees, da Organisationen die Daten in ihrer ursprünglichen oder reinen Form speichern.
In welcher Form auch immer die Daten strukturiert, unstrukturiert oder halbstrukturiert sind, sie werden wie im Datensee eingefügt. Es ermöglicht Dateneigentümern, Kunden-, Lieferanten- und Betriebsdaten zu kombinieren, indem technische oder politische Hindernisse für den Datenaustausch beseitigt werden.
Leistungen
[Bild Quelle ]]
- Vielseitig : Kompetent genug, um alle Arten von strukturierten / unstrukturierten Daten zu speichern, von CRM-Daten bis hin zu Aktivitäten in sozialen Netzwerken.
- Mehr Flexibilität des Schemas : Benötigt keine Planung oder Vorkenntnisse in der Datenanalyse. Es speichert alle Daten in ihrer ursprünglichen Form und geht davon aus, dass die Analyse später bei Bedarf erfolgen wird. Dies ist sehr nützlich für OLAP. Zum Beispiel, Mit dem Hadoop-Datensee können Sie schemafrei sein und das Schema von den Daten entkoppeln.
- Echtzeit-Entscheidungsanalyse : Sie profitieren von einer großen Menge konsistenter Daten und Deep-Learning-Algorithmen, um Entscheidungsanalysen in Echtzeit zu erreichen. Kann Wert aus unbegrenzten Datentypen erhalten.
- Skalierbar: Sie sind weitaus skalierbarer als herkömmliche Data Warehouses und kostengünstiger.
- Erweiterte Analyse / Kompatibilität mit SQL und anderen Sprachen: Bei Data Lakes gibt es zahlreiche Möglichkeiten, die Daten abzufragen. Im Gegensatz zu herkömmlichen Data Warehouses, die nur SQL für einfache Analysen unterstützen, bieten sie Ihnen viele andere Optionen und Sprachunterstützung für die Analyse von Daten. Sie sind auch mit maschinellen Lernwerkzeugen wie Spark MLlib kompatibel.
- Daten demokratisieren: Demokratisierter Zugriff auf Daten durch eine einzige, integrierte Ansicht der Daten im gesamten Unternehmen unter Verwendung einer effektiven Datenverwaltungsplattform. Dies stellt die umfassende Verfügbarkeit von Daten sicher.
- Bessere Datenqualität: Insgesamt erhalten Sie eine bessere Datenqualität mit Data Lakes durch technologische Vorteile wie Datenspeicherung im nativen Format, Skalierbarkeit, Vielseitigkeit, Schemaflexibilität, Unterstützung für SQL und andere Sprachen sowie erweiterte Analysefunktionen.
Herausforderungen und Risiken
Datenseen bieten viele Vorteile. Aber ja, mit ihnen sind auch einige Herausforderungen und Risiken verbunden, die eine Organisation sorgfältig angehen muss.
Sie sind:
- Wenn sie nicht richtig entworfen sind, können sie sich in Datensümpfe verwandeln. Manchmal werden Unternehmen einfach immer wieder unbegrenzte Daten in diesen Seen speichern, ohne dass Strategie und Zweck berücksichtigt werden.
- Manchmal wissen die Analysten, die die Daten verwenden möchten, nicht, wie dies zu tun ist, da es ziemlich schwierig ist, in Datenseen abzubauen. Dadurch verlieren sie nach einiger Zeit an Relevanz und Dynamik. Unternehmen müssen daran arbeiten, diese Barriere für Analysten zu beseitigen.
- Da wir in Datenseen viele unorganisierte Daten haben, sind diese nicht frisch oder aktuell genug, um in der Produktion verwendet zu werden. Daher bleiben die Daten in diesen Seen im Pilotmodus und werden nie produziert.
- Unstrukturierte Daten können zu unbrauchbaren Daten führen.
- Manchmal stellen Unternehmen fest, dass dies keine wesentlichen Auswirkungen auf das Geschäft in Bezug auf die getätigten Investitionen hat. Dies erfordert eine Änderung der Denkweise. Damit Auswirkungen auftreten können, müssen Unternehmen Manager und Führungskräfte ermutigen, Entscheidungen auf der Grundlage der aus diesen Datenreservoirs abgeleiteten Analysen zu treffen.
- Sicherheit und Zugriffskontrolle sind auch eines der Risiken, wenn Sie mit ihnen arbeiten. Einige der Daten, für die möglicherweise Datenschutzbestimmungen und Vorschriften erforderlich sind, werden ohne Aufsicht in Datenseen abgelegt.
Implementierung
In einem Unternehmen ist es durchaus sinnvoll, die Implementierung des Data Lake agil durchzuführen.
Das heißt, um zuerst einen Data Lake MVP zu implementieren, wird er von den Benutzern auf Qualität, einfachen Zugriff, Speicherung und Analysefunktionen getestet, erhält Feedback und fügt dann die komplexen Anforderungen und Funktionen hinzu, um dem Lake einen Mehrwert zu verleihen.
Im Allgemeinen durchläuft eine Organisation die folgenden vier grundlegenden Phasen der Implementierung:
[Bild Quelle ]]
Bühne 1:
Der Basisdatensee: In dieser Phase legt das Team die grundlegenden Architekturen, Technologien (Cloud-basiert oder Legacy) sowie Sicherheits- und Verwaltungspraktiken für den Datensee fest. Es ist in der Lage, alle Rohdaten aus verschiedenen Unternehmensquellen zu speichern und die internen und externen Daten zu kombinieren, um angereicherte Informationen bereitzustellen.
Stufe 2:
Die Sandbox: Verbesserung der analytischen Fähigkeiten: Zu diesem Zeitpunkt greifen die Datenwissenschaftler auf das Datenreservoir zu, um vorläufige Experimente zur Verwendung von Rohdaten durchzuführen und analytische Modelle zu entwerfen, um die Geschäftsanforderungen zu erfüllen.
Stufe 3:
So öffnen Sie eine ausführbare JAR-Datei
Data Warehouses und Data Lake Collaboration: Ab diesem Zeitpunkt nutzt die Organisation Data Lake in Synergie mit den vorhandenen Data Warehouses. Die Daten mit niedriger Priorität werden an sie gesendet, damit das Speicherlimit von Data Warehouses nicht überschritten wird.
Es bietet die Möglichkeit, Erkenntnisse aus kalten Daten zu gewinnen oder diese abzufragen, um Informationen zu ermitteln, die von herkömmlichen Datenbanken nicht indiziert werden.
Stufe 4:
End-to-End-Einführung von Data Lake: Dies ist die letzte Phase der Akquisitionserfassung, in der sie zu einem Schlüsselelement der Datenarchitektur des Unternehmens wird und den Suchvorgang effektiv steuert. Zu diesem Zeitpunkt hätte der Datensee EDW ersetzt und sie werden zur alleinigen Quelle aller Unternehmensdaten.
Eine Organisation kann über den Datensee Folgendes tun:
- Erstellen Sie komplexe Datenmodellierungs- und Analyselösungen für unterschiedliche Geschäftsanforderungen.
- Entwerfen Sie interaktive Dashboards, die das Verständnis des Datensees sowie verschiedene Anwendungs- und Datenquellen konsolidieren.
- Implementieren Sie erweiterte Analyse- oder Robotikprogramme, da diese Rechenoperationen ausführen.
Zu diesem Zeitpunkt verfügt es auch über starke Sicherheits- und Verwaltungsmaßnahmen.
Data Lake-Anbieter
In der Branche gibt es verschiedene Anbieter von Data Lake-Tools.
[Bild Quelle ]]
Wenn wir uns die großen Unternehmen ansehen:
- Computing bietet ein intelligentes Data Lake-Tool. BDM (Big Data Management) 10.2.2 ist die neueste verfügbare Version.
- Es gibt einen Anbieter namens schau Wer stellt auch das Tool zur Verfügung.
- Die Firma Talend Das für seine ETL-Tools beliebte Tool bietet auch das Data Lake-Tool.
- Dann haben wir ein Open-Source-Tool namens Kylo von dem Teradata Unternehmen. Das Team namens 'Think Big' in der Firma Teradata hat dieses Tool entwickelt.
- Die Firma Fassdaten Inc bietet auch diese Dienste an.
- Von Microsoft können Sie finden Azure Data Lake in der Branche erhältlich.
- Hvr-Software bietet auch Data Lake-Konsolidierungslösungen.
- Podiumsdaten, Ein Qlik-Unternehmen bietet Tool-Produkte wie Data Lake-Pipelines und Multi-Zone-Data Lake an.
- Schneeflocke hat auch ein Data Lake Produkt.
- Zaloni ist ein Data Lake-Unternehmen, das mit Big Data große Datenmengen verarbeitet.
Dies sind also sowohl die beliebten Dienstleister als auch die Anbieter solcher Tools.
Wenn Sie Ihr Wissen über Datenseen üben und erweitern möchten, können Sie sich für Informatica oder Kylo entscheiden. Wenn Sie nach einem Cloud-basierten Dienst suchen, können Sie sich für Looker, Informatica und Talend entscheiden. Diese drei Anbieter bieten AWS Cloud Data Lakes an. Sie können auch eine einmonatige kostenlose Testversion von Kylo erhalten.
Fazit
In diesem Tutorial haben wir das Konzept des Datensees ausführlich besprochen. Wir gingen die Grundidee hinter Data Lake, seine Architektur, Schlüsselmerkmale, Vorteile sowie seine Beispiele, Anwendungsfälle usw. durch.
Wir haben auch gesehen, wie sich ein Data Lake vom Data Warehouse unterscheidet. Wir haben auch die Top-Anbieter abgedeckt, die verwandte Dienstleistungen anbieten.
Fröhliches Lesen!!
Literatur-Empfehlungen
- Tutorial zum Testen von Data Warehouse mit Beispielen | ETL-Testhandbuch
- Top 10 Tools zum Testen und Validieren strukturierter Daten für SEO
- Data Mining: Prozesse, Techniken und wichtige Probleme bei der Datenanalyse
- Data Mart Tutorial - Typen, Beispiele und Implementierung von Data Mart
- Top 10 der beliebtesten Data Warehouse-Tools und Testtechnologien
- Dimensionales Datenmodell im Data Warehouse - Lernprogramm mit Beispielen
- 10+ beste Datenerfassungstools mit Datenerfassungsstrategien
- Datenpoolfunktion in IBM Rational Quality Manager für Testdatenverwaltung