Inne bazy danych
Spark. Błyskawiczna analiza danych. Wydanie II
- Szczegóły
- Kategoria: Inne bazy danych
Apache Spark jest oprogramowaniem open source, przeznaczonym do klastrowego przetwarzania danych dostarczanych w różnych formatach. Pozwala na uzyskanie niespotykanej wydajności, umożliwia też pracę w trybie wsadowym i strumieniowym. Framework ten jest również świetnie przygotowany do uruchamiania złożonych aplikacji, włączając w to algorytmy uczenia maszynowego czy analizy predykcyjnej. To wszystko sprawia, że Apache Spark stanowi znakomity wybór dla programistów zajmujących się big data, a także eksploracją i analizą danych.
To książka przeznaczona dla inżynierów danych i programistów, którzy chcą za pomocą Sparka przeprowadzać skomplikowane analizy danych i korzystać z algorytmów uczenia maszynowego, nawet jeśli te dane pochodzą z różnych źródeł.
Wyjaśniono tu, jak dzięki Apache Spark można odczytywać i ujednolicać duże zbiory informacji, aby powstawały niezawodne jeziora danych, w jaki sposób wykonuje się interaktywne zapytania SQL, a także jak tworzy się potoki przy użyciu MLlib i wdraża modele za pomocą biblioteki MLflow. Omówiono również współdziałanie aplikacji Sparka z jego rozproszonymi komponentami i tryby jej wdrażania w poszczególnych środowiskach.
W książce:
- API strukturalne dla Pythona, SQL, Scali i Javy,
- operacje Sparka i silnika SQL,
- konfiguracje Sparka i interfejs Spark UI,
- nawiązywanie połączeń ze źródłami danych: JSON, Parquet, CSV, Avro, ORC, Hive, S3
i Kafka, - operacje analityczne na danych wsadowych i strumieniowanych,
- niezawodne potoki danych i potoki uczenia maszynowego.
Spark: twórz skalowalne i niezawodne aplikacje big data!
Jules S. Damji - jest inżynierem oprogramowania dla wielu wiodących firm, takich jak Netscape, Sun Microsystems, Verisign i ProQuest. Zajmuje się systemami rozproszonymi.
Brooke Wenig - kieruje zespołem, który opracowuje potoki uczenia maszynowego. Prowadzi też szkolenia z zakresu rozproszonego uczenia maszynowego.
Tathagata Das - jest członkiem Apache Spark Project Management Committee. Pracuje nad strumieniowaniem strukturalnym i Delta Lake.
Denny Lee - zajmuje się systemami rozproszonymi i inżynierią danych, zwłaszcza dla branży ochrony zdrowia.
- DAX i Power BI w analizie danych. Tworzenie zaawansowanych i efektywnych analiz dla biznesu - [07 luty 2023]
- Modelowanie danych z Power BI dla ekspertów analityki. Jak w pełni wykorzystać możliwości Power BI - [10 styczeń 2023]
- Microsoft Power BI. Jak modelować i wizualizować dane oraz budować narracje cyfrowe. Wydanie II - [18 maj 2022]
- Projektowanie baz danych dla każdego. Przewodnik krok po kroku. Wydanie IV - [23 luty 2022]
- Statystyka praktyczna w data science. 50 kluczowych zagadnień w językach R i Python. Wydanie II - [15 lipiec 2021]