Книги » Тимур Машнин » Технология хранения и обработки больших данных Hadoop » Читать онлайн бесплатно

Технология хранения и обработки больших данных Hadoop - Тимур Машнин

Автор: Тимур Машнин
Жанр: интернет, книги о компьютерах, программирование
Теги: big data, анализ данных, кластеры, распределенные системы, фреймворки
Год: 2021

На сайте интернет библиотеки вы можете начать читать книгу Технология хранения и обработки больших данных Hadoop - Тимур Машнин онлайн бесплатно и без регистрации. Электронная (цифровая) литература удобна тем, что читать романы online с телефона можно абсолютно везде. Вы нашли версию издания Технология хранения и обработки больших данных Hadoop, так как интересуетесь работами автора Тимур Машнин или жанром в стиле интернет. Помимо чтения, книгу можно скачать в популярном формате fb2, перейдя на соседнюю страницу. Читайте актуальные новинки и скачивайте их на свои гаджеты.

Apache Hadoop - это платформа для распределенной обработки больших наборов данных на кластерах компьютеров с использованием простых моделей программирования. В этой книге вы познакомитесь с общей архитектурой платформы, компонентами стека, такими как HDFS и MapReduce, приложениями Hadoop.

Книга Технология хранения и обработки больших данных Hadoop читать онлайн бесплатно

Страница 1

Введение

Hadoop – это программная платформа с открытым исходным кодом Apache для хранения и крупномасштабной обработки больших наборов данных в распределенной среде кластеров компьютеров с использованием простых моделей программирования.

Hadoop предназначен для масштабирования от отдельных серверов до тысяч машин, каждая из которых обеспечивает локальные вычисления и хранилище.

Фреймворк Hadoop был создан Дагом Каттингом и Майком Кафареллой в 2005 году.

Первоначально этот фреймворк был разработан для поддержки распространения проекта Nutch Search Engine построения поисковых систем.

Даг, который в то время работал в Yahoo, а сейчас является главным архитектором в Cloudera, назвал этот проект в честь слона своего сына.

Его сын назвал своего игрушечного слона Hadoop, и Даг использовал это имя, чтобы так назвать свой проект.

Давайте посмотрим, что делает фреймворк Hadoop таким интересным, масштабируемым и удобным в использовании.

Hadoop начинался как простая среда пакетной обработки.

Идея, лежащая в основе Hadoop, заключается в том, что вместо перемещения данных в вычисления мы переносим вычисления в данные.

И в основе системы Hadoop лежит масштабируемость.

Все модули в Hadoop разработаны с фундаментальным предположением о том, что аппаратное обеспечение рано или поздно выходит из строя.

То есть предположением, что отдельная машина или стойка машин, или большой кластер или суперкомпьютер, все они в какой-то момент выйдут из строя, или некоторые их компоненты выйдут из строя.

И компоненты Apache Hadoop – MapReduce и HDFS изначально были созданы на основе Google MapReduce и файловой системы Google.

Еще одна очень интересная вещь, которую приносит Hadoop, – это новый подход к данным.

Новый подход заключается в том, что мы можем сохранить все данные, которые у нас есть, и мы можем взять эти данные и читать данные, создавая схему, во время чтения.

Вместо того, чтобы тратить время на создание схемы, пытаясь подогнать данные к схеме, которую мы создали заранее, мы сохраняем все данные в приблизительном формате, а затем проецируем их в схему на лету, пока мы эти данные читаем.

Фреймворк Apache Hadoop содержит четыре основных компонента.

Это Hadoop Common, распределенная файловая система Hadoop или HDFS, Hadoop MapReduce и Hadoop YARN.

Hadoop Common содержит библиотеки и утилиты, необходимые для других модулей Hadoop.

Распределенная файловая система Hadoop хранит данные на обычном компьютере, обеспечивая очень высокую совокупную пропускную способность по всему кластеру компьютеров.

Hadoop YARN – это платформа управления ресурсами, которая отвечает за управление вычислительными ресурсами в кластере и их использование в при планировании пользователей и приложений.

И Hadoop MapReduce – это модель программирования, которая масштабирует данные по множеству процессов.

И все модули фреймворка Hadoop разработаны с фундаментальным предположением, что аппаратное обеспечение выходит из строя.

Если вы посмотрите на HDFS, YARN, MapReduce и всю платформу в целом, она состоит из многочисленных приложений, и каждое из этих приложений создано с учетом этого предположения.

У нас есть различные приложения, такие как Apache PIG, Apache Hive, HBase и другие.

И для конечного пользователя, через Java-код MapReduce, он может получить доступ к любому из этих приложений.

И мы можем строить различного вида системы из этих приложений.

Проекты Apache PIG и Apache Hive предоставляют интерфейсы высокого уровня, обеспечивая доступ к данным через пользовательский интерфейс.

Сам фреймворк Hadoop в основном написан на языке программирования Java и проект также содержит несколько приложений на нативном языке C и утилиты командной строки.

Теперь, давайте немного поговорим о распределенной файловой системе Hadoop.

Что такое HDFS по своей сути?

Это распределенная, масштабируемая и переносимая файловая система, написанная на Java для поддержки фреймворка Hadoop.

Каждый Hadoop кластер обычно состоит из одного узла Namenode и кластера узлов Datanode, которые и формируют этот кластер.

И каждая система HDFS хранит большие файлы, как правило, в диапазоне от гигабайтов до терабайтов.

И надежность системы HDFS достигается путем репликации многочисленных хостов.

Также файловая система HTFS поддерживает так называемый вторичный узел NameNote, который регулярно подключается к первичному узлу NameNote и создает снимки его состояния, запоминая, что система сохраняет в локальных и удаленных каталогах.

В каждой системе, основанной на Hadoop, содержится какая-то версия движка MapReduce.

Типичный движок MapReduce содержит средство отслеживания работы, в которое клиентские приложения могут отправлять задания MapReduce.

И этот трекер работы передает задачи всем доступным трекерам задач, которые есть в кластере.

Таким образом, классический Hadoop MapReduce представляет собой один процесс JobTracker и произвольное количество процессов TaskTracker, или по-другому один мастер узел и множество узлов slave.

MapReduce выполняет работу над огромным набором данных, обрабатывая данные и сохраняя их в HDFS таким образом, что извлечение данных производится проще, чем в традиционном хранилище.

Модель MapReduce следует принципам функционального программирования, вследствие чего пользовательские вычисления выполняются как функции map и reduce, обрабатывающие данные в виде пар ключ-значение.

Hadoop предоставляет высокоуровневый программный интерфейс для реализации пользовательских функций map и reduce на различных языках.

Также Hadoop предоставляет инфраструктуру для выполнения заданий MapReduce в виде серий задач map и reduce.

Задачи map вызывают функции map для обработки наборов входных данных.

Затем задачи reduce вызывают функции reduce для обработки промежуточных данных, сгенерированных функциями map, формируя окончательные выходные данные.

Задачи map и reduce выполняются изолированно друг от друга, что обеспечивает параллельность и отказоустойчивость вычислений.

Hadoop версии 1 содержал компоненты HDFS и Map Reduce.

И Hadoop версии 1 разрабатывался только для выполнения заданий MapReduce.

А Hadoop версии 2 уже содержит компоненты HDFS и YARN/Map Reduce версии 2.

В классическом Map Reduce, когда мастер узел перестает работать, тогда все его узлы slave автоматически перестают работать.

И мы должны перезапустить весь кластер и заново начать выполнять работу.

Это единственный сценарий, когда выполнение работы может прерваться, и это создает единственную точку отказа.

Компонент YARN или Yet Another Resource Negotiator решает эту проблему благодаря своей архитектуре.

YARN основывается на концепции нескольких мастер узлов и нескольких подчиненных slave узлов, и если один мастер узел выйдет из строя, тогда другой мастер узел возобновит процесс и продолжит выполнение.

Предыдущая Следующая

Читать похожие на «Технология хранения и обработки больших данных Hadoop» книги

Стратегическое мышление в бизнесе. Технология «Векторное кольцо»

Андрей Курпатов

Бизнес – это всегда правильно выбранная стратегия. Ошибившись в своём стратегическом видении, вы теряете деньги, сотрудников и клиентов. Но что такое правильно выбранная стратегия в наше время «чёрных лебедей»? Стратегия – это не визионерство, а эффективное использование ресурсов и возможностей. В рамках вашей стратегии вы должны чётко понимать, что представляет ваш бизнес на самом деле, как он работает, зачем он нужен вашему клиенту и как одно связано с другим. При кажущейся простоте вопросов

Миссия выполнима. Технология счастливой жизни

Маргулан Сейсембай

Можно ли проверить алгеброй гармонию? И можно ли выработать технологию для такого неуловимого состояния, как счастье? Автор книги – казахский миллиардер, предприниматель и общественный деятель Маргулан Сейсембай – отвечает на эти вопросы уверенным «Да!» На основании своего богатого жизненного опыта Сейсембай разработал методику, которая позволит любому человеку обрести контроль на своей жизнью и достичь… не успеха, но счастья – автор призывает разделять эти два понятия, так как погоня за ними

Продвинутое использование торговой платформы MetaTrader 5

Тимур Машнин

Эта книга познакомит с практическим использованием языка MetaQuotes Language 5 (MQL5) программирования технических индикаторов, торговых роботов и вспомогательных приложений для автоматизации торговли на финансовых рынках с помощью торговой платформы MetaTrader 5. Вы научитесь создавать MQL5 приложения, используя как процедурное программирование, так и объектно-ориентированное программирование. Познакомитесь с общей структурой и свойствами технических индикаторов и советников, научитесь

Создание чат-ботов с Dialogflow, Watson, ChatterBot и Rasa

Тимур Машнин

С этой книгой Вы познакомитесь с чат-ботами и поймете как создавать чат-ботов без программирования с использованием таких облачных служб как Google Dialogflow и IBM Watson. Также Вы узнаете как реализовать для чат-бота Webhook - механизм получения уведомлений об определённых событиях, чтобы выполнять внешнюю бизнес-логику. Вы узнаете как можно интегрировать вашего чат-бота с другими платформами. Познакомитесь с библиотеками ChatterBot и Rasa и узнаете как создавать чат-ботов на языке Python.

Основы SEO. Введение в поисковую оптимизацию

Тимур Машнин

Хотите понять, как основные поисковые системы ранжируют Ваш сайт в своих результатах поиска и как привлечь трафик? Научитесь поисковой оптимизации SEO. С этой книгой Вы познакомитесь с основными элементами поисковой оптимизации и изучите основные стратегии и тактики SEO для продвижения веб-сайтов, а также тактики, которых следует избегать, чтобы предотвратить наказание со стороны поисковых систем. Вы узнаете, как создать эффективную стратегию SEO и как определить возможности улучшения поисковой

Технология создания событий

Дина Гумерова

Технологию создания событий, описанную в книге, можно применить абсолютно ко всем желаниям: здоровью, деньгам, отношениям – к тому, чего хочет каждый живущий на земле человек. А хотим мы быть здоровыми, красивыми, конечно, иметь хорошие отношения с детьми, родителями, партнером по жизни, найти дело мечты и, естественно, доход, который позволяет об этом доходе не думать. На страницах этой книги автор дает разные практики и упражнения, помогающие копнуть вглубь своих желаний и найти действенные

Как вытащить из данных максимум

Джордан Морроу

Дата-грамотность, то есть способность ориентироваться в мире данных, – ключевой навык сегодняшнего дня. Ежедневно в соцсетях публикуются миллиарды сообщений, электронные почтовые ящики по всей планете гудят от писем, а каждый подключенный к интернету автомобиль производит терабайты данных, не говоря уже об онлайн-магазинах, платежных системах и государственных цифровых сервисах. Однако работать с данными, анализировать их и использовать их для бизнеса по-прежнему умеет меньшинство, а

Технология Блокчейн и NFT. Базовый курс

Тимур Казанцев

Цифровой мир продолжает стремительно развиваться и уже ясно, что криптовалюты и технологии, основанные на блокчейне, прочно завоевали свое право на существование и используются не только отдельными лицами, но и крупными компаниями и даже правительствами отдельных стран. Все эти цифровые технологии уже меняют способы управления финансами, музыкой, медиа, интеллектуальной и прочей собственностью. С появлением «метавселенных» цифровой мир станет еще ближе к людям, и ожидается, что NFT займет в