Технология хранения и обработки больших данных Hadoop - Тимур Машнин

- Автор: Тимур Машнин
- Жанр: интернет, книги о компьютерах, программирование
- Размещение: фрагмент
- Теги: big data, анализ данных, кластеры, распределенные системы, фреймворки
- Год: 2021
Технология хранения и обработки больших данных Hadoop
Классический Map Reduce отвечает как за управление ресурсами, так и за обработку данных.
В Hadoop версии 2, YARN разделяет функций управления ресурсами и планирования/мониторинга заданий на отдельные демоны.
YARN – это универсальная платформа для запуска любого распределенного приложения, и здесь Map Reduce – это распределенное приложение, которое работает поверх YARN.
Таким образом, YARN отвечает за управление ресурсами, то есть решает, какая работа будет выполняться и какой системой.
Тогда как Map Reduce является фреймворком программирования, который отвечает за то, как выполнить конкретную работу, используя два компонента mapper и reducer.
YARN отделяет компоненты управления ресурсами от компонентов обработки, и YARN не сводится только к MapReduce.
Диспетчер ресурсов resource manager YARN оптимизирует использование кластера и поддерживает другие рабочие процессы, кроме Map Reduce.
Поэтому здесь мы можем добавлять дополнительные программные модели, такие как обработка графов или итеративное моделирование, которые могут обрабатывать данные, используя те же кластеры и общие ресурсы.
Поверх HDFS и Yarn могут работать множество компонентов, и эта архитектура также развивалась с течением времени.
Давайте посмотрим на историю и посмотрим, как вся эта экосистема Hadoop развивалась и росла со временем.
Как вы можете заметить, у многих из этих приложений смешные имена.
Как мы можем понять весь этот зоопарк, и как мы можем понять, что делает каждое из этих приложений?
Проект Hadoop возник из концепции Google MapReduce и идеи о том, как можно обрабатывать очень большие объемы данных.
Здесь показан стек Google Big Data.
И он начинается с файловой системы Google GFS.
В Google подумали, что будет хорошей идеей использовать большое количество распределенного дешевого хранилища, и попытаться разместить там много данных.
И придумать какой-то фреймворк, который позволил бы обрабатывать все эти данные.
Таким образом, у Google появился свой оригинальный MapReduce, и они хранили и обрабатывали большие объемы данных.
Затем в Google сказали, что это действительно здорово, но нам бы очень хотелось иметь доступ к этим данным и обращаться к ним на языке, похожем на SQL.
Поэтому они создали шлюз MySQL Gateway, чтобы адаптировать данные в кластере MapReduce и иметь возможность запрашивать эти данных.
Затем они поняли, что им нужен специальный язык высокого уровня для доступа к MapReduce в кластере и отправки работы.
Так появился Sawzall.
Затем появился Evenflow и позволил связывать воедино сложные рабочие нагрузки и координировать сервисы и события.
Затем появился Дремель. Dremel – это хранилище и менеджер метаданных, который позволяет управлять данными и обрабатывать очень большой объем неструктурированных данных.
И затем, конечно, вам нужно что-то, чтобы координировать все это между собой.
Так появился Chubby в качестве системы координации, которая управляет всеми продуктами в этой экосистеме, обрабатывающей большие объемы данных.
Здесь показан стек Facebook Big Data.
И мы видим, что стек Facebook выглядит очень похожим.
Здесь есть Zookeeper, аналог Chubby, цель которого хранение и управление конфигурациями систем.
Здесь есть HBase, и таблицы в HBase служат входом и выходом для работы MapReduce.
И здесь Hive и Databee, которые обеспечивает SQL запросы.
И есть Scribe, который используется для агрегации лог данных, передаваемых в режиме реального времени с большого количества серверов.
Затем, если мы посмотрим на стек Yahoo, вы увидите, что они используют те же компоненты, некоторые из них с другими именами, но для тех же целей.
LinkedIn также имеет свою версию этого стека.
И опять же, вы можете видеть, что здесь те же компоненты, некоторые из которых имеют свои реализации.
Таким образом, вы можете видеть, что из всех этих стеков возникает шаблон, который используют разные организации.
И здесь показан Hadoop стек CDH – Cloudera's distribution for Hadoop компании Cloudera.
Cloudera – это американская компания, разработчик дистрибутивов Apache Hadoop и ряда программных продуктов экосистемы Hadoop.
В этом стеке у нас есть Sqoop, инструмент, предназначенный для эффективной передачи больших данных между Hadoop и структурированными хранилищами данных, такими как реляционные базы данных.
И есть Flume – распределенный сервис для агрегирования больших объемов лог данных.
Здесь используется HBase для случайной записи и чтения данных, хранящихся в HDFS.
Oozie используется в качестве движка координации и рабочего процесса.
И Pig и Hive обеспечивают языки высокого уровня запросов данных.
И наконец здесь используется Zookeeper в качестве службы координации в основе этого стека.
И мы можем скачать и запустить виртуальную машину Cloudera, которая позволяет запускать все эти различные сервисы и узнавать, как они работают, без необходимости установки сервера.
Но сначала давайте поговорим о различных инструментах, которые мы будем использовать поверх платформы Hadoop.
С развитием вычислительной техники стало возможным управлять огромными объемами данных, которые раньше мы могли обрабатывать только на суперкомпьютерах.
Настоящий прорыв произошел, когда такие компании, как Yahoo, Google и Facebook пришли к пониманию, что им нужно что-то сделать, чтобы обрабатывать и монетизировать эти огромные объемы данных, которые они собирают.
В результате были созданы различные инструменты и собраны стеки Big Data.
И давайте начнем обсуждение этих инструментов с Apache Sqoop.
Sqoop означает SQL для Hadoop.
Это простой инструмент командной строки, который позволяет импортировать отдельные таблицы или целые базы данных в систему HDFS.
И этот инструмент генерирует классы Java, чтобы можно было взаимодействовать с данными, которые мы импортировали.
С этим инструментом Вы можете работать с данными базы данных SQL в среде Hadoop и использовать Map Reduce для запуска заданий с этими данными.
Следующий инструмент – это Hbase.
Hbase является ключевым компонентом стека Hadoop, так как он предназначен для приложений, которым требуется быстрый произвольный доступ к большому набору данных.
И Hbase основывается на Google Big Table и может обрабатывать большие таблицы данных, объединяющие миллиарды строк и миллионы столбцов.
Pig – это язык скриптов, это платформа высокого уровня для создания программ MapReduce с использованием Hadoop.
Читать похожие на «Технология хранения и обработки больших данных Hadoop» книги

Бизнес – это всегда правильно выбранная стратегия. Ошибившись в своём стратегическом видении, вы теряете деньги, сотрудников и клиентов. Но что такое правильно выбранная стратегия в наше время «чёрных лебедей»? Стратегия – это не визионерство, а эффективное использование ресурсов и возможностей. В рамках вашей стратегии вы должны чётко понимать, что представляет ваш бизнес на самом деле, как он работает, зачем он нужен вашему клиенту и как одно связано с другим. При кажущейся простоте вопросов

Можно ли проверить алгеброй гармонию? И можно ли выработать технологию для такого неуловимого состояния, как счастье? Автор книги – казахский миллиардер, предприниматель и общественный деятель Маргулан Сейсембай – отвечает на эти вопросы уверенным «Да!» На основании своего богатого жизненного опыта Сейсембай разработал методику, которая позволит любому человеку обрести контроль на своей жизнью и достичь… не успеха, но счастья – автор призывает разделять эти два понятия, так как погоня за ними

Эта книга познакомит с практическим использованием языка MetaQuotes Language 5 (MQL5) программирования технических индикаторов, торговых роботов и вспомогательных приложений для автоматизации торговли на финансовых рынках с помощью торговой платформы MetaTrader 5. Вы научитесь создавать MQL5 приложения, используя как процедурное программирование, так и объектно-ориентированное программирование. Познакомитесь с общей структурой и свойствами технических индикаторов и советников, научитесь

С этой книгой Вы познакомитесь с чат-ботами и поймете как создавать чат-ботов без программирования с использованием таких облачных служб как Google Dialogflow и IBM Watson. Также Вы узнаете как реализовать для чат-бота Webhook - механизм получения уведомлений об определённых событиях, чтобы выполнять внешнюю бизнес-логику. Вы узнаете как можно интегрировать вашего чат-бота с другими платформами. Познакомитесь с библиотеками ChatterBot и Rasa и узнаете как создавать чат-ботов на языке Python.

Хотите понять, как основные поисковые системы ранжируют Ваш сайт в своих результатах поиска и как привлечь трафик? Научитесь поисковой оптимизации SEO. С этой книгой Вы познакомитесь с основными элементами поисковой оптимизации и изучите основные стратегии и тактики SEO для продвижения веб-сайтов, а также тактики, которых следует избегать, чтобы предотвратить наказание со стороны поисковых систем. Вы узнаете, как создать эффективную стратегию SEO и как определить возможности улучшения поисковой

Технологию создания событий, описанную в книге, можно применить абсолютно ко всем желаниям: здоровью, деньгам, отношениям – к тому, чего хочет каждый живущий на земле человек. А хотим мы быть здоровыми, красивыми, конечно, иметь хорошие отношения с детьми, родителями, партнером по жизни, найти дело мечты и, естественно, доход, который позволяет об этом доходе не думать. На страницах этой книги автор дает разные практики и упражнения, помогающие копнуть вглубь своих желаний и найти действенные

Дата-грамотность, то есть способность ориентироваться в мире данных, – ключевой навык сегодняшнего дня. Ежедневно в соцсетях публикуются миллиарды сообщений, электронные почтовые ящики по всей планете гудят от писем, а каждый подключенный к интернету автомобиль производит терабайты данных, не говоря уже об онлайн-магазинах, платежных системах и государственных цифровых сервисах. Однако работать с данными, анализировать их и использовать их для бизнеса по-прежнему умеет меньшинство, а

Цифровой мир продолжает стремительно развиваться и уже ясно, что криптовалюты и технологии, основанные на блокчейне, прочно завоевали свое право на существование и используются не только отдельными лицами, но и крупными компаниями и даже правительствами отдельных стран. Все эти цифровые технологии уже меняют способы управления финансами, музыкой, медиа, интеллектуальной и прочей собственностью. С появлением «метавселенных» цифровой мир станет еще ближе к людям, и ожидается, что NFT займет в