Книги » Тимур Машнин » Технология хранения и обработки больших данных Hadoop » Читать онлайн бесплатно

Технология хранения и обработки больших данных Hadoop - Тимур Машнин

Автор: Тимур Машнин
Жанр: интернет, книги о компьютерах, программирование
Теги: big data, анализ данных, кластеры, распределенные системы, фреймворки
Год: 2021

Технология хранения и обработки больших данных Hadoop

Страница 4

Чтобы ответить на этот вопрос, вы можете посмотреть на данные транзакций, которые должны указать, что клиенты покупают.

Вероятно, вы можете это сделать в обычной реляционной базе данных.

Но преимущество платформы Cloudera заключается в том, что вы можете делать это в большем масштабе при меньших затратах.

Здесь сбоку есть информация о Scoop.

Это инструмент, который использует Map Reduce для эффективной передачи данных между кластером Hadoop и реляционной базой данных.

Он работает путем порождения нескольких узлов данных, чтобы загружать различные части данных параллельно.

И по окончании, каждый фрагмент данных будет реплицирован для обеспечения доступности и распределения по кластеру, чтобы вы могли параллельно обрабатывать данные в кластере.

И в платформу Cloudera включены две версии Sqoop.

Sqoop1 – это толстый клиент.

И Scoop2 состоит из центрального сервера и тонкого клиента, который вы можете использовать для подключения к серверу.

Ниже, вы можете посмотреть структуру таблицы данных.

Чтобы проанализировать данные транзакций на платформе Cloudera, нам нужно ввести их в распределенную файловую систему Hadoop (HDFS).

И нам нужен инструмент, который легко переносит структурированные данные из реляционной базы данных в HDFS, сохраняя при этом структуру.

И Apache Sqoop является этим инструментом.

С помощью Sqoop мы можем автоматически загружать данные из MySQL в HDFS, сохраняя при этом структуру.

Вверху в меню откроем терминал, и запустим это задание Sqoop.

Эта команда запускает задания MapReduce для экспорта данных из базы данных MySQL и размещения этих файлов экспорта в формате Avro в HDFS.

Эта команда также создает схему Avro, чтобы мы могли легко загрузить таблицы Hive для последующего использования в Impala.

Impala – это механизм аналитических запросов.

И Avro – это формат файлов, оптимизированный для Hadoop.

Таким образом, мы скопируем код и запустим команду в терминале.

После выполнения задания, чтобы подтвердить, что данные существуют в HDFS, мы скопируем следующие команды в терминал.

Которые покажут папку для каждой из таблиц и покажут файлы в папке категорий.

Инструмент Sqoop также должен был создать файлы схемы для этих данных.

И эта команда должна показать avsc схемы для шести таблиц базы данных.

Таким образом, схемы и данные хранятся в отдельных файлах.

И схема применяется к данным, только когда данные запрашиваются.

И это то, что мы называем схемой на чтение.

Это дает гибкость при запросе данных с помощью SQL.

И это отличие от традиционных баз данных, которые требуют, чтобы у вас была четкая схема, прежде чем вводить в базу какие-либо данные. Здесь мы вводим данные, а уже потом применяем к ним схему.

Теперь, так как мы хотим использовать Apache Hive, нам понадобятся файлы схем.

Поэтому с помощью этой команду скопируем их в HDFS, где Hive может легко получить к ним доступ.

Вы могли заметить, что мы импортировали данные в каталоги Hive.

И Hive и Impala читают данные из файла в HDFS, и они даже обмениваются метаданными о таблицах.

Отличие состоит в том, что Hive выполняет запросы, компилируя их в задания MapReduce.

В то время как Impala является механизмом системы параллельных запросов, которые считывают данные непосредственно из самой файловой системы, в более быстром и интерактивном режиме.

Таким образом, мы загрузили данные с помощью Sqoop в HTFS, преобразовав их в формат Avro, и импортировали файлы схем, для их использования при запросе этих данных.

И теперь, давайте перейдем к следующему упражнению.

Здесь мы будем использовать Hue, приложение Impala, для создания метаданных для наших таблиц.

Мы создадим эти метаданные, а затем сделаем запрос к нашей таблице используя Hue.

Hue предоставляет веб-интерфейс, который доступен на порту 8888.

Чтобы войти в Hue, введем сloudera в качестве имени пользователя и пароля.

Далее в меню Query Editors откроем Impala.

Скопируем и вставим код, который создаст таблицы.

И обновим данные в левой колонке, чтобы увидеть созданные таблицы.

Теперь, когда данные доступны для запросов, мы можем ответить на вопрос, какие продукты покупают клиенты.

Для этого скопируем и вставим SQL запросы для расчета общей выручки по продукту и отображения 10 лучших продуктов, приносящих доход.

После выполнения, в Hue, мы увидим результаты запроса.

Таким образом мы узнали, как создавать и запрашивать таблицы с помощью Impala.

Предыдущая Следующая

Читать похожие на «Технология хранения и обработки больших данных Hadoop» книги

Стратегическое мышление в бизнесе. Технология «Векторное кольцо»

Андрей Курпатов

Бизнес – это всегда правильно выбранная стратегия. Ошибившись в своём стратегическом видении, вы теряете деньги, сотрудников и клиентов. Но что такое правильно выбранная стратегия в наше время «чёрных лебедей»? Стратегия – это не визионерство, а эффективное использование ресурсов и возможностей. В рамках вашей стратегии вы должны чётко понимать, что представляет ваш бизнес на самом деле, как он работает, зачем он нужен вашему клиенту и как одно связано с другим. При кажущейся простоте вопросов

Миссия выполнима. Технология счастливой жизни

Маргулан Сейсембай

Можно ли проверить алгеброй гармонию? И можно ли выработать технологию для такого неуловимого состояния, как счастье? Автор книги – казахский миллиардер, предприниматель и общественный деятель Маргулан Сейсембай – отвечает на эти вопросы уверенным «Да!» На основании своего богатого жизненного опыта Сейсембай разработал методику, которая позволит любому человеку обрести контроль на своей жизнью и достичь… не успеха, но счастья – автор призывает разделять эти два понятия, так как погоня за ними

Продвинутое использование торговой платформы MetaTrader 5

Тимур Машнин

Эта книга познакомит с практическим использованием языка MetaQuotes Language 5 (MQL5) программирования технических индикаторов, торговых роботов и вспомогательных приложений для автоматизации торговли на финансовых рынках с помощью торговой платформы MetaTrader 5. Вы научитесь создавать MQL5 приложения, используя как процедурное программирование, так и объектно-ориентированное программирование. Познакомитесь с общей структурой и свойствами технических индикаторов и советников, научитесь

Создание чат-ботов с Dialogflow, Watson, ChatterBot и Rasa

Тимур Машнин

С этой книгой Вы познакомитесь с чат-ботами и поймете как создавать чат-ботов без программирования с использованием таких облачных служб как Google Dialogflow и IBM Watson. Также Вы узнаете как реализовать для чат-бота Webhook - механизм получения уведомлений об определённых событиях, чтобы выполнять внешнюю бизнес-логику. Вы узнаете как можно интегрировать вашего чат-бота с другими платформами. Познакомитесь с библиотеками ChatterBot и Rasa и узнаете как создавать чат-ботов на языке Python.

Основы SEO. Введение в поисковую оптимизацию

Тимур Машнин

Хотите понять, как основные поисковые системы ранжируют Ваш сайт в своих результатах поиска и как привлечь трафик? Научитесь поисковой оптимизации SEO. С этой книгой Вы познакомитесь с основными элементами поисковой оптимизации и изучите основные стратегии и тактики SEO для продвижения веб-сайтов, а также тактики, которых следует избегать, чтобы предотвратить наказание со стороны поисковых систем. Вы узнаете, как создать эффективную стратегию SEO и как определить возможности улучшения поисковой

Технология создания событий

Дина Гумерова

Технологию создания событий, описанную в книге, можно применить абсолютно ко всем желаниям: здоровью, деньгам, отношениям – к тому, чего хочет каждый живущий на земле человек. А хотим мы быть здоровыми, красивыми, конечно, иметь хорошие отношения с детьми, родителями, партнером по жизни, найти дело мечты и, естественно, доход, который позволяет об этом доходе не думать. На страницах этой книги автор дает разные практики и упражнения, помогающие копнуть вглубь своих желаний и найти действенные

Как вытащить из данных максимум

Джордан Морроу

Дата-грамотность, то есть способность ориентироваться в мире данных, – ключевой навык сегодняшнего дня. Ежедневно в соцсетях публикуются миллиарды сообщений, электронные почтовые ящики по всей планете гудят от писем, а каждый подключенный к интернету автомобиль производит терабайты данных, не говоря уже об онлайн-магазинах, платежных системах и государственных цифровых сервисах. Однако работать с данными, анализировать их и использовать их для бизнеса по-прежнему умеет меньшинство, а

Технология Блокчейн и NFT. Базовый курс

Тимур Казанцев

Цифровой мир продолжает стремительно развиваться и уже ясно, что криптовалюты и технологии, основанные на блокчейне, прочно завоевали свое право на существование и используются не только отдельными лицами, но и крупными компаниями и даже правительствами отдельных стран. Все эти цифровые технологии уже меняют способы управления финансами, музыкой, медиа, интеллектуальной и прочей собственностью. С появлением «метавселенных» цифровой мир станет еще ближе к людям, и ожидается, что NFT займет в