Как установить Apache Spark в Ubuntu Linux

Как установить Apache Spark в Ubuntu Linux

Рубрики:

Linux, Утилиты Linux

Метки:

apache, linux

Apache Spark — распределенная вычислительная система с открытым исходным кодом, предназначенная для обработки большого объема информации. Она предоставляет интерфейс для программирования целых кластеров компьютеров с неявным параллелизмом данных и отказоустойчивостью. То есть, Spark позволяет ускорить процесс анализа данных за счет распределения работы.

В этой статье мы расскажем, как установить программу Apache Spark в Ubuntu Linux.

Содержимое:

  1. Установка необходимых зависимостей
  2. Загрузка Apache Spark в Ubuntu
  3. Настройка среды приложения Spark
  4. Запуск автономного главного сервера Apache Spark
  5. Использование графического интерфейса Spark Web
    1. Запуск тестового рабочего процесса на сервере Spark
    2. Распределение ресурсов для дочерних процессов
    3. Остановка главного сервера и рабочих процессов
  6. Выводы

Установка необходимых зависимостей

Чтобы программа Apache Spark бесперебойно функционировала, следует установить ряд дополнительных инструментов:

  1. default-jdk — пакет JDK (сокр. от Java Development Kit), который позволяет создавать приложения на Java. Он включает в себя компилятор (javac), отладчик (jdb) и другие утилиты.
  2. Scala — язык программирования, который часто используется в связке с Apache Spark для написания приложений на этой вычислительной платформе.
  3. Git — система контроля версий, которая используется для управления репозиториями исходного кода, совместной разработки приложений.

Чтобы установить все перечисленные инструменты, выполните в терминале:

 

install dependencies

Затем проверьте версии установленных утилит, чтобы убедиться, что их инсталляция прошла успешно:

 

check versions

Читайте также: Как установить TensorFlow в CentOS Linux.

Загрузка Apache Spark в Ubuntu

Чтобы начать пользоваться Apache Spark, нужно скачать и распаковать архив с файлами этого программного обеспечения. На момент написания статьи доступны две версии инструмента: 3.4.2 и 3.5.1. Все ресурсы (исходные коды, бинарные сборки, документация и так далее) Spark хранятся на специальном сервере.

Для скачивания архива с файлами инструмента Apache Spark версии 3.5.1 примените команду wget:

 

wget tar

После чего извлеките файлы из архива с помощью утилиты tar:

 

extract archive

Читайте также: Как установить Linux Dash.

Наконец, переместите распакованную папку в директорию /opt/spark:

 

move to opt spark

Настройка среды приложения Spark

Перед запуском Apache Spark Вам нужно настроить переменные среды. Для этого откройте файл .profile с помощью текстового редактора, например, nano:

 

И вставьте в любое свободное место следующие строки:

 

edit profile

Сохраните и закройте файл. Чтобы внесенные изменения вступили в силу немедленно, выполните в терминале:

Запуск автономного главного сервера Apache Spark

Теперь Вы можете включить главный сервер программы. Для этого запустите скрипт start-master.sh:

 

Чтобы использовать оболочку Spark в терминале, выполните следующую команду:

 

run spark in command line

На скриншоте выше видно, что по умолчанию используется интерфейс терминала языка программирования Scala. Во время работы с Apache Spark Вы можете применять язык Python. Чтобы переключиться на него, для начала закройте текущую оболочку, выполнив команду :q. Затем запустите в командной строке Linux инструмент pyspark:

 

pyspark

Чтобы выйти из этой оболочки, введите quit() и нажмите Enter.

Читайте также: Как правильно установить Python на Linux: разбор всех пунктов.

Использование графического интерфейса Spark Web

Программа Spark предоставляет пользовательский интерфейс. Чтобы получить к нему доступ, откройте веб-браузер и введите в поисковой строке следующий URL-адрес:

 

spark web

На главной странице отображается:

  • URL-адрес главного сервера Spark (в нашем случае — spark://Sedicomm:7077);
  • информация о статусе приложений и процессов, работающих / работавших на этой платформе;
  • сведения о потреблении ресурсов ПК и ОС.

Запуск тестового рабочего процесса на сервере Spark

Давайте посмотрим, как управлять программами на сервере Spark. Например, Вы можете запустить тестовый дочерний процесс. Для этого выполните в терминале следующую команду:

 

Затем перезагрузите интерфейс Spark Web.

start slave

На скриншоте выше видно, что во вкладке Workers появилась запись, которая описывает сведения о дочернем процессе:

  • идентификатор (Worker Id)
  • URL-адрес (Address);
  • состояние (State);
  • количество используемых ядер ЦП (Cores);
  • выделенный ему объем ОЗУ (Memory);
  • другие ресурсы (Resources).

Распределение ресурсов для дочерних процессов

При запуске дочерних процессов Вы можете вручную выделять им ресурсы компонентов ПК или операционной системы. Чтобы назначить процессу определенное количество ядер ЦП, добавьте в предыдущую команду опцию -c. Например, чтобы выделить дочернему процессу одно ядро процессора, выполните в терминале:

 

specify cores

Читайте также: Как посмотреть список модулей Apache в Linux.

Чтобы выделить процессу определенный объем оперативной памяти, примените опцию -m. В качестве ее аргумента укажите нужный объем ОЗУ в гигабайтах (G) или мегабайтах (M). Например:

 

specify memory

Остановка главного сервера и рабочих процессов

Чтобы остановить запущенный рабочий процесс, выполните в терминале команду:

 

stop slave

На скриншоте выше видно, что состояние процесса — DEAD.

Чтобы остановить сервер Apache Spark, запустите в командной строке скрипт stop-master.sh:

 

stop master

Выводы

Процесс инсталляции Apache Spark в дистрибутиве Ubuntu Linux проходит в несколько этапов. Мы детально разобрали каждый из них, чтобы у Вас не возникло проблем при установке этого ПО. Также мы показали несколько команд для управления сервером Spark и его рабочими процессами.

Спасибо за время, уделенное прочтению статьи!

Если возникли вопросы — задавайте их в комментариях.

Подписывайтесь на обновления нашего блога и оставайтесь в курсе новостей мира инфокоммуникаций!

Чтобы знать больше и выделяться знаниями среди толпы IT-шников, записывайтесь на курсы Ciscoкурсы по кибербезопасностиполный курс по кибербезопасностикурсы DevNet / DevOps (программируемые системы) от Академии Ciscoкурсы Linux от Linux Professional Institute на платформе SEDICOMM University (Университет СЭДИКОММ).

Курсы Cisco, Linux, кибербезопасность, DevOps / DevNet, Python с трудоустройством!

Спешите подать заявку! Группы стартуют 25 января, 26 февраля, 22 марта, 26 апреля, 24 мая, 21 июня, 26 июля, 23 августа, 20 сентября, 25 октября, 22 ноября, 20 декабря.
Что Вы получите?
  • Поможем стать экспертом по сетевой инженерии, кибербезопасности, программируемым сетям и системам и получить международные сертификаты Cisco, Linux LPI, Python Institute.
  • Предлагаем проверенную программу с лучшими учебниками от экспертов из Cisco Networking Academy, Linux Professional Institute и Python Institute, помощь сертифицированных инструкторов и личного куратора.
  • Поможем с трудоустройством и стартом карьеры в сфере IT — 100% наших выпускников трудоустраиваются.
Как проходит обучение?
  • Проведем вечерние онлайн-лекции на нашей платформе.
  • Согласуем с вами удобное время для практик.
  • Если хотите индивидуальный график — обсудим и реализуем.
  • Личный куратор будет на связи, чтобы ответить на вопросы, проконсультировать и мотивировать придерживаться сроков сдачи экзаменов.
  • Всем, кто боится потерять мотивацию и не закончить обучение, предложим общение с профессиональным коучем.
А еще поможем Вам:
  • отредактировать или создать с нуля резюме;
  • подготовиться к техническим интервью;
  • подготовиться к конкурсу на понравившуюся вакансию;
  • устроиться на работу в Cisco по специальной программе. Наши студенты, которые уже работают там: жмите на #НашиВCisco Вконтакте, #НашиВCisco Facebook.
Чтобы учиться на курсах Cisco, Linux LPI, кибербезопасность, DevOps / DevNet, Python, подайте заявку или получите бесплатную консультацию.

Рубрики:

Linux, Утилиты Linux

Метки:

apache, linux

Больше похожих постов

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Заполните поле
Заполните поле
Пожалуйста, введите корректный адрес email.
Вы должны согласиться с условиями для продолжения


Поиск по сайту
Лучшее
Популярное
Рубрики