Руководство для начинающих по Kafka: начало работы с распределенными системами

Распределенные системы — это совокупность компьютеров, которые работают вместе, образуя единый компьютер для конечных пользователей. Они позволяют нам масштабироваться с экспоненциальной скоростью и могут обрабатывать миллиарды запросов и обновлений без простоев. Apache Kafka сегодня стала одной из наиболее широко используемых распределенных систем на рынке.

Согласно официальному сайту Kafka, Apache Kafka — это «платформа распределенной потоковой передачи событий с открытым исходным кодом, используемая тысячами компаний для высокопроизводительных конвейеров данных, потоковой аналитики, интеграции данных и критически важных приложений». Kafka используется большинством компаний из списка Fortune 100, включая такие крупные технологические компании, как LinkedIn, Netflix и Microsoft.

В этом руководстве по Apache Kafka мы обсудим использование, ключевые функции и архитектурные компоненты платформы распределенной потоковой передачи. Давайте начнем!

Содержание

Что такое Kafka?
Примеры использования Kafka
Ключевые особенности Кафки
Компоненты архитектуры Кафки
Группы потребителей Kafka
Кафка Перегородки
Фактор репликации темы
Кафка Темы
API Kafka
Kafka Producer API
Потребительский API Kafka
Kafka Connector API
Kafka Streams API
Kafka Brokers
Kafka Consumers
Продвинутые концепции для дальнейшего изучения

Что такое Kafka?

Apache Kafka — это программная платформа с открытым исходным кодом, написанная на языках программирования Scala и Java. Kafka началась в 2011 году как система обмена сообщениями для LinkedIn, но с тех пор превратилась в популярную платформу распределенной потоковой передачи событий. Платформа способна обрабатывать триллионы записей в день.

Kafka — это распределенная система, состоящая из серверов и клиентов, которые обмениваются данными через сетевой протокол TCP. Система позволяет нам читать, записывать, сохранять и обрабатывать события. Мы можем рассматривать событие как независимую часть информации, которую необходимо передать от производителя к потребителю. Некоторые соответствующие примеры включают платежные транзакции Amazon, обновления местоположения iPhone, заказы на доставку FedEx и многое другое. Kafka в основном используется для построения конвейеров данных и реализации потоковых решений.

Kafka позволяет нам создавать приложения, которые могут постоянно и точно использовать и обрабатывать несколько потоков с очень высокой скоростью. Он работает с потоковой передачей данных из тысяч различных источников данных. С Kafka мы можем:

обрабатывать записи по мере их появления
хранить записи точно и последовательно
публиковать или подписываться на потоки данных или событий

Читайте также: Удалить ключ Redis

Система обмена сообщениями Kafka с публикацией и подпиской чрезвычайно популярна в сфере больших данных и хорошо интегрируется с Apache Spark и Apache Storm.

Примеры использования Kafka

Вы можете использовать Kafka по-разному, но вот несколько примеров различных вариантов использования, опубликованных на официальном сайте Kafka:

Обработка финансовых транзакций в режиме реального времени
Отслеживание и мониторинг транспортных средств в режиме реального времени
Сбор и анализ данных датчиков
Сбор и реагирование на взаимодействия с клиентами
Наблюдение за больными пациентами
Обеспечение основы для платформ данных, событийно-ориентированных архитектур и микросервисов.
Выполнение крупномасштабного обмена сообщениями
Служит журналом фиксации для распределенных систем
И многое другое

Ключевые особенности Кафки

Давайте посмотрим на некоторые ключевые особенности, которые сделали Kafka настолько популярным:

Масштабируемость: Kafka управляет масштабируемостью соединителей событий, потребителей, производителей и процессоров.
Отказоустойчивость: Kafka отказоустойчив и легко справляется с отказами с помощью мастеров и баз данных.
Последовательность: Kafka может масштабироваться на многих разных серверах, сохраняя при этом порядок ваших данных.
Высокая производительность: Kafka имеет высокую пропускную способность и низкую задержку. Он остается стабильным даже при работе с большим количеством данных.
Расширяемость: многие приложения интегрируются с Kafka.
Возможности репликации: Kafka использует конвейеры приема и может легко реплицировать события.
Доступность: Kafka может растягивать кластеры по зонам доступности или подключать разные кластеры в разных регионах. Kafka использует ZooKeeper для управления кластерами.
Возможности подключения: Интерфейс Кафка Connect позволяет интегрировать с различными источниками событий, таких как JMS и AWS S3.
Сообщество: Kafka — один из самых активных проектов Apache Software Foundation. Сообщество проводит такие мероприятия, как Kafka Summit by Confluent.

Компоненты архитектуры Кафки

Прежде чем мы углубимся в некоторые компоненты архитектуры Kafka, давайте взглянем на некоторые ключевые концепции, которые помогут нам понять это:

Группы потребителей Kafka

Группы потребителей состоят из кластера связанных потребителей, которые выполняют определенные задачи, такие как отправка сообщений в службу. Они могут запускать несколько процессов одновременно. Kafka отправляет сообщения из разделов темы потребителям в группе. Когда сообщения отправляются в группу, каждый раздел читается одним потребителем в большей группе.

Кафка Перегородки

Кафка темы разбиты на разделы. Эти разделы воспроизводятся у разных брокеров. В каждом разделе несколько потребителей могут читать из темы одновременно.

Фактор репликации темы

Фактор репликации темы гарантирует, что данные остаются доступными, а развертывание проходит гладко и эффективно. Если брокер выходит из строя, реплики тем на разных брокерах остаются внутри этих брокеров, чтобы мы могли получить доступ к нашим данным.

Кафка Темы

Темы помогают нам организовать наши сообщения. Мы можем думать о них как о каналах, по которым проходят наши данные. Производители Kafka могут публиковать сообщения в темах, а потребители Kafka могут читать сообщения из тем, на которые они подписаны.

Теперь, когда мы рассмотрели некоторые основополагающие концепции, мы готовы перейти к архитектурным компонентам!

API Kafka

В архитектуре Kafka есть четыре основных API. Давайте посмотрим на них!

Kafka Producer API

API-интерфейс Producer позволяет приложениям публиковать потоки записей в темах Kafka.

Потребительский API Kafka

Consumer API позволяет приложениям подписываться на темы Kafka. Этот API также позволяет приложению обрабатывать потоки записей.

Kafka Connector API

Connector API связывает приложения или системы данных с темами. Этот API помогает нам создавать и управлять производителями и потребителями. Это также позволяет нам повторно использовать соединения в различных решениях.

Kafka Streams API

Streams API позволяет приложениям обрабатывать данные с помощью потоковой обработки. Этот API позволяет приложениям принимать входные потоки из разных тем и обрабатывать их с помощью потокового процессора. Затем приложение может создавать выходные потоки и отправлять их по разным темам.

Kafka Brokers

Один сервер Kafka называется брокером. Обычно несколько брокеров работают как один кластер Kafka. Кластер управляется одним из брокеров, называемым контроллером. Контроллер отвечает за административные действия, такие как назначение разделов другим брокерам и мониторинг сбоев и простоев.

Разделы могут быть назначены нескольким брокерам. Если это произойдет, раздел будет реплицирован. Это создает избыточность на случай отказа одного из брокеров. Брокер отвечает за получение сообщений от производителей и их фиксацию на диске. Брокеры также получают запросы от потребителей и отвечают сообщениями, взятыми из разделов.

Вот визуализация брокера, размещающего несколько тематических разделов:

Kafka Consumers

Потребители получают сообщения из тем Kafka. Они подписываются на темы, а затем получают сообщения, которые продюсеры пишут в тему. Обычно каждый потребитель принадлежит к группе потребителей. В группе потребителей несколько потребителей работают вместе, чтобы читать сообщения из темы.

Давайте посмотрим на некоторые из различных конфигураций потребителей и разделов в теме:

Количество потребителей и разделов в теме равны

В этом сценарии каждый потребитель читает из одного раздела.

Количество разделов в теме больше, чем количество потребителей в группе

В этом сценарии некоторые или все потребители читают более чем из одного раздела.

Один потребитель с несколькими разделами

В этом сценарии все разделы используются одним потребителем.

Количество разделов в теме меньше количества потребителей в группе

В этом сценарии некоторые потребители будут бездействовать.

Kafka Producers

Производители пишут в Kafka сообщения, которые потребители могут прочитать.

Продвинутые концепции для дальнейшего изучения

Поздравляем, вы сделали первые шаги с Apache Kafka! Kafka — эффективная и мощная распределенная система. Возможности масштабирования Kafka позволяют справляться с большими рабочими нагрузками. Часто это предпочтительный выбор по сравнению с другими очередями сообщений для конвейеров данных в реальном времени. В целом, это универсальная платформа, способная поддерживать множество вариантов использования. Теперь вы готовы перейти к более сложным темам Kafka, таким как:

Сериализация производителя
Потребительские конфигурации
Размещение раздела