Алгоритмы машинного обучения обеспечивают глубокое понимание состава клеточных субпопуляций при использовании 20-цветного иммунофенотипирования
Цель
В данных рекомендациях по применению будет представлена панель с 20 маркерами, подходящая для сбора данных на CytoFLEX LX*. Будет исследована визуализация данных с использованием алгоритмов viSNE, FlowSOM и SPADE на платформе Cytobank*. Будет продемонстрирована стратегия ручного гейтирования с использованием аналитического программного обеспечения Kaluza* и ее сравнение с субпопуляциями, выявленными путем независимой кластеризации с помощью FlowSOM на платформе Cytobank*1,2. Независимый характер многих из этих алгоритмов позволяет снизить систематическую ошибку, которая может возникнуть в ходе ручного гейтирования известных субпопуляций, и позволяет исследователю идентифицировать непредвиденные фенотипы. Использование алгоритмов машинного обучения позволяет сократить время ручного труда, необходимого для проведения исчерпывающего анализа высокоразмерных наборов данных, что предоставляет дополнительное преимущество по сравнению с гейтированием вручную.
Для того чтобы получить данные, использованные в этих рекомендациях по применению, образцы крови окрасили 20-цветным «коктейлем» антител, описанным ниже (таблица 1). После окрашивания эритроциты были лизированы с использованием лизирующего раствора Versalyse в соответствии со стандартной процедурой (Артикул: IM3648). Данные окрашенных образцов собрали на 6-лазерном цитометре CytoFLEX LX (Артикул: C40324). Для того чтобы обеспечить оптимальную детекцию каждого красителя применили описанную ниже конфигурацию оптических фильтров.
Таблица 1. 20–цветная панель

Компенсацию и преобразование данных с использованием логического масштабирования выполнили с использованием программного обеспечения Kaluza Analysis, а компенсированные логически преобразованные данные экспортировали на платформу Cytobank с использованием плагина Kaluza Cytobank. Программное обеспечение Kaluza Analysis также использовали для двухосевого гейтирования и идентификации популяций вручную.
При подготовке к анализу данных с помощью машинного обучения удаляют дебрис, дубликаты и часто также мертвые клетки или другие нежелательные явления. Эти явления не добавят информации к последующему анализу, но могут снизить качество отображения данных и повлиять на результаты статистического анализа, если не будут идентифицированы и исключены соответствующим образом. В зависимости от желаемой
визуализации данных и поставленных в исследовании вопросов, может быть полезно предварительно гейтировать интересующую популяцию для дальнейшего анализа (рисунок 1).
Рисунок 1. Очистка данных в Kaluza Analysis. Дубликаты были исключены на основании сравнения интегрального (Area) и пикового (Height) сигналов прямого рассеяния с последующим гейтированием лейкоцитов на основе характеристик прямого и бокового рассеяния. Клетки с отрицательным результатом по ViaKrome 808 были идентифицированы как жизнеспособные и далее классифицированы как лейкоциты на основании экспрессии CD45. Данные проанализированы с использованием программного обеспечения Kaluza Analysis. Графики приведены только для иллюстрации.
Для идентификации вручную клеточных субпопуляций в образцах периферической крови человека разработали стратегию гейтирования, основанную на ранее опубликованных известных профилях экспрессии маркеров, с использованием программного обеспечения Kaluza Analysis3.
Рисунок 2. Основанная на знаниях идентификация основных субпопуляций лейкоцитов. Данные проанализированы с использованием программного обеспечения Kaluza Analysis. Графики приведены только для иллюстрации.
Используя инструменты машинного обучения, можно идентифицировать клеточные субпопуляции без систематической ошибки и независимо от накопленных знаний. Алгоритмы снижения размерности, такие как viSNE, позволяют визуализировать информацию, содержащуюся в наборе высокоразмерных данных, на одном 2D-графике1. Алгоритмы кластеризации, такие как FlowSOM, позволяют автоматически идентифицировать и группировать схожие клетки на основе сходства экспрессии маркеров2.
Для дальнейшего анализа наборов данных, приведенных в рекомендациях по применению, использовали viSNE для снижения размерности в отношении всех маркеров гейтирования,
также используемых на этапах гейтирования вручную, показанных на рисунке 2. Это позволяет визуализировать информацию, содержащуюся в этих 11 маркерах (CD45, CRTH2, CD123, CD15, CD14, CD16, CD56, CD3, CD4, CD8, CD19), на одном 2D-графике. viSNE – это метод сокращения высокоразмерных данных до двух измерений, что позволяет быстро проводить поисковый анализ данных и визуализировать сложные результаты. В цитометрии
это может помочь при классификации явлений/клеток на биологические популяции. Фенотипически похожие клетки будут близки друг к другу и будут образовывать островки. Контурная диаграмма получившейся карты viSNE показана на рисунке 3 A.
После снижения размерности был выполнен анализ FlowSOM для автоматической кластеризации клеток на 12 так называемых метакластеров. Запуск FlowSOM по определяющим популяцию маркерам и отображение итоговых данных кластеризации, наложенных на карту viSNE, может облегчить оценку качества. Если для оптимизации результатов требуются дальнейшие итерационные корректировки настроек прогона алгоритма, эта визуализация может помочь сравнить разные прогоны и обеспечить отправную точку для анализа данных кластеризации.
В проанализированном наборе данных наблюдается хорошая корреляция между островками viSNE и метакластерами FlowSOM (рисунок 3 B). Чтобы быстро идентифицировать фенотип каждого метакластера, может быть полезно построить
представление тепловой карты метакластеров FlowSOM (рисунок 3 C).
Рисунок 3. Идентификация субпопуляции с использованием viSNE, FlowSOM и отображения тепловой карты. A) Контурная диаграмма карты viSNE. B) Карта viSNE с метакластерами FlowSOM в качестве наложенных измерений графиков. C) Визуализация тепловой карты профиля экспрессии маркера с помощью метакластера FlowSOM. Данные были скомпенсированы и логически преобразованы с помощью аналитического программного обеспечения Kaluza Analysis и загружены на платформу Cytobank через плагин Kaluza Cytobank. viSNE был запущен на плагине Cytobank по 11 определяющим популяцию маркерам трех образцов с 3000 итераций, перплексией 30 и 0,5 тета. Настройки FlowSOM – это 12 метакластеров и 121 кластер с иерархической консенсусной кластеризацией. Графики приведены только для иллюстрации.
Точечные диаграммы, окрашенные по функциональности канала, которая окрашивает каждое явление в карте viSNE в соответствии с его интенсивностью в канале в наборе данных, можно использовать для демонстрации того, почему точки на карте находятся рядом друг с другом или какой профиль экспрессии маркера общий у явлений в островке viSNE. На рисунке 4 показана экспрессия маркера для CD19, CD4 и CD8 на карте viSNE и в сравнении с метакластеризацией FlowSOM.
Рисунок 4. Уровни экспрессии маркеров субпопуляции на карте viSNE. A) Экспрессия CD19. B) Экспрессия CD4. C) Экспрессия CD8. D) Карта viSNE с метакластерами FlowSOM в качестве наложенных измерений графиков. Данные были скомпенсированы и логически преобразованы с помощью аналитического программного обеспечения Kaluza Analysis и загружены на платформу Cytobank через плагин Kaluza Cytobank. viSNE был запущен на плагине Cytobank по 11 определяющим популяцию маркерам трех образцов с 3000 итераций, перплексией 30 и 0,5 тета. Настройки FlowSOM — это 12 метакластеров и 121 кластер с иерархической консенсусной кластеризацией. Графики приведены только для иллюстрации.
Рисунок 5. Сравнение трех образцов. A) Кластеризация FlowSOM накладывается на карту viSNE, стрелками обозначается метакластер 1, а звездочкой — метакластер 12. B) Экспрессия CD16. C) Экспрессия CD56. Данные были скомпенсированы и логически преобразованы с помощью аналитического программного обеспечения Kaluza Analysis и загружены на платформу Cytobank через плагин Kaluza Cytobank. viSNE был запущен на Cytobank по 11 определяющим популяцию маркерам, viSNE был запущен по всем лейкоцитам CD45+ трех образцов с 3000 итераций, перплексией 30 и 0,5 тета. Настройки FlowSOM — это 12 метакластеров и 121 кластер с иерархической консенсусной кластеризацией. Данные были скомпенсированы и логически преобразованы с помощью аналитического программного обеспечения Kaluza и загружены на платформу Cytobank через плагин Kaluza Cytobank. Дальнейший анализ данных был проведен на платформе Cytobank. Графики приведены только для иллюстрации.
Комбинация viSNE и FlowSOM позволяет проводить качественное сравнение между образцами, которое можно улучшить путем визуализации экспрессии определенных маркеров на карте viSNE (рисунок 5). Результаты сравнения указывают на то, что популяция CD16+ Т-клеток, идентифицированная как метакластер 1 (рисунок 5 A, синий, стрелка), выражена в образце G, но практически отсутствует в образцах B и F. Они также демонстрируют обилие ярких клеток CD56 в метакластере 12 образца F (рисунок 5 А, красный, звездочка).
SPADE — еще один независимый алгоритм, который можно использовать для идентификации групп похожих клеток. SPADE означает «Анализ прогрессии остовного дерева нормализованных по плотности явлений»4. SPADE объединяет фенотипически похожие клетки в иерархию, которая позволяет проводить многоплановый анализ гетерогенных образцов с высокой пропускной способностью (рисунок 6). Чтобы назначать определенные пользователем пороговые значения различным расчетным популяциям (кластерам), найденным при помощи SPADE, можно добавлять пузырьки.
Рисунок 6. Сравнение двух образцов, деревья SPADE, окрашенные по экспрессии маркера CD16. Данные были скомпенсированы и логически преобразованы с использованием программного обеспечения Kaluza Analysis и загружены на платформу Cytobank через плагин Kaluza Cytobank. SPADE был запущен по 11 определяющим популяцию маркерам, при этом выборка сократилась до 10 % и 50 узлов. Графики приведены только для иллюстрации.
Более глубокий иммунный профиль соответствующих популяций лейкоцитов можно получить путем расширения стратегии ручного гейтирования. Опять же, это, как правило, основано на уже имеющейся информации о профилях экспрессии. Пример для субпопуляции CD4+ T-клеток приведен на рисунке 7.
Рисунок 7. Основанная на знаниях идентификация регуляторных Т-клеток и их субпопуляций:(A) T-клетки памяти в популяциях CD4 Т-клеток, гейтированные по CD4+ T-клеткам, исключая регуляторные Т-клетки (B), и субпопуляции Т-клеток памяти в популяциях CD8+ Т-клеток (C). Данные проанализированы с использованием программного обеспечения Kaluza Analysis. Графики приведены только для иллюстрации.
Сравнения между образцами можно выполнить путем сравнения графиков или статистических результатов и использования функций наложения или графика сравнения Kaluza (рисунок 8). Этот подход также чаще всего основан на предположениях о вероятных различиях.
Рисунок 8. Сравнение субпопуляций регуляторных Т-лимфоцитов между всеми образцами. А) Индивидуальные точечные диаграммы по образцам. B) Информационный лист со статистическими результатами с разбивкой по образцам и субпопуляциям. C) Наложенные точечные диаграммы двух образцов. D) Сравнительный график, визуализирующий долю (%) гейтированных клеток с разбивкой по субпопуляциям и образцам. Данные были проанализированы с использованием программного обеспечения Kaluza Analysis. Графики приведены только для иллюстрации.
Для независимой идентификации субпопуляций Т-клеток провели анализ viSNE, используя CD3+ Т-клетки в качестве входящей популяции. На рисунке 9 А показана экспрессия CD4 и CD8 на карте viSNE. Следуя тому же подходу ручного гейтирования, что и раньше (см. рисунок 7), различные профили экспрессии CD45RA и CD62L идентифицировали с использованием квадрантного гейта на пан-Т-маркерах и визуализировали на карте viSNE (рисунок 9 В). Наконец, с использованием FlowSOM для идентификации 10 метакластеров выполнили иерархическую консенсусную кластеризацию (рисунок 9 C). Как ручное гейтирование, так и независимая кластеризация приводят к выявлению схожих популяций.
Рисунок 9. Независимый анализ субпопуляций Т-клеток: (А) viSNE был запущен на платформе Cytobank с 2000 итерациями и перплексией 50, и экспрессия CD4 (слева) и CD8 (справа) визуализирована на конечном графике viSNE. (В) Профили экспрессии CD62L и CD45RA (слева), а также регуляторные Т-клетки (посередине) были идентифицированы с помощью ручного гейтирования, популяции наложены на карту viSNE. (C) Кластеризация FlowSOM была выполнена с использованием иерархической кластеризации по нормализованным данным для определения 100 кластеров и 10 метакластеров. Метакластры показаны на карте viSNE. Данные были скомпенсированы и логически преобразованы с использованием программного обеспечения Kaluza Analysis и загружены на платформу Cytobank через плагин Kaluza Cytobank. Дальнейший анализ данных был проведен на платформе Cytobank. Графики приведены только для иллюстрации.
На рисунке 10 показано сравнение идентификации субпопуляций клеток памяти в популяциях CD8+ Т-лимфоцитов с использованием ручного гейтирования и независимой кластеризации с помощью FlowSOM.
Рисунок 10. Сравнение субпопуляций Т-клеток памяти в популяциях CD8+ Т-клеток, идентифицированных с помощью ручного гейтирования (A) и FlowSOM (B). Данные были скомпенсированы и логически преобразованы с использованием программного обеспечения Kaluza Analysis и загружены на платформу Cytobank через плагин Kaluza Cytobank. Дальнейший анализ данных был проведен на платформе Cytobank. Графики приведены только для иллюстрации.
Резюме
Чтобы продемонстрировать стратегию ручного гейтирования для выявления субпопуляций лейкоцитов, а также более глубокого анализа субпопуляций Т-клеток, использовали данные трех доноров, полученные с использованием панели из 20 маркеров на CytoFLEX LX. Было продемонстрировано использование viSNE для визуализации высокоразмерных данных на 2D-карте viSNE, а также рассматривалось использование viSNE и SPADE для сравнения
образцов. Наконец, автоматическую идентификацию кластера с использованием FlowSOM сравнили с результатами ручного гейтирования.
Инструменты машинного обучения, такие как viSNE, FlowSOM и SPADE, могут помочь
в визуализации данных с высокими параметрами и в объективной идентификации клеточных субпопуляций.
Совет
Подробные инструкции по использованию Kaluza Analysis приведены в инструкции по применению Kaluza C10986, подробные инструкции по использованию платформы Cytobank можно найти на сайте support.cytobank.org. Этот документ не заменяет Инструкции по применению.
Более подробное обсуждение проведенных анализов приведено в технических заметках “Использование алгоритмов машинного обучения для изучения потенциала ваших высокоразмерных данных проточной цитометрии на примере 20-цветной панели на CytoFLEX LX” и “Использование комбинированной мощности Kaluza и платформы Cytobank”.
Список литературы
- Amir ED, Davis KL, Tadmor MD, et al. viSNE enables visualization of high dimensional single-cell data and reveals phenotypic heterogeneity of leukemia. Nature Biotechnology. 2013;31(6):545-552. doi:10.1038/nbt.2594.
- Van Gassen S, Callebaut B, Van Helden MJ, et al. FlowSOM: Using self-organizing maps for visualization and interpretation of cytometry data: FlowSOM. Cytometry. 2015;87(7):636-645. doi:10.1002/cyto.a.22625.
- Ortolani C. Antigens. In: Flow Cytometry of Hematological Malignancies. John Wiley & Sons, Ltd; 2011:1-157. doi:10.1002/9781444398069.ch1.
- Qiu P, Simonds EF, Bendall SC, et al. Extracting a cellular hierarchy from high-dimensional cytometry data with SPADE. Nature Biotechnology. 2011;29(10):886-891. doi:10.1038/nbt.1991.
*Только для исследовательских целей. Не предназначено для диагностики.