Метод частичных наименьших квадратов (Partial Least Squares, PLS)
относится к численным многомерным методам анализа данных, используемым в
аналитической химии для обработки спектроскопических, хроматографических
и других сложных наборов измерений. Он сочетает возможности регрессии и
анализа главных компонент, позволяя решать задачи калибровки и
предсказания при наличии значительных взаимных корреляций между
переменными.
Основные принципы метода
Классическая множественная линейная регрессия требует, чтобы
независимые переменные были некоррелированными и в достаточной степени
независимыми друг от друга. В аналитической химии эти условия редко
выполняются: спектры содержат тысячи взаимосвязанных сигналов, пики в
хроматограммах перекрываются, а концентрации компонентов часто варьируют
в сложной взаимозависимости.
Метод частичных наименьших квадратов строит новые латентные
переменные, которые:
- максимизируют ковариацию между матрицей признаков X
(например, спектральные данные) и матрицей отклика Y
(например, концентрации компонентов);
- учитывают не только внутреннюю структуру данных X,
но и связь с откликом Y;
- позволяют получать устойчивые модели даже при высокой коллинеарности
признаков и при числе переменных, значительно превышающем количество
образцов.
Математическая постановка
задачи
Пусть имеется матрица предикторов X размерностью
n × m (n – число образцов, m – число переменных) и матрица
откликов Y размерностью n × k (k – число
откликов, чаще всего концентраций).
Метод PLS предполагает аппроксимацию:
- X ≈ T Pᵀ + E
- Y ≈ U Qᵀ + F
где:
- T и U – матрицы латентных
переменных (оценки для наблюдений),
- P и Q – матрицы нагрузок
(коэффициентов преобразования),
- E и F – матрицы ошибок.
При этом латентные переменные выбираются так, чтобы максимизировать
ковариацию между T и U. Для регрессии
используется линейная зависимость: Y = X B + F, где
B – матрица коэффициентов регрессии, вычисляемая на
основе латентных переменных.
Алгоритмы вычисления
Наиболее известным является алгоритм NIPALS (Nonlinear
Iterative Partial Least Squares). Он строит компоненты
последовательно:
- Инициализация – выбирается вектор из матрицы
Y.
- Итеративное уточнение векторов весов для X и
Y.
- Построение латентных переменных и их нормализация.
- Вычитание вклада полученной компоненты из исходных матриц.
- Переход к построению следующей компоненты.
Итерационный процесс продолжается до достижения заданного числа
компонент или до того момента, пока остаточная дисперсия не становится
незначительной.
Применение в аналитической
химии
Метод частичных наименьших квадратов имеет особое значение в
хемометрике. Его используют в задачах:
- Калибровка спектроскопических методов: ИК-, УФ-,
ЯМР-, Раман-спектроскопия. PLS позволяет извлекать количественную
информацию о концентрациях веществ из перекрывающихся спектров.
- Хроматографический анализ: разложение сложных пиков
и определение содержания компонентов в многокомпонентных смесях.
- Экологический мониторинг: обработка больших
массивов данных при анализе загрязнителей.
- Фармацевтический контроль: построение моделей для
быстрой неразрушающей идентификации и определения состава лекарственных
средств.
Сравнение с другими методами
- По сравнению с множественной линейной регрессией
(MLR) метод PLS более устойчив к коллинеарности и может
работать при m > n.
- В отличие от анализа главных компонент (PCA), PLS
ориентирован не только на структуру данных X, но и на
связь с откликами Y, что делает его особенно ценным для
калибровочных задач.
- В сопоставлении с регрессией по главным компонентам
(PCR), где используется компрессия только X,
метод PLS более информативен, так как формирование компонент происходит
с учётом взаимосвязи с откликом.
Оптимизация числа компонент
Выбор числа латентных переменных является ключевым этапом.
Используется кросс-валидация: набор данных делят на обучающую и
проверочную части, и для каждой модели оценивают ошибку предсказания.
Чрезмерное количество компонент приводит к переобучению, а слишком малое
— к потере информации.
Оценка качества моделей
Для анализа применяются показатели:
- RMSEC (Root Mean Square Error of Calibration) –
среднеквадратичная ошибка калибровки;
- RMSECV (Root Mean Square Error of Cross-Validation)
– ошибка кросс-валидации;
- RMSEP (Root Mean Square Error of Prediction) –
ошибка предсказания на независимом наборе данных;
- R² – коэффициент детерминации, характеризующий
объясняемую моделью долю дисперсии.
Современные направления
развития
Метод частичных наименьших квадратов продолжает активно развиваться.
Созданы модификации:
- PLS-DA (Discriminant Analysis) – для задач
классификации.
- Sparse PLS – с использованием разреженных матриц
весов для отбора наиболее значимых переменных.
- Kernel PLS – для учёта нелинейных
зависимостей.
- Multi-block PLS – для интеграции данных из разных
источников (например, спектроскопия + хроматография).
Эти расширения позволяют применять методику не только для
количественного анализа, но и для задач распознавания образов,
классификации образцов и прогнозирования сложных нелинейных
зависимостей.