Метод частичных наименьших квадратов

Метод частичных наименьших квадратов (Partial Least Squares, PLS) относится к численным многомерным методам анализа данных, используемым в аналитической химии для обработки спектроскопических, хроматографических и других сложных наборов измерений. Он сочетает возможности регрессии и анализа главных компонент, позволяя решать задачи калибровки и предсказания при наличии значительных взаимных корреляций между переменными.

Основные принципы метода

Классическая множественная линейная регрессия требует, чтобы независимые переменные были некоррелированными и в достаточной степени независимыми друг от друга. В аналитической химии эти условия редко выполняются: спектры содержат тысячи взаимосвязанных сигналов, пики в хроматограммах перекрываются, а концентрации компонентов часто варьируют в сложной взаимозависимости.

Метод частичных наименьших квадратов строит новые латентные переменные, которые:

  • максимизируют ковариацию между матрицей признаков X (например, спектральные данные) и матрицей отклика Y (например, концентрации компонентов);
  • учитывают не только внутреннюю структуру данных X, но и связь с откликом Y;
  • позволяют получать устойчивые модели даже при высокой коллинеарности признаков и при числе переменных, значительно превышающем количество образцов.

Математическая постановка задачи

Пусть имеется матрица предикторов X размерностью n × m (n – число образцов, m – число переменных) и матрица откликов Y размерностью n × k (k – число откликов, чаще всего концентраций).

Метод PLS предполагает аппроксимацию:

  • X ≈ T Pᵀ + E
  • Y ≈ U Qᵀ + F

где:

  • T и U – матрицы латентных переменных (оценки для наблюдений),
  • P и Q – матрицы нагрузок (коэффициентов преобразования),
  • E и F – матрицы ошибок.

При этом латентные переменные выбираются так, чтобы максимизировать ковариацию между T и U. Для регрессии используется линейная зависимость: Y = X B + F, где B – матрица коэффициентов регрессии, вычисляемая на основе латентных переменных.

Алгоритмы вычисления

Наиболее известным является алгоритм NIPALS (Nonlinear Iterative Partial Least Squares). Он строит компоненты последовательно:

  1. Инициализация – выбирается вектор из матрицы Y.
  2. Итеративное уточнение векторов весов для X и Y.
  3. Построение латентных переменных и их нормализация.
  4. Вычитание вклада полученной компоненты из исходных матриц.
  5. Переход к построению следующей компоненты.

Итерационный процесс продолжается до достижения заданного числа компонент или до того момента, пока остаточная дисперсия не становится незначительной.

Применение в аналитической химии

Метод частичных наименьших квадратов имеет особое значение в хемометрике. Его используют в задачах:

  • Калибровка спектроскопических методов: ИК-, УФ-, ЯМР-, Раман-спектроскопия. PLS позволяет извлекать количественную информацию о концентрациях веществ из перекрывающихся спектров.
  • Хроматографический анализ: разложение сложных пиков и определение содержания компонентов в многокомпонентных смесях.
  • Экологический мониторинг: обработка больших массивов данных при анализе загрязнителей.
  • Фармацевтический контроль: построение моделей для быстрой неразрушающей идентификации и определения состава лекарственных средств.

Сравнение с другими методами

  • По сравнению с множественной линейной регрессией (MLR) метод PLS более устойчив к коллинеарности и может работать при m > n.
  • В отличие от анализа главных компонент (PCA), PLS ориентирован не только на структуру данных X, но и на связь с откликами Y, что делает его особенно ценным для калибровочных задач.
  • В сопоставлении с регрессией по главным компонентам (PCR), где используется компрессия только X, метод PLS более информативен, так как формирование компонент происходит с учётом взаимосвязи с откликом.

Оптимизация числа компонент

Выбор числа латентных переменных является ключевым этапом. Используется кросс-валидация: набор данных делят на обучающую и проверочную части, и для каждой модели оценивают ошибку предсказания. Чрезмерное количество компонент приводит к переобучению, а слишком малое — к потере информации.

Оценка качества моделей

Для анализа применяются показатели:

  • RMSEC (Root Mean Square Error of Calibration) – среднеквадратичная ошибка калибровки;
  • RMSECV (Root Mean Square Error of Cross-Validation) – ошибка кросс-валидации;
  • RMSEP (Root Mean Square Error of Prediction) – ошибка предсказания на независимом наборе данных;
  • – коэффициент детерминации, характеризующий объясняемую моделью долю дисперсии.

Современные направления развития

Метод частичных наименьших квадратов продолжает активно развиваться. Созданы модификации:

  • PLS-DA (Discriminant Analysis) – для задач классификации.
  • Sparse PLS – с использованием разреженных матриц весов для отбора наиболее значимых переменных.
  • Kernel PLS – для учёта нелинейных зависимостей.
  • Multi-block PLS – для интеграции данных из разных источников (например, спектроскопия + хроматография).

Эти расширения позволяют применять методику не только для количественного анализа, но и для задач распознавания образов, классификации образцов и прогнозирования сложных нелинейных зависимостей.