componente principale
Variabile trasformata da correlata a incorrelata a un insieme di altre variabili. L’analisi delle c. p. è una procedura per la semplificazione dei dati, che trasforma un insieme di variabili tra loro correlate in un nuovo insieme di variabili incorrelate (componenti principali). Proposto nel 1901 da K. Pearson, tale metodo si basa sull’applicazione di una trasformazione lineare ortogonale delle osservazioni. Per costruzione, la prima c. ha varianza massima (cioè spiega la porzione massima della variabilità dei dati), la seconda ha varianza maggiore possibile, soggetta al vincolo di essere ortogonale (incorrelata) con la prima, e così via. Lo scopo primario di questa procedura è la riduzione del numero di variabili che vengono sostituite da un numero limitato di c. p., anche dette variabili ‘latenti’. Si usano soltanto le prime c. p., che garantiscono la perdita minima di informazione (intesa come variabilità).
L’analisi delle c. p. è generalmente usata per scopi esplorativi. Per es., nel caso in cui i regressori di un modello lineare (➔ regressione parametrica, modelli e stime di) presentino collinearità, uno dei modi per eliminarla è quello di utilizzare il metodo delle componenti principali. I regressori del modello così trasformato non solo non presentano collinearità, ma sono ortogonali per costruzione. Poiché le c. p. sono il risultato di una particolare combinazione lineare delle variabili originarie, generalmente esse sono variabili ‘artificiali’ di difficile interpretazione, che non hanno un significato economico (socio-demografico, o altro).