IID Significato e Interpretazione per Principianti

IID Significato e Interpretazione per Principianti

Indipendente e Identicamente Distribuito

Foto di Yu Kato su Unsplash

Nella statistica, nell’analisi dei dati e negli argomenti di machine learning, il concetto di IID appare frequentemente come assunzione o condizione fondamentale. Sta per “indipendente e identicamente distribuito”. Una variabile casuale o sequenza IID è un componente importante di modelli statistici o di machine learning, svolgendo anche un ruolo nell’analisi delle serie temporali.

In questo post, in modo intuitivo, spiego il concetto di IID in tre diversi contesti: campionamento, modellazione e prevedibilità. Viene presentata un’applicazione con codice R nel contesto dell’analisi delle serie temporali e della prevedibilità.

IID nel campionamento

La notazione X ~ IID(μ,σ²) rappresenta il campionamento di (X1, …, Xn) in modo puramente casuale dalla popolazione con media μ e varianza σ². Ciò significa che,

  • ogni realizzazione successiva di X è indipendente, senza mostrare alcuna associazione con quella precedente o con quella successiva; e
  • ogni realizzazione successiva di X è ottenuta dalla stessa distribuzione con media e varianza identiche.

Esempi

Supponiamo che un campione (X1, …, Xn) sia raccolto dalla distribuzione dei redditi annuali delle persone di un paese.

  1. Un ricercatore ha selezionato il reddito di un uomo per X1, una donna per X2, un uomo per X3, quindi una donna per X4, e questo pattern viene mantenuto fino a Xn. Questo non è un campionamento IID, perché un pattern prevedibile o sistematico nel campionamento non è casuale, violando la condizione di indipendenza.
  2. Un ricercatore ha selezionato (X1, … X500) dal gruppo di persone più povere e poi (X501, … X1000) dal gruppo più ricco. Questo non è un campionamento IID, perché i due gruppi hanno diverse distribuzioni dei redditi con medie e varianze diverse, violando la condizione di identicità.

IID nella modellazione

Supponiamo che Y sia la variabile di interesse che si desidera modellare o spiegare. Quindi, può essere decomposta in due parti: cioè,

Y = Componente Sistematica + Componente Non Sistematica.

La componente sistematica è la parte di Y guidata dalla relazione fondamentale con altri fattori. È la…