Analisi statistica semplice

Guarda anche: Progettazione della ricerca

Una volta raccolti i dati quantitativi, avrai molti numeri. È giunto il momento di eseguire alcune analisi statistiche per dare un senso ai dati e trarne alcune deduzioni.

Esiste un'ampia gamma di possibili tecniche che puoi utilizzare.

come ottenere una media dei numeri

Questa pagina fornisce un breve riepilogo di alcune delle tecniche più comuni per riepilogare i dati e spiega quando useresti ciascuna di esse.



Riepilogo dei dati: raggruppamento e visualizzazione

La prima cosa da fare con qualsiasi dato è riassumerlo, il che significa presentarlo in un modo che racconta al meglio la storia.

Il punto di partenza è solitamente raggruppare i dati grezzi in categorie e / o visualizzarli. Ad esempio, se pensi di essere interessato alle differenze in base all'età, la prima cosa da fare è probabilmente raggruppare i tuoi dati in categorie di età, magari in blocchi di dieci o cinque anni.



Una delle tecniche più comuni utilizzate per il riepilogo sta usando grafici , in particolare i grafici a barre, che mostrano ogni punto dati in ordine, o gli istogrammi, che sono grafici a barre raggruppati in categorie più ampie.

Di seguito viene mostrato un esempio che utilizza tre set di dati, raggruppati per quattro categorie. Questo potrebbe, ad esempio, essere 'uomini', 'donne' e 'altro / nessun sesso specificato', raggruppati per categorie di età 20-29, 30-39, 40-49 e 50-59.

Istogramma di esempio

Un'alternativa a un istogramma è un file grafico a linee , che traccia ogni punto dati e li unisce con una linea. Gli stessi dati del grafico a barre vengono visualizzati in un grafico a linee di seguito.

Grafico a linee di esempio



Non è difficile disegnare a mano un istogramma o un grafico a linee, come potresti ricordare dalla scuola, ma i fogli di calcolo ne disegnano uno rapidamente e facilmente una volta inseriti i dati in una tabella, risparmiandoti qualsiasi problema. Ti guideranno anche attraverso il processo.

Visualizza i tuoi dati


La cosa importante nel disegnare un grafico è che ti dà una 'immagine' immediata dei dati. Questo è importante perché ti mostra immediatamente se i tuoi dati sono raggruppati, distribuiti, tendenti a valori alti o bassi o raggruppati attorno a un punto centrale. Ti mostrerà anche se hai dei 'valori anomali', cioè valori di dati molto alti o molto bassi, che potresti voler escludere dall'analisi, o almeno rivedere per verificare che siano corretti.

Vale sempre la pena disegnare un grafico prima di iniziare qualsiasi ulteriore analisi, solo per dare un'occhiata ai tuoi dati.


È inoltre possibile visualizzare i dati raggruppati in un file Grafico a torta , come questo.

Grafico a torta di esempio



Grafici a torta sono utilizzati al meglio quando sei interessato alla dimensione relativa di ciascun gruppo e quale percentuale del totale rientra in ciascuna categoria, poiché illustrano molto chiaramente quali gruppi sono più grandi.

Vedi la nostra pagina: Grafici e grafici per ulteriori informazioni sui diversi tipi di grafici e tabelle.

Misure di posizione: medie

Il media ti dà informazioni sulla dimensione dell'effetto di qualunque cosa tu stia testando, in altre parole, se è grande o piccolo. Sono disponibili tre misure di media: media, mediana e modo.



Vedi la nostra pagina su Medie per ulteriori informazioni sul calcolo di ciascuno e per una calcolatrice veloce.

Quando la maggior parte delle persone dice nella media, sta parlando del significare . Ha il vantaggio che utilizza tutti i valori dei dati ottenuti e può essere utilizzato per ulteriori analisi statistiche. Tuttavia, può essere distorta da 'valori anomali', valori che sono atipicamente grandi o piccoli.

Di conseguenza, i ricercatori a volte usano il mediano anziché. Questo è il punto medio di tutti i dati. La mediana non è distorta da valori estremi, ma è più difficile da utilizzare per ulteriori analisi statistiche.

Il modalità è il valore più comune in un set di dati. Non può essere utilizzato per ulteriori analisi statistiche.

I valori di media, mediana e modo sono non lo stesso, motivo per cui è davvero importante essere chiari di quale 'media' stai parlando.

Valutazione delle misure di sintesi: robustezza ed efficienza


Esistono due costrutti (idee o concetti) comunemente utilizzati per valutare misure di riepilogo come media, mediana e modalità. Questi sono robustezza e efficienza .

mostrami come fare le percentuali
  • La robustezza è una misura della sensibilità della misura di riepilogo ai cambiamenti nella qualità dei dati.

    Questi cambiamenti nella qualità dei dati possono derivare da valori anomali, valori estremi alle due estremità o da azioni intraprese durante l'analisi, come il raggruppamento dei dati per ulteriori analisi. Una misura robusta NON è sensibile a questi cambiamenti. La mediana è quindi più robusta della media, perché non è influenzata da valori anomali ed è probabile che il raggruppamento porti a pochissime modifiche.

  • L'efficienza è una misura del modo in cui la misura di riepilogo utilizza tutti i dati.

    Una misura più efficiente utilizza più dati. La media è quindi molto efficiente, perché utilizza tutti i dati.

Queste due misure sono quindi spesso contraddittorie: una misura più robusta rischia di essere meno efficiente.

Dovrai decidere quale è più importante nella tua analisi.

Misure di diffusione: intervallo, varianza e deviazione standard

I ricercatori spesso vogliono esaminare il file diffusione dei dati, vale a dire quanto ampiamente i dati sono distribuiti su tutta la scala di misurazione possibile.

Ci sono tre misure che vengono spesso utilizzate per questo:

Il gamma è la differenza tra i valori più grandi e più piccoli. I ricercatori citano spesso il file intervallo interquartile , che è l'intervallo della metà centrale dei dati, dal 25%, il quartile inferiore, fino al 75%, il quartile superiore, dei valori (la mediana è il valore del 50%). Per trovare i quartili, usa la stessa procedura della mediana, ma prendi il punto da un quarto e da tre quarti invece del punto medio.

Il deviazione standard misura la dispersione media intorno alla media e quindi fornisce un senso della distanza 'tipica' dalla media.

Il varianza è il quadrato della deviazione standard. Sono calcolati da:

  1. calcolare la differenza di ogni valore dalla media;
  2. quadratura ciascuno (per eliminare ogni differenza tra quelli sopra e sotto la media);
  3. sommando le differenze al quadrato;
  4. dividendo per il numero di elementi meno uno.

Questo dà il varianza .

Per calcolare il deviazione standard , prendi la radice quadrata della varianza.

Storto

Il storto misura quanto è simmetrico il set di dati o se ha valori più alti o valori più bassi. Un campione con valori più bassi viene descritto come inclinato negativamente e un campione con valori più alti come inclinato positivamente.

In generale, più il campione è asimmetrico, meno la media, la mediana e il modo coincideranno.

Analisi più avanzata

Dopo aver calcolato alcuni valori di base di Posizione , come media o mediana, diffusione , come intervallo e varianza e stabilito il livello di storto , puoi passare a un'analisi statistica più avanzata e iniziare a cercare modelli nei dati.

Continuare a:
Tipi di dati
Analisi multivariata