Guida alla regressione logistica multivariata

Spesso nel mondo degli affari, è importante essere in grado di prevedere quali azioni potrebbero produrre i risultati più favorevoli. La regressione logistica multivariata è un ... Read more

Redazione · Settembre 21, 2022 · 6 min

Spesso nel mondo degli affari, è importante essere in grado di prevedere quali azioni potrebbero produrre i risultati più favorevoli. La regressione logistica multivariata è un tipo di analisi che può aiutare a prevedere i risultati quando si lavora con più variabili. È anche un calcolo prezioso nei programmi di apprendimento automatico. In questo articolo, spieghiamo cos’è la regressione logistica multivariata e come creare e valutare modelli per essa in Python.

Cos’è l’analisi di regressione logistica multivariata?

L’analisi di regressione logistica multivariata è una formula utilizzata per prevedere le relazioni tra variabili dipendenti e indipendenti. Calcola la probabilità che qualcosa accada in base a più insiemi di variabili. Questo è un algoritmo di classificazione comune utilizzato nella scienza dei dati e nell’apprendimento automatico.

Regressione logistica vs. lineare

Esistono due forme principali di analisi di regressione. La regressione lineare ha un insieme continuo di risultati che possono essere facilmente mappati su un grafico come una linea retta. Ad esempio, se si desidera determinare la probabilità che il numero di libri che qualcuno legge influisca sulla quantità di denaro che guadagnano, la regressione lineare sarebbe l’equazione migliore da usare.

Le regressioni logistiche non sono lineari e sono rappresentate su un grafico con una forma curva chiamata sigmoide. Invece di un insieme continuo di risultati, una regressione logistica ha due o più categorie per i dati. Se vuoi imparare la probabilità di ottenere un lavoro in base a quante domande invii, se ottieni un lavoro è un numero discreto di variabili. Pertanto, è necessario utilizzare un programma di regressione logistica per tali dati.

Tipi di regressione logistica

La regressione logistica include tre tipi di base:

Binario: Un output binario è una variabile in cui ci sono solo due possibili risultati. Questi risultati devono essere opposti l’uno all’altro e reciprocamente esclusivi. Se hai un gatto è un output binario.
Multi-classe: Una multiclasse ha tre o più categorie senza alcun valore numerico, anche se di solito hanno uno stand-in numerico per i set di dati. Ad esempio, potresti chiedere se qualcuno ha un cane, un gatto o un pesce.
Ordinale: Un output ordinale ha anche tre o più categorie, sebbene siano in un output classificato. Ad esempio, chiedere a un amico se gli piacciono i gatti, non gli piacciono i gatti o non gli importa è un risultato ordinale.

Regressione logistica multivariabile vs. multivariata

Mentre le regressioni multivariabili e multivariate condividono funzioni e nomi simili, c’è una differenza fondamentale tra loro. In una regressione multivariata, ci sono più variabili indipendenti e più risultati. Nella regressione multivariabile, ci sono più variabili indipendenti, ma un solo risultato.

Come creare e valutare modelli di regressione logistica in Python

È possibile utilizzare la regressione logistica multivariata per creare modelli in Python in grado di prevedere i risultati in base ai dati importati. Ecco i passaggi su come creare e valutare un modello Python usando questa regressione:

1. Installare i pacchetti richiesti

Python utilizza pacchetti e librerie per eseguire ed eseguire funzioni specifiche. Per eseguire una regressione logistica multivariata, sono necessari pacchetti specifici, tra cui:

Panda per scaricare, analizzare e modificare i dati
Numpy per l’esecuzione di calcoli numerici
Plotly per la visualizzazione dei dati e la creazione di grafici

Potresti anche aver bisogno di Sklearn, il toolkit di algoritmi di apprendimento automatico di Python. Ecco alcuni degli strumenti all’interno di Sklearn:

Lineare_modello per la modellazione del modello di regressione logistica
Metriche per il calcolo delle precisioni una volta eseguito il training del modello
Treno_Test_Suddivisione per suddividere i dati in un set di dati di training e test

2. Trova un set di dati

Per eseguire una regressione logistica multivariata, è necessario disporre di un set di dati. I dati richiedono più di una variabile indipendente e due o più risultati non continui. Una volta trovati i dati, scaricali in Python usando il pacchetto pandas.

3. Pulire e preparare i dati

Una volta scaricati i dati in Python, prepara i dati per l’analisi di regressione. Rimuovere righe e colonne che non contengono dati, nonché valori di dati non necessari per l’analisi di regressione. Dopo aver ottenuto solo le variabili con cui si sta lavorando, contrassegnarle come variabili dipendenti o indipendenti.

4. Dividi i dati

Per comprendere le prestazioni del modello, suddividere i dati in due set di dati diversi. Un set è per l’allenamento mentre l’altro per i test. Utilizzare lo strumento Sklearn test-train-split per dividere i dati. È possibile scegliere quali parametri utilizzare per dividere i dati o dividerli in modo casuale. Determinare la quantità di informazioni necessarie per ogni set di dati. Il rapporto più comune è del 70% per il training del modello e del 30% per il test del modello.

5. Costruisci il modello

Per creare un modello per la regressione logistica multivariata, utilizzare il parametro lineare_kit di modelli da Sklearn per importare le variabili. Eseguire la funzione “LogisticRegression” per eseguire la regressione. Adattare i dati di training al modello utilizzando la funzione “adatta” ed eseguire la regressione per eseguire il training del modello.

6. Valutare il modello

La valutazione del modello è una parte fondamentale dell’esecuzione dell’analisi logistica poiché consente di assicurarsi che tutte le variabili vengano misurate con precisione. Un modo per valutare i modelli consiste nell’utilizzare una matrice di confusione. Una matrice di confusione è una tabella che verifica l’efficacia di un modello di classificazione ordinando i dati in quattro categorie:

Vero positivo: Prevede correttamente che si verifichi un evento
Vero negativo: Prevede correttamente che un evento non si verifichi
Falso positivo: Prevede erroneamente che si verifichi un evento
Falso negativo: Prevede erroneamente che un evento non si verifichi

Ad esempio, il tuo modello prevede che le ragazze adolescenti guarderanno un determinato film il 10% delle volte, ma i dati affermano che lo guardano solo il 5% delle volte. Una matrice di confusione lo segnalerebbe come un falso positivo.

7. Visualizza il modello

Una matrice di confusione può anche essere utilizzata per visualizzare il modello con grafici e grafici. Di seguito sono riportati alcuni tipi di visualizzazioni:

Una curva ROC: Confronta il tasso di positivi reali e il tasso di falsi positivi in un set di dati.
L’area sotto il grafico della curva: Utilizza tre metriche della matrice di confusione per analizzare l’efficacia generale del modello.
Un grafico di compromesso di richiamo di precisione: Confronta la precisione di un modello con la sua capacità di richiamare i risultati.

Autore