Come calcolare l'accuratezza della previsione della regressione logistica?
La regressione logistica è un approccio statistico per esaminare la connessione tra una variabile dipendente e una o più variabili indipendenti. Si tratta di una forma di analisi di regressione utilizzata frequentemente per attività di classificazione quando la variabile dipendente è binaria (vale a dire, assume solo due valori). Trovare il legame tra i fattori indipendenti e la probabilità che la variabile dipendente assuma un certo valore è lo scopo della regressione logistica.
Poiché ci consente di prevedere la probabilità che si verifichi un evento in base ai valori delle variabili indipendenti, la regressione logistica è uno strumento cruciale nell'analisi dei dati e nell'apprendimento automatico. È comunemente utilizzato nei settori in cui la previsione dei risultati è essenziale, tra cui sanità, finanza e marketing.
L'accuratezza delle previsioni dei risultati di un modello di regressione logistica è una metrica cruciale delle prestazioni del modello. Il punteggio di precisione mostra quale percentuale di tutte le previsioni era corretta rispetto al numero totale di ipotesi. Un modello fornisce previsioni più accurate quando il suo livello di accuratezza è maggiore; al contrario, un modello produce previsioni più imprecise quando il suo livello di accuratezza è inferiore. In questo post esamineremo come valutare l'accuratezza della previsione della regressione logistica.
Calcolo dell'accuratezza della previsione della regressione logistica
Ecco un esempio di programma Python che utilizza il modulo scikit-learn per determinare l'accuratezza della previsione della regressione logistica utilizzando i dati di un set di dati reale:
Per calcolare l'accuratezza della previsione della regressione logistica, ecco i passaggi che seguiremo −
-
Per prima cosa importeremo tutti i moduli necessari da sklearn.
Quindi caricheremo il set di dati.
Suddivisione dei dati in set di training e test.
Quindi, creeremo un modello di regressione logistica.
Alla fine, prevederemo l'accuratezza del set di test.
In questo esempio, utilizziamo innanzitutto il metodo scikit-learn load breast cancer per caricare il set di dati sul cancro al seno. Successivamente, abbiamo utilizzato la funzione di suddivisione del test del treno per dividere il set di dati in set di training e test. Il passaggio successivo consiste nell'utilizzare la classe LogisticRegression per generare un modello di regressione logistica, che viene quindi adattato al set di dati di addestramento utilizzando il metodo fit. L'accuratezza della previsione viene quindi determinata utilizzando la funzione di punteggio di accuratezza di scikit-learn sui dati di test e sfruttando il metodo di previsione per creare previsioni. Infine, produciamo la console con precisione di previsione.
Esempio
# Import necessary libraries
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
# Load the breast cancer dataset
data = load_breast_cancer()
# Split the dataset into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.3, random_state=42)
# Create a logistic regression model
lr = LogisticRegression()
# Fit the model on the training data
lr.fit(X_train, y_train)
# Make predictions on the testing data
y_pred = lr.predict(X_test)
# Calculate the prediction accuracy
accuracy = accuracy_score(y_test, y_pred)
# Print the prediction accuracy
print("Prediction Accuracy:", accuracy)
Produzione
Prediction Accuracy: 0.9707602339181286
Conclusione
In conclusione, l'accuratezza della previsione è un fattore chiave nel determinare il rendimento di un modello di regressione logistica. Il punteggio di accuratezza indica quale parte delle previsioni prodotte dal modello era corretta. Un numero di precisione più elevato indica previsioni più accurate dal modello, mentre un punteggio inferiore indica previsioni meno accurate dal modello.