Python數(shù)據(jù)科學(xué):線性回歸

變量分析:

相關(guān)分析:一個(gè)連續(xù)變量與一個(gè)連續(xù)變量間的關(guān)系。

雙樣本t檢驗(yàn):一個(gè)二分分類變量與一個(gè)連續(xù)變量間的關(guān)系。

方差分析:一個(gè)多分類分類變量與一個(gè)連續(xù)變量間的關(guān)系。

卡方檢驗(yàn):一個(gè)二分分類變量或多分類分類變量與一個(gè)二分分類變量間的關(guān)系。

本次介紹:

線性回歸:多個(gè)連續(xù)變量與一個(gè)連續(xù)變量間的關(guān)系。

其中線性回歸分為簡(jiǎn)單線性回歸多元線性回歸。

/ 01 / 數(shù)據(jù)分析與數(shù)據(jù)挖掘

數(shù)據(jù)庫(kù):一個(gè)存儲(chǔ)數(shù)據(jù)的工具。因?yàn)镻ython是內(nèi)存計(jì)算,難以處理幾十G的數(shù)據(jù),所以有時(shí)數(shù)據(jù)清洗需在數(shù)據(jù)庫(kù)中進(jìn)行。

統(tǒng)計(jì)學(xué):針對(duì)小數(shù)據(jù)的數(shù)據(jù)分析方法,比如對(duì)數(shù)據(jù)抽樣、描述性分析、結(jié)果檢驗(yàn)。

人工智能/機(jī)器學(xué)習(xí)/模式識(shí)別:神經(jīng)網(wǎng)絡(luò)算法,模仿人類神經(jīng)系統(tǒng)運(yùn)作,不僅可以通過(guò)訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),而且還能根據(jù)學(xué)習(xí)的結(jié)果對(duì)未知的數(shù)據(jù)進(jìn)行預(yù)測(cè)。

/ 02 / 回歸方程

01 簡(jiǎn)單線性回歸

簡(jiǎn)單線性回歸只有一個(gè)自變量與一個(gè)因變量。

含有的參數(shù)有「回歸系數(shù)」「截距」「擾動(dòng)項(xiàng)」。

其中「擾動(dòng)項(xiàng)」又稱「隨機(jī)誤差」,服從均值為0的正態(tài)分布。

線性回歸的因變量實(shí)際值與預(yù)測(cè)值之差稱為「殘差」。

線性回歸旨在使殘差平方和最小化。

下面以書中的案例,實(shí)現(xiàn)一個(gè)簡(jiǎn)單線性回歸。

建立收入月均信用卡支出的預(yù)測(cè)模型。

import numpy as np

import pandas as pd

import statsmodels.a(chǎn)pi as sm

import matplotlib.pyplot as plt

from statsmodels.formula.a(chǎn)pi import ols

# 消除pandas輸出省略號(hào)情況及換行情況

pd.set_option('display.max_columns', 500)

pd.set_option('display.width', 1000)

# 讀取數(shù)據(jù),skipinitialspace:忽略分隔符后的空白

df = pd.read_csv('creditcard_exp.csv', skipinitialspace=True)

print(df.head())

讀取數(shù)據(jù),數(shù)據(jù)如下。

對(duì)數(shù)據(jù)進(jìn)行相關(guān)性分析。

# 獲取信用卡有支出的行數(shù)據(jù)

exp = df[df['avg_exp'].notnull()].copy().iloc[:, 2:].drop('age2', axis=1)

# 獲取信用卡無(wú)支出的行數(shù)據(jù),NaN

exp_new = df[df['avg_exp'].isnull()].copy().iloc[:, 2:].drop('age2', axis=1)

# 描述性統(tǒng)計(jì)分析

exp.describe(include='all')

print(exp.describe(include='all'))

# 相關(guān)性分析

print(exp[['avg_exp', 'Age', 'Income', 'dist_h(yuǎn)ome_val']].corr(method='pearson'))

輸出結(jié)果。

發(fā)現(xiàn)收入(Income)平均支出(avg_exp)相關(guān)性較大,值為0.674。

使用簡(jiǎn)單線性回歸建立模型。

# 使用簡(jiǎn)單線性回歸建立模型

lm_s = ols('avg_exp ~ Income', data=exp).fit()

print(lm_s.params)

# 輸出模型基本信息,回歸系數(shù)及檢驗(yàn)信息,其他模型診斷信息

print(lm_s.summary())

一元線性回歸系數(shù)的輸出結(jié)果如下。

從上可知,回歸系數(shù)值為97.73,截距值為258.05。

模型概況如下。

其中R值為0.454,P值接近于0,所以模型還是有一定參考意義的。

使用線性回歸模型測(cè)試訓(xùn)練數(shù)據(jù)集,得出其預(yù)測(cè)值及殘差。

# 生成的模型使用predict產(chǎn)生預(yù)測(cè)值,resid為訓(xùn)練數(shù)據(jù)集的殘差

print(pd.DataFrame([lm_s.predict(exp), lm_s.resid], index=['predict', 'resid']).T.head())

輸出結(jié)果,可與最開始讀取數(shù)據(jù)時(shí)輸出的結(jié)果對(duì)比一下。

使用模型測(cè)試預(yù)測(cè)數(shù)據(jù)集的結(jié)果。

# 對(duì)待預(yù)測(cè)數(shù)據(jù)集使用模型進(jìn)行預(yù)測(cè)

print(lm_s.predict(exp_new)[:5])

輸出結(jié)果。

12下一頁(yè)>

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2019-01-24
Python數(shù)據(jù)科學(xué):線性回歸
變量分析:①相關(guān)分析:一個(gè)連續(xù)變量與一個(gè)連續(xù)變量間的關(guān)系。②雙樣本t檢驗(yàn):一個(gè)二分分類變量與一個(gè)連續(xù)變量間的關(guān)系。③方差分析:一個(gè)多分類分類變量與一個(gè)連續(xù)變量間的關(guān)系。

長(zhǎng)按掃碼 閱讀全文