久久丁香,欧美爆乳在线观看播放,最新成年女人毛片免费基地

Python數(shù)據(jù)科學(xué)：線性回歸

人閱讀

2019-01-24 09:31:00

相關(guān)關(guān)鍵詞
- 人工智能
- AI

變量分析：

①相關(guān)分析：一個(gè)連續(xù)變量與一個(gè)連續(xù)變量間的關(guān)系。

②雙樣本t檢驗(yàn)：一個(gè)二分分類變量與一個(gè)連續(xù)變量間的關(guān)系。

③方差分析：一個(gè)多分類分類變量與一個(gè)連續(xù)變量間的關(guān)系。

④卡方檢驗(yàn)：一個(gè)二分分類變量或多分類分類變量與一個(gè)二分分類變量間的關(guān)系。

本次介紹：

線性回歸：多個(gè)連續(xù)變量與一個(gè)連續(xù)變量間的關(guān)系。

其中線性回歸分為簡(jiǎn)單線性回歸和多元線性回歸。

／ 01 ／數(shù)據(jù)分析與數(shù)據(jù)挖掘

數(shù)據(jù)庫(kù)：一個(gè)存儲(chǔ)數(shù)據(jù)的工具。因?yàn)镻ython是內(nèi)存計(jì)算，難以處理幾十G的數(shù)據(jù)，所以有時(shí)數(shù)據(jù)清洗需在數(shù)據(jù)庫(kù)中進(jìn)行。

統(tǒng)計(jì)學(xué)：針對(duì)小數(shù)據(jù)的數(shù)據(jù)分析方法，比如對(duì)數(shù)據(jù)抽樣、描述性分析、結(jié)果檢驗(yàn)。

人工智能／機(jī)器學(xué)習(xí)／模式識(shí)別：神經(jīng)網(wǎng)絡(luò)算法，模仿人類神經(jīng)系統(tǒng)運(yùn)作，不僅可以通過(guò)訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí)，而且還能根據(jù)學(xué)習(xí)的結(jié)果對(duì)未知的數(shù)據(jù)進(jìn)行預(yù)測(cè)。

／ 02 ／回歸方程

01 簡(jiǎn)單線性回歸

簡(jiǎn)單線性回歸只有一個(gè)自變量與一個(gè)因變量。

含有的參數(shù)有「回歸系數(shù)」「截距」「擾動(dòng)項(xiàng)」。

其中「擾動(dòng)項(xiàng)」又稱「隨機(jī)誤差」，服從均值為0的正態(tài)分布。

線性回歸的因變量實(shí)際值與預(yù)測(cè)值之差稱為「殘差」。

線性回歸旨在使殘差平方和最小化。

下面以書中的案例，實(shí)現(xiàn)一個(gè)簡(jiǎn)單線性回歸。

建立收入與月均信用卡支出的預(yù)測(cè)模型。

import numpy as np

import pandas as pd

import statsmodels．a(chǎn)pi as sm

import matplotlib．pyplot as plt

from statsmodels．formula．a(chǎn)pi import ols

＃消除pandas輸出省略號(hào)情況及換行情況

pd．set＿option（＇display．max＿columns＇， 500）

pd．set＿option（＇display．width＇， 1000）

＃讀取數(shù)據(jù)，skipinitialspace：忽略分隔符后的空白

df ＝ pd．read＿csv（＇creditcard＿exp．csv＇， skipinitialspace＝True）

print（df．head（））

讀取數(shù)據(jù)，數(shù)據(jù)如下。

對(duì)數(shù)據(jù)進(jìn)行相關(guān)性分析。

＃獲取信用卡有支出的行數(shù)據(jù)

exp ＝ df［df［＇avg＿exp＇］．notnull（）］．copy（）．iloc［：， 2：］．drop（＇age2＇， axis＝1）

＃獲取信用卡無(wú)支出的行數(shù)據(jù)，NaN

exp＿new ＝ df［df［＇avg＿exp＇］．isnull（）］．copy（）．iloc［：， 2：］．drop（＇age2＇， axis＝1）

＃描述性統(tǒng)計(jì)分析

exp．describe（include＝＇all＇）

print（exp．describe（include＝＇all＇））

＃相關(guān)性分析

print（exp［［＇avg＿exp＇，＇Age＇，＇Income＇，＇dist＿h(yuǎn)ome＿val＇］］．corr（method＝＇pearson＇））

輸出結(jié)果。

發(fā)現(xiàn)收入（Income）和平均支出（avg＿exp）相關(guān)性較大，值為0．674。

使用簡(jiǎn)單線性回歸建立模型。

＃使用簡(jiǎn)單線性回歸建立模型

lm＿s ＝ ols（＇avg＿exp ～ Income＇， data＝exp）．fit（）

print（lm＿s．params）

＃輸出模型基本信息，回歸系數(shù)及檢驗(yàn)信息，其他模型診斷信息

print（lm＿s．summary（））

一元線性回歸系數(shù)的輸出結(jié)果如下。

從上可知，回歸系數(shù)值為97．73，截距值為258．05。

模型概況如下。

其中R值為0．454，P值接近于0，所以模型還是有一定參考意義的。

使用線性回歸模型測(cè)試訓(xùn)練數(shù)據(jù)集，得出其預(yù)測(cè)值及殘差。

＃生成的模型使用predict產(chǎn)生預(yù)測(cè)值，resid為訓(xùn)練數(shù)據(jù)集的殘差

print（pd．DataFrame（［lm＿s．predict（exp）， lm＿s．resid］， index＝［＇predict＇，＇resid＇］）．T．head（））

輸出結(jié)果，可與最開始讀取數(shù)據(jù)時(shí)輸出的結(jié)果對(duì)比一下。

使用模型測(cè)試預(yù)測(cè)數(shù)據(jù)集的結(jié)果。

＃對(duì)待預(yù)測(cè)數(shù)據(jù)集使用模型進(jìn)行預(yù)測(cè)

print（lm＿s．predict（exp＿new）［：5］）

輸出結(jié)果。

12下一頁(yè)>

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）