當前位置:首頁 > 公眾號精選 > AI科技大本營
[導讀]作者|俊欣來源|關于數(shù)據(jù)分析與可視化今天小編來說說如何通過pandas以及sklearn這兩個模塊來對數(shù)據(jù)集進行特征篩選,畢竟有時候我們拿到手的數(shù)據(jù)集是非常龐大的,有著非常多的特征,減少這些特征的數(shù)量會帶來許多的好處,例如提高預測的精準度降低過擬合的風險加快模型的訓練速度增加模型...


作者 | 俊欣來源 | 關于數(shù)據(jù)分析與可視化今天小編來說說如何通過pandas以及sklearn這兩個模塊來對數(shù)據(jù)集進行特征篩選,畢竟有時候我們拿到手的數(shù)據(jù)集是非常龐大的,有著非常多的特征,減少這些特征的數(shù)量會帶來許多的好處,例如


  • 提高預測的精準度
  • 降低過擬合的風險
  • 加快模型的訓練速度
  • 增加模型的可解釋性
事實上,很多時候也并非是特征數(shù)量越多訓練出來的模型越好,當添加的特征多到一定程度的時候,模型的性能就會下降,從下圖中我們可以看出,


因此我們需要找到哪些特征是最佳的使用特征,當然我們這里分連續(xù)型的變量以及離散型的變量來討論,畢竟不同數(shù)據(jù)類型的變量處理的方式不同,我們先來看一下對于連續(xù)型的變量而言,特征選擇到底是怎么來進行的。



計算一下各個變量之間的相關性

我們先導入所需要用到的模塊以及導入數(shù)據(jù)集,并且用pandas模塊來讀取from sklearn.datasets import load_boston
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
import statsmodels.api as sm
%matplotlib inline
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.feature_selection import RFE
from sklearn.linear_model import RidgeCV, LassoCV, Ridge, Lasso
這次用到的數(shù)據(jù)集是機器學習中尤其是初學者經(jīng)常碰到的,波士頓房價的數(shù)據(jù)集,其中我們要預測的這個對象是MEDV這一列x = load_boston()
df = pd.DataFrame(x.data, columns = x.feature_names)
df["MEDV"] = x.target
X = df.drop("MEDV",1) #將模型當中要用到的特征變量保留下來
y = df["MEDV"] #最后要預測的對象
df.head()
output CRIM    ZN  INDUS  CHAS    NOX  ...    TAX  PTRATIO       B  LSTAT  MEDV
0  0.00632  18.0   2.31   0.0  0.538  ...  296.0     15.3  396.90   4.98  24.0
1  0.02731   0.0   7.07   0.0  0.469  ...  242.0     17.8  396.90   9.14  21.6
2  0.02729   0.0   7.07   0.0  0.469  ...  242.0     17.8  392.83   4.03  34.7
3  0.03237   0.0   2.18   0.0  0.458  ...  222.0     18.7  394.63   2.94  33.4
4  0.06905   0.0   2.18   0.0  0.458  ...  222.0     18.7  396.90   5.33  36.2
我們可以來看一下特征變量的數(shù)據(jù)類型df.dtypes
outputCRIM       float64
ZN         float64
INDUS      float64
CHAS       float64
NOX        float64
RM         float64
AGE        float64
DIS        float64
RAD        float64
TAX        float64
PTRATIO    float64
B          float64
LSTAT      float64
MEDV       float64
dtype: object
我們看到都是清一色的連續(xù)型的變量,我們來計算一下自變量和因變量之間的相關性,通過seaborn模塊當中的熱力圖來展示,代碼如下plt.figure(figsize=(10,8))
cor = df.corr()
sns.heatmap(cor, annot=True, cmap=plt.cm.Reds)
plt.show()

相關系數(shù)的值一般是在-1到1這個區(qū)間內(nèi)波動的
  • 相關系數(shù)要是接近于0意味著變量之間的相關性并不強
  • 接近于-1意味著變量之間呈負相關的關系
  • 接近于1意味著變量之間呈正相關的關系
我們來看一下對于因變量而言,相關性比較高的自變量有哪些# 篩選出于因變量之間的相關性
cor_target = abs(cor["MEDV"])
# 挑選于大于0.5的相關性系數(shù)
relevant_features = cor_target[cor_target>0.5]
relevant_features
outputRM         0.695360
PTRATIO    0.507787
LSTAT      0.737663
MEDV       1.000000
Name: MEDV, dtype: float64
篩選出3個相關性比較大的自變量來,然后我們來看一下自變量之間的相關性如何,要是自變量之間的相關性非常強的話,我們也只需要保留其中的一個就行,print(df[["LSTAT","PTRATIO"]].corr())
print("=" * 50)
print(df[["RM","LSTAT"]].corr())
print("=" * 50)
print(df[["PTRATIO","RM"]].corr())
output LSTAT   PTRATIO
LSTAT    1.000000  0.374044
PTRATIO  0.374044  1.000000
==================================================
RM     LSTAT
RM     1.000000 -0.613808
LSTAT -0.613808  1.000000
==================================================
PTRATIO        RM
PTRATIO  1.000000 -0.355501
RM      -0.355501  1.000000
從上面的結果中我們可以看到,RM變量和LSTAT這個變量是相關性是比較高的,我們只需要保留其中一個就可以了,我們選擇保留LSTAT這個變量,因為它與因變量之間的相關性更加高一些

遞歸消除法

我們可以嘗試這么一種策略,我們選擇一個基準模型,起初將所有的特征變量傳進去,我們再確認模型性能的同時通過對特征變量的重要性進行排序,去掉不重要的特征變量,然后不斷地重復上面的過程直到達到所需數(shù)量的要選擇的特征變量。LR= LinearRegression()
# 挑選出7個相關的變量
rfe_model = RFE(model, 7)
# 交給模型去進行擬合
X_rfe = rfe_model.fit_transform(X,y)
LR.fit(X_rfe,y)
# 輸出各個變量是否是相關的,并且對其進行排序
print(rfe_model.support_)
print(rfe_model.ranking_)
output[False False False  True  True  True False  True  True False  True False
True]
[2 4 3 1 1 1 7 1 1 5 1 6 1]
第一行的輸出包含True和False,其中True代表的是相關的變量對應下一行的輸出中的1,而False包含的是不相關的變量,然后我們需要所需要多少個特征變量,才能夠使得模型的性能達到最優(yōu)#將13個特征變量都依次遍歷一遍
feature_num_list=np.arange(1,13)
# 定義一個準確率
high_score=0
# 最優(yōu)需要多少個特征變量
num_of_features=0
score_list =[]
for n in range(len(feature_num_list)):
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size = 0.3, random_state = 0)
model = LinearRegression()
rfe_model = RFE(model,feature_num_list[n])
X_train_rfe_model = rfe_model.fit_transform(X_train,y_train)
X_test_rfe_model = rfe_model.transform(X_test)
model.fit(X_train_rfe_model,y_train)
score = model.score(X_test_rfe_model,y_test)
score_list.append(score)
if(score>high_score):
high_score = score
num_of_features = feature_num_list[n]
print("最優(yōu)的變量是: %d個" %num_of_features)
print("%d個變量的準確率為: %f" % (num_of_features, high_score))
output最優(yōu)的變量是: 10個
10個變量的準確率為: 0.663581
從上面的結果可以看出10個變量對于整個模型來說是最優(yōu)的,然后我們來看一下到底是哪10個特征變量cols = list(X.columns)
model = LinearRegression()
# 初始化RFE模型,篩選出10個變量
rfe_model = RFE(model, 10)
X_rfe = rfe.fit_transform(X,y)
# 擬合訓練模型
model.fit(X_rfe,y)
df = pd.Series(rfe.support_,index = cols)
selected_features = df[df==True].index
print(selected_features)
outputIndex(['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'DIS', 'RAD', 'PTRATIO',
'LSTAT'],
dtype='object')

正則化

例如對于Lasso的正則化而言,對于不相關的特征而言,該算法會讓其相關系數(shù)變?yōu)?,因此不相關的特征變量很快就會被排除掉了,只剩下相關的特征變量lasso = LassoCV()
lasso.fit(X, y)
coef = pd.Series(lasso.coef_, index = X.columns)
然后我們看一下哪些變量的相關系數(shù)是0print("Lasso算法挑選了 " str(sum(coef != 0)) " 個變量,然后去除掉了" str(sum(coef == 0)) "個變量")
outputLasso算法挑選了10個變量,然后去除掉了3個變量
我們來對計算出來的相關性系數(shù)排個序并且做一個可視化imp_coef = coef.sort_values()
matplotlib.rcParams['figure.figsize'] = (8, 6)
imp_coef.plot(kind = "barh")
plt.title("Lasso Model Feature Importance")
output可以看到當中有3個特征,‘NOX’、'CHAS'、'INDUS'的相關性為0

根據(jù)缺失值來進行判斷

下面我們來看一下如何針對離散型的特征變量來做處理,首先我們可以根據(jù)缺失值的比重來進行判斷,要是對于一個離散型的特征變量而言,絕大部分的值都是缺失的,那這個特征變量也就沒有存在的必要了,我們可以針對這個思路在進行判斷。首先導入所需要用到的數(shù)據(jù)集train = pd.read_csv("credit_example.csv")
train_labels = train['TARGET']
train = train.drop(columns = ['TARGET'])
我們可以先來計算一下數(shù)據(jù)集當中每個特征變量缺失值的比重missing_series = train.isnull().sum() / train.shape[0]
df = pd.DataFrame(missing_series).rename(columns = {'index': '特征變量', 0: '缺失值比重'})
df.sort_values("缺失值比重", ascending = False).head()
output 缺失值比重
COMMONAREA_AVG            0.6953
COMMONAREA_MODE           0.6953
COMMONAREA_MEDI           0.6953
NONLIVINGAPARTMENTS_AVG   0.6945
NONLIVINGAPARTMENTS_MODE  0.6945
我們可以看到缺失值最高的比重將近有70%,我們也可以用可視化的根據(jù)來繪制一下缺失值比重的分布圖plt.rcParams['font.sans-serif']=['SimHei'] #用來正常顯示中文標簽
plt.figure(figsize = (7, 5))
plt.hist(df['缺失值比重'], bins = np.linspace(0, 1, 11), edgecolor = 'k', color = 'blue', linewidth = 2)
plt.xticks(np.linspace(0, 1, 11));
plt.xlabel('缺失值的比重', size = 14);
plt.ylabel('特征變量的數(shù)量', size = 14);
plt.title("缺失值分布圖", size = 14);
output我們可以看到有一部分特征變量,它們?nèi)笔е档谋戎卦?0%以上,有一些還在60%以上,我們可以去除掉當中的部分特征變量

計算特征的重要性

在基于樹的眾多模型當中,會去計算每個特征變量的重要性,也就是feature_importances_屬性,得出各個特征變量的重要性程度之后再進行特征的篩選from sklearn.ensemble import RandomForestClassifier
clf = RandomForestClassifier()
# 模型擬合數(shù)據(jù)
clf.fit(X,Y)
feat_importances = pd.Series(clf.feature_importances_, index=X.columns)
# 篩選出特征的重要性程度最大的10個特征
feat_importances.nlargest(10)
我們同時也可以對特征的重要性程度進行可視化,feat_importances.nlargest(10).plot(kind='barh', figsize = (8, 6))
output除了隨機森林之外,基于樹的算法模型還有很多,如LightGBM、XGBoost等等,大家也都可以通過對特征重要性的計算來進行特征的篩選

Select_K_Best算法

Sklearn模塊當中還提供了SelectKBest的API,針對回歸問題或者是分類問題,我們挑選合適的模型評估指標,然后設定K值也就是既定的特征變量的數(shù)量,進行特征的篩選。假定我們要處理的是分類問題的特征篩選,我們用到的是iris數(shù)據(jù)集iris_data = load_iris()
x = iris_data.data
y = iris_data.target

print("數(shù)據(jù)集的行與列的數(shù)量: ", x.shape)
output數(shù)據(jù)集的行與列的數(shù)量:  (150, 4)
對于分類問題,我們采用的評估指標是卡方,假設我們要挑選出3個對于模型最佳性能而言的特征變量,因此我們將K設置成3select = SelectKBest(score_func=chi2, k=3)
# 擬合數(shù)據(jù)
z = select.fit_transform(x,y)
filter_1 = select.get_support()
features = array(iris.feature_names)
print("所有的特征: ", features)
print("篩選出來最優(yōu)的特征是: ", features[filter_1])
output所有的特征:  ['sepal length (cm)' 'sepal width (cm)' 'petal length (cm)'
'petal width (cm)']
篩選出來最優(yōu)的特征是:  ['sepal length (cm)' 'petal length (cm)' 'petal width (cm)']
那么對于回歸的問題而言,我們可以選擇上面波士頓房價的例子,同理我們想要篩選出對于模型最佳的性能而言的7個特征變量,同時對于回歸問題的評估指標用的是f_regressionboston_data = load_boston()
x = boston_data.data
y = boston_data.target
然后我們將擬合數(shù)據(jù),并且進行特征變量的篩選select_regression = SelectKBest(score_func=f_regression, k=7)
z = select_regression.fit_transform(x, y)

filter_2 = select_regression.get_support()
features_regression = array(boston_data.feature_names)

print("所有的特征變量有:")
print(features_regression)

print("篩選出來的7個特征變量則是:")
print(features_regression[filter_2])
output
所有的特征變量有:['CRIM' 'ZN' 'INDUS' 'CHAS' 'NOX' 'RM' 'AGE' 'DIS' 'RAD' 'TAX' 'PTRATIO' 'B' 'LSTAT']篩選出來的7個特征變量則是:['CRIM' 'INDUS' 'NOX' 'RM' 'TAX' 'PTRATIO' 'LSTAT']





本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

“云原生”一詞最初來自Matt Stine在2013年寫的一本書——《Migrating to Cloud-Native Application Architectures》,書名中的Cloud-Native即是“云原生...

關鍵字: 云原生 AWS 云計算 人工智能 機器學習

(全球TMT2022年10月17日訊)日前,德勤中國旗下德勤管理咨詢中國數(shù)據(jù)科學卓越中心所出品的"機器學習推薦算法"論文被第十三屆IEEE 知識圖譜國際會議(簡稱"ICKG")收錄。ICKG是知識圖譜研究領域的國際權威...

關鍵字: 機器學習 IC CK MULTI

上海2022年10月17日 /美通社/ -- 日前,德勤中國迎來喜訊:旗下德勤管理咨詢中國數(shù)據(jù)科學卓越中心所出品的"機器學習推薦算法"論文被第十三屆IEEE 知識圖譜國際會議(以下簡稱"IC...

關鍵字: 機器學習 IC CK FM

在這篇文章中,小編將對大數(shù)據(jù)的相關內(nèi)容和情況加以介紹以幫助大家增進對它的了解程度,和小編一起來閱讀以下內(nèi)容吧。

關鍵字: 大數(shù)據(jù) Hadoop 機器學習

濟南2022年10月14日 /美通社/ -- 近日,浪潮新基建成功通過CMMI(軟件能力成熟度集成模型)三級認證并正式獲得資質證書。繼2021年組建后,僅一年時間就斬獲全球軟件領域最權威的認證之一,標志著浪潮新基建在技術...

關鍵字: 軟件 新基建 智慧城市 模型

北京2022年10月13日 /美通社/ -- 近日,中科寒武紀科技股份有限公司(以下簡稱"寒武紀")的思元370系列智能加速卡與浪潮AIStation智能業(yè)務生產(chǎn)創(chuàng)新平臺完成兼容性適配認證,...

關鍵字: STATION 加速卡 AI 模型

蘇州2022年10月13日 /美通社/ -- 北京時間2022年10月13日,開拓藥業(yè)(股票代碼:9939.HK),一家專注于潛在同類首創(chuàng)和同類最佳創(chuàng)新藥物研發(fā)及產(chǎn)業(yè)化的生物制藥公司,宣布其聯(lián)合美國德克薩斯大學...

關鍵字: 模型 LM EMI PD

一直以來,機器學習都是大家的關注焦點之一。因此針對大家的興趣點所在,小編將為大家?guī)頇C器學習的相關介紹,詳細內(nèi)容請看下文。

關鍵字: 機器學習 深度學習 數(shù)據(jù)挖掘

在下述的內(nèi)容中,小編將會對機器學習的相關消息予以報道,如果機器學習是您想要了解的焦點之一,不妨和小編共同閱讀這篇文章哦。

關鍵字: 機器學習 監(jiān)督學習 特征選擇

以下內(nèi)容中,小編將對機器學習的相關內(nèi)容進行著重介紹和闡述,希望本文能幫您增進對機器學習的了解,和小編一起來看看吧。

關鍵字: 機器學習 特征工程 監(jiān)督學習

AI科技大本營

113 篇文章

關注

發(fā)布文章

編輯精選

技術子站

關閉