零起点Python机器学习快速入门【1.8】

BinaryStarXin

316人浏览 · 2026-06-13 19:46:16

BinaryStarXin · 2026-06-13 19:46:16 发布

5.5 案例源码

本章包括以下案例程序。

 案例 5-1： Iris 爱丽丝，文件名是 zai101_iris01.py。

 案例 5-2：爱丽丝进化与矢量化文本，文件名是 zai102_iris02.py。

 案例 5-3： Iris 爱丽丝分解，文件名是 zai103_iris03.py。

 案例 5-4：线性回归算法，文件名是 zai104_iris04.py。

案例 5-1： Iris爱丽丝

文件名是 zai101_iris01.py，源码如下。

#coding=utf-8
'''
Created on 2016.12.25
TopQuant-极宽量化系统·培训课件-配套教学 Python 程序
@ www.TopQuant.vip www.ziwang.com
'''
import pandas as pd
#-----------------------
#1
fss='dat/iris.csv'
df=pd.read_csv(fss,index_col=False)
print('\n#1 df')
print(df.tail())
print(df.describe())
#2
d10=df['xname'].value_counts()
print('\n#2 xname')
print(d10)
#-----------------------
print('\nok!')

案例 5-2：爱丽丝进化与文本矢量化
文件名是 zai102_iris02.py，源码如下。
#coding=utf-8
'''
Created on 2016.12.25
TopQuant-极宽量化系统·培训课件-配套教学 Python 程序
@ www.TopQuant.vip www.ziwang.com
'''
import pandas as pd
#-----------------------
#1
fss='dat/iris.csv'
df=pd.read_csv(fss,index_col=False)
#2
df.loc[df['xname']=='virginica', 'xid'] = 1
df.loc[df['xname']=='setosa', 'xid'] = 2
df.loc[df['xname']=='versicolor', 'xid'] = 3
df['xid']=df['xid'].astype(int)
df.to_csv('tmp/iris2.csv',index=False)    
#3
print('\n3#df')
print(df.tail())
print(df.describe())
#4
d10=df['xname'].value_counts()
print('\n4#xname')
print(d10)
#5
d10=df['xid'].value_counts()
print('\n5#xid')
print(d10)
#-----------------------
print('\nok!')
案例 5-3： Iris爱丽丝分解
文件名是 zai103_iris03.py，源码如下。
#coding=utf-8
'''
Created on 2016.12.25
TopQuant-极宽量化系统·培训课件-配套教学 Python 程序
@ www.TopQuant.vip www.ziwang.com
'''
import pandas as pd
#
import sklearn
from sklearn.cross_validation import train_test_split
#
#-----------------------
#1
fss='dat/iris2.csv'
df=pd.read_csv(fss,index_col=False)
#2
print('\n2# df')
print(df.tail())
#3
xlst,ysgn=['x1','x2','x3','x4'],'xid'
x,y= df[xlst],df[ysgn]
#
print('\n3# xlst,',xlst)
print('ysgn,',ysgn)
print('x')
print(x.tail())
print('y')
print(y.tail())
#4
x_train, x_test, y_train, y_test = train_test_split(x, y,
random_state=1)
x_test.index.name,y_test.index.name='xid','xid'
print('\n4# type')
print('type(x_train),',type(x_train))
print('type(x_test),',type(x_test))
print('type(y_train),',type(y_train))
print('type(y_test),',type(y_test))
#5
fs0='tmp/iris_'
print('\n5# fs0,',fs0)
x_train.to_csv(fs0+'xtrain.csv',index=False);
x_test.to_csv(fs0+'xtest.csv',index=False)
y_train.to_csv(fs0+'ytrain.csv',index=False,header=True)
y_test.to_csv(fs0+'ytest.csv',index=False,header=True)
#6
print('\n6# x_train')
print(x_train.tail())
print('\nx_test')
print(x_test.tail())
#7
print('\n7# y_train')
print(y_train.tail())
print('\ny_test')
print(y_test.tail())
#-----------------------
print('\nok!')

案例 5-4：线性回归算法
文件名是 zai104_iris04.py，源码如下。
#coding=utf-8
'''
Created on 2016.12.25
TopQuant-极宽量化系统·培训课件-配套教学 Python 程序
@ www.TopQuant.vip www.ziwang.com
'''
import pandas as pd
#
import sklearn
from sklearn import datasets, linear_model
from sklearn.cross_validation import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn import metrics
from sklearn.model_selection import cross_val_predict
#
import zsys
import ztools as zt
import ztools_str as zstr
import ztools_web as zweb
import ztools_data as zdat
import ztop_ai as zai
import zpd_talib as zta
#
#-----------------------
#1
fs0='dat/iris_'
print('\n1# fs0,',fs0)
x_train=pd.read_csv(fs0+'xtrain.csv',index_col=False);
y_train=pd.read_csv(fs0+'ytrain.csv',index_col=False);
#2
print('\n2# train')
print(x_train.tail())
print(y_train.tail())
#3
print('\n3# 建模')
mx =zai.mx_line(x_train.values,y_train.values)
#4
x_test=pd.read_csv(fs0+'xtest.csv',index_col=False)
df9=x_test.copy()
print('\n4# x_test')
print(x_test.tail())
#5
print('\n5# 预测')
y_pred = mx.predict(x_test.values)
df9['y_predsr']=y_pred
#6
y_test=pd.read_csv(fs0+'ytest.csv',index_col=False)
print('\n6# y_test')
print(y_test.tail())
#7
df9['y_test'],df9['y_pred']=y_test,y_pred
df9['y_pred']=round(df9['y_predsr']).astype(int)
df9.to_csv('tmp/iris_9.csv',index=False)
print('\n7# df9')
print(df9.tail())
#
#8
dacc=zai.ai_acc_xed(df9,1,False)
print('\n8# mx:mx_sum,kok:{0:.2f}%'.format(dacc))
#-----------------------
print('\nok!')