足球专家预测模型基于机器学习的交通流量预测模型

2024-06-11 20:10:04 文章来源:百家号
足球专家预测模型基于机器学习的交通流量预测模型
案例导读数据集中包含美国94号州际公路MNDoT ATR301站西行交通量的每小时测量值。该站大致位于明尼阿波利斯和圣保罗之间。数据集还包括每小时的天气和假日属性,以评估它们对交通量的影响。案例将根据此数据集建立机器学习模型预测美国州际公路交通量。案例使用介绍对于预测美国州际公路交通量中主要使用了线性回归、回归决策树、AdaBoost和GBDT模型,通过横向对比不同算法的功能效果,选择出较优的预测结果。本案例中主要的过程在于数据的探索性分析及对于特征的修改。案例主要使用Python中的pandas、numpy、matplotlib、seaborn和sklearn库进行数据的探索性分析和案例目录介绍使用1.数据集简介2.数据集探索性分析以及数据处理3.训练集测试集划分4.回归建模4.1线性回归4.2回归决策树4.3集成模型——AdaBoost4.4集成模型——GBDT5.总结性分析1.数据集简介字段名称字段类型字段说明holiday字符型假期类型temp浮点型平均开尔文温度(绝对温度)rain_1h浮点型每小时的降雨量snow_1h浮点型每小时的降雪量clouds_all整型云量的数值百分比weather_main字符型当前天气的简短文字描述weather_description字符型当前天气的较长文字描述date_time字符型时间traffic_volume整型交通流量2.数据集探索性分析以及数据处理2.1导入数据首先通过,python中的pandas库进行导入数据并且查看数据填充信息、类型信息以及统计学特征。可以看到,所有的字段的数量都为48204个,说明数据无缺失值,不需要进行填充处理。此外,holiday、weather_main、weather_description、date_time都是object类型,我们需要在建立模型之前对某些字段进行类型转化,方便模型的处理。通过库函数查看统计学特征:这张表可以看出,holiday字段有12种取值,weather_main字段有11种取值,weather_description字段有38种取值,我们可以使用可视化的方式对其进行更具体的展示和分析。除此之外,我们能发现rain_1h的最大值为9831.3,不符合常理,所以在后期需要对这些异常值进行处理。2.2数据清洗与数据探索性分析首先通过python的matplotlib与seaborn库对于字符串类型holiday、weather_main和weather_description字段进行统计展示,画出分布的柱状图。Holiday分布:weather_main分布:对weather_description绘制条形图,统计各个天气的详细情况出现的次数。发现的rain_1h出现的异常值进行可视化,首先利用箱线图画出数据分布范围:绝大部分rain_1h在0附近,在小于1000的数据时,横坐标最大仅为60左右,说明数据中存在明显的离群值,需要对其进行清洗。对snow_1h列进行可视化分析,查看数据分布,判断有无异常值。可以看出,snow_1h所反映的降雪量符合日常生活经验,不必对其异常值清洗处理在查看数据的统计信息时,我们发现,温度(temp)的最小值为0,最大值为310,判断为绝对温度,画出箱线图查看异常值情况:可以发现一点,有一点严重偏离正常温度分布范围,达到绝对零度,为异常值,及进行清洗。在去除异常值后可以看到,temp的分布达到了正常范围。接下来,将clouds_all和traffic_volume绘制小提琴图,小提琴图时是一种箱线图的变种,结合了箱线图和密度图的特点,能够显示数据分布及其概率密度。Clouds_all小提琴图绘制:Traffic_volume小提琴图绘制:云量在偏向两侧中均表现为正常现象。将data_time转换为日期datetime64类型。寻找连续型对象间的相关性关系:通过热力图可以看出,连续型特征之间并没有十分明显的相关性。接下来,将时间拆解为hour、month、year和day,分别进行统计,计算出每个时间段的数量count以及时间段内的车流量trffic_volume。根据小时进行统计,计算出每个时间段。根据月份进行统计,计算出每个时间段。根据年份进行统计,计算出每个时间段。根据天数进行统计,计算出每个时间段。通过折线图可以看到,在白天车流量最多,为高峰时期;在月份上,冬天12月-1月和夏天7月份车流量有明显的下降;在一周内,工作日(周一至周五)车流量保持较高水平,但是周末较低,比较符合日常生活经验。接下来进行数据的编码处理,方便后续模型的处理使用。删除不需要的列date_time和weather_description(2)将日期列进行编码转换为数字格式(3)将温度减去绝对零度,转化为摄氏度(4)将天气类型进行数字编码(5) holiday列进行处理,假期数量较少,我们考虑将该列转换为布尔类型,即若为假期,我们设置为True,否则为False(6)清除异常值后,数据的索引仍然存在,我们需要重置索引(7)因为weather_main为无序性变量,但是我们在进行数字编码后人为引入了大小和顺序,所以我们需要对其进行处理,在这里我们使用OneHotEncoder进行One-Hot编码3.训练集测试集划分建模之前对数据集进行划分,比例为训练集:测试集=80%:20%,使用的方法为sklearn.model_selection中的train_test_split方法,在划分之前,我们还需要使用sklearn.preprocessing的StandardScaler将各个特征列标准化。4.回归建模在建模之前,我们首先构建评估回归模型的通用方法,我们通过计算训练集得分、测试集得分、均方根误差和决定系数来评估回归模型的准确度。在构建模型训练完成之后,我们只需要调用方法e*luate_model()传入相应的模型就可以实现验证。4.1线性回归线性回归模型是最简单的回归模型,通过sklearn.linear_model中的LinearRegression方法构建线性回归模型,并进行训练。线性回归模型的效果并不好,其训练集测试集得分都较低,均方根误差非常高,决定系数仅为0.153,说明线性回归模型没有实际的参考意义。接下来,我们建立其他的回归模型。4.2回归决策树使用回归决策树算法构建模型,设置树的最大深度max_depth为12,用训练的模型在测试集上进行交通量的预测。回归决策树的预测效果较好,决定系数能够达到0.939,并且能在测试集上得分达到0.94,能够说明回归决策树有较好的性能。4.3集成模型——AdaBoost使用AdaBoost算法的回归模型,使用的基模型为我们之前构建的决策树模型dtreg,此外,我们设置基模型数量n_estimators为80,学习率learning_rate为0.01,用训练的模型在测试集上进行交通量的预测。AdaBoost回归模型的预测效果较好,决定系数能够达到0.949,并且能在测试集上得分达到0.95,能够说明AdaBoost预测性能非常好。4.4集成模型——GBDT使用GBDT模型进行回归预测,我们将基模型数量n_estimators设置为500,树的最大深度max_depth设置为10,用训练的模型在测试集上进行交通量的预测。GBDT回归模型的预测效果较好,决定系数能够达到0.965,并且能在测试集上得分达到0.97,能够说明GBDT预测性能非常好。5.总结性分析首先,通过对数据集进行信息查看、数据清洗、数据可视化以及相关性探索,大致描述了数据集的一些特征。之后,我们建立了五个回归模型对数据进行预测。我们可以发现,线性回归的模型预测效果较差,但是回归决策树和K近邻模型的预测效果都较好,决定系数都超过了0.85。此外,我们还构建了两个集成模型,AdaBoost和GBDT,这两个模型的效果都非常好,决定系数都在0.95以上,我们也能通过绘制的实际值预测值对比散点图看出来,二者对测试集的预测能力非常好。BONUS TIME数学建模资料、视频讲解、历年赛题后台回复 【校苑】领取100G MATLAB资料后台回复 【干货】领取

免责声明:本文及图片仅供学习研究之用,版权归属原作者,未经许可不得转载,不得用于任何商业用途。

文章链接:https://www.vzhan310.com/info/2608517

情报站
下拉加载数据
海外专家方案
La·Fonde(拉-方丹)
3连红
近3中3
从事多年欧洲篮球资讯新闻报道,提供专业数据分析、伤情报告
100%
命中率
【澳篮独家料 冲4连红!!!】篮球专家La-Fonde来料:双方特点极为相似!
09-20 10:30
澳联
|
珀斯野猫
VS
东南墨尔本凤凰
1小时前发布
Natalia(娜塔莉亚)
4连红
近4中4
前《华沙生活报》编辑,对德法荷情有独钟
100%
命中率
【尼斯场 冲5连红!!!】前《华沙生活报》编辑Natalia海外信息:这队将迎120周年贺礼赛!
09-20 18:45
法甲
|
尼斯
VS
圣埃蒂安
2小时前发布
Hagen(哈根)
连中
近20中13
曾效力于挪威耶尔夫球队,退役后转行评论员,对北欧联赛都很了解
65%
命中率
【哈卡场】北欧足球评论员Hagen海外信息:这队关键球员缺阵!
09-20 15:00
芬超
|
哈卡
VS
塞那乔其
2小时前发布
Jeff Poole(杰夫·普尔)
连中
近7中5
佛州大知名球探 对魔术队有独到见解
71%
命中率
【WNBA】美国大学球探Poole海外信息:这队赛前直接轮休双核!
09-20 00:00
WNBA
|
明尼苏达山猫
VS
洛杉矶火花
18小时前发布
Manish Khan(马尼什·汗)
连中
近12中9
印度最大体育网《Khel Now》专栏记者,除印度联赛外也关注欧洲联赛
75%
命中率
【印度超 黄金场】Khel Now体育网记者Khan劲爆好料:单外援VS六外援!?
09-19 14:00
印度超
|
班加罗尔
VS
海得拉巴
20小时前发布
最新文章
Read More
足球专家预测模型4月3号,足球+篮球预测
发布时间:2024-06-11 文章来源:百家号
Read More
日本vs叙利亚_今日分析综合分析:澳大利亚前5轮表现堪称完美,全部获胜之余,得失球比为恐怖的17比0,本场比赛面对手下败将巴勒斯坦,澳大利亚全取3分不在话下。
发布时间:2024-06-11 文章来源:百家号
Read More
PK-35vs赫尔辛基_比分预测俄乌冲突与“赫尔辛基精神”:欧洲整体安全为何总难如愿?
发布时间:2024-06-11 文章来源:百家号
Read More
足球专家预测模型今日足球:周一足球推荐+足球比分预测
发布时间:2024-06-11 文章来源:百家号
Read More
PK-35vs赫尔辛基_比分预测芬兰赫尔辛基60公里海岸线出现不明异味
发布时间:2024-06-11 文章来源:百家号
Read More
PK-35vs赫尔辛基_比分预测美德法军舰抵达芬兰赫尔辛基港口 芬兰军官:是对芬兰加入北约表示支持
发布时间:2024-06-11 文章来源:百家号
Read More
PK-35vs赫尔辛基_比分预测“欢乐春节芬兰行”赫尔辛基活动成功举办
发布时间:2024-06-11 文章来源:百家号
Read More
PK-35vs赫尔辛基_比分预测(体育·国际足球)欧罗巴联赛单场:罗马完胜赫尔辛基
发布时间:2024-06-11 文章来源:百家号
Read More
足球模型预测比赛欧洲足球赛事前瞻:俄超、荷甲、德乙焦点之战预测与分析
发布时间:2024-06-11 文章来源:百家号
Read More
足球模型预测比赛中超第11轮火爆度及胜负预测:3大德比噱头足,8场比赛6火爆
发布时间:2024-06-11 文章来源:百家号
友情链接

V站客服:vzhanvip

举报电话:010- 84770926

联系电话

商务合作:010-53658967

合作QQ:64359757