Tongji Project Hosting and Academic Communication platform

下载 2

快召唤伙伴们来围观吧
微博 QQ QQ空间 贴吧
文档嵌入链接
<iframe src="https://www.slidestalk.com/u42/tongji_project_hosting_and_academic_communication_platform_q6ruez?embed" frame border="0" width="640" height="360" scrolling="no" allowfullscreen="true">复制
微信扫一扫分享
已成功复制到剪贴板

小二郎

发布于

6年前

1972

人观看

#信息技术

赛事结果预测数学模型. 监督学习模型. 从标记的训练数据来推断一个功能. SVM. 、. LR. 、决策树 …… 比赛数据. 分类器. 结果. 历史比赛数据. 分类器. 调整优化模型.

展开查看详情

1 .基于监督学习和多元统计分析的中超联赛赛事预测与球队实力排名 2018 年数学建模校赛答辩成员：庞一统张银武怡溪

2 .问题重述与分析

3 .待解决的问题查找比赛相关数据 , 进行分析提取参数 , 对第 9 轮比赛结果进行预测 . 综合前 8 轮的比赛成绩 , 对比赛中具体的数据进行分析 , 对 16 支球队的实力进行排名；并评估积分排名的合理程度 . 评估中超赛事中外援的重要程度 , 考虑可增加的数据使评估效果更好 , 并评估模型的科学性 .

4 .问题一的分析赛事结果预测数学模型根据以往数据，预测未来结果预测比赛胜负结果比赛进球情况不做预测

5 .问题一的分析赛事结果预测数学模型选取数据指标（考查影响比赛结果的因素）建立分类模型（预测转化为分类模型）

6 .问题一的分析赛事结果预测数学模型分类目标（胜负平）提取历史比赛信息

7 .问题一的分析赛事结果预测数学模型监督学习模型从标记的训练数据来推断一个功能 SVM 、 LR 、决策树 …… 迭代训练训练预测 / 测试

8 .问题二的分析球队实力排名模型提取影响球队实力的核心因素综合各因素量化球队实力对比积分排名

9 .问题三的分析外援影响评估数学模型分析外援的各类比赛数据基于第二问建立的模型考查外援对球队实力模型的影响程度

10 .模型假设假设从网上所采集的各类中超比赛数据真实有效假设每场比赛的进球数据（射门数等）、防守数据（扑救数等）等是独立的随机变量假设所有中超比赛中裁判判决公平公正假设所有中超球员在比赛中 , 不存在钱权交易行为假设恶劣天气、球迷骚动等突发情况对各支参赛队伍影响相同假设中超比赛前 , 比赛球队的球员身体状况良好 , 无重大伤病影响假设各支球队球员内部关系友好 , 教练及球员、外援与本土球员之间没有矛盾假设第 9 轮比赛前各球队教练与球员无变动假设球员竞技状态不受非训练及比赛因素影响假设球队竞技状态及实力在短期时间内不会发生较大变化

11 .模型的建立与求解

12 .数据获取爬虫工具

13 .主客场因素主队胜平客队胜场数 262 195 87 占比 0.482 0.358 0.160 在中超赛事中 , 主客场因素对比赛结果影响很大 , 主队主场比赛常具有较大优势 . 2017 赛季主客场胜利情况使用主队主场胜率和客队客场胜率来综合衡量主客场因素 , 定义：主场优势：主场劣势： 2016 至 2018 赛季主客场因素对比赛结果影响

14 .球员状态球员评分 Sci 是对球员技术水平和竞技状态的综合反映 , 球员状态直接影响比赛的结果 . 为了综合一支球队球员状态对比赛结果的影响 , 计算整支球队所有主力球员的评分均值和方差 , 将其作为影响比赛结果的指标 . 2018 年中超球队 pl_var 直方图 2018 年中超球队 pl_mean 直方图

15 .教练的执教轮次

16 .比赛轮次抽取 2017 年各轮比赛的部分数据指标 , 对其统计分析 , 包括球员状态、球队主场优势、射门次数等 . 与比赛轮次 times 作散点图 . 各项指标离散分布 , 没有明显的变化趋势 , 说明比赛轮次对比赛的结果影响很小 , 可以忽略不计 . 同时也表明 , 球队的比赛数据不具有时序性 . 2017 年中超球队 30 轮比赛下 X1 、 X17 轮次散点图 2017 年中超球队 30 轮比赛 h_w,h_l 轮次散点图 2017 年中超球队 30 轮比赛 pl_var,pl_var 轮次散点图

17 .影响中超比赛结果的因素球队技术指标进攻射门 X1,X2,X3,X4,X5,X6 控球 X7,X8,X9,X10 其他 X11,X12,X13,X14,X15,X16 防守 X17,X18,X19,X20,X21,X22,X23 传球 X24,X25,X26,X27,X28,X29 球员球员评分均值 pl_mean 球员评分方差 pl_var 教练执教轮次 home_coa / away_coa 主客场因素主场优势 h_w 主场劣势 h_l 对所获取的数据按影响类别进行划分

18 .问题 1 的建模

19 .特征参数提取与处理具体的 29 个指标进行全方位地衡量 , 如：射门次数 X1, 控球率 X7 等为了便于模型处理 , 利用主成分分析 (PCA) 对该 29 个指标进行分析 . 对 PCA 结果分析可知 , 前 6 个变量的方差贡献率较高 , 但是其累计贡献率尚未达到 80%, 则选用前 6 个变量对 29 个指标进行 PCA 分析效果不理想 .

20 .特征参数提取与处理三类比赛结果的数据数量差异较大 , 具有不平衡性 . 在处理分类问题时 , 利用监督学习建立的模型对数据平衡性具有一定的要求 , 当各类的数据量不平衡时 , 分类效果相当不理想 . 因此 , 需要对数据进行不平衡性处理 . 不再以主场、客场顺序做差 , 而以 16 只球队两两对抗 , 分为 A-B 队 , 以 A 队的胜负平作为比赛结果 , 扩充了数据集 . 最终特征参数具体格式如下 : 主队胜平主队败场数 262 195 87 占比 0.482 0.358 0.160 2016 至 2018 赛季的 544 场中超比赛的结果统计

21 .问题 1 的建模逻辑回归广义线性回归模型 y = a x+ b Sigmod 函数 LR 参数形式

22 .问题 1 的建模模型参数求解（训练） y = a x+ b 损失函数（交叉熵）梯度下降算法 m: 训练样本个数 ; : 用参数预测出来的结果 : 原训练样本中的 y 值 , 即标准答案 : 第 i 个样本

23 .问题 1 的建模模型参数求解（训练）数据集： 2016-2018 处理后的每场比赛的数据训练集： 70% 有效性检验集： 15% 测试集： 15% （随机划分）

24 .问题 1 的建模模型训练效果（二分类）数据编号模型主队负率模型主队胜率模型预测结果 1 2.14933970e-02 9.78506603e-01 主队胜 2 3.46907851e-01 6.53092149e-01 主队胜 3 8.85511230e-01 1.14488770e-01 主队负 4 1.24271805e-01 8.75728195e-01 主队胜 AUC 曲线图混淆矩阵

25 .问题 1 的建模模型训练效果（三分类）数据编号模型主队负率模型平率模型主队胜率模型预测结果 1 6.26037998e-14 1.40264972e-01 8.59735028e-01 主队胜 2 7.37504090e-01 2.36705384e-01 2.57905260e-02 主队负 3 8.30499221e-03 1.02401123e-01 8.89293885e-01 主队胜 4 1.39365744e-23 5.10159061e-01 4.89840939e-01 平混淆矩阵

26 .问题 1 的建模选用模型分类数据集划分方法 LR 二分类 2016-2018 处理后的每场比赛的数据训练集： 70% 测试集： 15% 验证集： 15% （随机划分） LR 三分类训练集： 75% 测试集： 25% （随机划分） SVM 二分类训练集： 75% 测试集： 25% （随机划分）决策树二分类随机森林三分类

27 .模型对比评估 Label Precison Recall F1-score Support L 0.67 0.67 0.67 21 W 0.90 0.90 0.90 67 Ava/total 0.84 0.84 0.84 88 决策树二分类模型评价结果 Label Precison Recall F1-score Support L 0.75 0.55 0.63 22 W 0.86 0.94 0.90 66 Ava/total 0.83 0.84 0.83 88 逻辑回归二分类模型评价结果

28 .模型对比评估 precision recall f1-score support D 0.58 0.59 0.59 49 L 0.65 0.71 0.68 21 W 0.71 0.68 0.70 66 avg / total 0.66 0.65 0.65 136 随机森林模型评价结果 Label Precison Recall F1-score Support L 0.58 0.73 0.65 15 D 0.66 0.47 0.55 49 W 0.71 0.81 0.75 72 Ava/total 0.68 0.68 0.67 136 逻辑回归三分类模型评价结果 precision recall f1-score support D 0.74 0.64 0.69 45 L 0.80 0.50 0.62 24 W 0.73 0.90 0.81 67 avg / total 0.75 0.74 0.73 136 SVM 三分类模型评价结果

29 .使用模型预测

5点赞

0收藏

2下载