小原文学网
首页 > 网游竞技 > 从零开始的足球冠军教练 >

第111章 马尔可夫链

章节目录

  他提到自己很怀念去年夏天的日子。那之后大家各奔东西,直到收到徐修治的邮件才意识到已经过去了大半年。

  他还说,自己看到了南安普敦在足总杯击败曼联的新闻,很高兴徐修治一切顺利。

  接下来,马塔拉佐聊了几句自己的近况。

  在纽伦堡带二队的工作很充实。虽然级别不高,但每天都能接触到不错的年轻球员,德国的青训体系确实有很多值得研究的地方。他现在基本把全部精力都放在了教练工作上,至于数据分析,他个人也有几分兴趣,但说实话,没有太多时间真正深入。

  “你居然还在想这些东西,我挺佩服的。”马塔拉佐在邮件里写道,“我到了一线岗位上之后,每天光是应付训练和看录像就精疲力尽了,根本没有精力去琢磨底层的方法论。”

  然后,他解释了自己为什么拖了这么久才回复。

  收到邮件之后,他确实想帮忙,但自己的数学水平实在有限。他在哥伦比亚大学读的虽然是应用数学专业,可美国大学的本科选课制度非常灵活。他当年满脑子都是踢球,为了顺利混到毕业,几乎是一路躲着那些数学课去凑学分的。

  看到这里,徐修治忍不住轻轻扯了扯嘴角。

  但马塔拉佐写自己前后联系了好几个校友,其中一个目前在微软工作,业余时间一直在研究足球分析。那名同学正好在用一种叫马尔可夫链的数学方法分析足球比赛里的进攻效率,听起来和徐修治描述的方向有些相似。

  随后马塔拉佐附上了一个网页链接,然后结束了邮件。

  马尔可夫链。

  这个词徐修治并不陌生。

  他之前翻阅运动科学和比赛分析相关文献时,不止一次见过这个概念。马尔可夫链在体育领域的应用其实已经有一段历史,最常见的案例是网球和棒球的比分预测。

  简单来说,马尔可夫链是一种分析状态转移的数学工具。

  什么叫状态转移?

  举一个最直白的例子。

  假设今天是晴天,那么明天继续晴天的概率是70%,下雨的概率是30%。这两个数字,就是从晴天这个状态出发推断出的转移概率。

  如果今天下雨,那么明天继续下雨的概率可能是60%,转晴的概率是40%。这又是另一组转移概率。

  马尔可夫链的核心假设是,下一个状态的概率只取决于当前的状态,和更早之前的历史状态无关。

  也就是说,你预测明天的天气只需要今天的天气,而不需要更早之前是什么天气。

  这个假设听起来简单,但非常强大。因为它把一个可能无限复杂的历史依赖问题,简化成了一个只看当前状态的问题。

  再换一个网游里装备强化的例子。

  假设你手里有一把+10的武器去强化。

  系统的底层代码设定是:成功的概率是20%,失败的概率是30%,保持不变的概率是50%。

  当你点下强化按钮的那一瞬间,系统只会读取你当前武器的状态是+10,然后套用这组固定的概率。它根本不会考虑你这把武器之前是连续失败又重头强化勉强回来的+10,还是运气爆棚一路从+1毫无阻碍升上来的+10。

  不管你的过去有多惨或者多走运,只要当前状态相同,下一步的概率分布就绝对一致,这在数学上也叫无记忆性。

  网球就很适合用这个方法分析。

  因为网球比赛的状态天然就是离散的,而且可以穷举。比如一盘比赛的比分是3比2,当前是谁在发球,这就是一个明确的状态。从这个状态出发,下一分发球方赢下的概率是多少,接发球方赢下的概率是多少,都可以通过历史数据直接统计。

  把所有可能的比分状态和对应的转移概率构建成一个状态转移网络,就能从任意一个比分开始,计算出最终谁赢下这一盘的概率。

  但问题是足球不太一样,球在球场上的位置是连续变化的,球员的站位也在不断变化,比赛的状态缺乏一个合适的定义方式。

  最直接的办法,是把球场切成若干个区域。

  比如把球场分成十二个格子,或者二十四个格子。每一个格子是一个状态。球在中圈附近是状态A、在对方禁区前沿是状态B、在对方禁区内是状态C。

  然后再用大量历史比赛数据去统计,球从A转移到B的概率是多少,从B转移到C的概率是多少,从C最终变成进球的概率是多少。

  这样一来,球场上的每一次传球、每一次推进,都可以被理解为一次状态转移。而从任何一个位置出发,最终产生进球的概率,也就可以通过这些转移概率计算出来。

  比如今天这场比赛。

  多普拉多在禁区前沿拿球的那一刻,模型就能告诉你,球在这个区域最终转化为进球的概率是5%。

  如果他下一步把球送进禁区,让球队处在一个更好的位置,进球概率可能就会从5%上升到20%。

  概念上好像说得通。

  但徐修治觉得这个思路非常不对劲。

  首先那个百分之五就不太对劲。

  这个数字是怎么来的?是从历史数据里统计出来的,过去几千场比赛里,球到了这个区域,最终变成进球的比例大约是百分之五。

  同样是在禁区前沿,球员面前只有一个门将,和面前站着三个后卫加上门将,进球概率能一样吗?同样是在这个区域,背身拿球准备转身,和面朝球门高速带球切入,能是同一个概率吗?

  这不可能一样。但如果只用区域来定义状态,这些区别全部被抹掉了。

  说白了,这种区域模型给出的只是历史上球到了这片草皮时的平均进球率。

  平均是一个很危险的词。

  它把所有不同的局面揉成了一个数字,然后告诉你这就是答案。但任何一个在场边站过九十分钟的教练都知道,足球比赛里不存在平均这种东西。每一次持球都是独一无二的,球员的位置、身体朝向、前方的防守密度、队友的跑位路线,这些东西每一秒都在变化,而且很难重复。

  用一个区域的历史平均值去代表所有这些不同的局面,在统计学上或许能自圆其说,但在足球的实际应用中,这个数字的参考价值就要打一个很大的折扣了。

  当然,如果把格子切得更细,精度会提高。但精度一高,状态数量就会暴增。如果再把球员位置、防守方站位这些变量也塞进去,模型整体就会膨胀到一个完全不可控的地步。十二个格子可能只有几百种状态组合,但如果切成一百个格子,状态数量可能轻松就突破几百万。

  这也是为什么他之前也有相似的想法,但一直没有认真往前推进。

  因为他直觉上觉得,这条路在粗颗粒度下不够准,在细颗粒度下又算不动。

  但如果有人已经在做了,那说明至少有人找到了某种折中的办法。

  他点开了马塔拉佐附的那个链接。

  网页加载得很慢,页面刷新了快一分钟才出来。

  是一个叫萨拉·拉德的人。

  网页看起来像是她的个人学术主页,非常简陋。上面列了她的教育背景和目前的研究方向,哥伦比亚大学计算机科学专业毕业,目前在微软工作,业余时间在做足球分析相关的独立研究。

  研究方向的描述只有一句话:用概率模型评估足球比赛中的进攻效率。

  没有论文链接,没有详细的方法描述,甚至连一篇摘要都没有。

  徐修治盯着那行简短得近乎敷衍的研究方向看了几秒,心里多少有些无奈。

  感觉马哥的人脉也不是很靠谱啊。

  然后他给马塔拉佐回了邮件。

  首先感谢他帮忙找到这条线索。

  随后他简单介绍了自己的情况,说目前在做一个球探分析软件,最近在考虑加入一个评估持球动作进攻价值的功能,思路上和马尔可夫链的状态转移有一些相通之处,但在数学方面遇到了一些困难。

  如果拉德方便的话,非常希望能有机会交流。

  随后点击发送。

  信号不太好,网页卡了很久。

  直到屏幕上跳出发送成功的提示,徐修治才把手机揣回口袋,重新靠回座椅。

章节目录
书友推荐: 港综开始,求法诸天 穿书np 你是我的 从全职法师开始的夜府 从唐砖开始的穿越 [网游]我无辜的好吗 四个大佬跪在我面前叫师父 我的她不会说话 错认太子为夫君后 爹地狠爱妈咪 狂剑武尊 重回八零把身翻 [重生崛起]男神帅炸天 原来他不是0 摄政王他不想和离 思念一个荒废的名字 盛夏1981 [穿越]鱼干女与口口日常 团宠崽崽掉马啦 白姨