在像足球这样得分较低的体育项目中,评估球员表现很容易被诸如进球等宝贵事件的罕见发生所偏见。我们都熟悉这样的情况:一个球员连续进球,立刻引起球迷和媒体的广泛关注,但几周后却被遗忘在一旁,因为他的进攻陷入了干旱期。足球表现的话语通常非常不稳定,评判的转折和变化发生在忙碌的步调中,基于一些罕见、有点随机的结果。
因此很容易看出,像教练或体育总监这样的足球管理职位的人需要用尽可能客观和强大的绩效指标来决策。例如,在决定签约新前锋时,经理们会非常希望避免签约所谓的“一季度神话”,即上个赛季表现出色而惊人的球员,但在更长时间内他们的水平却大幅下降。球员进球多是因为他们经常处于危险情况下吗?还是他们主要尝试不太可能进球的射门,其中比平均水平更高的数量恰巧因为足球中充满了一定的运气而找到了网?
足球分析旨在缓解这些问题,利用详细的事件数据为比赛中的所有球员行动提供位置和上下文信息。我们可以将机器学习方法应用于这些拥有数百万数据点的大型数据集中,从而推导出将二元结果(如进球和助攻)转化为概率的统计模型,当正确解释和组合时,提供更客观的绩效度量。
其中最常用、最广泛的指标是预期进球(Expected Goals),通常简称为xG。预期进球通过为每个射门分配一个转化为进球的概率来衡量机会质量,该概率基于事件数据提供的上下文信息,其中最重要的信息是射门位置。例如,来自罚球区边缘附近的中央区域的典型射门价值约为0.1 xG。这意味着,平均而言,从这个位置和类似情况下射门的球员预计有10%的机会进球。
然而,需要注意的是,xG不能被解释为一个单个射门的实际进球预测。xG只有在聚合大量射门时才能具有显著的预测能力,例如在某个联赛的整个赛季中。对于单个射门,xG应被解释为机会质量的度量。例如,一支比对手产生更多xG的球队可能无法在个别比赛甚至一系列比赛中赢得三分,但是他们由xG测量的潜在表现意味着从长远来看,他们应该能够获得好的成绩。
在个人球员方面,每次射门的平均xG值表示球员在决定射门时的选择性。每次射门的xG值低于平均值表示球员会尝试许多远距离射门。相反,每次射门的高xG值通常是一个前锋在罚球区门的典型情况。
Soccerment的预期进球模型 Soccerment的xG是通过将逻辑回归模型应用于数十万次射门计算得出的,其中包括Opta详细事件数据提供的上下文信息。如上所述,模型中最重要的特征是射门位置,我们将其编码为进球距离和进球角度(射手与球门之间的角度)。其他重要因素包括助攻类型(例如穿透球,横传等)、比赛状态、射门身体部位(例如右脚或左脚)以及比赛模式(例如开球或定位球等)。点球是一个特殊情况,因为它们是在固定条件下发生的极其简单的事件,因此xG值是一个恒定值,设定为平均转化率,即我们数据集中的0.78。
预期助攻(Expected Assists,简称xA)是指每次传球成为进球助攻的概率,即传球球员帮助接球球员进球的可能性。该指标的目标是为成功为队友创造有价值的进球机会的创造性球员获得赞誉。
Soccerment的预期助攻模型 与预期进球(xG)不同的是,对于预期助攻的计算,尽管足球分析界在基本概念和指标目标方面的理解是一致的,但在计算方法上存在两种主要思路,可描述为“以射门为中心”或“以传球为中心”。
在第一种情况下,预期助攻仅分配给导致射门的传球,通过将射门的xG值归功于提供前一传球的球员来完成,因此不需要进一步的计算。这是大多数分析提供商采用的方法。在第二种情况下,一个单独的模型专注于所有完成的传球,计算每个传球成为进球助攻的概率,无论接球球员是否射门。
我们认为后一种方法更公平地将赞誉归因于创造性球员,通过将他们的传球输出与接球队友的决策和技巧分开,并简单地专注于他们是否能够成功地将球传递到危险的位置和情况。另一方面,它还防止了将过于低威胁的传球归功于传球球员的情况,即接球球员进行了困难的个人行动并形成高xG机会的情况。这种情况的一个显著例子是上赛季米兰德比中(因特尔米兰以0-3获胜)罗梅卢·卢卡库的进球。
佩里西奇从国际米兰的防守第三区域开出一记长传,卢卡库在中场圆圈接球,然后突破AC米兰的防线 xG的射门得分。几乎所有的分析提供商都会将0.11 xA的价值归功于佩里西奇的这次传球,但很明显,创造这个机会的功劳应该几乎完全归于卢卡库。相反,Soccerment的xA模型,鉴于传球本身的非威胁性质,将其分配为0.001的xA值,我们认为这更好地反映了该指标的精神。
我们的xA模型与xG模型一样,是使用Opta事件数据中的位置和上下文信息对数百万个完成的传球进行训练的逻辑回归。
我们可以通过结合xG和xA来衡量所有足球运动员的总进攻输出,评估他们的射门和创造性传球。为了完全衡量球员的个人贡献,我们可以从这个总值中减去他们所接收的xA,从而衡量球员相对于队友所接收的进攻价值。我们称这个新的指标为预期进攻增值(Expected Offensive Value Added,简称xOVA):
在我们看来,这个相当简单的指标提供了一个稳定的概述,评估了球员“积极改变”球权的能力,即提高球队得分的机会。毕竟,在接到传球后,球员可以做很多事情,包括带球跑,或者只是失去球;然而,球员最终的目标将是射门或将球传给位置更好的队友。这些射门和传球的选择质量反映在预期进球和预期助攻的总和中。
我们需要强调两个重要点:a)xOVA通过射门和传球衡量机会创造,而不是这些机会的实际结果;b)该指标只能通过以“以传球为中心”的预期助攻方法来计算,对于“以射门为中心”的xA,它将无法正常工作,这也是我们选择前者的原因之一。
从去年欧洲七大联赛的数据来看,我们发现P90基础上的最高进攻贡献者是亚特兰大的路易斯·穆里尔(Luis Muriel),他的非点球xG为0.81,xA提供了0.26,xA接收了0.35,xOVA为0.73。
上述xG模型代表了射门前的进球概率,即不考虑由射门所产生的球的最终位置。xG值相同,无论球是射门后正中门将的手中,还是被完美地打入球门的顶角。按构造方式,xG代表了平均射门位置技能的进球概率。
为了评估射手的射门技能,我们可以利用详细的Opta数据中包括的射门目标坐标,计算射门后的进球概率,我们称之为预期射门进球(Expected Goals on Target, xGoT)。与xG类似,这个指标是从我们数据集中数万个射正射门中的逻辑回归计算出来的,但预测特征更简单:原始的xG值,它编码了位置和情境信息,以及两个球门坐标(水平和垂直)。
xGoT和xG之间的差异衡量了射手的射门技巧,因为它代表了球员的射门相对于初始xG值增加了多少进球概率。这个指标称为射门进球增值(Shooting Goals Added,简称SGA)。需要注意的是,射门目标坐标仅适用于射正射门,而封堵的射门不包括在内,因此该模型不涵盖最初指向球门的所有射门,而只涵盖到达球门的那些,最终被扑出或进球。
我们可以比较SGA与xG的比值,以了解哪些球员通过他们的射门技巧最大程度地提高了进球概率。在2020/21赛季中,当考虑到至少有50次射正射门的球员时,毫不意外的是,利昂内尔·梅西(Lionel Messi)排名第一,拉齐奥的锋线手奇罗·伊莫比莱(Ciro Immobile)也进入了前十名。
xGoT 在衡量守门员技能方面有另一个非常有用的应用:挽救射门。如果一个守门员的失球数少于他们面对的总 xGoT 预期,这意味着他们能有效地扑救那些方向难以挽救的射门,或者来自非常危险的射门位置(即具有较高初始 xG 的位置)。因此,xGoT 面对的预期失球数与实际失球数之间的差异被称为挽救球门的进球数。
这个指标显示,扬·奥布拉克在精英足球中是迄今为止最好的扑救射门守门员,无论是在绝对意义上还是在归一化后,在自2017/18赛季以来,他挽救了34.87个进球(次高的雨果·洛里斯为26.59个),而且在面对的每个 xGoT 中,他挽救了0.28个进球(2020/21赛季为0.35)。
我们使用了传球数据集来构建一种传球完成概率模型,我们称之为预期传球或xPass。该模型是一个逻辑回归,使用了与xA模型类似的位置和上下文信息,但目标标签不是传球是否为助攻,而是它是否完成。
这个度量可以告诉我们一个球员是否在高风险的高回报传球方面始终具有比平均水平更高的成功率,这将导致完成传球和总预期传球之间的正差异。在2020/21赛季,这个度量中最顶尖的中场是皇家马德里的托尼·克罗斯,他的百分比xPass表现超过了5.19%。前10名中还包括巴黎圣日耳曼的马尔科·维拉蒂,他是意大利在2020年欧洲杯上取得成功的关键球员,也是过去一个赛季中每90分钟完成传球最多(93.72次)的球员。
在像足球这样得分较低的体育项目中,评估球员表现很容易被诸如进球等宝贵事件的罕见发生所偏见。我们都熟悉这样的情况:一个球员连续进球,立刻引起球迷和媒体的广泛关注,但几周后却被遗忘在一旁,因为他的进攻陷入了干旱期。足球表现的话语通常非常不稳定,评判的转折和变化发生在忙碌的步调中,基于一些罕见、有点随机的结果。
因此很容易看出,像教练或体育总监这样的足球管理职位的人需要用尽可能客观和强大的绩效指标来决策。例如,在决定签约新前锋时,经理们会非常希望避免签约所谓的“一季度神话”,即上个赛季表现出色而惊人的球员,但在更长时间内他们的水平却大幅下降。球员进球多是因为他们经常处于危险情况下吗?还是他们主要尝试不太可能进球的射门,其中比平均水平更高的数量恰巧因为足球中充满了一定的运气而找到了网?
足球分析旨在缓解这些问题,利用详细的事件数据为比赛中的所有球员行动提供位置和上下文信息。我们可以将机器学习方法应用于这些拥有数百万数据点的大型数据集中,从而推导出将二元结果(如进球和助攻)转化为概率的统计模型,当正确解释和组合时,提供更客观的绩效度量。
其中最常用、最广泛的指标是预期进球(Expected Goals),通常简称为xG。预期进球通过为每个射门分配一个转化为进球的概率来衡量机会质量,该概率基于事件数据提供的上下文信息,其中最重要的信息是射门位置。例如,来自罚球区边缘附近的中央区域的典型射门价值约为0.1 xG。这意味着,平均而言,从这个位置和类似情况下射门的球员预计有10%的机会进球。
然而,需要注意的是,xG不能被解释为一个单个射门的实际进球预测。xG只有在聚合大量射门时才能具有显著的预测能力,例如在某个联赛的整个赛季中。对于单个射门,xG应被解释为机会质量的度量。例如,一支比对手产生更多xG的球队可能无法在个别比赛甚至一系列比赛中赢得三分,但是他们由xG测量的潜在表现意味着从长远来看,他们应该能够获得好的成绩。
在个人球员方面,每次射门的平均xG值表示球员在决定射门时的选择性。每次射门的xG值低于平均值表示球员会尝试许多远距离射门。相反,每次射门的高xG值通常是一个前锋在罚球区门的典型情况。
Soccerment的预期进球模型 Soccerment的xG是通过将逻辑回归模型应用于数十万次射门计算得出的,其中包括Opta详细事件数据提供的上下文信息。如上所述,模型中最重要的特征是射门位置,我们将其编码为进球距离和进球角度(射手与球门之间的角度)。其他重要因素包括助攻类型(例如穿透球,横传等)、比赛状态、射门身体部位(例如右脚或左脚)以及比赛模式(例如开球或定位球等)。点球是一个特殊情况,因为它们是在固定条件下发生的极其简单的事件,因此xG值是一个恒定值,设定为平均转化率,即我们数据集中的0.78。
预期助攻(Expected Assists,简称xA)是指每次传球成为进球助攻的概率,即传球球员帮助接球球员进球的可能性。该指标的目标是为成功为队友创造有价值的进球机会的创造性球员获得赞誉。
Soccerment的预期助攻模型 与预期进球(xG)不同的是,对于预期助攻的计算,尽管足球分析界在基本概念和指标目标方面的理解是一致的,但在计算方法上存在两种主要思路,可描述为“以射门为中心”或“以传球为中心”。
在第一种情况下,预期助攻仅分配给导致射门的传球,通过将射门的xG值归功于提供前一传球的球员来完成,因此不需要进一步的计算。这是大多数分析提供商采用的方法。在第二种情况下,一个单独的模型专注于所有完成的传球,计算每个传球成为进球助攻的概率,无论接球球员是否射门。
我们认为后一种方法更公平地将赞誉归因于创造性球员,通过将他们的传球输出与接球队友的决策和技巧分开,并简单地专注于他们是否能够成功地将球传递到危险的位置和情况。另一方面,它还防止了将过于低威胁的传球归功于传球球员的情况,即接球球员进行了困难的个人行动并形成高xG机会的情况。这种情况的一个显著例子是上赛季米兰德比中(因特尔米兰以0-3获胜)罗梅卢·卢卡库的进球。
佩里西奇从国际米兰的防守第三区域开出一记长传,卢卡库在中场圆圈接球,然后突破AC米兰的防线 xG的射门得分。几乎所有的分析提供商都会将0.11 xA的价值归功于佩里西奇的这次传球,但很明显,创造这个机会的功劳应该几乎完全归于卢卡库。相反,Soccerment的xA模型,鉴于传球本身的非威胁性质,将其分配为0.001的xA值,我们认为这更好地反映了该指标的精神。
我们的xA模型与xG模型一样,是使用Opta事件数据中的位置和上下文信息对数百万个完成的传球进行训练的逻辑回归。
我们可以通过结合xG和xA来衡量所有足球运动员的总进攻输出,评估他们的射门和创造性传球。为了完全衡量球员的个人贡献,我们可以从这个总值中减去他们所接收的xA,从而衡量球员相对于队友所接收的进攻价值。我们称这个新的指标为预期进攻增值(Expected Offensive Value Added,简称xOVA):
在我们看来,这个相当简单的指标提供了一个稳定的概述,评估了球员“积极改变”球权的能力,即提高球队得分的机会。毕竟,在接到传球后,球员可以做很多事情,包括带球跑,或者只是失去球;然而,球员最终的目标将是射门或将球传给位置更好的队友。这些射门和传球的选择质量反映在预期进球和预期助攻的总和中。
我们需要强调两个重要点:a)xOVA通过射门和传球衡量机会创造,而不是这些机会的实际结果;b)该指标只能通过以“以传球为中心”的预期助攻方法来计算,对于“以射门为中心”的xA,它将无法正常工作,这也是我们选择前者的原因之一。
从去年欧洲七大联赛的数据来看,我们发现P90基础上的最高进攻贡献者是亚特兰大的路易斯·穆里尔(Luis Muriel),他的非点球xG为0.81,xA提供了0.26,xA接收了0.35,xOVA为0.73。
上述xG模型代表了射门前的进球概率,即不考虑由射门所产生的球的最终位置。xG值相同,无论球是射门后正中门将的手中,还是被完美地打入球门的顶角。按构造方式,xG代表了平均射门位置技能的进球概率。
为了评估射手的射门技能,我们可以利用详细的Opta数据中包括的射门目标坐标,计算射门后的进球概率,我们称之为预期射门进球(Expected Goals on Target, xGoT)。与xG类似,这个指标是从我们数据集中数万个射正射门中的逻辑回归计算出来的,但预测特征更简单:原始的xG值,它编码了位置和情境信息,以及两个球门坐标(水平和垂直)。
xGoT和xG之间的差异衡量了射手的射门技巧,因为它代表了球员的射门相对于初始xG值增加了多少进球概率。这个指标称为射门进球增值(Shooting Goals Added,简称SGA)。需要注意的是,射门目标坐标仅适用于射正射门,而封堵的射门不包括在内,因此该模型不涵盖最初指向球门的所有射门,而只涵盖到达球门的那些,最终被扑出或进球。
我们可以比较SGA与xG的比值,以了解哪些球员通过他们的射门技巧最大程度地提高了进球概率。在2020/21赛季中,当考虑到至少有50次射正射门的球员时,毫不意外的是,利昂内尔·梅西(Lionel Messi)排名第一,拉齐奥的锋线手奇罗·伊莫比莱(Ciro Immobile)也进入了前十名。
xGoT 在衡量守门员技能方面有另一个非常有用的应用:挽救射门。如果一个守门员的失球数少于他们面对的总 xGoT 预期,这意味着他们能有效地扑救那些方向难以挽救的射门,或者来自非常危险的射门位置(即具有较高初始 xG 的位置)。因此,xGoT 面对的预期失球数与实际失球数之间的差异被称为挽救球门的进球数。
这个指标显示,扬·奥布拉克在精英足球中是迄今为止最好的扑救射门守门员,无论是在绝对意义上还是在归一化后,在自2017/18赛季以来,他挽救了34.87个进球(次高的雨果·洛里斯为26.59个),而且在面对的每个 xGoT 中,他挽救了0.28个进球(2020/21赛季为0.35)。
我们使用了传球数据集来构建一种传球完成概率模型,我们称之为预期传球或xPass。该模型是一个逻辑回归,使用了与xA模型类似的位置和上下文信息,但目标标签不是传球是否为助攻,而是它是否完成。
这个度量可以告诉我们一个球员是否在高风险的高回报传球方面始终具有比平均水平更高的成功率,这将导致完成传球和总预期传球之间的正差异。在2020/21赛季,这个度量中最顶尖的中场是皇家马德里的托尼·克罗斯,他的百分比xPass表现超过了5.19%。前10名中还包括巴黎圣日耳曼的马尔科·维拉蒂,他是意大利在2020年欧洲杯上取得成功的关键球员,也是过去一个赛季中每90分钟完成传球最多(93.72次)的球员。
里面的有些知识比如xgot还有gp都很有意思,唯一的问题是xpass如何去掉不同队友跑位水平对成功率和贡献率的影响
里面的有些知识比如xgot还有gp都很有意思,唯一的问题是xpass如何去掉不同队友跑位水平对成功率和贡献率的影响
这个是lz写的吗?里面的有些知识比如xgot还有gp都很有意思,唯一的问题是xpass如何去掉不同队友跑位水平对成功率和贡献率的影响
里面的有些知识比如xgot还有gp都很有意思,唯一的问题是xpass如何去掉不同队友跑位水平对成功率和贡献率的影响
嗯现在的这些数据几乎都是把球员看作独立的个体,没有怎么考虑球员之间的影响
嗯现在的这些数据几乎都是把球员看作独立的个体,没有怎么考虑球员之间的影响
嗯现在的这些数据几乎都是把球员看作独立的个体,没有怎么考虑球员之间的影响
嗯现在的这些数据几乎都是把球员看作独立的个体,没有怎么考虑球员之间的影响
有个好奇的地方,为什么xPass最突出的前十名主要都是后腰呢?克罗斯,德容,布斯克茨,维拉蒂。虽然我也看到有利马这样的后卫,不过考虑到他能当半个后腰用也差不多。
预期进球、助攻和扑救都有比较明确的位置指向,但这个数据应该没有。是不是可以通过这个数据寻找优秀的组织后腰?
有个好奇的地方,为什么xPass最突出的前十名主要都是后腰呢?克罗斯,德容,布斯克茨,维拉蒂。虽然我也看到有利马这样的后卫,不过考虑到他能当半个后腰用也差不多。
预期进球、助攻和扑救都有比较明确的位置指向,但这个数据应该没有。是不是可以通过这个数据寻找优秀的组织后腰?
有个好奇的地方,为什么xPass最突出的前十名主要都是后腰呢?克罗斯,德容,布斯克茨,维拉蒂。虽然我也看到有利马这样的后卫,不过考虑到他能当半个后腰用也差不多。预期进球、助攻和扑救都有比较明确的位置指向,但这个数据应该没有。是不是可以通过这个数据寻找优秀的组织后腰?
有个好奇的地方,为什么xPass最突出的前十名主要都是后腰呢?克罗斯,德容,布斯克茨,维拉蒂。虽然我也看到有利马这样的后卫,不过考虑到他能当半个后腰用也差不多。
预期进球、助攻和扑救都有比较明确的位置指向,但这个数据应该没有。是不是可以通过这个数据寻找优秀的组织后腰?
这个xPass还是蛮复杂的,它说的应该是传球实际成功率-所有该情况传球的平均值,并用球场位置、传球距离、速度等信息加权以评估风险和收益。我猜测后腰位置上的传球还是占了计算方法的便宜,因为他们既不像前场球员那样传球成功率低,又不像后场球员那样传球风险和收益低。而且榜单里也确实是我们印象里最稳的传球手。
,其中这个表格里就是xPass模型用到的变量,跟文章里的模型可能不一样但应该大差不差。
这个xPass还是蛮复杂的,它说的应该是传球实际成功率-所有该情况传球的平均值,并用球场位置、传球距离、速度等信息加权以评估风险和收益。我猜测后腰位置上的传球还是占了计算方法的便宜,因为他们既不像前场球员那样传球成功率低,又不像后场球员那样传球风险和收益低。而且榜单里也确实是我们印象里最稳的传球手。
,其中这个表格里就是xPass模型用到的变量,跟文章里的模型可能不一样但应该大差不差。
这个xPass还是蛮复杂的,它说的应该是传球实际成功率-所有该情况传球的平均值,并用球场位置、传球距离、速度等信息加权以评估风险和收益。我猜测后腰位置上的传球还是占了计算方法的便宜,因为他们既不像前场球员那样传球成功率低,又不像后场球员那样传球风险和收益低。而且榜单里也确实是我们印象里最稳的传球手。
,其中这个表格里就是xPass模型用到的变量,跟文章里的模型可能不一样但应该大差不差。
这个xPass还是蛮复杂的,它说的应该是传球实际成功率-所有该情况传球的平均值,并用球场位置、传球距离、速度等信息加权以评估风险和收益。我猜测后腰位置上的传球还是占了计算方法的便宜,因为他们既不像前场球员那样传球成功率低,又不像后场球员那样传球风险和收益低。而且榜单里也确实是我们印象里最稳的传球手。
,其中这个表格里就是xPass模型用到的变量,跟文章里的模型可能不一样但应该大差不差。