足球技战术表现大数据分析

    刘鸿优+彭召方

    

    

    

    摘 要:對2014赛季中国足球协会超级联赛比赛中的技战术表现指标和比赛结果进行数学建模,对比赛技战术表现进行探讨。研究样本由240场比赛、480组技战术统计数据组成,研究变量包括3个进球射门相关变量、11个进攻组织相关变量和5个防守相关变量,以及1个比赛情境变量(主客场)。首先通过K型聚类分析法,对比分均衡的比赛进行界定;其次,对每一场比分均衡比赛中的每一项技战术表现指标数值与比赛结果进行广义线性模型创建,以界定比赛技战术表现指标与比赛获胜概率的线性关系;最后,采取数据级数推断法,对每一项技战术表现指标与比赛获胜概率线性关系的显著性进行界定。研究结果显示:(1)比分差距为0~2球的比赛为比分均衡的比赛;(2)进球射门相关变量中,每增加2个标准差的射门次数,球队获胜的概率可以增加16.3%(90%置信区间:±14.6%),而每增加2个标准差的射正次数,球队获胜的概率则可增加33.8%(±16.2%);(3)进攻组织相关变量中,增加2个标准差的传球、传球成功率和直塞可以为球队获胜概率带来21.6%(±15.9%)、27.3%(±17.7%)和16.9%(±22.9%)的增量,而增加2个标准差的被犯规次数则会导致球队获胜的概率下降25.4%(±18.6%);(4)防守相关变量中,每增加2个标准差的抢断次数可以提升14%(±13.6%)的获胜概率,而每增加1张红牌则会降低30.9%(±26.7%)的获胜概率;(5)在2014赛季中超联赛比分均衡的比赛中,主场比赛可以比在客场比赛获胜的概率高9.5%(±15.4%)。研究结果表明:广义线性模型可以对足球比赛中的各项比赛技战术表现指标与比赛胜负的因果关系进行有效的界定,从而可以用来判定哪些比赛技战术指标是比赛制胜指标。创建的模型提供的信息,可以运用于比赛表现评估、对手信息探测、选择和修改训练备战计划等足球运动实践中。

    关 键 词:竞赛与训练;足球技战术;大数据分析;广义线性模型;数据级数推断;制胜指标

    中图分类号:G843 文献标志码:A 文章编号:1006-7116(2017)02-0109-06

    A big data analysis of football technical and tactical performance

    ——Based on general linear model and magnitude-based inference

    LIU Hong-you,PENG Zhao-fang

    (School of Physical Education,South China Normal University,Guangzhou 510006,China)

    Abstract: The authors carried out mathematical modeling on the technical and tactical performance indexes and match results of Chinese Football Association Super League games in the game seasons of 2014, and analyzed and probed into match technical and tactical performance. The research samples consist of 240 matches and 480 groups of technical and tactical statistic data, while the research variables include goal correlated variables, 11 offense correlated variables, 5 defense correlated variables, and 1 game scenario variable (home or away). Firstly, the authors defined score balanced matches by means of cluster analysis method; secondly, the authors established a general linear model for every tactical performance index value and match result of every score balanced match, so as to define the linear relationship between match technical and tactical performance index and match winning probability; lastly, the authors defined the significance of linear relationship between every technical and tactical performance index and match winning probability by using magnitude-based inference. The research results show the followings: 1) the matches with a score difference of 2 goals or less are score balanced matches; 2) in goal correlated variables, every increase of standard deviation of 2 goal attempts, the team winning probability can increase by 16.3% (±90% confidence interval: ±14.6%), while every increase of standard deviation of 2 on-target goal attempts, the team winning probability increases by 33.8% (±16.2%); 3) in offense correlated variables, an increase of standard deviation of 2 passes, successful passes or through passes can bring an increase of 21.6% (±15.9%), 27.3% (±17.7%) and 16.9% (±22.9%) respectively to team winning possibility, while every increase of standard deviation of 2 fouled times, the team winning probability would decrease by 25.4% (±18.6%); 4) in defense correlated variables, every increase of standard deviation of 2 steals can increase the winning probability by 14% (±13.6%), while every increase of 1 red card would decrease the winning probability by 30.9% (±26.7%); 5) in the score balanced matches in Chinese Football Association Super League games in the game seasons of 2014, the winning probability of home matches can be 9.5% (±15.4%) higher than that of away matches.. The research results indicate the followings: the general linear model can effectively define the causal relationship between various match technical and tactical indexes and match winning or losing, thus can be used to determine which match technical and tactical indexes are match winning indexes. Information provided by the established model can be applied to football practice such as game performance evaluation, opponent information detection, selecting and revising training or game preparation plans, etc.

    Key words: competition and training;football technical and tactical performance;big data analysis;general linear model;magnitude-based inference;winning index

    足球技战术表现分析的研究是足球科研中最重要的方面之一,该类研究可以对足球运动员或运动队的技战术运用效果进行及时、客观、科学而全面的评价,为运动员或运动队认识和提升自身表现,为教练员选取、评估和改进训练与比赛计划提供实时有效的参考[1]。目前,相关研究已经得到了国外高水平职业足球队和俱乐部的广泛认可和使用[2-3]。

    足球技战术表现分析是指客观地记录与分析足球训练与比赛中的技战术行为与事件[4]。足球技战术表现分析研究可以定义为“运用具体数据反映训练和比赛技战术各方面、各环节及其作为体系的各组成部分之间的数量关系和特征的一种认识活动,是对比赛与训练活动系统调查的一种研究方法”[5]。由以上定义可知,足球技战术表现分析研究最核心的两个方面是“数据”和“数量关系”。

    随着电子信息技术和视频分析技术的高速发展,足球技战术表现分析数据的获得和更新都愈发便捷[3]。专业的足球比赛视频分析系统(如Amisco、OPTA、Sportsdata、Prozone等)可以产生海量的实时比赛数据,可以說足球技战术表现分析已经进入“大数据”时代[5]。然而,只是掌握了“大数据”而不能对其进行恰当的阐述与应用,必定会限制足球比赛表现分析的实践运用价值。最佳的解决方案是建立恰当的数学模型来界定足球技战术指标数值与足球比赛结果之间的因果关系[5]。

    遗憾的是,目前的足球技战术表现分析还主要停留在描述性和对比性研究层面,利用复杂数学模型来界定技战术表现相关变量(如比赛技战术指标等)与比赛结果变量(如比赛胜负、进球、晋级等)相互关系的研究相对欠缺[6]。广义线性模型(Generalized Linear Model)被认为是一个可以用来界定团体运动项目中的技战术表现相关变量与比赛结果变量相关关系的、非常有效的复杂数学模型[7-8]。目前,该模型极少被运用在足球技战术表现分析中[2]。

    在创建数学模型时,还应该考虑的一个问题是比赛的性质,即比分均衡(比分接近)的比赛和比分不均衡(大比分获胜或失利)的比赛[1-2,9]。在比分不均衡的比赛中,获胜一方极可能在所有的比赛技战术表现数据中全面优于失利的一方,而且比赛双方可能会因为比分悬殊、失去胜负悬念而不拿出最佳表现[2],因而,有必要对该两种不同性质的比赛进行界定。对比分均衡的比赛进行分析才能代表足球比赛表现的一般特征[1-2,9]。

    基于上述认识,本研究通过引入K型聚类分析法(K-means Cluster Analysis)、广义线性模型和数据级数推断法(Magnitude-based Inferences)对2014赛季中国足球协会超级联赛(以下简称2014赛季中超联赛)的所有参赛球队在所有比分均衡的比赛中的技战术表现指标和比赛结果进行数学建模,对其比赛技战术表现进行探讨,以期为足球技战术表现分析“大数据”的应用提供解决方案。

    1 研究方法

    1.1 样本和变量

    本研究的样本由2014赛季中超联赛的240场比赛、480组技战术统计数据组成。数据搜集自新浪、搜狐、网易、腾讯等公共网站,数据来源皆为“搜达足球”(Soda Soccer),而“搜达足球”的技术支持为全球权威的足球数据公司OPTA Sportsdata。LIU等[10]已经对OPTA公司搜集的足球实时数据信、效度进行了实验验证,其结果显示该公司的数据搜集系统(OPTA Client System)在搜集球队实时比赛数据时达到了足够高的组间一致性(Kappa系数介于0.86和0.94)。

    研究变量包括每支球队每场比赛的比赛结果(胜、平、负)、比赛场地(主客场)和每支球队每场比赛的技战术指标数据。基于数据可获得性,被选取的比赛技战术指标包括19个。参考相关文献[1-2,10-13],本研究对所有指标分为了3个组:进球射门相关变量(射门、射正、射偏)、进攻组织相关变量(控球率、传球、传球成功率、传中、传中成功率长传、直塞、被犯规、越位、角球、头球成功率)和防守相关变量(抢断、抢断成功率、犯规、黄牌、红牌)。

    1.2 数据统计

    第1步,通过K型聚类分析法,对比分均衡比赛和比分不均衡的比赛进行界定[1-2]。结果显示,净胜球多于2球的比赛为比分不均衡的比赛(净胜球3~6球,(3.51±0.70)球,共35场比赛),净胜球为0~2球的比赛为比分均衡的比赛((0.88±0.72)球,共205场比赛)。205场比分均衡的比赛的410组比赛技战术数据被导入到下一步分析中。

    第2步,对比赛技战术表现指标的数值进行标准化转换[2]。进球射门相关变量和进攻组织相关变量被标准化成本方球队50%控球率下的值:

    V标准值=(V原始值/P本方球队)×50%

    其中,V为某个变量的数值,P本方球队为本方球队的控球率。

    而防守相关变量则被标准化成对手球队50%控球率下的值:

    V标准值=(V原始值/P对手球队)×50%

    其中,V为某个变量的数值,P对手球队为对手球队的控球率。

    控球率、传球成功率、传中成功率、头球成功率和抢断成功率5个百分比变量不需要进行以上转换[2]。

    第3步,对每一场比分均衡比赛中的每一项技战术表现指标数值与比赛结果进行广义线性模型创建,以界定比赛技战术表现指标与比赛获胜概率的线性关系。广义线性模型中,以下模型被创建:

    ln(Odds)=a+bx+e

    其中,Odds=P/(1-P),P为球队获胜概率,x为某一项技战术表现指标数值,a、b、e为常数。

    根据该模型,可做出以下推导:

    假设当x=x0时,P0=50%,Odds0=P0/(1-P0)=1,ln(Odds0)=0=a+bx0+e

    当x1=x0+Δx时,

    ln(Odds1)=a+b(x0+Δx)+e=bΔx (1)

    當x2=x0–Δx时

    ln(Odds2)=a+b(x0-Δx)+e=-bΔx (2)

    (1)+(2)=>ln(Odds1)+ln(Odds2)=ln(Odds1×Odds2)=

    bΔx -bΔx= 0

    =>Odds1×Odds2=1

    =>[P1/(1-P1)]×[P2/(1-P2)]=1=>P1+P2=1

    =>OR=Odds Ratio=Odds1/Odds2=Odds1/(1/Odds1)=

    (Odds1)2=[P1/(1-P1)]2

    =>P1=1/(+1)

    P2=1-P1 =/(+1)

    =>P2 -P1=(-1/(+1)

    (1)-(2)=>ln(Odds1)-ln(Odds2)=ln(Odds1/Odds2)=

    ln(OR)=2bΔx

    =>OR=e2bΔx

    =>=ebΔx

    =>P2-P1=(+1)/(+1)=(ebΔx+1)/(ebΔx-1)

    当Δx=0.5时,P2–P1表示某球队的某一项技战术表现指标数值(x)变化一个单位时,该球队获胜概率的变化。当Δx=x的标准差(SD)时,P2–P1代表着某球队的某一项技战术表现指标数值,从一个典型的小数值(-SD)到一个典型的大数值(+SD):即增加2个标准差时,该球队的获胜概率的变化[2,7,14]。

    第4步,采取数据级数推断法,对每一项技战术表现指标与比赛获胜概率的线性关系的显著性进行界定。将每一项技战术表现指标数值的2个标准差(2SDs),代入第3步推导出来的公式中,可以计算出“2SDs”的增加,对获胜概率带来的变化值(增加或减少),且可计算概率变化值的90%置信区间。获胜概率变化值的显著性由“最小显著变化量”(Smallest Worthwhile Change)来判断[2,7,14]。足球比赛中,10%的获胜概率变化值被界定为“最小显著变化量”[2]。当某一项技战术表现指标数值增加2个标准差,带来的获胜概率变化值不同时包含正、负“最小显著变化量”(±10%)时,该指标与获胜概率变化的相关关系被定义为具有显著性。黄牌、红牌和主客场3个变量的2个标准差取值为“1”,即“2SDs =1”,这样可以计算出每多得一张黄牌、红牌,及主场比赛与客场比赛的获胜概率的变化值[2]。

    K型聚类分析和广义线性模型创建通过数据统计软件SPSS 20.0来完成。数量级数推断法由Excel 2007来计算完成。

    2 结果与讨论

    2014赛季中超联赛205场比分均衡的比赛中,平均每支球队每场比赛的技战术表现指标的原始数据和标准化数据如表1所示。

    图1展示了由本研究创建的广义线性模型推算出的2014赛季中超联赛比分均衡的比赛中各项比赛技战术变量与比赛结果的线性关系。由图1可见,增加射门次数(获胜概率变化值;±90%置信区间:16.3±14.6)、射正次数(33.8±16.2)、传球次数(21.6±15.9)、传球成功率(27.3±17.7)、直塞次数(16.9±22.9)和抢断次数(14.0±13.6)可以显著性地增加球队获胜概率;被犯规次数(-25.4±18.6)和红牌数(-30.9±26.7)的增加与球队获胜概率存在显著性负相关关系;增加头球成功率(-7.8±17.6)、抢断成功率(-6.9±14.8)、犯规次数(-4.6±13.9)和黄牌次数(0.5±5.6)对球队获胜概率的变化只造成显著性的微小差异;比赛情境变量主客场对比赛获胜概率能带来9.5%(±90%置信区间:±15.4)的增量;其他变量与球队获胜概率的相关关系则不显著。

    线性关系被表达为某一项比赛技战术变量增加2个标准差,对获胜概率带来的变化值。图1中的黑点,正值表示增加、负值表示减少。图1中误差线为变化值的90%置信区间,纵虚线表示“最小显著变化量”(Smallest Worthwhile Change,±10%)。

    虽然比赛胜负是评估足球比赛技战术表现的终极判定标准,但是比分的接近程度(即净胜球的多寡)依然可以为比赛技战术表现的评估提供额外的情境信息[2,7]。在比分悬殊的比赛中,可能会由于比赛结果早早失去悬念,获胜方球队为保存体力派上替补队员、失利方则放弃比赛,从而导致比赛表现并非双方真正实力的较量;而在比分接近的比赛中,由于面临比赛结果的不确定性,比赛双方都会拿出最佳表现来争取比赛胜利[1,2,9]。因此,本研究采取了K型聚类分析法对2014赛季中超联赛中比分均衡和比分不均衡的比赛进行了界定和划分。判定结果显示,比分差距为2球以下的比赛为比分均衡的比赛,3球以上的比赛为比分不均衡的比赛。这一结果与之前的关于欧洲足球冠军联赛和2014年巴西世界杯比赛的结果相同[1-2]。与之前的研究类似[1],本研究也只对比分均衡的比赛进行了进一步分析。

    射门、射正、射门得分率等进球射门相关变量,被之前的研究者认定为欧洲足球冠军联赛[1,15]、西班牙足球甲级联赛[16]和世界杯[2]比赛中区分获胜和失利球队的显著性指标。与前人的研究类似,本研究显示,在2014赛季中超联赛比分均衡的比赛中,每增加两个标准差的射门次数,球队获胜的概率可以增加16.3%,而每增加两个标准差的射正次数,球队获胜的概率则可增加33.8%。这一结果也印证了“射门质量比射门数量更能决定足球比赛结果”的说法[2,9,17]。

    进攻组织相关变量中,在2014赛季中超联赛比分均衡的比赛中增加2个标准差的传球、传球成功率和直塞可以为球队获胜概率带来21.6%、27.3%和16.9%的增量,而增加2个标准差的被犯规次数则会导致球队获胜的概率下降25.4%。尽管对于2014年巴西世界杯比赛的研究结果显示传球、传球成功率和直塞对足球比赛结果只带来微小的影响[2],与本研究结果大相径庭;但对德甲联赛的相关研究却显示,“传球次数”是仅次于“射门效率”和“射门次数”之后的第三重要决定比赛胜负的技战术指标[17]。本研究的结果可以解释为:在中超联赛比分均衡的比赛中,将球耐心地控制在脚下,尽可能避免被对手的犯规打断己方传球的连贯性,选择适当的时机尝试直塞球,是一种比赛制胜手段[9]。

    防守相关变量中,每增加两个标准差的抢断次数可以提升14%的获胜概率,而每增加1张红牌则会降低30.9%的获胜概率。这一研究結果与之前对2014年巴西世界杯比赛的研究结果一致[2]。足球比赛中的抢断,需要球员对动作时机和动作空间做出准确预判和选择[18],涉及到球员对皮球、对方球员的位置和速度以及对比赛环境的最佳感知状态[19]。因此,能完成更多的、合适的抢断往往能带来较高的获胜几率[2]。在足球比赛中得红牌会导致球队少一人应战,因而会在技战术表现和比赛心理等各方面给球队带来负面影响[20]。值得注意的是,之前的研究显示,黄牌次数的增加也与比赛失利存在相关性,因为球员会由于担心吃到第2张黄牌被罚下而影响自身心理,从而限制自身的防守表现[2,20]。本研究则显示,在2014赛季中超联赛比分均衡的比赛中增加黄牌次数,对足球比赛结果只带来微小的影响:0.5%的获胜概率变化。这一结果可以解读为:中超联赛运动员普遍不会因为吃到第1张黄牌而影响自身的比赛心理,从而并不会进一步限制自身的防守表现。

    足球比赛中,主场优势被认为是一个非常重要的比赛情境因素[5,11-12]。现场球迷助威、对场地的熟悉度、免于远征劳顿、球员心理优势以及裁判判罚偏向,都会造成主场球队的比赛技战术表现优于客场球队[12]。与之前的研究发现类似,本研究结果显示:在2014赛季中超联赛比分均衡的比赛中,在主场比赛可以比在客场比赛多9.5%的获胜概率。

    广义线性模型可以对足球比赛中的各项比赛技战术表现指标与比赛胜负的因果关系进行有效的界定,从而可以用来判定哪些比赛技战术指标是比赛制胜指标。创建的模型提供的信息,可以运用于比赛表现评估、对手信息探测、选择和修改训练备战计划等足球运动实践中。例如,本研究创建的模型显示,在2014赛季中超联赛比分均衡的比赛中增加传球、传球成功率和直塞可以提高球队获胜概率,而增加被犯规次数则会导致球队获胜的概率下降,因而可以说明:将球耐心地控制在自己脚下,尽可能避免被对手的犯规打断传球的连贯性,选择适当时机尝试直塞球,是一种比赛制胜手段。教练员可以根据研究结果采取适当的训练和比赛计划,以提高获胜概率。

    值得注意的是,本研究用来建模的比赛技战术指标都是从各公共门户网站搜集来的描述性常规比赛指标,因而会对研究结果的实际运用带来较大的局限性。将来的研究如果能够根据教练员的需求,根据他们要求的技战术指标进行实时模型创建,对比赛技战术表现进行分析,必定能为职业足球训练和比赛备战带来革命性变化。与此同时,其他的比赛情境因素(如比赛进程、比分领先、落后、比赛对手实力等)会对球队的技战术发挥造成很大的影响,如球队在比分领先时会相对压缩防守、在对阵实力较弱的对手时会采取相对进攻型打法。由于样本量的关系,这些情景因素并未被包括在当前研究中,这是本研究的不足与缺陷,将来的研究应该扩大样本量,进行相关研究。

    参考文献:

    [1] LIU H,YI Q,GIM?NEZ,et al. Performance profiles of football teams in the UEFA Champions League considering situational efficiency[J]. International Journal of Performance Analysis in Sport,2015,15(1):371-390.

    [2] LIU H,GOMEZ M A,SAMPAIO J,et al. Match statistics related to winning in the group stage of 2014 Brazil FIFA World Cup[J]. Journal of Sports Sciences,2015,33(12):1205-1217.

    [3] MACKENZIE R,CUSHION C. Performance analysis in football: a critical review and implications for future research [J]. Journal of Sports Sciences,2013,31(6):639-676.

    [4] CARLING C,WILLIAMS A M,REILLY T. The handbook of soccer match analysis[M]. Abingdon,UK:Routledge,2005.

    [5] 赵刚,部义峰,张丽. 足球运动表现研究进展、问题与趋势[J]. 中国体育科技,2014,50(4):25-32.

    [6] SARMENTO H,MARCELINO R,ANGUERA M T,et al. Match analysis in football:a systematic review [J]. Journal of Sports Sciences,2014,32(20):1831-1843.

    [7] HIGHAM D G.,HOPKINS W G,PYNE D B,et al. Performance indicators related to points scoring and winning in international rugby sevens[J]. Journal of Sports Science and Medicine,2014,13(2):358-364.

    [8] MALCATA R M,HOPKINS W G,RICHARDSON S. Modelling the Progression of Competitive Performance of an Academys Soccer Teams[J]. Journal of Sports Science and Medicine,2012,11(3):533-536.

    [9] LIU H. Evaluation on match performances of professional football players and teams under different situational conditions,in Faculty of Physical Activity and Sport Sciences[D]. Madrid:Technical University of Madrid,2015.

    [10] LIU H,HOPKINS W,G?MEZ M A,et al. Inter-operator reliability of live football match statistics from OPTA Sportsdata[J]. International Journal of Performance Analysis in Sport,2013,13(3):803-821.

    [11] 赵刚,陈超. 足球比赛表现研究方法和评价指标体系研究[J]. 体育科学,2015,35(4):72-81.

    [12] 劉鸿优,易清,康辉. 欧洲足球冠军联赛主场优势的判别分析[J]. 武汉体育学院学报,2014,48(11):91-95.

    [13] 刘鸿优,易清. 对欧洲足球四大联赛特征刻板印象的实证探究[J]. 中国体育科技,2014,50(5):34-37.

    [14] HOPKINS W G.,MARSHALL S,BATTERHAM A,et al. Progressive statistics for studies in sports medicine and exercise science[J]. Medicine and Science in Sports and Exercise,2009,41(1):3-13.

    [15] LAGO-PENAS C,LAGO-BALLESTEROS J,REY E. Differences in performance indicators between winning and losing teams in the UEFA champions league[J]. Journal of Human Kinetics,2011,27:137-148.

    [16] LAGO-PENAS C,LAGO-BALLESTEROS J,DELLAL A,et al. Game-related statistics that discriminated winning,drawing and losing teams from the spanish soccer league[J]. Journal of Sports Science and Medicine,2010,9(2):288-293.

    [17] YUE Z Y,BROICH H,MESTER J. Statistical analysis for the soccer matches of the First Bundesliga[J]. International Journal of Sports Science and Coaching,2014,9(3):553-560.

    [18] WILLIAMS A M. Perceptual skill in soccer:Implications for talent identification and development[J]. Journal of Sports Sciences,2000,18(9):737-750.

    [19] WILLIAMS A M. Perceptual-cognitive expertise,practice history profiles and recall performance in soccer[J]. British Journal of Psychology,2012,103:393-411.

    [20] BAR-ELI M,TENENBAUM G,GEISTER S. Consequences of players dismissal in professional soccer:a crisis-related analysis of group-size effects[J]. Journal of Sports Sciences,2006,24(10):1083-1094.