您的位置:首页 >足球情报 >

切尔西球迷公认为大水货数据本身并不是复杂的运动

时间:2022-04-07 14:05:21 来源:网络整理

​​​​

若日尼奥在萨里的体系中扮演着举足轻重的角色,但他被切尔西球迷视为一个大平行线

数据本身并不是足球的一切

足球是一项复杂的运动。多年来,一种流行的观点认为,足球是一项过于复杂的运动,无法用枯燥、乏味、毫无生气的数字来描述。近年来,这样的话题已经有所消退——人们开始谈论更高级别的统计数据,例如比赛日的预期进球 (xG)。利物浦最近的出色表现也部分归功于他们招募的顶级数据分析人才。

当然,先进数据的出现并没有改变足球本身,它仍然是一项复杂的运动。到目前为止,数据本身仅用于表达意见或作为论据出现,因为它比描述性语言更简洁。这也是数据分析本身被广泛应用于足球(和其他项目)的根本原因,因为没有任何媒介可以更客观地支持(或反驳)某个球员或球队。看法。

对于足球来说,如果比赛的精彩片段可以更轻松地直播,并且转播商的版权限制不那么严格,那么足球界的数据分析可能会有新的发展。

数据本身可能是普通粉丝能拥有的最好的客观分析和评估工具,但这并不意味着我们应该将其奉为无可置疑的神。

首先,足球场上总有一些地方是单纯靠数据本身无法衡量的。例如:英超联赛中谁的先手触球最好?当然,分析师可以基于这个概念创建类似的指标,例如控球失误与队友传球的比率。根据fbref数据,我计算出阿斯顿维拉后卫比约恩·恩格斯(控球失误率最低0),利物浦的维吉尔·范维吉尔·范迪克的失误率0.1%,紧随其后。你能说说恩格斯是英超最有能力的?显然你看完比赛后不这么认为。

这个数据的问题在于他没有考虑传球的类型或球员接球的情况。伯恩茅斯的卡勒姆-威尔逊16%的“球对球失误”率是英超最高的。但他接球的时候显然比恩格斯承受的压力更大,而且他的接球位置更靠近对方禁区。

同时,还应考虑到球员的停车位置。在某些情况下,控球的难度接近于零,而在某些情况下,队友的传球让球员难以控球。传球的高度是“大腿,膝盖”,他们想要停球并不容易。在数据中,所谓控球失误的结果只分为“是”和“否”。因此,即使考虑到传球类型或情境因素,统计数据本身仍然不够精确,无法找出谁拥有最好的控球感。一些讨论更多的是交换意见,就像在这个例子中,仅从数据中很难得出准确的结论。

同样重要的是要指出,虽然我们认为某些公司收集的数据是“客观的”,但许多数据实际上(目前)是由人类手动收集的。因此,其中存在问题。既然是人工采集的,自然会有偏差,还会带入记录仪的不合理因素,有时记录仪也会出错。这会降低数据本身的客观性。因此,目前的足球数据总会有一些误差。无论足球分析系统多么先进,源数据本身的问题都会导致数据本身的失真。

数据的问题不仅仅是人为错误。某些概念的不同定义也可能导致数据收集过程中的错误。无论是 Opta 还是 Statsbomb 还是其他公司,他们在收集相关数据时,都必须按照公司对事件的定义进行分类。为什么要传球?什么是直通球?什么是承接?阻止和保存有什么区别?这些概念的分类不是非黑即白的最权威的足球数据,其中有很多歧义。

如果有人有兴趣深入挖掘数据分析早期给出的定义(足球或其他运动),他们会发现这些决定存在一定的主观性。数据本身从来都不是完全公正的,其中固有的主观性(无论是否有意)是数据收集过程中不可避免的一部分。

切尔西球迷公认为大水货数据本身并不是复杂的运动

当然,这并不意味着数据本身不可信。请注意,数据收集本身非常困难,并且由于数据收集过程中固有的主观性,这意味着关于数据的讨论永远不会完全客观和公正。

一些球员“数据不佳”但表现不错

有时候,一个球员的数据不好,直接导致外界对他的评价出现偏差。这是因为人们误读了数据本身。

以西汉姆联队的塞巴斯蒂安·哈勒为例,他本赛季在英超联赛中头球失败次数排名第二(187),但他赢了)。是英超最多的(186)。从不同的角度来看这个数据,很自然的分成两个阵营,一方认为他在顶战中的表现非常好,另一方持相反意见,这个数据最准确的解释应该是,哈勒参加过多次登顶之战,以英超前锋的标准来看,他的成功率非常高(根据smarterscout的评价标准,这个成功率可以99分中得到82分。 smarterscout 可以看作是FIFA对球员的真实比赛数据评分)。

此外,球员“数据不佳”的部分原因是表现指标没有考虑到他们在球场上的责任和角色。若日尼奥上赛季在毛里齐奥·萨里的带领下在切尔西几乎没有助攻。造成这种情况的原因有很多,但很少有人指出助攻不是若日尼奥的责任。

若日尼奥作为后期进攻组织者,更重要的是连接球队的防守和进攻,控制比赛节奏,将球传给负责创造进攻机会的球员。他的工作做得很好——他做得很好。若日尼奥上赛季参与了进球——不仅仅是进球和助攻,还有控球链中的所有球员——英超联赛中最多的。

切尔西球迷公认为大水货数据本身并不是复杂的运动

按照Opta的预期助攻模型,若日尼奥也有不少好球,平均来说他应该有5次助攻。球场上的真实表现会有运气因素,但球员的表现应该根据他的场上职责来评估。

也许本赛季的数据低估了他在球场上的表现的球员是谢菲尔德联队的大卫麦戈德里克。

是的,他本赛季的预期进球是6.2,但他本赛季还没有进过一球。如果单看他的进球能力,他早就应该被扫地出门了。麦戈德里克之所以能在克里斯怀尔德的阵容中立足,是因为他持续的无球进攻能力——联盟中没有一个前锋的防守比他做得更好——所以他是谢菲尔德联队中非常重要的一员。

数据不是一切

在一场足球比赛中分析数据就像在 90 分钟内洞悉场上 22 名球员的复杂性。

在足球运动中,你最常遇到的事情就是类似于球迷在场边大喊大叫,他们清楚地告诉你场上的情况(传球、传球、解围、接球、传球、射门、得分!)但很少有数据反映场上其他 21 名无球球员的价值(如果他们抢球,则为 20)。

切尔西球迷公认为大水货数据本身并不是复杂的运动

因此,如果我们专注于球上发生的事情,我们就会错过足球场上发生的许多其他事情。想象一下球员跑到对方防线的空位,防守型中场在阻止球传给前锋方面还有其他影响。在目前的数据收集水平上,数据并不能完全反映现场的一切。

当前足球统计数据的最大缺陷之一是无法正确衡量比赛防守端的价值。防守动作的次数(抢断、拦截、回球等)并不是一个防守者素质的有效指标,它只是告诉我们防守者的活跃程度,也反映了防守者和球队的防守风格。

正如我在足球数据分析的“十诫”中所写的那样,这些数字通常还受到球队控球率的影响。拥有更多控球权的球队拥有更少的防守时间。

阿斯顿维拉的泰隆·明斯每 1000 回合只有一次铲球,是英超所有中后卫中最低的。这个数字并不意味着他的防守不好,这只是意味着他在抢回球权方面并不积极。我们指的是他的位置,他实际上是本赛季英超所有后卫中盖帽次数最多的。别墅经理迪恩史密斯更喜欢在球门前使用他的位置作为盾牌,而不是离开防守重新获得控球权。

可能没有反映防守者真实水平的统计数据,但这些初始防守数据可能非常有用。查看防御者的最佳方法是将这些数据用作路线图,并查看防御者在特定情况下的表现。可能不是每次对手越过禁区,防守者都必须移动,但有经验的人可以很快告诉一个好的防守者应该如何表现。这些数据可以帮助球探教练更快地判断防守者在不同情况下的表现,从而对防守者的水平做出更准确的主观判断。

目前,防守球员的失误和礼物(包括对手射门或得分的机会)已经是有些主观的数据。本赛季除了门将之外,给对手送礼最多的球员是南安普顿的扬-贝德纳雷克,他的失误帮助南安普顿的对手再进了三个球。这些错误通常是极低级的,让对手嘲笑近乎不可能的情况。最常见的例子是当球员回传给守门员时太轻,被对方截断形成单手射门。

切尔西球迷公认为大水货数据本身并不是复杂的运动

这些错误很少见,而且频率可变,可能是随机的,也可能不是每个赛季一次,因此它们很难成为衡量防守球员表现的标准。理想的衡量标准应该是防守者的微妙(或没有)移动给对手得分机会的次数,这是一个更合理的衡量标准。

在被对方射门或得分的控球链中,防守往往是球员失误造成的连锁反应。可能是后卫弃守,失去了后卫,或者中场没有挡住对手的传球路线,或者球探发现了其他一些看不见的错误。这很好地说明了许多防守球员的水平并没有反映在所谓的防守数据中。他还需要前辈的肉眼才能发现。

也有可能,失球不仅仅是一名后卫的错,而是球队防守端一系列失误的结果。尽管如此最权威的足球数据,组合的比赛事件数据和雷达跟踪数据(它可以告诉我们所有球员、球和裁判在比赛中的任何特定时刻都在哪里)应该为回答这个问题和其他类似问题留出空间——但足球的复杂性它不止于此。

我们可以做一个思维测试。

假设一个数据提供者已经完全破解了足球比赛。他们可以收集你能想到的所有数据:所有球员的传球选项、他们随时的压力水平、是否抬头、队友何时开始、他们的鞋带是否松动——细节、一切所有数据都被收集.

有了这么多的数据,我们的问题不再是衡量什么,而是从数据中找到有用的指标。

其实,我们也不是无所不知、无所不能,我们观察到的游戏进度只是整体冰山一角,但对数据分析的要求并没有像往常一样发生变化。预期目标之所以近年来如此流行,是因为它既可以解释又可以预测未来——它揭示了我们之前的盲点。我们可以用它来推断未来的球员或球队的表现。

原文链接:/1763286/2020/04/23/bad-stats-but-good-player-analysis/​​​​


郑重声明:文章仅代表原作者观点,不代表本站立场;如有侵权、违规,可直接反馈本站,我们将会作修改或删除处理。
猜你喜欢