Откуда берется статистика xG, обводок и эти ваши стрелочки?
Итак, поумничаем.
Футбольные данные можно разделить на четыре типа. Для простоты восприятия сравним их с измерениями.
1D! Одномерные
Классическая статистика матча/сезона из 90-х и 00-х. Вы смотрите матч и считаете удары, ставя палочки в тетрадке. На выходе какое-то число или таблица. Это одномерные данные. Дают базовое понимание о чем-то, но без детализации. Вы не знаете, что стоит за числами из таблицы: кто бил, на какой минуте, как именно.
2D
Почти вся продвинутая статистика, которуе вы видите, собирается из данных этого типа (в том числе и xG). На Whoscored, Sofascore, Fotmob, Understat, The Analyst и так далее.
В 99% случаев 2D-данные фиксируют действия с мячом – так называемые ивенты. В их основе, если упрощенно, большая таблица со строкой под каждое действие с мячом и примерно такие колонки: время события, координаты X и Y (в случае удара по воротам еще и Z – высота), тип события (удар, обводка, отбор, перехват, фол и так далее), кто совершил событие (в случае удара – отдельная строка для бьющего и отражающего, в случае отбора – отдельная для отбирающего и теряющего), плюс множество колонок с описанием игровой ситуации (событие при угловом, ауте, контратаке, штрафном, ударе от ворот и так далее).
Как это считается: раньше исключительно руками, сейчас, возможно, гибридно с использованием нейросетей. Да-да, есть некие люди, которые смотрят футбол и мышкой отмечают каждое действие с мячом: ставят координаты, выбирают номер игрока, определяют тип события.
Чтобы эти люди не сошли с ума, под действие не подпадает перекладывание мяча с ноги на ногу, а только большие события вроде паса, обводки, удара и так далее. Именно поэтому некорректно переводить touches как касания мяча. Касаний может быть гораздо больше, чем действий.
Иногда люди с мышками делают ошибки, особенно если речь о нетоповых чемпионатах. Например, неверно фиксируют координаты или игрока.
Аналогия: представьте подзорную трубу, направленную исключительно на мяч. Одновременно она может увидеть только двух игроков. Вот с ее помощью и собирают данные, которые называют продвинутыми.
Как это используется: почти все, что есть в этом канале, сделано на основе 2D-данных. Как и подавляющее большинство современных xG-моделей: берется точка на поле (координаты X и Y) и высчитывается, сколько ударов из нее превратились в голы. Сложность и точность модели xG зависит от того, сколько данных мы взяли, какой контекст учитываем. Контекст зависит от фантазии автора в пределах 2D-модели. Можно ничего не учитывать, можно учитывать игровую ситуацию, время владения мячом перед ударом, какое именно событие было за Х секунд до удара. Что-то из этого влияет на точность модели, что-то – нет.
Несмотря на ограниченность измерения, данные позволяют многое: посчитать голы в течение X секунд после аута, выброшенного из точки А в точку Б. Узнать, как часто обводка игрока приводит к голу в течение Х секунд. Посчитать, за сколько мяч доставляется от своих ворот до чужих. И много-много чего еще.
3D
Все то же самое, что и 2D, плюс теперь мы видим все поле (или значительную его часть). В табличке отображаются не только детали действия с мячом, но и положение остальных игроков.
Это очень сложные данные для сбора: человеком с мышкой не обойтись. Нужно использовать компьютерное зрение, которое не путает игроков команд с судьями или с мячом и аккуратно фиксирует параметры эпизода (координаты, время и так далее).
Эти данные не так просто обрабатывать, плюс они ограничены: не на каждый турнир можно найти качественную широкоформатную картинку.
Но если они есть, это богатство. Можно оценивать фитнес-показатели игроков, расстановку, свободные зоны и много чего еще. Например, просчитывать наиболее эффективное продолжение атаки (https://www.sports.ru/football/blogs/2852722.html)
Данные такого типа доступны ограниченному количеству клубов.
5D