Главная » Спорт и здоровье » Контекстная статистика: эксперимент в кустарных условиях продолжается

Контекстная статистика: эксперимент в кустарных условиях продолжается

Контекстная статистика: эксперимент в кустарных условиях продолжается

«Существует три вида лжи: ложь, наглая ложь и статистика», — этот бородатый афоризм, который приписывают Марку Твену, лично у меня вызывает противоречивые чувства.

С одной стороны, трактовка статистики – процесс в значительной степени творческий, и при желании и определенной сноровке подобрать какие-то цифры в обоснование готового тезиса (конечно, не заведомо абсурдного) не так уж и сложно. Обмануть статистикой, впрочем, вполне можно и без злого умысла – например, из-за неаккуратных допущений, негодных источников или собственной невнимательности.

Получается, ее правдивость и достоверность упирается в пресловутый человеческий фактор, и во многом определяется тем, насколько критично относится к ее сбору, анализу и восприятию каждый, кто в этой цепочке задействован. Так что статистика, конечно, совсем не тождественна лжи, хотя в качестве инструмента для манипуляций используется частенько.

Чтобы не стать жертвой обмана, нужно лишь подвергать разумным сомнениям информацию, которая к нам поступает, и пользоваться заслуживающими доверия источниками. А еще – не зацикливаться на статистике «мусорной», которая затуманивает мозги, обесценивая простые и интуитивно понятные истины.

Контекстная статистика: эксперимент в кустарных условиях продолжается

В последнюю пятилетку в футбольной статистике произошла настоящая революция, и некогда эпичные бубновские разборы ТТД в сравнении xG, Packing и прочими новомодными фичами выглядят телегой на фоне спорткара (как дань уважения мэтру — нехитрое оформление этого текста). Но использовать продвинутую статистику «в мирных целях» тоже следует с осторожностью, памятуя о ее недостатках и принятых допущениях.

Недостатки наиболее популярных xG-моделей известны – это и игнорирование ряда ключевых параметров игрового контекста (в частности, уровня сопротивления в момент нанесения удара, из-за чего по умолчанию обесцениваются, например, дальние выстрелы), и переоценка ударов с теоретически более выгодных позиций, которые на практике реальной голевой перспективы могли не иметь вовсе.

В моем понимании, уровень сопротивления, дистанция удара и его качество должны оцениваться в комплексе, в противном случае расчетная модель чрезмерно искажает реальность. Неочевидные и непрозрачные коэффициенты, в которых всецело учтена только одна из этих трех составляющих, становятся еще более мутными и непонятными.

Именно поэтому я по-прежнему опасаюсь с головой нырять в этот xG-омут и все еще не отказался от идеи развития контекстной модели, в которой ситуации с нулевой голевой перспективой «выводятся за скобки» и не подвергается анализу за ненадобностью. По очень приближенным оценкам, которые основаны на четырехлетней истории наблюдений и системного сбора контекстной статистики, такой перспективой обладают в лучшем случае 30% ситуаций с ударами. Стало быть, остальные 70% — это тот «мусор», который перерабатывает тот же xG (пусть даже коэффициенты на эти «мусорные» удары в большинстве случаев невысоки и в долгосрочной перспективе не влияют на общие тренды).

Контекстная статистика: эксперимент в кустарных условиях продолжается

При оценке игровых ситуаций на предмет голевой принадлежности фактор субъективизма неизбежно присутствует, хотя «пограничных» моментов, которые можно трактовать двояко, не так уж и много. Выработка алгоритмов и их последовательное применение на практике позволяет снизить субъективную составляющую измерительной погрешности, а послематчевые расшифровки голевых моментов, которые регулярно публикуются здесь в послематчевых текстах, делают процесс более прозрачным для стороннего наблюдателя.

Пару недель назад аудитория постоянных читателей этого блога перевалила за отметку в три тысячи – и это показатель доверия к этому блогу как к источнику информации. Со своей стороны хочется, чтобы объем этой информации динамично рос не в ущерб качеству – рассчитываю, что определенные подвижки в этом направлении произойдут в самое ближайшее время.

Процесс сбора контекстной статистики с детальным описанием атакующих цепочек, как ни крути, штука достаточно трудоемкая, и до сей поры охватывал только матчи российских топ-клубов – на большее элементарно не хватало времени. Но благодаря зимней паузе и очередному витку оптимизации «программного обеспечения» наконец-то появилась возможность отказаться от «дискриминации по клубному признаку», из-за которой картина нашего представления об РФПЛ была недостаточно объемной.

Несмотря на то, что серьезный интерес к командам «второго эшелона» есть преимущественно «по месту прописки», оценить их конструктивный потенциал в конкурентной борьбе (как в своей «весовой категории», так и на уровне «топ-тяжей») и найти в их рядах неочевидных столичному глазу претендентов на повышение – это уже совсем другая и куда более захватывающая история. Не обещаю добраться разве что до Хабаровска, но болельщики клубов с европейской территории России могут потихоньку запасаться попкорном.

Подробнее о базовой методике сбора данных в рамках рассматриваемой здесь контекстной статистической модели можно прочитать здесь.

Спасибо всем, кто не ленится читать «Инженерный подход», репостить, плюсовать и комментировать!

Подписывайтесь на блог, будет интересно.

Источник

О supergran

Оставить комментарий

Ваш email нигде не будет показанОбязательные для заполнения поля помечены *

*

x

Check Also

Для компании вести блог важно для привлечения клиентов

У вас накопилось много полезного опыта, которым вы хотите поделиться с другими пользователями. Естественно, конечная ...

Как улучшение клиентского сервиса поднимет ваши продажи на новый уровень?

Как улучшить клиентский сервис Всем понятно, что чем лучше клиентский сервис, тем успешнее бизнес. Всегда ...

Компании занимающиеся оформлениями мероприятий помогут создать атмосферу

Приближается праздник или торжественное мероприятие и вы хотите поздравить близкого человека заказав доставку цветов на ...

Стрейч пленка упакует всё что угодно

Нижний слой упаковки бывает разным. Для продуктов, которые рассчитаны на долгий срок хранения, используются либо ...

Сделать геологию участка должен каждый перед постройкой дома

Сделать геологию участка должен каждый загородный житель перед началом строительства. Эта процедура поможет правильно спланировать ...