Le marathon le plus roulant ? Et autres statistiques...

par **Mathias** » 25 Jan 2017, 15:24

Salut,

La question est classique : "quel est le marathon le plus roulant ?".
Avec ses variantes, comme par exemple : "Quel est le kilomètre vertical le plus propice à la perf ?".

On est nombreux à se poser ce genre de questions...
Par exemple ici, ici et encore ici.

J'ai créé une page de stats sur les résultats de quelques catégories de courses (marathon, semi, 10km, 100km, KMV, 100 miles).

Bon, on manque encore un peu de matière (les résultats des grands marathons sont délicats à récupérer et à enregistrer sur Kikouroù), et les stats révèlent pas mal de bugs dans les résultats (exemple des KMV ultra rapides en 20 minutes ;-)

).

Mon idée c'était d'aller un peu plus loin que de simples calculs de min, max, moyenne, etc., notamment en approfondissant la comparaison de 2 courses, pour mieux comprendre ce qui se cache derrière les moyennes.

La principale difficulté pour pouvoir avancer ce travail, c'est de disposer de plus de résultats.
Et pour pouvoir enregistrer plus de résultats, on a besoin :
- de mettre en place des outils de correction des erreurs,
- (peut être) d'améliorer la procédure d'enregistrement des résultats,
- et surtout, d'un coup de main pour gérer l'enregistrement des résultats, WE après WE.

Si vous êtes intéressé, et si vous êtes familier d'Excel (ou encore mieux : un langage de programmation, des expressions régulières...), n'hésitez pas à proposer un coup de main ici !

à+
Mathias

par **cloclo** » 25 Jan 2017, 15:52

Faudrait embaucher Rodio :roll:

par **Robineto33** » 26 Jan 2017, 20:32

regarde du côté de Francfort, tu ne devrais pas être loin de la première place...

par **neofoxy** » 21 Avr 2017, 15:20

En semi, il manque des couses ou bien je ne les trouve pas : le semi de Boulogne par exemple qui est normalement dans l'un des plus rapide.
Pour baser sur les résultats de courses il y a d'autres paramètres selon moi:
-le nombre de coureurs, car ils se gênent et plus il y en a plus la moyenne est basse normalement car plus elle est populaire plus les gens tentent des one shot.
Exemple: Il y a plus de coureurs au semi de Paris (35000) qu'au semi de Rueil (1600) qui sont à 1 semaine d'écart en général. Le premier à paris met 9 min de moins qu'à Rueil (pas de plateaux international à Rueil) mais la moyenne et la médiane sont plus basses à Rueil.
Un prorata sur le nombre de coureurs me parait nécessaire pour comparer.
Reste à savoir comment faire? Prendre les même coureurs dans les courses ou par recoupement ?
-Le temps/méteo du jour de la prise en compte, mais là c'est moins gérable.

par **ilgigrad** » 22 Avr 2017, 08:45

neofoxy a écrit:En semi, il manque des couses ou bien je ne les trouve pas : le semi de Boulogne par exemple qui est normalement dans l'un des plus rapide.
Pour baser sur les résultats de courses il y a d'autres paramètres selon moi:
-le nombre de coureurs, car ils se gênent et plus il y en a plus la moyenne est basse normalement car plus elle est populaire plus les gens tentent des one shot.
Exemple: Il y a plus de coureurs au semi de Paris (35000) qu'au semi de Rueil (1600) qui sont à 1 semaine d'écart en général. Le premier à paris met 9 min de moins qu'à Rueil (pas de plateaux international à Rueil) mais la moyenne et la médiane sont plus basses à Rueil.
Un prorata sur le nombre de coureurs me parait nécessaire pour comparer.
Reste à savoir comment faire? Prendre les même coureurs dans les courses ou par recoupement ?
-Le temps/méteo du jour de la prise en compte, mais là c'est moins gérable.

Prendre les mêmes coureurs induit des biais importants. Si on exclue l'homonymie (quand on selectionne mon nom par exemple, les resultats de trois coureurs differents apparaissent), il arrive que des dossards soient portés par d'autres que ceux qui se sont inscits, qu'un coureur accompagne un ami ou tout simplement qu'il realise une contre-perf.
Disposer de données "bruitées" n'est pas un problème puisqu'on peut légitimement supposer que la majorité des coureurs courent avec leur dossard en tentant d'optimiser ses performances. Cela est sans doute d'autant plus vrai qu'on restreint l'echantillon à ceux qui terminent un marathon en moins de trois heures par exemple. On peut ensuite vérifier dans quelle mesure les données associées à une queue de peloton collent avec celle de l'échantillon "moins de trois heures".
Bref on peut s'amuser avec ces données; j'ai sous la main quelques algorithmes de machine learning (regression, Knn et surtout de reseaux de neurones multi-couches) qui devraient permettre de trouver quelques correlations pertinentes et surtout de pouvoir s'essayer à quelques predictions de temps...

par **Mathias** » 03 Juil 2017, 16:59

neofoxy a écrit:En semi, il manque des couses ou bien je ne les trouve pas : le semi de Boulogne par exemple qui est normalement dans l'un des plus rapide.

Oui oui, c'est bien notre problème n°1 pour l'instant : augmenter la base de données de résultats.
Et pour cela, trouver des volontaires pour donner un coup de main, et surtout, améliorer le process !

par **Mathias** » 03 Juil 2017, 17:02

ilgigrad a écrit:Prendre les mêmes coureurs induit des biais importants. Si on exclue l'homonymie (quand on selectionne mon nom par exemple, les resultats de trois coureurs differents apparaissent), il arrive que des dossards soient portés par d'autres que ceux qui se sont inscits, qu'un coureur accompagne un ami ou tout simplement qu'il realise une contre-perf.
Disposer de données "bruitées" n'est pas un problème puisqu'on peut légitimement supposer que la majorité des coureurs courent avec leur dossard en tentant d'optimiser ses performances. Cela est sans doute d'autant plus vrai qu'on restreint l'echantillon à ceux qui terminent un marathon en moins de trois heures par exemple. On peut ensuite vérifier dans quelle mesure les données associées à une queue de peloton collent avec celle de l'échantillon "moins de trois heures".
Bref on peut s'amuser avec ces données; j'ai sous la main quelques algorithmes de machine learning (regression, Knn et surtout de reseaux de neurones multi-couches) qui devraient permettre de trouver quelques correlations pertinentes et surtout de pouvoir s'essayer à quelques predictions de temps...

Oui on va forcément avoir un (gros) pb de bruit...
Mais ça se gère.

ça m'intéresse si tu as envie de te pencher sur la question (quels algos et pour quoi faire), ceci dit comme je viens de l'écrire, on a d'abord un pb de quantité de résultats !
Pour les réseaux de neurones multi-couches, je n'y crois pas trop, il faudrait une quantité de données phénoménale, non ? Il y a sans doute des choses plus simples à faire, avant...

par **neofoxy** » 03 Juil 2017, 20:04

Mathias a écrit:
neofoxy a écrit:En semi, il manque des couses ou bien je ne les trouve pas : le semi de Boulogne par exemple qui est normalement dans l'un des plus rapide.

Oui oui, c'est bien notre problème n°1 pour l'instant : augmenter la base de données de résultats.
Et pour cela, trouver des volontaires pour donner un coup de main, et surtout, améliorer le process !

On peut déja rapidement récupèrer des résultats du passé sur quelques sites d'organisateurs qui ont géneralement les résultats classés par années dans une certaine limite.
Si on a un pdf je ne sais pas ce qu'on peut facilement en faire.
Mais souvent ce sont des pages et des pages de classement en html et là c'est coton pour des grandes courses.

par **Mathias** » 03 Juil 2017, 21:41

neofoxy a écrit:On peut déja rapidement récupèrer des résultats du passé sur quelques sites d'organisateurs qui ont géneralement les résultats classés par années dans une certaine limite.
Si on a un pdf je ne sais pas ce qu'on peut facilement en faire.
Mais souvent ce sont des pages et des pages de classement en html et là c'est coton pour des grandes courses.

C'est bien là le soucis !

Pour l'instant, notre problème c'est plus le traitement des fichiers PDF (et même excel), mais pas trop l'approvisionnement en résultats... à ce jour nous avons 520 fichiers résultats en attente de traitement... !

par **neofoxy** » 03 Juil 2017, 21:48

Mathias a écrit:
neofoxy a écrit:On peut déja rapidement récupèrer des résultats du passé sur quelques sites d'organisateurs qui ont géneralement les résultats classés par années dans une certaine limite.
Si on a un pdf je ne sais pas ce qu'on peut facilement en faire.
Mais souvent ce sont des pages et des pages de classement en html et là c'est coton pour des grandes courses.

C'est bien là le soucis !

Pour l'instant, notre problème c'est plus le traitement des fichiers PDF (et même excel), mais pas trop l'approvisionnement en résultats... à ce jour nous avons 520 fichiers résultats en attente de traitement... !

Il faut une forme particulière?

par **Mathias** » 03 Juil 2017, 21:51

neofoxy a écrit:Il faut une forme particulière?

Les explications sont ici (résultats) et ici (enregistrement des résultats).

par **petit franck** » 04 Juil 2017, 06:09

Le marathon le moins roulant mais ke plus beau de France ca doit être la montagn hard avec 42 kms a faire en moins de 10 heures juste la ca paraitfacile par contre il y a 4000 metres de dénivelé

Bonne journée

Franck derrien

par **Kirikih95** » 04 Juil 2017, 14:53

coucou, je suis nouvelle

j'adorerais en savoir plus sur ce forum et j'aimerais bien me faire de nouvelles amies

merci déjà de votre aimable accueil

Le marathon le plus roulant ? Et autres statistiques...

Le marathon le plus roulant ? Et autres statistiques...

Re: Le marathon le plus roulant ? Et autres statistiques...

Re: Le marathon le plus roulant ? Et autres statistiques...

Re: Le marathon le plus roulant ? Et autres statistiques...

Re: Le marathon le plus roulant ? Et autres statistiques...

Re: Le marathon le plus roulant ? Et autres statistiques...

Re: Le marathon le plus roulant ? Et autres statistiques...

Re: Le marathon le plus roulant ? Et autres statistiques...

Re: Le marathon le plus roulant ? Et autres statistiques...

Re: Le marathon le plus roulant ? Et autres statistiques...

Re: Le marathon le plus roulant ? Et autres statistiques...

Re: Le marathon le plus roulant ? Et autres statistiques...

Re:presentation

Qui est en ligne ?