Modérateur: Modos
neofoxy a écrit:En semi, il manque des couses ou bien je ne les trouve pas : le semi de Boulogne par exemple qui est normalement dans l'un des plus rapide.
Pour baser sur les résultats de courses il y a d'autres paramètres selon moi:
-le nombre de coureurs, car ils se gênent et plus il y en a plus la moyenne est basse normalement car plus elle est populaire plus les gens tentent des one shot.
Exemple: Il y a plus de coureurs au semi de Paris (35000) qu'au semi de Rueil (1600) qui sont à 1 semaine d'écart en général. Le premier à paris met 9 min de moins qu'à Rueil (pas de plateaux international à Rueil) mais la moyenne et la médiane sont plus basses à Rueil.
Un prorata sur le nombre de coureurs me parait nécessaire pour comparer.
Reste à savoir comment faire? Prendre les même coureurs dans les courses ou par recoupement ?
-Le temps/méteo du jour de la prise en compte, mais là c'est moins gérable.
neofoxy a écrit:En semi, il manque des couses ou bien je ne les trouve pas : le semi de Boulogne par exemple qui est normalement dans l'un des plus rapide.
ilgigrad a écrit:Prendre les mêmes coureurs induit des biais importants. Si on exclue l'homonymie (quand on selectionne mon nom par exemple, les resultats de trois coureurs differents apparaissent), il arrive que des dossards soient portés par d'autres que ceux qui se sont inscits, qu'un coureur accompagne un ami ou tout simplement qu'il realise une contre-perf.
Disposer de données "bruitées" n'est pas un problème puisqu'on peut légitimement supposer que la majorité des coureurs courent avec leur dossard en tentant d'optimiser ses performances. Cela est sans doute d'autant plus vrai qu'on restreint l'echantillon à ceux qui terminent un marathon en moins de trois heures par exemple. On peut ensuite vérifier dans quelle mesure les données associées à une queue de peloton collent avec celle de l'échantillon "moins de trois heures".
Bref on peut s'amuser avec ces données; j'ai sous la main quelques algorithmes de machine learning (regression, Knn et surtout de reseaux de neurones multi-couches) qui devraient permettre de trouver quelques correlations pertinentes et surtout de pouvoir s'essayer à quelques predictions de temps...
Mathias a écrit:neofoxy a écrit:En semi, il manque des couses ou bien je ne les trouve pas : le semi de Boulogne par exemple qui est normalement dans l'un des plus rapide.
Oui oui, c'est bien notre problème n°1 pour l'instant : augmenter la base de données de résultats.
Et pour cela, trouver des volontaires pour donner un coup de main, et surtout, améliorer le process !
neofoxy a écrit:On peut déja rapidement récupèrer des résultats du passé sur quelques sites d'organisateurs qui ont géneralement les résultats classés par années dans une certaine limite.
Si on a un pdf je ne sais pas ce qu'on peut facilement en faire.
Mais souvent ce sont des pages et des pages de classement en html et là c'est coton pour des grandes courses.
Mathias a écrit:neofoxy a écrit:On peut déja rapidement récupèrer des résultats du passé sur quelques sites d'organisateurs qui ont géneralement les résultats classés par années dans une certaine limite.
Si on a un pdf je ne sais pas ce qu'on peut facilement en faire.
Mais souvent ce sont des pages et des pages de classement en html et là c'est coton pour des grandes courses.
C'est bien là le soucis !
Pour l'instant, notre problème c'est plus le traitement des fichiers PDF (et même excel), mais pas trop l'approvisionnement en résultats... à ce jour nous avons 520 fichiers résultats en attente de traitement... !
Utilisateur(s) parcourant actuellement ce forum : Aucun utilisateur inscrit et 2 invité(s)
Accueil - Haut de page - Aide
- Contact
- Mentions légales
- Version mobile
- 0.01 sec
Kikouroù est un site de course à pied, trail, marathon. Vous trouvez des récits, résultats, photos, vidéos de course, un calendrier, un forum... Bonne visite !