Fichier pour paramétrisation
Nous vous laissons un fichier d’exemple contenant 1 500 billets, que vous
pouvez utiliser comme bon vous semble pour paramétrer votre
algorithme. Parmi ces 1 500 billets, 1 000 sont vrais et 500 sont faux ; une
colonne a été ajoutée pour vous préciser la nature du billet.
Dans un premier temps, nous souhaitons avoir une analyse descriptive des
données, notamment la répartition des dimensions des billets, le nombre
de vrais / faux billets, etc.
Algorithme
Langage
L’algorithme peut être écrit soit en Python, soit en R : le choix est laissé
libre au consultant chargé de sa réalisation.
Fonctionnement général
Comme vu précédemment, nous avons à notre disposition six données
géométriques pour chaque billet. L’algorithme devra donc être capable de
prendre en entrée un fichier contenant les dimensions de plusieurs billets,
et de déterminer le type de chacun d’entre eux, à partir des seules
dimensions. Nous fournissons à ce sujet le format type de nos fichiers de
billets avec lequel l’algorithme sera censé fonctionner, au sein d’un fichier
nommé billets_production.csv.
Nous aimerions pouvoir mettre en concurrence deux méthodes de
prédiction :
● une régression logistique classique ;
● un k-means, duquel seront utilisés les centroïdes pour réaliser la
prédiction.
Cet algorithme se devra d’être naturellement le plus performant possible
pour identifier un maximum de faux billets au sein de la masse de billets
analysés chaque jour.