Adding preprocessing

2024-05-04 14:25:06 +02:00 · 2024-05-04 14:25:06 +02:00 · 37e9e6b129
commit 37e9e6b129
parent d3b4ded456
1 changed files with 134 additions and 0 deletions
--- a/02_preprocessing.R
+++ b/02_preprocessing.R
@ -0,0 +1,134 @@
 library(dplyr)
 library(tidyr)
 library(ggplot2)
 library(here)
 full <- read.csv(file.path(
    here(), "data",
    "aggregated_dataframe_suppdiplome.csv"
 ))
 full[["ine"]] <- as.factor(full[["ine"]])
 # full[["cours"]] <- as.factor(full[["cours"]])
 full[["ects"]] <- as.numeric(full[["ects"]])
 full[["annee"]] <- as.factor(full[["annee"]])
 full[["type_annee"]] <- as.factor(full[["type_annee"]])
 full[["bloc"]] <- as.factor(full[["bloc"]])
 # full[["parcours"]] <- as.factor(full[["parcours"]])
 # full[["domaine2A"]] <- as.factor(full[["domaine2A"]])
 # full[["dominante3A"]] <- as.factor(full[["dominante3A"]])
 working_copy <- full
 #  Correction des typos
 ##  Parcours
 ###  Suppression des NAs
 ine_missing_parcours <- unique(working_copy[is.na(working_copy[["parcours"]]), "ine"])
 message(
    "Il y a ",
    length(ine_missing_parcours),
    " étudiants qui n'ont pas de parcours renseignés et qui seront retirés."
 )
 missing_parcours <- which(working_copy[["ine"]] %in%
    unique(working_copy[is.na(working_copy[["parcours"]]), "ine"]))
 working_copy <- working_copy[-missing_parcours, ]
 message(
    "Après suppressions il reste ",
    nrow(working_copy[is.na(working_copy[["parcours"]]), ]),
    " étudiants qui n'ont pas de parcours renseignés"
 )
 ###  Renommage des parcours
 working_copy[grep(
    "Bio[-]?ingénierie moléculaire et cellulaire pour la santé",
    working_copy[["parcours"]]
 ), "parcours"] <- "Bioingénierie moléculaire et cellulaire pour la santé"
 working_copy[grep(
    "([[:alpha:]])*Construction libre dans l'offre proposée par AgroParisTech",
    working_copy[["parcours"]]
 ), "parcours"] <- "Construction libre dans l'offre proposée par AgroParisTech"
 working_copy[grep(
    "Bioraffineries  - chimie verte",
    working_copy[["parcours"]], fixed = TRUE
 ), "parcours"] <- "Bioraffinerie, chimie verte"
 working_copy[grep(
    "ingénierie des aliments",
    working_copy[["parcours"]],
    fixed = TRUE
 ), "parcours"] <- "Ingénierie des aliments"
 working_copy[grep(
    "Gestion des milieux naturels*",
    working_copy[["parcours"]]
 ), "parcours"] <- "Gestion des milieux naturels ouverts et boisés"
 working_copy[grep(
    "*Santé, aliments et bioproduits",
    working_copy[["parcours"]]
 ), "parcours"] <- "Santé, aliments et bioproduits"
 working_copy[["parcours"]] <- as.factor(working_copy[["parcours"]])
 ## Domaine
 if (length(unique(working_copy[["domaine2A"]])) == 6L) {
    message("Les domaines sont déjà propres.")
 } else {
    stop("Il faut nettoyer les domaines !")
 }
 ## Dominante
 ###  Suppression des NAs
 ine_missing_dominante <- unique(working_copy[is.na(working_copy[["dominante3A"]]), "ine"])
 message(
    "Il y a ",
    length(ine_missing_dominante),
    " étudiants qui n'ont pas de parcours renseignés et qui seront retirés."
 )
 missing_dominante <- which(working_copy[["ine"]] %in%
    unique(working_copy[is.na(working_copy[["dominante3A"]]), "ine"]))
 working_copy <- working_copy[-missing_dominante, ]
 message(
    "Après suppressions il reste ",
    nrow(working_copy[is.na(working_copy[["dominante3A"]]), ]),
    " étudiants qui n'ont pas de dominantes renseignées"
 )
 # grep(pattern = "M[1-2]{1}|Master", x = unique(working_copy[["dominante3A"]]),
 #     value = TRUE, invert = TRUE)
 ## Correction mauvais noms de cours
 working_copy[grep(
    "Initiation au métier de la recherche",
    working_copy[["cours"]], fixed = TRUE
 ), "cours"] <- "Initiation aux métiers de la recherche"
 working_copy[grep(
    "Initiation au métier de la recherche",
    working_copy[["cours"]], fixed = TRUE
 ), "cours"] <- "Initiation aux métiers de la recherche"
 # Importation détails séquences
 data_sequence <- read.csv(file.path(
    here(), "data",
    "details-sequence-nettoyes.csv"
 ))
 joined_data <- full_join(working_copy, data_sequence, by = "cours")
 non_matches <- unique(joined_data[is.na(joined_data[["code_cours"]]) & grepl("(MODULE INTEGRATIF|UE à choix*)", joined_data[["bloc"]]),][c("cours", "bloc")])
 write.csv(non_matches, file = 
    file.path(here(), "data", "non-matche.csv"))