Init

2024-04-29 16:48:50 +02:00 · 2024-04-29 16:48:50 +02:00 · 94b4e8f836
commit 94b4e8f836
4 changed files with 290 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@ -0,0 +1 @@
 data/
--- a/.lintr
+++ b/.lintr
@ -0,0 +1,4 @@
 linters: linters_with_tags(tags = c("readability", "best_practices", 
    "common_mistakes"), 
    indentation_linter(indent = 4L)) # see vignette("lintr")
 encoding: "UTF-8"
--- a/APT_PARCOURS.R
+++ b/APT_PARCOURS.R
@ -0,0 +1,151 @@
 library(dplyr)
 # Charger les données avec deux colonnes
 df_APT<- read.csv("Downloads/Suppl.csv", 
                            sep= ";",
                            encoding = "UTF-8",
                            # header = TRUE,
                            na.strings = T,
                            dec=","
 )
 ## Enlever les lignes et colonnes vides 
 fun_enlever_lignes_vides <- function(df) {
  df <-filter(df,!(df$parcelle_id==""))
 }
 df_APT <- df_APT[!apply(is.na(df_APT) | df_APT == "", 1, all), ]
 df_APT <- df_APT[, 1:2]
 df_APT <- df_APT[!grepl("\\d", df_APT[,2]), ]
 ## Enlever les accents
 df_APT_sans_accents <- df_APT
 df_APT_sans_accents[,1] <- iconv(df_APT[,1], "UTF-8", "ASCII", sub = "")
 df_APT_sans_accents[,2] <- iconv(df_APT[,2], "UTF-8", "ASCII", sub = "")
 df_APT  <- df_APT_sans_accents
 ## Copier les noms dans la colonne 2 jusqu'à un nouveau nom
 df_APT <- df_APT
 for (i in 2:nrow(df_APT)) {
  if (df_APT[i, 2] == "") {
    df_APT[i, 2] <- df_APT[i - 1, 2]
  }
 }
 ## Identifier les apprentis et créer 2 df apprentis et initaux car différents
 df_APT$apprenti <- NA
 df_APT$apprenti[df_APT$X == "Accompagnement des apprentis"] <- "apprenti"
 df_APT$apprenti[df_APT$X == "Priodes d'apprentissage en entreprise, semestre 1"] <- "apprenti" # cas des 2A faux apprentis
 df_APT <- df_APT %>%
  group_by(X.1) %>%
  mutate(apprenti = ifelse("apprenti" %in% apprenti, "apprenti", apprenti))
 df_APT$apprenti <- ifelse(is.na(df_APT$apprenti), "non-apprenti", df_APT$apprenti)
 df_APT_apprenti <- df_APT[df_APT$apprenti == "apprenti", ]
 df_APT_initiaux <- df_APT[df_APT$apprenti != "apprenti", ]
 # Liste des termes à exclure
 termes_a_exclure <- c("Ing - 1A", "Intitul du cours", "Approche professionnelle et sectorielle", "Approches des domaines", "Enjeux et dfis des sciences et technologies du vivant et de l'environnement", "Communication", "La recherche d'informations en sciences du vivant")
 # Filtrer les lignes qui ne contiennent pas les termes spécifiés dans la colonne "X"
 df_final <- df_APT_initiaux %>%
  filter(!X %in% termes_a_exclure)
 # Afficher le résultat final
 print(df_final)
 ## Les approches domaines de 1A
 index_approches_domaines <- which(df_APT_initiaux[, 1] == "Approches des domaines")
 lignes_a_garder <- list()
 for (i in index_approches_domaines) {
  lignes_a_garder[[i]] <- c((i - 4):(i - 1))
 }
 df_APT_final <- df_APT_initiaux[-unlist(lignes_a_garder), ]
 ## Les MODULE INTEGRATIF de 1A
 index_approches_domaines <- which(df_APT_final[, 1] == "MODULE INTEGRATIF")
 lignes_a_garder <- list()
 for (i in index_approches_domaines) {
  lignes_a_garder[[i]] <- c((i - 12):(i - 1))
 }
 df_APT_final <- df_APT_final[-unlist(lignes_a_garder), ]
 ## DOMINANTE
 index_approches_domaines <- which(df_APT_final[, 1] == "Ing - 2A")
 lignes_a_garder <- list()
 for (i in index_approches_domaines) {
  lignes_a_garder[[i]] <- c((i - 44):(i - 1))
 }
 df_APT_final <- df_APT_final[-unlist(lignes_a_garder), ]
 ## LES UC à choix 2 A
 index_approches_domaines <- which(df_APT_final[, 1] == "UE  choix Semestre 1")
 lignes_a_garder <- list()
 for (i in index_approches_domaines) {
  lignes_a_garder[[i]] <- c((i - 34):(i - 1))
 }
 df_APT_final <- df_APT_final[-unlist(lignes_a_garder), ]
 ## LA SPE 3 A
 index_approches_domaines <- which(df_APT_final[, 1] == "Ing - 3A")
 lignes_a_garder <- list()
 for (i in index_approches_domaines) {
  lignes_a_garder[[i]] <- c((i - 3):(i - 1))
 }
 test <- df_APT_final[-unlist(lignes_a_garder), ]
--- a/extract_data.R
+++ b/extract_data.R
@ -0,0 +1,134 @@
 library(readxl)
 library(dplyr)
 library(tidyr)
 # Supplement_diplome-1.xls ligne 4
 ligne_prenom <- 5
 colonne_prenom <- 50
 folder_path <- file.path("data", "Bulletins promotion 2023")
 df <- do.call("rbind", lapply(list.files(folder_path), function(filename) {
    current_data <- as.data.frame(read_excel(file.path(folder_path, filename), sheet = 1L, col_names = FALSE))
    if (ncol(current_data) == 63L) {
        return(current_data)
    }
 }))
 indices_numero_ine <- which(df == "Numéro INE", arr.ind = TRUE)
 decalage_ine <- c(1, 6)
 #  Indices Total ECTS validés
 which(df == "Total Ects validés", arr.ind = TRUE)
 #  Indices Ing - 1A
 indices_cours_Ing_1A <- which(df == "Ing - 1A", arr.ind = TRUE)
 indices_cours_Ing_2A <- which(df == "Ing - 2A", arr.ind = TRUE)
 indices_cours_Ing_3A <- which(df == "Ing - 3A", arr.ind = TRUE)
 indices_stage_fin_etude <- which((df == "Stage de fin d'études") | (df == "Stage de fin d'études de 3ème année"), arr.ind = TRUE)
 col_ECTS <- 63
 # Décalages
 dec_col_cours_ine <- -23
 dec_row_cours_ine <- 35
 dec_col_annee <- -13
 dec_row_parcours_ing1A <- -4
 dec_col_parcours_ing1A <- 2
 dec_ECTS <- 42
 get_row_to_remove_cours <- function(cours) {
    vec_cours <- cours
    which((is.na(vec_cours) | (vec_cours == "Intitulé du cours") |
        (vec_cours == "Ing - 1A") | (vec_cours == "Ing - 2A") |
        (vec_cours == "Ing - 3A")))
 }
 full <- do.call("rbind", lapply(seq_len(nrow(indices_numero_ine)), function(idx) {
    # Trouver l'INE
    current_row <- indices_numero_ine[idx, 1]
    current_col <- indices_numero_ine[idx, 2]
    #  Ici si on est au dernier indice on va au bout du tableau et on nettoiera
    # après
    next_row <- ifelse(idx != nrow(indices_numero_ine),
        indices_numero_ine[idx + 1, 1],
        nrow(df)
    )
    # La colonne ne bouge pas
    next_col <- current_col
    ine <- df[[
        current_row + decalage_ine[[1]],
        current_col + decalage_ine[[2]]
    ]]
    #  Cours
    cours <- df[seq(
        current_row + dec_row_cours_ine,
        next_row + dec_row_cours_ine - 1
    ), current_col + dec_col_cours_ine]
    ects <- df[seq(
        current_row + dec_row_cours_ine,
        next_row + dec_row_cours_ine - 1
    ), col_ECTS]
    longdata <- data.frame(ine = ine, cours = cours, ects = ects)
    longdata <- longdata[which(!(is.na(longdata[["cours"]]) & is.na(longdata[["ects"]]))), ]
    row_remove_intit_cours <- which((longdata[["cours"]] == "Intitulé du cours" &
        longdata[["ects"]] == "Ects"))
    if (!identical(row_remove_intit_cours, integer(0))) {
        longdata <- longdata[-row_remove_intit_cours, ]
    }
    row_remove_ing <- which((longdata[["cours"]] == "Ing"))
    if (!identical(row_remove_ing, integer(0))) {
        longdata <- longdata[-row_remove_ing, ]
    }
    id_cycle_ing <- which(grepl("Ing - [1-3]A", longdata[["cours"]]))
    id_cycle_ing <- c(id_cycle_ing, nrow(longdata))
    annee_cycle_ing <- grep("20[0-9][0-9]-[0-9][0-9]", df[seq(
        current_row + dec_row_cours_ine,
        next_row + dec_row_cours_ine - 1
    ), 8], value = TRUE)
    type_annee <- rep("Unknown", nrow(longdata))
    annee <- rep("", nrow(longdata))
    for (idx in seq_len(length(id_cycle_ing) - 1L)) {
        type_annee[seq(id_cycle_ing[idx], id_cycle_ing[idx + 1])] <- longdata[["cours"]][id_cycle_ing[idx]]
        annee[seq(id_cycle_ing[idx], id_cycle_ing[idx + 1])] <- annee_cycle_ing[idx]
    }
    longdata[["annee"]] <- annee
    longdata[["type_annee"]] <- type_annee
    row_remove_annee_cycle_ing <- which(grepl("Ing - [0-9]{1}A", longdata[["cours"]]))
    if (!identical(row_remove_annee_cycle_ing, integer(0))) {
        longdata <- longdata[-row_remove_annee_cycle_ing, ]
    }
    #  Trouver les blocs et les mettre en bloc
    # Identifier les indices des lignes où les valeurs ECTS ne sont pas NA
    indices_blocs <- which(!is.na(longdata[["ects"]]))
    noms_blocs <- longdata[indices_blocs, "cours"]
    # Créer une nouvelle colonne "bloc" en remplissant les valeurs manquantes
    longdata$bloc <- NA
    longdata$bloc[indices_blocs] <- noms_blocs
    # Remplir les valeurs manquantes dans la colonne "bloc" en utilisant une boucle
    for (i in 2:nrow(longdata)) {
        if (is.na(longdata[["bloc"]][i])) {
            longdata[["bloc"]][i] <- longdata[["bloc"]][i - 1]
        }
    }
    longdata
 }))
 df_ue_choix <- full[grepl("UE à choix *", full[["bloc"]]),]