Ennece chiàcchiera:Viaggio di Parnaso 1666.djvu
Ultimo commento: 2 anni fa, lasciato da Cryptex in merito all'argomento Codice R regex
Quanto piú trascrivo questo libro, tanto piú mi rendo conto che la scansione è veramente pessima - mi spiace. Su Google Books c'è la stessa edizione ma con una qualità migliore, se può essere utile. --Cryptex (chiacchiere) 18:41, 10 mar 2022 (CET)
Codice R regex
cagnalibrary(magrittr) library(stringr) vdp <- "copia il testo OCR qui" vdp %>% str_replace_all("\\.\\.\\.", "…") %>% # ... str_replace_all("…\\.", "…") %>% str_replace_all("'", "’") %>% # correggi apostrofi # Rimuovi spazio prima di segni di punteggiatura str_replace_all("’ ", "’") %>%# apostrofo str_replace_all(" \\?", "?") %>% # ? str_replace_all(" ;", ";") %>% # ; str_replace_all(" ,", ",") %>% # , # Aggiungi spazio dopo segni di punteggiatura str_replace_all(",", ", ") %>% # aggiungi spazio dopo virgola str_replace_all("c ", "e ") %>% str_replace_all("c,", "e,") %>% str_replace_all("cchii", "cchiù") %>% str_replace_all(" cofe", " cose") %>% str_replace_all(" cofa", " cosa") %>% str_replace_all("cf", "ef") %>% str_replace_all("ct", "et") %>% str_replace_all("cz", "ez") %>% str_replace_all("fc", "sc") %>% str_replace_all("fd", "sd") %>% str_replace_all(" fe ", " se ") %>% str_replace_all(" fempe", " sempe") %>% str_replace_all("fg", "sg") %>% str_replace_all(" fia ", " sia ") %>% str_replace_all("fl", "ss") %>% str_replace_all("fp", "sp") %>% str_replace_all("fs", "ss") %>% str_replace_all("ft", "st") %>% str_replace_all("h’c", "h’e") %>% str_replace_all("hauc", "have") %>% str_replace_all("Mufa", "Musa") %>% str_replace_all("Mufe", "Muse") %>% str_replace_all("ne’e", "nc’e") %>% str_replace_all("ne’h", "nc’h") %>% str_replace_all("Poefia", "Poesia") %>% str_replace_all("respofe", "respose") %>% str_replace_all("ſ", "s") %>% str_replace_all("ß", "ss") %>% str_replace_all("\\(", "s") %>% str_replace_all("vn", "un") %>% str_replace_all("y", "v") %>% str_replace_all("0", "o") %>% # Sostituisci u con v str_replace_all("aua", "ava") %>% str_replace_all("aue", "ave") %>% str_replace_all("aui", "avi") %>% str_replace_all("auo", "avo") %>% str_replace_all("eua", "eva") %>% str_replace_all("eue", "eve") %>% str_replace_all("eui", "evi") %>% str_replace_all("euo", "evo") %>% str_replace_all("iua", "iva") %>% str_replace_all("iue", "ive") %>% str_replace_all("iui", "ivi") %>% str_replace_all("iuo", "ivo") %>% str_replace_all("oua", "ova") %>% str_replace_all("oue", "ove") %>% str_replace_all("oui", "ovi") %>% str_replace_all("ouo", "ovo") %>% str_replace_all(" ", " ") # rimuovi doppi spazi # L'ultimo passo è di copiare l'output in n++ e sostituire \\n con \n: