Ennece chiàcchiera:Viaggio di Parnaso 1666.djvu

Ultimo commento: 2 anni fa, lasciato da Cryptex in merito all'argomento Codice R regex

Quanto piú trascrivo questo libro, tanto piú mi rendo conto che la scansione è veramente pessima - mi spiace. Su Google Books c'è la stessa edizione ma con una qualità migliore, se può essere utile. --Cryptex (chiacchiere) 18:41, 10 mar 2022 (CET)Rispondi

Codice R regex

cagna
library(magrittr)
library(stringr)
vdp <- "copia il testo OCR qui"
vdp %>%
 str_replace_all("\\.\\.\\.", "…") %>% # ...
 str_replace_all("…\\.", "…") %>%
 str_replace_all("'", "’") %>% # correggi apostrofi
 
 # Rimuovi spazio prima di segni di punteggiatura
 str_replace_all("’ ", "’") %>%# apostrofo
 str_replace_all(" \\?", "?") %>% # ?
 str_replace_all(" ;", ";") %>% # ;
 str_replace_all(" ,", ",") %>% # ,
 
 # Aggiungi spazio dopo segni di punteggiatura
 str_replace_all(",", ", ") %>% # aggiungi spazio dopo virgola
 
 str_replace_all("c ", "e ") %>%
 str_replace_all("c,", "e,") %>% 
 str_replace_all("cchii", "cchiù") %>% 
 str_replace_all(" cofe", " cose") %>%
 str_replace_all(" cofa", " cosa") %>%
 str_replace_all("cf", "ef") %>% 
 str_replace_all("ct", "et") %>% 
 str_replace_all("cz", "ez") %>%
 str_replace_all("fc", "sc") %>%
 str_replace_all("fd", "sd") %>%
 str_replace_all(" fe ", " se ") %>%
 str_replace_all(" fempe", " sempe") %>%
 str_replace_all("fg", "sg") %>%
 str_replace_all(" fia ", " sia ") %>% 
 str_replace_all("fl", "ss") %>%
 str_replace_all("fp", "sp") %>%
 str_replace_all("fs", "ss") %>%
 str_replace_all("ft", "st") %>%
 str_replace_all("h’c", "h’e") %>%
 str_replace_all("hauc", "have") %>%
 str_replace_all("Mufa", "Musa") %>%
 str_replace_all("Mufe", "Muse") %>%
 str_replace_all("ne’e", "nc’e") %>%
 str_replace_all("ne’h", "nc’h") %>%
 str_replace_all("Poefia", "Poesia") %>% 
 str_replace_all("respofe", "respose") %>% 
 str_replace_all("ſ", "s") %>%
 str_replace_all("ß", "ss") %>% 
 str_replace_all("\\(", "s") %>%
 str_replace_all("vn", "un") %>% 
 str_replace_all("y", "v") %>% 
 str_replace_all("0", "o") %>%
 
 # Sostituisci u con v
 str_replace_all("aua", "ava") %>%
 str_replace_all("aue", "ave") %>%
 str_replace_all("aui", "avi") %>%
 str_replace_all("auo", "avo") %>%
 str_replace_all("eua", "eva") %>%
 str_replace_all("eue", "eve") %>%
 str_replace_all("eui", "evi") %>%
 str_replace_all("euo", "evo") %>%
 str_replace_all("iua", "iva") %>%
 str_replace_all("iue", "ive") %>%
 str_replace_all("iui", "ivi") %>%
 str_replace_all("iuo", "ivo") %>%
 str_replace_all("oua", "ova") %>%
 str_replace_all("oue", "ove") %>%
 str_replace_all("oui", "ovi") %>%
 str_replace_all("ouo", "ovo") %>%
 str_replace_all("  ", " ") # rimuovi doppi spazi
 
# L'ultimo passo è di copiare l'output in n++ e sostituire \\n con \n:

-- Cryptex (chiacchiere) 20:52, 16 mar 2022 (CET)Rispondi

Torna â paggena "Viaggio di Parnaso 1666.djvu".