Utente chiàcchiera:Alex brollo/PostOCR.js

Ultimo commento: 4 anni fa, lasciato da Ruthven in merito all'argomento Gestione poem

Ocio... cagna

Ocio alla conversione apostrofi; ci vuole ben altro.... vedi apostrofi() su it.wikisource, sta in it:MediaWiki:Gadget-common.js. L'idea è di "codificare" (ossia: sostituire con placeholders) tutti gli elementi sensibili del testo escludendoli dalla sostituzione, lanciare la sostituzione e poi rimetterli a posto. Funzione che ai tempi, ero un principiante di javascript, mi è costata non poco sudore, e alla fine--- si spaccava math :-(. Se trovi un algoritmo più carino, ben venga: lo copio subito :-)

Nell'eventuale funzione di fusione righe deio paragrafi esiste l'intoppo di poem: anche qui, stesso procedimento. --Alex brollo (chiacchiere) 15:10, 14 nuv 2019 (CET)Rispondi

Gestione di apostrofi cagna

@Ruthven: Questa è la versione "prudente" di postOCR, che cerca di convertire gli apostrofi con cura, evitando disastri. Ha alcune dipendenze (find_stringa,produciLista e forse qualcos'altro).--Alex brollo (chiacchiere) 10:29, 17 nuv 2019 (CET)Rispondi

@Alex brollo: Prudente? :) Ho notato che alcune strutture ancora non le catturiamo, tipo l'''testo''. Ma non trovo soluzioni ideali: catturare questo tipo d'espressione (\s|\W)’’(\w+)’’ è abbastanza? --Ruthven (msg) 14:49, 17 nuv 2019 (CET)Rispondi
@Ruthven: Certo, quella struttura l'algoritmo non la riconosce. Tieni conto però che postOCR viene usualmente lanciato più volte sul testo, e la prima volta sull'OCR tal quale, dove la stringa l'''testo'' è assolutamente improbabile; è comunissima la stringa l'testo che viene convertita in l’testo, poi in formattazione si aggiunge il corsivo ottenendo l’''testo'' e questo non crea problemi. Se per qualche motivo trovo l'''testo'' e vedo che il postOCR falla, aggiungo temporaneamente uno spazio l' ''testo'' e rilancio postOCR, fine problema. Gli apostrofi usato come codice di formattazione sono un esempio di "markup mal conformato" e non ci si può aspettare miracoli.
Durante l'editing, io lancio postOCR ogni volta che aggiungo a mano, da tastiera, un apostofo, e lo faccio immediatamente, quindi "vedo" se funzia o no. Lo faccio con Alt+7, grazie ashortcut, e quindi sto un attimo. Ormai è un automatismo (e al momento qui soffro moltissimo per non poterlo usare.... ma presto potrò :-) ).
Nella infinita serie di maligne combinazioni di caratteri che viene fuori da un OCR ce ne sono alcune bloccanti per find_stringa (anzi, per produciLista), che mandano in loop lo script e bloccano la finestra; recentemente su it.source ho aggiunto un "controllo di parità" per {, [, < che evita il loop invitando l'utente a ripulire prima di lanciare di nuovo postOCR; sono molto contento del risultato, nelle ultime centinaia/migliaia di pagine rilette dopo questo accorgimento, non ho più incontrato casi di loop.
Se trovi un algoritmo migliore ben venga.... di certo, non è pensabile rischiare di spaccare link, markup, math ecc. --Alex brollo (chiacchiere) 23:32, 17 nuv 2019 (CET)Rispondi

newDpl: che è? cagna

@Ruthven: Che cosa fa la funzione newDpl()? Non la capisco.... --Alex brollo (chiacchiere) 10:40, 21 nuv 2019 (CET)Rispondi

Proviene da it:MediaWiki:Common.js. In pratica cerca espressioni del tipo <!--22302 2121 232 3232 3435 43--> nel testo (codici numerici composti da 4 o 6 gruppi separati da uno spazio e racchiusi in un commento) e trasforma la riga nel primo numero (anche se secondo me dovrebbe essere testo[i] = res[0];, se si vuole preservare la parte iniziale della riga.
A dire il vero, l'avevi creata tu! --Ruthven (msg) 11:15, 21 nuv 2019 (CET)Rispondi
@Ruthven: Non ricordo nulla; ma dal contesto, vista la menzione di un "bug della riga vuota", vagamente immagino che fosse una toppa per qualche bug infilato da un aggiornamento mediawiki. Provo a fare pulizia in it.source, vediamo se effettivamente è morchia inutile. --Alex brollo (chiacchiere) 17:19, 26 nuv 2019 (CET)Rispondi

Gestione poem cagna

Ciao Alex, volevo chiederti se il fatto che lo script non agisca all'interno di un <poem></poem> sia voluto. Mi sono capitati sotto tiro dei testi non formattati, già inclusi nel poem.

Ovviamente l'alternativa è quella di levare il poem, lanciare lo script e poi rimettere i poem. Ma se è una feature non voluta, allora la possiamo levare. Che dici? --Ruthven (msg) 17:35, 2 dic 2019 (CET)Rispondi

Torna â paggena utente 'e "Alex brollo/PostOCR.js".