La IA non è solo fantascienza, ma può avere un ruolo utile per l’editore, pur con le dovute riserve, come vediamo in questo resoconto dal Salone del Libro di Torino.

Nicola Mastidoro, linguista computazionale, terminologo, co-fondatore e direttore R&D di Corrige.it e Gregorio Pellegrino, ingegnere informatico che gestisce la casa editrice di famiglia Effatà Editrice, ci illustrano il ruolo dell’intelligenza artificiale a vantaggio dell’editoria e le opportunità che offre al settore, per cercare di rendere più efficienti i processi di lavorazione e contenutistica del libro, in particolare quando l’approccio migliora la qualità testuale cominciando dalla presenza di errori al suo interno.
Da qualche mese, da quando ChatGpt è stata aperta al pubblico, si parla molto di IA e si sovrappongono due aspetti di IA, uno più fantascientifico della cosiddetta generazione dei testi e un altro, più verticale, di trovare all’interno dei testi alcuni tipi di informazioni o non-informazioni.
Affrontiamo qui il ‘secondo tipo’ di IA, tenendo presente che l’IA è artificiale “ma non è intelligenza”. È una tecnologia che utilizza le statistiche relative alle sequenze di caratteri alfanumerici. Si possono ottenere risultati straordinari, ma si tratta pur sempre di statistiche.

Si parla in questo caso di supporto all’editore nella qualità testuale e non di sostituzione di figure professionali. L’intelligenza artificiale è stupida e non potrà mai sostituire un editor ma riesce ad aiutare un bravo correttore di bozze segnalando errori che sfuggono ma non lo rimpiazza.
Qual è la differenza tra uno strumento avanzato come Corrige che interpreta il linguaggio e uno strumento di ortografia tradizionale che si basa su dizionari come Word 365.
Il confronto rivela una differenza significativa tra Corrige e l’approccio classico, perché permette di trovare errori che sfuggono sia al correttore di Word sia ai correttori di bozze.

Un esempio

II mistero delle finanze comunica le nonne relative alla imposte“:  Word identifica “il” che è rappresentato erroneamente da due i maiuscole e la discordanza tra “alla” e “imposte”, ma il resto (ministero e non mistero, norme e non nonne) non lo riconosce come errore.
La prima domanda rivolta agli editori durante il primo workshop è stata: quali strumenti vengono utilizzati per il controllo ortografico. Il 30% utilizza Corrige, il 19% si avvale di Microsoft Word e altri di Adobe InDesign che è un programma di impaginazione che usa un dizionario basico, quindi poco valido.

SENZA IA CON IA

Confronto di correzione bozze con IA e senza IA

La qualità editoriale

L’editore che ricerca la qualità applica delle procedure di controllo per minimizzare i refusi all’interno del testo. Il mondo editoriale in questo caso si divide a metà tra chi applica delle procedure e chi non le applica.
Quello dell’editore è un lavoro artigianale a cui va inserito l’elemento industriale, all’interno del processo, che spesso non viene tenuto in considerazione. Avere dei sistemi di controllo ortografico per assicurare un livello di qualità costante nei libri prodotti, come far passare il pdf del testo e la copertina su Corrige, riduce o annulla il rischio di dover ristampare i libri.
Ma pochi lo applicano. Solo il 12% dei pdf mandati a Corrige non ha segnalazioni di errore. Ciò significa, secondo questa statistica, che l’88% dei pdf mandati a Corrige che ha riscontrato errori, viceversa sarebbero stati inviati alla stampa con errori.
Corrige non conserva i pdf degli editori, ma si conservano le statistiche. Un errore ricorrente non corretto con i sistemi tradizionali è, ad esempio: il presidente del coniglio o il mistero delle finanze.

Come usare la IA

Altro elemento discusso, non quantificabile, è come inserire la IA all’interno del normale lavoro dell’editore. Si può inserire, per esempio, un controllo di intelligenza artificiale che può intervenire in fase di correzione ed editing.
Si lavora con una base di conoscenza aggiornata quotidianamente e la possibilità di creare una memoria ortografica personalizzata che è data a tutti gli utenti di Corrige.
C’è un ultimo elemento che si può utilizzare: il cortocircuito con l’autore. L’editore può, dopo aver ricevuto il manoscritto dall’autore, fare un primo giro su Corrige per scremare gli errori e chiedere all’autore di correggerli prima di arrivare all’editing e alla vera correzione di bozze.

L’autore tanto più è permaloso quanto meno è professionale e produce testi con molti errori. Un autore poco professionale non è incline ad accettare correzioni, ma si è accertato che se a fargliele è un computer se la prende di meno.

L'IA nel processo editoriale

L’IA nel processo editoriale

Come la macchina ‘capisce’

Cosa vuol dire avere una qualità editoriale sensibile al contesto, e come la macchina riesce a capire il contesto e a fornire queste informazioni?
Svelato l’arcano: la macchina non comprende, Corrige non comprende, ChatGpt non comprende. Per qualsiasi intelligenza artificiale alle parole scritte dall’autore corrispondono stringhe, sequenze alfanumeriche.
Quindi l’atmosfera di fantascienza che negli ultimi mesi si è trasformata in timore per gli editori è infondata. Non è una macchina intelligente, ma si tratta di statistica e di miliardi di parole e sequenze di parole di cui si calcolano i pesi statistici reciproci, attraverso i quali si ottiene un comportamento solo in apparenza intelligente.
Corrige quindi non è in grado di trovare tutti gli errori, così come non lo è l’essere umano (e lo sanno benissimo i tipografi tradizionali fin dai tempi di Gutenberg).

La IA è probabilistica

Come interviene l’IA in rapporto con gli errori. L’IA è probabilistica. Quando il risultato che l’algoritmo riesce a dedurre dal testo supera una soglia molto alta di probabilità, quella parola in quel contesto è un errore certo. Ma il calcolo probabilistico di Corrige non è in grado di stabilire se certe parole siano nel posto giusto o sbagliato.
Corrige aiuta l’editore a trovare nel testo gli errori orrendi che gli salvano il libro. Ma ha diversi falsi positivi, presentando errori che non lo sono, lasciando a chi conosce il testo il compito di controllare quale sia effettivamente l’errore e quale è invece una svista del sistema che, a lungo andare, apprende anche dai falsi positivi. Si tratta di apprendimento supervisionato. Le nuove conoscenze di Corrige vengono validate da una equipe di esperti, per evitare questo genere di riscontro: tappeto, voce del verbo tappetare.

Per esempio, il dubbio sulla parola aldilà, che va differenziato dalle tre parole distinte che non indicano il sostantivo, Corrige se non ha informazioni sufficienti lo mette nella categoria “sospetta”. Si usano due approcci di cui uno deterministico. Se si scrive “errrore” con tre erre non serve un’intelligenza naturale o artificiale per capire che è un errore.
C’è poi quello probabilistico, più impegnativo dal punto di vista computazionale e della gestione della conoscenza, che viaggia sui ventuno milioni di elementi attivi. È la parte su cui Corrige fa delle annotazioni. Es. Fragranza e flagranzaagio e aggiodisaggio e disagio. Non sono termini sbagliati, ma vanno inseriti nel giusto contesto.

In merito all’incremento di conoscenza, ci sono più di duemila elementi al giorno: terminologia tecnico-scientifica, unità di misura e relativa ortografia, toponimi, nomi propri.
I termini in lingua straniera vengono segnalate come errori. Per questo si lavora agli inserimenti di parole non comuni come le trascrizioni a caratteri latini con relativa accentazione indicandole come varianti della forma originaria.

Analisi della leggibilità

Corrige ha integrato un aspetto sull’analisi della leggibilità. Strumenti, che interpretano il linguaggio in forma matematica, possono supportare nel rendere il testo scritto più comprensibile agli utenti finali, e questo rappresenta un lavoro di editing: leggo la frase e provo a riorganizzarla dando dei suggerimenti all’autore.
Corrige in questo caso è uno strumento statistico che indica qual è la probabilità che un testo sia compreso da chi ha una competenza linguistica da quinta elementare, piuttosto che da terza media o da quinto anno di scuola superiore. Di questo si occupa l’indice Gulpease, uno strumento linguistico creato negli anni Ottanta dall’università di Roma, integrato in Corrige nella sezione leggibilità.

Gulpease e come funziona
Scala Gulpease

Scala Gulpease

Gulpease associa a ogni frase un numero da 0 a 100, dove 0 rappresenta l’abisso della leggibilità e 100 la massima chiarezza, sempre e solo dal punto di vista statistico. È di grande aiuto perché raramente sbaglia.
Questo lavoro Corrige lo fa a livello macroscopico sull’intero testo ma anche su ogni singola frase. Nella frase vengono evidenziate le parole che non appartengono al vocabolario di base che contiene le parole che tutti comprendono, per esempio se il testo è destinato ai bambini.
Tale strumento è utilizzato molto nell’ambito della scrittura tecnica dove ci sono delle normative per cui un testo deve essere scritto in maniera semplice. Nella narrativa, che segue il modo di esprimersi dell’autore, l’indice può incontrare qualche difficoltà, come per i suoni onomatopeici che segnala come errori ma non lo sono.

Come si utilizza Corrige

In tre modi, quello prevalente è attraverso il sito internet: Corrige.it, dove si può fare una prova gratuita con un limite di parole, o un abbonamento. Si carica il file, il programma elabora e produce i resoconti, inviando all’utente per posta elettronica il link ai resoconti memorizzati in un’area riservata. I testi vengono cancellati per la privacy.
Per Word e per InDesign è in corso, tramite Add-in che legge le correzioni e le applica nel testo.
La terza modalità è integrare Corrige all’interno dei propri sistemi dalle Software House come correttore ortografico interno.

La punteggiatura

Vediamo ora come si comporta Corrige con la punteggiatura, quando una virgola cambia il senso della frase.
La gestione della punteggiatura per questi modelli basati sulla statistica è molto complessa come in ChatGpt.
Corrige la controlla benino attualmente perché si sta rafforzando la parte deterministica su tale controllo, ma non potrà mai indicare se una virgola è adatta in quel punto, a meno che non ci sia un errore di forma (come lo spazio a cui segue una virgola).
La punteggiatura richiede una competenza linguistica molto elevata. È in fase di miglioramento la parte deterministica della punteggiatura, come capire se le parentesi sono coerenti, ma distinguere quelle che rappresentano una numerazione per non dare segnali falsi, oppure le virgolette, rimane sempre un grande ostacolo. La punteggiatura, apparentemente banale, per un sistema imbecille come l’IA è un grosso problema.

In merito alle regole tipografiche

Anche le regole tipografiche sono difficili da gestire. Corrige sta cercando di rendere possibile all’editore di dare indicazioni di norma tipografica, per esempio sull’indicazione delle maiuscole per gli acronimi. Il team ha più volte interloquito con l’Accademia della Crusca per l’uso delle maiuscole in lingua italiana, per le quali non si riesce ad avere una regola univoca. Quindi questo resta ancora un lavoro dell’editor.