DevFest Modena 2024 — Intelligent Document Processing

Speaker

Stefano Simonazzi

Azienda

Expert.ai

Ruolo

Machine Learning Engineer

Lingua

Italiano

Speech

In questo intervento verrà presentata una panoramica completa dei processi di analisi di documenti non strutturati utilizzando un tool avanzato basato su una combinazione di tecnologie ibride, come il machine learning e metodi euristici. Saranno trattati i seguenti aspetti chiave:

Estrazione del testo tramite OCR: processi di riconoscimento ottico dei caratteri per digitalizzare e rendere ricercabili i contenuti testuali.

Analisi del layout: identificazione dell'ordine di lettura, gerarchia dei titoli, struttura della tabella dei contenuti (TOC) e gestione delle tabelle.

Estrazione di informazioni rilevanti: individuazione automatica di coppie chiave-valore e dati significativi all'interno del documento.

Classificazione dei documenti: categorizzazione automatica di tipologie documentali come fatture, bolle, report e CID.

Estrazione di campi specifici: focalizzazione su campi particolari a seconda della tipologia di documento, come importi o date in fatture.

Questo approccio consente di automatizzare e ottimizzare l'elaborazione di grandi volumi di documenti, riducendo significativamente i tempi di gestione manuale e migliorando la precisione dell'estrazione delle informazioni.

Bio

Stefano ha conseguito una laurea magistrale in Ingegneria Informatica presso l'Università di Verona.

Da oltre 4 anni lavora come Machine Learning Engineer presso Expert.ai, concentrandosi su progetti di document understanding e Natural Language Processing (NLP).