al solito wikipedìa spiega tutto, it.wikipedia.org/wiki/Distanza_di_Levenshtein. in sintesi: la distanza di Levenshtein tra due stringhe A e B è il numero minimo di modifiche elementari che consentono di trasformare la A nella B dove per modifica elementare si intende: la cancellazione di un carattere ovvero la sostituzione di un carattere con un altro oppure l'inserimento di un carattere.
per cortesia non reimplementiamo da scratch il calcolo della distanza: c'è chi ci ha già ben pensato. ecco qui una libreria C assieme al wrapper per utilizzarla da python. cosa fornisce: le funzioni per il calcolo delle distanze (sono disponibili altre metriche oltre alla Levenshtein) ad elevate prestazioni ed una classe, StringMatcher.py, per utilizzarla con semplicità.
Nessun commento:
Posta un commento