Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español

Main Article Content

Iván Amón
Francisco Moreno
Jaime Echeverri

Abstract

Con frecuencia datos que deberían estar escritos de forma idéntica no lo están debido a errores ortográficos y tipográficos, variaciones en el orden de las palabras, uso de prefijos y sufijos, entre otros. Las técnicas fonéticas para detección de duplicados no están orientadas al idioma español, lo que dificulta la identificación y corrección de problemas como errores ortográficos en textos escritos en este idioma. En este artículo de investigación se propone un algoritmo denominado PhoneticSpanish parala detección de cadenas de texto duplicadas el cual considera la presencia de errores ortográficos en el idioma español. El algoritmo propuesto se comparó con nueve técnicas para la detección de duplicados. Los resultados del algoritmo fueron satisfactorios ya que se obtuvieron mejores resultados que las otras técnicas y evidencian oportunidades para mejorar el análisis de información en el idioma español.

Article Details

How to Cite

[1]
I. Amón, F. Moreno, and J. Echeverri, “Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español”, rev.ing.univ.Medellin, vol. 11, no. 20, pp. 127–138, Jul. 2014, Accessed: Jun. 19, 2026. [Online]. Available: https://revistas.udem.edu.co/index.php/ingenierias/article/view/671

References

Author Biographies

Iván Amón, Pontifical Bolivarian University

Facultad de Ingeniería Informática y Telecomunicaciones; Grupo de Investigación GIDATI; Universidad Pontificia Bolivariana–Medellín Colombia; MSc Ingeniero de Sistemas, docente titular UPB.

Francisco Moreno, National University of Colombia

Escuela de Sistemas; Universidad Nacional de Colombia–Medellín; PhD Ingeniero de sistemas, docente investigador, UN.

Jaime Echeverri, Universidad de Medellín

Facultad de Ingeniería; Ingeniería de Sistemas, Universidad de Medellín; PhD( c ) Ingeniería de Sistemas, docente investigador, UN.

Most read articles by the same author(s)