Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español

Iván Amón; Francisco Moreno; Jaime Echeverri

PDF

Palabras clave:

Limpieza de datos, calidad de datos, detección de duplicados, funciones de similitud, algoritmos fonéticos.

Descargas

##plugins.themes.bootstrap3.displayStats.noStats##

Número

Vol. 11 Núm. 20 (2012)

Sección

Artículos

Queda autorizada la reproducción total o parcial de los contenidos de la revista con finalidades educativas, investigativas o académicas siempre y cuando sea citada la fuente. Para poder efectuar reproducciones con otros propósitos, es necesario contar con la autorización expresa del Sello Editorial Universidad de Medellín.

Iván Amón

Universidad Pontificia Bolivariana

Francisco Moreno

Universidad Nacional de Colombia

Jaime Echeverri

Universidad de Medellín

Resumen

Con frecuencia datos que deberían estar escritos de forma idéntica no lo están debido a errores ortográficos y tipográficos, variaciones en el orden de las palabras, uso de prefijos y sufijos, entre otros. Las técnicas fonéticas para detección de duplicados no están orientadas al idioma español, lo que dificulta la identificación y corrección de problemas como errores ortográficos en textos escritos en este idioma. En este artículo de investigación se propone un algoritmo denominado PhoneticSpanish parala detección de cadenas de texto duplicadas el cual considera la presencia de errores ortográficos en el idioma español. El algoritmo propuesto se comparó con nueve técnicas para la detección de duplicados. Los resultados del algoritmo fueron satisfactorios ya que se obtuvieron mejores resultados que las otras técnicas y evidencian oportunidades para mejorar el análisis de información en el idioma español.

Cómo citar

[1]

I. Amón, F. Moreno, y J. Echeverri, «Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español», rev.ing.univ.Medellin, vol. 11, n.º 20, pp. 127–138, jul. 2014, Accedido: 19 de junio de 2026. [En línea]. Disponible en: https://revistas.udem.edu.co/index.php/ingenierias/article/view/671

Referencias

Biografía del autor/a

Iván Amón, Universidad Pontificia Bolivariana

Facultad de Ingeniería Informática y Telecomunicaciones; Grupo de Investigación GIDATI; Universidad Pontificia Bolivarianaâ€“Medellín Colombia; MSc Ingeniero de Sistemas, docente titular UPB.

Francisco Moreno, Universidad Nacional de Colombia

Escuela de Sistemas; Universidad Nacional de Colombiaâ€“Medellín; PhD Ingeniero de sistemas, docente investigador, UN.

Jaime Echeverri, Universidad de Medellín

Facultad de Ingeniería; Ingeniería de Sistemas, Universidad de Medellín; PhD( c ) Ingeniería de Sistemas, docente investigador, UN.

Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español

Descargas

Número

Sección

Resumen

Cómo citar

Referencias

Biografía del autor/a

Iván Amón, Universidad Pontificia Bolivariana

Francisco Moreno, Universidad Nacional de Colombia

Jaime Echeverri, Universidad de Medellín

Artículos más leídos del mismo autor/a

Estamos indexados en

Journal Information

Information

Policies

Related Links

Barra lateral del artículo

Descargas

Número

Sección

Contenido principal del artículo

Resumen

Detalles del artículo

Cómo citar

Referencias

Biografía del autor/a

Iván Amón, Universidad Pontificia Bolivariana

Francisco Moreno, Universidad Nacional de Colombia

Jaime Echeverri, Universidad de Medellín

Artículos más leídos del mismo autor/a

Estamos indexados en