La presente tesis doctoral aborda el estudio de la inclusión de información lingüística en la predicción de palabras en castellano, con el objetivo de mejorar los sistemas de ayuda a la escritura de personas que pueden tener distintos tipos de discapacidad.
Para la inclusión de la información lingüística proponemos una arquitectura novedosa que permite desarrollar una metodología original de combinación de las diversas fuentes de información exploradas (fundamentalmente en los niveles léxico, morfológico y sintáctico), gracias a la inclusión de un módulo de gestión y combinación de los flujos de información utilizados y a la separación estricta entre los distintos diccionarios (general, personal y temático) y los métodos de predicción en sí.
Los métodos de predicción que se han incluido utilizan dos estrategias fundamentales de modelado de la información lingüística: el modelado estocástico (unigramas, bigramas, bipos y tripos) y el formal (que hace uso de una gramática probabilística independiente del contexto a la que hemos dotado de potencia adicional).
En cada uno de los módulos que realizan la inclusión del conocimiento lingüístico se han realizado también aportaciones específicas, tanto en el diseño y organización de la información (fundamentalmente orientada a su uso en la gramática formal), como en la metodología particular de uso de la misma de cara a la predicción de palabras y a la mejor colaboración con otros módulos.
Consideramos también una contribución destacable de esta tesis el criterio de diseño y la definición de las categorías, para conectar mejor con los comportamientos sintácticos reales observados, junto con el diseño de un conjunto de rasgos hacia los que se desplaza parte de la carga expresiva y, por supuesto, los originales mecanismos de manejo de los mismos que hemos incluido en el diseño de la gramática formal.
Con respecto al modelado formal, el estudio detallado de los fenómenos lingüístico tanto teórica como empíricamente, nos ha llevado a diseñar una gramática probabilística independiente de contexto que contempla una original imbricación de mecanismos (concordancia, imposición y prohibición de rasgos en símbolos terminales, potente gestión de rasgos también en símbolos no terminales, imposición y prohibición tanto de lemas como de significantes y la presencia de elementos opcionales) que la dotan de una importante potencia descriptiva del lenguaje, al tiempo que el número de reglas se mantiene controlado dentro de unos márgenes razonables para su tratamiento computacional.
En este trabajo no nos hemos limitado a realizar un planteamiento teórico, sino que hemos implementado y evaluado un sistema construido según la arquitectura propuesta, en la que, además, se han tenido en cuenta consideraciones específicas para el diseño de su interfaz de usuario.
Se aporta igualmente un estudio detallado de los diversos factores que incluyen en la evaluación cuantitativa (sobre los cuales sería necesario realizar un esfuerzo de normalización, dada la ausencia de estándares definidos al respecto), proponiendo métricas que analizan la potencia de las fuentes de información y que permiten elegir la mejor estrategia de combinación de métodos que represente de hecho una ayuda para los usuarios de esta tecnología. En dicha combinación se da prioridad a las palabras que aporta el modelo basado en bigramas de los diccionarios temático y personal. A continuación se utilizan los modelos estocásticos categoriales, aplicados primero al diccionario temático correspondiente y, posteriormente, con una adecuada ponderación, a los diccionarios personal y general.
En cuanto al método de predicción basado en la gramática formal, el conjunto de aportaciones realizadas ha permitido obtener resultados cercanos a los de los métodos basados en modelos estocásticos categoriales, quedando para las líneas de trabajo futuras el completar su capacidad descriptiva. La modularidad y flexibilidad con que se ha dotado a la arquitectura permitirán realizar esta investigación aprovechándose del gran esfuerzo ya invertido aquí.
|