A vueltas con el problema
de la lectura de documentos, he probado sobre un conjunto limitado de
documentos de entrenamiento y el algoritmo
SVM es muy bueno, tiene sus limitaciones solo podemos entrar en
un rango de clasificación de cien elementos como máximo, pues nos
comemos la memoria RAM del servidor.
Esto nos indica que para
resolver problemas del ámbito de la gestión tributaria es aplicable
a ciertos aspectos donde las decisiones a tomar están restringidas
en un pequeño conjunto posibilidades, ejemplo que hacia referencia
en otros escritos a la resolución de alegaciones de un acto
administrativo de cualquier naturaleza.
Desde mi punto de vista
la bondad del sistema se va a sustentar en función de la calidad de
los documentos de aprendizaje del sistema experto, esto inclina la
balanza hacia los gestores junior con mayor experiencia en detrimento
de los analistas y programadores que hasta este momento eran los que
podían trasmitir el lenguaje administrativo a los sistemas
informáticos. Ponemos en valor la experiencia humana y la veteranía
en la gestión.
Pone en el horizonte un
nuevo paradigma en el diseño del software de administración
electrónica, pasando del modelo relacional de un formulario, a otro
basado en el documento electrónico, con la posibilidad de abrir vías
de comunicación con los ciudadanos en lenguaje natural, español en
nuestra experiencia, pero posible a cualquier idioma simultáneamente,
pensemos en la diversidad lingüística de nuestras autonomías.
A finales de los 90
comencé los estudios de estas herramientas que a fecha de hoy creo
que están lo suficientemente maduras como para iniciar una línea de
trabajo sin temor a ser tildados de locos visionarios, que piensan en
las nubes.
Mis objetivos a corto
medio plazo es tener un clasificador de mi bandeja de correo
electrónico, para ir buscando los límites del sistema y tomar la
experiencia necesaria para ponerlo en productos comerciales.
Por otro lado quiero
probar el algoritmo
de agrupamiento clustering en ingles, que ofrece un abanico muy
basto de aplicaciones, visión artificial, genética, minería de
datos, etc.
Os tendré informado,
además voy a publicar unas direcciones web URL's donde vais a poder
interactuar con los prototipos. En uno de mis ejemplos me he creado
un buzón de correo en GMAIL al cual le voy enviando correos con
soporte de documentos adjuntos y este es el simple mecanismo de
alimentación, del motor de clasificación, también voy a intentar
que lea paginas html a través de su URL.