miércoles, 7 de diciembre de 2011

Lectura y clasificación documental.


A vueltas con el problema de la lectura de documentos, he probado sobre un conjunto limitado de documentos de entrenamiento y el algoritmo SVM es muy bueno, tiene sus limitaciones solo podemos entrar en un rango de clasificación de cien elementos como máximo, pues nos comemos la memoria RAM del servidor.

Esto nos indica que para resolver problemas del ámbito de la gestión tributaria es aplicable a ciertos aspectos donde las decisiones a tomar están restringidas en un pequeño conjunto posibilidades, ejemplo que hacia referencia en otros escritos a la resolución de alegaciones de un acto administrativo de cualquier naturaleza.

Desde mi punto de vista la bondad del sistema se va a sustentar en función de la calidad de los documentos de aprendizaje del sistema experto, esto inclina la balanza hacia los gestores junior con mayor experiencia en detrimento de los analistas y programadores que hasta este momento eran los que podían trasmitir el lenguaje administrativo a los sistemas informáticos. Ponemos en valor la experiencia humana y la veteranía en la gestión.

Pone en el horizonte un nuevo paradigma en el diseño del software de administración electrónica, pasando del modelo relacional de un formulario, a otro basado en el documento electrónico, con la posibilidad de abrir vías de comunicación con los ciudadanos en lenguaje natural, español en nuestra experiencia, pero posible a cualquier idioma simultáneamente, pensemos en la diversidad lingüística de nuestras autonomías.

A finales de los 90 comencé los estudios de estas herramientas que a fecha de hoy creo que están lo suficientemente maduras como para iniciar una línea de trabajo sin temor a ser tildados de locos visionarios, que piensan en las nubes.

Mis objetivos a corto medio plazo es tener un clasificador de mi bandeja de correo electrónico, para ir buscando los límites del sistema y tomar la experiencia necesaria para ponerlo en productos comerciales.

Por otro lado quiero probar el algoritmo de agrupamiento clustering en ingles, que ofrece un abanico muy basto de aplicaciones, visión artificial, genética, minería de datos, etc.

Os tendré informado, además voy a publicar unas direcciones web URL's donde vais a poder interactuar con los prototipos. En uno de mis ejemplos me he creado un buzón de correo en GMAIL al cual le voy enviando correos con soporte de documentos adjuntos y este es el simple mecanismo de alimentación, del motor de clasificación, también voy a intentar que lea paginas html a través de su URL.

No hay comentarios:

Publicar un comentario