jueves, 17 de septiembre de 2009

Los primeros pasos, recolectando información

Mi primer objetivo es armar un DataWarehouse con logs de ldap y otros más que me puedan ser de utilidad, es decir aquellos logs donde pueda encontrar algo que hizo que ldap falle.
Pero centrémonos en el problema.
Hoy tengo un archivo de prueba el cual contiene cerca de 4'000.000 de líneas con actividad de ldap y quiero subirlo en una base de datos en un formato que sea útil, o humanamente leíble (cat logs > /dev/humano) y además que no ocupe tanto espacio, todos por el momento voy a tratar cada problema por separado.
Mi primer intento fallido fue al realizar un script (bash) para separar los campos y luego subirloa a la base de datos o al menos testear como va esto.
Por que intento fallido.....
Dejé corriendo el script y al volver un día después no había procesado ni el 3% del archivo, cuestión por la cual había que modificar la idea.
Continué con un par de intentos modificando el script pero no fue lo que necesitaba.
Hoy me encuentro aprendiendo python (por recomendaciones) y voy en mi nuevo test con pocos datos, al parecer el tiempo puede bajar en relación a mi prueba anterior exponencialmente, pero aún no la concluyo.
Proximamente publicaré el script para comentarios y/o/u sugerencias, al momento hice una prueba inicial con tiempos alentadores

No hay comentarios: