Idioma: Español
Fecha: Subida: 2021-02-10T00:00:00+01:00
Duración: 16m 52s
Lugar: Curso
Visitas: 1.671 visitas

02_Entrada de datos en el sistema

Transcripción (generada automáticamente)

Bueno, pues vamos a tener que ir con la formación siguiente tema que quería que quería tratar, un tema de la entrada de datos y el sistema para las siguientes partes van poco a poco el proceso de entrada de datos y los formando para posteriormente, en esta primera lista. Primera parte, vamos a ir viendo la entrada de datos. Lo primero que tenemos que tener en cuenta es que va a haber distintos orígenes de Fuentes, pero. Van a ser, por un lado, es lo que decía datos de diferentes lugares de diferentes proveedores de información, las cuales van a ponernos la información de diferentes maneras con distintos protocolos en Manresa un etc etc etc no poder los cuales se vamos a tener que tratar. Las fuentes de datos décimas más conocidas que vamos a tener pues podría ser de ese del sheriff etc etc entonces por por resumir digamos que vamos a tener diferentes orígenes de datos, con con datos distintos, con los datos en distinto formato, pero además, con distintos protocolos, lo cual vamos a tener que poder darles soportes desde la aplicación. En primer lugar, bueno, pues volviendo a ver lo que es el la parte de la arquitectura de la del módulo de importación, que ya lo vimos un poco antes del descanso. Vamos a estar formado por por por varias, por varios elementos, no en primer lugar el que va a tener que lidiar con las colas, fuentes de datos o los orígenes de datos que van a ser los importadores. La idea es tener uno por cada una de las fuentes externas las que se toma la información. Como decía, cada una de estas fuentes, disponer de los datos en un formato de diferente y además en una estructura diferente a la que se vaya luego trabajan en el sistema bale. Entonces, estos. Micro servicios no van a estar implementados en el sistema y habrá algunos como los importadores que van a estar más acoplado esa al cliente y luego va otros que no lo van a estar tanto, por lo que será conveniente que cada uno de los componentes reales de las operaciones de la forma más más atómica y acoplada posible en el caso de los importadores, como comentaba Miguel servicios, 1, por cada fuente de datos que se van a encargar de leer. Los datos de estas fuentes, el sistema a través de un tope de Kafka Bale, su única misión será la de leer los datos de esa década. Una de las fuentes no va a realizar transformación ninguna, sino que lo único que lo único que va a hacer es saber cómo, cómo interactuar, cómo leer de esas fuentes de datos y recoger el dato. Simplemente si es una crisis, lo cogerá el XML, lo procesara ese dato en se le da un evento en la cola de Kafka para que luego ya sea una un formato más conocido por el sistema. Para los siguientes servicios tenemos que hacer esa labor de actuación poco lo que decía, por ejemplo, caso de que una fuente sea un importador correspondiente pues se encargaría de recuperar los ficheros vía. Pongamos que esos ficheros son XML, pues tendría que extraerlo con de XML y generar, lo que lo que comentaba, que serían esos. Esos eventos dentro de la cola de interna del módulo de entrada. Una vez, una vez ya tenemos los datos en el sistema, que pasaría a esa fase de los de los importadores de cada una de las de las fuentes. Ya ya tenemos todos esos datos adaptados dentro de nuestro modelo de entrada dentro de nuestro sistema pero digamos ha bastado simplemente en el formato vale no no en el dato no en la estructura de la información creo que eso vamos a tener que transformarlas posteriormente. Entonces, una vez ha pasado por los importadores que lo que los ha estado en la cola de Kafka vale. La tarea del procesamiento de del procesador de datos Suárez es la tarea que va, que va a tener, es encargarse de transformar los datos de la entrada en datos que se precisa para la antología. No la va a hacer, no sabe o no la va a hacer el por por sí mismo, sino que esa transformación la va a llevar a cabo más adelante o una de un proceso que va a estar implementado con Bale, pero se queda la parte del procesador en la que se va a encargar de consumir. Esa información está consumiendo, lo que es el tope de los datos en una base de datos intermedia, que es la base de datos con la que trabajarla, se podría conectar directamente al Kafka por poderse podría valer. Pero el problema que vamos a tener aquí es que un uno cada uno de los elementos por sí solo no es completo, digamos, no, sino que voy al para poder componer los la estructura de datos final que se vaya a almacenar sea la estructura que define la antología realmente, no puede almacenar en tripleta los recursos que veamos antes. Digamos que voy a tener que coger datos de diferentes de diferentes sitios, para decirlo de alguna manera, a tener que estar picando de L’ Aquila, y ya entonces, digamos que si me viene un dato por una cola de, solamente voy a poder procesar ese ese dato realmente. Entonces, por eso vamos a necesitar tener una base de datos intermedia en la que pueda hacer las consultas, la tele posteriormente, hecho hasta que el procesador no termina de insertar los datos en esta base de internet ya no va a poder comenzar el proceso de la de la tele. Por este motivo. Vale, bueno, pues nada la en cuanto al proceso de de tele, pues eso se va, va a hacer, es esa transformación y como resultado de esa, de esa transformación, en este caso va a escribir en una cola de casta para volver a realizar el procesamiento en streaming; las siguientes en las siguientes fases del del sistema para para que no dependa de la velocidad de de procesamiento el que yo pueda seguir estando datos para decirlo de alguna manera desacoplados un poco la producción de datos con el consumo de los mismos. Bueno, un poco un poco lo que diga, lo que hablamos no realmente no merece la pena ser mucho más de lo que ya hemos comentado. Esto sería la parte del procesamiento de procesamiento. Bueno, como decía, aquí lo dejamos obstante, ha indicado, no tendremos los datos en formato de entrada a través de este procesamiento. Se va a definir los datos en más buenos datos. Una salida en datos, formato es que muchas veces hablamos de los ojos. Realmente esto es pocos, van, van a ser clases, objetos que van a estar definidos, van a generar a partir de la antología. Es decir, si la antología de cine que va a haber un objeto de tipo artista, como obviamos Andersen, el ejemplo otro equipo investigador ya llevándole un poco más al mundo universitario, digamos que va a haber un proceso que se va a encargar de que a partir de esa antología de ese modelo que se ha definido ese o un vale a través de algo que se llama siete expresiones, que seguro que mañana lo van a explicar, en la formación que tenéis la infraestructura antológica, se va a poder generar una clase, es decir, yo y tengo la antología de filme mi investigador, que tiene un hombre que tiene apellidos, etc, etc. Vale. Pues realmente eso va a desembocar en que se va a generar una clase que es pública y que las investigador, que tiene un pub private nombre apellido y así sucesivamente, no, eso es lo que denominamos pozo, vale? Entonces tenemos que tenemos que poder rellenar esas esas clases y sus esos datos a partir de los datos de la entrada, y eso es lo que hace el proceso de tele. Para ello vamos a utilizar ventajosas, nos va ayudar en ese cometido ventaja, lo que lo que nos va a permitir, por un lado, es leer datos de diferentes fuentes. Dejando de entrada y realizar transformaciones sobre los mismos cálculos mapping filtrado pivotado de información etc Etc. Un poco el resumen de lo que de lo que vamos a hacer en ese proceso de transformación para cada una de las entidades responda a esta estructura, para cada transformación que se centra en una entidad en particular, y se siguen estos estos pasos no abran entidades por un lado se llama general las entidades sin relación que no tenga relaciones con otras con otras entidades se van a leer los distintos orígenes implicados en la transformación, la entidad principal y todos aquellos que contengan datos relacionados con la entidad principal y que consiste en propiedades de la misma para poder rellenarla una vez obtenidos esta información, se van a eliminar, hacer un proceso de limpieza, eliminando los caracteres extraños o seleccionando. los datos que sean necesarios añade en otro tipo de datos de tipo constantes, y si procede ordenación. Es bueno un poco lo que lo que comentaba antes, aplicando diferentes fórmulas. Una vez los datos se encuentren unificado. Después se realizaría un último último filtrado para terminar con ese proceso de limpieza. Sería una carga en la base de datos de esto es un poco lo que comentaba antes de desventaja. No diré directamente que es el que va a hacer esa esa transformación, y esa ese proceso de limpieza, lo que sería el procesador de eventos, viéndonos ya justamente, a ventaja; no quería descomponer el cuerpo y la estructura del formato de salida aplicando una serie de fórmulas y teniendo un poco en cuenta los datos, el patrón descrito antes y por último las gratas, se cargaría y se cargaría en la cola en la cola, Kafka correspondiente a los objetos sin relaciones. Luego, en cuanto a los sujetos con relación, pues se cargan las correspondientes desde la base de datos donde se almacena la entidad y sus propiedades, y y luego se carga. La relación es cuando cuando estábamos hablando de objetos con relación a esa relación es realmente. Lo que quiero decir es que por un lado se va a generar las, la los Los Tojos Bale, sin sin tener en cuenta que puedan tener relaciones con otros elementos. Vale, por ejemplo, un investigador. Puedes decir que trabaja en determinado departamento y ese departamento es una relación ahí que vas a que vas a tener un determinaba universidad. Entonces, lo que vamos a hacer, digamos, es, por un lado, generar esos objetos sin las relaciones todavía en una primera pasada vale, y es por eso por lo que decimos que en primer lugar, se va a enviar esas entidades sin relación, vale, porque no se va a enviar las las relaciones entre ellas y lo va a haber otra segunda pasada en la que se van a enviar esas esos enlaces, esos esas relaciones entre entre todas las entidades vale? Porque porque lo hacemos así Bale lo hacemos así un poco para para gestionar el hecho de que si en un primer momento enviamos ya toda la información que podríamos podíamos hacerlo perfectamente enviar su entidad con sus, con sus relaciones, podría darse el caso de que se envíe una relación a un objeto, que no existe, algo que no existe. Entonces de de cierta manera tendríamos un problema, no hay al poder insertar eso en el triple story general, el centro para asegurarnos de que todos los objetos exista. Lo primero que vamos a hacer es insertar todos sin relaciones y, por último, vamos a hacer otra. Segunda. Pasaba enviando las relaciones entre los diferentes objetos. Para parar ya en ese momento, si somos conscientes o tenemos la constancia de que de que existen en, por ejemplo, pues enviado todos los investigadores enviado todas las universidades y tengo una relación entre ambos, pues ya puedo hacer la reforma de forma bastante, bastante sencilla. Habría otras alternativas, como por ejemplo, crear objetos vacíos o ejemplo. Si tengo una relación con una universidad equis y no existe esa universidad, pues crear la de cierta manera. Lo que pasa es que después podría tener problemas de rendimiento y también problemas a la hora de poder identificar esa universidad, como cuando me llega el dato para poder relacionar que esa universidad de la universidad que me está llegando en un momento dado, no. Entonces, para un poco eliminar esos problemas de que estoy comentando, decidimos hacerlo de esta, de esta, de esta manera, y funcionando bastante de manera bastante adecuada. Bueno, de la parte de importación sería sería un poco hasta hasta aquí no sé si si queréis comentar alguna duda además, o si no, pasamos a la parte del sistema de gestión, menos.

Propietarios

Proyecto Hércules

Comentarios

Nuevo comentario

Serie: Formación Martes 26 Enero Izertis (+información)

Descripción

Videos de formación