20210224 1-Descubrimiento - TV Universidad de Murcia

Este sitio usa cookies para mejorar su experiencia de uso del sitio web. Si continua navegando, usted acepta el uso de nuestra política de uso.

ATENCIÓN: JavaScript es necesario para poder visualizar este objeto multimedia. Por favor, actívelo en su navegador. Guía para habilitar JavaScript en su navegador .

20210224 1-Descubrimiento

Idioma: Español

Fecha: 05 Mar 2021

Duración: 1h 15m 44s

Lugar: Curso

Visitas: 1.173 visitas

20210224 1-Descubrimiento

Transcripción (generada automáticamente)

Ya he empezado a grabar. Según que comparte la pantalla, perdón. La presentación no. Pues bueno, bueno, es lo primero, yo soy Álvaro Palacios y vamos a hablar ahora hoy teme a la luz todo lo referente, llegamos a la carga de datos y al proceso de descubrimiento. Yo soy Álvaro Palacios y aquí tenéis mi correo o si surgiese cualquier duda o lo nada después de la presentación os lo podéis poner, bale. Estos son los puntos que vamos a tratar el arquitecto general del sistema, los protocolo o teme a Che, como lo estamos implementando dentro del Hércules, el servicio conversor de que se merece que será el encargado de las transformaciones entre lo que nos sirva, el no a Crimea y la rdc de la odontología Hércules, el descubrimiento sobre estos errores que consta de la reconciliación, el descubrimiento de enlace. Si el descubrimiento de equivalencias es una conclusión de cómo sería el flujo del de todo el sistema de carga de edad. Esto sería un diagrama de la arquitectura de todos los sistemas. Los puntos marcados en rojo son los que vamos a haber un poco más en profundidad dentro de este dentro de esta presentación, y ahora o un breve resumen un poco de lo que son cada uno de los componentes. Por un lado, tenemos el lápiz de carga que contiene todos los procesos de transformación en casa, que son todos los necesarios para la carga de datos. Junto con los procesos de la gestión de repositorios sincronización es el descubrimiento que separa el servicio encargado del proceso de descubrimiento, la recopilación de entidades y el descubrimiento de la detección de equivalencias el crono configure que para la gestión en la configuración del programado de tareas, tanto para la ejecución recurrente como para la ejecución única sobre los repositorios que se hayan configurado, los servicios o el premio a los servicios recolectores. De los datos que van a los servicios, de los cuales nos vamos a nutrir para cargar los datos, el servicio, se me deje ese día. El servicio cargado de, de generar con los XML procedentes de los servicios mhp, transformarlo para su posterior carga. El frente que constituye para la administración de las cargas de datos en la plataforma el gestor de documentación, que permite publicar páginas web que informen del nodo de la Universidad con contenido dinámico, pudiendo obtener este contenido dinámico a través de consultas a la consulta o a las partes, el serbio encargado de las ideas mediante toques para los que forman el proyecto y el servicio, que es el encargado de generar la sonrisa de todas las entidades en oposición al servicio de datos enlazados, cumpliendo la recomendación del inquieta a plaza, ahora comenzamos a hablar del protocolo o hay premio este protocolo? Luego subir esta forma a tope en este enlace estaría en la Alhambra, el protocolo o el tema me cago plena chips. Otro, conforme es un protocolo para la transmisión de datos por internet. La versión actual es la dos puntos, pero creada en 2002 que a pesar de puede parecer antigua, pero la fortaleza que tiene precisamente es que lleva desde 2002 en esta presión y le sigue utilizando. Por lo tanto, es bastante robusta y de hecho la creación de este protocolo es hasta ha estado involucrada, la danesa y oratorio del Álamo, que supone la bomba atómica básica. Es un protocolo bastante robusto y ampliamente utilizado. Este protocolo presentar las siguientes características. Su funcionamiento se basa en una arquitectura tridente servidor, en la que el servicio recolectó, datos de información al proveedor de datos y proveedor de datos. Lo que me hace estas peticiones se hacen en el PP. Utiliza únicamente todos y todas las respuestas. Todas las respuestas de este servicio deben ser documentos que XML bien formados. Ocho las fechas y tiempo se harán mediante la 8.601, se expresan en formato soportar la difusión de registros en diversos formatos, metadatos, es decir, un servicio o mh con los datos de los de los registros en diferentes formatos. Tienen control de flujos cuando hay un error o una excepción lo repositorio de los códigos de Estado. Http. Por incluir uno o más elementos de la respuesta que cuando se produce un un error en la propia propio protocolo, ha especificado cómo deben devolverse estos errores dentro del quiso de respuesta. Esta sería un coche sea un poco un diagrama de cómo funciona. El repositorio sería el servicio o el primero que está expuesto para que se puedan hacer consultas y otro colector sería el servicio encargado de de hacerlas. Las peticiones a este servicio en nuestro caso, tiene ambos. El conector será el pie de carga, que vayan a las peticiones de los repositorios que haya figurado o el tedh tiene seis puntos. Si tiene seis peticiones, seis tipos diferentes que están aquí nombrados y la Intifada y la plataforma fallos, les recordó que ahora detallar un poco más en profundidad. Estas especies identifiquen que se utiliza para obtener la información sobre el servidor que se utiliza para obtener registros pertenecientes a una clase determinada creada por el servidor con lesiones. Los diferentes tipos de datos que hay en el repositorio, por ejemplo podría haber un análisis podría devolver por ejemplo a personas organizaciones documentos por ejemplo plataforma o tendríamos la lista de los formatos bibliográficos usados por el servidor. Cada 11 macho puede devolver los datos en diferentes formatos, que pueden ser como tenemos. Nosotros, por ejemplo, un servicio puede ser doble, coro admite cualquier formato, ya que tienen que estar especificados. En la lista de formatos que admite o tendríamos los identificadores de los récord, cada recorte sería un elemento dentro del servicio mh, considera Fallon o tendríamos los identificadores de los elementos que se están consultando con o tendríamos un elemento en particular, pasando previamente. Podríamos haber obtenido con el exterior con récords o tendríamos los los registros completos. Sería un un nexo entre los dos anteriores. Sería igual que en el sentido de que prevista una serie de elementos, pero el incidente y fallar únicamente el encabezado con el identificador y la fecha y el récord te ofrece el encabezado con el identificador en la fecha. Y además, el contenido de los metadatos, que también te devuelve el método. Un récord. El primero de ellos es el antifaz, permite recuperar información del repositorio. Estos repositorios, además, también pueden emplear estos verbos para devolver información adicional. No tienen ningún argumento, se hace la petición solamente con este verbo y este sería un ejemplo de la de la respuesta a que podríamos ver que todas las peticiones, devolver la una con esta estructura lo que varía en cada petición. Por un lado tendríamos el responsable, estaría la respuesta de cualquier petición. En la parte estarían los parámetros que hemos pasado nosotros para, para hacer la petición y dentro de la sección hija y en este caso estaría el nombre del repositorio, coló en el correo o, en caso de que esté figurado la fecha más antigua, de la que se tienen registros si se van a exponer registros eliminados o no, y la nulidad de las fechas que se van a utilizar en este caso estoy especificado hasta ahora, minutos y, segundo, pero podría ser que únicamente tenga año mes idea. Luego tendríamos que recupera la estructura establecida por un repositorio adecuado para el consumo eléctrico, que podemos predecir qué tipos de datos tiene para luego posteriormente los datos de un tiempo en particular y tiene un argumento que es opcional? Es el resulte toquen? Cuando se hace una petición a cualquiera de estos métodos, sea una respuesta del set. Cuando existe una petición a estos métodos, sin si la respuesta es muy grande en el servicio o en ocasiones como este implementado a lo mejor te envuelve solamente registros de cómo se haya implementado y, en caso de que la respuesta no vayan todos los registros, todos los registros que haya en el sistema la propia petición de devolvería o para poder hacer posteriormente otra petición al mismo método, pasándole esa resolución continuaría la respuesta, donde se quedó en el punto anterior. En este caso, por ejemplo, sería bueno estos ejemplos que estamos viendo, pero es ejemplos que estamos viendo, son los que tenemos montado en el servicio que hemos contado con los currículos de prueba de la Universidad de Murcia. En este caso el solamente habría un ser. Este sería el de Google. Posteriormente, cuando se le hiciera una petición para obtener los identificadores, pues podría especificar que queremos sorprendernos. Solo en este caso no hay más, así que, si no se usen cuando se haga luego la consulta también nos devolvería a lo mismo el documental ata, forma recuperar los formatos de datos disponibles. En un repositorio se puede pasar un argumento que es opcional, que sería el indicador de un elemento. En el caso de que se especifique el líder, tiene que hablar de un elemento. Devolvería los metadatos que están disponibles para ese elemento si no se especifica, no devolverían los metadatos que están disponibles para el conjunto de los datos del repositorio? Esta sería un ejemplo de respuesta para este mismo servicio. En este caso, hemos implementado este servicio. En particular los datos que nos va a devolver estarían ya en formato. Luego tendríamos este método, que es el, podríamos decir uno de los principales que nos va a permitir los encabezados en lugar de los registros, va devolver únicamente los identificadores de los registros y su fecha, según el repositorio-el encabezado podría tener un estado eliminado. Si se eliminó un registro que iba con los argumentos, en este caso para los argumentos son, tendremos el bromea, el que sería para quitar el rango de fechas para el cual se quiere hacer. La consulta, que son opcionales; si no se especifica, no devolverían los registros desde el inicio hasta que haya cargados en el sistema o tendríamos el método de especifica que los encabezados deben devolverse. Solo el formato de los metadatos coincide con ese método exceso cuando hagamos una misión al exterior, si decimos los datos que tengan en verdad, cuando devolvería solamente los datos que tengan este dato, el ser el set es opcional, que haría los derechos establecidos para la reproducción selectiva en caso de que estuviéramos implementado. Por un lado, personas por organizaciones y, por otro lado documentos. Por ejemplo, se podría hacer una petición a especificando eso lo queremos recuperar documentos, pero hemos recuperado personas o cualquiera de los que estén disponibles dentro del servicio o el mhp. Por último, tenemos el resultado, que es opcional. De hecho, es excepcional y exclusivo cuando se hacía una petición al exterior, sino el sistema hipotéticamente hablando siempre registros. La hora de volver, igual no es igual o 1.000. Ella nos devolvería otra solución para que posteriormente se pueda hacer una segunda petición con este resultado, que nos devolvería los datos, digamos, de, continuando la petición anterior, cuando se pasa pasarles un tanto que los demás parámetros ya no son, ya no son necesarios. Por qué? En el acto que entiende que todo todo el dato para saber que continúa la sesión anterior? Esto sería un ejemplo de respuesta de una petición a la que tendríamos, por ejemplo, en el caso del currículum, pues nos devolvería. En este ejemplo, tenemos cargados ocho currículos. Estoy pintando el primero, el segundo y el octavo puesto puntos suspensivos, pero esto nos habría devuelto el identificador de cada uno de los elementos que hay en el sistema, junto con sus fechas y junto con el set al que pertenece cada uno de los elementos. El récord recupera un registro de metadatos individual de un repositorio. Es decir, que una vez obtenidos los datos con el estilo, podríamos obtener el récord individual, por ejemplo, en este caso, del currículum uno que tenemos aquí para ello, tiene como argumentos el identificador del elemento que queremos recuperar y, por otro lado, tenemos el método, que especifica el formato que debe incluirse en la parte de datos del registro devuelto. Este es el día un ejemplo en el que se ha solicitado el récord récord identificado. Uno datos. Extender en formato estos recortes, Colorado -sería el mismo que se vuelve con el destino de años, sería esta aquí. Por otro lado, dentro del había devuelto el formato que se le haya especificado a qué tendríamos un fragmento de color en el que únicamente tenemos cargado el nombre. Por ejemplo. El método les recordó que es una combinación de estilo y tiene un listado con todos los recursos limitados y sus metadatos. Los argumentos serían los mismos que el método. Pero la respuesta sería una, una mezcla de Falla, buena tiene este ejemplo, el suelo, puesto que no me cabrea no me cabía más, pero aquí estarían devueltos con esta petición, devolvería los ocho récords en el repositorio cada uno de ellos y su. Y ahora vamos a hablar de cómo hemos implementado dentro de Hércules, está la implementación con los servicios web. No se puede gestionar estos repositorios con el pie de carga, y dentro del auto, encarga que señala la administración web existen pantallas para realizar estas gestiones. Desde esta página se gestionaría los lo repositorios, pero es que tenemos ahora mismo configurados cuando hagamos el taller. Lo dejaremos limpio, porque la idea del taller es que pueda instar a repositorios que pasaremos y demás para que hubiese un poco, digamos, con datos como cómo funciona el sistema que estallan los diferentes jurados, y se podrían añadir nuevos repositorios. Vale, esto repositorio se utilizan en las comunicaciones, el funcionamiento que el flujo del amor de las sincronización es el día siguiente. En primer lugar, se pone al servicio o que haya figurado preguntando por los por los identificadores el segundo lugar, una vez que sean obteniendo los siguientes. Con la fecha que se le haya pasado a la sincronización se forma disponibles en el repositorio. Posteriormente se van obteniendo uno por uno que cumplan, se hayan revuelto, el. En caso de que los métodos de que el que el metal data forma devuelto, por el servicio no sea el caso que ocurre con agradece y nada más, pero en el caso de que el formato fuese otro, tenemos el servicio conversor y semen. Le habla de transformar estos datos a un formato que cumplan la antología en última instancia. Ya, una vez que tengamos el recorrido, ha transformado a que se envía la carga para que se realice la carga dentro del sistema. Ahora mismo tenemos estos tres depositarios configurados. El primero de ellos es de una universidad de Holanda. El segundo de ellos es un repositorio tenemos ocho currículos de prueba de la Universidad de Murcia, y el tercer caso es un tema que tenemos montado con varios XML de prueba para el tallo que hagan la semana que viene prepararemos un repositorio específico para que podáis tener pruebas varias personas simultáneamente diferentes. Ahora veríamos el servicio conversor a r. Como hemos comentado antes, los servicios podrán devolver los metadatos directamente en formato de la antología Hércules. En ese caso no habría una transformación. Pero cuando esto no es así -por ejemplo, si se para un repositorio ya existen, como en este caso tendríamos, por ejemplo, de la universidad. En este caso, es necesario transformar la respuesta de este formato a través de este servicio, este servicio internamente, interactúa con el servicio un inspector para la creación de las de las vr de las entidades que se van a cargar el sistema. Este servicio conversor cuenta con dos métodos. El primero de ellos mostraría un estado, con el formato de metadatos admitidos, y el segundo de ellos sería el método que tiene, digamos, dentro de los parámetros, el formato y el xs mera. Transformar nos generaría el revés, cuando la la. El fichero de configuración del servicio en la fábrica configuró estos primeros parámetros estándar vieron una única configuración y cada viernes es el día laborable del servicio al que estamos apuntando para, para generar las vr de las entidades que se van a cargar en el sistema. Este servicio utiliza, bueno, esto utiliza un fichero de oración para figurar como se van a hacer las transformaciones. Este XML, que nos va a devolver el servicio o el Che y la tecnología se exponen para que se realice. Esta transformación. Estamos en proceso de hecho, de cambiar este fichero de configuración jsa ya prácticamente lo que pasa en la presentación no lo hemos actualizado, pero todo lo que voy a hablar aquí. Tomen, pero en la práctica final va a ser un buen corazón. Finalmente, va a ser un j. Son el servicio en cuestión, sería éste. Su funcionamiento, este servicio conversor ahora mismo. Nos devuelve estos dos formatos de ambos tiene configuradas estas dos transformaciones. Esta es la que tenemos preparadas nosotros para para nuestros XML formateado. Nosotros, como vamos considerado y este otro caso sería, por ejemplo, para la transformación de los XML, que nos devuelve el repositorio de la Universidad de Yale, otra que podemos ver por ejemplo, aquí. Este sería un registro que devuelve el mhp de la. Esta universidad tendríamos. Este sería un proyecto que tiene un título, una hecha. Una serie de datos están en este formato, pero para realizar la carga es necesario la que el sistema finalmente sea una breve, obviando la antología r8 para ello. Bueno, esto es esto es un extracto de esta parte de esta parte de aquí dentro. Entonces, este servicio lo que haría sería que se le puede pasar como en el otro menor. Puede pasar como parámetro el tipo de transformación. Junto con el fichero esto lo devolvería los mismos datos que tenemos cargados en el este o el premio a las respuestas de la epidemia transformados para realizar la carga. Posteriormente. El método de configuración finales que hemos visto que muestra la figuración de la lista de preocupaciones que tienen establecido para el servicio y el método comer. Qué se atrevía a la conversión entre los ficheros de los ficheros XML? A r aquí están numeradas un poco, las las configuraciones que hay en el fichero fichero tomen por cada tipo de entidad, no voy a entrar en mucho detalle, pero básicamente lo que se pretende con es entre entre el formato del XML de entrada, y es que digamos de salida, mantenemos nuestro foco. Esto les estará subido a lo nos vamos a Paco Pérez, tampoco voy a entrar en detalles, cada una de estas configuraciones. Este es el ejemplo que acabamos de ver ahora mismo. Ahora voy a empezar con con la parte del descubrimiento. Si tienes alguna duda de lo expuesto hasta ahora o alguna pregunta, ponerme con el descubrimiento. Entiendo que no vale, pues estoy soñando, Fernando, se ha cortado un balón. Bueno, pues ahora empezaremos con la parte del del descubrimiento. El descubrimiento nació una vez cargados los datos de la sgae, ya que se ha enviado, el que hemos obtenido con sus anteriores, que se envía al sistema, cuentan los siguientes procesos de descubrimiento, reconciliación, descubrimiento de enlaces, y detección de equivalencias vale la reconciliación, lo que va a hacer va a ser, va a evitar la duplicación de entidades mediante un conjunto de reglas que si se carga una persona que se llama Álvaro o la cual soy yo y posteriormente en otra carga, se vuelve a cargar otra persona que se llama de la misma manera y que tiene ciertas cosas en común. Este proceso de reconciliación lo que tendría que hacer es detectar que esta entidad se corresponde con otra entidad, ya cargada y no duplicar las entidades, sino enriquecer la entidad que está ya cargada, junto con los metadatos de esta otra segunda entidad que realmente imaginamos encargado un palacio con vinculados, cuatro documentos, por ejemplo, si realmente se quiere quedar otro avaro para bienes vinculados, otros 10 documentos si tiene o no un documento en común con el Álvaro Palacios, que estaba ya cargado. Lo que haría sería cuando se hace la segunda, cuando se va a cargar el segundo Álvaro para hacerse varias en el sistema, un solo punto con la suma de de los documentos internos de los dos Álvaro. Ha encargado en el sistema vale este servicio toma decisiones autónomas, Chile, donde las reglas supera un umbral en función de estas reglas, y el servicio está lo suficientemente seguro de que una entidad corresponde por otra que está ya cargada. Esto lo hará de forma automática, en el caso de que con esta evaluación, desde la conclusión de que una entidad puede tratarse de otra, tira que está cargada en el sistema, pero no llegue al umbral éste que tenemos marcado solicitaría la validación de un administrador de la plataforma para que decida si la entidad que se está cargando se corresponde con otra entidad que está ya cargada en el sistema. Además, utiliza datos obtenidos por la parte del descubrimiento del punto que vamos a ver para mejorar, digamos, esta reconciliación. La parte del descubrimiento de lo que haremos sería obtener identificadores de otros sistemas externos, como podría ser en este caso y tenemos ocho aquí configuradas ahora mismo, que luego luego detallar lo hace con enlaces a fuentes externas y o unidad. Esta información va a servir también para apoyar al proceso de reconciliación y además el descubrimiento de la es, además de realizarse la carga según se van cargando los datos para ver un proceso de continua que se estaba ejecutando digamos continuamente el segundo plano. Podría darse el caso de que cuando, por ejemplo, de una persona en ese momento políticamente hablando no esté dada de alta y entonces, si no estaba dado de alta, por ejemplo no se recuperará el calor, pero puede que posteriormente, al tener el sistema, sí que se dé de alta en la lengua, en cualquiera de estos perros pisa externos, entonces ejecutándose por detrás continuamente. Va a estar continuamente intentando enriquecer los datos de las entidades que están ya cargadas en el sistema, luego tendríamos la detección de equivalencia, que tendría enlaces a entidades de otros. Utilizará el también el lado de unidad para establecer las equivalencias entre los datos cargados en un nube y el nodo de unidad mediante una relación más diga que diga que una entidad está cargada en un auto que esa es la misma que otra entidad; está cargada en otro modo no hubiera terminado sin más que esa entidad que está carga denominada, es la misma que una entidad que está cargada dentro del nodo y también a proporcionar información adicional para realizar la reconciliación. En resumen, las tres funciones del descubrimiento se divide en tres grupos de reconciliación de entidades que, como he visto, evitar la duplicación de entidades ya cargadas y las entidades que están ya cargadas con otro hombre el descubrimiento de enlaces que va a generar enlaces externos, incluidos los de otros espacios, ha sido a través del nodo y pueda incorporar datos que nació información de ayuda a las entidades equivalentes al equivalente a los datos cargados en el logo, los tres grupos, defunciones, actuar en el proceso de descubrimiento para todos los que se vayan a cargar para cualquiera que se vaya a cargar en el sistema, pasa por este proceso de descubrimiento. Para garantizar que principalmente se carguen de entidades duplicadas y estos esto es. Este servicio de descubrimiento tiene dos procesos diferenciados. Por un lado tendríamos el proceso general del descubrimiento que se va a ejecutar cada vez que se carga en el sistema, que cabe que es un sistema, y luego está el enriquecimiento continuo que está ejecutándose en segundo plano continuamente aplicando el descubrimiento de enlaces sobre los datos que haya, está encargado, que ya está calado en el sistema o si, por si acaso, en el momento en el que se hizo la carga nos hubiesen en el que, porque no estaban dados de alta, que se haga posteriormente, o también puede darse el caso de que se cargue un ejemplo de una persona o con pocos datos. Posteriormente se vuelva a dar de alta vez esa misma persona con más datos y a lo mejor de forma individual no se puede llegar a descubrir en la que está cargada del sistema. Con todo su conjunto de datos ya, digamos, tiene más metadatos. Esa es la entidad ya con el conjunto de datos global que se han ido acercando en el sistema. Esta parte del crecimiento continuo ya es capaz, equivalen a estos otros actores externos. Este proceso general de descubrimiento se cuenta cada vez que se va a cargar unos rebeldes que se carga a través de la carga. Con los datos provenientes de un repositorio haya configurado previamente, han sido transformados con el servicio XML. El proceso, lo que hace es que la carga añade la rdc a una cola de Ravi y posteriormente este servicio del descubrimiento es leer los elementos que están en la cola de Ravi y procesando a 1. Esto está hecho así para que el procesamiento de estos se hará de forma secuencial. Puede darse el caso de a la hora de cesar o, por ejemplo, en el caso particular con el que hemos hecho más pruebas, que es el caso de los currículos, en un currículum y en particular puede haber, por ejemplo, 50 personas, porque una persona tiene un currículum que ha hecho igual, ha creado 100 documentos. Si esos documentos tienen cada 1, dos o tres autores. Entonces dentro de una religión puede haber personas, documentos, por ejemplo, a la hora de atacar estos estos pisos externos. Esta carga puede ser relativamente lenta porque esto ya no depende tanto de nosotros, que estos pueden tener. Una respuesta de cada petición, igual un segundo hecho, hay una tarda igual, 20 segundos. Entonces, cuando se va a cargar con un currículum en huelga de este proceso, puede demorarse varios minutos, se hace de forma secuencial para que, hasta que no se termina de cargar un currículum y se consolidan los datos dentro del proceso siguiente, porque si este proceso se hiciese en paralelo, podría darse el caso de que en paralelo llegasen dos por una misma persona, por ejemplo, si se procesan en paralelo uno no se daría cuenta de que otro rdc que está procesando simultáneamente puede contener a la misma persona que habría encargado 200 personas, dos entidades que realmente eran la misma persona al verse de forma secuencial. Garantizamos que cuando se procesa una red de los datos de la gente que no están cargados en el sistema cuál sería el proceso de la carga, mandar, nave tripulada al descubrimiento de este servicio de descubrimiento destacado. Fue transformado desde la cola de rape. El servicio de descubrimiento trabaja con, con el rdc memoria que obtienen la carga de toda la memoria, se le aplican los procesos de forma interactiva, de forma que se va enriqueciendo; tenemos memoria, tenemos una memoria y se pueden ir agregando, por ejemplo, triples que hayamos recuperado en el descubrimiento de la o se puede modificar entidades que tengamos con con, con el enlace de la entidad que hayamos detectado en la reconciliación, que está ya cargada en el sistema. Cada cada vez que se hace un que se descubre un enlace o o que se actúa sobre este revés puede ayudar a que, por ejemplo, podremos tener una red que detectamos, que una persona estaba ya cargada en el sistema, entonces digamos que estaríamos en la reelección; memoria con la guarda de la persona que está cargada en el sistema. Posteriormente, al haber detectado esa persona en el sistema, nos puede ayudar a que otro elemento del que anteriormente no habíamos detectado la reconciliación ahora sí que podamos detectar con la reconciliación, porque el proceso que ya hemos ejecutado, con el, con la otra entidad que hemos reconciliado, nos ayudaría a crear esta otra entidad. Esto se va aplicando de forma interactiva. Hasta que llega una interacción en la que no detecta ningún enriquecimiento con ninguna modificación adicional sobre este. Tenemos memoria. Como resultado de la aplicación del proceso de descubrimiento pueden suceder dos cosas. Si no hay ningún problema leve es ambigua. Con el proceso de reconciliación se envía al que se si dejamos que se ha aplicado la reconciliación exitosa para las entidades o ha habido varias entidades que están detectado en el sistema, pero normalmente, pero si hay algún problema de ambigua, es decir que haya una entidad en el que, por ejemplo, que se vaya a cargar, que consideramos que puede ser otra que está cargada en el sistema pero no llegamos a tener la suficiente seguridad de que se trata de esa entidad, este referéndum se publicaría y se quedaría a la espera de que se resuelva el problema de esa cuestión de forma manual. Esto es lo mejor en el taller de la semana que viene, pero esto sería un ejemplo. Es un ejemplo malo porque es un ejemplo que hemos hecho con comprobar. Por ejemplo, esto sería una sincronización. Se ha detectado un problema de sangre o acción? Qué veríamos? Tendríamos, por un lado, intentado cargar una serie este sería en las redes que se está intentando cargar. El problema es que para esta entidad desde este Gaspar Francisco Ros Berruezo debía estar aquí; vale para esta entidad que tenemos. Los datos que hay aquí llegamos a la conclusión de que se puede tratar de estas otras entidades que están ya cargadas en el sistema cuando estén, y quiero que estaríamos visualizando, primero sería el de que se quieren cargar nuestro cargado en el sistema, pero llevamos a alguien que tratase de los datos que ya están cargados para que el administrador esté realizando estado en esta ecuación. Ahora sea capaz de comparar los datos de que se está intentando alargar, esto no un poco lento para que compare estos datos y si se trata realmente o no de la misma entidad, esto lo vamos a ver en detalle. En el año seguro que esto va un poco lento y no van a estar. Ya podríamos estar más tirada, se trata de la sucesora de una entidad que se llama igual, pero en este caso el nombre acaba en un guión. Vale? Esta entidad tiene una serie de, tiene muchos datos, tendrán una serie de datos. Entonces el administrador tendría que decidir otra, la misma opción o no por ninguna de las anteriores, y en función de eso decide si quiere enriquecer el de redes. Con la opción que haya seleccionado lado procesar si quiere descartar esto, lo que haría sería descartar, no aplicaría ninguna de estas elecciones, pero volvería a intentar ponerlas el caso de que en un momento en el que ese proceso no no de guardar conclusión de que se trataba de alguna entidad, pero sí posteriormente se han adherido más datos dentro del sistema. Igual si se vuelve a procesar podría darse el caso de que automáticamente se devolviese solo estos conflictos. Lo que me está podrían descartar directamente no cargarlo el sistema. Todo esto lo veremos en el taller. Luego tendríamos el proceso, el crecimiento continuo que se va a ejecutar con una periodicidad establecida y se aplica el descubrimiento de enlaces a los datos están cerrados, ahora vemos en el entorno de desarrollo, lo tenemos puesto para que todos los lunes a las ocho de la mañana, todas las cantidades cargadas y intentando intentando enriquecerlo con estos externos configurados el objetivo es detectar y añadir. La es el descubrimiento de enlaces. Queda así dentro de los sistemas externos, posteriormente a la alta del revés, el telégrafo. La reconciliación de entidades. Este proceso tiene como entrada un error en el generador del XML, proveniente de la plantación, el tedh, el proceso de reconciliación entidades va a estar apoyado por el proceso de descubrimiento de equivalencias, esto realmente, que podríamos tener. Por ejemplo, imaginemos que se cargaron una persona que vamos a cargar al paro con un documento. Existe en el sistema, tenemos ya cargado un documento y a priori la única cosa que tienen en común es el podría ser el nombre, porque los documentos no coinciden, pero como estamos cargando una vara para hacer un documento equis, si hacemos una, cuando hagamos el proceso de descubrimiento de enlaces vemos que, por ejemplo, no hay un Álvaro Palacios por un documento es detectar que se trata del mismo y lo que queríamos, y adicionalmente si es Álvaro para que además el documento equis también tuviese el documento, y nos apoyaría para saber que se trata del mismo Álvaro Palacios que tenemos, cargado en el sistema con el documento y porque quiere estar ya para ir por esos documentos. Por ejemplo, para llevar a cabo esta reconciliación de entidades, algunas poblaciones establecidas en ficheros, reconciliación j son. En el que se especifican las reglas que tiene que llevar a cabo el sistema para esta evaluación de entidades. En este fichero se configuran las reglas por cada tipo de entidad, por su real decreto. Si se tiene en cuenta la herencia de clases, es decir, que podemos tener configuradas una regla, por ejemplo, para los documentos. Dentro de la antología ver, por ejemplo la clase juvenil tiene sus clases, como pueden ser artículo académico o capítulo del libro libros, por ejemplo, es todas las configuraciones que estén especificadas para leer el documento también se aplicarán a todas las clases que heredan de este terreno. Para cada una de las configuraciones hay tres propiedades para si el error, la clase a la que va a dar la configuración y teniendo en cuenta la herencia, la propiedad, que son las propiedades que se van a utilizar como identificado, podríamos tener en el caso de las personas, porque por ejemplo y luego en Properties que estaría el grueso de esta configuración, estarían las propiedades para detectar el grado de igualdad entre dos entidades. Dentro de cada uno de los elementos de la propiedad que tenemos. Aquí se establecen varios parámetros para detectar el grado de igualdad de las entidades, luego luego veremos los números y luego veremos un ejemplo concreto. Por un lado tendríamos la propiedad, que sería la propiedad a tener en cuenta la reconciliación. En caso de que tengamos tres arrobas implicaría un salto que luego lo veremos. Lo que quieren, un interrogante que puede ser el propio Mandatory, no nos indica si el cumplimiento de esa propiedad es condición necesaria para considerar a dos entidades la misma y el inversor que nos haría si la propiedad, del que hemos configurado en el punto 1, va a ser una propiedad directa o una propiedad inversa, es decir, si fuese una propiedad directa, sin una propiedad en la cual el elemento que queremos ver, su elemento al que queremos aplicar la acción sería el sujeto si fuesen Barça. El elemento al que queremos la reconciliación sería el objeto de la, de la propiedad. Luego tendríamos otro otra propiedad que sería que sería el podio, igualdad que se debe cumplir, que serán estos es una numeración que tendría estos cuatro equipos. Cuáles esto se aplicaría para que el valor de la propiedad sea la de la propia? Era tal cual el digno de casa sería similar al punto anterior, pero, ignorando mayúsculas, minúsculas, luego tendríamos que sería el uso o que significaría que utilizar para esta comparación el algoritmo para nombres de personas, luego luego tendríamos que sería el uso de algoritmos para los títulos de documentos, por ejemplo, otro parámetro que en el caso de que el tipo del punto anterior se haya seleccionado tres de tipo título implica el número de palabras que debe tener el título para considerar el máximo valor. Cuando esto quiere decir que, por ejemplo, en un documento tenemos configurada la igualdad de su propiedad, es decir, o 3, como sería el caso de Max, por ejemplo, y esto lo que querría decir es que si si dos títulos coinciden y tienen una longitud de de 10 palabras, por ejemplo, ya tendría el máximo peso en esta similitud. Si en lugar de palabras se hubiese solo cinco palabras, pues tendría un 50 por 100 de esta similitud, el escollo positivo, que sería la la puntuación positiva que se va a dar a esta relación en caso de que la relación se sea posible, se lleve a cabo, y el negativo, que sería se utilizaría para arrestar. Al exponer que vamos a acabar obteniendo global para valorar la igualdad entre dos entidades, se active lo que haría sería restar a esa puntuación que va a estar entre entre pero sería que no se trata de la entidad. Uno sería si estamos prácticamente seguro, se trata de la misma entidad y entre medias, pues, pues estarían las las lagunas. Aquí tendríamos, por ejemplo, un fragmento para la configuración para las entidades de persona. Esta configuración indicaría que el ltte al que afecta sería las personas que tendríamos una serie de indicadores que nos con esto. Lo que haríamos sería la nación. Por un lado, en primer lugar, se miran los identificadores. Si vamos a cargar en el sistema, por ejemplo una persona y para esas personas tenemos, se haya cargado en el sistema una persona coincida con conexión que consideraríamos que se trata de la misma persona, luego estarían aquí la serie de propiedades configuradas en el caso particular de persona para ir apoyando la. La reconciliación, por ejemplo, tendríamos que la propiedad nombre en este caso sería obligatoria, es decir, si se la va a verse obligada, sería obligatoria. El inverso. Sería falso. Que es una propiedad, es la persona que tiene una propiedad nombre; luego apunta a un objeto que va a ser lo que se va a comprar. El tipo dos sería que internamente se va a utilizar el algoritmo de nombres. El escollo positivo sería la la puntuación máxima, es elevada a ésta a la hora de valorar esta reconciliación y luego tendríamos el negativo que en este caso, no se aplicarían nada. Aquí tendríamos, por ejemplo, en este caso si ciertas personas se llama ser exactamente igual, pues tendrían una puntuación de con 89. Entonces ahora mismo no sería suficiente para charlar, para considerar la misma entidad. Tendría que superar cero con nueve solamente con el nombre. No sería suficiente para considerar que dos entidades son la misma porque puede haber dos personas que se llamen igual luego habría otra serie de para ir apoyando esta recuperación. Primero se haría. La parte del nombre es la que es obligatoria. Podríamos obtener si se va a cargar un Álvaro Palacios o tendríamos en el sistema a todas las personas. Por ejemplo, como candidata, serían. Se llamen Álvaro Palacios o a punto Palacios o a Palacios y otro apellido. Por ejemplo, todos ellos se tomarían como candidatos, con diferentes puntuaciones del mismo nombre que luego realmente se le día, sumando, restando puntuación en función del resto de propiedades que, por ejemplo, tendríamos una persona, puede participar en cosas a través de la propiedad. En este caso sí; si dos personas quieran cargar y la que está cargada, por ejemplo, participan en la misma cosa y añadiendo más más es positivo o, en caso de que tuviese el mismo correo otra cuestión añadiría más, más Skone en este último caso igual es el caso más más completo que tenemos las tres arrobas y el interrogante, y además es el tipo inverso. Esto es porque realmente una persona no apunta directamente a un documento que allá del cual sea auto, sino que es el documento el que tiene una propiedad. Autor, autor. Apunta a una entidad que sería una actividad o lista de autores que luego posteriormente tiene una, podría tener una propia autor. Uno se apuntase a un autor. Autor. Sea otro autor. Crees que apuntase a otro? Entonces, aquí con esto de la guerra, especificar que el documento va a tener una, perdona, la persona no perdona cómo es inversa? En este caso el documento tiene una propiedad de lista de autores que luego hay que hacer otros altos, y es de interrogantes, porque podría ser otro uno o dos su autor 3, que acabaría juntando a la persona en cuestión. El flujo para la reconciliación de entidades sería el siguiente se lee y se obtienen todas las que se carga de memoria dentro del sistema de trabajo, con memoria y se obtenían todas las entidades para las que haya que realizar la reconciliación, y por cada una de las entidades se hace una consulta legal de texto en la base de datos cargada, para obtener posibles candidatos para la reconciliación con las propiedades que estén configuradas. Para llevar a cabo esta acción en primer lugar se vuelca si existe alguna entidad, ya que si estamos hablando una entidad con una web que está ya cargada en el sistema se consideraría que es la misma directamente en el caso de que no se haya no haya ninguna entidad con esa web si se va a cargar cuenta. Con el identificador se intenta la reconciliación a través de este identificado como podría ser el caso, porque si existiese una entidad grada, que comparte siguiente, se consideraría y en caso de que tampoco se haya encontrado nada se buscarán las similitudes con las entidades ya cargadas para cada tipo de entidad. Utilizaremos las reglas establecidas en el fichero que hemos visto antes. Una vez obtenidos todos los candidatos, se aplicarían la regla de cálculo para obtener las entidades ya cargadas este punto. Además, es apoyado por el descubrimiento de la escoba comentado antes en función del resultado obtenido para cada una de las entidades, que se intentará reconciliar, se realizaría una de las siguientes acciones. Sí para alguna entidad hubiesen más de un candidato que supere el umbral máximo, o sea solo por ejemplo, candidato que superase el umbral mínimo, se a la base de datos junto con todos los datos necesarios para una revisión manual de la pantalla enseñarla antes que no lo veremos en el taller de la semana que viene para una sí para alguna entidad sólo se ha tenido un candidato que supere el umbral máximo, se modifica la uefa dentro del cargar con la ue de la entidad encontrada. Se obtiene de las entidades principales del y se eliminan todos. Los triples fue Reverte en nuestra patata como sujeto u objeto entonces por las entidades. Además, se pueden enmarcar o entidades principales, lo que haría sería que esa entidad está completa, que se va a cargar y en ese caso se dan todos los datos. De esa entidad estuviesen en el sistema y se sustituiría por mentira, cargando se eliminaría también todos los triples de las entidades o el sujeto dedicado a cargar marcadas como según el auto Nokia. Es decir, por ejemplo, en la antología, está especificado que un documento tiene una lista de autores. No puede tener dos listas si un documento estuviese 20 autores, pues tendrá un elemento lista de autores, 20 autores. Entonces, si se va a cargar en el sistema una una entidad con una con una lista de autores, se eliminará la lista de autores previa que había de la de la santidad y se añadirá esta nueva, que se está cargando finalmente, se vuelca en los triples al grifo r. Este sería el algoritmo de nombres que hemos utilizado. Para la el ejemplo que hemos visto antes lo primero que haría este algoritmo sería reordenar la cadena, aunque más apellido. Si aprecia una coma, por ejemplo, si hay un, pero lo hará como hasta ahora, después el nombre y apellidos, por palabras, retirando esto como artículos, títulos guiones, y realmente cualquier carácter que no sea textual, por así decirlo. Si tuviese un paréntesis o o similar, también se eliminaría, se considerará la puntuación de las plazas, un coeficiente de con cinco si no se supera el resultante, sería 0. Se otorgaría un puesto fijo del cinco inicial. Por ejemplo, Eduardo y Andrés, lo mismo que se vaya a cargar un Álvaro Palacios y Álvaro Palacios, se vaya a cargar un apuntó Palacios y el sistema, un Álvaro Palacios. La punta de una palabra hará pero si no aparecen en el orden adecuado, aquí tendríamos con el algoritmo actual. Por ejemplo, si se intentase cargar en el sistema una persona que se llama Ángel Pérez Lara. Aquí tendríamos un ejemplo de ciudades que ahora habría cargadas en el sistema. Estas de la izquierda estaría en las que superarían el corte de cinco que consideraríamos. Tendríamos en cuenta, a la hora de realizar este esta reconciliación con el resto de propiedades. Sería el correo o la puntuación que tendríamos, estos eran ejemplos de otras entidades que no superarían el corte y directamente no. No tendríamos en consideración a la hora de realizar esta acción. Lo tendríamos el descubrimiento de enlaces que buscarían diferentes ha configurado la coincidencia de publicaciones más autores, es decir, que a la hora de descubrir enlaces a los pisos externos como el LP o o demás, tiene que existir al menos una relación entre la publicación y el autor que no vamos a considerar. Si se va a hablar en el sistema, una persona que haya una persona que se llama Álvaro Palacios no podemos considerar de buenas a primeras de la misma. Sólo con esa información entonces hay que apoyarse en los documentos que se va a cargar junto con los que nos encontremos en estos externos. El nombre de la autora de la posesión no son suficientes para considerar la mentira. Se utilizan en el caso de que exista una relación entre los nombres de ambas entidades. Luego, por otro lado, cada uno de los pisos externos tiene sus particularidades. Hay diferencias con lo que se puede hacer en cada uno de ellos, por lo que la integración que se ha hecho durante esas, aunque en general es la misma, se ha hecho de diferente manera. Cada una de las integraciones que haya, por ejemplo, si se les puede consultar por nombres de personas directamente todas las personas que cuenten con todos los documentos, otra consulta por persona puede volver la lista de personas, y posteriormente habrá que preguntarle por el momento de cada persona, y hay otros directamente en la consulta, en lugar de por personas que hayan votado por documentos y luego dentro de cada documento puede devolver igual su lista de autores. Entonces, cada cada pista implementado sacada integración con el que está implementado en función del funcionamiento de esta pista. En esta parte del mundo, cuando hicimos estar en la presentación con el equipo de desarrollo. Estos estos enlaces, que se cargan con él con el pie externo, se carga junto con unos triples. Con el dato obtenido desde una fuente externa se carga en un brazo de cara a este. Por ejemplo. Por ejemplo, de un código ir recuperado desde desde la interacción tendríamos la izquierda, el la entidad a la cual será recuperado el identificado simplemente como sujeto a la entidad propiedad y identificado, y en este otro gráfico qué sería el rasgo de los datos, digamos, obtenidos de tendríamos que esta entidad, la misma entidad en el otro brazo, tenía una actividad. Ese sería en este caso esta vida sería el triple con la procedencia. Caso sería esta propiedad de este sería el valor de este triple añadido, y se hace también la la fecha en la que se le la fecha de inicio y fin del proceso que se encargó de recuperar esta. Pero esto lo vamos a ver. Aquí tenemos, por ejemplo. Por ejemplo, tendríamos para este Pablo Conesa, por ejemplo, se ha recuperado este que, a través del descubrimiento de enlaces este sería el valor de la página de la información. Pero. Tendríamos la información de este Paulo con esa Zamora y tendríamos el la piedra del cual hemos obtenido este dato. Profesor particular, el código se puede obtener entre otros, y esta sería la la fecha en la cual se recuperó este dato de la votación que hubiéramos también se ha obtenido a través de la que se obtuvo, a la vez que se obtuvo este otro. Otro código. Pero tendríamos enumeradas las diferentes fuentes externas que se han utilizado. Tendríamos un lado Kroos. Tendríamos especificado el, las, las llamadas al ala pide que sean utilizado para este proceso de descubrimiento de enlaces. En este caso, por ejemplo, está solamente un método, pasa el nombre del autor y se obtiene de las publicaciones como autor. El parámetro que se ha pasado también hemos usado debe leer bibliografía y en este caso, usamos 2, dos llamadas a su hogar. Por un lado, hacemos una petición con el nombre del autor que nos devuelve a una lista de autores, y posteriormente, que hacen otra petición por cada uno de los autores, para que nos den formación adicional cada uno de estos autores, también tenemos integración con Doha. Creo que le damos 2, 2, dos métodos. Por un lado, una piden artículos y otra se nos pasa como parámetro. El nombre del documento realmente no hemos implementado la orquesta. En primer lugar, se hace una petición para obtener con el nombre de los autores, que no se devolvería los nombres de los autores, y posteriormente habrá que esperar otra petición específica para obtener otros datos del autor, que nos podría devolver. Otros y otra petición a un método específico, dándole el identificado de lo devolvería. Todas sus publicaciones? También hemos integrado con comer, utilizamos también 2, dos métodos. Con el primero hacemos una petición por el nombre del documento o tendríamos los identificadores y con la segunda precisión, o tendríamos ya, los metadatos correspondientes con cada documento particular. También usamos recolecta con una llamada a ésta, un único método de Stuart también para buscar por el nombre de los documentos. También te damos 2, dos métodos. Primero obtenemos los documentos en función de su título. Eso nos devuelve las publicaciones, junto con los identificadores de los autores y, posteriormente, otra jornada con cada uno de los de los autores para obtener datos de estos autores, huevo huevo Salles, quedamos únicamente un método con los nombres de las publicaciones y que nos devuelve un listado de las publicaciones junto con los autores de las mismas. Luego tendríamos la detección de que este proceso utiliza la información del para detectar equivalencias, entidades, entrenado y unidad, al detectar estas equivalencias, añadir a los triples seis más a las entidades para que estén relacionadas entre los nodos sg y unilateral. Es decir, que ese las entidades tendrán una propia serie más que apuntara a esa misma entidad. Dentro del no de unidad y de las entidades, por un triple 6. Más que apuntara a los diferentes grados en los que estén esta entidad cargada. Al no haberse podido obtener los valores de unidad y acuerdo de reconciliación, tras enriquecer los datos de las entidades, con los datos de los identificadores que haya que hayamos obtenido de unidad, esto tampoco poco entonces, en resumen el flujo de la de la carga de datos aplicándole todos estos procesos para realizar una carga general, que sería un poco lo que lo que veremos en el taller de la semana que viene, estará liderazgo y proporcionalidad, no se sabe que Merche. En primer lugar, habría que localizaron repositorio mh sí; el repositorio está ya creado. Habría que configurar el conversor que hemos visto antes XML Rh. Para que transforme los datos de ese mh a los rebeldes. Si hacemos un servicio nuevo podríamos utilizar alguna de estas configuraciones para adaptar el XML de respuesta para que se transforme directamente a transformaciones o hacer un servicio que devuelvan directamente el formato de. Tenemos interpretado, por ejemplo, los los currículum una vez creado el repositorio habrá que configurar la frecuencia de las actualizaciones. Sería en la página que he visto aquí antes. Tendríamos diferentes repositorios luego, para cada uno de ellos, por ejemplo, se podría configurar la reposición de las. Entre las tareas de sincronización es un ejemplo que tenemos en la que, a través de una expresión se puede. Si conocéis aquí cuando se crea la tarea vale, pues esto sea un ejemplo de una expresión. Esto haría que se ejecute. Esta sincronización, por ejemplo, todos los días a las cuatro cinco a las cuatro siguientes y funcionar sería mañana a las cuatro 5. Si hiciéramos esto, se ejecutaría todos los ocho 30. Esto haría que esta ejecución se realizase todos los lunes a las ocho media. Una vez que está configurada esta sincronización, cuando llegue la hora, se se ejecutará se cargarán los datos y en el caso de que se haya producido algún error de desaprobación. Habría que intervenir en la página que no está. Vale para parar. Si hubiera algún problema de desactivación, estarían estados y habría que intervenir si la persona en cuestión que se está intentando cargar se trata de algunas de las que nos está yendo. El sistema. Entonces era un poco más o menos lo contrario? Vale? Con esto ya estaría concluido. No sé si si tenéis alguna pregunta o alguna consideración. No, yo supongo que esto cuando vemos en el taller, cuando dicho. Si el jueves puede ser este jueves, la semana que viene, la semana que viene, semana que viene, cuando veamos, está claro que tengo que preparar para entender es un servicio o tengo que preparar un servicio. Me ha hecho un poco a medida para que se, para que se puedan hacer pruebas simultáneamente varias personas y demás, que no nos pegamos todo el proceso normal. Sería que se crea un repositorio de mh y se va gestionando lo que sea, pero para que podáis varias personas simultáneamente voy a preparar un juego de datos y demás para que veáis un poco como cómo es este funcionamiento y trabajaremos sobre una. Llegamos sobre un entorno limpio para que veáis bien todos estos procesos vale alguna otra cosilla que queráis comentar. Bale se aparece, aparecieron útil o más o menos a más o menos, haces una idea un poco de cómo funciona todo este proceso, no, si está bien que lo que hace cada pisada lo que hace que, como como tener una idea de conjunto de todo lo del proceso, cuando hay algún momento que tengamos que intervenir, que sepamos dónde a dónde dirigirme, no hay nadie dando palos. La semana que viene ya en el taller, pues ya veréis un completo proceso esta tarde alta. O la sincronización, gestionar estos errores. Esto es más que errores, problemas de desarrollo ecuación y demás. Lo que veremos, vale. Pues sí si no tienes ninguna duda más o o nada lo dejaríamos aquí. De acuerdo? Vale, pues muchas gracias a todos y nos vemos entonces el jueves de la semana que viene. Realmente hasta luego.

Propietarios

Proyecto Hércules

Comentarios

Nuevo comentario

Serie: Formación ASIO miercoles 24 febrero GNOSS (+información)

Descripción

Formación ASIO miercoles 24 febrero GNOSS

20210304 2-Taller de descubrimiento

Canal

20210304 2-Taller de descubrimiento