Idioma: Español
Fecha: Subida: 2021-02-26T00:00:00+01:00
Duración: 1h 06m 08s
Lugar: Curso
Visitas: 1.137 visitas

20210216 1-Introducción a Linked Open Data

Transcripción (generada automáticamente)

Como comentaba, hoy vamos a dedicar la primera parte de la jornada, hasta las 12, 12 cuarto, más más o menos a hablar sobre en qué lugar, una introducción al Open Data y en segundo lugar el servidor limpieza táser verde Así. Para esta primera parte tenemos esta primera parte, se divide en dos presentaciones. Una buena va dirigida a a explicar o describir qué es lo que se nota en general y la segunda es estupenda. Tan relacionada. Entonces, comenzando. Vamos a comenzar por ésta. Es una presentación que preparó Diego López de Ipiña, para la semana pasada hace una introducción de alguien que con Montilla, con los siguientes temas. A tratar, que sea una definición de qué es lo que data, que son datos enlazados, que son datos abiertos, cuál es la diferencia entre datos enlazados y datos abiertos? Cómo publicar datos enlazados, y por último los aspectos económicos y sociales de los datos enlazados? . 22 00:01:44,525 --> 00:01:44,975 Aquí hay algo que decir. Bueno, que yo creo que ya lo hemos visto en alguna presentación anterior, que el uno de los objetivos que quiere disponer de un espacio de links Open Data, es decir, que sean datos enlazados y además datos abiertos. Digamos que la voz de los actos o el concepto de web de los datos viene a resolver una serie de limitaciones que tiene la web de documentos, que es la web tradicional. La web hecha con html la web hecha con html tiene mucha información, muy poca estructura y en principio está hecha para que la vea la gente es decir, que no está hecho para máquinas, es una cuestión táctica, no se no tiene algo de significado en el html, tiene sus etiquetas de tipo semántico básicas. Como una negrita, un título, una cursiva, en principio es una voz sin táctica, no se mantiene, y la búsqueda de contenidos es muy simplista sobre esta web porque digamos que busca sobre cadenas de texto, que puede reconocer con mayor o menor acierto, pero bueno, es una búsqueda simplista en la que no se reconocen entidades, esto indica que hacen falta métodos mejores, métodos mejores para buscar contenidos los que la web de documentos puede permitir. En segundo lugar, las los contenidos son muy heterogéneos tanto en contenido, una estructura como en codificación de caracteres, es decir, la misma web. Las webs. Tratan temas muy distintos con el mismo tema. Pueden tener una estructura muy variada. De hecho, la misma web puede tener un rediseño y cambiar totalmente su estructura y luego está el problema de la codificación de los caracteres y parte de los idiomas con caracteres latinos, pues sabemos que hay muchos que ya tienen sus variedades de si además hay otros idiomas que tienen otro tipo de de caracteres, árabes, chinos, turcos etc idílicos que son totalmente distintos lo que requiere el futuro, pues que exista una integración de información inteligente, básicamente de datos o datos con sus metadatos. Los datos enlazados de los datos enlazados son. Son la evolución de una web, basada en documentos a una web, basada en datos entre las 2. Hay dos diagramas aquí bueno, digamos que la voz de los documentos, que, por supuesto, es una mayoría no no tan gigante como la otra, sino muchísimo más; es un conjunto de documentos que están en las por enlaces la web de los datos enlazados, una web que datos con datos y conjuntos de datos con conjuntos de datos. Por tanto, esta representación que tenemos aquí es de una representación de la de una nube. De las dos que ya tiene un cierto tiempo, la que se ve en el núcleo no sé muy bien, pero hasta aquí debe que es un proyecto de ley de datos enlazados, muy importante, tampoco en el centro de sobre cómo es un contenedor ciclo perico, con el que muchas cosas se relacionan. Cuando esté terminado, uno de los que podría estar aquí sería sido la de la Universidad de Murcia en el ámbito que corresponda. Formación académica o información o información documental. Entonces, sí si hacemos una, hacemos una comparativa o una buena, una enumeración de las características que tiene la web de los documentos y la web de la web de documentos en La dos la web, datos enlazados, diríamos, que la web empezó como una colección de documentos que se publicaban online. Esos documentos están accesibles en los sitios web y están identificados por una web. Los documentos pueden contener y, de hecho contienen habitualmente datos sobre sobre recursos o entidades que existen en el mundo real, pero en principio son para ser leídos por personas. No entiendo entendidos entre comillas por máquinas. La web de los datos de lo que trata es de conseguir un acceso a los datos que sea legible por máquinas. Entonces los los datos estarían estarían disponibles, con formatos que las máquinas puedan entender, y se conectaría usando accidente y fallos identificadores de recursos uniforme informe sin únicos que están basados en la sintaxis de del protocolo. Http. Que, que permiten, tanto las personas como las máquinas, coger estos datos de coger esos datos para reutilizar los que son todos los factores que hemos comentado en jornadas anteriores, disculpas. Datos que sé que es que es un dato que sea elegible por una máquina. Eso mezcla datos, son datos. En un fármaco que puede ser interpretado por ordenador tenemos dos de dos tipos. No hay datos que además de ser legibles por por máquinas, son fácilmente legibles, perdón por personas como micros, formatos y desea y luego hay formatos de datos que ya son específicamente para para máquinas como se le oye. Allí hay una hace ya años que comenzó una iniciativa para. Bueno, pues lo que llama aquí democrática la web semántica que en realidad es no es tanto democracia como como hacer la hacerla real de la manera más simple posible. Entonces, qué es lo que se necesita? Se necesita que los datos estén preparados para responder a las preguntas de los navegadores y agente software, es decir, un agente software es un puede ser, por ejemplo, un bote de indexación, el bote Google lo deben, que llega a nuestra página a leerla y a indexar la para luego, poder ser la, ofrecer a los usuarios en general, en sus buscadores, estos datos, una manera de hacer accesibles estos datos son metal. En el html de la página web son Betis ataques. Son datos sobre datos que están empotrados. En una página web que pueden ser extraídos por buscadores y agentes de búsqueda por máquinas, hay tres opciones principales. Rfea un sistema. Bueno, pues tienen cierta complejidad, está está emparentado con un sistema más complejo. Había otro sistema que era mixto formatos que está bueno sea usado mucho. Está en que esa etiqueta se teme y el nuevo el más reciente, que son los mismos datos que está un nivel de complejidad intermedio. Ya veis cómo digamos que hay una declaración de que el exterior lo que hace, por ejemplo, es declarar que lo que está dentro es un tipo, software de ese tipo, software, aplique y sentido una propiedad que es al revés, que es de juegos, una aplicación, que el sistema operativo es Android, que la categoría de la aplicación es juego, que Apple vale esto sería una manera de declarar unos metadatos, el html, o sea, citados, incrustados en el azote de una página que, por ejemplo, que tuviera un catálogo de videojuegos lo que vería el usuario sería con el diseño, que si hubieran decidido sería requiere Android. Eso es lo que quería. Una persona lo que lee una máquina es una aplicación de software que se llama a sangre y vez la película, que igual vosotros habéis tenido la desgracia de ver con algún hijo. Android, no se refiere a un androide, sino ser ese sistema operativo específicamente y además dice que es un juego. Entonces, esto es información, que ya una máquina puede computar y entender, entre comillas. Entonces, por lo que todo esto es una manera de que la web, en esa página web, digamos, sigue cumpliendo el fin original de la web de documentos, que es que sea comprensible para humanos, pero también con los metadatos incrustados o empotrados. Es comprensible para máquinas. Una iniciativa que tuvo tuvo una cierta importancia en esto. Fue quemado, regiones que registró una iniciativa que lanzaron los grandes buscadores en el 2011 estaban bien Google, el buscador ruso. Entonces su iniciativa era ese. En ese momento hubo una cierta competencia entre formatos con antologías y demás, pero bueno, al final digamos que esto es un modelo, si se quiere, un modelo ecológico simple, con una sintaxis propia, en la que se define un conjunto de esquemas con los que definir datos y metadatos estructurados dentro de una página web. Entonces esto es metadatos, son reconocibles por los buscadores, por, por los motores de búsqueda, otras voces que pueden acceder al significado, digamos, de las páginas a los datos más que a a como sucedía antes, que digamos que el significado de las páginas o el contenido de las páginas se tenía que recoger mediante procesamiento del lenguaje que estaba expresado en el texto. Los populares de los que disponen. Estaban inspirados en formatos anteriores, como Nico a todos. Fue un. El sitio web público donde están manteniendo los esquemas es este. Lo veo el momento. Oh, oh, es un sitio web muy austero, muy la verdad que no ha cambiado mucho desde que salió y aquí estarían detenidos todos los todos los tipos de entidades que se queden. Definir mediante los datos incrustados con sus propiedades esto tiene una cierta jerarquía, es decir, un creativo, luego puede ser un boom, sea un libro o una película, etc. Y bueno, hay ahí sus tienen sus relaciones, no puedes ir de una organización muy genérica a un tipo de organización, más específica de una de un antiguo general, a un tipo más específico. Cada uno va heredando propiedades del nivel superior y el de la presentación. El objetivo es el poder tener dominios, sea el poder. El objetivo que tienes que ir añadiendo es ir añadiendo esquemas en dominios cada vez más específicos, para reflejar cosas concretas, como últimamente no ha hecho avanzar bastante. El modelo que tiene que ver con salud también con seguros en su momento ya hizo un avance muy importante, con productos cosas que tenían relación con la automoción o al final digamos que esto va avanzando en función de el afán de que tienen los buscadores, de ir captando datos específicos en áreas específicas, de su negocio que les que les interesa. Pues cuando alguien busca una receta, por ejemplo, pues con los ingredientes o que alguien, cuando alguien busca un producto, la valoración se ha aumentado, todo concreto para que sepa que eso es un cuatro cinco en fin son son digamos avances motivado siempre por la necesidad de ofrecer unos resultados de búsqueda más precisos y de reconocer las entidades que están en las páginas. Bueno, aquí hay algunos ejemplos. Segundo, aquí de posponerlo lo que sería el esquema de esto sería el que hemos visto antes en detalle. Esto es lo que se puede declarar mejor y luego tenemos tipos más específicos. Estarían por aquí que son más específicos, por ejemplo, un artículo artículo? Pues es un tipo de, tiene alguna propiedad distinta o adicional a las que tiene el creativo como tal; si fuéramos a 20, sería otra, etc. Si vamos a la página web, podemos ir a ver un ejemplo que nos puso Diego y de su página personal la que tiene mis datos. Yo. Para esto, por ejemplo, es bueno, es una herramienta que tiene Google, que va a estar lleva meses diciendo, sino años que iba a dejar de estar disponible, pero aún está entonces sí; si leemos la página de de Diego con la herramienta de prueba, datos estructurales que tiene Google, nos dice que ha encontrado metadatos para una organización, y una persona. Los datos de la persona. Son estos que aquí es un tipo persona. La imagen es esta, la web les está el nombre de su trabajo que trabaja, que tiene dos hijos esta y él el tipo de momento de afinación que tiene dónde está en concreto? Si nos vamos a la otra a otra entidad que ha detectado, es la propia organización en sí que es techo con su teléfono sur y la dirección. Bueno, aquí hay un error porque probablemente. Esto no es el tipo de valor correcto, pero bueno, aún así ha reconocido aquí cuál es la dirección, que es lo que serán de tipo lugar y las coordenadas de posicionamiento. Estos son sí si nos fuéramos a la página. Estática la página estática, tienen esta información y esto lo entiende, lo entienden las personas? Pues lo mismo. La información que el nombre de Diego López de Ipiña, que es profesor asociado, estaba en el texto, etc. Digamos que detrás de esto están los esos metadatos. Que una herramienta, datos estructurales como estas, capaces de recuperar y también un robo de búsqueda, como los de Google, etc. Si entramos a datos enlazados, que son, que son los datos avanzados como definición, podemos decir que es. Un. Es un conjunto de principios de diseño para compartir datos de Gines por máquinas. Este es el primer asunto. Son datos de forma que están publicados en la web, que pueden ser usados por administraciones públicas, empresas y ciudadanos. Tim Berners-Lee, que fue uno de los que. Por no decir, es que el que propuso el concepto en un pay por ahí fundacional del año 98, creo que en el que habla ya de estos asuntos cuando hago, pues, bueno, digamos que la web era solamente la voz de los documentos en la cabeza de casi todo el mundo verdi planteaba estos cuatro principios de diseño para los datos enlazados, usar y uniformes al siguiente y para nombrar cosas, usar, esto es que estos Yuri estuvieran formato para que la gente pudiera encontrar estos nombres, o llegar hasta estos hasta estos nombres mediante el protocolo. Cuando alguien llega a una de estas proporcionar información útil usando estándares, lo ponía estándar esposa, y los datos tendrán que incluir enlaces a otras para que la gente pudiera ir saltando de datos, dato descubriendo más cosas, igual que saltaba de páginas web en páginas web. Siguiendo los vínculos. Pero bueno, hay ahí hay varias maneras de definirlo o no, pero también podríamos decir que es un término que se usa para describir una buena práctica recomendada para exponer, compartir y conectar, porciones de datos, información y conocimiento en la web semántica usando gris y rbs. Aquella entraron poco conceptos más específicos de ella, no es compartir de cualquier manera, hablamos del agua semántica. Hablamos de reveses. Digamos que la propuesta es compartir o enlazar datos de una manera concreta, se trata lo que permite, es descubrir conectar, describir y utilizar. Todo tipo de datos es la web, una vez que comienza a existir la voz de los datos, crece bastante rápidamente. En septiembre de 2011 contenía 31.000.000 de tripletes, billones americanos, ligadas enlazados por 540 504 de enlaces. Esto evidentemente ha crecido muchísimo. De hecho, esta nube inicialmente tenía esta representación. Ahora es muy difícil de representar gráficamente bueno, él el croata, digamos que está pensado para abrir y con el vocabulario que pueda ser utilizado por la comunidad, la web semántica para cualquier cosa, es decir, tú pues el azar, un cantidad que se. No sé la definición de un. Una publicación lo puedes el azar, con la, con con el autor, con un tema, con un producto con un ingrediente, con un protocolo, con lo que sea con datos que en realidad están expresados e incluso con antología distintas, pero que tú puedes enlazar llevando los datos de una entidad a la otra. Un ejemplo de lo que trata, pues pues tenemos un, tenemos un autor que es Juan, se queda, se quedase el mismo que éste. Tiene una de, digamos, que tienen una, tiene una publicación, que es una agravio, es el que publica la revista, tiene un se ve, en la revista tiene una descripción: el diésel. Tiene ese este mismo porque tal vez tenga un un dominio distinto, es decir, la parte de dos puntos podría ser. Imaginemos gras, punto web, punto de barra, y se ve en el 9, 7, ocho el azul podría ser en vez de punto, pues podría ser dar un punto es nueve siete ocho Este y este sería el mismo la misma entidad tendrían una relación entre ellos, estando en repositorios de datos distintos en los que son resueltos por sitios web diferente, diferentes con dominios. Diferentes libro, pues podría tener un título, podría tener un autor, podría tener Suisse bne que sería aquí un público, etc. Esto es el digamos que estos son los datos enlazados la parte que representa esto, cada color, pues cada color en realidad son, son distintos, serían no dos en esta malla que hemos visto anteriormente de datos enlazados, cada uno de esos colores sería, serían datos que están en nodos distintos, pero del nodo verde, que puede ser un quiste. Algo que esté en una universidad o en un sitio web propio se puede ir llegando a sitios distintos. Enlazando datos. Los datos Los datos enlazados además permiten una bueno pues pues una serie de visualizaciones combinadas. Es decir, el. Si tú tienes, por una parte, datos datos brutos sobre si va a suponer que cada uno de estos es donde hay una central energética o no 2, donde hay fábricas de tipo y lo combina es, por ejemplo, con una tasa que tiene, es la incidencia de la contaminación, podría sostener buena la el, el gasto de calefacción o calor? Se supone de Bizkaia. Podría hacer una combinación de este tipo, combinando datos, con datos en este caso datos de posicionamiento con datos que tienen que ver con otras cosas. Un tipo de datos enlazados, particular son los datos de gobierno de gobierno abierto. Estos tiene una proposición de valores entre los que, por cierto, podríamos incluirlos los los datos que generan la universidad. Digamos que la propuesta de valor es que permiten una integración de datos flexible que permiten conectar datos que previamente están separados, incrementar la calidad de los datos porque en principio la demanda de esos nuevos datos va a forzar a que la calidad sea mejor que se vayan corrigiendo, va a permitir hacer nuevos servicios y reduce reduce costes porque los los datos se pueden reutilizar y no hace falta. Digamos, publicarlos una y otra vez en diferentes formatos. Aquí hay un ejemplo que sería el portal de los datos abiertos de Europa. Hay otro portal de datos secretos de España que se datos punto por punto. Es bueno en general, cada vez más, y más administraciones públicas tienen sus propios portales de datos abiertos en los que en general intentan. Hay un cierto intento de exponer datos enlazados, con mayor o menor fortuna, pero bueno, en general, de su movimiento, que le sienta estos cuatro principios que hemos visto antes, en la práctica, no cómo y para qué se usan. En el caso de los los hubiese, usan para si se usan como nombres para cosas y se usan en formato. Http. Para que se puedan resolver, para que se puedan obtener, por ejemplo, un ejemplo sería, es decir que éste sería la serie de una organización que es la en el sitio público Europa punto que qué pasa que probablemente pues bueno sí sí sí pensamos en esta entidad, la organización la unicef tiene este este y en este espacio web, pero, por otro, huyen de despedida y otro Audi tal vez el propio entonces. Esto digamos que permitirían, enlazando saltando de una caseta. Entonces, bueno, cuando alguien cuando alguien busca o a una uri, hay que proporcionar información útil usando los estándares y hay que incluir enlaces a otras. Entonces, por ejemplo, en el caso de que teníamos aquí en caso de ser. Bueno, en este caso es un concepto, un concepto de un escocés, un vocabulario que es bueno es, es, es un factor que permite definir esa euros corresponde al simple, el noble Juan y 6, asiste entonces aquí lo que se dice es que la este concepto hubieses tiene un concepto más amplio, que son las Naciones Unidas. Es decir, la oferta que permiten enlazar con otras entidades, qué bueno, aunque en este caso es tener el mismo dominio, pero bueno, podría haber estado. Aquí hay que decir, bueno, este matiz: que hemos comenzado un poco inicialmente, no que den datos; datos en la sala: los mismos datos abiertos; los datos abiertos son aquellos que pueden ser usados y libremente: reutilizados y distribuidos por cualquiera-como mucho suele ser ; suelen estar sujetos, a un requerimiento de atribución y una cierta licencia de que, bueno, que el resultado de reutilizar los datos a su vez tiene que ser abierto. Entonces. Datos usando estándares abiertos, pero que no tienen por qué estar públicamente disponibles. El matiz sería que puede ser que tengamos la pelota. Por ejemplo, vamos a obtener como resultado en Asia. Bueno, las cuatro reglas de izquierda otra vez que usa para identificar cosas, para resolverlas proporcionan información útil y las otras webs sí sí nos vamos a las. Lo que hemos comentado antes cosas es una secuencia de caracteres que identifica un recurso abstracto o físico. Tenemos aquí algunos ejemplos de de distinto tipo. Son recursos un país, una organización, por ejemplo. Rdc que corresponde a son las Chivas. Es confeccionan para representar los datos y los recursos de la web. Por contra esto ya lo hemos visto ayer es su lenguaje estandarizado un lenguaje y un protocolo estandarizado para recuperar, para consultar datos, Rhodes y recuperarlos. Lo que hace es que bueno, digamos que la información está expresada en triples. Tenemos sujetos dedicados y objetos un sujeto. Sería un recurso que tiene que estar identificado por una uvi. El predicador es un una especificación de la reelección que también es una uvi. El objeto puede ser un recurso. Otro recurso. Expresaba una uvi o literal ya un valor textual con el que el sujeto está relacionado. Entonces, por ejemplo, estoy de acuerdo si ayer ya habíamos estado en la hora de hacer consultas es parqué el que expresa este tipo de condiciones no que espera unas condiciones para el sujeto para el predicado, para el objeto, para para dos de ellas y en base a ese conjunto de relaciones entre los entre las partes del triple. Definir un conjunto de datos a devolver en este caso pues tenemos por ejemplo un triple que Madrid es la capital de España. En este caso el sujeto es Madrid capital de ese dedicado y Spain es un literal, pero también se podrá expresar de esta manera es que. Esto está mal. Por cierto. Si en Madrid Madrid es la capital de, también podría estar expresado como un como un, como Laurie. Esto corregir. Madrid es la capital de otro recurso digital, que es más amplia. Tim? Berners-Lee se le ocurrió propuso una clasificación de cinco estrellas para los datos enlazados, entonces, una estrellas que los datos están disponibles en la web, pero no con una licencia, pero con una licencia abierta, estar en cualquier formato quiere decir esto, incluso bueno, luego veremos un poco cada caso, pero un PDF con datos sería bueno, sería una estrella. El segundo caso sería con dos estrellas que los datos están estructurados y son elegibles por máquinas. Por ejemplo, en vez de como diciembre dio una imagen escaneada de una tabla, una foto, digamos, un fichero Microsoft en las tres estrellas. Los datos están disponibles, como en el caso 2, pero con un formato que no es propietaria es un ejemplo, sería usarse como así parece valioso. Excepto en cuatro estrellas los los datos están dispuestos de manera abierta. Un estándar abierto es parte del identificar cosas, de modo que la gente les puede dar y cinco estrellas los los datos están dispuestos, como se indica en la 4, además incluyen enlaces externos a los otros datos. Entonces, bueno, los los el camino, digamos, no para hacer esto. En primer lugar, pues que tus datos estén disponibles en la web, con una licencia abierta a hacerlos los disponibles como datos estructurados. Usar formatos no propietarios y para nombrar cosas de manera que la gente pueda enlazar con tus datos y luego proporcionar datos y otros datos para promocionar contexto, veamos que ese sería el camino hacia hacia las cinco estrellas que, yendo a al caso que nos ocupa, que es así pues es lo que se va a conseguir con el con los datos, tal y como están ese nivel. Si tal y como se van a publicar. Este sería un primer caso de una estrella. Los datos están disponibles en la web. Esto es un documento que tiene una tabla o es bueno en realidad esto es texto, no son datos estructurados, se puede interpretar una persona, los puede, podría copiar y pegar y ponerlos en una esterilla, utilizarlos o cargarlos, en una tabla base de datos, pero directamente no es un formato de datos. Entonces bueno. Qué ventajas e inconvenientes tiene tiene tener una estrella, no sea como consumidor, puedes acceder a los actos, los puedes almacenar, los llevará a otro sistema, lo puedes cambiar, lo puedes compartir y como publicado, pues es muy simple y no tienes que. Qué? Bueno que explicar de repetidamente a otros que pueden usar esos actos, eso lo echas ahí. Ni cualquiera puede usarlo. Con dos estrellas es que los haces los dejáis disponibles, en la misma tabla una cabeza parecida con datos estructurales, en este caso es un excelso entonces qué ventajas tiene pues que. Se pueden procesar directamente con los propietarios para calcular con ellos, hacer estadística, etc, y luego además te puede llevar a otros actos y como pues, aún es muy simple, es una publicación muy simple, incluso tal vez más simple que la de un documento, según cual sea el caso, no digamos que es rápido. Si esto es un formato no no no propietario digamos que es el Word PDF son formatos propietarios de formatos no propietarios que son el excesivo vr de Sony etc entonces bueno tienes tienes los los datos en este formato que son tienes los beneficios que tenías con las dos estrellas. Además, los los datos los puedes manipular como quiera sin sin tener que necesitan un software concreto, aún es bastante simple publicarlos, pero aquí sí que digamos que necesitas algún tipo de conversor o para exportar estos datos y a una herramienta en la que gestionarlos. Con cuatro estrellas que tendríamos este caso no son datos que están aquí en datos, puntos puntuales; por ejemplo, los comercios y todos esos municipios Santander dedicados a la venta al por menor. Entonces, los beneficios de las cuatro estrellas, los como consumidor de estos datos no los puedes enlazar con otros sitios, puedes hacer, tú puedes marcar para ir luego a por ellos otra vez. Puedes acceder directamente un recurso particular de los que están ahí con una sin descargar completo, es decir, si tienes 500 establecimientos el ejemplo que ponía anterior de Santander y cada uno de los establecimientos tienen un podría recoger los datos de uno concreto, que es así no sin necesidad de descargar todos, puedes se pueden reutilizar herramientas y librerías existentes para manipular estos datos y los datos los se pueden combinar con otros datos que pega tienen, pues que la tecnología requiere un conocimiento un poco superior tiene, tiene una curva de aprendizaje. No es tan inmediato como como lo que hemos visto hasta las tres estrellas, como las ventajas, aunque otros publicados pueden enlazar con los datos, con lo cual, automáticamente tus datos digamos, pasarían a tener cinco estrellas, y se pueden reutilizar datos y metadatos desde, y también los los patrones de diseño de las que existen muchos sin necesidad de desde el principio. Es decir, no, tampoco tienes que inventar todo cadáver como publica, ahora hay unas pegas que se necesita, necesitaba un tiempo superior para identificar los recursos, asignarles y tienes que definir una política estable de y gestión infraestructura para, para conseguir que las series sean persistentes y de nuevo, pues, bueno, esa es una tecnología que requiere un poco más de esfuerzo, las cinco estrellas. Pues bueno, los gatos, digamos que estos datos a otros datos para publicar contexto en este caso, pues ésta, estos datos, los fisios del secretario general de extensión, está enlazado permite enlazar con la siguiente entidad, de una u otra. En este caso, se tienen los beneficios todos los beneficios de las cuatro de las obras estudiadas, y además, se pueden descubrir datos más datos relacionados con estos datos se puede aprender directamente o el esquema de los datos, digamos, se pueden combinar datos de diferentes fuentes y, bueno, tener en base a esa combinación, pues generar nuevo conocimiento. Bueno, o cualquier cosa que pueda ser. Con estos, estas mezclas de datos, para las que no hay límite, como puedes hacer que tus datos sean, se puedan descubrir, puedan ser encontrados por otros y aumentase el contexto. La expresividad, la calidad y el valor de los datos. Entonces, bueno, en principio, será una mayor visibilidad a la organización que produce estos datos, porque de alguna manera, sus datos pueden ser consumidos desde desde otros sitios mediante estos enlaces que pega tiene para el público, que requiere una inversión en tiempo, dinero y tecnología y competencias, y tanto para consumidor como para hay un problema con los enlaces rotos las tienen que ser persistentes. Esto en un momento dado en un momento de creo que fue la primera semana creo que comentábamos el que de hecho en él dentro de las buenas prácticas desarrolladas de las buenas prácticas de desarrolladas en el proyecto, hay un documento que es una especie de de acuerdo de buenas prácticas que todas las universidades que deberían comprometerse hasta cierto punto a cumplir es decir que las subidas que se van a publicar van a ser persistentes hasta el límite de posible de si imposibles no es decir teóricamente. Si la Universidad desaparece pues sus datos posiblemente también no, pero dentro de las capacidades normales de una universidad los que se expongan tienen que ser persistentes y confiables que no van a desaparecer y no solo para convertir en rotos. El ciclo de debida digamos publicación de limpieza limpieza tengo nata El digamos que se. Hay una parte de seleccionar, modelar y publicar en la gestión de datos. Aquí digamos que primero se seleccionan los datos con un vocabulario, con antología y luego publicarlos, y los que consumen los datos lo que tienen que hacer es encontrarlos, integrarlos y reutilizarlo y proporcionar un feedback acerca de los datos. Aquí el digamos que están los la oferta y la demanda, entonces están los que ofrecen los datos y los que demandan estos datos. A la hora de seleccionar esa primera fase. No voy a publicar como el queso tengo, como. Entonces, ahí hay aquí una a una serie de condiciones. El tema de la transparencia. La publicación de estos datos es aumentar la transparencia y la apertura de los gobiernos hacia sus ciudadanos. Requerimientos legales que puede haber, esto. Hay cierta información que obligatoriamente tienen, que ser pública, tiene que ser abierta o simplemente se hace porque se desea. La estos datos son el resultado directo de una tarea de gobierno o es una actividad no esencial? Es esencial los los datos ya están disponibles de manera abierta o necesitan abrirse más. Cuál es el valor que se quiere dar a estos datos, si tienen un valor de compromisos por valor de tipo social o si se pretende. Obtener un valor de ellos, valor comercial y, por otra parte, si está para el público en general o es un tema de de integración con otros datos o de conexión con empresas y demás. Aquí pues bueno, el caso de ha sido bueno, ahí hay una mezcla de varias de estas cosas. Es decir, hay una, un, una cierta obligación de transparencia de publicar datos sobre qué hace una universidad como ente público. Hay unos ciertos requerimientos legales, pero bueno, ahí están, digamos que las universidades ya exponen ciertos datos de su investigación, pero bueno, es posible mejorar esa apertura para que los consumidores de esos datos puedan no solamente leerlo en una página estática, sino bueno, digamos, trabajar o poder consultar esos datos libremente. Los datos están relacionados con con comparte de la actividad pública de la universidad, es generar conocimiento para la sociedad, con sus procesos de investigación. En cuanto al tipo de valor que se espera, pues bueno, aparte de. Obtener el reconocimiento del público en general de dar valor hacia el dar valorar la investigación hacia el público en general y, por supuesto, les poner la investigación, pudiera ser que es bueno que los ingresos de la Universidad aumenten, porque su actividad investigadora es más conocida y, por tanto, aquellos agentes que pueden consumirla, pues lo lo podrían hacer más y, por otra parte, pues bueno, los los datos. Hay una parte, digamos, de datos que tienen que ver con o con la proporción de los datos de Asia. Tiene que ver con proporcionar si los hacia el público, pero hay otros que son son más de acogiese, en el sentido de que se van a integrar con datos de otras universidades para generar un valor aún superior. El proceso de modelar los este proceso, que hemos visto antes, el digamos que se trata de, de convertir, de hacer; que estos datos estén disponibles en un modo estructurado, comprensible y legible por máquinas esto es lo que se ha hecho. Nació con la Odontología Hércules, se han reutilizado vocabulario sí datos de referencia en el caso del vocabulario de las de antologías Hércules, en particular una serie de ellos que ya estaban en el ámbito de la investigación. Como vivo, cuando subes y otros. Hay procesos de limpieza de los datos, nació también de limpieza y de crecimiento de estos actos, aunque los datos vienen bastante o van a venir limpios y lógicamente porque es un sistema de gestión muy controlado, pero aún se van a incrementar esa calidad añadiendo datos y quitando posibles posibles ambigüedades. Esos datos se se proporcionará. Hay que proporcionar una buena información de licencia, iba a ser en Asia se proporcionan datos que describen y se usan; las tecnologías se mantiene pues se mantiene como etc para describirlo. Esto es lo que lo que significa modelar datos para alguien que data y lo que ya hemos hecho. En cuanto a la limpieza de los datos y metadatos, bueno, esto es básico. Claro que los datos tienen, que tienen que llegar a a esta publicación, pues ya limpios y sin ningún error, no. Entonces, se trata de solucionar posibles fallos, homogenizar, formatos o transformarlos, alinear inconsistencias, quitar duplicados redundante, añadir información que falta y asegurarse de que la información está actualizada. Todos los procesos que ya hemos descrito nació en jornadas anteriores, de validación y descubrimiento precedentes. Lo que tratan es de esto es decir, aunque no así los datos, están tan bien que nos puede pasar que llegue. Información aún así que pueda tener ciertas ambigüedades, por ejemplo, una publicación que hace un autor de una universidad puede llegar con supongamos otros tres autores de otras universidades, que es gente que no es tanto universidad, de la que no tiene datos, no les digamos entonces esa persona uno de sus autores, pues imaginemos que ese j, punto Carrillo, y otro es. O punto corcho. Entonces, el proceso que se hace la carga de datos de ocio, que sería parecido a lo que tiene que ver aquí de alinear inconsistencias o remover información, duplica redundante. Lo que tiene que hacer es ver si ese punto Carrillo y ese punto corcho coinciden ya con otros autores que pudieran haber entrado anteriormente al sistema, porque otro investigador también hizo alguna colaboración con ellos, y ya están entonces no tener en los datos enlazados de Horacio dos o punto. Corcho o un Oscar corcho y corcho o Jorge Carrillo y j. Punto Carrillo. Que la persona, sino tener una única persona. Aquí hay un ejemplo, es fácil con los 2. Los datos, digamos, que puedes tener. De partida, digamos, contener errores como duplicado, dos problemas, por ejemplo, hay una empresa que está repetida, pueden tener problemas de formatos, que los datos no están en formato de información. Puede ser inconsistente, del guión. Puede haber correos incorrectos y puede haber información redundante, es decir, con aulas y las no nos sirva. Entonces bueno, proceso de limpieza, pues tiene que dejar esto unificado. Es decir, una única empresa. La fecha de registro en un formato concreto, el país en un formato concreto y en los correos corregidos. Además del anterior, publicar datos enlazados, digamos, que hace, se trata también de romper un poco de estos. Esta será más sí o si la ubicación de los datos no es decir que los datos están en un almacenamiento, en un siglo y no salen de allí entonces, el romper de alguna manera o por lo menos, romper, hacer un pequeño agujero en los datos para que puedan ser accesibles les da más valor a los propios estatutos. Esto no quiere decir. Evidentemente, los datos privados son datos privados, pero en general, todo aquello que se pueda proporcionar como actos públicos desde el sector público, les les les va a dar un valor si no, probablemente les da un valor superior a lo que tienen. Si los tienes tú solo porque, bueno, están accesibles, sean accesibles para toda la web en general, y se pueden enlazar con otros datos o metadatos para eso el añadirle significado contenido darle contexto enriquecerlo y por supuesto permitir a la gente descubrir más información. Aquí algunos ejemplos de datos abiertos de datos pública reutilizables -Zaragoza Manlleu. Hubo catálogo de abiertas de esta semana en relación a la contratación pública. Sabe si hay también datos abiertos en la plataforma de contratación o en otro sitio? Pues buena pregunta habría que mirarlo a ver esto en el sitio de referencia. Los datos puntuados por entonces estaba: posterior rivales baloncesto estuvo bien que se molestó así las cosas, a mí me interesa también, bueno, luego luego documentamos cuando acabemos de acuerdo. Gracias a eso, a. Vale, hay 2, hay dos fuentes genéricas de datos del ataque, son importantes por su contenido enciclopédico y por su volumen, que son. Quienes tienen información parecida, pero enfoques distintos. Cualquiera, pasta creada por voluntarios, igual que Wikipedia son datos estrictos, que cualquiera puede editar. Digamos que trabaja con. Con conexiones con abstracto, con conceptos, así con. Con con este mes, con denunciados de estos datos. Tenemos aquí casos, no eres lo que es una, una documentación sobre tu o bueno, y aquí hay, y ahí hay una. Hay un servicio por el que se puede, se pueden lanzar consultas contra cualquier acto de despedida, es es un poco distinto. Es un proyecto que crea desde desde los datos de Wikipedia y permite hacer Lekue y se asocian con recursos y enlazar con otros ataques. Bueno, tener un poco, la diferencia es esto. El segundo. Estaba diciendo algo, vales -diferencias no que proporcionada, tabú-datos a Wikipedia, mientras que pide a extraer extrae datos de Wikipedia. La antología de está mantenida por la comunidad, algunos de los datos, se mantienen directamente en el sitio, mientras que de media es. Es más estática y la antología más estricta muy grata solamente bueno digamos frases alguien dice que algo es algo mientras que debe quedar, pues tiene, tienen hechos, que a veces tienen contradicciones entre ellos. De hecho, esto es uno de los problemas que tienen que que ciertas ciertos datos, pues no son solamente contradictorios, sino que a veces son directamente erróneos, o te pueden inducir a tener un error a la hora de reutilizar. Hay diferencias en la licencia. Bueno, aquí podéis ver un poco de algunos. Hay una referencia a las, a las diferencias que tienen, y algunos ejemplos de consultas y muy vida. La iniciativa aporta, es una iniciativa nacional, esa es una, es, es parte de una estrategia nacional de coordinación y de impulso de esta apertura de datos. Comentábamos datos que vienen del sector público. Los objetivos llevamos, pues eso son impulsar y coordinar la apertura de los datos dados por el sector público, estimular el mercado, ligado a la reutilización de esa información y contribuir a favorecer las condiciones para el desarrollo de las estrategias de datos en España. El punto de encuentro de Datos por entonces está intentado entrar antes para tratar de responder la pregunta que hacía Jorge que recoge un conjunto de datos expresados a cada uno como una entidad distinta, datos, puntos puntuales que a su vez, pues bueno, tienen diferentes calidades, digamos, hay algunos que son limpieza o que data, mientras que otros sí que puede pasar que sea incluso un PDF que esté en esa primera estrella de que veíamos antes. En cuanto a los datos, pues pues bueno, esto creo que los que estamos aquí somos conscientes de esto. Cada año crece el volumen de datos y esto es una. Una cosa creciente y difícil de estimar. Incluso si esto será esta cantidad, será más. Hay que decir que muchos de estos datos son datos que tienen un valor relativamente bajo, pero, pero hay un conjunto de ellos que tienen un valor muy alto, como ya sabemos, pues hay muchas empresas, todas las que viven, de lo que se ha llamado la economía de la atención de nuestros actos, pues generamos una cantidad de datos brutales que luego es bueno a estas empresas. Utilizan para vendernos una cerveza o proponer que cambiemos de coche, porque piensan que que nos conviene. Entonces, bueno, esto es una, es un volumen de datos que gigante que está promoviendo una serie de negocios, algunos de ellos. Dudosos desde el punto de vista social diría yo, pero hay muchos otros que van a tener un gran valor y nos van a aportar y pueden aportar. La sociedad, mejoras en muchos ámbitos, desde el ámbito de la investigación, que es en el que estamos a muchos otros. Aquí ya, bueno, hay ahí hay unos estatutos en los que se ve, de hecho, la la economía de los datos, costos de puestos de trabajo y crecimiento económico. Ya hay directamente cantidades que se atribuyen directamente a esta mejora, digamos, en el uso de los datos. En particular En turismo y En Energía turismo buEno evidEntemEnte El último año no ha sido muy buEno para ellos, pero hay una serie de iniciativas aquí de que se están haciEndo con los datos el análisis de los datos que puedan puedan ayudar a mantEner el nivel de buEno, no solamEnte a mantEner, sino a mejorar el negocio turístico En España, que es súper importante, y lo mismo, pues con la Energía, no mejorar las mediciones y usar los datos disponibles para ser más eficiEntes y usar mEnos Energía. Como se ve aquí hay un aumEnto En puestos de trabajo de cosas que tiEnEn relación con actividades que tiEnEn relación con el uso de estos datos. En conclusión, pues buEno, los datos Enlazados son un conjunto de principios de diseño para compartir datos elegibles por máquinas, En la web, datos abiertos y En las salas no son lo mismo, aunque puedEn converger OpEn Data, los cuáles son las? Los? Los cimiEntos de. La de los datos Enlazados, los datos Enlazados, ofrecEn unas vEntajas para integrar datos. Esto es. Esto es importante con muy poco impacto En los sistemas que los han gEnerado. Permite la interoperabilidad semántica y facilita la la creatividad y la innovación a través de declaraciones de declaración de contexto y conocimiEnto final. Os dejo aquí al final algunas referencias, esta presentación, esta subida. En la carpeta es tal, la de formación la tenéis disponible y con esto acabamos de la primera parte de la esto que tenemos, de la de ese primer módulo que tenemos hasta las 11. Si quieres, Óscar, esto que está comentando Jorge, si quieres puedes comentarlo. Ahora. Ahora vamos a aprovechar el tiempo de Javier Blanco, no ha sido nada, no le he preguntado de contratación pública, pero sí que hay trabajo hecho en contratación pública, la representación de contratación pública utilizando estas tecnologías. Entonces, el ejemplo más claro en Zaragoza. Y la Diputación de Huesca publicar oncología, impropio, digamos, describe lo que sería la contratación pública, pero antes de la del cambio de ley, una, un cambio en la Ley de Contratos. Entonces, no todos lo de la nueva ley de contratos está disponible la ley 2017, pero será bueno o bien un artículo científico también recibió toda esta pública. Como ha habido más avances a eso no puedo contar mucho porque son productos comerciales para generar eso claro. Es decir, cuando de contratación son complejos y para presentarlo, si para luego sabido invertir. Primero esto haría una iniciativa europea para publicar con datos abiertos la todos, todos las contrataciones, por lo menos a nivel de la Comisión Europea. Ahí estamos metidas varios grupos de trabajo y trabajo realizado ha pasado a pagar el texto es Goya, son productos comerciales, y aquí ya no tengo sábado que la grave lesión secreto industrial en lo que pasa es que lo que sí que es cierto es que estaría bien que yo creo que igual era por dónde iba tu pregunta Jorge a ver si había algún sitio disponible que tuvieran Lozano. No. Me refiero a que, por ejemplo, en la Universidad de Murcia, pues tenemos el contratante, pero llegó un momento que no integramos la plataforma de contratación y ya no publicamos nuestro perfil, sino que publicamos en la plataforma. Entonces, si hay toda la administración en mí mi pregunta era si la propia plataforma estaba ofreciendo datos, ya lo ofrece, en base a buscadores y distintos filtros, que tú puedes hacer, por ejemplo, yo soy una empresa y me interesa las licitaciones de este tipo de Bale, y mi empresa se dedica a esto. Puedo buscarla, pero me refería si ya ellos también, a parte estaban trabajando en este tema. Lo tanto esto ya no tienen grabado estos incidentes, no lo digo a ver, Vega o momento de grabación espera que la voy a pausar. Bueno, la tengo de tener la gracia.

Propietarios

Proyecto Hércules

Comentarios

Nuevo comentario

Serie: Formación ASIO martes 16 febrero GNOSS (+información)

Descripción

Formación ASIO martes 16 febrero GNOSS