Social Media: Cloud Computing+Web Semántica+Datos Abiertos (III): Linked Data Cloud

viernes, 21 de enero de 2011

Cloud Computing+Web Semántica+Datos Abiertos (III): Linked Data Cloud

Logo of the DBpedia projectImagen via WikipediaTerminamos este tercer artículo (Artículo 1, Artículo 2) sobre el tema Linked Data Cloud, tratando de analizar la aplicación TripFS, que si bien no la estudiamos en profundidad, lo dejamos para otra ocasión. Estos artículos nos hacen ver la estructura de los datos vinculados en la nube, cuestión importante para las empresas. Los Datos Vinculados son un subconjunto del movimiento Web semántica, en el que los datos de la red se codifican con significado usando tecnologías como RDF y OWL. La idea definitiva es que la red sea mucho más estructurada, lo que abre muchas posibilidades para tener aplicaciones Web “más inteligentes”.

Estos tres artículos sobre los Datos Vinculados en la Nube se basan en un estudio realizado por la Universidad de Viena, del Departamento de Sistemas Distribuidos y Multimedia, Liebiggasse 4 / 34, 1010 Viena, Austria


4. APLICACIÓN

TripFS ha sido diseñado como un marco de servicios modulares, que define plug-ins que pueden ser utilizados para ampliar y adaptar el sistema a las necesidades reales del caso de uso, los tipos de archivo para ser servido, y las características especiales del sistema operativo subyacente del sistema. Estas interfaces existen para los componentes de almacenamiento, extractores de archivo de metadatos, enlazadores archivo, y rastreadores del sistema de archivos (responsable para el rastreo de una sub-estructura de configurar el sistema de archivos) y los observadores (responsables de mantener la coherencia de la asignación entre URI basado en UUID externos e internos URI basados en archivos). La arquitectura del sistema se muestra en la Figura 6.

Figura 6: Arquitectura de TripFS
El núcleo de TripFS es una aplicación de servidor independiente, que ha sido implementado en Java puro, basado en el marco de la Web Semántica Jena (Una versión de evaluación de TripFS se puede obtener desde http://www.cs.univie.ac.at/tripfs). En el inicio, se arrastra una sub-estructura configurada del sistema de archivos locales, se aplica los componentes del extractor y el enlazador para rastrear los archivos, y se almacena el resultado triples RDF en una zona de triples (ya sea en la memoria o persistente). Se inicializa el componente de observador para supervisar el sistema expuesto, archivo sub-estructura, que a su vez notifica a TripFS de los cambios a los archivos o directorios. Posteriormente, el modelo RDF se actualiza en consecuencia, los extractores y las máquinas se encapsulan y se vuelve a aplicar a los objetos modificados.

Extracción de metadatos y del enlace. Hemos puesto en marcha los extractores sencillos que extraen los metadatos de bajo nivel de archivo, tales como nombre, tamaño de archivo o una suma hash que podría ser utilizada por ejemplo para identificar y vincular los archivos de la igualdad de todas las instancias TripFS diferentes.

Además, hemos puesto en marcha los componentes del extractor basados en el marco de extracción de metadatos, Aperture, que proporciona una gran cantidad de extractores para muchos tipos diferentes de archivos, incluyendo documentos de Office y los datos multimedia. Como una prueba de concepto, también hemos implementado varios componentes del vinculador: uno que vincula documentos, sobre la base de sus títulos, a los recursos en el conjunto de los datos DBLP : uno que une los archivos de audio a través del análisis de MusicBrainz con el título de la pista y el nombre del artista, y los archivos de enlaces a recursos DBpedia potencialmente interesantes a través del servicio de búsqueda de la DBpedia. Ambos, el conjunto de extractores y las máquinas para hacer encapsulados han de entenderse como una prueba de concepto, por lo que no aprovechan todo el potencial del enfoque que se presenta. Sin embargo, como se ha descrito antes, más extractores y máquinas para hacer encapsulados se pueden integrar fácilmente de acuerdo a las necesidades de un caso de uso real.

El mantenimiento de la coherencia. Hemos utilizado DSNotify [19] como una aplicación para el componente de observador. DSNotify es un cambio de detección add-on para fuentes de datos, que les ayuden en el mantenimiento de la integridad del enlace en sus datos. En su esencia, DSNotify extrae vectores de la característica de la consideración de entidades de datos que se utilizan en las comparaciones heurísticas para determinar si los elementos que ya no se encuentran en sus ubicaciones originales, de hecho, están eliminados o trasladados a otro lugar. DSNotify puede extenderse fácilmente mediante la aplicación de los rastreadores de costumbre, los extractores de función, y la heurística de comparación.

Hemos implementado un extractor de archivos genéricos de características para DSNotify que extrae las características de bajo nivel de los archivos locales (véase el cuadro 2), el conjunto de características extraídas utilizado por DSNotify se superponen pero no es igual al conjunto de atributos de metadatos extraídos y expuestos por el TripFS. En la implementación actual, estos últimos son los metadatos almacenados en el gráfico de RDF, mientras que cuenta con recursos DSNotify en sus propios índices. Además, hemos desarrollado una heurística simple que calcula la plausibilidad de que un archivo (descrito por el vector de la característica X) se trasladó a otro lugar (el archivo no está descrito por el vector de la característica Y). Esta heurística se compone de dos partes: primero comprueba la credibilidad que se lleva a cabo. Por ejemplo, si la fecha de la última modificación del archivo Y es antes de la del archivo X, no puede ser un sucesor de X. Otro ejemplo es que un archivo no puede convertirse en un directorio o viceversa (comprobado por el isDirectory de esta característica). En segundo lugar, una similitud métrica entre las demás funciones que se calcula utilizando las estrategias que figuran en el Cuadro 2.

Tabla 2: Las características extraídas, el tipo de datos y la estrategia utilizada para calcular la similitud entre ellos. Las funciones que se utilizan sólo en pruebas de verosimilitud tiene un valor de plausibilidad aquí.

Las similitudes resultantes se ponderan (por ejemplo, la similitud de nombre se considera más importante que el tamaño de los archivos iguales), se resumen, y se normalizan ("La selección de características, así como su peso fue nuestra elección subjetiva propia sobre la base de varias series de pruebas con el sistema. Consideramos una amplia evaluación de DSNotify como una herramienta para la detección de eventos del sistema de archivos como trabajo futuro"). Estas similitudes son utilizados por el DSNotify para detectar movimientos, eliminar y crear eventos. Además, los informes de eventos DSNotify actualizados, es decir, basados en los cambios en la función de los vectores extraídos (cf. [19]). DSNotify supervisa periódicamente la sub-estructura de archivos que se exponen por TripFS, los extractos de vectores de características basados en los atributos de archivo antes descrito , y los recursos de estos vectores en un índice. DSNotify utiliza un C + + nativo de componentes para la supervisión eficiente del sistema de archivos locales que hace uso del método de la FindNextChangeNotification de la API de Windows ().

También hemos implementado un componente genérico, sin embargo, monitor con menos efectividad biológica basado en Java que debería funcionar en todas las plataformas comunes. Esto nos permite volver a rastrear el árbol de directorios respectivos sólo si hay cambios reales notificados por el sistema operativo. Los eventos detectados se envían a TripFS, la ruta del archivo se actualiza en el modelo RDF y los extractores y máquinas para hacer encapsulamientos que  se vuelven a aplicar.

La interfaz de datos vinculados. TripFS incluye un servidor Web, que sirve los datos de los recursos triples, como se describe en la Sección 3.7. Se vuelve a escribir de forma dinámica los UUID de uso interno y los nodos en blanco para los des-referenciables URIS HTTP, y proporciona XHTML + RDFa y la representación RDF de los recursos de archivos y directorios, así como un punto final de SPARQL. Además, permite a los clientes para descargar directamente el contenido del archivo y, en el caso de las solicitudes locales, para poner en marcha directamente estos archivos.

Ninguno de los componentes de TripFS hace ningún cambio en el sistema de archivos expuestos, es decir, no hay archivos o se crean directorios especiales (como por ejemplo, es necesario para SVN). En la actualidad, TripFS no ofrece los medios para modificar los sistemas de archivos a través de la interfaz de datos vinculados.


5. RELACIONADOS CON EL TRABAJO

A pesar de los modernos sistemas de archivo de apoyo a la creación, almacenamiento, gestión y recuperación de los metadatos de archivos relacionados (por ejemplo, el uso de atributos extendidos o tenedores de archivo), siguen siendo en su mayoría aislados de la integración de la información basada en la Web y los contextos de cambio. Incluso los sistemas de archivos que proporcionan apoyo sofisticado para las anotaciones de archivos o enlaces (por ejemplo, LIFS [1] o AttrFS [23]) no tienen en cuenta un contexto Web global, pero a menudo se limitan sus funciones a los objetos en el sistema local. Por otro lado, los sistemas de archivos basados en la Web por lo general se centran en el rendimiento (por ejemplo, [12]) o de seguridad (por ejemplo, [4]), pero no semánticamente en las descripciones de archivos ricos o la interoperabilidad de los metadatos. En este sentido, TripFS puede ser visto como complementario a los sistemas de archivos de metadatos ricos o altamente escalables con el fin de reducir la brecha entre los sistemas de archivos y los entornos web. En combinación con otras obras que representan los recursos Web como sistemas de archivos virtuales (por ejemplo, [21]), sistemas de archivos locales y remotos recursos de la Web que se pueden integrar perfectamente, proporcionando unas interfaces de programación unificadas y una experiencia de usuario consistente.

Como se ha descrito anteriormente, los archivos de contenidos del sistema son muy diversos y heterogéneos, y contienen información que es valiosa en muchos escenarios. TripFS presenta un marco genérico para exponer estos contenidos como datos vinculados, pero no por sí mismo extraen metadatos de nivel superior de los archivos. Para ello, se basa en componentes adicionales, de los cuales existen una gran variedad. El marco de extracción de metadatos de apertura ya se ha mencionado antes, sino que se basa en el marco adaptador Gnowsis [20] y es capaz de extraer las descripciones RDF de una amplia gama de archivos y otras fuentes de datos. Para la mayoría de tipos de archivo existen extractores que el regreso de las descripciones RDF del contenido del archivo, que van desde archivos BibTeX sobre los datos del calendario a las imágenes JPEG, una lista de estos extractores se mantiene en el Wiki W3C ESW de los estudios económicos y sectoriales. Dicha conversión o la extracción de los componentes existentes también para las fuentes de la Web, por ejemplo, Piggybank [15] o Virtuoso Sponger technology, crean en las descripciones RDF una multitud de fuentes de la Web sobre la marcha.

TripFS está en línea con una serie de otros marcos genéricos que permiten exponer Datos Vinculados  basados en una representación diferente de datos subyacentes. Los marcos en este área incluyen D2R [8] y Triplify [3] para las bases de datos relacionales, SparqPlug [11] para las fuentes basadas en DOM, OAI2LOD [14] para los repositorios OAI-PMH, y XLWrap [18] para los datos de hoja de cálculo. Con TripFS, el contenido del sistema de archivos también se puede hacer "ciudadanos de primera clase" de la red de datos y se pueden integrar perfectamente con todas estas otras fuentes de datos.

6. CONCLUSIONES Y TRABAJO FUTURO

En este trabajo se ha presentado y discutido TripFS, un servicio que expone a los sistemas de archivos locales de acuerdo a los principios de datos vinculados. Este enfoque potencialmente le trae beneficios a una serie de escenarios de la aplicación (véase la sección 2). En un escenario de integración de información empresarial (Escenario A), los archivos se asignan URIs estable, únicos en el mundo y por lo tanto se pueden hacer referencia a sistemas externos. Los metadatos que se extraen de los archivos pueden ser indexados por motores de búsqueda en la Web Semántica, y los enlaces a otras (empresa-interna o externa) las fuentes de datos pueden aumentar la calidad de la organización de la información y la recuperación de los datos.

Un componente de peso ligero como TripFS también puede usarse en modo ad-hoc para compartir archivos de situaciones (Escenario B): los participantes en una reunión cara a cara pueden fácilmente configurar y arrancar el servidor de intercambio, exponiendo un subconjunto determinado de árboles de su sistema de archivos  de datos enlazados. Esto permite a los colaboradores en la misma red acceder y recuperar estos archivos, basándose no sólo en las características de bajo nivel como el nombre de archivo, sino también utilizando extrayendo los metadatos semánticos y los enlaces. La utilización de componentes adicionales, los enfoques más intuitivos como la navegación facetada se pueden realizar en la parte superior de los datos extraídos, y los usuarios más experimentados están habilitados para realizar consultas complejas SPARQL sobre el sistema de archivos.

Una representación de los datos vinculados de los sistemas de archivos también facilita la aplicación de los servicios de anotación basada en la Web (escenario C), que supera las limitaciones de la metáfora de la guía jerárquica de la organización de archivos. Dichas anotaciones pueden referirse a los archivos individuales o incluso a partes de los mismos, y pueden ir desde simples comentarios basados en texto a las descripciones complejas que pueden hacer referencia a entidades externas y a los conceptos. TripFS hace que los sistemas de archivo sean una parte del mundial, en la uniforme web de datos y por lo tanto permite aplicar técnicas de anotación basada en la Web, de inmediato, al presentar los objetos del sistema.

En el trabajo futuro, según la información que tenemos de la Universidad de Viena, plantean una extensa evaluación de TripFS, en particular con respecto al rendimiento y la escalabilidad de su enfoque. Para este propósito, su objetivo es aplicar TripFS en un entorno de integración de información concreta, y tienen la intención de desarrollar una interfaz de usuario sencilla que permita a los usuarios finales compartir más fácilmente sus archivos a través de tecnologías de datos vinculados. Además, tienen la intención de mejorar y evaluar la exactitud del componente DSNotify para la detección de eventos del sistema de archivos. Además, tienen la intención de introducir un modelo más fino de selección de los objetos del sistema de archivos lo que se expone a través de TripFS (en la actualidad se puede seleccionar sólo una sub-estructura única del sistema de archivos) y aplicar una versión segura HTTPS que tenga en cuenta las consideraciones de privacidad.



7. REFERENCIAS

[1] Ames Sasha, Bobb Nikhil, Kevin M. Greenan, Owen S. Hofmann, Mark W. Storer, Carlos Maltzahn , Ethan L. Miller y Scott A. Brandt. LIFS: Un sistema de archivos de atributos-ricos de la clase de almacenamiento de los recuerdos. En las Actas de la 23rd IEEE / 14 ª Conferencia Goddard de la NASA sobre los sistemas de almacenamiento masivo y tecnologías, del 2006.

[2] William Y. Arms. Nombres uniformes de los recursos: Handles, PURLs, e identificadores de objeto digital. Colectiva. ACM, 44 (5): 68, del 2001.

[3] Auer Sören, Dietzold Sebastián, Jens Lehmann, Hellmann Sebastián, y Aumueller David. Triplify: Ligeros datos vinculados de publicación de bases de datos relacionales. En WWW '09: Actas de la 18ª Conferencia internacional sobre la World Wide Web, páginas 621-630, Nueva York, NY, EE.UU., 2009. ACM.

[4] Arati Baliga, Joe Kilian y Iftode Liviu. Está basada en la Web encubierta del sistema de archivos. En Memorias del Taller 11 sobre los temas calientes en los sistemas operativos del 2007.

[5] T. Berners-Lee, L. Masinter y McCahill M.. Localizadores Uniformes de Recursos (URL) (RFC 1738). Red Grupo de Trabajo de 1994.

[6], Tim Berners-Lee. Los datos vinculados. Consorcio World Wide Web, del 2006. Disponible en http://www.w3.org/DesignIssues/LinkedData.html, recuperado el 08-Ago-2008.

[7] Chris Bizer, Cyganiak Richard, y Heath Tom. Cómo publicar datos vinculados en la Web, del 2007. Disponible en http://www4.wiwiss.fu-berlin.de/bizer/pub/ LinkedDataTutorial /, consultado el 02-Dic-2008.

[8] Chris Bizer y Andy. D2RQ - Tratamiento de bases de datos no-gráficos como RDF virtual. En el cartel de la 3 ª Conferencia Internacional de Web Semántica (ISWC2004), 2004.

[9] Cristiana Bizer, Heath, Tom y Tim Berners Lee. Datos Vinculados | La historia hasta ahora. Revista Internacional de Web Semántica y Sistemas de Información, 5 (3), 2009.

[10] Kendall Clark Grant, Lee Feigenbaum, y Elías Torres. Protocolo SPARQL para RDF (Recomendación del W3C 15 de enero 2008). Consorcio World Wide Web, 2008.

[11] Peter Coetzee, Tom Heath, y Enrico Motta. SparqPlug: Generación de Datos Vinculados, HTML, SPARQL y el DOM. En Memorias del Primer Taller Internacional sobre datos vinculados en la Web (LDOW), 2008.

[12] Sanjay Ghemawat, Gobioff Howard, y Leung Shun-Tak. El sistema de archivos de Google. En el simposio de ACM 19 en funcionamiento de los principios de los sistemas, del 2003.

[13] Haslhofer Bernhard, Wolfgang Jochum, Ross King, Christian Sadilek, y Schellner Karin. anotación del marco LEMO : Tejiendo Anotaciones Multimedia con la Web. Revista Internacional de Bibliotecas Digitales, 10 (1), 2009.

[14] Bernhard Haslhofer y Schandl Bernhard. El servidor OAI2LOD: La exposición de metadatos OAI-PMH como datos vinculados. En el Taller Internacional sobre datos vinculados en la Web (LDOW2008), 2008.

[15] David Huynh, Stefano Mazzocchi, y David R. Karger. Piggy Bank: La experiencia de la Web Semántica el interior de su navegador Web. En la Conferencia Internacional de Web Semántica, el volumen de 3729 de Lecture Notes in Computer Science, páginas 413 {430. Springer, 2005.

[16] Kobilarov Georgi, Tom Scott, Yves Raimond, Oliver Plata, Chris Sizemore, Michael Smethurst, Bizer cristiana, y Robert Lee. Cumple con los medios de comunicación de la Web Semántica | ¿Cómo la BBC usa DBpedia y los datos vinculados al conectarse?. En Actas de la 6 ª Conferencia Europea de la Web Semántica, páginas 723-737, Berlín, Heidelberg, 2009. Springer-Verlag.

[17] Lagoze Carl y Herbert Van de Sompel. Especificación ORE | Modelo de Datos Abstractos. OAI, 2008. Disponible en http://www.openarchives.org/ore/1.0/datamodel. [18] y Andreas Langegger  W Wolfram Wöb. XLWrap - Consultar e integración arbitraria hojas de cálculo con SPARQL. En la Conferencia Internacional de Web Semántica. Springer, 2009.

[19] Niko Popitsch y Haslhofer Bernhard. DSNotify: Manejo de enlaces rotos en la web de Datos. En la 19ª Conferencia Internacional WWW (WWW2010), Raleigh, NC, EE.UU., 2 de 2010. ACM.

[20] Leo Sauermann y Sven Schwarz: El tratamiento de las fuentes de datos estructurados en forma de gráficos RDF virtuales. En Actas de la 4 ª Conferencia Internacional de Web Semántica (ISWC 2005), páginas 1016-1028. Springer-Verlag GmbH, 2005.

[21] Schandl Bernhard. Representación de los datos vinculados como sistemas de archivos virtuales. En las Actas del 2 º Taller Internacional sobre datos vinculados en la Web (LDOW), Madrid, España, 2009.

[22] Julio Volz, Christian Bizer, Martin Gaedke, y Georgi Kobilarov. Descubrimiento y Mantenimiento de Enlaces en la Red de Datos. En Actas de la 8 ª Conferencia Internacional de Web Semántica (ISWC 2009), 2009.

[23] Testamentos CE, D. Giampaolo, y Mackovitch MS. La experiencia con un atributo interactivo basado en entorno de usuario de la información. En Informática y Comunicaciones, 1995. Actas de la Conferencia de la IEEE 1995 Decimocuarta Conferencia Anual Internacional de Phoenix en las páginas 359-365, marzo 1995.

Artículos relacionados:



Enhanced by Zemanta