Social Media: Cloud Computing+Web Semántica+Datos Abiertos (I): Linked Data Cloud

miércoles, 19 de enero de 2011

Cloud Computing+Web Semántica+Datos Abiertos (I): Linked Data Cloud

la Biodiversity Linked DataImage by Roderic Page via FlickrLa computación en la nube, del inglés "Cloud computing", es un paradigma que permite ofrecer servicios de computación a través de Internet. La "nube" es una metáfora de Internet.
En este tipo de computación todo lo que puede ofrecer un sistema informático se ofrece como servicio, de modo que los usuarios puedan acceder a los servicios disponibles "en la nube de Internet" sin conocimientos (o, al menos sin ser expertos) en la gestión de los recursos que usan. Según el IEEE Computer Society, es un paradigma en el que la información se almacena de manera permanente en servidores de Internet y se envía a cachés temporales de cliente, lo que incluye equipos de escritorio, centros de ocio, portátiles, etc. Esto se debe a que, pese a que las capacidades de los PC han mejorado sustancialmente, gran parte de su potencia se desaprovecha, al ser máquinas de propósito general.

"Cloud computing" es un nuevo modelo de prestación de servicios de negocio y tecnología, que permite al usuario acceder a un catálogo de servicios estandarizados y responder a las necesidades de su negocio, de forma flexible y adaptativa, en caso de demandas no previsibles o de picos de trabajo, pagando únicamente por el consumo efectuado.

El cambio paradigmático que ofrece la computación en la nube es que permite aumentar el número de servicios basados en la red. Esto genera beneficios tanto para los proveedores, que pueden ofrecer, de forma más rápida y eficiente, un mayor número de servicios, como para los usuarios que tienen la posibilidad de acceder a ellos, disfrutando de la ‘transparencia’ e inmediatez del sistema y de un modelo de pago por consumo.

La Computación en la Nube consigue aportar estas ventajas, apoyándose sobre una infraestructura tecnológica dinámica que se caracteriza, entre otros factores, por un alto grado de automatización, una rápida movilización de los recursos, una elevada capacidad de adaptación para atender a una demanda variable, así como una virtualización avanzada y un precio flexible en función del consumo realizado.

La computación en la nube es un concepto que incorpora el software como servicio, como en la Web 2.0 y otros conceptos recientes, también conocidos como tendencias tecnológicas, que tienen en común el que confían en Internet para satisfacer las necesidades de cómputo de los usuarios.

Un ejemplo de Cloud Computing ésta en la página de www.microglobalis.com qué utiliza la tecnología de Google Apps y Google Sites, los mismos que almacenan los datos en los servidores de Google y nos permite tener los servicios disponibles.

La Web semántica (del inglés semantic web) es la "Web de los datos". Se basa en la idea de añadir metadatos semánticos y ontológicos a la World Wide Web. Esas informaciones adicionales —que describen el contenido, el significado y la relación de los datos— se deben proporcionar de manera formal, para que así sea posible evaluarlas automáticamente por máquinas de procesamiento. El objetivo es mejorar Internet ampliando la interoperabilidad entre los sistemas informáticos usando "agentes inteligentes". Agentes inteligentes son programas en las computadoras que buscan información sin operadores humanos.

Semantic Web El precursor de la idea, Tim Berners-Lee, intentó desde el principio incluir información semántica en su creación, la World Wide Web, pero por diferentes causas no fue posible. Por ese motivo introdujo el concepto de semántica con la intención de recuperar dicha omisión.

En la actualidad, la World Wide Web está basada principalmente en documentos escritos en HTML, un lenguaje de marcas que sirve principalmente para crear hipertexto en Internet. El lenguaje HTML es válido para adecuar el aspecto visual de un documento e incluir objetos multimedia en el texto (imágenes, esquemas de diálogo, etc.). Pero ofrece pocas posibilidades para categorizar los elementos que configuran el texto más allá de las típicas funciones estructurales, como sucede con otros lenguajes de maquetación (tipo LaTeX).
HTML permite mediante una herramienta de visualización (como un navegador o un agente de usuario) mostrar por ejemplo un catálogo de objetos en venta. El código HTML de este catálogo puede explicitar aspectos como "el título del documento" es Ferretería Acme; pero no hay forma de precisar dentro del código HTML si el producto M270660 es una "batería Acme", con un "precio de venta al público" de 200 €, o si es otro tipo de producto de consumo (es decir, es una batería eléctrica y no un instrumento musical, o un puchero). Lo único que HTML permite es alinear el precio en la misma fila que el nombre del producto. No hay forma de indicar "esto es un catálogo", "batería Acme" es una batería eléctrica, o "200 €" es el precio.
Tampoco hay forma de relacionar ambos datos para describir un elemento específico en oposición a otros similares en el mismo catálogo.

La Web Semántica se ocuparía de resolver estas deficiencias. Para ello dispone de tecnologías de descripción de los contenidos, como RDF y OWL, además de XML, el lenguaje de marcas diseñado para describir los datos. Estas tecnologías se combinan para aportar descripciones explícitas de los recursos de la Web (ya sean estos catálogos, formularios, mapas u otro tipo de objeto documental). De esta forma el contenido queda desvelado, como los datos de una base de datos accesibles por Web, o las etiquetas inmersas en el documento (normalmente en XHTML, o directamente en XML, y las instrucciones de visualización definidas en una hoja de estilos aparte). Esas etiquetas permiten que los gestores de contenidos interpreten los documentos y realicen procesos inteligentes de captura y tratamiento de información.

Datos Abiertos (Open Data en inglés) es una filosofía y práctica que persigue que determinados datos estén disponibles de forma libre a todo el mundo, sin restricciones de copyright, patentes u otros mecanismos de control. Tiene una ética similar a otros movimientos y comunidades abiertos como el código abierto (open source en inglés) y el acceso libre (open access en inglés). Estos movimientos no están formalmente enlazados, existen diversas combinaciones de práctica y el término Datos Abiertos es reciente; pero la ideología que lo sustenta está bien definida.

Los Datos Abiertos están centrados en material no-documental como información geográfica, el genoma, compuestos químicos, fórmulas matemáticas y científicas, datos médicos, biodiversidad... Son fuentes de datos que históricamente han estado en control de organizaciones, públicas o privadas; y cuyo acceso ha estado restringido mediante limitaciones, licencias, copyright, y patentes. Los partidarios de los Datos Abiertos argumentan que estas limitaciones van en contra del bien común y que estos datos tienen que ser puestos en disposición del público sin limitaciones de acceso, dado que es información que pertenece a la sociedad, como el genoma, o son datos que han sido creados por administraciones públicas (y por tanto, con los impuestos de todos), como la información geográfica o metereológica.

Un hito es lo ocurrido el 30 de septiembre de 2010 en que el Archivo Nacional del Reino Unido libera una licencia gubernamental de re-utilización de los datos generados por esa nación.
Para que un dato sea abierto, tiene que ser accesible y reutilizable, sin exigir permisos específicos, aunque los tipos de reutilización pueden estar controlados mediante una licencia.
Una descripción representativa de la necesidad de Datos Abiertos:
Numerosos científicos han subrayado la ironía de que precisamente en el momento histórico en el que tenemos tecnologías para permitir la disponibilidad y el proceso distribuido de datos científicos a nivel mundial, aumentando la colaboración e incrementando el ritmo y la profundidad del descubrimiento... estamos ocupados confinando esos datos y vetando el uso de las pertinentes nuevas tecnologías sobre el conocimiento.
La propuesta de datos vinculados (linked data) surge dentro del marco general de la Web semántica. El término "datos vinculados" hace referencia al método con el que se pueden mostrar, intercambiar y conectar datos a través de URIs des-referenciables en la Web.

Tim Berners-Lee definió cuatro principios que caracterizan los datos vinculados en su ponencia de presentación para el W3C. Estos principios se pueden parafrasear de la siguiente forma:
  1. Utilizar URIs para identificar los recursos publicados en la Web
  2. Aprovechar el HTTP de la URI para que la gente pueda localizar y consultar (es decir, des-referenciar) estos recursos.
  3. Proporcionar información útil acerca del recurso cuando la URI haya sido des-referenciada.
  4. Incluir enlaces a otras URI relacionadas con los datos contenidos en el recurso, de forma que se potencie el descubrimiento de información en la Web.
More accurate representation of relationship b...
La primera presentación pública importante de la propuesta la realizó Tim Berners-Lee en el congreso TED del 2009.

1. INTRODUCCIÓN

Una fracción importante de la información digital se almacena en los sistemas de archivos. Los sistemas de archivos organizan los archivos por lo general en árboles de directorios etiquetados y proporcionan un apoyo mínimo para la anotación impulsada por los usuarios de archivos, la vinculación y la categorización. Aunque los sistemas de archivo desempeñan un papel importante en la organización del conocimiento, tanto en el ámbito empresarial, así como en la esfera de la información personal, rara vez han sido considerados en la integración de información basada en la Web.

Los sistemas de archivos almacenan y organizan los datos y documentos de todo tipo y con diferentes complejidades, desde pequeños fragmentos de información que se pueden poner en un solo archivo, a grandes repositorios de contenido heterogéneo que se organizan en profundidad en las estructuras jerárquicas. Actúan como la columna vertebral de almacenamiento de muchos sistemas de procesamiento de la información y se puede considerar como un fundamento importante de la gestión de información personal y corporativa. Dado que los sistemas de archivos comunes que no imponen restricciones importantes en la creación, denominación, y en la organización de los directorios y archivos, que apoyan las preferencias individuales del usuario para la organización de datos. Los sistemas de archivos no sólo almacenan archivos que fueron creados o modificados a nivel local: una gran parte de los archivos de origen de otras fuentes, como dispositivos multimedia, otros escritorios, o en la web. En entornos corporativos, es común para almacenar los datos de interés colectivo en los servidores de archivos compartidos que permiten una simple forma de colaboración.

En general, los sistemas de archivos pueden ser considerados como una de las fuentes de información primaria, tanto para organizaciones e individuos, y es muy probable que se mantengan así en el futuro. Por lo tanto, son de gran interés para la integración de la información. Sin embargo, los sistemas de archivo rara vez han sido considerados en el ámbito de la integración de datos basada en la Web. Esto se debe sobre todo a partir de sus limitadas posibilidades de organización de datos, soporte de metadatos limitados, y la falta de identificadores estables para los archivos y directorios.

Una estrategia prometedora para la integración de la información basada en la Web es el paradigma de datos enlazados. Este término designa un conjunto de tecnologías y mejores prácticas que facilitan la integración de la información y la vinculación a nivel mundial. Para acceder a la información como datos vinculados (Linked Data) significa seguir principios simples: en primer lugar, identificar cada uno de los recursos de interés con un único global, des-referenciables HTTP URI, en segundo lugar, proveer información útil para los clientes cuando tienen acceso a la URI (generalmente expresado en RDF y HTML ), y tercero, incluye enlaces a otros recursos para que los clientes puedan obtener más información potencialmente interesante.

En estos tres artículos se presenta TripFS, un enfoque ligero donde se aplican estos principios para sistemas de archivos con el fin de exponer su contenido, como datos vinculados, y por lo tanto permite su inclusión directa en escenarios de integración basado en la Web. Se asigna estable, válida a nivel mundial, URI des-referenciables a los archivos y directorios, monitorea los cambios en el sistema, sirve metadatos extraídos de los archivos como datos RDF, y los archivos están vinculados con las fuentes de datos externas.

 Rdf-graph1
Proporciona una arquitectura plug-in para que pueda ser fácilmente extendida para admitir a otros tipos de archivos y componentes de la vinculación, se adapta a las particularidades del sistema de archivos subyacentes y proporciona un cambio de archivo sofisticados de componente de seguimiento  que aumenta la estabilidad de los identificadores de archivo.

 Rdf-graph3
Debido a que es fácil de configurar, TripFS también facilita el intercambio ad-hoc de los recursos basados en archivos utilizando estandarizadas (semántica) tecnologías de la Web. Por otra parte, supera las deficiencias de los mecanismos de organización jerárquica, debido a su enfoque de metadatos centrados permitiendo consultar información descriptiva en lugar de la ubicación del archivo, para establecer múltiples puntos de vista ortogonales de los datos del sistema de archivos.

Rdf-graph2Image via Wikipedia
Después de esbozar los escenarios de aplicación y la descripción de cómo los usuarios pueden beneficiarse de la exposición de los sistemas de archivos como Linked Data (sección 2), se discute qué medidas deben tomarse a fin de realizar esta idea (Sección 3). Se presentan detalles sobre la arquitectura TripFS y su aplicación (sección 4). Después de una discusión de los trabajos relacionados (Sección 5) se concluye en el tercer post sobre el tema con la sección 6 con las conclusiones y las fuentes de consulta.

2. BENEFICIOS DE LOS SISTEMAS DE ARCHIVOS RELACIONADOS

Los beneficios de la exposición de datos como recursos de datos vinculados  son múltiples. En esta sección planteamos tres escenarios que ilustran cómo la calidad de uso del sistema de archivos se puede aumentar mediante la exposición de los archivos como datos vinculados.

A) La integración de sistemas de archivos en datos de la empresa. Una fracción sustancial de datos de la empresa está disponible en forma de sistemas de archivos. Si bien estos datos se puede acceder en un contexto difundidos a través de protocolos como CIFS o WebDAV, es dificil de integrarlos en un contexto global de la empresa debido a la falta de identificadores estables para los archivos y la plataforma de mecanismos independientes de archivos basada en metadatos de acceso. Los vinculados de los datos han demostrado ser un enfoque viable para la integración de la información empresarial, por lo tanto, lo que los sistemas de archivo de parte de una empresa global o interna-Web de los datos  les permite integrarse perfectamente con él, y semánticamente relacionada con otras fuentes de datos.

B) Compartir datos ad hoc basados en la Web. A pesar de la enorme cantidad de posibilidades para la comunicación digital que tenemos a nuestra disposición, ad-hoc de intercambio de información significativa (por ejemplo, el intercambio de documentos digitales entre las computadoras portátiles de los participantes durante las reuniones cara a cara) sigue siendo complicado. Regularmente se puede observar que los colaboradores utilizan el correo electrónico o mensajería instantánea para intercambiar archivos rápidamente. Este enfoque, sin embargo, no permite que los datos más complejos sean compartidos, o para el intercambio de archivos junto con los metadatos que describen el contexto correcto. Los datos Vinculados se basan en la parte superior de las tecnologías comunes de Internet, por lo que cualquier fuente de datos vinculados se puede acceder directamente mediante un navegador web común. Una herramienta que permite a los usuarios compartir temporalmente las partes seleccionadas de sus sistemas de archivos locales como Linked Data (lo que implica archivos planos no sólo de intercambio, sino que también extraen los metadatos, anotaciones y enlaces) y facilita el intercambio de información entre los colaboradores de efectividad biológica.

C) Anotaciones del archivo basados en la Web Semántica. La anotación semántica y la interconexión de los archivos están mal apoyados hoy en día: a pesar de los modernos sistemas de archivo de la ayuda al almacenamiento, gestión y recuperación de las anotaciones de archivo (por ejemplo, atributos extendidos o tenedores de archivos), estos datos no son accesibles de forma normalizada e independiente de la plataforma. Esto hace que la organización de archivos en unidades conectadas sea lógicamente difícil, y reduce la efciencia de recuperación de los archivos, especialmente en entornos distribuidos. Si los sistemas de archivos se publicaron como parte de una red de datos, pueden ser anotados y vinculados entre sí mediante herramientas como el marco de anotación LEMO [13] o el marco Silk [22], lo que llevaría a un aumento de la calidad de búsqueda y de recuperación, así como a la vinculación con otras fuentes de datos pertinentes. A su vez, estos datos vinculados y anotaciones basados en la Web pueden ser propagados de nuevo en el contexto de trabajo del usuario del sistema de archivos, por ejemplo, para ser considerado por los motores de búsqueda en el escritorio.
Seguiré hablando de este tema en los siguientes dos artículos.

Aquí tienen una presentación de Hatem Mahmoud que nos explica perfectamente todo este concepto: "La Web 3.0: la Web Semántica":

imagen infocloud150
La industria del cloud computing es una de las más pujantes de los años recientes en el mercado tecnológico. La siguiente infografía muestra cuál es la situación global, señalando de qué países son los mayores proveedores, cuáles son las compañías más importantes. Además se incluyen datos interesantes, como que el 2% de todos los servidores pertenecen a Google.


Esta infografía, elaborada por Cloud HyperMarket, indica el uso de los servicios de cloud computing por parte de la gente, a la vez que proporciona datos acerca de la situación de la industria. La mayoría de los servidores de centros de datos están localizados en Estados Unidos, siguiendo a este país Canadá como el segundo en número de máquinas para almacenar información en la nube.

cloud computing infografia

Artículos relacionados:

Cloud Computing+Web Semántica+Datos Abiertos (II): Linked Data Cloud 
    Cloud Computing+Web Semántica+Datos Abiertos (III): Linked Data Cloud 
    Servicios de Almacenamiento y Respaldo en la nube

    Pautas en Seguridad e Intimidad en Informática del Cloud Computing Público




      Enhanced by Zemanta