Versión para imprimir (PDF, 89KB)

Biblioteca Digital y Web Semántica


Carolina García Cataño y David Arroyo Menéndez

Copyright (c) 2002 David Arroyo Menéndez, Carolina García Cataño Se otorga permiso para copiar, distribuir, y/ó modificar este documento bajo los términos de la GNU Free Documentation License, Version 1.1 ó cualquier versión posterior publicada por la Free Software Foundation; sin secciones invariantes, ni textos de portada, ó contraportada Una copia de ésta licencia es incluida la sección titulada "GNU Free Documentation License"

Introducción

Desde el principio de los tiempos parte de la humanidad se ha preocupado por almacenar y compartir el saber desde las primitivas pinturas rupestres, pasando por la escritura, imprenta, dispositivos para almacenar audio, vídeo, etc. la llegada de ordenadores supuso un hito en cuanto que su capacidad de almacenamiento y procesamiento de la información hizo prever posibilidades hasta entonces inimaginables, la llegada de las redes de información e Internet evidenciaron que el poder de la información puede llegar a generar sistemas informáticos completos con la voluntariedad desinterasada de un incontable número de programadores, generar empresas punteras desde garajes, hacer temblar mercados internacionales por las travesuras de un quinceañero y otros sucesos que mantienen viva nuestra capacidad de sorprendernos. Y, sin embargo, quienes escribimos este artículo pensamos que lo mejor está aún por llegar...

También desde el principio el acceso a la información ha marcado la diferencia entre ricos y pobres, poderosos y desheredados, entre ganar y perder una guerra... La información tiene y ha tenido un papel protagonista en la práctica totalidad de sistemas sociales que han existido durante la historia en las sociedades primitivas era el viejo (el sabio) el que gobernaba, en la Edad Antigua el Imperio Romano se alzó ante las sociedades que convivían en el mediterráneo absorviendo como una esponja lo mejor de cada cultura, el cristianismo se fundamenta en un libro: la Biblia, los musulmanes tienen el Corán, la Baja Edad Media supuso un retraso con respecto a la edad antigua debido a que el saber se subordinó a intereses políticos y religiosos.

En el siglo XV, con la imprenta de Gutteberg, llegó lo que se podría llamar la primera revolución de la "Información", por primera vez en la historia el pensamiento humano, la facilidad con que de repente se podían hacer los libros perjudicó a las congregaciones religiosas que hasta el momento tenían el monopolio de la confección de libros. La imprenta se implantó en los distintos países europeos rápidamente, teniendo como principal consecuencia el facilitar acceso público al conocimiento hasta entonces sólo al alcance de algunos privilegiados, el pensamiento humano se empezaría a difundir con mayor libertad. El libro ha ido evolucionando a lo largo de sus años de existencia, por ello no debemos olvidar toda la evolución en la organización y presentación de los libros, comos son los índices, el fragmentar los textos en capiítulos, secciones, párrafos, etc. el tamaño, las tipografías, las notas, bibliográficas; todo esto que ahora nos parece evidente es fruto del pensamiento humano durante mas de 500 años, en estos momentos, de hecho muchas de estas problemáticas resueltas en los libros impresos no estan del todo resueltas para los formatos digitales.

La Ilustración que promulgaba el acceso al saber provocó la revolución francesa, los llamados países comunistas hacían bandera de la educación de las masas y las sociedades occidentales de la libertad de prensa, cualquier regimen totalitario tiene el control absoluto de los medios de comunicación, ... Podríamos escribir hasta el infinito acerca de la importancia histórica del acceso a qué información, pero no es el objeto de este artículo.

Siempre se habla de acceso a la información, no puede ser de otro modo, en el momento en que dejamos de movernos por instinto y racionalizamos las cosas es información lo que gobierna nuestras acciones, de hecho, incluso nuestros instintos y características físicas no son otra cosa que información genética, información, información, información ¿puede la información ser libre? Ésta es una pregunta compleja que requeriría un estudio profundo acerca de lo que es la información y lo que es la libertad. En este artículo tan sólo se pretende hablar acerca de la libertad en una de las múltiples formas que adopta la información: la documentación escrita.

Hoy por hoy es el lenguaje humano la forma de comunicación que gobierna en mayor medida la información que racionalizamos los seres humanos; el acceso a los contenidos descritos en este lenguaje y la capacidad de inferencia automática que se pueda hacer a través de Internet a partir de estos contenidos es el objeto de este artículo titulado Biblioteca Digital y Web Semántica dos conceptos que se entremezclan hasta tal punto que pronto serán uno sólo pero aún hoy deberemos tratar por separado.

Edición electrónica

Para entender algunas de las licencias y la realidad que subyacen en bibliotecas digitales y lo que será la web semántica, debemos empezar entendiendo los formatos más habituales por los que el texto ha pasado por nuestros ordenadores. Esto es lo que se tratará en esta sección.

  1. txt: Todos los procesadores de texto lo entienden y ocupa poco, pero esta bastante limitado en cuanto a lo que se puede mostrar, de hecho no se puede hacer ni una pobre cursiva. No separa lo que es presentacion de contenido, pero es que no hay nada que presentar :D

  2. html: Todos los navegadores lo entienden, lo cual quiere decir que ademas se puede navegar mediante el, lo cual permite leer de una manera mas cercana a como se piensa, mediante un monton de enlaces (asociaciones). El problema de este formato es que tambien esta bastante limitadito. Por ejemplo, queremos tener en nuestro documento una ecuacion matematica pues no nos queda mas remedio que meter una imagen, lo cual ya no mola porque nuestra pagina ya va a tardar en cargar, entonces en nuestra ecuacion nos damos cuenta de que en vez de un 2 queremos meter un 3, pues entonces tienes que modificar la imagen lo cual es un engorro, pero si tuvieras que modificar 20 imagenes ya seria algo realmente terrible. Y todo porque html no es una ecuacion. Este ejemplo es extrapolable a muchos mas casos pero creo que este es bastante ilustrativo, ya que todos hemos tenido que manejar las matematicas en nuestros estudios y muchos seguimos haciendolo.

    Este lenguaje (si es que puede llamarse asi) hacer un intento realmente popular de separar lo que es presentacion de contenido, ya que por un lado nuestrofichero.html al abrirlo con un editor de textos lo vemos con sus etiquetitas, nosotros se las colocamos debidamente a nuestros contenidos y luego si pasamos hojas de estilo y demas ... bueno se separa bastante lo que hay de lo que se muestra.

    Pero en la practica a nadie le importa si hemos etiquetado correctamente el contenido o si deberiamos haber utilizado una hoja de estilo, tan solo importa como lo vea mi navegador y los navegadores comerciales interpretan las hojas de estilo y las etiquetas a su manera ?resultado? La gente coge el Word o el FrontPage? y genera sus paginas en plis plas, pero mediante un seudo-html que solo entiende bien el Explorer de Microsoft, en fin el html pierde su universalidad de esta manera tan tonta.

  3. tex: latex es un lenguaje de marca (como html) donde se generan ficheros de extensión .tex lleva utilizándose mucho tiempo en entornos académicos. Este lenguaje tiene una expresividad brutal, separa perfectamente lo que es la presentación del contenido y no tendremos ningún problema para incluir ecuaciones matemáticas. Además siempre podremos pasarlo de manera automática a otros formatos más sencillos como txt o html, o a otros orientados a la visualización y que ocupan muy poco como pdf, gv, dvi, ps, etc. Un gran editor para este lenguaje de marca es Emacs y como editor visual Lyx.

  4. xml: Es un metalenguaje, un lenguaje para escribir lenguajes. Hablamos mas en profundidad mas adelante, por ahora, solo decir que que un documento escrito en un lenguaje xml puede pasarse a todos los formatos que hemos descrito en latex y ademas a bases de datos debido al hecho de que todas las etiquetas en xml, se cierran. Ademas, es facil hacer un nuevo lenguaje xml basta con escribir una dtd que es un fichero donde definimos que etiquetas tendra nuestro lenguaje y una xsl para ver como se transformaran las etiquetas y si los entusiastas del xml tienen razon algun dia todos los navegadores podran procesar estas etiquetas y estas transformaciones, pues parece que tiene bastante futuro. El lenguaje xml que por ahora se esta usando para documentar es docbook que, en cuanto a posibilidades es bastante similar a latex.

  5. doc: Los famosos .doc que tantas pasiones levantan en Internet y su omnipresente word. Muchas personas se preguntan que porque los usuarios de esos sistemas que llaman libres los .doc tienen tanta mania a este formato el caso es que los .doc tienen un formato compilado para que solo lo puedas abrir con el Word y para que las versiones antiguas de ese procesador no entiendan el formato de lasnuevas (obligandote a comprarte un nuevo programa cada 2 o 3 anos). Pero es que en los sistemas libres no existe Word y por tanto, no hay forma de abrirlo debido a su compilacion que por decirlo de alguna manera es un codigo secreto que solo Microsoft conoce. Es cierto que hay programas como Abiword, u OpenOffice? que haciendo ingenieria inversa logran visualizar un buen numero de archivos .doc, pero por desgracia no funcionan perfectamente.

    Este formato se ha popularizado tanto debido a que permitia hacer bastantes cosas con muy pocos conocimientos, a pesar de que a medio plazo tiene efectos realmente malos para cualquier usuario, como por ejemplo la facilidad para transmitir virus.

  6. rtf: Este es un formato tambien de Microsoft, pero esta escrito mediante un lenguaje de marcas, marcas que podemos distinguir claramente si abrimos un documento .rtf con editores sencillos tales como el edit de DOS, el bloc de notas de Windows, el vi, el emacs, etc. Por ser un lenguaje de marcas ha permitido que puedan surjir editores libres que editen sin problemas estos archivos. Aunque Microsoft ha cuidado que no se pueda hacer tanto como a los .doc (no conozco bien las limitaciones si alguien las conoce ya sabe que esto se puede modificar libremente ;-).

Introducción a la biblioteca digital

Nuestra intención en esta sección es explicar en qué consiste, de qué se compone la bilbioteca digital, un concepto emergente concebido para dar acceso universal a toda la información digital en la red. Dado que no existe una única definición de la biblioteca digital podemos ofrecer algunas de estas definiciones; la biblioteca digital como (extraido del libro La biblioteca digital

Por otra parte en la web delDigital Library Project, hay una definición de biblioteca digital, que proviene del Santa Fe Workshop on Distributed Knowledge Work Environments y dice así: "El concepto de biblioteca digital no es únicamente el equivalente de repertorios digitalizados con métodos de gestión de la información. Es más bien, un entorno donde se reúnen colecciones, servicios, y personal que favorece el ciclo completo de la creación, difusión, uso y preservación de los datos, para la información y el conocimiento".

La biblioteca digital no pretende "copiar" la producción impresa, sino que debe generar una nueva estructura de la información; el uso de documentos hipertextuales hacen que un "libro electrónico" ya no sea lineal, como ocurre con la confección en papel, sino que el libro ahora tambien posee "profundidad", el usuario tiene acceso a la información de formas muy variadas, cuenta con la posibilidad de proveer vínculos no solo a documentos textuales, sino también a imagen y vídeo, de modo instantáneo, lo cual permite explicar dichos contenidos de formas diversas.

Todo este cambio no se puede llevar a cabo sin que se produzca un proceso de innovación tecnológico que implica a las diferentes partes involucradas en el desarrollo de la biblioteca digital, como son la modificación de la organización de la información, su producción y la difusión de la misma

Algunos elementos comunes que definen la biblioteca digital son:

La biblioteca digital no debe ser una entidad individual, se requieren medios tecnológicos para enlazar recursos, los usuarios deben poder acceder a los enlaces entre bibliotecas digitales y servicios de información de manera transparente. El acceso universal a las bibliotecas digitales y a los servicios de información debe un objetivo principal.

Sin embargo, no todo es fácil ni simple a la hora de pensar en la biblioteca digital, existen una serie de problemáticas que ponen freno su rápida expansión, mencionaremos algunas de ellas:

De todas formas el interés por la biblioteca digital esta creciendo en todo el mundo, en Estados Unidos el interés ha aumentado gracias a la creación en 1994 de la Digital Libraries Initiative, patrocinada por la NSF (National Science Foundation), la DARPA (Defense Advanced Research Projects Agency) y la NASA, en Europa un ejemplo significativo es el de la Bibliothéque Nationale de France que ha digitalizado 100.000 volúmenes, 40.000 de los cuales están libres de derechos de autor. Se puede encontrar más información sobre este proyecto en. En América Latina existen varios proyectos interesantes entre ellos están: la Biblioteca Digital Latinoamericana y Caribeña (BD-DL) y Biblioteca Virtual de Salud de América latina y el Caribe (BVS)

Web semántica

La web semántica es el futuro de la web, una web que facilitará la localización de recursos, la comunicación entre sistemas y programas, que nos ayudará a gestionar nuestro día a día, hasta llegar a niveles que hoy pueden ser considerados como de ciencia ficción.

La red semántica no es una red independiente de la actual, sino una ampliación; una red en la cual la información está dotada de significados bien definidos, con el fin de que la coordinación del trabajo entre humanos y ordenadores sea más completa. Se han dado ya los primeros pasos para incluir la red semántica en la estructura de la red ya existente. En un futuro no lejano, estos desarrollos introducirán prestaciones nuevas e importantes, al lograr que las máquinas multipliquen su capacidad de procesar y comprender los datos que hoy tan sólo se exhiben en pantalla. En su universalidad el hipertexto permite "conectar cualquier cosa con todo", por tanto la técnica no debe discriminar entre un borrador y la prestación más depurada, entre información comercial y académica, ni entre culturas, idiomas, etc. No generamos el mismo tipo de información si estamos pensando en una persona o en una máquina, así tenemos por un lado un video de 5 sec. a una poesía y por el otros están las bases de datos, programas hechos por friskis informáticos,...

Hasta ahora, la red estaba concebida más para proporcionar documentos a los humanos que para manipular datos o y procesar información de manera automática, pero a partir de ahora tenemos que cambiar el chip pues nos encontramos frente a una potente herramienta facilitadora de la comunicación, que es la red semántica,además ésta no pierda una de las características esenciales que es ser descentralizada.

Elementos básicos de la web semántica

Antes de explicar cómo funcionará la red semántica, describiremos, los elementos necesarios que la comprondrán, así: XML, RDF, PICS, ONTOLOGÍAS y AGENTES

XML

XML (eXtensive Markup Language),permite la codificacion para la distribucion de documentos complejos por Internet.

Vamos a dar unos datos previos que hará más fácil entender porque se elige este formato.

SGML (Standard Generalized Markup Language) es una norma que pretende establecer una manera genérica de especificar, definir documentos, la cual permitiese a su vez usar formatos de mayor flexibilidad y portabilidad. Con lo cual reunía tres condiciones básicas:

  1. Formal: pues permite establecer la validez de los documentos

  2. Estructurado: para que fuese capaz de manejar documentos complejos

  3. Ampliable: para facilitar la gestión de grandes depósitos de información

XML es un subconjunto de SGML, y define un formato de texto diseñado para la transmisión de datos estructurados. Al ser un subconjunto de SGML mantiene sus caracteristicas de validación, estructurado y especialmente facilita la extensibilidad, porque es un metalenguaje que permite describir lenguajes de marcas, tanto la definicion de etiquetas como la relacion estructural que existen entre ellas.

Un ejemplo de como funciona XML sería algo así:



<agenda>
   <persona>
      <nombre>Kike</nombre>
      <telefono>638002993</telefono>
	<comentario>Es un bombon</comentario>
   </persona>
   <persona>
      <nombre>Maria</nombre>
      <telefono>956-78.90.12</telefono>
      <telefono>652135792</telefono>
   </persona>
</agenda>

	

RDF

RDF son las siglas definen Resource Description Framework (algo así como marco de descripción de recursos) Como su nombre indica el área en la que está enmarcado es la descripción de recursos de la red, entendiendo por recurso todo lo que nos de de sí la imaginación en tanto que a definir cualquier cosa, páginas, personas, dispositivos... RDF permite que las condiciones que se quieren "preguntar" sobre un recurso sean definidas como un conjunto de propiedades que componen el esquema.

RDF ofrece una estructura semántica inambigua (por el uso de los URI, Uniform Resource Identifier) que permite codificación, intercambio y procesamiento automático de los metadatos normalizados.

RDF proporciona también reglas para facilitar técnicamente la manera de explicar conceptos de modo que los ordenadores puedan procesarlo rápidamente y proporciona un medio que posibilita la edicición de vocabularios con propiedades definidas para la descripción de los recursos de una comunidad.

RDF usa la sintaxis del lenguaje XML para el intercambio y procesamiento de metadatos,las condiciones se recogen en los rdf: Descripcion de los elementos XML.

PICS

Los PICS (Platform for the Internet Content Selection), nos indican lo adecuado o conveniente de determinados ficheros de datos segun la comunidad en la que se encuentre el usuario. Es una infraestructura para asociar las etiquetas con los contenidos de Internet. Aunque en un principio estaba destinado al control del acceso de los niños a Internet, su uso se puede extender a otras etiquetas que incluyan privacidad, licencias,etc. PICS es una plataforma sobre la cual se han construido otros servicios de clasificación que no sólo define una manera de construir etiquetas sino que es un mecanismo para realizar las valoraciones.Este mecanismo esta formado, al menos por lo siguiente:

Para que el filtrado de documentos no deseados se lleve a cabo, también es necesario un software cliente y otro servidor que tengan implementado el sistema de valoración.Estas funciones se pueden realizar por separado, lo cual permite que por un lado los desarrolladores de software puedan realizar una aplicación informática sin suministrar un sistema de valoración mientras que por otro una organización puede crear sistemas de valoración sin tener que desarrollar el software.

ONTOLOGÍAS

La ontologías son colecciones de enunciados redactados en un lenguaje, como el RDF, que define las relaciones entre conceptos y especifica reglas lógicas para razonar con ellos. Los ordenadores "comprenderán" el significado de los datos semánticos de una página de la red siguiendo vínculos con ontologías especificadas.

AGENTES

El concepto de tecnología de agentes está aún en desarrollo, pero una definición que podemos manejar de agente es la siguiente: un agente es una entidad de software que funciona continua y autónomamente en un medio particular a menudo habitado por otros agentes y procesos, sin requerir de guía constante o intervención humana. En otras palabras, un agente es un asistente personal que está dentro de la computadora y que cumple varios roles en representación de una función específica o de un usuario.

En la web semántica serán los encargados de realizar la búsqueda de servicios, para ello, la semántica facultará a los agentes para describir unos a otros la función exacta que realizan, y qué datos han de recibir para ello.

La recuperación de la información en la web semántica

Los actuales buscadores de Internet, como google se basan en un sistema en el que los usuarios meten manualmente los enlaces y al hacer una búsqueda se aplica un algoritmo de emparejamiento de patrones, que tiene en cuenta el número de veces que se hace referencia a cada url candidata a ser resultado de búsqueda.

Si bien hemos aprendido a convivir con este sistema de búsqueda, la única información que recuperamos con él son conceptos descontextualizados, es decir, si en un buscador ponemos la palabra "flor" recuperaremos una editorial que se llamen flor, una página web para expresar sentimientos en Internet y, si tenemos suerte alguna página especializada en margaritas.

La web semántica nos permitirá hacer búsquedas precisas del tipo quiero el viaje más barato que hay entre Madrid y Barcelona, teniendo en cuenta que me gusta ir en ventanilla y en no fumadores.

En el estado actual de Internet esto es ahora posible gracias a los sistemas multiagente. Donde un agente es una entidad de software que funciona continua y autónomamente en un medio particular a menudo habitado por otros agentes y procesos, sin requerir de guía constante o intervención humana. También debe poseer ciertas habilidades sociales, reactividad ante el mundo que le rodea y comportamiento basado en deseos que pertenecen a cada agente en particular. Los sitemas multiagentes se han propuesto como la mejor herramienta para realizar aprendizaje automático en Internet. Mediante esta herramienta es posible hacer recomendaciones acertadas del tipo "pincha en este sitio web, pues me parece que te interesa", "esta persona tiene intereses muy similares a los tuyos, te interesaría contactar con ella" y esto lo hará software puro y duro, sin más intervención humana que la de la propia acción del usuario y acertarán. También será posible clasificar automáticamente sitios ó documentos de una manera acertada y un montón de más cosas que ni siquiera nos imaginamos.

El problema con el que ahora se topa la tecnología de sistemas multiagente es la volatilidad y desestructuración de la información base para realizar las inferencias. Volviendo al ejemplo del sistema multiagente para encontrar el viaje de tus sueños el único lugar desde el que puede recuperar la información son páginas html en forma de tablas, éstas páginas pueden cambiar su estructura cada mes, lo que requiere cambios de programación. Esto no es un problema si la información está almacenada y puede ser consultada desde bases de datos y/o ficheros xml/rdf.

Hoy en día podemos ver cómo se popularizan foros al estilo de slashdot que dejan un fichero rdf (por ejemplo http://slashdot.rdf), dónde quedan las noticias de manera estructurada. La idea es que éste u otros métodos de compartir la información dinámica se popularice. Mientras tanto esta tecnología quedará restringida a poderosas bases de datos centralizadas como por ejemplo las de Amazon, que hagan recomendaciones de compra en base a lo que ya se ha comprado.

Licencias

Evolución del copyright

Desde la aparición de la imprenta los autores e impresores quedan sujetos a que su actividad necesitase de una autorización real y otros permisos otorgados por autoridades religiosas antes de realizar la publicación. Parece ser que fue en Inglaterra, sobre 1740 donde se encuentran los primeros antecedentes del actual copyright orientado a proteger los intereses de los autores y asegurarles su propiedad intelectual, aunque limitados esos derechos en el tiempo (unos 28 años).

Desde que a medidados del siglo XIX, debido a las nuevas técnicas que permitían una producción masiva, a las facilidades de transporte y distribución de los libros y la reducción del analfabetismo, la industria editorial se convierte en un gran negocio. Estas facilidades hicieron que se comenzaran a hacer reediciones de las obras sin consulta del autor, especialmente cuando se hacían en otros países, ésto hizo que se viera una necesidad de protegar los derechos de autor independientemente del país. Tras diversos acuerdos internacionales en 1952, en Ginebra y patrocinado por la UNESCO y se establecieron las siguientes líneas que serían adoptadas porla Convención Universal del copyright.

Pero mientras tanto los adelantos tecnológicos hacen que aumente la facilidad de reproducción de los materiales impresos, mediante las fotocopiadoras, xerografía, micrografías. Ocurriendo lo mismo con otros formatos: imagen, sonido y las respectivas técnicas de reproducción. Así las editoriales comienzan a ver el "peligro" y en 1971 revisan los contenidos de las anteriores convenciones. Aparece un nuevo hecho, que la piratería no la comete otra editorial, como habían venido ocurriendo en siglos anteriores sino que la lleva a cabo el proio usuario. En este punto, tan sólo la enseñanza y las bibliotecas escapan de estas medidas que restringen el acceso a la información.

Las bibliotecas se convierten en las principales defensoras de los lectores y los bibliotecarios son los primeros en colectar y poner a disposicón pública cualquier material que pueda ser legalmente adquirido. De ahí que encontremos la siguiente declaración de derechos de las bibliotecas realizadas por la ALA (American Library Associtation) en la que se afirma que todas las bibliotecas son foros abiertos para la información las ideas y las siguietes normas básicas son las que deberán regir sus servicios:

Actualmente, nos encontramos ante una nueva situación, debido a la aparición de las redes informáticas; los propietarios de copyright estan perplejos ante las nuevas posiblidades que ofrece el medio digial, para efectuar copias o difusión universal de cualquier material informativo, por tanto, dichos propietarios buscan protección para sus pretendidos derechos de autor, pero por otro lado, ya que deben atender a las reclamaciones de los usuarios que temen una excesiva protección de los derechos con lo cual se dificulte y limite su acceso a la información.

La IFLA (International Federation of Library Associations) comparte ese temor, de que se pueda producir una restriccion al acceso de la información por ello cree que dicho acceso depende del buen funcionamiento de las redes nacioanales e internacionales de bibliotecas y de servicios de información y que el desarrollos de la infraestructura de la información digital conducirá a oportunidades sin precedentes para la educación y el entretenimiento.

Explicación y ventajas de la licencia gfdl

Debemos pensar que en el momento en el que nos encontramos actualmente la capacidad para generar y copiar información escrita es brutal y que estamos reescribiendo una y otra vez las mismas obras, sobre todo científicas y/ó con intereses educativos, en lugar de pensar en mejorarlas y actualizarlas. Si éste momento nos permite copiar nuestras obras escritas con un coste cero y una total inmediatez, debemos aprovecharnos de ellos al máximo, pero sin caer en una innecesaria ilegalidad, ni dejar de premiar económica y socialmente a los autores de las mismas. Es muy probable que éste cambio nos suponga cambiar el modelo de negocio y la licencia de éstos textos. La gfdl se propone como una de las licencias que mejor están asumiendo los requisitos antes expuestos y, que con más fuerza se está difundiendo. Ahora pasaré a explicar en qué consiste.

Si dijéramos que un texto se atañe a la licencia gfdl si se puede copiar y modificar libremente, habría simplificado excesivamente la idea de lo que es la gfdl y, sin embargo, para ser lo suficientemente preciso sólo tendría la posibilidad de remitir al público a el sitio oficial de gnu, dónde se muestra la licencia, ó mandarte a que leas la copia de la licencia GNU Free Documentation License que he copiado al final de éste documento. Así es que debo hacer algo intermedio, espero que me salga bien, ó que me sepáis perdonar si no es así.

Para que un texto sea libre según la definición de libertad de la gfdl, el texto debe proporcionar las fuentes del documento. Es decir, si alguien genera un texto y publica el .pdf no va a ser nada fácil modificar dicho texto, así mismo si publica un .doc tampoco va a ser fácil modificarlo, ya que necesitas un editor específico y propietario para hacerlo. Estos son dos buenos ejemplos de textos que nunca podrán estar bajo los términos de la gfdl. Sin embargo, si alguien publica un documento .pdf, pero proporciona además su versión en latex, docbook, ó algún otro lenguaje de marcas sí podría llegar a estar de acuerdo con la gfdl, ya que estamos proporcionando las fuentes del documento.

Pero a parte de proporcionar las fuentes ¿qué más tiene que suceder para que yo pueda crear un texto gfdl?. Pues poner una nota en tu texto similar a esta:




      Copyright (c)  YEAR  YOUR NAME.
      Permission is granted to copy, distribute and/or modify this document
      under the terms of the GNU Free Documentation License, Version 1.1
      or any later version published by the Free Software Foundation;
      with the Invariant Sections being LIST THEIR TITLES, with the
      Front-Cover Texts being LIST, and with the Back-Cover Texts being LIST.
      A copy of the license is included in the section entitled "GNU
      Free Documentation License".

      

Vale, seguramente te gustará traducirlo y adaptarlo a tu realidad, siénte libre para ello, incluso puedes llegar a traducir la licencia entera, pero recuerda que si traduces la licencia y hay algún punto en el que no coincide exactamente lo que pone la licencia traducida de la original en inglés, la inglesa es la que prevalece.

Veamos como quedaría traducido:




	Copyright (c)  AÑO  TU-NOMBRE
	Se otorga permiso para copiar, distribuir, y/ó modificar este documento
	bajo los términos de la GNU Free Documentation License, Version 1.1
	ó cualquier versión posterior publicada por la Free Software Foundation;
	con las siguientes secciones invariantes LISTA-DE-SECCIONES-INVARIANTES,
	con los siguientes textos de portada LISTA-DE-TEXTOS-DE-PORTADA y, con
	los siguientes textos de contraportada LISTA-DE-TEXTOS-DE-CONTRAPORTADA.
	Una copia de ésta licencia es incluida la sección titulada "GNU
	Free Documentation License"

      

Ahora ya tenemos un texto gfdl, ¿qué restricciones tenemos sobre las modificaciones que queremos hacer sobre él?. No se pueden publicar versiones modificadas con el mismo título sin consentimiento de los autores originales. Todo documento va acompañado de una historia donde se reflejan los cambios que ha sufrido a lo largo del tiempo y quién los realizó. Las versiones publicadas deben ser accesibles durante un tiempo determinado. Y se pueden calificar ciertas secciones de invariables siempre que no traten del tema del documento.

También encontraremos restricciones sobre la manera en la que se hacen las copias, quien quiera hacer copias literales del documento, deberá copiar también la licencia completa y, tener en cuenta algunas consideraciones hacia los textos de portada y contraportada.

Ahora ya sabemos qué tenemos que hacer para generar textos gfdl y sabemos en qué condiciones podemos redistribuirlos y modificarlos. Pero ahora, deberíamos saber qué ventajas tiene generar documentos con esta licencia.

Aquel que genere un texto bajo licencia gfdl y lo difunda adecuadamente a través de Internet conseguirá una rápida realimentación en forma de sugerencias, mejoras, etc. Además, conseguirá que su texto y él mismo se hagan famosos rápidamente, con lo que es posible que se le invite a dar conferencias y charlas sobre las ideas que en su texto se exponen. Ser el autor de un texto que se mejora, actualiza y difunde rápidamente es algo que provoca prestigio profesional en aquello que a uno le entusiasma hacer, lo cual revierte en dinero en forma de conferencias, clases, etc. y, sobre todo satisfacción personal por poder hacer lo que a uno le gusta, por crear comunidad alrededor de unos intereses comunes, por permitir que todo aquel que tenga interés por aquello que uno quiere transmitir al mundo pueda hacerlo sin restricciones de tipo económico, etc.

Por otro lado, independientemente que haya publicado el texto en Internet también puede hacerlo por la vía impresa y seguir ganando dinero de ésta manera, además estos textos se venderán más, ya que serán conocidos por más gente y a partir de que un texto tiene ciertas dimensiones, la gente suele preferir leerlo de manera impresa que dejándose la vista en una pantalla.

Proyectos

Hasta ahora hemos estado viendo aspectos parciales de las tecnologías y licencias acerca de la biblioteca digital y la web semántica. En este apartado trataremos de acercar algunos de los proyectos ó aplicaciones que podemos encontrar a día de hoy para vislumbrar cómo se va a transformar la publicación de contenidos en Internet bajo los impulsos de la biblioteca digital y la web semántica.

Biblioweb en SD

Biblioweb es un proyecto amplio para simplemente crear una biblioteca de documentos interesantes sobre muchos temas en la web. Es decir, es una biblioteca pública que reune documentos sobre los temas que preocupan a quienes participan/participamos en ese proyecto.

Hasta ahora todos lo documentos que se han publicado en la biblioweb son como mínimo de libre copia. Por lo que puede ser una herramienta muy interesante de cara a la catalogación y, por tanto, facilidad de recuperación de documentos libres.

Alex es una herramienta gráfica de catalogación de esa biblioteca, herramienta que está desarrollando algunas personas del proyecto SinDominio, que está a punto de quedar disponible públicamente bajo GPL y, por lo tanto lista para ser modificada, copiada y aprovechada para muchos otros proyectos. "Alex" (escrito en perl/tk) ayuda a los catalogadores a decidir el tema, los subtemas y a rellenar los demás campos necesarios para identificar un documento y ponerlo en relación con todos los demás documentos de la biblioweb. Toda información sobre todos los documentos se recoge en una base de datos (motor Postgresql) residente en fanelli que se llama "Alejandria".

Los catalogadores de la biblioteca usarán Alex para catalogar, mantener la base de datos, buscar documentos por multiples parámetros, leer los documentos mediante su visor HTML o publicarlos cuando les interese (y para muchas cosas más a medida que le incorporemos otras funcionalidades). Dado que Perl/Tk está disponible para casi todas las plataformas imaginables, los catalogadores podrán usar PCs o Macs o Alphas o lo que sea corriendo con GNU/Linux o con cualquier otra cosa que les venga bien... eso incluye ms-windows, aunque ya sabemos que todas estamos migrando a sistemas libres ¿verdad? ;-).

Hay que destacar que al contrario que otros proyectos de bibliotecas digitales, gracias a Alex la Biblioweb se convierte en un proyecto distribuido, es decir, posibilita que haya multitud de personas catalogando textos mediante esta herramienta.

Evidentemente el usuario normal y sin interés en colaborar en la catalogación o aumento de la biblioteca no tiene por qué usar "Alex". Lo que si va a tener que usar es Alejandria, que es solamente la base de datos Postgres creada mediante "Alex" y a la que accederá mediante un navegador y una sencilla interfaz web que le permitirá buscar (mediante un potente motor de búsqueda) los documentos por multitud de campos y criterios (los mismos que habrán creado y utilizado los catalogadores con "Alex"), examinar los resultados de su búsqueda leyendo los resúmenes (creados por otros mediante "Alex") y decidiendo entonces qué documento leer o tal vez entretenerse mirando qué documento tiene que ver con qué otro y por qué... por ejemplo ¿que tiene que ver un programa informático como fetchmail con la catedral de Burgos o con una bazar de Marrakesh?

Si esta pequeña introducción al proyecto os ha abierto el interés y queréis saber más podéis visitar http://www.sindominio.net/biblioweb y comprobar como va el trabajo de catalogación, así como disfrutar de los textos que allí ya se recogen. Así mismo, podéis bajaros alex desde http://www.sindominio.net/~kiko/ si tenéis prisa en probarlo. Puesto que aún no se ha generado mucha documentación acerca del proyecto, es probable que tengáis muchas más dudas acerca de él, para ello podéis preguntar en biblioweb@sindominio.net.

Wikipedia/Gnupedia

Los wiki se han descubierto como una maravillosa herramienta para producir textos mediante interfaces web de una manera totalmente distribuida. Cualquiera que visite un wiki puede modificarlo en el mismo instante en el que lo visita. Pero también puede acceder a versiones anteriores de la página que va a modificar ó a modificado, así si ve que alguien ha puesto una burrada, ó ha destruido el trabajo de alguien pues puede recuperar el trabajo anterior

A partir de esta herramienta han surgido al menos tres proyectos para desarrollar una enciclopedia libre, estos son:

Los tres proyectos se basan en la conferencia de Richard Stallman, Enciclopedia Universal y Recursos de enseñanza Libres que comienza con las siguientes palabras:

La World Wide Web tiene el potencial de desarrollarse hacia una enciclopedia universal que cubra todas las áreas del conocimiento, y hacia una biblioteca completa de cursos de instrucción. Este resultado se podría obtener sin ningún esfuerzo especial, si nadie interfiere. Pero las corporaciones se están movilizando ahora para dirigir el futuro en otro sentido, un sentido en el que ellos controlan y restringen el acceso a los materiales de aprendizaje, de tal manera que pueden extraer dinero de las personas que quieren aprender.

Para asegurarnos que la red se desarrolle hacia el mejor y más natural resultado, en el que ésta se convierte en una enciclopedia libre, debemos realizar un esfuerzo consciente para evitar el secuestro deliberado de la información educacional y enciclopédica de la red. No podemos evitar que los negocios restrinjan la información que ellos publican en la red; lo que sí podemos hacer es proveer una alternativa. Debemos lanzar un movimiento para desarrollar una enciclopedia universal libre, de manera similar como el movimiento del software libre nos proveyó del sistema operativo libre GNU/Linux. La enciclopedia libre proveerá una alternativa a aquellas restringidas que serán escritas por las corporaciones.

Si bien estos proyectos de enciclopedias libres no tiene una relación directa con lo que hemos entendido con biblioteca digital, o web semántica, sí refuerzan la idea de la necesidad de cambiar el modo de producción de la documentación electrónica, lo cual puede cambiar también el mismo concepto de biblioteca digital.

Tal vez estos artículos que se generan por la cooperación voluntaria de la gente se organicen por aquellos que los generan ó se organicen mediante proyectos como la Biblioweb

GNU Free Documentation License

PREAMBLE

The purpose of this License is to make a manual, textbook, or other written document "free" in the sense of freedom: to assure everyone the effective freedom to copy and redistribute it, with or without modifying it, either commercially or noncommercially. Secondarily, this License preserves for the author and publisher a way to get credit for their work, while not being considered responsible for modifications made by others.

This License is a kind of "copyleft", which means that derivative works of the document must themselves be free in the same sense. It complements the GNU General Public License, which is a copyleft license designed for free software.

We have designed this License in order to use it for manuals for free software, because free software needs free documentation: a free program should come with manuals providing the same freedoms that the software does. But this License is not limited to software manuals; it can be used for any textual work, regardless of subject matter or whether it is published as a printed book. We recommend this License principally for works whose purpose is instruction or reference.

APPLICABILITY AND DEFINITIONS

This License applies to any manual or other work that contains a notice placed by the copyright holder saying it can be distributed under the terms of this License. The "Document", below, refers to any such manual or work. Any member of the public is a licensee, and is addressed as "you".

A "Modified Version" of the Document means any work containing the Document or a portion of it, either copied verbatim, or with modifications and/or translated into another language.

A "Secondary Section" is a named appendix or a front-matter section of the Document that deals exclusively with the relationship of the publishers or authors of the Document to the Document's overall subject (or to related matters) and contains nothing that could fall directly within that overall subject. (For example, if the Document is in part a textbook of mathematics, a Secondary Section may not explain any mathematics.) The relationship could be a matter of historical connection with the subject or with related matters, or of legal, commercial, philosophical, ethical or political position regarding them.

The "Invariant Sections" are certain Secondary Sections whose titles are designated, as being those of Invariant Sections, in the notice that says that the Document is released under this License.

The "Cover Texts" are certain short passages of text that are listed, as Front-Cover Texts or Back-Cover Texts, in the notice that says that the Document is released under this License.

A "Transparent" copy of the Document means a machine-readable copy, represented in a format whose specification is available to the general public, whose contents can be viewed and edited directly and straightforwardly with generic text editors or (for images composed of pixels) generic paint programs or (for drawings) some widely available drawing editor, and that is suitable for input to text formatters or for automatic translation to a variety of formats suitable for input to text formatters. A copy made in an otherwise Transparent file format whose markup has been designed to thwart or discourage subsequent modification by readers is not Transparent. A copy that is not "Transparent" is called "Opaque".

Examples of suitable formats for Transparent copies include plain ASCII without markup, Texinfo input format, LaTeX input format, SGML or XML using a publicly available DTD, and standard-conforming simple HTML designed for human modification. Opaque formats include PostScript, PDF, proprietary formats that can be read and edited only by proprietary word processors, SGML or XML for which the DTD and/or processing tools are not generally available, and the machine-generated HTML produced by some word processors for output purposes only.

The "Title Page" means, for a printed book, the title page itself, plus such following pages as are needed to hold, legibly, the material this License requires to appear in the title page. For works in formats which do not have any title page as such, "Title Page" means the text near the most prominent appearance of the work's title, preceding the beginning of the body of the text.

VERBATIM COPYING

You may copy and distribute the Document in any medium, either commercially or noncommercially, provided that this License, the copyright notices, and the license notice saying this License applies to the Document are reproduced in all copies, and that you add no other conditions whatsoever to those of this License. You may not use technical measures to obstruct or control the reading or further copying of the copies you make or distribute. However, you may accept compensation in exchange for copies. If you distribute a large enough number of copies you must also follow the conditions in section 3.

You may also lend copies, under the same conditions stated above, and you may publicly display copies.

COPYING IN QUANTITY

If you publish printed copies of the Document numbering more than 100, and the Document's license notice requires Cover Texts, you must enclose the copies in covers that carry, clearly and legibly, all these Cover Texts: Front-Cover Texts on the front cover, and Back-Cover Texts on the back cover. Both covers must also clearly and legibly identify you as the publisher of these copies. The front cover must present the full title with all words of the title equally prominent and visible. You may add other material on the covers in addition. Copying with changes limited to the covers, as long as they preserve the title of the Document and satisfy these conditions, can be treated as verbatim copying in other respects.

If the required texts for either cover are too voluminous to fit legibly, you should put the first ones listed (as many as fit reasonably) on the actual cover, and continue the rest onto adjacent pages.

If you publish or distribute Opaque copies of the Document numbering more than 100, you must either include a machine-readable Transparent copy along with each Opaque copy, or state in or with each Opaque copy a publicly-accessible computer-network location containing a complete Transparent copy of the Document, free of added material, which the general network-using public has access to download anonymously at no charge using public-standard network protocols. If you use the latter option, you must take reasonably prudent steps, when you begin distribution of Opaque copies in quantity, to ensure that this Transparent copy will remain thus accessible at the stated location until at least one year after the last time you distribute an Opaque copy (directly or through your agents or retailers) of that edition to the public.

It is requested, but not required, that you contact the authors of the Document well before redistributing any large number of copies, to give them a chance to provide you with an updated version of the Document.

MODIFICATIONS

You may copy and distribute a Modified Version of the Document under the conditions of sections 2 and 3 above, provided that you release the Modified Version under precisely this License, with the Modified Version filling the role of the Document, thus licensing distribution and modification of the Modified Version to whoever possesses a copy of it. In addition, you must do these things in the Modified Version:

  1. Use in the Title Page (and on the covers, if any) a title distinct from that of the Document, and from those of previous versions (which should, if there were any, be listed in the History section of the Document). You may use the same title as a previous version if the original publisher of that version gives permission.

  2. List on the Title Page, as authors, one or more persons or entities responsible for authorship of the modifications in the Modified Version, together with at least five of the principal authors of the Document (all of its principal authors, if it has less than five).

  3. State on the Title page the name of the publisher of the Modified Version, as the publisher.

  4. Preserve all the copyright notices of the Document.

  5. Add an appropriate copyright notice for your modifications adjacent to the other copyright notices.

  6. Include, immediately after the copyright notices, a license notice giving the public permission to use the Modified Version under the terms of this License, in the form shown in the Addendum below.

  7. Preserve in that license notice the full lists of Invariant Sections and required Cover Texts given in the Document's license notice.

  8. Include an unaltered copy of this License.

  9. Preserve the section entitled "History", and its title, and add to it an item stating at least the title, year, new authors, and publisher of the Modified Version as given on the Title Page. If there is no section entitled "History" in the Document, create one stating the title, year, authors, and publisher of the Document as given on its Title Page, then add an item describing the Modified Version as stated in the previous sentence.

  10. Preserve the network location, if any, given in the Document for public access to a Transparent copy of the Document, and likewise the network locations given in the Document for previous versions it was based on. These may be placed in the "History" section. You may omit a network location for a work that was published at least four years before the Document itself, or if the original publisher of the version it refers to gives permission.

  11. In any section entitled "Acknowledgements" or "Dedications", preserve the section's title, and preserve in the section all the substance and tone of each of the contributor acknowledgements and/or dedications given therein.

  12. Preserve all the Invariant Sections of the Document, unaltered in their text and in their titles. Section numbers or the equivalent are not considered part of the section titles.

  13. Delete any section entitled "Endorsements". Such a section may not be included in the Modified Version.

  14. Do not retitle any existing section as "Endorsements" or to conflict in title with any Invariant Section.

If the Modified Version includes new front-matter sections or appendices that qualify as Secondary Sections and contain no material copied from the Document, you may at your option designate some or all of these sections as invariant. To do this, add their titles to the list of Invariant Sections in the Modified Version's license notice. These titles must be distinct from any other section titles.

You may add a section entitled "Endorsements", provided it contains nothing but endorsements of your Modified Version by various parties--for example, statements of peer review or that the text has been approved by an organization as the authoritative definition of a standard.

You may add a passage of up to five words as a Front-Cover Text, and a passage of up to 25 words as a Back-Cover Text, to the end of the list of Cover Texts in the Modified Version. Only one passage of Front-Cover Text and one of Back-Cover Text may be added by (or through arrangements made by) any one entity. If the Document already includes a cover text for the same cover, previously added by you or by arrangement made by the same entity you are acting on behalf of, you may not add another; but you may replace the old one, on explicit permission from the previous publisher that added the old one.

The author(s) and publisher(s) of the Document do not by this License give permission to use their names for publicity for or to assert or imply endorsement of any Modified Version.

COMBINING DOCUMENTS

You may combine the Document with other documents released under this License, under the terms defined in section 4 above for modified versions, provided that you include in the combination all of the Invariant Sections of all of the original documents, unmodified, and list them all as Invariant Sections of your combined work in its license notice.

The combined work need only contain one copy of this License, and multiple identical Invariant Sections may be replaced with a single copy. If there are multiple Invariant Sections with the same name but different contents, make the title of each such section unique by adding at the end of it, in parentheses, the name of the original author or publisher of that section if known, or else a unique number. Make the same adjustment to the section titles in the list of Invariant Sections in the license notice of the combined work.

In the combination, you must combine any sections entitled "History" in the various original documents, forming one section entitled "History"; likewise combine any sections entitled "Acknowledgements", and any sections entitled "Dedications". You must delete all sections entitled "Endorsements."

COLLECTIONS OF DOCUMENTS

You may make a collection consisting of the Document and other documents released under this License, and replace the individual copies of this License in the various documents with a single copy that is included in the collection, provided that you follow the rules of this License for verbatim copying of each of the documents in all other respects.

You may extract a single document from such a collection, and distribute it individually under this License, provided you insert a copy of this License into the extracted document, and follow this License in all other respects regarding verbatim copying of that document.

AGGREGATION WITH INDEPENDENT WORKS

A compilation of the Document or its derivatives with other separate and independent documents or works, in or on a volume of a storage or distribution medium, does not as a whole count as a Modified Version of the Document, provided no compilation copyright is claimed for the compilation. Such a compilation is called an "aggregate", and this License does not apply to the other self-contained works thus compiled with the Document, on account of their being thus compiled, if they are not themselves derivative works of the Document.

If the Cover Text requirement of section 3 is applicable to these copies of the Document, then if the Document is less than one quarter of the entire aggregate, the Document's Cover Texts may be placed on covers that surround only the Document within the aggregate. Otherwise they must appear on covers around the whole aggregate.

TRANSLATION

Translation is considered a kind of modification, so you may distribute translations of the Document under the terms of section 4. Replacing Invariant Sections with translations requires special permission from their copyright holders, but you may include translations of some or all Invariant Sections in addition to the original versions of these Invariant Sections. You may include a translation of this License provided that you also include the original English version of this License. In case of a disagreement between the translation and the original English version of this License, the original English version will prevail.

TERMINATION

You may not copy, modify, sublicense, or distribute the Document except as expressly provided for under this License. Any other attempt to copy, modify, sublicense or distribute the Document is void, and will automatically terminate your rights under this License. However, parties who have received copies, or rights, from you under this License will not have their licenses terminated so long as such parties remain in full compliance.

FUTURE REVISIONS OF THIS LICENSE

The Free Software Foundation may publish new, revised versions of the GNU Free Documentation License from time to time. Such new versions will be similar in spirit to the present version, but may differ in detail to address new problems or concerns. See http://www.gnu.org/copyleft/.

Each version of the License is given a distinguishing version number. If the Document specifies that a particular numbered version of this License "or any later version" applies to it, you have the option of following the terms and conditions either of that specified version or of any later version that has been published (not as a draft) by the Free Software Foundation. If the Document does not specify a version number of this License, you may choose any version ever published (not as a draft) by the Free Software Foundation.

How to use this License for your documents

To use this License in a document you have written, include a copy of the License in the document and put the following copyright and license notices just after the title page:

Copyright (c) YEAR YOUR NAME. Permission is granted to copy, distribute and/or modify this document under the terms of the GNU Free Documentation License, Version 1.1 or any later version published by the Free Software Foundation; with the Invariant Sections being LIST THEIR TITLES, with the Front-Cover Texts being LIST, and with the Back-Cover Texts being LIST. A copy of the license is included in the section entitled "GNU Free Documentation License".

If you have no Invariant Sections, write "with no Invariant Sections" instead of saying which ones are invariant. If you have no Front-Cover Texts, write "no Front-Cover Texts" instead of "Front-Cover Texts being LIST"; likewise for Back-Cover Texts.

If your document contains nontrivial examples of program code, we recommend releasing these examples in parallel under your choice of free software license, such as the GNU General Public License, to permit their use in free software.