Digitalne biblioteke
- Program rada
- Rad na vežbama
- Neophodni programi
- Literatura
- Digitalne biblioteke:
- Gobinda G. Chowdhury, Sudatta Chowdhury, Introduction to digital libraries,
Facet, London, 2003.
- XML, DTD, RNG, XPath, XSL(T)
- Cvetana Krstev, Uvod u XML,
Filološki fakultet Beograd.
- W3C: XML Tutorial
- Eric van der Vlist:
RELAX NG, O'Reilly, 2004.
- TEI
- Smernice (TEI P5) (lokalna pdf
verzija)
- Cvetana Krstev, TEI
- Tomaž Erjavec,
Smernice inicijative za kodiranje teksta i njihova lokalizacija, u Infoteka:
časopis za informatiku i bibliotekarstvo, vol. XI, No. 1, pp. 3-15, Beograd, 2010.
- I čas
- II čas
- III čas
- IV čas
- V čas
- VI čas
- VII čas
- VIII čas
- Definicija digitalnih biblioteka
- Poređenje biblioteka i digitalnih biblioteka
- nabavka
- obrada
- katalogizacija i klasifikacija
- anotacija (meta-podaci)
- bibliografski podaci
- strukturna anotacija teksta (poglavlja, naslovi i podnaslovi, pasusi, rečenice, napomene, fusnote, zaglavlja, redni broj strane).
- semantička anotacija teksta i ekstrakcija informacija
- XML i TEI
- usluga
- veb interfejs informacionog sistema kao alternativa neposrednom kontaktu bibliotekara i korisnika
- softver
- programi za čitanje i pregled elektronskih formata (readers, viewers)
- programi za konverziju iz jednog formata (txt, html, doc, ps, pdf, djvu, chm) u drugi
- programi za skaniranje, obradu slika i OCR (Tesseract)
- programi za rad sa elektronskim katalozima
- programi za rad sa elektronskim bibliografijama
- programi za upravljanje sadržajem (Content Management Software):
- posebno za digitalne biblioteke
- XML
- DTD
- Sadržaj elemenata
- Definicija tipa dokumenta (Document Type Definition, DTD). Validan XML dokument (valid XML document)
- deklaracija elemenata
- modeli sadržaja:
- Spoljašnji DTD (external DTD).
Atribut standalone u XML deklaraciji
- Primer: druga verzija fiskalnog računa racun2.xml,
racun.dtd (ova datoteka se ne
može pogledati u browser-u, nego je treba preuzeti i pogledati korišćenjem
nekog tekstuelnog editora kakav je Notepad ili PSPad ili videti tekstuelnu verziju racun_dtd.txt).
- Primer: treća verzija fiskalnog računa racun3.xml,
racun3.dtd (ova datoteka se ne
može pogledati u browser-u, nego je treba preuzeti i pogledati korišćenjem
nekog tekstuelnog editora kakav je Notepad ili PSPad ili videti tekstuelnu verziju racun3_dtd.txt).
- RELAX NG
- DTD i RELAX NG Shema: poređenje
- jednostavan sadržaj
- parsirani karakterski podaci: text.xml,
text.dtd
(tekstuelna verzija text_dtd.txt),
text.rng;
- uređen niz: niz.xml,
niz.dtd
(tekstuelna verzija niz_dtd.txt),
niz.rng (kraća verzija),
niz-group.rng (duža verzija);
- izbor: choice1.xml,
choice2.xml,
choice.dtd
(tekstuelna verzija choice_dtd.txt),
choice.rng;
- ponavljanje:
- opciono pojavljivanje: optional1.xml,
optional2.xml,
optional.dtd
(tekstuelna verzija optional_dtd.txt),
optional.rng;
- opciono ili višestruko pojavljivanje: zeroOrMore1.xml,
zeroOrMore2.xml,
zeroOrMore3.xml,
zeroOrMore.dtd
(tekstuelna verzija zeroOrMore_dtd.txt),
zeroOrMore.rng;
- višestruko pojavljivanje: oneOrMore1.xml,
oneOrMore2.xml,
oneOrMore.dtd
(tekstuelna verzija oneOrMore_dtd.txt),
oneOrMore.rng.
- neuređen niz: interleave1.xml,
interleave2.xml,
interleave3.xml,
interleave4.xml,
interleave5.xml,
interleave6.xml,
Za ovo ne postoji elegantno DTD-rešenje interleave.dtd
(tekstuelna verzija interleave_dtd.txt),
interleave.rng
- mešovit sadržaj
- atributi
- RELAX NG (kompaktna sintaksa)
- Obe sintakse su ekvivalentne i mogu se transformisati jedna u drugu
(npr. pomoću alata kao što je Exchanger)
- jednostavan sadržaj
- parsirani karakterski podaci: text.xml,
text.rng,
text.rnc
(tekstuelna verzija text_rnc.txt);
- uređen niz: niz.xml,
niz.rng (kraća verzija),
niz-group.rng (duža verzija),
niz.rnc (niz-group.rnc je istovetan kao niz.rnc)
(tekstuelna verzija niz_rnc.txt);
- izbor: choice1.xml,
choice2.xml,
choice.rng
choice.rnc
(tekstuelna verzija choice_rnc.txt);
- ponavljanje:
- neuređen niz: interleave1.xml,
interleave2.xml,
interleave3.xml,
interleave4.xml,
interleave5.xml,
interleave6.xml,
interleave.rng
interleave.rnc
(tekstuelna verzija interleave_rnc.txt)
- mešovit sadržaj
- Imenovani obrasci:
- Definisanje ograničenja za tekstuelni sadržaj
- Tipovi podataka (preuzeti iz XML Sheme)
- ugrađeni:
- numerički (decimal, integer, positiveInteger, negativeInteger, nonNegativeInteger itd).
- datum/vreme (date, time, dateTime, gYear, gMonth, gDay, gMonthDay itd).
- tekstuelni (token, string, language, anyURi, NMTOKEN itd).
- definisani od strane korisnika. Restrikcije i regularni izrazi. Primeri:
- Pregled alata dokumenata iz MS Word-formata (.doc, .docx) u format običnog teksta (.txt)
- DOI (Digital Object Identifier)
- TEI (nastavak)
- Pristup informacijama (korisnički interfejs)
- Transformacija XML dokumenata