Logo

SKAPA KONTO
← En dyr bok
Följande inlägg →

Metadata, så funkar det

2011/12/01

Clock Image 21:39

av: Hannes

 

För en tid sedan var vi inbjudna att föreläsa om metadata på den kurs i eboksproduktion som just nu pågår på Södertörns högskola. Föreläsningen ledde till en del intressanta diskussioner som fått oss att vilja formulera för världen hur vi på Publit ser på det där med metadata. Here goes:

METADATA, KATALOGDATA, ARTIKELDATA ELLER MARGINALIA?
Metadata (”data om data”) är ett ganska nytt begrepp, hämtat från datorernas domän. Långt innan det myntades på 70-talet (av systemvetaren Bernard Plagman) var postorderkataloger fulla av artikeldata och bibliotekarier världen över hade skapat och organiserat katalogposter i hundratals år. Även marginalia, dvs. randanmärkningar av olika slag, har funnits betydligt längre än begreppet metadata. När man börjar titta närmare på hur just eböcker kan berikas med olika former av data som inte är en del av själva det litterära verket, finns det poänger i att återigen använda sig av fler begrepp än bara metadata. Om inte annat därför att de tekniska ramverk och språk som används skiljer sig åt.

XML-ramverket ONIX har exempelvis vunnit terräng över hela världen som standardsättet att kommunicera artikeldata mellan förlag, distributörer och återförsäljare. ONIX är mycket omfattande, det malldokument som beskriver alla möjliga fält är över 20 000 rader långt. Men även om ONIX låter dig beskriva exempelvis var författaren till ett verk växte upp, gick i skolan, och var han eller hon ”flourished” så är ONIX i grund och botten avsett för att beskriva en säljbar produkt snarare än ett litterärt verk.

Katalogdata är det begrepp som kanske oftast används i biblioteksvärlden, och det tekniska format som används för att göra katalogdata maskinläsbar har sedan 60-talet varit MARC. MARC är till skillnad från nästan alla andra format för bokdata inte xml-baserat, även om det sedan 2002 finns en standard för att översätta MARC till xml. Wouter van der Velde är ansvarig för Springerkoncernens digitalisering av cirka 7000 titlar per år. Han sa nyligen i den här intervjun att det svåraste och mest kostsamma arbetet för Springer är att anpassa böckernas metadata för att vara kompatibelt med MARC. Även många bibliotek världen över investerar tungt i att översätta ONIX-baserad artikeldata till MARC-baserad katalogdata.

Marginalia är ett samlingsbegrepp för användargenererad metadata. Bokmärken, randanmärkningar och understrykningar är några exempel. Arbetsgruppen för epub3 hade som målsättning att skapa ett öppet format för att göra möjligt att flytta marginalia mellan olika tekniska plattformar men denna del av specifikationen tycks tills vidare ha bordlagts. Marginalia skulle också kunna sammanfattas som en typ av post publication-metadata. (Pre- och post publication metadata är de begrepp som används i epu3-specifikationen, svensk översättning efterlyses.)

Metadata slutligen, eller mer specifikt pre publication-metadata kan delas in i två kategorier; beskrivning av den delen av en ebok som i brist på bättre ord kan kallas content, och av den delen som vi kan kalla wrapping.

Content-relaterad pre publication-metadata är grunden för all form av ”social reading” eller ”enhanced reading” som eböcker öppnar upp för. Digg’s grundare Kevin Rose pratar om några fantasieggande exempel i den här intervjun.

En viktig pusselbit i att få den här typen av metadata att fungera på ett standardiserat sätt är xml-ramverket RDF (Resource Description Framework) som i princip skulle göra det möjligt att märka upp hela ett litterärt verks handling på ett sätt som gör den maskinläsbar. Har man mer måttfulla ambitioner skulle det exempelvis vara möjligt att märka upp författare och medarbetare i enskilda kapitel. PRISM är namnet på ett annat metadata-format som har stor spridning i tidnings- och magasinvärlden och som nu även vunnit stöd i epub3-specifikationen. PRISM är särskilt bra just på att märka upp särskilda delar av en publikation. Begreppet granularity brukar användas för att beskriva hur inzoomad eller högupplöst metadata är. RDF och PRISM är optimerade för väldigt hög grad av granularity.

Wrapping-relaterad pre publication-metadata hör till andra änden av granularity-skalan. Det här är den metadata som skrivs in i en eboks opf-fil, typiskt sett bokens titel, författarens namn, namn på övriga medarbetare, vem som producerat filen etc. Tack vare Dublin Core-protokollet garanteras maximal interoperabilitet. Det som står i opf-filen borde kunna tolkas av alla eboksläsare men också av sökmotor-spindlar som crawlar webben, förutsatt att eboken i fråga ligger on-line vilket blir allt vanligare att den i en eller annan form gör. Därför är det en besvikelse att så lite av den här metadatan plockas upp av eboksläsare. Det har exempelvis varit nödvändigt att fulkoda för att många eboksläsare ska presentera en så fundamental sak som att ett verk har flera författare. Texter som beskriver verket eller författaren går utmärkt att bädda in i opf-filen, men jag har hittills inte stött på någon eboksläsare som klarar att tolka och presentera sådan information.

PROPRIETÄR METADATA vs. CROWDSOURSAD
Om vi trots ovanstående använder ordet metadata som ett paraply-begrepp som betecknar alla sorters data om verket, kan denna kategoriseras längs en skala där proprietär metadata utgör enda änden, och crowdsourcad den andra.

Att metadata är proprietär, dvs. att den tillhör någon, innebär att inte vem som helst har rätt att ändra på den eller addera till den. Ägaren är ofta ett verks upphovsman eller förlag men det finns även proprietär metadata som ägs av andra instanser. ISBN och ISTC är exempel på metadata som är auktoriserad.

Med hjälp av en boks ISBN går det att härleda vilket förlag som gett ut just denna utgåva, och i vilket land boken kommit ut. På så vis tillhör den på sätt och vis förlaget, men förlaget har i själva verket bara blivit tilldelat ett nummer av den nationella ISBN-centralen. I Sverige är denna knuten till Kungliga Biblioteket, i många andra länder är motsvarande centraler kommersiellt drivna.

ISTC är också proprietär metadata, men den tillhör inte ett särskilt förlag utan indikerar verkets identitet oavsett vilken utgåva det är frågan om eller vilket förlag som står bakom just den utgåvan. ISTC står för international standard text code och kan sägas ha konstruerats för att bringa ordning i den röra som uppstår när ISBN-systemet inte längre räcker till.

Ett ISTC-nummer kan exempelvis se ut så här: ISTC 03A 2009 000C299F D och förutom att vara oberoende av förlag och utgåva är det även oberoende av vad som på biblioteksspråk brukar kallas manifestation. De tydligaste exemplen på ett verks olika manifestationer är att ett och samma verk kan nå läsaren i form av pappersbok, ebok eller ljudbok och fortfarande ha ett och samma ISTC-nummer. Huruvida även en serietidningen, ett datorspel eller en film som är baserat på en litterär förlaga också kan räknas som manifestationer av verket dryftas av de lärde. Inom ISTC-systemet skulle bara serietidningen kvala in.

ISTC är alltså en auktoriserad typ av proprietär metadata i betydelsen att varje verk som tilldelas en ISTC-beteckning får den tilldelad av the International ISTC agency, en organisation som helt enligt vad namnet antyder är internationell i sann bemärkelse: det finns bara en i världen och den enda har hela världen som upptagningsområde.

Ett annat exempel på metadata som är auktoriserad och som har mycket lite att göra med förlaget eller upphovsmannen är den metadata som skapas och katalogiseras av bibliotek.

Proprietär metadata är viktigt för sökbarhet. Det kanske kan framstå som en plattityd eftersom sökbarhet brukar anföras som den självklara anledningen till att metadata är viktigt över huvud taget. Det är emellertid oriktigt, metadata är bra för mycket annat också.

Så alltså: Proprietär metadata är viktigt för sökbarhet.

Och sökbarhet är allt viktigare i en värld där det ständigt tillkommer allt fler manifestationer av verk och där allt fler verk samsas om samma sökruta. Med hjälp av ISTC skulle det vara möjligt att gruppera sökresultat efter verk snarare än efter manifestation, vilket idag är standard. Det skulle också vara relativt enkelt kunna lägga in dynamiskt uppdaterbara länkar i eböcker, som utöver det sedvanliga ”andra verk av samma författare” även skulle kunna lista ”andra manifestationer av detta verk”. Inom ISTC-arkitekturen finns vidare ett smart konstruerat stöd för att spåra verks relationer till andra verk, exempelvis hur ett översatt verk relaterar till sin förlaga. ISTC-standarden har dock ännu inte fått brett genomslag, vilket säkert beror på att det är tekniskt krävande att ansöka om att bli tilldelad ISTC-nummer.

Beskrivande texter är ett annat exempel på metadata som befinner sig ganska högt upp på den vertikala skalan. Det är ofta förlaget som står bakom texten men det är inte ovanligt att densamma redigeras eller kanske skrivs om helt av återförsäljare. Just beskrivande texter är också ett exempel på hur svårt det blir med bra metadata när ett verk plötsligt finns i flera manifestationer hos många olika återförsäljare. Den text som beskriver verket är ofta samma för alla manifestationer. Möjligtvis med ett tillägg om vem som läst in ljudboken. Ändå måste en förläggare med flerkanals-ambitioner ofta lägga in denna identiska text i en lång rad olika gränssnitt, allt från det interna affärssystemet till iTunes producer. Har ett korrfel smugit sig in någonstans händer det ofta att felaktiga versioner av de beskrivande texterna blir liggande i olika system. Det händer även att böcker som av någon anledning vunnit ny aktualitet – kanske på grund av att författaren sommarpratat eller vunnit något pris – ändå inte får sina beskrivande texter uppdaterade.

Ytterligare en utmaning för den som vill presentera ett verk, oavsett manifestation, har att göra med att omslagsbilderna ofta ser lite olika ut för de olika manifestationerna. Omslagsbilder är förvisso inte metadata i egentlig bemärkelse men det här är en typ av problem som måste lösas av samma system (och människor) som har till uppgift att hantera metadata. Exempelvis har sajten Library Thing en väldigt sofistikerad funktion för att välja inte bara vilken manifestations omslagsbild som ska representera verket, utan även vilken utgåvas.

I andra änden av skalan finns den metadata som är crowdsourcad, ett begrepp som betecknar att den kan skapas och organiseras av praktiskt taget vem som helst. Ett exempel är de läsarrecensioner som postas på återförsäljares sajter. Ett annat exempel är Amazon Kindles funktion för att spåra och jämföra vilka passager i en ebok som strukits under av läsare världen över, och visa för den individuella läsaren hur många andra som också funnit en viss text intressant. I och med den roll Amazons tekniska ramverk spelar i att möjliggöra den här metadatan, skulle man faktiskt kunna klassificera den som auktoriserad och crowdsourcad på samma gång.

INBÄDDAD METADATA vs. MEDFÖLJANDE
En sista distinktion som kan vara värd att göra är den mellan medföljande och inbäddad metadata. Den senare typen har före eboken gjorde entré varit begränsad till ISBN, titel, författarens namn, förlaget och dess adress, ofta tryckt i bokens kolofonsida. All övrig information som är nödvändig för att kunna sälja boken, exempelvis pris eller genrebeteckning, har förlaget skickat till en grossist, en artikeldatabas eller direkt till en återförsäljare i form av en datafil, på senare tid allt oftare formaterad enligt ONIX-ramverkets regler. En stor del av metadatan för en fysisk bok är alltså rent konkret skild från själva boken.

Så behöver det inte vara för eböcker. Särskilt i och med epub3 finns det stora möjligheter att bädda in både artikeldata och annan metadata i själva filen. Exempelvis blir det möjligt att bädda in ONIX-formaterad metadata i opf-filen, vilket inte varit möjligt förut.

 

metadata

 

e-böcker

 

4 Responses to Metadata, så funkar det

  1. John says:
    2011/12/01 at 22:25

    Markus Gylling understatement-skojade under kvällens föreläsning om att ”de som en gång snöar in på metadata blir ofta lite speciella” eller liknande. Trots varningen läste jag inlägget och står nu nervöst vid tröskeln … klicka … inte … på … länkarna.

    Om man semantiskt märker upp ett stort antal titlars ”handling” och benchmarkar det mot någon sorts hemmasnickrat litteraturprisindex kan vi äntligen komma fram till vad god litteratur är, så slipper man tveka i handeln menar jag. Kan inte ni ta på er det?

  2. Hannes says:
    2011/12/02 at 10:23

    we’re working on it;)

  3. Björn says:
    2011/12/02 at 12:23

    Verkligen nyttig läsning.

  4. Karin says:
    2012/11/03 at 00:27

    Jag läser kursen året efter John, och står nu visst också här vid tröskeln. Det börjar med en anspråkslös googling på e-böcker och metadata, och slutar … var? Möjligheterna i detta är ju sannerligen svindlande!

Avbryt svar

E-postadressen publiceras inte. Obligatoriska fält är märkta *

*

*

Följande HTML-taggar och attribut är tillåtna: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Prenumerera
  • april
  • mars
  • februari
  • januari

  • december
  • november
  • oktober
  • juni
  • maj
  • april
  • mars
  • februari
  • januari

  • december
  • november
  • oktober
  • september
  • augusti
  • juni
  • maj
  • april
  • mars
  • februari
  • januari

  • december
  • november
  • oktober
  • september
  • augusti
  • juli
  • juni
  • maj
  • april
  • mars
  • februari
  • januari

  • december
  • november
  • oktober
  • september
  • augusti
  • juli
  • juni
  • maj

Fem gånger fem om framtiden

För en dryg månad sedan anordnade vi tillsammans med Svensk Bokhandel IfBookThen Stockholm, en internationell konferens om framtidens bokbransch. Vi flög in femton fantastiska talare, släppte fem böcker och fyllde hela auditoriet på Moderna Museet, för en heldag som kom att präglas av nyfikenhet och optimism. F...

    • Hjälp
    • Provböcker
    • Prislista
    • Vanliga frågor
    • Instruktionsfilmer
    • Tryckguide
    • Widgetguide
    • Publit
    • Om Publit
    • About us
    • Kontakt
    • Kontakta oss
    • Blogg
    • Nyhetsbrev
    • Facebook
    • Twitter
    • Veta mer
    • Om print on demand
    • Om eböcker
    • Att läsa eböcker
    • Om egenutgivning
    • Användaravtal
Händelser vid vatten
SENAST SÅLDA