Epler og bananer

Drikkelig er desverre (eller muligens heldigvis) ikke jobben min. Faktisk er bloggen en ren utgiftspost, den genererer ingen inntekter (annet enn en og annen gratis smaksprøve, men dem er det ganske langt mellom), men mange utgifter (både direkte, i form av webhotell, og inndirekte, alkohol er ikke gratis). Derfor har jeg selvsagt en helt annen jobb som sørger for penger inn hver måned. Den jobben er i IT-bransjen, og de siste ti årene, sånn ca, har jeg jobbet med BI og datavarehus. Derfor har jeg personlig erfaring med utfordringene det kan føre med seg når man ønsker å sammenstille informasjon fra flere forskjellige kilder for å komme fram til en omforent «sannhet».

Samtidig har selvsagt en slik sammenstilling av informasjon likevel noe for seg. Fra vitenskapen kjenner vi det som metaanalyser, der resultatene fra mange studier på samme tema blir samlet og analysert sett i sammenheng. Slik kan man luke bort såkalte «outliers», studier som på grunn av design eller tilfeldigheter gir et helt annet resultat enn andre studier.

Så når jeg så en lenke til en «metaanalyse» av årets juleøltester ble jeg selvsagt interessert. Dessverre dukket den opp midt i julehelga, så jeg noterte mentalt at «det får vi se nærmere på til uka». Litt senere fikk jeg en melding fra Sammy som lurte på hvor mange juletrær som var maks hos oss, og da ble jeg enda mer innstilt på å se nærmere på det til uka. Vel, nå er det til uka og jeg har sett nærmere på det.

Analysen er utført av Pål Hellesnes, som også innehar interesse for både øl og BI. Detaljene er publisert på bloggen bedreinnsikt.no, og er forsåvidt interessant lesing (Teknisk Ukeblad har også plukket opp saken). Rådataene er også gjort tilgjengelige i et Excel-ark, slik at man kan gjøre sine egne analyser om man vil.

«Vinneren» i følge Hellesnes metaanalyse er Voss Sterk Jolegåva, og i den sammenstilte informasjonen om ølet er drikkelig.no (altså meg) sitert. Vel og bra, kanskje, det er bare ett problem med det i denne sammenhengen: Jeg gir jo ikke poeng når jeg skriver smaksnotater. Så vi tar en titt i regnearket med grunnlagsdata, filtrerer på Drikkelig som kilde og finner både antall stjerner og en omregning til score.

Når jeg sammenligner med innleggene om juleøl blir det tydelig at «2 stjerner» i regnearket refererer til «Grad av jul: To juletrær». Og det er kanskje ikke helt unaturlig å tolke disse juletrærne som en score. Det er ikke engang helt feil, for de er ment som en score. Men ikke som en score for hvor bra ølet var, men for det langt smalere, og enda mer subjektive «hvor julete synes JEG dette ølet var». Derav «Grad av jul», ikke «poeng» eller «score» eller noe slikt. Jeg tenkte formuleringen var klar nok, men tar selvkritikk på at det kanskje ikke var opplagt, særlig om man ikke er fast leser og derfor kanskje ikke har fått med seg den gjennomgående mangelen på poenggiving på bloggen.

Kanskje vil det ikke gi et annet resultat totalt om du fjerner Drikkelig som kilde til poeng. Men at det isolert sett slår ut ganske feil kan lett illustreres. Jeg sjekker nemlig også inn alle øl på Untappd, og der gir jeg faktisk poeng (også de helt subjektive, men i alle fall måler de rett ting, nemlig hvor godt jeg likte ølet). Så et øl som fikk to juletrær, Nøgne Ø Julequad, har fått 4 korker på Untappd, tilfeldigvis nøyaktig samme score som vinneren, Sterk Jolagåva. Jeg drakk dem til og med samme kveld.

En annen ting jeg stusser over i regnearket er omregningen fra det individuelle score-systemet til en verdi som kan brukes på tvers. Skal du få noe nyttig ut av en slik analyse må du selvsagt gjøre en viss tolkning, ellers blir det vanskelig å sammenstille tre av fem ølkorker, 72 av 100 poeng og terningkast 2. Det forklares ikke hvordan omregningen er gjort, men alle anmeldelser har i regnearket fått en x av 100, og for å finne vinneren er gjennomsnittet av disse regnet ut. Det blir da ganske snodig, vil jeg mene, når mine juletrær (selv om vi nå ser bort fra at de også måler helt feil ting) har blitt til 72, 77, 82, 87 og 92 for hhv 1, 2, 3, 4 og 5 juletrær, noe jeg tolker som et forsøk på omregning til Parker-skalaen. Tilsvarende omregning er gjort for terningkast, der 1 gir 72 og 6 gir 92. Mens poengene i Adressa, som tross alt utførte den testen som i seg selv lignet mest på en metaanalyse (blindsmaking med mange deltagere for å redusere både fordommer og jevne ut innslaget av personlige smaksforskjeller) har blitt brukt som de er, også «av 100». Men den høyeste poengsummen i Adressas test er 56 poeng (tre øl fikk 56 poeng, Cervisiam Seasonal Stash, Austmann Vintersolverv og Renaissance Abundance). Så de ølene som har fått dårligst score hos meg slår likevel ALLE øl Adressa har testet ned i støvlene. Om vi tar lillebroren til vinneren, Brukbar Jolagåva (Adressa testet tydeligvis ikke Sterk), ser man jo hvor merkelig det blir:

Selv om man hadde rettet de fem stjernene fra Drikkelig til tre og en halv kork (som er det jeg ga ølet på Untappd) hadde jeg dratt snittet opp og Adressa ned. Faktisk trekker Adressa snittet ned for hvert eneste øl de testet, slik at å ha vært med på Adressas test nesten utelukkende er en ulempe i denne metaanalysen (det er bare en fordel i de tilfellene ølet har blitt testet av nøyaktig tre andre instanser, for da gjør resultatet fra Adressa at det i det minste får være med i konkurransen, siden grensen for deltagelse er satt ved fire tester).

Og konklusjonen? Vel, fem juletrær for idéen om metaanalyse, en stusselig liten grankvist for praktisk gjennomføring. Dessverre.

Epler og bananer

En kommentar til «Epler og bananer»

Legg igjen en kommentar Avbryt svar

Del dette:

En kommentar til «Epler og bananer»

Legg igjen en kommentar Avbryt svar