Differences between revisions 1 and 128 (spanning 127 versions)
Revision 1 as of 2009-01-13 10:45:41
Size: 28
Comment:
Revision 128 as of 2009-04-23 10:30:52
Size: 25169
Comment:
Deletions are marked like this. Additions are marked like this.
Line 2: Line 2:
Dette afsnit indeholder beskrivelser af eksisterende projekter og koncepter på området. Vi vil gennemgå dem med fokus på de teknologier der er nævnt ovenfor under afsnittet "[:WhatIsExploratorySearch:Hvad er eksplorativ søgning?]".

== Kombinerede søgninger med flere heterogene datakilder: ==
{{{
I dette afsnit får I blandet begreberne federated search og integrated search. Det første er parallel søgning i forskellige kilder eller indeks hvor resultaterne tikker ind løbende om man så må sige. I integrated search er kilderne samlet i et indeks hvori der søges samlet og hvor resultaterne kommer samtidigt. Summa er et eksempel på det sidste, mens fx DEFFs tdnet er et eksempel på federated seach. Se http://get.tdnet.com/finder/GetSearchAction.do?searchType=adva
}}}
Muligheden for samtidig søgning i flere ofte heterogene datakilder er et af hovedargumenterne for at tilbyde eksplorative faciliteter, men samtidig den store udfordring. Netop denne type data, som sjældent indeholder præcise metadata (f.eks. emnebeskrivelser i form af emneord og emnekoder som kendes i de traditionelle bibliotekskataloger) vanskeliggør en velafgrænset søgning. Der er derfor brug for værktøjer til at understøtte brugerens udforskning af de ofte store søgesæt som disse data vil generere. De to centrale begreber i feltet er 'federated search', der betegner en parallel søgning i forskellige kilder eller indeks, hvor resultaterne tikker ind løbende, om man så må sige (se f.eks. [http://get.tdnet.com/finder/GetSearchAction.do?searchType=adva%20 DEF's tdnet]). Det andet begreb er 'integrated search' hvor kilderne samlet i et indeks (mindste fællesnævner [kommentar Kasper - er det ikke lige omvendt, hvor Federated Search anvender mindste fællesnævner, så kan Integrated Search i princippet anvende fulde poster fra hver kilde]) hvori der søges samlet og hvor resultaterne præsenteres samtidigt (se SUMMA nedenfor).

Det ultimative eksempel på søgning i mange heterogene datakilder er internettets søgemaskiner. Google, den mest kendte og udbredte, giver ikke nogen hjælp til udforskning af søgesættet, men ’nøjes’ med at fremvise resultatet sorteret med de meste ’relevante’ fund først. Relevansen beregnes med en ikke offentlig tilgængelig algoritme, som dog tilsyneladende bl.a. vægter de websider som der henvises mest til fra andre eksterne websider.

Statsbibliotekets system SUMMA er et eksempel på et bibliotekskatalog, som også søger parallelt i forskellige eksterne datakilder. Udover Statesbibliotekets bøger og tidsskrifter søges i… (vil en af jer fra SB forklare her?). {{{Michael skriver noget her}}}

 . Her får man en del hjælp til at udforske og afgrænse søgesættet, især via aspekter (emner, forfattere, materialetyper osv.).
attachment:summa.jpg

[http://www.statsbiblioteket.dk Statsbiblioteket]

På RUb har vi gennem nogle år på forsøgsbasis (der er stadig ting som ikke virker) haft et system til parallel søgning i flere bibliografiske databaser (dbWiz). Brugeren vælger inden søgningen et overordnet emneområde (f.eks. ’Biological Sciences’ eller ’Political science, administration, law’) og herefter vælger dbWiz relevante bibliografiske databaser. Alternativt kan brugeren selv vælge hvilke databaser der skal søges i. Resultatet vises samlet og kan sorteres efter database eller årstal. Der er desuden links til videresøgning i hver af de benyttede databaser.

attachment:dbwiz.jpg

[http://molly.ruc.dk/login?url=http://judy.ruc.dk/cgi-bin/dbwiz2.pl?state=set_search_interface;interface=advanced dbWiz]

I den private sektor har der længe været arbejdet med søgesystemer, som tillader samtidig søgning i virksomhedens egne data og eksterne data. Et typisk eksempel er medicinalvirksomheder som har store interne datamængder stammende fra fra forskning, udvikling og afprøvning som kan samsøges med f.eks. data fra Medline og kemiske databaser. Vivisimo (se nedenfor) er en leverandør som tilbyder dette.

== Aspektopdelinger: ==
[http://www.scopus.com/scopus/home.url%20 SCOPUS]: I resultatsiden vises 3 hovedaspekter: content source, information type og keywords. {{{Forstår ikke helt hvor de 3 aspekter ses?}}} Derefter kan man både søge videre i resultetsættet (indsnævring, include), begrænse eller ekskludere visse aspekter (en stærk dimension ved fladen). Generelt bliver alle søgeresultater opdelt i et overordnet aspektnivo: SCOPUS / Results from ref.list / Web / Patents. Alt efter hvilket af disse overniveau's der vælges, så folder der sig forskellige underaspekter ud. I de enkelte referencer oplyses hvor mange og hvem der citerer den givne reference.

[http://apps.isiknowledge.com/WOS_GeneralSearch_input.do?product=WOS&search_mode=GeneralSearch%20 ISI Web of Knowledge]: ISI’s søgeflade har gennem årene udviklet sig fra et klassisk kommandobaseret system mod et mere eksplorativt system. I den seneste version er der således mulighed for at foretage analyser af søgeresultater ved at rangere hits ud fra forskellige datafelter. Desuden kan man filtrere søgeresultatet med en ’Refine’ funktion baseret på data som f.eks. emneord, dokumenttype, forfatter, tidsskrift-titel, forfatter-adresser, publikationsår osv.

== Kombinationer af browsing / søgning / evaluering: ==
{{{
Dette afsnit er godt, men uheldigt struktureret, synes jeg.

Det gode er at det gennemgår nogle relevante og interessante systemer der bidrager til gennemgangen. Til gengæld fordyber I jer i en gennemgang/diskussion af analysevinkler (Mann og Kuhlthau). Genmmegangen er god, men den hører til i et andet afsnit, teoretisk afsnit i rapporten. Jeg vil gerne have at gennemgangen bliver så redegørende og neutral som muligt - dvs. vurdering af kvalitet og potentiale bør så vidt muligt også gemmes til afsluttende afsnit. Derfor: prøv at gør afsnittet mere redegørende. Jeg synes dog det er supergodt at I forholder jer kritisk og vi kommer helt sikkert til at benytte denne kritik i rapporten:-)
}}}
Dette tredobbelte begrebspar konkretisere om noget es-systemernes potentialer og problemer. Vi vil kort skitsere to analysesynsvinkler på feltet: en hovedsagelig kritisk (Mann, 2007) og en hovedsagelig analytisk (Kuhlthau, 1996).

Mann præciserer sit udgangspunkt sådan i [http://www.guild2910.org/Pelopponesian%20War%20June%2013%202007.pdf artiklen]: ''"What is involved in providing library service to the academic community? Is our purpose merely to provide “something quickly”? What, exactly, is wrong with promoting that end as our goal? What is the role of reference work? How does library cataloging fit into a larger scheme of necessary services? What ''is'' the larger scheme of which cataloging is only a part? What should research instruction classes strive to cover? What is a good outline for a basic research class? Does anything need to be explained at all if our “under the hood” programming and federated searching capabilities are adequate? In short, what idea of “the shape of the elephant” of research, and of library resources as a whole, do we wish to convey to an academic clientele?" ''Hans kritik retter sig hovedsagelig mod forestillingen om at alle de intrikate øvelser der er indbygget i søgeprocessen kan automatiseres eller standardiseres. Specielt gør han opmærksom på hvor vigtigt det er at fokusere på ''"education on ''multiple'' search techniques other than keyword ''or'' subject-heading searching"''.

Kuhlthau's informations-søgeprocesser er sammensat af (mindst) tre dimensioner: den emotionelle, den kognitive og den fysiske (handlinger). Se hendes [http://library.humboldt.edu/ic/general_competency/kuhlthau.html model] (jf. reference [http://wiki.statsbiblioteket.dk/es/WhatIsExploratorySearch Kuhlthau], 1996). Som det fremgår af modellerne veksler niveauet for tematisk forståelse fra uskyldig optimisme til desperat forvirring, fra uvidenhed (eller delvis viden) til specifik, sikker viden. Fra browsing og ustruktureret informationsindsamling til fokuseret sammenkobling af elementer der kommer til at danne et velfunderet vidensbillede. Denne form for process(er) kræver en stor fleksibilitet dels af søgesystemerne og dels af brugeren. Derfor er det vigtigt at man gennem hele processen kan skifte fokus fra oversigtlig browsing til detaljeret søgning (nærmest på fact-finding niveau). Vi er ikke stødt på særlig mange systemer der magter at tilbyde denne form for informationssøgningsproces, specielt hvis kravet også er at brugeren under hele processen skal kunne gå tilbage til tidligere valg og ændre dem, fortsætte derfra, forfølge tangenter uden at miste hans / hendes hovedfokus.

Efter at have gennemgået udbuddet af søgesystemer virker det som om der er plads til en hel del forbedringer, og det er her at es-systemerne kan komme til at spille en afgørende rolle.

Et af de systemer der seriøst prøver at arbejde med feltets potentialer er [http://search.ebscohost.com/ EBSCOhost-visual]. Den nye web-version er fyldt med relevante dimensioner. Den "almindelige" søgeflade åbner mulighed for at smide hele tekstafsnit ind som søgebasis, der er mulighed for "apply related words" funktion og mulighed for at vælge specifikke aspekter for de givne sub-baser man har valgt. Søgeresultatet præsenteres med aspekter og en dynamisk tids-lineal. Endvidere kan man få forsknings- og studiestøtte via "Related Information" og "Research starters". Den visuelle søgeflade aktiveres fra resultatsiden, (man skal dog genaktivere søgningen - hvis man ikke gør det kører der en omfattende virtuel demo af systemets muligheder, i sig selv en rigtig god idé). Resultaterne grupperes, sorteres, rangeres og man kan browse sig igennem søgesættet i det uendelige. Poster kan gemmes, abstract kan vises – med en rolig og oversigtlig flade.

attachment:ebsco.jpg

En anden søgeflade der kombinere browsing og søgefunktioner er [http://www.rub.ruc.dk/rub/xtm RUb's emneordsoversigt]. Her forsøges en browsing-proces som afhængigt af det niveau brugeren er nået til åbner mulighed for videre søgning inden for niveauet. Det ville være en klar forbedring hvis der dels var aspekt-udfoldelser og endvidere mulighed for at søge udenfor det aktuelle browsing-niveau. Endvidere er fleksibiliteten begrænset til 4 niveauer, i modsætning til Ebsco-visual oven for.

attachment:rub.jpg

En tredje søgeflade er [https://scifinder.cas.org/scifinder/view/text/textExplore.jsf SciFinder], måske det første eksplorative søgesystem på markedet. I hvert fald fik man lige fra starten (dvs. i begyndelsen af 1990’erne) muligheden for at vælge mellem ’Explore’, ’Locate’ eller ’Browse’ når man starter en søgning. De sidste to funktioner er udelukkende beregnet til genfinding, mens Explore funktionen netop fører til det som antydes. En Explore søgning indledes med en søgeboks, hvor brugeren opfordres til at skrive sit spørgsmål i naturligt sprog. Resultatet præsenteres som en analyse, hvor brugeren kan til- og fravælge forskellige kombinationer (Topic candidates), f.eks. hvor søgeordene optræder nært sammenknyttet, hvor som helst i posten eller blot et af ordene optræder. Når resultatsættet vises er der altid mulighed for at foretage yderligere Analyze/Refine på et stort udvalg af felter eller få kategoriseret søgesættet.

attachment:scifind.jpg

== Personalisering: ==
{{{
Igen et interessant afsnit, men med (for megn) vægt på præsentation og diskussion af personaliseringsbegrebet. Jeg synes vi skal have flere eksempler på personalisering med.
}}}
Under denne ide ligger en hel del spørgsmål, bl.a. om brugernes kontekst, indlærings- og almene kognitive processer, men også om sikkerhed, cookies etc.

Et af de mantraer vi er stødt på går ud på at det drejer sig om at forstå information snarere end (blot) at finde information. Det lyder jo besnærende, og det næste spørgsmål må så vidt vi kan se være: hvad vil det sige at forstå information? Skal en evt. forståelse godkendes af nogen? Hvis vi arbejder med es i en akademisk ramme (det gør vi vel?) så gælder det for de fleste studerende at deres vejleder og evt. censorer udstikker målet for forståelsen. For forskere er det deres peer-gruppe, der som regel gør det. Hvis vi tænket på en bruger (studerende) der søger efter ''dna'' ''damage'', hvordan skal en es-teknologi så være udfomet for at søgesystemet letter den omtalte forståelse?

Hvordan kunne vi forestille os at etablere personaliserede søgesituationer uden cookies? Kunne det være via passwd-beskyttede filer med brugerskabte oplysninger, en form for "profiler" som skal aktiveres af brugeren? Denne løsning findes allerede i en grov form i de fleste bibliotekssystemer ("søgeprofiler"). Alternativet kunne være at brugeren ved hver søgning vælger en kombination af prækonstruerede pseudo-aspekter, der tilsammen kan siges at udgøre den personaliserede profil. Der foreligger en del kritiske kommentarer til bl.a. Google's forsøg på at personalisere søgninger; se f.eks. [http://www.mediumblue.com/newsletters/personalized-search.html Scott Buresh, 2007].

En organisation som har forsøgt en vis form for personalisering er Helsebiblioteket i Norge. Deres søgemaskine drives af [http://vivisimo.com Vivisimo.Inc]. I et præsentationsmateriale beskriver Vivisimo deres løsning sådan: ''"One of the most unique features on the site is a situational search, where clinicians can identify whether they are performing a search during a patient meeting or doing more general research. The results that Velocity delivers will vary depending on how medical personnel identify their situation. “Because of their caseload, doctors have limited time to spend with a single patient,” Tjensvoll said. “We want to maximize that time spent. So when a doctor is meeting with a patient, we want him or her to be able to search very quickly for clinically relevant information." In the case of a patient meeting, Velocity only delivers results from crawled sources from a selected group of medical journals and decision-support systems. Clinicians who have more time to spend on their search can choose the other option, providing them with additional content."''

Her er det personaliserede søgebillede efter en søgning på kreft: http://sok.helsebiblioteket.no/search?query=kreft

attachment:helsebib.jpg

== Kreative hjælpefunktioner: ==
- Leksikalsk hjælp. Et af de klassiske forsøg på at hjælpe i situationer hvor f.eks. stavemåder er usikre er Google's "Mente du"-funktion. Hvis man søger efter en kendt fransk sociolog og staver hans efternavn Bourdieux, så spørger Google høfligt: Mente du Bourdieu.

- Semantiske felter. Her vil vi ikke behandle en teknik der sædvanligvis betegnes med "semantic zooming", men fokuserer på muligheden for via en mouse-over funktion at få præsenteret et overordnt semantisk tilhørsforhold for enkelte elementer i en given søgning. Dette forudsætter en underliggende tesaurus, hvor man kan trække på bredere og / eller relaterede termer (i nødsfald kan man trække på UDK- eller Dewey-koder for opstilling).

- Genbrug af systematiske koder. En såden hjælp kan organiseres på forskellige måder. RUb's Kviksøg sender en søgestreng igennem en database med kontrollerede emneord og samhørende emnekoder (her UDK). Hvis der er sammenfald mellem søgestrengen og basens emneord, så integreres UDK-koden i søgestrengen og det samlede resultat præsenteres rangeret efter hvordan det enkelte resultat matcher den udvidede søgestreng.

- Synonymer eller løsere associationer. Kræver en del intelligent forarbejde og en rettighed til at anvende en retskrivningsordbog, etymologiordbog og lignende.

- "Mere af det samme". Mange søgemaskiner tilbyder at finde "lignende" resultater, men det centrale spørgsmål er om den aktuelle databases underliggende syntaks tillader dette på et niveau som brugeren er tilfreds med. Langt de fleste systemer tilbyder allerede videresøgninger på enkelt-forfatter, emneord, systematiske koder, materialetyper etc. Det er straks mere problematisk hvis vi forestiller os at vi gerne vil have mere om ''grounded theory'' eller om ''socialkonstruktivisme'', hvis basens data ikke lever op til denne form for begrebsafgrænsninger.

- Previews. Formålet med denne form for hjælp, er at give brugeren mulighed for i ét overblik at danne sig en mening om hvilke delelementer af en given bases klassifikationssystem han / hun skal vælge for at få optimeret sin søgning. [http://idl.ils.unc.edu/rave/ Relation Attribute Viewer] (RAVE) er en søgeflade der forsøger dette. Eksemplet nedenfor dækker en søgning på health i Bureau Labors Statistic's webside. Zhang & Marchionini beskriver søgefladen: ''"The Rave Browser takes another approach to faceted search. One notable difference is that multiple selections lead to their intersection of results being displayed. Another feature that the Rave browser provides is a preview of the affect of clicking has on other facets. Graphical representations behind each item in each facet show how many documents can be found by selecting it. When a user hovers over any item in any facet, the size of the bar in the graphical representations are reduced to indicate how many documents will remain under each annotation should the user make the selection. This technique revives the query preview strategy, which is a helpful alternative the simple numeric value indicators that are included in most classification-based systems. Aside from the graphical representation, the preview of the affect by simply hovering (or ‘brushing’) over the item is a technique that is being included in many new projects."''

attachment:rave.jpg

- Animation. Inden for dette område findes en del tiltag hovedsagelig baseret på teknologier som AJAX, der tillader forskellige visuelle, guidende billeder eller tekster at komme tilsyne på resultatskærmen i et forholdsvist roligt tempo.

- Alternative indput-former. Her tænker vi bl.a. på søgning efter kemiske forbindelser hvor f.eks. [http://www.emolecules.com/ eMolecules'] søgefladen åbner en mulighed for at ”trække” forskellige grafiske repræsentationer af molekyle-elementer ind i et søgeområde. Hvis vi forestiller os at man kunne trække emne-områder ind i et grafisk søge- og redigeringsfelt, og at man desuden kunne specificere hvor stærke bindinger der skulle være mellem emne-områderne, så kunne man muligvis tilfredsstille en bestemt gruppe af brugere, der er mere visuelle i deres tilgang men er utilfredse med mere konventionelle former for browsing / søgning. Desuden kræver søgning efter musik, fotos og kunstværker generelt ofte store anstrengelser fra brugerens side for at præsisere et givet emne.

== Social networking: ==
{{{
Godt, men gerne nogle eksempler:-)
}}}
Er brugere eller brugergrupper bedre til at beslutte hvad der er rigtige resultater af søgninger end de bibliotekarer og informationsspecialister der er valgt eller ansat til netop at gøre det? Ja, de er, mener en del webudviklere. Disse webudviklere mener at ’gruppevisdom’ udligner fejlene ved vurderinger fra de enkelte personer i gruppen. Jo større og mere sammensat den gruppe er, der skal vurdere eller beslutte om kvaliteten af en given søgning er tilfredsstillende, jo større er sandsynligheden for at afvigelser og "helt-ude-i-skoven"-vurderinger elimineres. På den anden side hævder endnu flere webudviklere at de massepsykologiske processer der sættes i gang i en større gruppe brugere udhuler deres dømmekraft, højner tendensen til at halse efter de sidste modetendenser og mindsker deres sociale ansvarsfølelse. Begge disse modsat rettede tendenser eksisterer inden for ideen om "sociale netværk" som hjælp til søgninger. (Kasper nævnte vist eksempler på sidste møde?.. de skal ind her.)

=== Social bookmarking ==

 * Delicious
 * dogear
 * onomi
== Serendipity: ==
Et af de tilbagevendende begejstringsudbrud kommer fra brugere (Umberto Eco f.eks.), som i nærheden af den bog de søger efter finder en anden som de ikke vidste eksisterede og som lige uddyber, klargører eller inspirerer deres projekt. Denne tilfældighedsstrategi fordrer naturligvis en bestemt fysisk opbygning af biblioteket, d.v.s. tematisk opstillede materialer på hylder som brugerne har adgang til. Et magasin-opstillingssystem vil ødelægge fidusen. [http://www.koha.org KOHA] som er et open source bibliotekssystem har forsøgt at indarbejde ideen i deres søgeflade.

Selve visningen i dette bibliotekssystem er bekendt (aspekter & forsider), men en interessant detalje kommer når man arbejder i fuld visning af poster (bøger). Her får man mulighed for virtuelt at browse på hylden, frem og tilbage med udgangspunkt i den konkrete bog. I denne ”hylde-orienterede” præsentation kommer en forside-visning bedre til sin ret end i en summarisk visning i hoved-søgeresultatet (som jo hyppigt er systematiseret på en måde der ikke tilgodeser serendipity-begrebet).

Her er visningsbilledet hvor den virtuelle hylde folder sig ud efter en søgning på ''PHP: ''

http://poly.kohalibrary.com/cgi-bin/koha/opac-detail.pl?biblionumber=85209&shelfbrowse_itemnumber=113938#shelfbrowser

attachment:polycat.jpg

Startsiden for Polytechnic Institute of New York University er her: [http://www.poly.edu/library/web/databases/index.php Polytechnic Institute of New York University]

Browsing generelt i nært beslægtede områder kan bredes ud via tilbud om videresøgning i tilgrænsende systematiske koder (f.eks. UDK eller Dewey) eller i relaterede termer hvis man har en underliggende egentlig thesaurus til rådighed. Disse kunne præsenteres som ekstra- eller bonus-aspekter i en udvidet aspektopdeling af et givet søgeresultat.

== Udvalgte tidsskriftartikler: ==
A. Becks, C. Seeling, and R. Minkenberg: [http://doi.acm.org/10.1145/508791.508912 Benefits of document maps for the text access in knowledge management: A comparative study], Proceedings of the ACM Symposium on Applied Computing, 2002, Madrid Spain, p.621-626.

N.J. Belkin, C Cool, A. Stein, and U. Thiel: [http://dx.doi.org/10.1016/0957-4174(95)00011-W Cases, scripts, and information-seeking strategies: on the design of interactive information retrieval systems], ''Expert Systems with Applications'', 1995, vol. 9, no. 3, p. 379-395.

Scott Buresh: [http://www.mediumblue.com/newsletters/personalized-search.html Google Personalized Search - All's Well or Orwell?], Medium Blue, 2007.

Judith Gelernter: Visual Classification with Information Visualization (Infoviz) for Digital Library Collections, ''Knowledge Organisation,'' 34, 2007, 3, p.128-143.

Sherry Koshman: [http://dx.doi.org/10.1016/j.lisr.2006.03.017 Visualization-based information retrieval on the Web], ''Library & Information Science Research,'' 28, 2006, p. 192-207.

A. Katifori, C. Halatsis, G. Lepouras, C. Vassilakis, and E. Giannopoulou: [http://doi.acm.org/10.1145/1287620.1287621 Ontology visuliazation methods - a survey], ''ACM Computing Surveys'', 2007, vol. 39, no. 4, article no. 10.

B. Kules, M.L. Wilson, M.C. Schraefel, and B. Shneiderman: [http://eprints.ecs.soton.ac.uk/15169/1/VSRWeb-TR.pdf From Keyword Search to Exploration: How Result Visualization Aids Discovery on the Web], Technical Report 1516920080208, School of Electronics and Computer Science, University of Southampton.

Thomas Mann: [http://www.guild2910.org/Pelopponesian%20War%20June%2013%202007.pdf The Peloponnesian War and the Future of Reference, Cataloging, and Scholarship in Research Libraries], AFSCME 2910, June 13, 2007.

Gary Marchionini: [http://doi.acm.org/10.1145/1121949.1121979 Exploratory Search: From Finding to Understanding,] ''Communications og the ACM,'' Vol.49, No. 4 (April), 2006.

Rao Shen et.al.: [http://doi.acm.org/10.1145/1141753.1141755 Exploring digital libraries: integrating browsing, searching, and visualization], ''International Conference on Digital Libraries'' - ''Proceedings of the 6th ACM/IEEE-CS joint conference on Digital libraries, ''2006, p. 1-10.

Ali Shiri: [http://dx.doi.org/10.1177/0165551507087711 Metadata-enhanced visual interfaces to digital libraries], ''Journal of Information Science,'' 34,2008, 6, p.763-775.

P. Vakkari: [http://www.info.uta.fi/vakkari/Vakkari_Tactics_RIAO2000.html Cognition and changes of search terms and tactics during task performance: A longitudinal case study], Proceedings of the International Conference on Computer Assisted Information Retrieval (RAIO), Paris, p.12-14.

J. Zhang and G. Marchionini: [http://portal.acm.org/citation.cfm?id=1065226.1065279&coll=GUIDE&dl=ACM&CFID=26838164&CFTOKEN=38299623# Evaluation and evolution of a browse and search interface: relation browser ++,] Proceedings of the National Conference on Digital Government Research, 2005, Atlanta USA, Digital Research Center, p. 179-188.

''''''

Eksisterende projekter

Dette afsnit indeholder beskrivelser af eksisterende projekter og koncepter på området. Vi vil gennemgå dem med fokus på de teknologier der er nævnt ovenfor under afsnittet "[:WhatIsExploratorySearch:Hvad er eksplorativ søgning?]".

Kombinerede søgninger med flere heterogene datakilder:

I dette afsnit får I blandet begreberne federated search og integrated search. Det første er parallel søgning i forskellige kilder eller indeks hvor resultaterne tikker ind løbende om man så må sige. I integrated search er kilderne samlet i et indeks hvori der søges samlet og hvor resultaterne kommer samtidigt. Summa er et eksempel på det sidste, mens fx DEFFs tdnet er et eksempel på federated seach. Se http://get.tdnet.com/finder/GetSearchAction.do?searchType=adva

Muligheden for samtidig søgning i flere ofte heterogene datakilder er et af hovedargumenterne for at tilbyde eksplorative faciliteter, men samtidig den store udfordring. Netop denne type data, som sjældent indeholder præcise metadata (f.eks. emnebeskrivelser i form af emneord og emnekoder som kendes i de traditionelle bibliotekskataloger) vanskeliggør en velafgrænset søgning. Der er derfor brug for værktøjer til at understøtte brugerens udforskning af de ofte store søgesæt som disse data vil generere. De to centrale begreber i feltet er 'federated search', der betegner en parallel søgning i forskellige kilder eller indeks, hvor resultaterne tikker ind løbende, om man så må sige (se f.eks. [http://get.tdnet.com/finder/GetSearchAction.do?searchType=adva%20 DEF's tdnet]). Det andet begreb er 'integrated search' hvor kilderne samlet i et indeks (mindste fællesnævner [kommentar Kasper - er det ikke lige omvendt, hvor Federated Search anvender mindste fællesnævner, så kan Integrated Search i princippet anvende fulde poster fra hver kilde]) hvori der søges samlet og hvor resultaterne præsenteres samtidigt (se SUMMA nedenfor).

Det ultimative eksempel på søgning i mange heterogene datakilder er internettets søgemaskiner. Google, den mest kendte og udbredte, giver ikke nogen hjælp til udforskning af søgesættet, men ’nøjes’ med at fremvise resultatet sorteret med de meste ’relevante’ fund først. Relevansen beregnes med en ikke offentlig tilgængelig algoritme, som dog tilsyneladende bl.a. vægter de websider som der henvises mest til fra andre eksterne websider.

Statsbibliotekets system SUMMA er et eksempel på et bibliotekskatalog, som også søger parallelt i forskellige eksterne datakilder. Udover Statesbibliotekets bøger og tidsskrifter søges i… (vil en af jer fra SB forklare her?). Michael skriver noget her

  • Her får man en del hjælp til at udforske og afgrænse søgesættet, især via aspekter (emner, forfattere, materialetyper osv.).

attachment:summa.jpg

[http://www.statsbiblioteket.dk Statsbiblioteket]

På RUb har vi gennem nogle år på forsøgsbasis (der er stadig ting som ikke virker) haft et system til parallel søgning i flere bibliografiske databaser (dbWiz). Brugeren vælger inden søgningen et overordnet emneområde (f.eks. ’Biological Sciences’ eller ’Political science, administration, law’) og herefter vælger dbWiz relevante bibliografiske databaser. Alternativt kan brugeren selv vælge hvilke databaser der skal søges i. Resultatet vises samlet og kan sorteres efter database eller årstal. Der er desuden links til videresøgning i hver af de benyttede databaser.

attachment:dbwiz.jpg

[http://molly.ruc.dk/login?url=http://judy.ruc.dk/cgi-bin/dbwiz2.pl?state=set_search_interface;interface=advanced dbWiz]

I den private sektor har der længe været arbejdet med søgesystemer, som tillader samtidig søgning i virksomhedens egne data og eksterne data. Et typisk eksempel er medicinalvirksomheder som har store interne datamængder stammende fra fra forskning, udvikling og afprøvning som kan samsøges med f.eks. data fra Medline og kemiske databaser. Vivisimo (se nedenfor) er en leverandør som tilbyder dette.

Aspektopdelinger:

[http://www.scopus.com/scopus/home.url%20 SCOPUS]: I resultatsiden vises 3 hovedaspekter: content source, information type og keywords. Forstår ikke helt hvor de 3 aspekter ses? Derefter kan man både søge videre i resultetsættet (indsnævring, include), begrænse eller ekskludere visse aspekter (en stærk dimension ved fladen). Generelt bliver alle søgeresultater opdelt i et overordnet aspektnivo: SCOPUS / Results from ref.list / Web / Patents. Alt efter hvilket af disse overniveau's der vælges, så folder der sig forskellige underaspekter ud. I de enkelte referencer oplyses hvor mange og hvem der citerer den givne reference.

[http://apps.isiknowledge.com/WOS_GeneralSearch_input.do?product=WOS&search_mode=GeneralSearch%20 ISI Web of Knowledge]: ISI’s søgeflade har gennem årene udviklet sig fra et klassisk kommandobaseret system mod et mere eksplorativt system. I den seneste version er der således mulighed for at foretage analyser af søgeresultater ved at rangere hits ud fra forskellige datafelter. Desuden kan man filtrere søgeresultatet med en ’Refine’ funktion baseret på data som f.eks. emneord, dokumenttype, forfatter, tidsskrift-titel, forfatter-adresser, publikationsår osv.

Kombinationer af browsing / søgning / evaluering:

Dette afsnit er godt, men uheldigt struktureret, synes jeg.

Det gode er at det gennemgår nogle relevante og interessante systemer der bidrager til gennemgangen. Til gengæld fordyber I jer i en gennemgang/diskussion af analysevinkler (Mann og Kuhlthau). Genmmegangen er god, men den hører til i et andet afsnit, teoretisk afsnit i rapporten. Jeg vil gerne have at gennemgangen bliver så redegørende og neutral som muligt - dvs. vurdering af kvalitet og potentiale bør så vidt muligt også gemmes til afsluttende afsnit. Derfor: prøv at gør afsnittet mere redegørende. Jeg synes dog det er supergodt at I forholder jer kritisk og vi kommer helt sikkert til at benytte denne kritik i rapporten:-)

Dette tredobbelte begrebspar konkretisere om noget es-systemernes potentialer og problemer. Vi vil kort skitsere to analysesynsvinkler på feltet: en hovedsagelig kritisk (Mann, 2007) og en hovedsagelig analytisk (Kuhlthau, 1996).

Mann præciserer sit udgangspunkt sådan i [http://www.guild2910.org/Pelopponesian%20War%20June%2013%202007.pdf artiklen]: "What is involved in providing library service to the academic community? Is our purpose merely to provide “something quickly”? What, exactly, is wrong with promoting that end as our goal? What is the role of reference work? How does library cataloging fit into a larger scheme of necessary services? What is the larger scheme of which cataloging is only a part? What should research instruction classes strive to cover? What is a good outline for a basic research class? Does anything need to be explained at all if our “under the hood” programming and federated searching capabilities are adequate? In short, what idea of “the shape of the elephant” of research, and of library resources as a whole, do we wish to convey to an academic clientele?" Hans kritik retter sig hovedsagelig mod forestillingen om at alle de intrikate øvelser der er indbygget i søgeprocessen kan automatiseres eller standardiseres. Specielt gør han opmærksom på hvor vigtigt det er at fokusere på "education on multiple search techniques other than keyword or subject-heading searching".

Kuhlthau's informations-søgeprocesser er sammensat af (mindst) tre dimensioner: den emotionelle, den kognitive og den fysiske (handlinger). Se hendes [http://library.humboldt.edu/ic/general_competency/kuhlthau.html model] (jf. reference [http://wiki.statsbiblioteket.dk/es/WhatIsExploratorySearch Kuhlthau], 1996). Som det fremgår af modellerne veksler niveauet for tematisk forståelse fra uskyldig optimisme til desperat forvirring, fra uvidenhed (eller delvis viden) til specifik, sikker viden. Fra browsing og ustruktureret informationsindsamling til fokuseret sammenkobling af elementer der kommer til at danne et velfunderet vidensbillede. Denne form for process(er) kræver en stor fleksibilitet dels af søgesystemerne og dels af brugeren. Derfor er det vigtigt at man gennem hele processen kan skifte fokus fra oversigtlig browsing til detaljeret søgning (nærmest på fact-finding niveau). Vi er ikke stødt på særlig mange systemer der magter at tilbyde denne form for informationssøgningsproces, specielt hvis kravet også er at brugeren under hele processen skal kunne gå tilbage til tidligere valg og ændre dem, fortsætte derfra, forfølge tangenter uden at miste hans / hendes hovedfokus.

Efter at have gennemgået udbuddet af søgesystemer virker det som om der er plads til en hel del forbedringer, og det er her at es-systemerne kan komme til at spille en afgørende rolle.

Et af de systemer der seriøst prøver at arbejde med feltets potentialer er [http://search.ebscohost.com/ EBSCOhost-visual]. Den nye web-version er fyldt med relevante dimensioner. Den "almindelige" søgeflade åbner mulighed for at smide hele tekstafsnit ind som søgebasis, der er mulighed for "apply related words" funktion og mulighed for at vælge specifikke aspekter for de givne sub-baser man har valgt. Søgeresultatet præsenteres med aspekter og en dynamisk tids-lineal. Endvidere kan man få forsknings- og studiestøtte via "Related Information" og "Research starters". Den visuelle søgeflade aktiveres fra resultatsiden, (man skal dog genaktivere søgningen - hvis man ikke gør det kører der en omfattende virtuel demo af systemets muligheder, i sig selv en rigtig god idé). Resultaterne grupperes, sorteres, rangeres og man kan browse sig igennem søgesættet i det uendelige. Poster kan gemmes, abstract kan vises – med en rolig og oversigtlig flade.

attachment:ebsco.jpg

En anden søgeflade der kombinere browsing og søgefunktioner er [http://www.rub.ruc.dk/rub/xtm RUb's emneordsoversigt]. Her forsøges en browsing-proces som afhængigt af det niveau brugeren er nået til åbner mulighed for videre søgning inden for niveauet. Det ville være en klar forbedring hvis der dels var aspekt-udfoldelser og endvidere mulighed for at søge udenfor det aktuelle browsing-niveau. Endvidere er fleksibiliteten begrænset til 4 niveauer, i modsætning til Ebsco-visual oven for.

attachment:rub.jpg

En tredje søgeflade er [https://scifinder.cas.org/scifinder/view/text/textExplore.jsf SciFinder], måske det første eksplorative søgesystem på markedet. I hvert fald fik man lige fra starten (dvs. i begyndelsen af 1990’erne) muligheden for at vælge mellem ’Explore’, ’Locate’ eller ’Browse’ når man starter en søgning. De sidste to funktioner er udelukkende beregnet til genfinding, mens Explore funktionen netop fører til det som antydes. En Explore søgning indledes med en søgeboks, hvor brugeren opfordres til at skrive sit spørgsmål i naturligt sprog. Resultatet præsenteres som en analyse, hvor brugeren kan til- og fravælge forskellige kombinationer (Topic candidates), f.eks. hvor søgeordene optræder nært sammenknyttet, hvor som helst i posten eller blot et af ordene optræder. Når resultatsættet vises er der altid mulighed for at foretage yderligere Analyze/Refine på et stort udvalg af felter eller få kategoriseret søgesættet.

attachment:scifind.jpg

Personalisering:

Igen et interessant afsnit, men med (for megn) vægt på præsentation og diskussion af personaliseringsbegrebet. Jeg synes vi skal have flere eksempler på personalisering med.

Under denne ide ligger en hel del spørgsmål, bl.a. om brugernes kontekst, indlærings- og almene kognitive processer, men også om sikkerhed, cookies etc.

Et af de mantraer vi er stødt på går ud på at det drejer sig om at forstå information snarere end (blot) at finde information. Det lyder jo besnærende, og det næste spørgsmål må så vidt vi kan se være: hvad vil det sige at forstå information? Skal en evt. forståelse godkendes af nogen? Hvis vi arbejder med es i en akademisk ramme (det gør vi vel?) så gælder det for de fleste studerende at deres vejleder og evt. censorer udstikker målet for forståelsen. For forskere er det deres peer-gruppe, der som regel gør det. Hvis vi tænket på en bruger (studerende) der søger efter dna damage, hvordan skal en es-teknologi så være udfomet for at søgesystemet letter den omtalte forståelse?

Hvordan kunne vi forestille os at etablere personaliserede søgesituationer uden cookies? Kunne det være via passwd-beskyttede filer med brugerskabte oplysninger, en form for "profiler" som skal aktiveres af brugeren? Denne løsning findes allerede i en grov form i de fleste bibliotekssystemer ("søgeprofiler"). Alternativet kunne være at brugeren ved hver søgning vælger en kombination af prækonstruerede pseudo-aspekter, der tilsammen kan siges at udgøre den personaliserede profil. Der foreligger en del kritiske kommentarer til bl.a. Google's forsøg på at personalisere søgninger; se f.eks. [http://www.mediumblue.com/newsletters/personalized-search.html Scott Buresh, 2007].

En organisation som har forsøgt en vis form for personalisering er Helsebiblioteket i Norge. Deres søgemaskine drives af [http://vivisimo.com Vivisimo.Inc]. I et præsentationsmateriale beskriver Vivisimo deres løsning sådan: "One of the most unique features on the site is a situational search, where clinicians can identify whether they are performing a search during a patient meeting or doing more general research. The results that Velocity delivers will vary depending on how medical personnel identify their situation. “Because of their caseload, doctors have limited time to spend with a single patient,” Tjensvoll said. “We want to maximize that time spent. So when a doctor is meeting with a patient, we want him or her to be able to search very quickly for clinically relevant information." In the case of a patient meeting, Velocity only delivers results from crawled sources from a selected group of medical journals and decision-support systems. Clinicians who have more time to spend on their search can choose the other option, providing them with additional content."

Her er det personaliserede søgebillede efter en søgning på kreft: http://sok.helsebiblioteket.no/search?query=kreft

attachment:helsebib.jpg

Kreative hjælpefunktioner:

- Leksikalsk hjælp. Et af de klassiske forsøg på at hjælpe i situationer hvor f.eks. stavemåder er usikre er Google's "Mente du"-funktion. Hvis man søger efter en kendt fransk sociolog og staver hans efternavn Bourdieux, så spørger Google høfligt: Mente du Bourdieu.

- Semantiske felter. Her vil vi ikke behandle en teknik der sædvanligvis betegnes med "semantic zooming", men fokuserer på muligheden for via en mouse-over funktion at få præsenteret et overordnt semantisk tilhørsforhold for enkelte elementer i en given søgning. Dette forudsætter en underliggende tesaurus, hvor man kan trække på bredere og / eller relaterede termer (i nødsfald kan man trække på UDK- eller Dewey-koder for opstilling).

- Genbrug af systematiske koder. En såden hjælp kan organiseres på forskellige måder. RUb's Kviksøg sender en søgestreng igennem en database med kontrollerede emneord og samhørende emnekoder (her UDK). Hvis der er sammenfald mellem søgestrengen og basens emneord, så integreres UDK-koden i søgestrengen og det samlede resultat præsenteres rangeret efter hvordan det enkelte resultat matcher den udvidede søgestreng.

- Synonymer eller løsere associationer. Kræver en del intelligent forarbejde og en rettighed til at anvende en retskrivningsordbog, etymologiordbog og lignende.

- "Mere af det samme". Mange søgemaskiner tilbyder at finde "lignende" resultater, men det centrale spørgsmål er om den aktuelle databases underliggende syntaks tillader dette på et niveau som brugeren er tilfreds med. Langt de fleste systemer tilbyder allerede videresøgninger på enkelt-forfatter, emneord, systematiske koder, materialetyper etc. Det er straks mere problematisk hvis vi forestiller os at vi gerne vil have mere om grounded theory eller om socialkonstruktivisme, hvis basens data ikke lever op til denne form for begrebsafgrænsninger.

- Previews. Formålet med denne form for hjælp, er at give brugeren mulighed for i ét overblik at danne sig en mening om hvilke delelementer af en given bases klassifikationssystem han / hun skal vælge for at få optimeret sin søgning. [http://idl.ils.unc.edu/rave/ Relation Attribute Viewer] (RAVE) er en søgeflade der forsøger dette. Eksemplet nedenfor dækker en søgning på health i Bureau Labors Statistic's webside. Zhang & Marchionini beskriver søgefladen: "The Rave Browser takes another approach to faceted search. One notable difference is that multiple selections lead to their intersection of results being displayed. Another feature that the Rave browser provides is a preview of the affect of clicking has on other facets. Graphical representations behind each item in each facet show how many documents can be found by selecting it. When a user hovers over any item in any facet, the size of the bar in the graphical representations are reduced to indicate how many documents will remain under each annotation should the user make the selection. This technique revives the query preview strategy, which is a helpful alternative the simple numeric value indicators that are included in most classification-based systems. Aside from the graphical representation, the preview of the affect by simply hovering (or ‘brushing’) over the item is a technique that is being included in many new projects."

attachment:rave.jpg

- Animation. Inden for dette område findes en del tiltag hovedsagelig baseret på teknologier som AJAX, der tillader forskellige visuelle, guidende billeder eller tekster at komme tilsyne på resultatskærmen i et forholdsvist roligt tempo.

- Alternative indput-former. Her tænker vi bl.a. på søgning efter kemiske forbindelser hvor f.eks. [http://www.emolecules.com/ eMolecules'] søgefladen åbner en mulighed for at ”trække” forskellige grafiske repræsentationer af molekyle-elementer ind i et søgeområde. Hvis vi forestiller os at man kunne trække emne-områder ind i et grafisk søge- og redigeringsfelt, og at man desuden kunne specificere hvor stærke bindinger der skulle være mellem emne-områderne, så kunne man muligvis tilfredsstille en bestemt gruppe af brugere, der er mere visuelle i deres tilgang men er utilfredse med mere konventionelle former for browsing / søgning. Desuden kræver søgning efter musik, fotos og kunstværker generelt ofte store anstrengelser fra brugerens side for at præsisere et givet emne.

Social networking:

Godt, men gerne nogle eksempler:-)

Er brugere eller brugergrupper bedre til at beslutte hvad der er rigtige resultater af søgninger end de bibliotekarer og informationsspecialister der er valgt eller ansat til netop at gøre det? Ja, de er, mener en del webudviklere. Disse webudviklere mener at ’gruppevisdom’ udligner fejlene ved vurderinger fra de enkelte personer i gruppen. Jo større og mere sammensat den gruppe er, der skal vurdere eller beslutte om kvaliteten af en given søgning er tilfredsstillende, jo større er sandsynligheden for at afvigelser og "helt-ude-i-skoven"-vurderinger elimineres. På den anden side hævder endnu flere webudviklere at de massepsykologiske processer der sættes i gang i en større gruppe brugere udhuler deres dømmekraft, højner tendensen til at halse efter de sidste modetendenser og mindsker deres sociale ansvarsfølelse. Begge disse modsat rettede tendenser eksisterer inden for ideen om "sociale netværk" som hjælp til søgninger. (Kasper nævnte vist eksempler på sidste møde?.. de skal ind her.)

=== Social bookmarking ==

  • Delicious
  • dogear
  • onomi

Serendipity:

Et af de tilbagevendende begejstringsudbrud kommer fra brugere (Umberto Eco f.eks.), som i nærheden af den bog de søger efter finder en anden som de ikke vidste eksisterede og som lige uddyber, klargører eller inspirerer deres projekt. Denne tilfældighedsstrategi fordrer naturligvis en bestemt fysisk opbygning af biblioteket, d.v.s. tematisk opstillede materialer på hylder som brugerne har adgang til. Et magasin-opstillingssystem vil ødelægge fidusen. [http://www.koha.org KOHA] som er et open source bibliotekssystem har forsøgt at indarbejde ideen i deres søgeflade.

Selve visningen i dette bibliotekssystem er bekendt (aspekter & forsider), men en interessant detalje kommer når man arbejder i fuld visning af poster (bøger). Her får man mulighed for virtuelt at browse på hylden, frem og tilbage med udgangspunkt i den konkrete bog. I denne ”hylde-orienterede” præsentation kommer en forside-visning bedre til sin ret end i en summarisk visning i hoved-søgeresultatet (som jo hyppigt er systematiseret på en måde der ikke tilgodeser serendipity-begrebet).

Her er visningsbilledet hvor den virtuelle hylde folder sig ud efter en søgning på PHP:

http://poly.kohalibrary.com/cgi-bin/koha/opac-detail.pl?biblionumber=85209&shelfbrowse_itemnumber=113938#shelfbrowser

attachment:polycat.jpg

Startsiden for Polytechnic Institute of New York University er her: [http://www.poly.edu/library/web/databases/index.php Polytechnic Institute of New York University]

Browsing generelt i nært beslægtede områder kan bredes ud via tilbud om videresøgning i tilgrænsende systematiske koder (f.eks. UDK eller Dewey) eller i relaterede termer hvis man har en underliggende egentlig thesaurus til rådighed. Disse kunne præsenteres som ekstra- eller bonus-aspekter i en udvidet aspektopdeling af et givet søgeresultat.

Udvalgte tidsskriftartikler:

A. Becks, C. Seeling, and R. Minkenberg: [http://doi.acm.org/10.1145/508791.508912 Benefits of document maps for the text access in knowledge management: A comparative study], Proceedings of the ACM Symposium on Applied Computing, 2002, Madrid Spain, p.621-626.

N.J. Belkin, C Cool, A. Stein, and U. Thiel: [http://dx.doi.org/10.1016/0957-4174(95)00011-W Cases, scripts, and information-seeking strategies: on the design of interactive information retrieval systems], Expert Systems with Applications, 1995, vol. 9, no. 3, p. 379-395.

Scott Buresh: [http://www.mediumblue.com/newsletters/personalized-search.html Google Personalized Search - All's Well or Orwell?], Medium Blue, 2007.

Judith Gelernter: Visual Classification with Information Visualization (Infoviz) for Digital Library Collections, Knowledge Organisation, 34, 2007, 3, p.128-143.

Sherry Koshman: [http://dx.doi.org/10.1016/j.lisr.2006.03.017 Visualization-based information retrieval on the Web], Library & Information Science Research, 28, 2006, p. 192-207.

A. Katifori, C. Halatsis, G. Lepouras, C. Vassilakis, and E. Giannopoulou: [http://doi.acm.org/10.1145/1287620.1287621 Ontology visuliazation methods - a survey], ACM Computing Surveys, 2007, vol. 39, no. 4, article no. 10.

B. Kules, M.L. Wilson, M.C. Schraefel, and B. Shneiderman: [http://eprints.ecs.soton.ac.uk/15169/1/VSRWeb-TR.pdf From Keyword Search to Exploration: How Result Visualization Aids Discovery on the Web], Technical Report 1516920080208, School of Electronics and Computer Science, University of Southampton.

Thomas Mann: [http://www.guild2910.org/Pelopponesian%20War%20June%2013%202007.pdf The Peloponnesian War and the Future of Reference, Cataloging, and Scholarship in Research Libraries], AFSCME 2910, June 13, 2007.

Gary Marchionini: [http://doi.acm.org/10.1145/1121949.1121979 Exploratory Search: From Finding to Understanding,] Communications og the ACM, Vol.49, No. 4 (April), 2006.

Rao Shen et.al.: [http://doi.acm.org/10.1145/1141753.1141755 Exploring digital libraries: integrating browsing, searching, and visualization], International Conference on Digital Libraries - Proceedings of the 6th ACM/IEEE-CS joint conference on Digital libraries, 2006, p. 1-10.

Ali Shiri: [http://dx.doi.org/10.1177/0165551507087711 Metadata-enhanced visual interfaces to digital libraries], Journal of Information Science, 34,2008, 6, p.763-775.

P. Vakkari: [http://www.info.uta.fi/vakkari/Vakkari_Tactics_RIAO2000.html Cognition and changes of search terms and tactics during task performance: A longitudinal case study], Proceedings of the International Conference on Computer Assisted Information Retrieval (RAIO), Paris, p.12-14.

J. Zhang and G. Marchionini: [http://portal.acm.org/citation.cfm?id=1065226.1065279&coll=GUIDE&dl=ACM&CFID=26838164&CFTOKEN=38299623# Evaluation and evolution of a browse and search interface: relation browser ++,] Proceedings of the National Conference on Digital Government Research, 2005, Atlanta USA, Digital Research Center, p. 179-188.

ExistingProjects (last edited 2010-03-11 10:02:31 by localhost)