info@od-solutions.nl
+31(0) 344 60 63 63

Goed gereedschap is het héle zoekwerk

Geplaatst door: Vincent Dam
Categorie: Blog

Goed gereedschap is het héle zoekwerk

De stethoscoop van de dokter. Het fluitje van de conducteur. De vliegbril van de piloot. Veel beroepen zijn herkenbaar aan dit soort typische attributen. Zo ook de klusser: die draagt altijd een gereedschapskist met zich mee. Moet er iets vastgemaakt worden? Geen probleem, er zit een schroevendraaier in de kist. U wilt een stuk hout op maat gemaakt hebben? Daarvoor hebben we de zaag. U wilt iets ophangen aan de muur? Maar natuurlijk, de kist bevat pluggen in alle soorten en maten.

Een informatiespeld vinden in een hooiberg van documenten? Ja, ook voor die taak bestaan verschillende gereedschappen. Welke daarvan je precies nodig hebt, hangt er maar net vanaf. Een goede klusser gaat doorgaans niet direct aan de slag na het ontvangen van een eerste opdrachtbeschrijving, maar zal eerst proberen de wensen van de klant helder te krijgen. Hoe moet het eindresultaat er precies uit gaan zien? Welke materialen mogen gebruikt worden? Wanneer moet het af zijn?

Stel nu

Stel nu, een organisatie heeft een flinke hoeveelheid (gedigitaliseerde) informatie liggen. En stel, de organisatie wil geautomatiseerd kunnen zoeken in die informatie. Welke vragen zou een ‘klusser’ die verstand heeft van automatisch zoeken en vinden dan moeten stellen aan de organisatie?

In ieder geval de volgende vragen

Informatiemedium

In welke vorm wordt de informatie aangeleverd? Gaat het om één of meerdere databases? Zijn het papieren documenten die nog moeten worden ingescand? En als het gaat om documenten die al gedigitaliseerd zijn, worden deze dan aangeleverd als niet-doorzoekbare afbeeldingen? Of worden er doorzoekbare documenten aangeleverd? En als dat laatste het geval is, om wat voor documenten gaat het dan (PDF’jes, spreadsheats, presentaties, e-mails, enzovoort)?

Opslaglocatie

Waar staan de documenten opgeslagen? In lokale mappen, cloudopslag, archieven, e-mailservers, of elders?

Informatiesoort

Moet de inhoud van de informatie doorzocht worden of alleen de metadata? Of beiden?

Zoekopdracht

Hoe komt een zoekopdracht eruit te zien? Wordt er gezocht op een enkel steekwoord, op meerdere steekwoorden, op zinsdelen, of zelfs op hele zinnen? In welke talen kan gezocht worden? Moeten er nog speciale filteropties worden meegenomen bij het zoeken?

Zoek resultaat

Wat voor resultaat moet de zoekoplossing teruggeven? Een lijst van documenten die “voldoen” aan de zoekopdracht? Of een daadwerkelijk antwoord op de vraag die gesteld is, geformuleerd in keurig Nederlands (of een andere taal)? Moet daarbij ook de relevantie van het resultaat worden getoond op één of andere manier, bijvoorbeeld als percentage?

Hoeveelheid informatie

Als het om documenten gaat, hoeveel zijn het er dan? Vijfduizend, honderdduizend, een miljoen, of zelfs miljoenen? In het geval van databases: om hoeveel records gaat het?

Snelheid

Hoe snel moeten de resultaten van een zoekopdracht berekend worden? Moeten ze nagenoeg instantaan binnen zijn, of mag het enkele seconden duren?

Transparantie

In welke zin, en in welke mate, moet het zoekproces inzichtelijk zijn voor de gebruiker? Is het nodig dat elke interne overweging van het systeem volledig traceerbaar is, of is het voldoende als het systeem haar antwoorden op een wat hoger niveau kan rechtvaardigen? Als dat laatste het geval is, wat voor rechtvaardiging is dan gewenst? Eén of meerdere citaten uit de brondocumenten waarin een gegeven antwoord op een vraag teruggevonden kan worden? Een uitleg van het denkproces van het systeem in alledaags Nederlands?

Nabehandeling

Wat wordt er gewenst van de oplossing nadat er een zoekopdracht is gegeven? Dat er doorgevraagd kan worden? Dat er binnen de gegeven antwoorden gefilterd kan worden? Dat eerdere zoekopdrachten, en de bijbehorende resultaten, onthouden worden?

Veiligheid en privacy

Hoe zit het met beveiligingseisen? Moet de oplossing on-prem draaien of in de Cloud? Als het eerste het geval is, mag er dan wel of niet een verbinding met een externe server worden gelegd vanuit de lokale omgeving van de organisatie? Moet informatie überhaupt eerst (automatisch) geanonimiseerd worden voordat de zoekoplossing erbij mag komen?

Vervolgens zijn er verschillende technieken waar de ‘klusser’ op het gebied van zoektechnologie zich van zou kunnen bedienen, om tegemoet te komen aan de vraag van de klant:

Technieken om een zoekoplossing te koppelen aan opslaglocaties:

Denk aan het automatisch scannen van digitale bestandsmappen, het automatisch ophalen van berichten uit e-mailservers, en het koppelen van Cloud-platformen zoals OneDrive aan de zoekoplossing.

Technieken om informatie uit bronnen te ontsluiten

denk aan het uitlezen van databases en digitale bestanden van verschillende formats, en aan OCR (Optical Character Recognition) en handschriftherkenning om tekst uit afbeeldingen te extraheren.

Technieken om documenten te indexeren

de meeste zoektechnieken maken gebruik van een zogenaamde ‘index’, een informatiestructuur die het zoekproces faciliteert. Er zijn verschillende soorten indexen, die elk hun eigen voor- en nadelen met zich meebrengen. De twee belangrijkste soorten, zijn:

Statistische indexen

Deze indexen bevatten slechts informatie over hoe vaak een woord voorkomt in een document (wat een indicatie is van de relevantie van het woord), en niet over wat het woord betekent. Term frequency-inverse document frequency (afgekort TF-IDF) is de meest gebruikte maatstaaf voor de belangrijkheid van woorden die in statistische indexen wordt gebruikt. Statistische indexen hebben als voordeel dat ze snel en makkelijk opgebouwd kunnen worden en dat je er efficiënt in kan zoeken. Het grote nadeel van dit soort indexen, is dat ze geen informatie bevatten over de eigenlijke betekenis van wat er geschreven staat in een document. Zoekopdrachten blijven hierdoor beperkt tot steekwoorden.

Semantische indexen

Deze indexen bevatten juist wél informatie over de betekenis van de inhoud van een document. Als je slimme vragen wilt gaan stellen over een document en slimme antwoorden verwacht, dan heb je een semantische index nodig. Het nadeel van semantische indexen is dat het langer duurt om ze op te bouwen, dat de opbouw van zulke indexen doorgaans prijziger is, en dat zoeken in deze indexen relatief veel rekenkracht vereist.

Technieken om te zoeken

Er zijn een aantal zogenaamde zoekparadigma’s die ook weer elk zo hun voor- en nadelen hebben. De belangrijkste paradigma’s zijn:

Semantisch zoeken

Steeds moet online zoekmachines, waaronder ook de bekende namen zoals Google Search en Microsoft Bing, stappen gaandeweg over van steekwoord-gebaseerd zoeken naar semantisch zoeken. De zoekopdracht is nu niet meer slechts een reeks steekwoorden, maar kan een vraag, een hele zin, of zelfs meerdere zinnen zijn. En een zoekresultaat is nu niet meer een informatiebron waarin specifieke steekwoorden voorkomen, maar een bron die qua betekenis goed past bij de zoekopdracht. Als de zoekopdracht een vraag is, bijvoorbeeld, dan levert semantisch zoeken informatiebronnen op die de vraag (zo goed mogelijk) beantwoorden. Het grote voordeel van semantisch zoeken, is dat de resultaten kwalitatief beter zijn dan bij metadata-filtering en steekwoord-gebaseerd zoeken. Er kleven echter ook enkele nadelen aan dit zoekparadigma. Er zijn semantische indexen voor nodig, die minder snel en gemakkelijk op te bouwen zijn vergeleken met statistische indexen. En om dit type zoeken snel te laten verlopen, is doorgaans veel rekenkracht nodig, een stuk meer in ieder geval dan bij metadata-filtering en steekwoord-gebaseerd zoeken. Tot slot is semantisch zoeken doorgaans niet volledig transparant, omdat de onderliggende technieken meestal gebruik maken van rekenmodellen die gebaseerd zijn op kunstmatige intelligentie (AI). De precieze werking van deze rekenmodellen is slechts beperkt te doorgronden, voor zowel mens als computer.

Steekwoordgebaseerd zoeken

Dit is het paradigma dat we kennen van Google Search. De gebruiker voert één of meerdere steekwoorden in, en de zoekoplossing gaat op zoek naar informatiebronnen waarin zoveel mogelijk van de ingevoerde steekwoorden exact (en het liefst ook in de juiste volgorde) terugkomen. Steekwoord-gebaseerd zoeken is, net als metadata-filtering, snel en traceerbaar, maar de security-impact is groter omdat de zoekoplossing toegang moet krijgen tot de inhoud van informatiebronnen. Voor dit type zoeken worden doorgaans statistische indexen van informatiebronnen gebruikt

Metadata-filtering

In dit paradigma wordt niet de inhoud van een informatiebron, maar slechts de metadata geraadpleegd. Er zijn drie grote voordelen aan deze techniek. De eerste is dat je er heel snel mee kan zoeken door zeer grote hoeveelheden informatiebronnen. Metadata-filtering is dan ook een geschikte manier om een zogenaamd sleepnet te implementeren waarbij een (relatief grove) deelverzameling van documenten moet worden geselecteerd uit een zeer omvangrijke oorspronkelijke verzameling. Het tweede voordeel van metadata-filtering is dat de zoekoplossing geen toegang hoeft te krijgen tot de inhoud van informatiebronnen, waardoor de security-impact van de oplossing minimaal is. Ten derde is metadata-filtering een volledig traceerbare operatie, wat betekent dat de methode optimale transparantie biedt voor de gebruiker.

Vraag/antwoord-gebaseerd zoeken

Deze vorm van zoeken is in feite een uitbreiding van semantisch zoeken. De gebruiker krijgt hierbij als resultaat geen lijst met informatiebronnen die inhoudelijk goed bij de zoekopdracht passen, maar een daadwerkelijk antwoord op een zoekvraag. Vraag/antwoord-gebaseerd zoeken heeft dezelfde voor- en nadelen als semantisch zoeken, en daarbij ook nog het aanvullende voordeel dat deze manier van zoeken nóg beter de informatiebehoefte van de gebruiker kan bevredigen. Een bijkomend nadeel van dit paradigma is dat veel oplossingen die hieronder vallen gebruik maken van generatieve kunstmatige intelligentie (generative AI), welke soms de neiging heeft om te “hallucineren”, wat inhoudt dat de kunstmatige intelligentie een onjuist antwoord geeft zonder dat het programma dat beseft. De gebruiker kan beschermd worden tegen dit soort hallucinaties door bij elk antwoord voorzien te worden van één of meerdere citaten uit de doorzochte informatiebronnen, waaruit het antwoord naar voren komt. Op die manier kan de gebruiker altijd zelf controleren of het antwoord correct is.

Organisaties die over veel informatie beschikken en die op zoek zijn naar software voor automatisch zoeken en vinden, doen er goed aan om een leverancier te kiezen die de eerder genoemde vragen stelt om zo tot een passende oplossing te komen. Een goede leverancier van zoeksoftware is als een klusser met een gereedschapskist die implementaties van de hierboven opgesomde technieken bevat. Welke techniek wordt ingezet voor welke casus, hangt altijd af van de eisen en wensen van de klant.

Men zegt wel eens: “goed gereedschap is het halve werk”. In het geval van automatisch zoeken en vinden door grote hoeveelheden informatie, is half werk echter niet voldoende. In plaats daarvan is het de bedoeling dat de mens volledig ontzorgd wordt. Vandaar dus: “goed gereedschap is het héle zoekwerk”. Klik hier voor goed gereedschap 

Kijk ook  naar onderstaande video waarin de voordelen van zoeken en vinden  aangevuld met vraag en antwoord worden uitgelegd.

Zoeken in uw dossiers en archieven. Stel een vraag als verlengstuk van je gedachte en krijg antwoord

Bent u met vragen achtergebleven? stel ze gerust!

    Gebruik AUB geen URL adres met uw bericht, anders deze wordt gezien als spam.

    Auteur: Vincent Dam

    Geef een reactie