In de afgelopen decennia heeft het digitaliseren van documenten een grote vlucht genomen. Digitaliseren wil zeggen dat we papieren documenten scannen en de inhoud leesbaar maken op computers. Het Engelse woord voor de inhoud van documenten is content, het proces heet capturing.
We onderscheiden drie soorten content: gestructureerde content (met name formulieren), semi-gestructureerde content (zoals facturen) en ongestructureerde content. Met deze laatste bedoelen we alles wat amper of helemaal niet gestructureerd is, zoals brieven, publicaties, marketing, e-mail, video, audio en social media.
(Semi-)gestructureerde content moet vaak in grotere hoeveelheden worden verwerkt. Om dit zo efficiënt mogelijk te doen worden de documenten in vergelijkbare groepen gesorteerd. Dit heet ook wel geclassificeerd. We maken dus een stapel facturen, een stapel bestellingen, een stapel contracten enzovoorts. Iedere stapel geclassificeerde documenten kan eenvoudig van de bijbehorende indexsleutels worden voorzien. Tot op heden is dit nog steeds een van de meest gebruikte capture toepassingen en voor deze documentsoorten is deze aanpak voldoende.
Maar voor de content van ongestructureerde documenten werkt dat niet. Deze documenten zijn zo verschillend dat ze niet efficiënt in een paar stapels kunnen worden geclassificeerd. Een ongestructureerd document moet worden beoordeeld op basis van de context. Wat bedoelen we daarmee? Met context bedoelen we de omstandigheden, de achtergrond. Stel dat een relatie een email stuurt met een klacht over een levering. Het onderwerp van de email is “factuur”. Maar daarmee is niet meteen duidelijk of het gaat om een factuur van u of van deze relatie. Om dat te weten te komen moet de inhoud van het document worden gelezen. Er kan dus niet worden volstaan met het herkennen van enkele velden, zoals naam of factuurnummer.
Om deze documenten goed te digitaliseren en te capturen, moet de computer de content herkennen zoals wij dat als mensen zouden doen. En omdat het gaat om veel verschillende documenten moet dit gebeuren met grote snelheid en hoge accuratesse. Dit kan tegenwoordig met behulp van Cognitive Computing. Wanneer u het traditionele Capture proces samenvoegt met Cognitieve Computing deze verkrijgt u inzicht in informatie die tot op heden voor u verborgen is gebleven.
U kunt documenten zoeken en vinden op ieder woord in de tekst. Andere concrete toepassingen zijn automatisch anonimiseren, Robotics automation, digitale workflow en accessibility.
Wilt u ook inzicht in uw data? Neem gerust contact op!
Meer informatie over Capturen vind u hier.