Back in Control over uw data en documenten

13 apr

Geplaatst door: Charel van Ommeren

Categorie: Blog

Voor de huidige generatie is het niet meer voor te stellen. Een moment zonder connectiviteit. Naast het bijhouden van alle social media raken al onze apparaten ook steeds meer verbonden met het internet. Internet of Things (IoT) is geen buzz-woord meer maar realiteit. Met al die apparaten kan het ook niet anders dat de hoeveelheid data die we produceren blijft groeien en daarmee dus ook de opslag van die data. Let wel met data bedoelen we niet alleen computeroutput, maar ook documenten die we met deze apparaten genereren.

Maar weten we nog welke data we waar hebben opgeslagen en hoe we die weer beschikbaar maken? Moeten we deze gegevens (nog) beschikbaar houden? En hebben we een retentiebeleid?

Heel veel data

Verschillende organisaties doen onderzoek naar de groei van data. Allemaal hebben ze gemeen dat de groei van onze data jaarlijks exponentieel toeneemt. Zo is de verwachting dat dit jaar meer dan 59 zettabytes (ZB) aan data zal worden geproduceerd, opgehaald, gekopieerd en geconsumeerd in de wereldwijde ‘datasphere’. (Bron IDC mei 2020). Het rapport voorspelt dat de hoeveelheid data die in de komende drie jaar geproduceerd wordt meer zal zijn dan de hoeveelheid data over de afgelopen dertig jaar. En in de komende 5 jaar zal de wereld 3 keer zoveel data produceren dan er is geproduceerd in de afgelopen 5 jaar.

Het zal voor velen van u ook niet vreemd klinken, dat het (verplichte) thuiswerken vanwege de Corona maatregelen al heeft bijgedragen en nog meer gaat bijdragen aan de enorme datagroei. Bij Amsterdam Internet Exchange is deze toename ook meetbaar.

In perspectief geplaatst

Slechts 30 jaar geleden was het aantal bedrijven dat meer dan 1 TB  aan data had op twee handen te tellen en bestonden uitdagingen uit het maken van een back-up van die 1 (!) terabyte binnen een uur. Dit voelt vreemd aan als we de statistieken van vandaag in overweging nemen. Die gaan ervanuit dat de wereldwijde hoeveelheid data zal groeien naar een verbluffende 175 zettabytes (dat is 175 x 10.000 TB) in 2025.

De voorspelde groei is net zo verbijsterend als ook begrijpelijk. Nog niet zo lang geleden was het gebruikelijk dat belangrijke data als e-commerce, ERP, e-mail en soortgelijke zaken is opgeslagen in de databases van de organisatie. Hoewel nog altijd relevant, is vandaag de dag juist ongestructureerde data van toenemend belang. IoT-data, streaming data, geo-data, gebruikersdata en dergelijke vormen de levensader van veel bedrijven. Eind 2020 hebben een slordige 200 miljard apparaten data gegenereerd.  IDC voorspelt dat tegen 2025 zes miljard gebruikers dagelijks van data afhankelijk zijn. Dat is een slordige 75% van de wereldbevolking!

In 2025 zal er, als de voorspelde groei gerealiseerd wordt, elke 18 seconden ten minste één interactie plaatsvinden door ieder verbonden individu. Analisten verwachten dat IoT-apparaten tezamen meer dan 90 zettabytes aan data zullen genereren. 

Data bestaat uit computeroutput, officedocumenten, gescande documenten, boeken, maar ook films, beelden etc. Dat we al deze data kunnen opslaan, bewijzen we dagelijks. De uitdaging gaat hem zitten in het managen van al deze informatie en hoe we de juiste informatie weer kunnen vinden.

En dat het vinden van informatie veel tijd kost is een feit. Verschillende onderzoeken komen tot de conclusie dat het we ongeveer 20% van onze tijd hieraan besteden.

Back in control

Bovenstaande grafiek maakt inzichtelijk dat de datagroei bestaat uit data gegenereerd door dingen(IoT) en door ongestructureerde data. Hoewel business data gecombineerd met machinedata ongeveer 50% van onze informatie bedraagt, worden 100% van onze beslissingen hierop gebaseerd.

De grootste uitdaging zit dan ook in de ongestructureerde data. Met andere woorden de Context van de Content te begrijpen. Wie is wie en wat is wat. Zodra we hiertoe in staat zijn, kunnen we al deze data op de juiste wijze interpreteren.

Inzicht in uw data

OD Solutions Nederland is al jaren specialist op het capturen van informatie. Jaarlijks gaan er al snel meer dan een half miljard aan pagina’s door onze Datacap applicaties. Middels indexering worden deze voorzien van een uniek kenmerk zodat deze vanuit een centrale repository eenvoudig kunnen worden teruggevonden.

Zolang we deze ongestructureerde informatie alleen voorzien van een index, gaat heel veel waardevolle informatie verloren.

Om deze reden gaan wij bij OD Solutions Nederland gaan wij hierin nog een stapje verder. Alle documenten in het archief (inclusief historie) worden door een automatische crawler opgepakt en de tekst omgezet in data. Verder zijn er standaard connectoren voor vele applicaties beschikbaar, denk hierbij aan Microsoft Sharepoint, IBM Filenet, Documentum, BOX, etc etc. Al deze opslagbronnen kunnen hierin worden meegenomen.

Door toevoeging van taaltechnologie (NLP/NLU) zijn wij in staat de “ context van de content” te begrijpen en ontstaat nu een mix van gestructureerde en ongestructureerde informatie die voor gebruikers eenvoudig te vinden is, met als gevolg een enorme reductie in het zoeken naar informatie. Naast documenten kunnen we ook de content in videofragmenten indexeren en vinden.

Hoe komt u nu in control?

Doordat we nu weten wat de inhoud van een document is kunnen we:

Anonimiseren of pseudonimiseren
Niet alleen zoeken over databases maar ook over meerdere opslagbronnen
Verschil analyse uitvoeren over documenten
Controleren waar documenten/ informatie aanwezig zijn
En nog veel meer

Wilt u ook (weer) controle over uw informatie? Graag informeren wij u over de mogelijkheden.

Tags: #AI, #businessdata, #content, #context, #Data, #Filenet, #gestructureerde data, #IBMDatacap, #IDOL, #InternetofThings, #IoT, #MicroFocus, #NLP, #NLU, #ODS, #ODSearch, #ODSolutions, #ongestructureerde data, #Taaltechnologie

Auteur: Charel van Ommeren

Back in Control over uw data en documenten

Back in Control over uw data en documenten

Heel veel data

In perspectief geplaatst

Back in control

Inzicht in uw data

Geef een reactie Reactie annuleren