Van alle ontwikkelingen in de geesteswetenschap is de opkomst van big data het meest veelbelovend. Samen met Casper Thomas hield ik een enquête onder meer dan 100 geesteswetenschappers voor De Groene Amsterdammer. Ik schreef er bijgaand stuk over, dat iets werd ingekort voor onsdigitaleleven.nl.
De datarevolutie is een enorme opsteker voor de geesteswetenschap. Gegevens die vroeger met de grootste moeite werden vergaard komen nu met één druk op de knop tevoorschijn. Dan gaat het niet alleen om de grote hoeveelheid data die nu beschikbaar komt, maar ook om de geavanceerde zoekmethodes. Neem Google’s NGram viewer. Filosofe Arianne Betti van de VU is er een grote fan van. Met dit programma kun je miljoenen boeken analyseren. Wie zoekt naar de Joodse kunstenaar Marc Chagall, ziet in een oogwenk dat zijn naam tussen 1934 en 1940 steeds minder voorkomt in alle Duitstalige boeken. Historici verkrijgen aldus een rijkdom aan data om de opkomst van de censuur tijdens het Naziregime te beschrijven.
Vroeger moesten ze honderden boeken doorvlooien om tot zo’n conclusie te kunnen komen – nu gebeurt het in een handomdraai. Niet alleen dankzij NGram viewer, maar ook dankzij de grootscheepse digitalisering van oudheidkundige geschriften, bijvoorbeeld door de Koninklijke Bibliotheek. Met een druk op de knop komen alle pamfletten over het rampjaar 1672 of over Napoleon beschikbaar. Dat scheelt talloze uren gesnuffel in oude geschriften.
Ook taalwetenschappers profiteren. Nu zoveel data beschikbaar komen, wordt het veel duidelijker hoe dialecten zich ontwikkelen. Dit leidt weer tot beter inzicht hoe taal in de praktijk verandert. Zelfs hypothesen kunnen nu probleemloos worden getoetst. Een computeranalyse van maar liefst 36-duizend melodieën liet bijvoorbeeld zien dat melodieën inderdaad meestal eerst omhoog gaan en dan weer omlaag.
Meer data leiden dus tot meer kennis, tot betere hypothesen en tot betere conclusies.
Nieuwe inzichten
Ze leiden ook tot nieuwe inzichten. Digitale facsimiles van middeleeuwse handschriften bieden niet alleen inzicht in de teksten, maar ook in de vorm. Daarmee kunnen wetenschappers beter begrijpen welke rol zo’n tekst speelde in de middeleeuwse wereld. Het vakgebied ondergaat daarmee een ‘radicale verandering’, meent de Utrechtse Mariken Teeuwen.
Iets vergelijkbaars geldt voor de theologie. Om het Oude Testament digitaal te bestuderen is aan de VU een omvangrijke database gebouwd. Deze moet worden ingebracht in een Europese infrastructuur voor taalkundig onderzoek. Dat vergt een nieuwe methodologische zuiverheid en terminologische helderheid in de beschrijving van het Bijbels Hebreeuws. Zodoende kan serieuze theologie niet langer zonder de computer.
Er groeit daarmee een nieuwe discipline in de geesteswetenschappen: het zogeheten digital scholarship. Daarin wordt gereedschap ontwikkeld om digitale bronnen zo goed mogelijk te benutten, bijvoorbeeld met annotatie of visualisatie. Volgens de Twentse taaltechnologe Franciska de Jong zijn datasets van geesteswetenschappers nogal complex, en daarmee des te interessanter voor informatici en taaltechnologen. Zowel op Europees als op nationaal niveau poogt men tot een gestandaardiseerde digitale infrastructuur te komen voor de humanoria, zodat iedereen kan delen en deelnemen.
Overvloed aan data?
Daar zijn niet alle wetenschappers even blij mee. Sommigen vinden dat de sector doorslaat in haar aandacht voor ‘big data’, historica Els Kloek bijvoorbeeld. Alles staat tegenwoordig in het teken van patroonherkenning, textmining en visualisatie van data, meent ze, en niet per se in het teken van vragen aan de materie. En zijn al die verzamelingen wel nuttig, vraagt haar Nijmeegse collega Diederik Burgersdijk. Produceren we niet heel veel kennis waar niemand naar verlangt?
Het zijn reëele vragen, die gelijk opgaan met de digitale revolutie (zoals de NSA-affaire maar weer eens laat zien). Wat bijvoorbeeld wel en niet te bewaren? Historica Selma Leyesdorff pleit voor een nieuwe theorie die als baken kan fungeren. Willen we alle blogs, ontboezemingen en herinneringen die mensen tegenwoordig plaatsen op internet als studiemateriaal beschouwen? Nee, vindt zij, er moet een selectie komen. Maar volgens welke criteria?
Zo brengt de digitale revolutie onvoorziene nieuwe werkwijzen met zich mee. Het vak van historicus wordt nooit meer hetzelfde, verwacht Susanne Legene. Naarmate niet-tekstuele data, zoals beeld en geluid, ruimer beschikbaar komen zal dit onze blik op het verleden beïnvloeden. ‘Waarschijnlijk zal in de toekomst geschiedenis niet meer worden geschreven door een historicus in een mooi boek’, schrijft ze. Zijn of haar taak bestaat er straks vooral uit discussies over het verleden te modereren – met verstand van zaken, dat wel. Het is een belangrijke functie, maar dankzij de opmars van ‘big data’ wel een andere dan voorheen.
Voor het complete onderzoek zie www.groene.nl
Beeld: Kamakurga