Corona-diskussioner i det danske Twitter-landskab
Udarbejdet af: Thyge Enggaard, Tobias Gårdhus, Anders Blok, Hjalmar Carlsen & Morten Axel Pedersen
Det følgende er en kortlægning af corona-diskussionen på Twitter, som baseret på sam-forekomster af hashtags bl.a. viser at:
1. Introduktion
Den følgende analyse udgør den første af en række påtænkte analyser af corona-diskussioner og -reaktioner i og på tværs af en række danske offentligheder, herunder både på sociale medier og i traditionelle nyhedsmedier. Vi ønsker at dele vores analyser og resultater imens corona-pandemien stadig står på, hvorved vores opslag også bliver et blik ind i vores forskningsproces.
Vores første resultater er baseret på en analyse af ~70.000 dansksprogede tweets i perioden 24/2-2020 til 24/3-2020, der alle har indeholdt ordet ‘corona’, ‘covid’, ‘virus’, ‘epidemi’ eller ‘pandemi’[1]. I dansk kontekst udgør Twitter en særlig offentlighed, som benyttes af en mindre del af borgerne (op til 10%), men til gengæld aktivt bruges dagsordens-påvirkende af officielle instanser, politiske partier og interessentgrupper[2]. En mere udførlig redegørelse for og diskussion af vores dataindsamling, datasæt og metoder findes i sektionen ‘Data og metode’ sidst i dette opslag. En beskrivelse af vores forskningsgruppe og -center findes i menupunktet 'Om os’.
2. Hvad tweetes der om i relation til corona-epidemien i Danmark?
Vores primære formål er i første omgang at undersøge de corona-relaterede temaer, som diskuteres i det danske Twitter-landskab via et fokus på hashtags. Hashtags bruges ofte til at opsummere et budskab eller til at ‘tagge’ et indlæg i relation til en større debat. Som sådan kan hashtags, og særligt sam-forekomster af dem, indikere temaer i en Twitter-debat (såkaldt ‘co-hashtag’ analyse)[3].
Figur 1 viser et co-hashtag netværk baseret på vores samlede rensede datasæt for hele den undersøge periode (altså fra og med 24/2 til og med 24/3 2020). Hver cirkel repræsenterer et hashtag. En streg mellem to cirkler viser, at en Twitter-bruger har sammenkædet de to hashtags, ved at bruge dem i samme tweet. Størrelsen på cirklen indikerer hvor ofte det pågældende hashtag er blevet brugt, og tykkelsen på stregerne mellem cirklerne indikerer, hvor ofte de to hashtags bliver kædet sammen i tweets. Netværket er visualiseret via brug af en algoritme, der for overskuelighedens skyld trækker forbundne hashtags tættere sammen og skubber de ikke-forbundne fra hinanden.
Ved brug af et såkaldt modularitets-mål har vi identificeret 9 klynger af særligt forbundne hashtags[4]. Disse klynger er markeret på figuren ved hjælp af forskellige farver. Vi har, igen for overskuelighedens skyld, fjernet alle hashtags, der indeholder ‘corona’ eller ‘covid’, idet alle de undersøgte tweets nævner ord, der i sagens natur er relateret hertil (jf. vores søgeord). Herudover har vi også fjernet hashtaggene 'dkpol' og 'dkmedier', da disse bruges så generelt, at de ikke bærer megen information i sig selv, og forstyrrer grupperingen af de resterende hashtags i klynger.
Figur 1 - Co-hashtag netværk for hele perioden |
---|
De 9 klynger af hashtags udstikker tilsammen et differentieret debat-landskab[5]. For bedre at kunne forstå og fortolke de enkelte klynger, vil vi i det følgende rekonstruere den bagvedliggende udvikling af corona-debatten, opdelt i tre hovedfaser:
- Perioden fra datasættets start (24/2) og frem til to dage før regeringen annoncererer, at store dele af landet lukker ned (8/3).
- Perioden omkring selve annonceringen af nedlukningen (9/3 til 13/3).
- Perioden efter annonceringen af nedlukningen og frem til vores datasæt foreløbigt slutter (14/3 til 24/3).
Figur 2 - Antal tweets, der indeholder mindst ét af vores søgeord, per dag over perioden |
---|
2.1. Hashtag-netværket i perioden op til nedlukningen
Figur 3 viser hashtag-netværket i perioden op til nedlukningen (24/2-8/3), hvor særligt to tema-klynger træder tydeligt frem som dominerende i debat-landskabet:
- Den blå klynge af hashtags, der overordnet handler om sundhed generelt [fx ‘sundpol’, ‘sundhed’], sundhedsmyndighederne og deres indsats specifikt ift. epidemien [fx ‘forebyggelse’, ‘beredskab’] samt lande, der er særligt ramt af epidemien [fx Italien og Kina][6]. Vi refererer herefter til denne klynge som SUND.
- Den lilla klynge af hashtags, der overordnet omhandler finansielle emner (fx dkbiz, dkfinans), nationaløkonomi (fx dkøko, dktrp, dkbyg) og dansk (økonomisk) politik (fx kompoldk, dendanskemodel). Denne klynge indeholder også en snitfladen til grøn omstilling og klimapolitik (fx dkgreen, klima), der peger på en mere generel relation mellem corona- og klimakrise i den danske offentlige debat[7]. Vi refererer herefter til denne klynge som ØKOPOL.
Figur 3 - Co-hashtag netværk for den første periode |
---|
Herudover er en række mindre tema-klynger til stede i dette tidlige landskab:
- En lille klynge af mellem-hyppigt brugte uddannelses- [fx skolechat, folkeskolen, uddpol] og forskningsrelaterede hashtags [dkforsk] (UDDAN).
- En lille klynge af mindre hyppigt bruge hashtags relateret til EU og udenrigspolitik [fx eudk] (UDPOL).
- En klynge af mindre hyppigt bruge hashtags relateret til fodbold og håndbold (SPORT), som i øvrigt særligt relaterer sig specifikt til hashtagget ‘tv2news’.
2.2. Hashtag-netværket i perioden under nedlukningen
Figur 4 viser netværket i perioden hen over nedlukningen (9/3-13/3). Her begynder en løs samling af orange hashtags at vise sig, som netop synes at afspejle en reaktion på nedlukningen [‘lockdown’ står centralt], samt de konsekvenser, der følger eller kan tænkes at følge (REAK). Disse begyndende reaktioner rummer en række karakteristiske træk, herunder:
- Hashtags, der relaterer sig til (mulige) forbrugerreaktioner og modstand imod dem, såsom ‘hamstring’, ‘stophamstring’ og ‘stopmadspil’.
- Hashtags, der udtrykker aspekter af den nye hverdagsvirkelighed for mange, såsom ‘hjemmekontor’ og ‘isolation’.
- Hashtags, der signalere sammenhold og modstandskraft, fx ‘samfundssind’, ‘paspåhinanden’ og ‘knækkurven’.
Figur 4 - Co-hashtag netværk for den anden periode |
---|
Derudover tilføjes der nye delemner til de eksisterende klynger. SUND får fx tilført ‘håndsprit’, UDPOL får tilført ‘grænsekontrol’ og UDDAN får tilført hashtags relateret til hjemmeskoling. Det er værd at bemærke, at ‘samfundssind’ bruges relativt hyppigt og placerer sig mellem SUND og REAK-klyngerne - formentlig som afspejling af den måde, der på Twitter vises opbakning til myndighedernes og regeringens brug af begrebet. Slutteligt opstår der en lille mørkeblå klynge omkring 'netto', 'fakta', og 'coop' (DAGVAR).
2.3. Hashtag-netværket i perioden efter nedlukningen
Figur 5 viser debat-landskabet for perioden efter nedlukningen (14/3-24/3), hvor en række af de bevægelser, der blev synlige i perioden før, har manifesteret sig mere markant. Særligt væsentligt er det, at REAK-klyngen er vokset betragteligt og desuden nu antager en mere sammenhængende form. Således har klyngen delvist samlet sig omkring budskabet om at blive hjemme [‘blivhjemme’], samt fået et nyt og centralt fællesskabs-relateret hashtag, ‘sammenhverforsig’. Sammenholdt med debat-landskabet i perioden før nedlukningen er der tale om en markant forskydning.
Herudover sker der i perioden en række mere perifere, men stadig interessante udviklinger, herunder at:
- Hashtagget ‘mettefrederiksen’, som før kun var forbundet med få andre hashtags, har fået selskab af ‘dronningmargrethe’ og ‘kongehuset’, alt imens ‘håndtryk’ er forsvundet fra denne del af netværket.
- En klynge af mørkegrønne ord omhandlende digitale emner som ‘misinformation’, ‘cybersikkerhed’, ‘ehandel’ og ‘arbejderhjemme’ er opstået (DIGI).
Figur 5 - Co-hashtag netværk for den tredje periode |
---|
Endelig er det væsentligt at bemærke, at mængden af hashtags (og tweets) relateret til vores søgeord generelt er steget markant over den samlede periode (24/2-24/3). Forbundet hermed ses det tillige, at der nu helt alment er flere hashtags, der agerer “broer” mellem de enkelte debat-klynger. Selvom klyngerne således stadig er tydelige som del-temaer i det samlede corona-diskussions-landskab, så indikerer dette forhold altså tillige, at der i denne seneste periode samtidig foregår mere debat på kryds og tværs mellem dem.
2.4. Tema-klyngernes indbyrdes tyngde over tid
Figur 6 viser den samlede aktivitet for hver af de i alt 9 tema-klynger over tid. Denne fremstilling af data giver i højere grad end netværks-graferne mulighed for at danne sig et overblik over klyngernes indbyrdes tyngde i corona-landskabet over tid. Særligt kan man bemærke sig følgende:
- Som det også fremgår visuelt af netværks-graferne, så er ØKOPOL og SUND samlet set de mest aktive klynger, om end med ganske store aktivitets-udsving over perioden. Det er ligeledes disse klynger, der først udviser aktivitet, og det er bemærkelsesværdigt, at aktiviteten for dem begge vokser ganske kraftigt i dagene op til nedlukningen (11/3).
- REAK er den tredje mest aktive klynge, om end den - som vist i netværks-figurerne - først vokser i perioden under og særligt efter nedlukningen. Mod slutningen af den her undersøgte periode er REAK kortvarigt den mest hyppigt forekommende hashtag-klynge (21/3).
- SOCIAL tager relativt sent til, og topper kortvarigt d. 19/3, hvorefter den igen falder til et lavere aktivitetsniveau. Det afspejler formodentlig en forsinket opmærksomhed rettet mod socialt udsatte borgere, og vil muligvis tage til i perioden efter d. 24/03.
- SPORT udviser et ganske kortvarigt aktivitets-spring i perioden før nedlukningen, antageligt forbundet med beslutningen om at afholde Superligakampe uden tilskuere.
- Der ser generelt ud til at være en ugedags-effekt, hvor aktiviteten er mindre i weekender end på hverdage, hvilket kan forklare en del af udsvingene.
Figur 6 - Aktivitet indenfor klyngerne per dag over hele perioden |
---|
3. Hvad diskuteres der i Twitter-landskabets klynger?
For bedre at kunne identificere og analysere hvilke underproblemstillinger, der rejser sig og bliver diskuteret inden for de mest tungtvejende tema-klynger i det danske corona-Twitterlandskab , ‘zoomer’ vi nu ind på hhv. SUND-, ØKOPOL- og REAK-klyngerne.
3.1. Hvilke sundheds-emner optager Twitter-Danmark?
Figur 7 giver et koncentreret indblik i SUND-klyngen over hele perioden (24/2-24/3), hvor følgende delemner står frem:
- En række centrale hashtags omhandler dansk sundhedspolitik som sådan, hvor bl.a. ‘patientsikkerhed’, ‘børn’, ‘ulighed’, og ‘dkaid’ står frem.
- ‘Samfundssind’ fremstår som tidligere bemærket som et særskilt sundhedsemne, der er stærkt forbundet med ‘sundhedspolitik’.
- En række hashtags omhandler specifikt de biomedicinske aspekter og indsatser ved bekæmpelsen af sygdommen, herunder ‘virus’, ‘smitte’, ‘beredskab’ og ‘læger’.
- Hashtagget ‘forebyggelse’ er forbundet til ‘karantæne’ og herudover særligt til en række organisationer (Sundhedsstyrelsen, WHO), til en en række lande (‘italien’, ‘iran’, ‘kina’), og herunder en forbindelse mellem ‘tyskland’ og ‘grænselukning’.
- ‘flygtninge’ er foruden ‘dkaid’ et perifert deltema, ligesom ‘grønland’, ‘færøerne’ og ‘folkekirken’ er det.
Figur 7 - SUND-klyngen for hele perioden |
---|
3.2. Hvilke økonomisk-politiske emner optager Twitter-Danmark?
Figur 8 viser et forstørret zoom på ØKOPOL-klyngen, igen over hele perioden (24/2-24/3). Også her står en række delemner frem:
- ‘dkbiz’, ‘dkøko’ og ‘dkfinans’ udgør tilsammen aktivitets-centrummet for klyngen, svarende til hashtags af almen stor udbredelse for økonomisk diskussion også før corona-krisen.
- En række industrier og relaterede temaer er relativt markant til stede i klyngen, bl.a. transport (‘dktrp’,’luftfart’, ‘luftenshelte’) og byggeri (‘dkbyg’, ‘byggeri’, ‘arbejdsmiljø’), men også turisme (‘dkturisme’).
- ‘Arbejde’ udgør et center for sig, relateret til bl.a. overenskomstforhandlingerne og arbejdsmarkedets parter (‘ok20’), ‘dagpenge’, ‘arbejdsmiljø’, ‘dendanskemodel’ og de nævnte industrier.
- Også klimaområdet repræsenterer et eget del-center i klyngen, centreret omkring ‘dkgreen’, der bruges alment til klima- og omstillings-diskussioner.
Figur 8 - ØKOPOL-klyngen for hele perioden |
---|
3.3. Hvilke reaktioner på corona-krisen diskuterer Twitter-Danmark?
Figur 9 zoomer ind på REAK-klyngen (hele perioden), hvor følgende delemner står frem:
- Social distancering udgør et samlende del-center for klyngen, via forskellige udtryk for og budskaber om vigtigheden i at blive hjemme og at holde social afstand. ‘politidk’ og ‘sammenhverforsig’ er primært relateret hertil, ligesom ‘paspåhinanden’, ‘staysafe’ og andre moralsk ladede hashtags som ‘vaskhænder’.
- ‘lockdown’ binder flere dele af klyngen sammen, antageligt som en markør der bruges nøgternt til at pege ind på den gældende situation.
- Hashtagget ‘hamstring’ samler en række ord og udtryk, der er forbundet med varer som der er usædvanlig stor efterspørgsel efter (f.eks. ‘toiletpapir’). Det er også forbundet med hashtaggene ‘panik’ og ‘stop’, formentlig som udtryk for moralsk fordømmelse.
- En række hashtags indikerer en mere reflekterende og humoristisk tilgang til krisen og folks reaktioner og respons på den, så som ‘jegfinderselvud’ og ‘galgenhumor’.
Figur 9 - REAK-klyngen for hele perioden |
---|
REAK-klyngen er umiddelbart tematisk mindre entydig end de to ovennævnte klynger (SUND og ØKOPOL). Med henblik på bedre at kunne forstå klyngen, har vi i Figur 10 plottet den daglige brug af de 10 mest brugte hashtags inden for den. Her ses bl.a. at:
- Klyngen var, som tidligere indikeret, stort set ikke aktiv før efter nedlukningen den 11. marts.
- ‘hamstring’ peaker dagen efter nedlukningen, men forsvinder derefter næsten igen.
- ‘politidk’ er særligt aktiv omkring weekenden d. 21-22/3, formentlig i relation til en opmærksomhed om folks tendens til at samle sig i grupper udendørs.
- ‘blivhjemme’ fanger først an seks dage efter nedlukningen, og topper ti dage efter, på samme tid som ‘politidk’.
Figur 10 - post aktivitet indenfor REAK-klyngen for hele perioden |
---|
4. Spørgsmål for vores næste opslag, samt videre undersøgelser
I det næste opslag efter påske, vil vi forsøge at komplimentere denne analyse af Twitter-samtalens overordnede 'emner', med en analyse af 'måden hvorpå' der bliver talt om disse 'emner' på Twitter. Har den vidtrækkende nedlukning af samfundet, ved at manifestere et modsvar til krisens usikkerhed, på trods af dens konsekvenser indgydt optimisme og mindsket bekymringer på Twitter (som foreløbigt indikeret fx ved fremkomst af hashtags som ‘samfundssind’, ‘sammenhverforsig’)?
Herudover har denne kortlægning af det danske Twitter-landskab i relation til corona rejst en række spørgsmål, som vi overvejer at tage op på et senere tidspunkt. Det gælder bl.a. følgende:
- Overordnet om den danske corona-håndtering
- Hvilke konkrete individuelle og kollektive aktører rejser hvilke problemstillinger og temaer - og hvilke aktører får problemstillingerne til at ‘fylde’ i den offentlige Twitter-debat?
- Mette Frederiksen har (sammen med fx Søren Brostrøm og Magnus Heunicke) personificeret den danske krisehåndtering. Hvordan udtrykker de danske tweets sig over for forskellige myndigheder og politikere?
- Specifikke corona-problemstillinger og -temaer
- Hvordan er klimadagsordenen blevet foldet ind i (eller måske ned under) corona-krisen - og hvad ligger der mere konkret i det forhold, at klima og grøn omstilling synes knyttet primært til økonomisk politik?
- Er det muligt at identificere en debat omkring den politiske legitimitet af regeringens og Folketingets forskellige indgreb, eller er den politiske debat herom så godt som forstummet?
- Hvordan og af hvem mobiliseres klyngen SOCIAL - og vil det vise sig rimeligt at forvente, at netop dette tema vil vokse yderligere i betydning i den kommende tid, i takt med at nedlukningen evt. varer ved?
- Falske nyheder (‘fake-news’) er som Twitter-hashtag perifert. I hvilken sammenhæng har denne dagsorden fundet plads, givet at krisens tempo og usikkerhed kunne forventes at være grobund herfor?
- Efter en periode fyldt med bl.a. Brexit og europæisk opgør med tech-giganter, har corona-krisen tilsyneladende flyttet vores opmærksomhed tilbage til nationalstaten. I hvilken sammenhæng spiller EU en rolle i den danske debat, og vil denne betydning blive øget i den kommende periode?
- Hvordan omtaler de danske tweets Kina, Iran, Italien og USA i forbindelse med corona-krisen? Er der tegn på kulturel eller politisk stereotypisering eller udstødelse, og varierer den i så fald med land?
- Metodologiske overvejelser
- Hvordan kan etnografiske eller andre supplerende observationer bidrage til at fortolke, udfordre eller yderligere underbygge de her præsenterede hashtag-netværksanalyser?
- Er Twitter-offentligheden repræsentativ for hvilke delemner, der diskuteres om corona i andre offentlige sammenhænge, eller i det hele taget for den offentlige dagsorden? Er billedet for SOCIAL-klyngen fx retvisende, set i lyset af det billede man ville opnå fra et repræsentativt survey eller en Facebook-undersøgelse?
- Hvor stor en del af Twitter-samtalen er reelt udtryk for debat eller diskussion, forstået som udveksling af modsatrettede meninger eller overbevisninger - til forskel fra at udgøre enkeltstående holdnings-tilkendelse, informationskampagner eller måske (skjult) PR?
5. Data & metode
Data er høstet vha. Twitters premium search API (‘application programming interface’), som gør det muligt at søge 30 dage tilbage i tid. Søgningen er udført i Python. Vores første søgning bestod af 147 søgeord forbundet til corona og pandemiens implikationer, hvilket samlet gav et datasæt på 397.447 tweets. Fra dette rådatasæt har vi gjort følgende:
- Selvom vi anvendte et dansk sprogfilter ifm. Twitters search API, indeholdte det høstede datasæt en række udenlandske Tweets. For at fjerne disse, anvendte vi Python-pakken ‘langdetect’ til at vurdere hver brugers sprog på tværs af vedkommendes tweets, og medtog kun de brugere, der blev vurderet til at tweete på dansk.
- Herefter fjernede vi retweets, og medtog vi kun tweets, som indeholdte ordene ‘corona’, ‘covid’, ‘virus’, ‘epidemi’ og/eller ‘pandemi’. Slutteligt ekskluderede vi tweets fra d. 23/2 og 25/3, da disse dage ikke blev fuldstændigt høstet af vores søgning.
- Samlet giver dette et datsæt bestående af 67.010 tweets (18% af rådatasættet), fordelt på 15.342 unikke brugere.
- Herfra har vi opgjort sam-forekomster af hashtags. I vores grafer har vi kun inkluderet de hashtags, der er i) brugt mere end 10 gange, samt ii) brugt af mindst to brugere. For hver fase har vi talt antallet af brugere, der har sammenkædet hvert par af hashtag, således at hver bruger kun kan tilføje en edge mellem et givent hashtag par. Dette er blandet gjort for at fx bots ikke har kunne øge optællingen.
Hashtag-klyngerne og de enkelte hashtags placering i netværket er udregnet baseret på baggrund af det samlede brutto-datasæt. Når vi har zoomet ind på bestemte faser eller klynger, har vi fastholdt den samlede klyngeopdeling og hashtaggenes placering.
Det er, som indikeret indledningsvist, vigtigt at holde sig for øje, at Twitter-data repræsenterer en særlig type del-offentlighed i et samfund som det danske (og transnationalt). Officielle aktører, myndigheder, interesseorganisationer og lignende fylder generelt meget, mens højst op mod 10% af den danske befolkning regelmæssigt benytter mediet. Alligevel, eller af samme grund, spiller mediet en vis rolle ift. dagsordens-påvirkning.
At høste et validt Twitter-datasæt, som det er forsøgt gjort her, er forbundet med udfordringer, som er velbeskrevne i digital metodelitteratur og litteratur om social data-videnskab. Mest af alt er der spørgsmål om de søgeord (querien), der definerer det udsnit (sample), som faktisk høstes. Selv om corona-emnet er relativt velafgrænset, så er det sandsynligt, at vores indhøstning rummer visse mindre fejlkilder af denne art, som det er vanskeligt at efterprøve entydigt. Vi vil også fortsætte disse, mere metodologiske undersøgelser, i den kommende tid.
Den primære metode, som bringes i anvendelse her, kan betegnes som ‘co-hashtag’ analyse, altså analyse af sam-forekomsten af hashtags i et givet tekstkorpus. Metoden er ganske udbredt, som én blandt flere metoder til at kortlægge overordnede dynamikker i et Twitter-diskussions-landskab[9]. Den har, som de fleste beslægtede metoder til analyse af “store” sociale data, en række velkendte udfordringer og usikkerhedsmomenter. Særligt er metoden sårbar over for mangler i dataudtrækket (sample), fordi dette generelt gælder for de typer netværks-beregninger, der her benyttes (f.eks. i relation til de såkaldte modularitets-mål). Vi har forsøgt at tage højde for disse usikkerheder, bl.a. gennem her i analysen at fokusere på brede og overordnede træk i klynge-fordelingerne.
Ydermere kan stilles spørgsmålstegn ved hashtaggenes sociale betydning og anvendelse. Ikke alle emner bliver hashtagget lige hyppigt, og ikke nødvendigvis af repræsentativt fordelte aktører. Således er de emne-dynamikker der observeres også konsekvenser af emnernes velegnethed til at blive kogt ned til et kort budskab, samt forskellige aktøres success med at udbrede disse.
Når vi fremadrettet ønsker at dykke dybere ned i nogle af de mønstre, der fremtræder her, vil det kræve at co-hashtag tilgangen suppleres med andre egnede teknikker og metoder. Det kan både dreje sig om mere-eller-mindre automatiserede tekstanalytiske teknikker (superviseret maskin-læring) samt kvalitative teknikker til kodning og analyse af meningsindhold. Som nævnt er der desuden stort potentiale for at kombinere Twitter-data og -analyse med supplerende observationsmetoder, herunder etnografiske og survey-baserede.
Vi ønsker i videst mulig udstrækning at kunne dele det datasæt, som vi her analyserer på, med andre forskere og forskergrupper, samt med journalister og lignende, så længe det sker på GDPR-overholdende og data-etisk forsvarlig vis. Vi gør her opmærksom på, at vi anser det for et selvstændigt problem af relevans for undersøgelser som denne, at Twitter- (og megen øvrig social medie-) data er proprietære og derfor ikke frit tilgængelige for forskersamfundet eller offentligheden i øvrigt. Vi har i praksis måttet acceptere dette forhold.