Poglavlje 7: Dodavanje kompjuterske publike ljudskoj

Patrick Meier (dr.sc.) međunarodno je priznat autoritet na polju primjene novih tehnologija u humanitarnim krizama. Trenutno je na poziciji direktora društvenih inovacija u Institutu za kompjuterska istraživanja Katarske fondacije (QCRI), gdje radi na prototipima sljedeće generacije humanitarnih tehnologija. Prije QCRI-ja, Patrick je bio suosnivač i kodirektor HHI-jevog programa kriznog mapiranja i ranog upozoravanja i direktor kriznog mapiranja u Ushahidiju. Njegov utjecajni blog iRevolution ima preko milion posjeta. Tvita pod imenom @patrickmeier.

Istraživački novinari i aktivisti za ljudska prava decenijama koriste kombinaciju strategija za verifikaciju informacija u kriznim situacijama i slučajevima udarnih vijesti. Sa porastom količine sadržaja koje proizvode korisnici, ova je ekspertiza još potrebnija.

Ipak, mnogi se u procesu ubrzavanja i mogućeg automatiziranja procesa verifikacije okreću “naprednim kompjuterskim tehnologijama”. Kao i sa bilo kojom drugom metodom, korištenje naprednih kompjuterskih funkcija za verifikaciju sadržaja sa društvenih mreža u približno stvarnom vremenu ima svoje prednosti i nedostatke.

Napredno korištenje kompjutera ima dvije komponente: mašinsku i ljudsku. Prva koristi tehnike tzv. NLP-a (engl. natural language processing – procesiranje prirodnog jezika) i ML-a (engl. machine learning – kompjutersko učenje), dok se druga oslanja na crowdsourcing i metode podjele zadataka na male jedinice.

Primjena naprednih kompjuterskih tehnologija u verifikaciji korisničkog sadržaja trenutno je ograničena budući da je ovo polje još uvijek u začetku ‒ platforme za verifikaciju i tehnike opisane ispod još uvijek su u fazi razvoja i testiranja. Zbog toga, još uvijek ne znamo koliko će one doprinijeti procesu verifikacije, ali napredak tehnologije svaki dan donosi nove načine moguće automatizacije elemenata ovog procesa.

Ovo je važan trenutak u primjeni naprednih kompjuterskih tehnologija u verifikaciji korisničkog sadržaja: trenutno su u fazi razvoja tri projekta iz ove oblasti. Ovo poglavlje daje pregled ovih projekata, zajedno sa uvodom o tome kako se koriste (i kombiniraju) ljudska i mašinska komponenta kompjuterskog procesa verifikacije. Prije nego što počnemo, dopustite mi da dodam: ja sam predvodio digitalni dio akcije pružanja humanitarne pomoći opisane ispod – na Haitiju, Filipinima i u Pakistanu. Pored toga, učestvujem i u projektu Verily i na kreiranju Twitter Credibility Plugina, koji se spominju u tekstu.

Humani kompjuterski sistemi

U tzv. humanim kompjuterskim sistemima, poznatim i pod nazivom “crowd computing”, mašina dio svojih zadataka delegira osobi ili grupi ljudi, nakon čega prikuplja i analizira urađene zadatke.

Primjer ranog korištenja ovakvog sistema je zemljotres na Haitiju 2012. godine. Kompanija Ushahidi je pokrenula kompjutersku platformu baziranu na korištenju ljudskih resursa da bi zadatak prevođenja hitnih SMS-poruka sa kreolskog na engleski jezik podijelila u manje jedinice. Poruke su dolazile od zajednica pogođenih katastrofom u i oko Port-au-Princea. Prevedene poruke nakon toga su sortirane i mapirane na Ushahidijevoj kriznoj mapi za Haiti. Iako je prevođenje ovih poruka bilo prvi i jedini put da je Ushahidi koristio kompjutersku platformu sa ljudskim elementom za podjelu kriznih informacija na manje zadatke, uspjeh ovog metoda naglasio je vrijednost koju on može dodati u reagiranju na krizne situacije.

Humani kompjuterski sistemi sljedeći put su korišteni 2012. godine u slučaju tajfuna Pablo na Filipinima. Na zahtjev Ujedinjenih nacija, organizacija Digital Humanitarian Network (DHN) prikupila je i analizirala sve tvitove koji su poslani tokom prvih 48 sati nakon što je tajfun udario na kopno. Konkretno, od volontera DHN-a tražilo se da identificiraju sve fotografije i videosnimke sa Twittera na kojima se vidjela šteta nanesena jakim vjetrovima i kišom. Da bi proveo ovu operaciju i tagovao pojedinačne tvitove i fotografije, DHN je koristio besplatnu otvorenu microtasking platformu CrowdCrafting. Obrađeni podaci zatim su korišteni u kreiranju krizne mape materijalne štete.

Uspješan odgovor humanih kompjuterskih sistema na tajfun Pablo potakao je pokretanje nove, efikasnije platforme pod nazivom MicroMappers. Bazirana na CrowdCrafting softveru, platforma MicroMappers prvi put je korištena u septembru 2013. godine za tagovanje tvitova i fotografija postavljenih online tokom zemljotresa u Baluchistanu. Ovu je operaciju koordinirao DHN na zahtjev UN-a u Pakistanu.

Dakle, humani kompjuterski sistemi tek se počinju koristiti u humanitarnoj zajednici, ali do sada nikada nisu bili korišteni za verifikaciju sadržaja sa društvenih mreža.

Platforma Verily

Platforma Verily, u čijem razvoju učestvujem, koristi humane kompjuterske sisteme da od zajednice brzo prikupi dokaze koji potkrepljuju i pobijaju informacije postavljene na društvene medije. Očekujemo da će se Verily koristiti za razvrstavanje proturječnih izvještaja o nastaloj šteti, kakvi se često javljaju tokom i nakon velikih katastrofa. Naravno, platforma se može koristiti i za verifikaciju fotografija i videa.

Verily je nastao inspiriran takmičenjem Crveni balon, koje je 2009. pokrenula Agencija za napredna istraživanja u području odbrane (DARPA). Takmičenje je od učesnika zahtijevalo da tačno identificiraju lokaciju deset crvenih meteoroloških balona širom SAD-a.

Pobjednički tim, sa MIT-a, pronašao je svih deset balona za manje od devet sati, bez napuštanja svojih kompjutera. Obratili su se društvenim medijima, tačnije Twitteru, da mobiliziraju javnost. Na početku takmičenja, tim je objavio da će, ako pobijede, umjesto da zadrže novčanu nagradu od 40.000 dolara, podijeliti je sa onima koji im pomognu u potrazi za balonima. Potakli su ljude da u potragu pozovu svoje prijatelje: “Dajemo 2000 dolara po balonu prvoj osobi koja nam pošalje tačne koordinate, ali to nije sve – i osoba koja ih je pozvala dobit će 1000 dolara. Dodatno, dajemo 500 dolara osobi koja je pozvala ovog korisnika, 250 osobi koja je pozvala njega i tako dalje.”

Platforma Verily koristi istu vrstu poticaja u formi poena. Umjesto pronalaženja balona po cijeloj zemlji, platforma omogućava verifikaciju izvještaja postavljenih na društvene mreže tokom kriznih situacija sa ciljem “pokrivanja” daleko manje geografske površine – obično grada.

Zamislite Verily kao Pinterest ploču sa zakačenim jedinicama sadržaja koje se sastoje od da i ne pitanja. Naprimjer: “Da li je Bruklinski most zatvoren zbog uragana Sandy?”. Korisnici onda mogu dijeliti zahtjeve za verifikaciju na Twitteru ili Facebooku ili e-mailom kontaktirati ljude za koje znaju da žive u blizini.

Oni koji imaju dokaze koji im omogućavaju da odgovore na pitanja, postavljaju ih na Verfily platformu, koja ima dvije sekcije: jednu za potvrdne, drugu za odrične odgovore.

Tip dokaza koji može biti postavljen na platformu uključuje tekst, fotografije i videosnimke. Svaki postavljeni sadržaj mora pratiti objašnjenje šta je to što informaciju čini relevantnom i pouzdanom.

U tom smislu, paralelni cilj projekta Verily je da izvrši crowdsourcing kritičkog razmišljanja. Platforma Verily trebala bi biti pokrenuta početkom 2014. na adresi www.Veri.ly.

Mašinski kompjuterski sistemi

Zemljotres jačine 8,8 stepeni koji je 2010. pogodio Čile bio je velika vijest na Twitteru. Kao što je skoro uvijek slučaj, zajedno sa eksplozijom tvitova, stigli su i valovi glasina i lažnih informacija.

Jedna takva glasina tvrdila je da je u Valparaisu izdato upozorenje o nadolazećem cunamiju. Drugi je izvještavao o pustošenju prodavnica u nekim okruzima Santiaga. Iako je tačno da se ovakve glasine šire, nova empirijska istraživanja pokazuju da Twitter ima autokorektivni mehanizam. Istraživanje tvitova postavljenih nakon čileanskog zemljotresa pokazalo je da korisnici Twittera obično reagiraju na nepozdane tvitove dovodeći u pitanje njihov kredibilitet.

Analizirajući ovu reakciju, istraživači su pokazali da se pouzdanost tvitova može predvidjeti. Slične analize podataka Analizirajući ovu reakciju, istraživači su pokazali da se pouzdanost tvitova može predvidjeti. Slične analize podataka. Tako, naprimjer, dužina tvita, ton riječi od kojih je sačinjen i broj hashtagova i emotikona u njemu mogu biti indikatori eventualne pouzdanosti. Isto važi za tvitove koji sadrže fotografije ili video – jezik korišten u tvitovima koji daju linkove na multimedijalne sadržaje može biti osnova za odlučivanje o njegovom kredibilitetu.

Uzeti zajedno, ovi podaci daju mašinama parametre i informacije koje su im potrebne da predvide tačnost tvitova i drugog sadržaja na društvenim mrežama. Ovo otvara vrata većoj ulozi automatizacije u procesu verifikacije tokom katastrofa i drugih kriznih situacija i udarnih vijesti.

U praksi, ovi rezultati istraživanja se koriste u razvoju “Credibility Plugina” za Twitter. Moj tim na katarskom Institutu za kompjuterska istraživanja radi na ovome u saradnji sa Indraprastha institutom informacijskih tehnologija u Delhiju, u Indiji.

Ovaj dodatak za Twitter bi pojedinačne tvitove rangirao na skali od 0 do 100, zavisno od vjerovatnoće da je sadržaj tvita pouzdan. Njegovo puštanje u promet očekuje se početkom 2014. godine. Glavna prednost korištenja mašinskih sistema je to što su oni potpuno automatizirani i samim tim mjerljiviji od ljudski potpomognute platforme Verily.

Hibridni kompjuterski sistemi

Platforma The Artificial Intelligence for Disaster Response (AIDR) je hibrid ljudskih i mašinskih kompjuterskih modela.

Platforma kombinira humane kompjuterske sisteme (microtasking) sa mašinskim sistemima (mašinsko učenje). Microtasking je proces prilikom kojeg se jedan veliki zadatak podijeli na niz manjih, dok je mašinsko učenje proces prilikom kojeg kompjuter uči da izvršava određeni zadatak.

AIDR omogućava korisnicima da neki algoritam nauče kako da pronađe informacije od interesa na Twitteru. Proces učenja se obavlja putem podjele na manje zadatke. Naprimjer, ako Crveni krst zanima praćenje spominjanja infrastrukturne štete na Twitteru, nakon katastrofe, onda će osoblje Crvenog krsta koristiti AIDR-ovo korisničko sučelje da taguje (obilježi) pojedinačne tvitove koji spominju štetu. Algoritam će tokom ovog procesa naučiti da automatski pronalazi dodatne tvitove koji govore o šteti.

Ovaj hibridni kompjuterski pristup može se koristiti da se automatski prepoznaju glasine bazirane na određenoj početnoj grupi tvitova koji tu glasinu spominju. Brza identifikacija glasina i njihovih izvora važan je dio verifikacije korisničkog sadržaja. Ona omogućava novinarima i humanitarnim radnicima da pronađu izvor informacije i da znaju koga kontaktirati za sljedeći neophodni korak u verifikaciji informacije.

Da bismo bili sigurni, cilj ne bi trebao biti samo prepoznati lažne ili varljive informacije na društvenim medijima, nego i suprotstaviti im se i isparaviti ih u približno realnom vremenu. Prva verzija AIDR-a objavljena je u novembru 2013. godine.

Ubrzavanje procesa verifikacije

Kao što je to navedeno ranije, činjenica da su verifikacijske platforme koje pokreću napredni kompjuterski sistemi tek u početnim stadijima znači da njihova stvarna vrijednost za verifikaciju sadržaja koji dolazi od korisnika tek treba biti utvrđena. Čak i ako ove platforme donesu rezultate, njihove rane verzije imat će značajna ograničenja. Ali ovaj rani rad neophodan je za napredovanje prema značajnoj primjeni naprednih kompjuterskih sistema u procesu verifikacije.

Jedno od trenutnih ograničenja je da AIDR i najavljeni Credibility Plugin, opisani iznad, sasvim zavise od jednog izvora: Twittera. Da bi se uporedili izvori, mediji i jezik, potrebne su platforme koje rade na više medija. Veri.ly donekle ispunjava ovaj uvjet, ali se on potpuno oslanja na ljudski faktor unosa informacije, što nije lako mjerljivo.

U svakom slučaju, ova su rješenja daleko od savršenog sistema verifikacije, koji mnogi traže. Kao i druge informacijske platforme, i oni mogu biti prevareni i sabotirani uz dovoljno uloženog vremena i truda. Ipak, ovi alati predstavljaju potencijal ubrzavanja procesa verifikacije i vjerovatno će i dalje napredovati kako se u ovo područje ulaže više napora i investicija.