7: Додавання сили комп’ютерного і людського інтелектів

Доктор філософії Патрік Мейер є всесвітньо визнаним лідером думки у застосуванні нових технологій для гуманітарних викликів. Зараз він працює Директором з соціальних інновацій в Інституті комп’ютерних досліджень Фонду Катару (QCRI), де розробляє прототипи Гуманітарних технологій наступного покоління. До роботи в QCRI Патрік був співзасновником та спів-директором Програми HHI з Відслідковування і завчасного попередження криз, а також Директором з відслідковування криз в Ushahidi. Його впливовий блог iRevolution отримав більш ніж 1 мільйон переглядів. Twitter-акаунт Патріка - @patrickmeier.

Журналісти-розслідники і практики з захисту прав людини упродовж десятиріч звикли використовувати суміш стратегій для того, щоб перевіряти інформацію у випадках надзвичайних та екстрених ситуацій. Ця експертиза набуває ще більшого попиту із зростанням кількості контенту, надісланого користувачами.

Але багато хто все частіше звертається до “просунутих комп’ютерних обчислень”, щоб прискорити і можливо автоматизувати процес верифікації. Як і будь-яка інша методика, використання просунутих комп’ютерних обчислень для верифікації контенту соціальних медіа у реальному часі має свої переваги та недоліки.

Розвинуті комп’ютерні обчислення складаються з двох елементів: комп’ютерне обчислення і обробка даних людиною. Для першого використовуються процедури природної обробки мови (NLP – natural language processing) та машинних знань (ML), тоді як останній покладається на методи краудсорсингу і мікрозавдань.

Використання розвинутих комп’ютерних обчислень для верифікації контенту, отриманого від користувачів, зараз є обмеженим, тому що область дослідження все ще є новою; платформи верифікації і описані нижче методи все ще розвиваються і перевіряються. Таким чином, точно ще невідомо, скільки цінності вони додадуть до процесу верифікації, але прогрес в технології, ймовірно, продовжить вказувати нові шляхи, які допоможуть автоматизувати елементи процесу верифікації.

Сьогодні настав важливий момент в застосуванні розвинутих комп’ютерних обчислень для перевірки контенту, надісланого користувачами: одразу три нових проекти розвиваються в цій області. Ця глава містить їх короткий огляд, а також ґрунтовну інформацію про те, як в процесі верифікації використовуються (і поєднуються) комп’ютерні обчислення і обробка даних людиною. Оскільки ми починаємо занурення, дозвольте зауважити: я очолював описані нижче зусилля з цифрового реагування в гуманітарній сфері – для Гаїті, Філіппін і Пакистану. Крім того, я також зайнятий в проекті Verily та в створенні Плагина Вірогідності Twitter, що також згадані нижче.

Обробка даних людьми

У сфері обробки даних, які виконує людина, і які ще називають колективною обробкою даних (обробкою натовпом), машина передає певні завдання на аутсорсинг людині або колективу людей (натовпу). Потім машина збирає і аналізує отримані результати.

Одним з ранніх використань обробки даних людиною в надзвичайних ситуаціях можна вважати те, що було зроблено після землетрусу на Гаїті в 2010 році. Ushahidi Inc. створила тоді інтернет Платформу для обробки даних людьми, щоб у режимі мікрозавдань виконувати швидкі переклади термінових текстових повідомлень з гаїтянської креольської мови на англійську. Ці повідомлення надходили від постраждалих від стихії спільнот Порт-о-Пренсу та його околиць. Перекладені тексти були згодом опрацьовані та марковані на Мапі кризи Ushahidi в Гаїті. Хоча переклад текстів був першим та єдиним випадком використання компанією Ushahidi платформи обробки даних людиною для мікро-обробки кризової інформації, успіх цієї комп’ютерної технології підкреслив цінність, яку вона надала у реагуванні на лихо.

Потім метод обробки даних людиною використовувався в 2012 році у відповідь на Тайфун Пабло на Філіппінах. На вимогу Організації Об’єднаних Націй Цифрова Гуманітарна Мережа (DHN) зібрала та проаналізувала усі твіти, розміщені впродовж перших 48 годин удару тайфуну по узбережжю. А точніше, DHN попросила добровольців ідентифікувати усі зображення і відео, розміщені у Twitter, на яких була зображена шкода, заподіяна сильним вітром і дощем. Щоб виконати цю операцію, DHN використала безкоштовну платформу мікрозавдань на відкритому коді CrowdCrafting, яка дозволила присвоїти теги персональним твітам і зображенням. Оброблені дані використовувалися для створення кризової мапи руйнувань, заподіяних стихією.

Успіх обробки даних людиною у відповідь на Тайфун Пабло підштовхнув запуск нової, спеціалізованої, платформи мікрозавдань під назвою MicroMappers. Розроблена на основі використання програмного забезпечення CrowdCrafting, MicroMappers вперше була використана у вересні 2013 року, щоб тегувати твіти, і зображення, опубліковані онлайн після землетрусу Белуджистана. Ці дії були виконані DHN у відповідь на запит ООН в Пакистані.

Підсумовуючи, обробка даних людиною тільки починає отримувати підтримку в гуманітарному середовищі. Але до теперішнього часу цей метод не використовувався для перевірки контенту соціальних медіа.

Платформа Verily

Платформа Verily, яку я допомагаю розвинути, використовує обробку даних людиною для швидкого збирання доказів за допомогою краудсорсінгу, які підтверджують чи спростовують інформацію, розміщену в соціальних медіа. Ми очікуємо, що Verily буде використовуватися, щоб допомогти відсортувати суперечливі повідомлення про шкоду, заподіяну лихом, які часто з’являються під час і після великих катастроф. Звичайно, платформу також можна було б використовувати для верифікації зображень і відео-сюжетів.

Створення Verily було спровоковано Чемпіонатом Червоної повітряної кулі, проведення якого було розпочато у 2009 році Агенцією з поглиблених дослідницьких проектів у оборонній галузі (DARPA). Чемпіонат вимагав від учасників коректної ідентифікації місця розташування 10 червоних погодних повітряних куль, розташованих по всій території Сполучених Штатів.

Перемогла команда Массачусетського технологічного інституту, яка знайшла усі 10 повітряних куль менше ніж за дев’ять годин, навіть не відходячи від своїх комп’ютерів. Навпаки, вони використали соціальні медіа та Твітер, щоб мобілізувати громадськість. На початку змагання команда оголосила, що якщо вони виграють, то нагороду у сумі 40 000$ не залишать собі, а розділять між тими,хто допомагатиме шукати повітряні кулі. Більше того, вони заохочували людей запрошувати членів їх соціальних мереж долучитись до полювання, і, написали: “Ми дамо 2000$ за повітряну кулю першій людині, яка надішле нам правильні координати, але це не усе - ми також дамо 1000$ людині, яка її запросила. А ще ми дамо 500$ тому, хто запросив цього запрошувача, і 250$ далі по ланцюжку”.

Платформа Verily використовує той самий механізм стимулів у формі балів. Замість того, щоб шукати повітряні кулі по всій країні, платформа допомагає перевірять повідомлення з соціальних медіа, відправлені під час лих, щоб покрити набагато менший географічний район - як правило, місто.

Розглядайте Verily як дошку Pinterest, до якої прикріплені елементи, що містять запитання, які передбачають відповіді лише «так» чи «ні». Наприклад: «Чи Бруклинский міст закрито через Ураган Сенді?» Користувачі Verily можуть поширити цей запит на перевірку у Twitter або Facebook, або відправити електронною поштою людям, яких вони знають і які живуть поблизу цього місця.

Ті, хто має докази, що відповідають поставленому питанню, публікують їх на дошці Verily, в одній з двох секцій: одна - для доказів, що відповідають на питання перевірки ствердно; інша - для доказів, що підтримують негативну відповідь.

Типи доказів, що можуть бути опубліковані, включають текст, зображення і відео. Кожний фрагмент доказів, який публікується на дошці Verily, повинен бути доповнений поясненням від людини, яка його розміщує, чому цей доказ є релевантним і достовірним.

Паралельною метою проекту Verily є також краудсорсінг критичного мислення. Очікується, що платформа Verily розпочне працювати на початку 2014 року за адресою: www.Veri.ly.

Комп’ютерні обчислення

Про землетрус магнітудою 8.8 балів, що вдарив по Чилі у 2010 році, широко повідомляли у Twitter. Як майже завжди, разом з потоком твітів стосовно події, було багато чуток і неправдивої інформації.

Однією з таких чуток було попередження про цунамі у Вальпараісо. Інша стосувалась пограбувань в деяких районах Сантьяго. І хоча такі типи чуток дійсно поширюються, недавнє емпіричне дослідження продемонструвало, що Twitter має механізм самокорегування. Дослідження твітів, опублікованих після чилійського землетрусу, показало, що користувачі Twitter, як правило, відштовхують сумнівні твіти, ставлячи під сумнів їх достовірність.

Аналізуючи такі відштовхування, дослідники показали, що достовірність твітів можна спрогнозувати. Аналіз пов’язаних даних також визначив, що твіти з певними характеристиками часто є фальшивими. Наприклад, довжина твіту, настрій слів, які використовуються, кількість хештегів і використання смайликів є індикаторами, які дозволяють оцінити достовірність повідомлень. Те ж саме дійсне і для твітів, що містять посилання на зображення і відео - мова, яка міститься в твіті, що пов’язаний з мультимедійним контентом, може бути використана для визначення, чи є цей контент правдивим, чи ні.

Розглянуті разом, ці дані надають машинам параметри і відомості, необхідні, щоб розпочати прогнозування точності твітів і іншого контенту соціальних медіа. Це відкриває двері до зростання ролі автоматизації в процесі верифікації під час катастроф та інших екстрених повідомлень і надзвичайних ситуацій.

З точки зору практичного застосування, ці результати використовуються для того, щоб створити “Плагін Вірогідності” для Twitter. До нього залучена моя команда в Інституті Компьютерних Досліджень Катару, який співпрацює з Інститутом Інформаційних технологій Indraprastha в Делі, Індія.

Цей плагін оцінюватиме кожний окремий твіт за шкалою від 0 до 100, базуючись на вірогідності, чи можна вважати контент цього твіту достовірним. Очікуємо, що плагін розпочне працювати на початку 2014 року. Головна перевага цього рішення для комп’ютерних обчислень полягає в його повній автоматизації, і, таким чином, більших можливостях масштабування, ніж має платформа обробки даних людиною Verily.

Гібридні обчислення

Платформа штучного інтелекту для реагування на надзвичайні ситуації (AIDR) є гібридною моделлю обробки даних людьми та комп’ютерних обчислень.

Платформа комбінує обробку даних людьми (мікрозавдання) з комп’ютерними обчисленнями (машинні знання). Мікрозавдання, отримавши велику задачу, розщеплює її на серію менших завдань. Машинні знання вбирають в себе навчання комп’ютера виконувати специфічні задачі.

AIDR дозволяє користувачам навчити машину алгоритму пошуку інформації за обраною тематикою у Twitter. Навчальний процес відбувається з використанням мікрозавдань. Наприклад, якщо б Червоний Хрест зацікавився моніторингом повідомлень у Twitter про ушкодження інфраструктури після стихійного лиха, то його працівники використали б інтерфейс мікрозавдань AIDR, щоб позначити (вибрати) окремі твіти, які пов’язяні з ушкодженнями. Тоді б алгоритм навчився з цього процесу, і автоматично знайшов би додаткові твіти, що також пов’язяні з ушкодженнями.

Такий підхід гібридних обчислень може використовуватися для автоматичної ідентифікації чуток, базуючись на початковому наборі твітів, які мають відношення до цих чуток. Швидка ідентифікація чуток і їх джерела є важливим компонентом перевірки контенту, надісланого користувачами. Це дозволяє журналістам і професіоналам з гуманітарних питань відстежувати інформацію аж до її джерела, і дізнаватися, з ким зв’язатися, щоб зробити наступний суттєвий крок у перевірці інформації.

Безумовно, мета повинна полягати не лише в тому, щоб ідентифікувати неправдиву або таку, що вводить в оману, інформацію в соціальних медіа, але й заперечити її та виправити у найкоротший можливий час. Перша версія AIDR розпочала працювати в листопаді 2013 року.

Прискорення процесу перевірки

Як було зазначено раніше, виникнення перших платформ верифікації, двигунами для яких є поглиблені обчислювальні методи, означає необхідність зрозуміти їх кінцеву цінність для верифікації контенту, надісланого користувачами. Навіть якщо ці платформи принесуть плоди, їх ранні версії будуть мати великі обмеження. Але ця рання робота важлива для того, щоб рухатись у напрямку до потужних програм поглиблених обчислень для процесу верифікації.

Одне з поточних обмежень полягає в тому, що AIDR і майбутній Плагін Вірогідності, описані вище, повністю залежать лише від одного джерела - Twitter. А для тріангуляції повідомлень по джерелам, медіа і мові необхідні крос-медійні платформи верифікації. З іншого боку, Veri.ly, яка майже задовольняє цю потребу, повністю покладається на внесок людей, який не дуже легко масштабується.

У будь-якому випадку ці рішення ще далекі від того, щоб стати «магічною кулею» верифікації, яку багато хто шукає. Подібно до інших інформаційних платформ, ними також можуть гратися, і їх можуть саботувати протягом довгого часу і незважаючи на різні зусилля. Проте ці інструменти забезпечують можливість прискорення процесу верифікації і, ймовірно, будуть лише розвиватись, мірою того, як в ці області буде інвестуватись більше зусиль та ресурсів.

Цю роботу ліцензовано у відповідності до Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.