Розпалювання ненависті. Як працюють алгоритми Facebook з пошуку «хейтспіча»

Розпалювання ненависті. Як працюють алгоритми Facebook з пошуку «хейтспіча»

Цього тижня Facebook вдосконалив алгоритми для пошуку мови ненависті в Facebook. У вівторок, 12 травня, адміністрація соцмережі повідомила про значне зростання числа постів та коментарів, заблокованих через хейтспіч. Це пов’язано з роботою нових алгоритмів, розроблених фахівцями Facebook зі штучного інтелекту.

Точність роботи цих систем не озвучується: в Facebook говорять, що не можна назвати загальний обсяг агресивних виразів, якими щодня кидаються 1,7 мільярда користувачів.

Компанія вже два роки, з травня 2018-го, публікує щоквартальні звіти про те, як працюють стандарти спілкування в соцмережі. В останньому звіті йдеться про те, що за перший квартал 2020 року в Facebook видалили 9,6 мільйона постів і коментарів. У четвертому кварталі 2019-го віддалених було менше — 5,7 мільйона.

З майже 10 мільйонів публікацій з мовою ненависті 88,8% виявили алгоритми ще до того, як на них поскаржилися користувачі. Це на 86% більше, ніж в останньому кварталі 2019 року — тоді ШІ знайшов 4,6 мільйона образливих постів.

«Наші мовні моделі стали точнішими, вони можуть помітити раніше менш очевидні речі», — говорить Майк Шрьопфер, директор Facebook по технологіям. У бесіді з журналістами про досягнення машинного навчання Facebook він згадав, що компанія тестує системи перед їхнім запуском, для того, щоб вони помилково не видаляли безневинний контент.

Шрьопфер наводить докази, що за останні квартали користувачі стали частіше оскаржувати рішення про блокування контенту (1,3 мільйона разів), але при цьому відновлено було менше постів, ніж раніше. У Facebook, до того ж, через пандемію скоротили число працівників відділів модерації.

Звіти Facebook, правда, не вказують, скільки ненависних коментарів упускають алгоритми. У щоквартальних звітах йдеться тільки про кількість заблокованих за правилами Facebook постів, але не про «хейтспіч». 12 травня в компанії заявили, що кількість агресивних постів і коментарів знижується з минулого літа.

Не все модерується

Неозвучені цифри приховують за собою дійсний розмір проблеми агресивних висловлювань в соцмережах, вважає Кейтлін Карслон, професор з Сіетлського університету. За її словами, 9,6 мільйона віддалених постів — це підозріло мало в масштабах аудиторії Facebook.

У січні цього року Карлсон представила результати свого дослідження хейтспіча в Facebook. Вона та її колега зібрали понад 3000 постів в Facebook, які порушували правила соцмережі в області мови ненависті, і поскаржилися на них. В результаті модератори видалили лише половину постів; підтримка суворіше поставилася до постів з расистськими і ксенофобськими висловлюваннями, ніж до постів з жінконенависництвом.

Звіти про результати модерації та нова група незалежних експертів, про яку ми писали — є частинами кампанії Facebook щодо забезпечення прозорості. Компанія зважилася на ці кроки після скандалів за участю російських спецслужб, в тому числі, дезінформації на виборах в США.

Пошук ворожих висловлювань в Facebook за допомогою алгоритмів — технічно і морально складна проблема, вона зводиться до питання культурної чутливості, якій важко навчити ШІ. Директор з технологій Facebook Шрьопфер розповів, що оновлення алгоритмів виявлення мови ненависті в соцмережі засновані на машинному навчанні мови. Тобто, алгоритми вчаться на існуючих прикладах і намагаються розпізнати їх в неоднозначних фразах.

Для кращої роботи в Facebook створять збірник з понад 10 000 шаблонів мови ненависті, що включають як текст, так і зображення. Компанія навіть оголосила конкурс на створення ПЗ з відкритим кодом, яке зможе краще за всіх розпізнати шаблони хейтспіча, змішані з нейтральними виразами. Команда-переможець отримав 100 000 доларів призу.

За матеріалами Wired

Content Protection by DMCA.com