Разжигание ненависти. Как работают алгоритмы Facebook по поиску «хейтспича»

Разжигание ненависти. Как работают алгоритмы Facebook по поиску «хейтспича»

На этой неделе Facebook усовершенствовал алгоритмы для поиска языка ненависти в Facebook. Во вторник, 12 мая, администрация соцсети сообщила о значительном росте числа постов и комментариев, заблокированных за хейтспич. Это связано с работой новых алгоритмов, разработанных специалистами Facebook по искусственному интеллекту.

Точность работы этих систем не озвучивается: в Facebook говорят, что нельзя назвать общий объем агрессивных выражений, которыми ежедневно бросаются 1,7 миллиарда пользователей.

Компания уже два года, с мая 2018-го, публикует ежеквартальные отчеты о том, как работают стандарты общения в соцсети. В последнем отчете говорится, что за первый квартал 2020 года в Facebook удалили 9,6 миллионов постов и комментариев. В четвертом квартале 2019-го удаленных было меньше — 5,7 миллионов.

Из почти 10 миллионов публикаций с языком ненависти 88,8% обнаружили алгоритмы еще до того, как на них пожаловались пользователи. Это на 86% больше, чем в последнем квартале 2019 года — тогда ИИ нашел 4,6 миллиона оскорбительных постов.

«Наши языковые модели стали точнее, они могут заметить ранее менее очевидные вещи», — говорит Майк Шрёпфер, директор Facebook по технологиям. В беседе с журналистами о достижениях машинного обучения Facebook он упомянул, что компания тестирует системы перед их запуском, для того, чтобы они ошибочно не удаляли невинный контент.

Шрёпфер приводит доказательства, что за последние кварталы пользователи стали чаще обжаловать решения о блокировке контента (1,3 миллиона раз), но при этом восстановлено было меньше постов, чем раньше. В Facebook, к тому же, из-за пандемии сократили число работников отделов модерации.

Отчеты Facebook, правда, не указывают, сколько ненавистных комментариев упускают алгоритмы. В ежеквартальных отчетах говорится только о количестве заблокированных по правилам Facebook постов, но не о «хейтспиче». 12 мая в компании заявили, что количество агрессивных постов и комментариев снижается с прошлого лета.

Не все модерируется

Неозвученные цифры скрывают за собой истинный размер проблемы агрессивных высказываний в соцсетях, считает Кейтлин Карслон, профессор из Сиэтлского университета. По ее словам, 9,6 миллиона удаленных постов — это подозрительно мало в масштабах аудитории Facebook.

В январе этого года Карлсон представила результаты своего исследования хейтспича в Facebook. Она и ее коллега собрали более 3000 постов в Facebook, которые нарушали правила соцсети в области языка ненависти, и пожаловались на них. В итоге модераторы удалили лишь половину постов; поддержка строже отнеслась к постам с расистскими и ксенофобскими высказываниями, чем к постам с женоненавистничеством.

Отчеты о результатах модерации и новая группа независимых экспертов, о которой мы писали — части кампании Facebook по обеспечению прозрачности. Компания решилась на эти шаги после скандалов с участием российских спецслужб, в том числе, дезинформации на выборах в США.

Поиск враждебных высказываний в Facebook с помощью алгоритмов — технически и нравственно сложная проблема, она сводится к вопросу культурной чувствительности, которой тяжело научить ИИ. Директор по технологиям Facebook Шрёпфер рассказал, что обновление алгоритмов обнаружения языка ненависти в соцсети основаны на машинном обучении языку. То есть, алгоритмы учатся на существующих примерах и пытаются распознать их в неоднозначных фразах.

Для лучшей работы в Facebook создадут сборник из более чем 10 000 шаблонов языка ненависти, включающие как текст, так и изображения. Компания даже объявила конкурс на создание ПО с открытым кодом, которое сможет лучше всех распознать шаблоны хейтспича, смешанные с нейтральными выражениями. Команда-победитель получил 100 000 долларов приза.

По материалам Wired

Content Protection by DMCA.com