Проект по анализу использования языка в интернете закрылся из-за загрязнения данных нейросетями

Проект Wordfreq, который отслеживал публикации в интернете для определения популярности слов, закрылся из-за «загрязнения данных» генеративным искусственным интеллектом.

Создательница проекта, Робин Спир, объяснила, что интернет сегодня переполнен «мусором», создаваемым нейросетями. Этот «мусор» искажает частоту использования слов, так как большие языковые модели генерируют текст, который может выглядеть как настоящий язык, но не всегда соответствует его реальному использованию.

Спир привела пример того, как ChatGPT злоупотребляет словом «вникать», что приводит к увеличению его частоты в данных, хотя люди не так часто его используют. Она также отметила, что почти все инструменты для анализа текста сегодня используются для обучения нейросетей.

Социальные сети, такие как Twitter и Reddit, которые использовались проектом Wordfreq, начали взимать плату за доступ к своим API из-за их использования для обучения нейросетей, что затруднило получение данных.

Робин Спир выразила мнение, что после 2021 года нет надёжной информации о том, как люди используют язык.