В прошлом году OpenAI заявила, что «невозможно» создавать такие инструменты, как ChatGPT, без доступа к материалам, защищенным авторским правом. Но один французский стартап доказал, что это возможно.
Это происходит в решающий момент, когда разгораются судебные баталии по поводу материалов, защищенных авторским правом. Самый крупный случай — это New York Times, подающая в суд на OpenAI и ее инвестора Microsoft за то, что они якобы использовали новостные статьи для обучения ChatGPT.
Теперь Common Corpus, возможно, нашел решение юридических проблем, представив крупнейший общедоступный набор данных для обучения больших языковых моделей (LLM).
В эту международную инициативу, координируемую французским стартапом Pleias, входят исследователи и другие открытые научные компании в области искусственного интеллекта, такие как HuggingFace, Occiglot, Eleuther и Nomic AI.
Он также поддерживается Langu:IA, проектом, реализуемым отделом французского языка министерства культуры Франции, целью которого, среди прочего, является «облегчение доступа к данным на французском и на языках Франции для обучения и специализации LLM».
Корпус может похвастаться крупнейшим на сегодняшний день англоязычным набором данных, содержащим 180 миллиардов слов, включая 21 миллион оцифрованных газет и миллионы книг. Но он также многоязычен и имеет самый большой набор открытых данных на французском (110 миллиардов слов), немецком (30 миллиардов слов), испанском, голландском и итальянском языках.
«Я думаю, что [Corpus] очень важен, чтобы мы могли создать стимул для конкуренции [с такими компаниями, как OpenAI]», — сказал соучредитель Pleias Пьер-Карл Лангле.
Он сказал, что это полезно для сотрудничества, потому что «после того, как вы выпустите корпус, у вас появится общий интерес к его улучшению и избежанию дублирования».
Некоторые европейские издатели, такие как французская газета Le Monde, заключили соглашения с OpenAI о лицензировании своего контента для обучения.
Хотя конкретные условия этих соглашений остаются нераскрытыми, Лангле сказал, что это «действительно большая проблема, поскольку это означает, что им, возможно, придется подчиняться американским компаниям, и это особенно тревожно, поскольку это одно из самых важных средств массовой информации во Франции».
«Поэтому создание такой системы командования является большой проблемой», — добавил он.
Лангле считает, что Корпус поэтому важен, поскольку он может улучшить игровое поле, снизив ценность данных, защищенных авторским правом.
Различные типы открытого контента
В отношении Common Corpus существуют ограничения, поскольку он использует материалы, не защищенные авторскими правами.
В Европе, чтобы на текст не распространялись авторские права, должно пройти 70 лет после смерти автора. Это означает, что набор данных не обучен на новом материале.
«Очевидно, что это связано с рядом проблем, связанных с обновлением языка… Я думаю, что этические проблемы могут быть иными, но на данный момент это только одна часть открытого контента, который у нас есть», — сказал Лангле.
Две другие части, которые, по его словам, сделают данные более актуальными, — это открытые административные данные, которых, по его словам, «на самом деле много в Европе, потому что у нас есть большое обязательство обойти эти [данные]», и движение за открытую науку, которое делает научные данные более актуальными. исследования доступны каждому.
Лангле сказал, что еще одним способом улучшения Common Corpus является использование синтетических данных, которые представляют собой искусственно сгенерированные данные, которые воспроизводят закономерности, отношения и характеристики, обнаруженные в реальных данных.
В 2022 году исследователи Массачусетского технологического института обнаружили, что синтетически обученные модели работают даже лучше, чем модели, обученные на реальных данных, для видео с меньшим количеством фоновых объектов.
Но Лангле считает, что цель Common Corpus состоит в том, чтобы иметь «общую идею – сделать его лучше», сказал он.
«Поэтому большая часть нашей инициативы направлена на то, чтобы он стал богаче, разнообразнее, его можно было изменить», — сказал он, добавив, что в будущем он надеется включить в проект больше европейских языков.