Определён стандарт открытого исходного кода ИИ

05.09.2024

Дата публикации

На фоне многочисленных дискуссий о том, что считать открытым исходным кодом для искусственного интеллекта, появилась долгожданная ясность.

Open Source Initiative (OSI), — организация, занимающаяся определением стандартов открытого исходного кода, — представила своё первое определение для ИИ-моделей, что может стать значимым шагом в регулировании и развитии этой сферы.

Разработка этого стандарта была результатом совместной работы 70 экспертов, включая исследователей, юристов, политиков и представителей крупных компаний, таких как Meta, Google и Amazon.

Новый стандарт утверждает, что система ИИ с открытым исходным кодом должна быть доступна для любого использования без необходимости получения разрешения, а исследователи должны иметь возможность изучать её компоненты и работу.

Определение также подчеркивает важность возможности модификации системы для различных целей, а также её свободного распространения. Это включает требования к прозрачности, касающейся данных, использованных для обучения модели, исходного кода и «весов» (числовые значения, которые обновляются в процессе обучения модели и играют ключевую роль в том, как модель обрабатывает входные данные для создания вывода).

До появления этого стандарта существовали споры о том, что именно считать открытым ИИ. Например, несмотря на открытый доступ к моделям от компаний Meta и Google, их лицензии и недоступность данных для обучения вызывали вопросы о том, можно ли их считать по-настоящему открытыми.

Некоторые компании используют термин «открытый исходный код» в маркетинговых целях, что может вводить пользователей в заблуждение.

Авиджит Гош, исследователь из Hugging Face, отметил, что это может создать ложное впечатление о доверии к таким моделям, даже если исследователи не могут проверить их открытость.

Айя Бдейр, старший советник Mozilla, также участвовала в процессе разработки стандарта. Она отметила, что вопросы, связанные с прозрачностью данных для обучения, вызвали больше всего споров.

Прозрачность в отношении источников данных является важной, так как её отсутствие уже привело к множеству судебных исков против компаний, таких как OpenAI.

В итоге, новый стандарт требует, чтобы модели с открытым исходным кодом предоставляли информацию о данных для обучения в такой степени, чтобы квалифицированный человек мог воссоздать аналогичную систему с использованием похожих данных.

Этот компромисс между полным раскрытием данных и соблюдением авторских прав помогает установить новый уровень открытости.

OSI также планирует создать механизм контроля, который будет отмечать модели, не соответствующие этому определению, но описывающиеся как открытые. В будущем будет опубликован список моделей, соответствующих новому стандарту.