05.09.2024
Дата публикации
На фоне многочисленных дискуссий о том, что считать открытым исходным кодом для искусственного интеллекта, появилась долгожданная ясность.
Open Source Initiative (OSI), — организация, занимающаяся определением стандартов открытого исходного кода, — представила своё первое определение для ИИ-моделей, что может стать значимым шагом в регулировании и развитии этой сферы.
Разработка этого стандарта была результатом совместной работы 70 экспертов, включая исследователей, юристов, политиков и представителей крупных компаний, таких как Meta, Google и Amazon.
Новый стандарт утверждает, что система ИИ с открытым исходным кодом должна быть доступна для любого использования без необходимости получения разрешения, а исследователи должны иметь возможность изучать её компоненты и работу.
Определение также подчеркивает важность возможности модификации системы для различных целей, а также её свободного распространения. Это включает требования к прозрачности, касающейся данных, использованных для обучения модели, исходного кода и «весов» (числовые значения, которые обновляются в процессе обучения модели и играют ключевую роль в том, как модель обрабатывает входные данные для создания вывода).
До появления этого стандарта существовали споры о том, что именно считать открытым ИИ. Например, несмотря на открытый доступ к моделям от компаний Meta и Google, их лицензии и недоступность данных для обучения вызывали вопросы о том, можно ли их считать по-настоящему открытыми.
Некоторые компании используют термин «открытый исходный код» в маркетинговых целях, что может вводить пользователей в заблуждение.
Авиджит Гош, исследователь из Hugging Face, отметил, что это может создать ложное впечатление о доверии к таким моделям, даже если исследователи не могут проверить их открытость.
Айя Бдейр, старший советник Mozilla, также участвовала в процессе разработки стандарта. Она отметила, что вопросы, связанные с прозрачностью данных для обучения, вызвали больше всего споров.
Прозрачность в отношении источников данных является важной, так как её отсутствие уже привело к множеству судебных исков против компаний, таких как OpenAI.
В итоге, новый стандарт требует, чтобы модели с открытым исходным кодом предоставляли информацию о данных для обучения в такой степени, чтобы квалифицированный человек мог воссоздать аналогичную систему с использованием похожих данных.
Этот компромисс между полным раскрытием данных и соблюдением авторских прав помогает установить новый уровень открытости.
OSI также планирует создать механизм контроля, который будет отмечать модели, не соответствующие этому определению, но описывающиеся как открытые. В будущем будет опубликован список моделей, соответствующих новому стандарту.
Open Source Initiative (OSI), — организация, занимающаяся определением стандартов открытого исходного кода, — представила своё первое определение для ИИ-моделей, что может стать значимым шагом в регулировании и развитии этой сферы.
Разработка этого стандарта была результатом совместной работы 70 экспертов, включая исследователей, юристов, политиков и представителей крупных компаний, таких как Meta, Google и Amazon.
Новый стандарт утверждает, что система ИИ с открытым исходным кодом должна быть доступна для любого использования без необходимости получения разрешения, а исследователи должны иметь возможность изучать её компоненты и работу.
Определение также подчеркивает важность возможности модификации системы для различных целей, а также её свободного распространения. Это включает требования к прозрачности, касающейся данных, использованных для обучения модели, исходного кода и «весов» (числовые значения, которые обновляются в процессе обучения модели и играют ключевую роль в том, как модель обрабатывает входные данные для создания вывода).
До появления этого стандарта существовали споры о том, что именно считать открытым ИИ. Например, несмотря на открытый доступ к моделям от компаний Meta и Google, их лицензии и недоступность данных для обучения вызывали вопросы о том, можно ли их считать по-настоящему открытыми.
Некоторые компании используют термин «открытый исходный код» в маркетинговых целях, что может вводить пользователей в заблуждение.
Авиджит Гош, исследователь из Hugging Face, отметил, что это может создать ложное впечатление о доверии к таким моделям, даже если исследователи не могут проверить их открытость.
Айя Бдейр, старший советник Mozilla, также участвовала в процессе разработки стандарта. Она отметила, что вопросы, связанные с прозрачностью данных для обучения, вызвали больше всего споров.
Прозрачность в отношении источников данных является важной, так как её отсутствие уже привело к множеству судебных исков против компаний, таких как OpenAI.
В итоге, новый стандарт требует, чтобы модели с открытым исходным кодом предоставляли информацию о данных для обучения в такой степени, чтобы квалифицированный человек мог воссоздать аналогичную систему с использованием похожих данных.
Этот компромисс между полным раскрытием данных и соблюдением авторских прав помогает установить новый уровень открытости.
OSI также планирует создать механизм контроля, который будет отмечать модели, не соответствующие этому определению, но описывающиеся как открытые. В будущем будет опубликован список моделей, соответствующих новому стандарту.