
Эр-Рияд (UNA/SPA) – Недавнее исследование подтвердило ключевую роль крупных моделей арабского языка в обеспечении присутствия арабского языка в цифровом пространстве и повышении его конкурентоспособности на мировом уровне. Это способствует распространению арабского языка в цифровой среде и ускоряет внедрение инноваций в учреждениях, что указывает на то, что Королевство возглавляет список стран, разрабатывающих модели арабского языка к 2025 году.
Исследование, проведенное Саудовским управлением по данным и искусственному интеллекту (SDAIA) в сотрудничестве с Глобальной академией арабского языка имени короля Салмана, было направлено на поддержку разработки системы искусственного интеллекта на арабском языке и определение требований к разработке моделей, более способных понимать арабский язык и его различные диалекты, генерировать контент и выполнять инструкции.
В исследовании рассматривалась история развития арабских лингвистических моделей, начиная с их зарождения на основе систем, основанных на правилах, до 2000 года нашей эры, через статистические модели и нейронные сети, вплоть до стадии крупных лингвистических моделей и их современных генеративных приложений в период с 2022 по 2025 год нашей эры, в течение которого были запущены десятки арабских моделей, включая диалогические и генеративные модели, направленные на удовлетворение потребностей арабского мира в технической, образовательной и научной сферах.
В ходе исследования было проанализировано более 53 лингвистических моделей арабского языка до первого квартала 2025 года, и Королевство Саудовская Аравия возглавило список стран, разрабатывающих эти модели. Международные организации проявили значительный интерес к разработке лингвистических моделей, поддерживающих арабский язык. Анализ показал слабость инвестиций в лингвистические модели арабского языка, поддерживающие аудио- и визуальные формы, несмотря на их будущую важность, поскольку 81% этих моделей были мономедийными и работали только с текстами, в то время как процент мультимедийных моделей составлял всего 7%.
Что касается возможностей, исследование показало, что модели арабского языка включают три основные задачи: понимание языка, генерация контента, а также ведение диалога и выполнение инструкций; в то время как когнитивные и логические способности, многоязычие и программная поддержка остаются на низком уровне по сравнению с глобальными языковыми моделями.
Согласно результатам стандартной шкалы оценки (Balasam), разработанной Глобальной академией арабского языка имени короля Салмана, которая сравнивает результаты работы языковых моделей арабского языка с их глобальными аналогами в заданиях на знание арабского языка, глобальные модели продемонстрировали превосходство в большинстве категорий языковых навыков, в то же время результаты отразили многообещающие сильные стороны некоторых языковых моделей в ряде качественных заданий, а также незначительно превзошли их в навыке составления резюме, показав при этом схожие результаты в заданиях на творческое письмо и понимание прочитанного.
В исследовании был проанализирован текущий статус арабских моделей, отмечено наличие разработанных моделей в арабских странах, в первую очередь в Саудовской Аравии и ОАЭ, а также моделей, разработанных международными организациями, поддерживающими арабский язык. Были выявлены пробелы, в первую очередь ограниченный размер моделей и количество их параметров по сравнению с глобальными моделями, отсутствие всеобъемлющих данных по арабскому языку и дефицит специализированных арабских эталонных показателей для оценки эффективности.
В исследовании был разработан план действий, определяющий практические шаги по достижению лидерства в области крупных арабских лингвистических моделей, с акцентом на предоставление высококачественных и всеобъемлющих арабских данных для различных диалектов и областей, разработку многофункциональных лингвистических моделей различного масштаба, создание арабских эталонов для оценки качества моделей, а также поддержку внедрения арабских моделей на местном уровне через государственные и частные учреждения и их распространение для использования в обществе.
Данное исследование проводится в рамках сотрудничества между «SDAIA» и Глобальной академией арабского языка имени короля Салмана и представляет собой качественный шаг, отражающий заинтересованность Королевства в сочетании языковой и культурной идентичности с технологическим развитием, а также в обеспечении присутствия арабского языка в глобальной системе искусственного интеллекта, что укрепляет позиции Королевства как ведущего регионального центра в разработке арабских языковых технологий и создании цифрового арабского контента.
(окончено)



