UMIS 2020

Brief description

Large Language Models (LLMs) are already widely used to propose and apply intelligent solutions in various domains. They are usually pre-trained for English, and their work in Bulgarian requires additional fine-tuning to ensure quality indicators (semantic and grammatical correctness, understanding of the context, factual accuracy) comparable to those of English.
As companies strive to use artificial intelligence technologies in the most appropriate and secure way to solve specific tasks, fine-tuning with the data of a specific company or industry is key to achieving appropriate results.
The project envisages the development of an infrastructure, algorithms and software (with open access) for the selection and pre-processing of large data for Bulgarian and company or industry-specific data and the fine-tuning of appropriate open source large language models for solving specific tasks. The infrastructure will also include a protocol for the (automatic and human) evaluation of the fine-tuning of large language models.
The functioning of the infrastructure will be demonstrated by fine-tuning large language models for solving specific tasks in specific thematic areas. The evaluation of the fine-tuning of pre-trained large language models in Bulgarian will be performed by comparison with English evaluation experiments.
The infrastructure for fine-tuning pre-trained large language models will integrate free, reliable and reusable resources and technologies that will enable organisations to safely and reliably adapt existing large language models with artificial intelligence to their individual goals and applications in Bulgarian. In this way, the results of the work of the large language models will be customised to the specific needs of a particular company or industry, enabling more appropriate and faster decision-making.

Activities

Activity	Contracted Amount	Reported Amount
Управление и координация на проекта: В рамките на работния пакет се предвижда: Изготвяне и изпълнение на детайлен работен план за работата по проекта. Ефективно управление и координация на изпълняваните дейности по проекта, така че предвидените в проекта цели да бъдат постигнати, а очакваните резултати – получени. Изготвяне и подаване на финансов и научен отчет по проекта.	2 045.17	0.00
Научноизследователска дейност (НИД), включваща подбор на предварително обучени големи езикови модели; колекциониране и предварителна обработка на данни за фина настройка на големи езикови модели; създаване на инфраструктура за фина настройка на предварително обучени големи езикови модели; тестване и оценка на фино настроените големи езикови модели: Научноизследователска дейност, включваща подбор на предварително обучени големи езикови модели; колекциониране и предварителна обработка на данни за фина настройка на големи езикови модели; създаване на инфраструктура за фина настройка на предварително обучени големи езикови модели; тестване и оценка на фино настроените големи езикови модели, предвижда: 1. РП2 и 3-Ще бъде разработен и предоставен протокол от критерии за оценка и сравнение на големите езикови модели и инструкции за тяхното приложение и тълкуване. Цели на подбора на предварително обучени големи езикови модели: Да се разработи подробно описание за характеристиките на големите езикови модели и спецификация на критериите за тяхната оценка, сравнение и подбор. Да се оценят и подберат свободни за употреба големи езикови модели, които отговарят на предварително зададени критерии за предназначение и начин на работа. Протоколът от критерии за оценка и сравнение на големите езикови модели и техният списък ще се актуализира в края на проекта. 2. РП4-Колекционирането и предварителната обработка на данни за големи езикови модели цели да се спести многократното събиране и почистване на данни, които могат да се преизползват за различни цели. За целта данните ще бъдат снабдени с метаданни (организирани в граф), от които ще се извличат тематично и приложно ориентирани данни. По-конкретно целите са: Да се разработи компонент от инфраструктурата за колекциониране, филтриране, анонимизиране и редупликиране на големи разнообразни и качествени текстови данни за българки език. Да се разработи структура на метаданните (атрибути и стойности) към текстовите единици, позволяваща извличане на тематично ориентирани или специализирани набори от данни). Да се създаде голям набор от разнообразни (от различни източници,тематични области,стилове и жанрове) и качествени текстови данни за български език (без повторения, нарушено съдържание, идентифицираща информация, токсично или предубедено съдържание). 3.РП5-Проектът ще предложи създаването на инфраструктура от алгоритми и софтуер (със свободен достъп) за фина настройка на подходящи свободно достъпни големи езикови модели за решаване на конкретни задачи. По-конкретно, целите са: Да се разработи протокол и инфраструктура от алгоритми и софтуер (със свободен достъп) за фина настройка на големи езикови модели и на чатмодели за български. Да се направи фина настройка на избран голям общ езиков модел и негов чатмодел за работа с български език. Да се разработи протокол и инфраструктура от алгоритми и софтуер (със свободен достъп) за фина настройка с възможност за адаптация за различни задачи и тематични области (свободен софтуер). Да се направи фина настройка на избран голям общ езиков модел с възможност за адаптация за различни задачи и тематични области (свободен софтуер). 4.РП6-Сравнителният анализ и оценка на фино настроените големи езикови модели ще включва различни задачи, алгоритми и набори от данни за тестване. За цялостната оценка на ефективността на фино настроените големи езикови модели за различни приложения и набори от данни може да бъде направена оценка на: решаване на задача със същото или различно приложение в дадена тематична област. По-конкретно целите са: Да се разработи компонент от Инфраструктурата за оценка на фината настройка за български език на големи езикови модели. Да се дефинира протокол за оценка на фина настройка, който включва автоматична и човешка оценка. Да се адаптират или обогатят допълнително за български езикови данни за оценка за определени задачи. Да се реализира оценка на фината настройка за български език чрез сравнение с експерименти за оценка за английски при изпълнението на еднакви задачи. Да се достигне до ниво на технологична готовност 5-7 на Инфраструктурата за фина настройка на предварително обучени големи езикови модели, посредством интегриране на всички компоненти в прототип, демонстриращ работата на инфраструктурата за фина настройка на големи езикови модели в реална среда.	199 905.75	93 065.41
Подбор на предварително обучени големи езикови модели 2 --gt; към дейност по ред 2: Основните цели на Дейността ще се изразяват в: Да се актуализира протоколът от критерии за оценка и сравнение на големите езикови модели и инструкциите за тяхното приложение и тълкуване. Да се актуализира списъкът със свободни за употреба големи езикови модели, които отговарят на предварително зададени критерии за предназначение и начин на работа. Дейността е продължение на Дейност 2 и цели актуализиране и надграждане на резултатите от Дейност 2.	0.00	0.00
Колекциониране и предварителна обработка на данни за фина настройка на големи езикови модели --gt; към дейност по ред 2: При фина настройка на големи езикови модели трябва да се дефинира количеството и видът на данните, които са необходими. Един от основните фактори, от който може да зависи количеството и съставът на данните за фина настройка са характеристиките на предварително тренирания модел и предназначението на фината настройка. В много от случаите данните за фина настройка може да са малко количество. В други случаи обаче, ако има несъответствие между домейна на големия езиков модел и желаното предназначение, може да се изисква значително количество данни. Тъй като няма да бъдат използвани синтезирани изкуствени данни или трансферирани данни, задачата ни е да съберем колкото е възможно повече разнообразни данни за български език, създадени от хора, които са качествени, не съдържат чувствителна, некоректна или етично неприемлива информация, не съдържат повторения и са снабдени с точна информация за източника си и лиценза за използване. Предлаганата инфраструктура цели да спести многократното събиране и почистване на данни, които могат да се преизползват за различни цели. За целта единиците в набора от данни ще бъдат снабдени с метаданни (организирани в граф), от които ще се извличат тематично и приложно ориентирани данни, например за банково дело. Подробните метаданни ще осигурят преизползването на събраните данни за решаването на различни приложни задачи. По-конкретно, целите на Дейността са: Да се разработи компонент от инфраструктурата за колекциониране, филтриране, анонимизиране и редупликиране на големи разнообразни и качествени текстови данни за българки език. Да се разработи структура на метаданните (атрибути и стойности) към текстовите единици, позволяваща извличане на тематично ориентирани или специализирани набори от данни). Да се създаде голям набор от разнообразни (от различни източници, тематични области, стилове и жанрове) и качествени текстови данни за български език (без повторения, нарушено съдържание, идентифицираща информация, токсично или предубедено съдържание). Събраните данни ще могат да бъдат използвани и за предварително трениране на големи езикови модели за български език.	0.00	0.00
Инфраструктура за фина настройка на предварително обучени големи езикови модели --gt; към дейност по ред 2: Проектът предлага създаването на инфраструктура от алгоритми и софтуер (със свободен достъп) за фина настройка на подходящи свободно достъпни големи езикови модели за решаване на конкретни задачи. Създаването на собствен голям езиков модел все още е предизвикателство (а вероятно и ще остане поне известно време) пред компании, които биха желали да използват големи езикови модели, но те не са предмет на тяхната дейност. Фината настройка директно променя теглата на големите езикови модели, за да включи специфични знания с оглед на решаването на конкретни задачи. Могат да се използват различни техники за фина настройка, например: продължаващо предварително обучение (continued pre-training), при което моделът се научава да предсказва следващата дума в последователност; фина настройка с инструкции (instruction fine-tuning), която се фокусира върху двойки въпроси и отговори, обучавайки модела да генерира отговори въз основа на подкани; подсилващо обучение с човешка обратна връзка (reinforcement learning with human feedback), което измества фокуса от прогнозиране на следващия токън към увеличаване на теглата въз основа на човешките предпочитания. Ще бъдат изследвани съществуващите инструменти за фина настройка на избрани големи езикови модели за конкретни задачи, като се използват библиотеката на Hugging Face, Ludwig и др. По-конкретно, целите на Дейността са: Да се разработи протокол и инфраструктура от алгоритми и софтуер (със свободен достъп) за фина настройка на големи езикови модели и на чатмодели за български. Да се направи фина настройка на избран голям общ езиков модел и негов чатмодел за работа с български език. Да се разработи протокол и инфраструктура от алгоритми и софтуер (със свободен достъп) за фина настройка с възможност за адаптация за различни задачи и тематични области (свободен софтуер). Да се направи фина настройка на избран голям общ езиков модел с възможност за адаптация за различни задачи и тематични области (свободен софтуер). Инфраструктурата за фина настройка на предварително обучени големи езикови модели ще интегрира свободни, надеждни и преизползваеми ресурси и технологии и ще позволи на компаниите да адаптират съществуващите големи езикови модели с изкуствен интелект към своите уникални цели и приложения сигурно и безопасно на български език. По този начин резултатите от работата на големите езикови модели ще са фокусирани към конкретните нужди на дадена компания или индустрия и ще позволяват по-адекватно и по-бързо вземане на решения.	0.00	0.00
Тестване и оценка на финно настроените големи езикови модели --gt; към дейност по ред 2: Сравнителният анализ и оценка на фино настроените големи езикови модели ще включва различни задачи, алгоритми и набори от данни за тестване. За цялостната оценка на ефективността на фино настроените големи езикови модели за различни приложения и набори от данни може да бъде направена оценка на: Решаване на задача със същото приложение в същата тематична област; Решаване на задача със същото приложение в различна тематична област; Решаване на различна задача. По този начин може да се изследва способността на фино настроените големи езикови модели да реагират коректно както към тестове в тематичната област, така и извън нея, както и въздействието на фината настройка при решаването различни типове задачи. Чрез разнообразни настройки може да се оценят фино настроените големи езикови модели и да се изследват границите на тяхната приложимост в различни разпределения на данни и видове задачи. При оценката може да се възприемат различни стратегии: нулеви подкани без примери в контекст (нормално тестване след обучение) и контекстно обучение (In-context learnin), при което се предоставя набор от контекстни примери. Ще се тестват хипотезите до каква степен увеличаването на размера на данните за фина настройка увеличава ефективността на големите езикови модели при решаването на конкретната задача, както и дали обемът на данните за фина настройка и ефективността на фино настроения модел зависи от вида на задачата. Също така може да се тестват хипотезите за влиянието на архитектурата на предварително тренирания модел и поведението на модела след фина настройка за генериране и класификация. По-конкретно, целите на Дейността са: Да се разработи компонент от Инфраструктурата за оценка на фината настройка за български език на големи езикови модели. Да се дефинира протокол за оценка на фина настройка, който включва автоматична и човешка оценка. Да се адаптират или обогатят допълнително за български езикови данни за оценка в SuperGLUE, BIG-bench, MMLU, HELM за определени задачи. Да се реализира оценка на фината настройка за български език чрез сравнение с експерименти за оценка за английски при изпълнението на еднакви задачи. Да се достигне до ниво на технологична готовност 7 на Инфраструктурата за фина настройка на предварително обучени големи езикови модели, посредством интегриране на всички компоненти в прототип, демонстриращ работата на инфраструктурата за фина настройка на големи езикови модели в реална среда.	0.00	0.00
Разпространение на резултатите от проекта и план за устойчиво развитие и експлоатация: Предназначението на Инфраструктурата за фина настройка на предварително обучени големи езикови модели е да интегрира свободни, надеждни и преизползваеми ресурси и технологии и да предостави реални възможности на компаниите да ги използват, за да адаптират съществуващите големи езикови модели към своите приложения и продукти. Тъй като резултатите от работата на големите езикови модели ще са адаптирани спрямо спецификата на дадена компания или индустрия, това ще позволи по-адекватно използване на получаваната информация.#xC; За да се осигури отворен достъп до резултатите от проекта и в духа на практиките на отворената наука, всички резултати от изследвания ще бъдат публикувани веднага щом бъдат получени. За разпространение на резултатите ще се използват различни канали. Фино настроените моделите ще бъдат публично достъпни при спазване на лиценза на оригиналния модел. Това отразява практиките на Open Science и е от полза за цялата изследователска общност. Въздействието на проекта се подкрепя от прилагането на цялостна стратегия за разпространение, комуникация и използване на резултатите. По-конкретно, целите на Дейността са: Да се популяризират резултатите, получени в изпълнение на проекта, сред научната общност, бизнеса и широката общественост.. Да се разработи план за устойчиво развитие и експлоатация.	21 711.87	1 572.57

Programme: Recovery and Resilience Plan

Planning region: All

Description

Notes: