Saved trees
UMIS AND ITS USERS CONTRIBUTED TO SAVING 60 068 TREES
Български

Programme: Programme "Competitiveness and Innovation in Enterprises" 2021-2027

Planning region: All

Description

The innovation of this project is an artificial intelligence model (AI/ML Model) for transforming multilingual speech into text (Speech-to-Text / Automatic Speech Recognition), in human-readable form, much faster than real time.

The project envisages the implementation of a product innovation on a global scale, meeting the market needs of Sensika Technologies.
Sensika has immediate technological readiness to implement the project innovation at full scale. Currently, the innovation has been pilot tested on a minimal scale, as the company does not have the necessary specialized equipment to provide sufficient capacity for storage and processing of audio-video files, as well as computing resources for the analysis of audio streams and automatic text generation.
Standard expectations and formal requirements of clients, especially when participating in international tenders, include:
- Provision of audiovisual archive with full quality for up to 30 days (this includes videos from social networks and recordings from broadcast television and radio);
- Ability to automatically generate subtitles synchronized with timecode speech, including automatically translating the transcript into the target language (eg German > Arabic, Russian -> Arabic, etc.) and embedding it in a video file or playing it on the video;
- Ability to automatically recognize mentions of subjects and objects (Named Entity Recognition) in the audio stream, such as persons, organizations, brands, locations, etc.

To implement the innovation on a global scale, two types of specialized equipment are mainly needed:
- Scalable and maximally cost-effective data storage hardware providing high throughput;
- Specialized servers optimized for training / fine-tuning of artificial intelligence models, and specialized servers optimized for data processing (inference) with artificial intelligence models.
Activities
Activity Contracted Amount Reported Amount
Внедряване на продуктова иновация (стока или услуга) или иновация в бизнес процесите посредством придобиване на машини, съоръжения и оборудване, представляващи дълготрайни материални активи (ДМА) - ще бъде извършена чрез закупуване на 5 бр. сървърни конфигурации и 2 бр. системи за съхранение на големи файлове с данни.: Дейността включва закупуване и пускане в експлоатация на 5 бр. сървърни конфигурации и 2 бр. системи за съхранение на големи файлове с данни. Сенсика има незабавна технологична готовност за внедряване на иновацията по проекта в пълен мащаб. Понастоящем подобреният модел с изкуствен интелект е внедрен пилотно, в минимален мащаб, тъй като компанията не разполага с необходимото специализирано оборудване, което да осигури достатъчен капацитет за съхранение и обработка на аудио-видео файлове, както и изчислителен ресурс за анализ на аудио-потоците и автоматично генериране на текст. Стандартните очаквания и формалните изисквания на клиентите, особено при участие в международни търгове, включват: - Осигуряване на аудиовизуален архив с пълно качество до 30 дни (това включва и видеа от социалните мрежи, и записи от ефирни телевизии и радиа); - Възможност за автоматично генериране на субтитри синхронизирани с говора по тайм-код, включително с автоматичен превод на транскрипта на целеви език (напр. немски gt; арабски, руски -gt; арабски, и пр.) и вграждането им във видео файл или възпроизвеждането им върху видеото; - Възможност за автоматично разпознаване на споменавания на субекти и обекти (Named Entity Recognition) в аудио-потока, като например личности, организации, брандове, локации и др. Понастоящем, за нуждите на своите клиенти, Сенсика сваля, съхранява и обработва в системата само избрано (минимално) аудиовизуално, а за над 95% от съдържанието от аудиовизуални източници, само индексира метаданни (описание на клип/предаване, интернет връзка към платформата, която е публикувала видеото/аудиото или линк към външния доставчик на телевизионно и радио съдържание). За внедряване на иновацията в мащаб са необходими основно два типа специализирано оборудване: - Мащабируем и максимално ценово-ефективен хардуер за съхранение на данни, осигуряващ висока пропускателна способност; - Специализирани сървъри оптимизирани за дооубучение (training / fine-tuning) на модели с изкуствен интелект, и специализирани сървъри оптимизирани за обработка на данни (inference) с модели с изкуствен интелект; Обобщение на предвидените за закупуване активи за нуждите на проекта:  1 брой специализиран GPU сървър с 4 броя ускорители Nvidia H100 94GB за обучение на модели с ИИ (training / fine-tuning).  2 броя специализирани GPU сървъра с по 4 броя ускорители Nvidia L40s за обработка на данни (inference).  2 броя специализирани GPU сървъра за развой и тестове (изпитване за коректност и прецизност на моделите с ИИ), оборудвани с GPU ускорители от потребителски клас.  2 броя специализирани сървъри за съхранение на данни с общ резервиран използваем дисков капацитет от 310 TiB. Тази инвестиция е необходима, за да не се прекъсва / застрашава работата на продукционната инфраструктура, от която пряко зависят клиентите и потребителите на Сенсика, и респективно – месечните приходи. Стъпки и етапи за внедряването на иновацията:  Закупуване на необходимите активи  Инсталация на активите в наетия от Sensika “сигурен остров“ с дейтацентър Equinix в София от собствения екип DevOps инженери  Инсталиране на системен софтуер (Linux, библиотеки и пр.) и включване в системата за управление на инфраструктурата  Автоматично инсталиране на готовия оптимизиран модел  Продължаване на и непрекъснато дообучение на оптимизирания модел за подобряване на коректността с допълнителни езици, диалекти и видове аудио-съдържание  Уплътняване на ресурса за обучение със задачи за дообучение на други многоезични модели с ИИ, развивани от Сенсика (сентимент анализ, тематичен класификатор, класификация на обекти, детекция на лога и брандове в снинки и видеоматериали и пр.) 956 683.00 0.00

Notes:

Elements in light blue allow detailed view when selected
All amounts are in Bulgarian lev (BGN) / 1 EUR = 1,95583 BGN
The project is financed by the Operational Programme "Technical Assistance" and co-financed by the European Union through the European Regional Development Fund.
In implementing the project № 0115-CCU-2.1 "Information system for management and monitoring of EU funds in 2014-2020 - UMIS 2020" (BG161PO002-2.1.01-0007-C0001).