Иновацията по настощият проект представлява модел с изкуствен интелект (AI/ML Model) за трансформиране на многоезичиен говор в текст (Speech-to-Text / Automatic Speech Recognition), в човешко-четим вид, в много по-бързо от реалното време.
Проектът предвижда внедряване на продуктова иновация в световен мащаб, отговарящ на пазарните нужди на Сенсика Текнолоджис.
Сенсика има незабавна технологична готовност за внедряване на иновацията по проекта в пълен мащаб. Понастоящем иновацията е тествана пилотно в минимален мащаб, тъй като компанията не разполага с необходимото специализирано оборудване, което да осигури достатъчен капацитет за съхранение и обработка на аудио-видео файлове, както и изчислителен ресурс за анализ на аудио-потоците и автоматично генериране на текст.
Стандартните очаквания и формалните изисквания на клиентите, особено при участие в международни търгове, включват:
- Осигуряване на аудиовизуален архив с пълно качество до 30 дни (това включва и видеа от социалните мрежи, и записи от ефирни телевизии и радиа);
- Възможност за автоматично генериране на субтитри синхронизирани с говора по тайм-код, включително с автоматичен превод на транскрипта на целеви език (напр. немски > арабски, руски -> арабски, и пр.) и вграждането им във видео файл или възпроизвеждането им върху видеото;
- Възможност за автоматично разпознаване на споменавания на субекти и обекти (Named Entity Recognition) в аудио-потока, като например личности, организации, брандове, локации и др.
За внедряване на иновацията в световен мащаб са необходими основно два типа специализирано оборудване:
- Мащабируем и максимално ценово-ефективен хардуер за съхранение на данни, осигуряващ висока пропускателна способност;
- Специализирани сървъри оптимизирани за дооубучение (training / fine-tuning) на модели с изкуствен интелект, и специализирани сървъри оптимизирани за обработка на данни (inference) с модели с изкуствен интелект.
Дейности
Дейност
Договорена стойност
Отчетена стойност
Внедряване на продуктова иновация (стока или услуга) или иновация в бизнес процесите посредством придобиване на машини, съоръжения и оборудване, представляващи дълготрайни материални активи (ДМА) - ще бъде извършена чрез закупуване на 5 бр. сървърни конфигурации и 2 бр. системи за съхранение на големи файлове с данни.: Дейността включва закупуване и пускане в експлоатация на 5 бр. сървърни конфигурации и 2 бр. системи за съхранение на големи файлове с данни.
Сенсика има незабавна технологична готовност за внедряване на иновацията по проекта в пълен мащаб. Понастоящем подобреният модел с изкуствен интелект е внедрен пилотно, в минимален мащаб, тъй като компанията не разполага с необходимото специализирано оборудване, което да осигури достатъчен капацитет за съхранение и обработка на аудио-видео файлове, както и изчислителен ресурс за анализ на аудио-потоците и автоматично генериране на текст.
Стандартните очаквания и формалните изисквания на клиентите, особено при участие в международни търгове, включват:
- Осигуряване на аудиовизуален архив с пълно качество до 30 дни (това включва и видеа от социалните мрежи, и записи от ефирни телевизии и радиа);
- Възможност за автоматично генериране на субтитри синхронизирани с говора по тайм-код, включително с автоматичен превод на транскрипта на целеви език (напр. немски gt; арабски, руски -gt; арабски, и пр.) и вграждането им във видео файл или възпроизвеждането им върху видеото;
- Възможност за автоматично разпознаване на споменавания на субекти и обекти (Named Entity Recognition) в аудио-потока, като например личности, организации, брандове, локации и др.
Понастоящем, за нуждите на своите клиенти, Сенсика сваля, съхранява и обработва в системата само избрано (минимално) аудиовизуално, а за над 95% от съдържанието от аудиовизуални източници, само индексира метаданни (описание на клип/предаване, интернет връзка към платформата, която е публикувала видеото/аудиото или линк към външния доставчик на телевизионно и радио съдържание).
За внедряване на иновацията в мащаб са необходими основно два типа специализирано оборудване:
- Мащабируем и максимално ценово-ефективен хардуер за съхранение на данни, осигуряващ висока пропускателна способност;
- Специализирани сървъри оптимизирани за дооубучение (training / fine-tuning) на модели с изкуствен интелект, и специализирани сървъри оптимизирани за обработка на данни (inference) с модели с изкуствен интелект;
Обобщение на предвидените за закупуване активи за нуждите на проекта:
1 брой специализиран GPU сървър с 4 броя ускорители Nvidia H100 94GB за обучение на модели с ИИ (training / fine-tuning).
2 броя специализирани GPU сървъра с по 4 броя ускорители Nvidia L40s за обработка на данни (inference).
2 броя специализирани GPU сървъра за развой и тестове (изпитване за коректност и прецизност на моделите с ИИ), оборудвани с GPU ускорители от потребителски клас.
2 броя специализирани сървъри за съхранение на данни с общ резервиран използваем дисков капацитет от 310 TiB.
Тази инвестиция е необходима, за да не се прекъсва / застрашава работата на продукционната инфраструктура, от която пряко зависят клиентите и потребителите на Сенсика, и респективно – месечните приходи.
Стъпки и етапи за внедряването на иновацията:
Закупуване на необходимите активи
Инсталация на активите в наетия от Sensika “сигурен остров“ с дейтацентър Equinix в София от собствения екип DevOps инженери
Инсталиране на системен софтуер (Linux, библиотеки и пр.) и включване в системата за управление на инфраструктурата
Автоматично инсталиране на готовия оптимизиран модел
Продължаване на и непрекъснато дообучение на оптимизирания модел за подобряване на коректността с допълнителни езици, диалекти и видове аудио-съдържание
Уплътняване на ресурса за обучение със задачи за дообучение на други многоезични модели с ИИ, развивани от Сенсика (сентимент анализ, тематичен класификатор, класификация на обекти, детекция на лога и брандове в снинки и видеоматериали и пр.)
956 683.00
0.00
Забележки:
Елемент в светло синьо позволява показване на детайли при избирането му
Всички суми са в български лева (BGN) /1 EUR = 1,95583 BGN