ИСУН 2020

Кратко описание на проекта

Проектът предвижда разработване на технологии за автоматизирано свързване на информация за юридически лица от различни бази данни. За целта ще бъдат приложени техники от Изкуствения интелект: машинно самообучение, семантично моделиране и интеграция на данни, логически извод и валидация. Резултът ще бъде нова функционалност във водещите продукти на СИРМА ЕЙ АЙ ЕАД: Ontotext Platform и Ontotext Cognitive Cloud. Така ще се подобри конкуретноспособността на компанията и ще се разшири многократно пазара на тези продукти.
Ontotext Platform представлява технология за когнитивен анализ на бази данни и информация. Платформата позволява интегриране на структурирана информация в огромни графи от знания, които съдържат описания на милиони концепции, обекти (например хора, организации, места, продукти) и връзките между тях. Описанията на обектите се допълват взаимно и подлежат на анализ с когнитивни методи, като тези използвани от невронната мрежа на човешкия мозък. Платформата  определя, например, степен на важност и сходство между обекти и концепции и разпознава неявна свързаност между компании. Графите от знания дават богат контекст и „осъзнаване“ на концепциите, което позволява прецизното им разпознаване и разграничаване от сходни такива в текст. Знанията помагат на Ontotext Platform да „чете“ текст, да го индексира смислово и да извлича нови знания.
Платформата вече се използва от много световни лидери в областта на издателския и информационен бизнес, като Financial Times, Standard and Poor’s, Nikkei. По-масовото й използване е възпрепятствано от големите усилия необходими на създаването на графи от знания в специфични области, което вдига сроковете и цената на внедряване. Целта на проекта е разширяването на платформата с технология за автоматизация на създаването на графови бази от знания, чрез интелигентно разпознаване и свързване на данни за компании от няколко източници. Това ще позволи много по-масово внедряване на Ontotext Platform в различни области на приложение

Дейности

Дейност	Договорена стойност	Отчетена стойност
Избор на когнитивни методи за свързване на данни за компании: Това е най-важната дейност по проекта, защото предопределя много от останалите дейности и качеството на модулите, които ще бъдат разработени.СИРМА ЕЙ АЙ АД има опит в работа с данни от множество източници (виж секция Надграждане на резултати от проекти по Рамковите програми), но за проекта са необходими допълнителна експертиза и изследвания в следните направления: 1. Методи за автоматизирано съпоставяне на схеми на данни между различни бази данни (ontology mapping) 2. Когнитивен анализ на графи от знания (Knowledge Graphs), включително методи за ранкиране по сходство на възли в графи, автоматично класифициране на информация (например, класифициране на компании по индустриални сектори). 3. Методи за съпоставяне и свързване на обекти в Knowledge Graphs по различни характеристики. Напр. близостта на адресите на две компании може да означава, че те са свързани. Но това не е вярно за адрес “София, ул. Кукуш 2”, защото там се намира Бизнесцентър "Антим Тауър", в който има множество несвързани компании. 4. Методи за комбиниране на различните характеристики за близост, например чрез тегла. Методи за настройване на тези тегла чрез само-обучение от примери 5. Методи за определяне на близост на обекти чрез контекстуален текстов анализ (co-occurence). Това служи за различаване (disambiguation) на компании: както при свързване между масиви от данни (например описание на икономическата дейност в свободен текст от официален регистър към описание на компания в Уикипедия на съответния език), така и разпознаване на компания в свободен текст (Entity Recognition). ОБЩА ЗАБЕЛЕЖКА за всички дейности: включили сме почти 30 души в екипа на проекта. Такъв широк екип е необходим, за да може да се възползваме оптимално от специфичните умения и експертиза на всеки член на екипа. Всеки член е планирано да работи между 8 и 14 месеца по проекта през общата продължителност от 24 месеца. Това ни дава гъвкавостта да превключваме хора между различни проекти, за да отговорим на динамично променящите се нужди на бизнеса (няма как да сме сигурни какви проекти ще изпълнява СИРМА ЕЙ АЙ ЕАД след 1.5 и след 2 години). В секция Екип сме посочили месециte, в които всеки член ще работи, но в случай, че се налага може да променяме конкретните месеци според протичането на този и проект. Няма да променяме общата сума човеко/месеци за всеки член без консултация с УО, и ако се наложи такава промяна, ще заменим с друг служител, който покрива минималните изисквания посочени за съответния член на екипа. Оценката на необходимия труд се базира на нашия огромен опит с научно-изследователска дейност: над 2400 човеко-месеца и над 35 проекта.	497 713.28	469 487.40
Семантична интеграция на данни за компании от различни източници: Данните за компании са основният материал, с който ще работи проектът. Целта на тази задача е да изгради достатъчен по обем и сложност хармонизиран (семантично интегриран) набор от данни, който да послужи за разработка на алгоритмите и методите за съпоставяне и свързване. Това включва различни по естество данни (виж СРАВНИТЕЛЕН АНАЛИЗ НА РАЗРАБОТВАНАТА ИНОВАЦИЯ за повече детайли): - Официални регистри на компании (по света има над 650 регистъра); - Източници на отворени данни като DBpedia, Wikidata, Global Legal Entity Identifier (GLEI), Panama Papers / Linked Leaks (215 хиляди офшорни компании), LittleSis (колаборативна разработка на данни за връзки между компании); - Полу-комерсиални източници: OpenCorporates (интегрира данни от 125 официални регистъра) и BRIS (интегрира данни от Европейски регистри); - Комерсиални доставчици на изчерпателни бази данни: Dun amp; Bradstreet, Bureau van Dijk, Factset, Capital IQ (Samp;P), и пр. - Доставчици на данни ориентирани към инвеститори (данни за стартъпи, инвеститори, определени инвестиции, новини от компаниите): CrunchBase, PitchBook, CBI, Mattermark; - Новини и други текстови източници, които описват връзки между компании (например дъщерно дружество или придобиване), връзки на хора (напр. директор, член на борда), събития за компании и продукти (напр. спечелена сделка/търг, нови назначения, финансови резултати, анонс на нови продукти и услуги) Данните от различни доставчици се различават значително по формат, структура, обхват (както географски така и в обхвата на полетата информация), смисъл, използвани кодови листи и пр. За ефективна работа с тези данни ще ги хармонизираме и интегрираме използвайки семантични технологии и нашата семантична база данни Ontotext GraphDB. Тоест ще трансформираме хетерогенните набори от данни в граф от знания (Knowledge Graph). Ще използваме семантичните модели разработвани в проекта euBusinessGraph (euBusinessGraph Semantic Data Model, https://docs.google.com/document/d/1dhMOTlIOC6dOK_jksJRX0CB-GIRoiYY6fWtCnZArUhU/edit, виж повече детайли в секция Надграждане на резултати от ЕС проекти), които ще се доразвият при нужда.	384 641.60	333 641.68
Когнитивно съпоставяне и свързване на данни: Това е задачата в проекта, която се характеризира с най-голяма техническа сложност. Целта на задачата е да създаде модули за съпоставяне и свързване на данни (както и разпознаване на обекти в текст), използвайки методи на изкуствения интелект, като реализира алгоритмите избрани в задача 1 и използва за основа данните, интегрирани в задача 2. За тази цел трябва да се реализират следните под-задачи.	322 724.64	279 361.64
Интеграция с Ontotext Platform и Cognitive Cloud, демонстрационни прототипи: Целта на тази дейност е да интегрира разработените модули за когнитивно съпоставяне и свързване с продуктите наСИРМА ЕЙ АЙ ЕАД, за да се получи цялостен прототип за тестване в лабораторни условия. Тези продукти включват: - Ontotext Platform, което е цялостна платформа за семантична интеграция и съхранение на данни, логически извод, както и семантичен текст анализ. В основата на тази платформа е семантичната база Ontotext GraphDB. - Ontotext Cognitive Cloud, което е облачно-базиран софтуер (Platform as a Service, PaaS) за предоставяне на семантични услуги (Software as a Service, SaaS) и управлявани бази данни (managed Database as a Service, DBaаS). Освен интеграция ще се разработят и специфични функционалности в двата продукта. Необходимостта от такава интеграция се диктува от следните съображения: - Модулите за свързване трябва да получават данните си от GraphDB. Въпросите, които трябва да се адресират са обем (Volume) и актуализация (Velocity) - Модулите за свързване трябва да предоставят резултатите си в семантичен вид, за интегрирано използване заедно с данни от GraphDB - За по-лесна консумация на данните от потребителите те трябва да се предоставят в облачна среда (Ontotext Cognitive Cloud). Така потребителят няма нужда да прави капиталови разходи (хардуер, закупуване на данни, софтуерни лицензи) и да се грижи за сложно инсталиране на бази, семантични услуги, зареждане на данни и пр. Тази дейност ще се изпълни изцяло от екип на СИРМА ЕЙ АЙ ЕАД, тъй като включва специфична работа с продукти на СИРМА ЕЙ АЙ ЕАД. Необходимият обем труд е 114 човеко/месеца, които ще се извършат основно от GraphDB и Cloud екипите на СИРМА ЕЙ АЙ ЕАД. Освен детайлните технически под-задачи описани в следващата точка са нужни и следните спомагателни дейности: - Технически мениджмънт на проекта и продуктов мениджмънт (новите разработвани функционалности да се вписват добре със съществуващите функционалности на Ontotext Platform и Cognitive Cloud). - Системна администрация (инсталиране на виртуални машини, инсталиране и конфигуриране на сървъри, мрежова администрация) - Софтуерна автоматизация (continuous integration, automated regression testing, автоматизирано вдигане на сървъри и зареждане на набори от данни, test-driven development) - Тестване на разработения софтуер като функционалност и потребителски интерфейс (оценяването интелигентните алгоритми е включено в задача 3) - Графичен дизайн на демонстрационните приложения - Техническа документация на лабораторните прототипи	350 819.04	224 055.62
Визуализация на проекта: Поставяне на табела за проекта - 2 бр. Публикуване на статия в престижно издание - 1 бр.	1 600.00	0.00

Програма: Иновации и конкурентоспособност

Район за планиране: Всички

Описание

Забележки: