Identification

UMIS Number	BG16RFOP002-1.005-0168-C01
Project Name	Intelligent matching and linking of organization data from different sources
Beneficiary	200421236 SIRMA AI Corp
Funding	ERDF ==> Innovations and Competitiveness
Date of the Contract/Order	25.05.2018
Start Date	25.05.2018
End Date	13.11.2020
Status of Implementation of the Contract/Order of the Grant	Closed (completion date)
Location of Performance	България, Югозападна и южно-централна България, Югозападен, София-Град, Столична, гр.София

Description

Brief description

Проектът предвижда разработване на технологии за автоматизирано свързване на информация за юридически лица от различни бази данни. За целта ще бъдат приложени техники от Изкуствения интелект: машинно самообучение, семантично моделиране и интеграция на данни, логически извод и валидация. Резултът ще бъде нова функционалност във водещите продукти на СИРМА ЕЙ АЙ ЕАД: Ontotext Platform и Ontotext Cognitive Cloud. Така ще се подобри конкуретноспособността на компанията и ще се разшири многократно пазара на тези продукти.
Ontotext Platform представлява технология за когнитивен анализ на бази данни и информация. Платформата позволява интегриране на структурирана информация в огромни графи от знания, които съдържат описания на милиони концепции, обекти (например хора, организации, места, продукти) и връзките между тях. Описанията на обектите се допълват взаимно и подлежат на анализ с когнитивни методи, като тези използвани от невронната мрежа на човешкия мозък. Платформата  определя, например, степен на важност и сходство между обекти и концепции и разпознава неявна свързаност между компании. Графите от знания дават богат контекст и „осъзнаване“ на концепциите, което позволява прецизното им разпознаване и разграничаване от сходни такива в текст. Знанията помагат на Ontotext Platform да „чете“ текст, да го индексира смислово и да извлича нови знания.
Платформата вече се използва от много световни лидери в областта на издателския и информационен бизнес, като Financial Times, Standard and Poor’s, Nikkei. По-масовото й използване е възпрепятствано от големите усилия необходими на създаването на графи от знания в специфични области, което вдига сроковете и цената на внедряване. Целта на проекта е разширяването на платформата с технология за автоматизация на създаването на графови бази от знания, чрез интелигентно разпознаване и свързване на данни за компании от няколко източници. Това ще позволи много по-масово внедряване на Ontotext Platform в различни области на приложение

Activities

Activity: Избор на когнитивни методи за свързване на данни за компании: Това е най-важната дейност по проекта, защото предопределя много от останалите дейности и качеството на модулите, които ще бъдат разработени.СИРМА ЕЙ АЙ АД има опит в работа с данни от множество източници (виж секция Надграждане на резултати от проекти по Рамковите програми), но за проекта са необходими допълнителна експертиза и изследвания в следните направления: 1. Методи за автоматизирано съпоставяне на схеми на данни между различни бази данни (ontology mapping) 2. Когнитивен анализ на графи от знания (Knowledge Graphs), включително методи за ранкиране по сходство на възли в графи, автоматично класифициране на информация (например, класифициране на компании по индустриални сектори). 3. Методи за съпоставяне и свързване на обекти в Knowledge Graphs по различни характеристики. Напр. близостта на адресите на две компании може да означава, че те са свързани. Но това не е вярно за адрес “София, ул. Кукуш 2”, защото там се намира Бизнесцентър "Антим Тауър", в който има множество несвързани компании. 4. Методи за комбиниране на различните характеристики за близост, например чрез тегла. Методи за настройване на тези тегла чрез само-обучение от примери 5. Методи за определяне на близост на обекти чрез контекстуален текстов анализ (co-occurence). Това служи за различаване (disambiguation) на компании: както при свързване между масиви от данни (например описание на икономическата дейност в свободен текст от официален регистър към описание на компания в Уикипедия на съответния език), така и разпознаване на компания в свободен текст (Entity Recognition). ОБЩА ЗАБЕЛЕЖКА за всички дейности: включили сме почти 30 души в екипа на проекта. Такъв широк екип е необходим, за да може да се възползваме оптимално от специфичните умения и експертиза на всеки член на екипа. Всеки член е планирано да работи между 8 и 14 месеца по проекта през общата продължителност от 24 месеца. Това ни дава гъвкавостта да превключваме хора между различни проекти, за да отговорим на динамично променящите се нужди на бизнеса (няма как да сме сигурни какви проекти ще изпълнява СИРМА ЕЙ АЙ ЕАД след 1.5 и след 2 години). В секция Екип сме посочили месециte, в които всеки член ще работи, но в случай, че се налага може да променяме конкретните месеци според протичането на този и проект. Няма да променяме общата сума човеко/месеци за всеки член без консултация с УО, и ако се наложи такава промяна, ще заменим с друг служител, който покрива минималните изисквания посочени за съответния член на екипа. Оценката на необходимия труд се базира на нашия огромен опит с научно-изследователска дейност: над 2400 човеко-месеца и над 35 проекта., Contracted Amount: 497 713.28 , Reported Amount: 469 487.40
Activity: Семантична интеграция на данни за компании от различни източници: Данните за компании са основният материал, с който ще работи проектът. Целта на тази задача е да изгради достатъчен по обем и сложност хармонизиран (семантично интегриран) набор от данни, който да послужи за разработка на алгоритмите и методите за съпоставяне и свързване. Това включва различни по естество данни (виж СРАВНИТЕЛЕН АНАЛИЗ НА РАЗРАБОТВАНАТА ИНОВАЦИЯ за повече детайли): - Официални регистри на компании (по света има над 650 регистъра); - Източници на отворени данни като DBpedia, Wikidata, Global Legal Entity Identifier (GLEI), Panama Papers / Linked Leaks (215 хиляди офшорни компании), LittleSis (колаборативна разработка на данни за връзки между компании); - Полу-комерсиални източници: OpenCorporates (интегрира данни от 125 официални регистъра) и BRIS (интегрира данни от Европейски регистри); - Комерсиални доставчици на изчерпателни бази данни: Dun amp; Bradstreet, Bureau van Dijk, Factset, Capital IQ (Samp;P), и пр. - Доставчици на данни ориентирани към инвеститори (данни за стартъпи, инвеститори, определени инвестиции, новини от компаниите): CrunchBase, PitchBook, CBI, Mattermark; - Новини и други текстови източници, които описват връзки между компании (например дъщерно дружество или придобиване), връзки на хора (напр. директор, член на борда), събития за компании и продукти (напр. спечелена сделка/търг, нови назначения, финансови резултати, анонс на нови продукти и услуги) Данните от различни доставчици се различават значително по формат, структура, обхват (както географски така и в обхвата на полетата информация), смисъл, използвани кодови листи и пр. За ефективна работа с тези данни ще ги хармонизираме и интегрираме използвайки семантични технологии и нашата семантична база данни Ontotext GraphDB. Тоест ще трансформираме хетерогенните набори от данни в граф от знания (Knowledge Graph). Ще използваме семантичните модели разработвани в проекта euBusinessGraph (euBusinessGraph Semantic Data Model, https://docs.google.com/document/d/1dhMOTlIOC6dOK_jksJRX0CB-GIRoiYY6fWtCnZArUhU/edit, виж повече детайли в секция Надграждане на резултати от ЕС проекти), които ще се доразвият при нужда., Contracted Amount: 384 641.60 , Reported Amount: 333 641.68
Activity: Когнитивно съпоставяне и свързване на данни: Това е задачата в проекта, която се характеризира с най-голяма техническа сложност. Целта на задачата е да създаде модули за съпоставяне и свързване на данни (както и разпознаване на обекти в текст), използвайки методи на изкуствения интелект, като реализира алгоритмите избрани в задача 1 и използва за основа данните, интегрирани в задача 2. За тази цел трябва да се реализират следните под-задачи. , Contracted Amount: 322 724.64 , Reported Amount: 279 361.64
Activity: Интеграция с Ontotext Platform и Cognitive Cloud, демонстрационни прототипи: Целта на тази дейност е да интегрира разработените модули за когнитивно съпоставяне и свързване с продуктите наСИРМА ЕЙ АЙ ЕАД, за да се получи цялостен прототип за тестване в лабораторни условия. Тези продукти включват: - Ontotext Platform, което е цялостна платформа за семантична интеграция и съхранение на данни, логически извод, както и семантичен текст анализ. В основата на тази платформа е семантичната база Ontotext GraphDB. - Ontotext Cognitive Cloud, което е облачно-базиран софтуер (Platform as a Service, PaaS) за предоставяне на семантични услуги (Software as a Service, SaaS) и управлявани бази данни (managed Database as a Service, DBaаS). Освен интеграция ще се разработят и специфични функционалности в двата продукта. Необходимостта от такава интеграция се диктува от следните съображения: - Модулите за свързване трябва да получават данните си от GraphDB. Въпросите, които трябва да се адресират са обем (Volume) и актуализация (Velocity) - Модулите за свързване трябва да предоставят резултатите си в семантичен вид, за интегрирано използване заедно с данни от GraphDB - За по-лесна консумация на данните от потребителите те трябва да се предоставят в облачна среда (Ontotext Cognitive Cloud). Така потребителят няма нужда да прави капиталови разходи (хардуер, закупуване на данни, софтуерни лицензи) и да се грижи за сложно инсталиране на бази, семантични услуги, зареждане на данни и пр. Тази дейност ще се изпълни изцяло от екип на СИРМА ЕЙ АЙ ЕАД, тъй като включва специфична работа с продукти на СИРМА ЕЙ АЙ ЕАД. Необходимият обем труд е 114 човеко/месеца, които ще се извършат основно от GraphDB и Cloud екипите на СИРМА ЕЙ АЙ ЕАД. Освен детайлните технически под-задачи описани в следващата точка са нужни и следните спомагателни дейности: - Технически мениджмънт на проекта и продуктов мениджмънт (новите разработвани функционалности да се вписват добре със съществуващите функционалности на Ontotext Platform и Cognitive Cloud). - Системна администрация (инсталиране на виртуални машини, инсталиране и конфигуриране на сървъри, мрежова администрация) - Софтуерна автоматизация (continuous integration, automated regression testing, автоматизирано вдигане на сървъри и зареждане на набори от данни, test-driven development) - Тестване на разработения софтуер като функционалност и потребителски интерфейс (оценяването интелигентните алгоритми е включено в задача 3) - Графичен дизайн на демонстрационните приложения - Техническа документация на лабораторните прототипи, Contracted Amount: 350 819.04 , Reported Amount: 224 055.62
Activity: Визуализация на проекта: Поставяне на табела за проекта - 2 бр. Публикуване на статия в престижно издание - 1 бр., Contracted Amount: 1 600.00 , Reported Amount: 0.00

Participating Organizations

Partners	None
Contractors	Contractor: U2C COMMUNICATIONS EOOD, Contracted Amount: 65 660.00 , Reported Amount: 93 800.00 Contractor: A Data Pro, Contracted Amount: 172 500.00 , Reported Amount*: 345 000.00 Contractor: SCALE FOCUS AD, Contracted Amount: 99 225.00 , Reported Amount**: 198 450.00
Subcontractors	None
Members of the Consortium	None
Notes: * The projected contract value may be lower than the reported one because of any of the following reasons: For physical person, the contracted value does not include the employer expenses, which are admissible expenses and are accounted under the project The Beneficiary has reported expense only with an invoice without a contract with the selected contractor The beneficiary has reported over again expenses to the MA ** This column represents the amount of costs claimed by the beneficiary

Indicators

Indicator 1	Private investment matching public support for innovation or R&D projects (all activities), Measure Unit: евро, Base Value: 0.00 , Target amount: 378 849.45 , Reached amount: 329 191.26
Indicator 2	Number of enterprises receiving support, Measure Unit: предприятия, Base Value: 0.00 , Target amount: 1.00 , Reached amount: 1.00

Financial Information

Total Project cost	1 520 570.24 BGN
Grant	779 605.12 BGN
Self amount	740 965.12 BGN
Total actual amounts paid	672 033.17 BGN
Percentage of EU co-financing	85.00 %

Financial Corrections

None

Notes:

¹ The quoted value represents the maximum amount of the imposed financial correction. Depending on the performance of the contract, the actual amount of the deducted financial correction may be lower.

² A financial correction with a zero total value means that it has been canceled as a result of a court judgment.

Procurements

Procedure 1	Subject to due process: Възлагане на научно-изследователска дейност - Обзор, анализ и оценка на научни изследвания за когнитивно свързване на данни , Estimated Amount: 350 000.00 Differentiated position 1: Възлагане на научно-изследователска дейност - Обзор, анализ и оценка на научни изследвания за когнитивно свързване на данни Contractor: A Data Pro Contract total funded value: 172 500.00
Procedure 2	Subject to due process: Възлагане на научно-изследователска дейност - Обзор, анализ и оценка на научни изследвания за когнитивно свързване на данни Обзор, анализ и оценка на научни изследвания, водещи разработки и продукти в областта на когнитивно съпоставяне и свързване на хетерогенни масиви от данни и текст. Тази област включва, но не е ограничена до, задачи известни като: дедупликация, свързване на обекти, разпознаване на обекти (deduplication, entity linking, instance matching, entity recognition). Тази услуга трябва да включва методика за избор на научна литература и водещи разработки, обзор на анализираната литература, методика за анализ и сравнение на избраните водещи разработки и продукти, резултати от анализа и оценката. Анализът и оценката на изследванията и разработките трябва да включва информация за: - Акуратност (precision) - Пълнота (recall) - Производителност (напр. колко памет и процесорно време са нужни за свързването на 1000 компании) - Необходими хардуерни и софтуерна платформи, Estimated Amount: 350 000.00 Differentiated position 1: Възлагане на научно-изследователска дейност: Обзор, анализ и оценка на научни изследвания за когнитивно свързване на данни Contractor: Contract total funded value:
Procedure 3	Subject to due process: Закупуване на масиви от данни за компании. , Estimated Amount: 200 000.00 Differentiated position 1: Закупуване на масиви от данни за компании. Contractor: Contract total funded value: Differentiated position 2: Закупуване на масиви от данни за компании. Contractor: Contract total funded value: Differentiated position 3: Закупуване на масиви от данни за компании. Contractor: SCALE FOCUS AD Contract total funded value: 99 225.00
Procedure 4	Subject to due process: Закупуване на специализиран софтуер - ДНА - Софтуер за ръчно сравняване и свързване на данни от различни източници (manual curation) , Estimated Amount: 95 000.00 Differentiated position 1: Закупуване на специализиран софтуер - ДНА - Софтуер за ръчно сравняване и свързване на данни от различни източници (manual curation) Contractor: U2C COMMUNICATIONS EOOD Contract total funded value: 65 660.00
Procedure 5	Subject to due process: Изработка на визуализационни табели, Estimated Amount: 600.00
Procedure 6	Subject to due process: Публикация на статия с резултатите от проекта, Estimated Amount: 1 000.00

Notes:

All amounts are in Bulgarian lev (BGN) / 1 EUR = 1,95583 BGN