Saved trees
UMIS AND ITS USERS CONTRIBUTED TO SAVING 55 065 TREES
Български

Programme: Innovations and Competitiveness

Planning region: All

Description

The project will develop technologies for automatic matching and linking of information about legal organizations from various datasets. We will use AI technologies: machine learning, semantic modeling, data integration, logical inference and validation. This will result in new functionality added to our leading products: Ontotext Platform and  Cognitive Cloud. This will improve the company's competitiveness and will increase  the market of these products. Ontotext Platform is a technology for cognitive analysis of data bases and information. The platform enables the integration of structured information into huge Knowledge Graphs comprising information about millions of concepts, entities (people, organizations, places, products) and the relations between them. Entity descriptions augment each other and can be analyzed using cognitive methods, similar to those used by the neural net of the human brain.Theplatform calculates, for example, measures of importance and similarity between entities and concepts and recognizes implicit relations between companies.Knowledge Graphs include rich context and enable "understanding" of the concepts, which allows their precise recognition and disambiguation from similar concepts in text. Such knowledge enables the Ontotext Platform to "read" text, perform semantic indexing, and to extract new knowledge.The platform is already in use by a number of world leaders in the publishing and information business, such as Financial Times, Standard and Poor’s, Nikkei. Its wider-scale use is limited by the large effort required for creating Knowledge Graphs in specific areas, which increases the time and cost required for deployment. The goal of this project is to enrich the platform with a technology for automating the creation of Knowledge Graphs through the intelligent matching and linking of company data from several sources. This will enable the widespread deployment of the Ontotext Platform in many more application domains.
Activities
Activity Contracted Amount Reported Amount
Избор на когнитивни методи за свързване на данни за компании: Това е най-важната дейност по проекта, защото предопределя много от останалите дейности и качеството на модулите, които ще бъдат разработени.СИРМА ЕЙ АЙ АД има опит в работа с данни от множество източници (виж секция Надграждане на резултати от проекти по Рамковите програми), но за проекта са необходими допълнителна експертиза и изследвания в следните направления: 1. Методи за автоматизирано съпоставяне на схеми на данни между различни бази данни (ontology mapping) 2. Когнитивен анализ на графи от знания (Knowledge Graphs), включително методи за ранкиране по сходство на възли в графи, автоматично класифициране на информация (например, класифициране на компании по индустриални сектори). 3. Методи за съпоставяне и свързване на обекти в Knowledge Graphs по различни характеристики. Напр. близостта на адресите на две компании може да означава, че те са свързани. Но това не е вярно за адрес “София, ул. Кукуш 2”, защото там се намира Бизнесцентър "Антим Тауър", в който има множество несвързани компании. 4. Методи за комбиниране на различните характеристики за близост, например чрез тегла. Методи за настройване на тези тегла чрез само-обучение от примери 5. Методи за определяне на близост на обекти чрез контекстуален текстов анализ (co-occurence). Това служи за различаване (disambiguation) на компании: както при свързване между масиви от данни (например описание на икономическата дейност в свободен текст от официален регистър към описание на компания в Уикипедия на съответния език), така и разпознаване на компания в свободен текст (Entity Recognition). ОБЩА ЗАБЕЛЕЖКА за всички дейности: включили сме почти 30 души в екипа на проекта. Такъв широк екип е необходим, за да може да се възползваме оптимално от специфичните умения и експертиза на всеки член на екипа. Всеки член е планирано да работи между 8 и 14 месеца по проекта през общата продължителност от 24 месеца. Това ни дава гъвкавостта да превключваме хора между различни проекти, за да отговорим на динамично променящите се нужди на бизнеса (няма как да сме сигурни какви проекти ще изпълнява СИРМА ЕЙ АЙ ЕАД след 1.5 и след 2 години). В секция Екип сме посочили месециte, в които всеки член ще работи, но в случай, че се налага може да променяме конкретните месеци според протичането на този и проект. Няма да променяме общата сума човеко/месеци за всеки член без консултация с УО, и ако се наложи такава промяна, ще заменим с друг служител, който покрива минималните изисквания посочени за съответния член на екипа. Оценката на необходимия труд се базира на нашия огромен опит с научно-изследователска дейност: над 2400 човеко-месеца и над 35 проекта. 497 713.28 469 487.40
Семантична интеграция на данни за компании от различни източници: Данните за компании са основният материал, с който ще работи проектът. Целта на тази задача е да изгради достатъчен по обем и сложност хармонизиран (семантично интегриран) набор от данни, който да послужи за разработка на алгоритмите и методите за съпоставяне и свързване. Това включва различни по естество данни (виж СРАВНИТЕЛЕН АНАЛИЗ НА РАЗРАБОТВАНАТА ИНОВАЦИЯ за повече детайли): - Официални регистри на компании (по света има над 650 регистъра); - Източници на отворени данни като DBpedia, Wikidata, Global Legal Entity Identifier (GLEI), Panama Papers / Linked Leaks (215 хиляди офшорни компании), LittleSis (колаборативна разработка на данни за връзки между компании); - Полу-комерсиални източници: OpenCorporates (интегрира данни от 125 официални регистъра) и BRIS (интегрира данни от Европейски регистри); - Комерсиални доставчици на изчерпателни бази данни: Dun amp; Bradstreet, Bureau van Dijk, Factset, Capital IQ (Samp;P), и пр. - Доставчици на данни ориентирани към инвеститори (данни за стартъпи, инвеститори, определени инвестиции, новини от компаниите): CrunchBase, PitchBook, CBI, Mattermark; - Новини и други текстови източници, които описват връзки между компании (например дъщерно дружество или придобиване), връзки на хора (напр. директор, член на борда), събития за компании и продукти (напр. спечелена сделка/търг, нови назначения, финансови резултати, анонс на нови продукти и услуги) Данните от различни доставчици се различават значително по формат, структура, обхват (както географски така и в обхвата на полетата информация), смисъл, използвани кодови листи и пр. За ефективна работа с тези данни ще ги хармонизираме и интегрираме използвайки семантични технологии и нашата семантична база данни Ontotext GraphDB. Тоест ще трансформираме хетерогенните набори от данни в граф от знания (Knowledge Graph). Ще използваме семантичните модели разработвани в проекта euBusinessGraph (euBusinessGraph Semantic Data Model, https://docs.google.com/document/d/1dhMOTlIOC6dOK_jksJRX0CB-GIRoiYY6fWtCnZArUhU/edit, виж повече детайли в секция Надграждане на резултати от ЕС проекти), които ще се доразвият при нужда. 384 641.60 333 641.68
Когнитивно съпоставяне и свързване на данни: Това е задачата в проекта, която се характеризира с най-голяма техническа сложност. Целта на задачата е да създаде модули за съпоставяне и свързване на данни (както и разпознаване на обекти в текст), използвайки методи на изкуствения интелект, като реализира алгоритмите избрани в задача 1 и използва за основа данните, интегрирани в задача 2. За тази цел трябва да се реализират следните под-задачи. 322 724.64 279 361.64
Интеграция с Ontotext Platform и Cognitive Cloud, демонстрационни прототипи: Целта на тази дейност е да интегрира разработените модули за когнитивно съпоставяне и свързване с продуктите наСИРМА ЕЙ АЙ ЕАД, за да се получи цялостен прототип за тестване в лабораторни условия. Тези продукти включват: - Ontotext Platform, което е цялостна платформа за семантична интеграция и съхранение на данни, логически извод, както и семантичен текст анализ. В основата на тази платформа е семантичната база Ontotext GraphDB. - Ontotext Cognitive Cloud, което е облачно-базиран софтуер (Platform as a Service, PaaS) за предоставяне на семантични услуги (Software as a Service, SaaS) и управлявани бази данни (managed Database as a Service, DBaаS). Освен интеграция ще се разработят и специфични функционалности в двата продукта. Необходимостта от такава интеграция се диктува от следните съображения: - Модулите за свързване трябва да получават данните си от GraphDB. Въпросите, които трябва да се адресират са обем (Volume) и актуализация (Velocity) - Модулите за свързване трябва да предоставят резултатите си в семантичен вид, за интегрирано използване заедно с данни от GraphDB - За по-лесна консумация на данните от потребителите те трябва да се предоставят в облачна среда (Ontotext Cognitive Cloud). Така потребителят няма нужда да прави капиталови разходи (хардуер, закупуване на данни, софтуерни лицензи) и да се грижи за сложно инсталиране на бази, семантични услуги, зареждане на данни и пр. Тази дейност ще се изпълни изцяло от екип на СИРМА ЕЙ АЙ ЕАД, тъй като включва специфична работа с продукти на СИРМА ЕЙ АЙ ЕАД. Необходимият обем труд е 114 човеко/месеца, които ще се извършат основно от GraphDB и Cloud екипите на СИРМА ЕЙ АЙ ЕАД. Освен детайлните технически под-задачи описани в следващата точка са нужни и следните спомагателни дейности: - Технически мениджмънт на проекта и продуктов мениджмънт (новите разработвани функционалности да се вписват добре със съществуващите функционалности на Ontotext Platform и Cognitive Cloud). - Системна администрация (инсталиране на виртуални машини, инсталиране и конфигуриране на сървъри, мрежова администрация) - Софтуерна автоматизация (continuous integration, automated regression testing, автоматизирано вдигане на сървъри и зареждане на набори от данни, test-driven development) - Тестване на разработения софтуер като функционалност и потребителски интерфейс (оценяването интелигентните алгоритми е включено в задача 3) - Графичен дизайн на демонстрационните приложения - Техническа документация на лабораторните прототипи 350 819.04 224 055.62
Визуализация на проекта: Поставяне на табела за проекта - 2 бр. Публикуване на статия в престижно издание - 1 бр. 1 600.00 0.00

Notes:

Elements in light blue allow detailed view when selected
All amounts are in Bulgarian lev (BGN) / 1 EUR = 1,95583 BGN
The project is financed by the Operational Programme "Technical Assistance" and co-financed by the European Union through the European Regional Development Fund.
In implementing the project № 0115-CCU-2.1 "Information system for management and monitoring of EU funds in 2014-2020 - UMIS 2020" (BG161PO002-2.1.01-0007-C0001).