ГоловнаТехнології

​ІТ-волонтери проти російської дезінформації, або Як допомога РНБО переросла в далекосяжний ШІ-стартап. Історія Mantis Analytics

Антон Тарасюк, Максим Терещенко й Остап Вихопень — співзасновники Mantis Analytics, ШІ-платформи, що моніторить інфополе в режимі реального часу. Її використовують для ризик-менеджменту і в бізнесі, і в урядових органах. Утім ані бути стартапом, ані єдиною командою хлопці не планували — компанія виросла з волонтерської ІТ-ініціативи, що допомагала й допомагає РНБО з аналізом російських дезінформаційних кампаній.


Ми поспілкувалися з Антоном й Остапом про шлях від волонтерського чату ML-спільноти до стартапу, про волонтерство при комерційній компанії та суворий добір людей, про технологічну й наукову базу ШІ для ефективного визначення російської дезінформації.

Остап, Максим й Антон у футболках з логотипом <i>Mantis Analytics</i>
Фото: Mantis Analytics
Остап, Максим й Антон у футболках з логотипом Mantis Analytics

Для зручності оповіді слова хлопців поєднано в суцільний текст від їхнього імені з деякими приписками авторки. Крім того, у матеріалі багато термінів — більшість потрібних визначень ви знайдете наприкінці тексту.

Березень 2022. Волонтерський марафон й ідея

Пам’ятаєте березень 2022 року? Хвиля обурення повномасштабним вторгненням Росії, невідомість. І величезне бажання чи не кожної свідомої людини чимось допомогти.

Зараз, звісно, такий запал у багатьох людей ущух, та тоді…

Поза глобальним волонтерським рухом підтримки війська й допомоги біженцям фахівці з різних галузей об’єднувались у групи, створювали чати й долучалися до спротиву — хто чим. Піарники, маркетологи й журналісти координувалися, тиснучи на ворога інформаційно й поширюючи заклики про допомогу на іноземні аудиторії. Айтівці (та й не лише вони) активно атакували вебресурси Росії. І чудово давали собі раду — судячи з даних DDoS-Guard, інфраструктуру сусідів у 2022-му атакували на 700 % більше, ніж у 2021 році.

Звісно, свої чати мала й ML-спільнота1. В одному й зародилася ідея допомогти в інформаційній боротьбі, використовуючи можливості штучного інтелекту. Пропозиція є. Фахівці є. Можливостей — безліч.

У перші місяці великої війни з Росією достукатися можна було до кого завгодно. Не давали хіба що телефону президента.

І от певної миті чи то нам трапився контакт з РНБО, чи то РНБО сама вийшла на зв’язок — зараз ніхто вже й не згадає. Їй потрібно було максимально автоматизувати моніторинг російського інформаційного простору. А ми — точніше тоді Максим (нині СЕО компанії) та ще кілька учасників спільноти — взялися до роботи.

Довкола цієї взаємодії й почав формуватися кістяк команди. У 2022–2023 роках колектив, як і в багатьох волонтерських ініціативах, був плинним і змінювався досить хаотично: люди постійно долучалися або ж йшли з проєкту. Хтось не витягував додаткового до роботи (та ще й осмислення нової реальності) навантаження. Хтось просто з часом випадав з процесів. Кілька людей, що залишилися, стали ключовими членами команди. Наприклад, ML Lead проєкту Володимир Сидорський.

Антон Тарасюк, нині Expertise Lead, уперше почав контактувати з Максимом й іншими волонтерами з ML-спільноти в жовтні-листопаді 2022 року. Тоді він працював над проєктом моніторингу іноземних ЗМІ — автоматизованим рішенням, що акумулювало всі матеріали, у заголовках яких фігурувала Україна.

«Цей проєкт я створював… для вічності: просто цікава ідея, яка теоретично могла б згодом принести користь», — згадує Антон.

Напрямки, у яких працювали хлопці, були схожі — і зусилля вирішили об'єднати.

СТО компанії Остап Вихопень приєднався навесні 2023 року — коли Mantis Analytics уже перебувала на ранньому етапі становлення стартапу.

Протидія дезінформації. Як формувалася експертиза

НАТО має двосторонню модель протидії дезінформації. Її складові — understand (англ. «розуміти») й engage (англ. «діяти»).

Understand — це збір інформації та її аналіз. У нашому випадку треба розуміти, що говорять росіяни та як просувають свої ідеї. І ця частина чудово автоматизується за допомогою штучного інтелекту, вивільняючи ресурс людей на engage — відповідну реакцію на ці інформаційні кампанії.

Брифувати партнерів, упроваджувати антикризові заходи, виходити із заявами та спростуваннями — усього цього штучний інтелект робити ніяк не може. Тож ми взялися за understand, поставивши собі за мету максимально прибрати із цієї частини людей. Тобто забрати в аналітиків РНБО потребу руками збирати дані з різноманітних джерел в умовні Excel-таблиці, при цьому аналізуючи кожне повідомлення або новину на наявність дезінформації та маніпуляцій.

Щоб поставити проєкт з автоматичної детекції потенційної дезінформації на перші рейки, почали співпрацювати з однією з головних фактчекінгових організацій України — VoxCheck. Це професійні фактчекери, які розбираються не лише в дезінформації, а й методологіях оцінки, розуміють, як коректно працювати з чутливою темою війни, співпрацюють з Meta й IFCN. Вони дуже допомогли нам з оцінкою первинного набору даних.

Досить швидко сформувався пул із 70 інформаційних кампаній РФ щодо України: наративи росіян про Крим, Донбас, західну допомогу тощо. Власне, цей перелік тем зберігається й досі.

Приклад класичної кампанії зі звіту про російське інфополе. У Молдові нині активно просувають думку «Вам не варто приєднуватись до ЄС в одному пакеті з Україною, адже вона ніколи не стане членкинею». Такі наративи можуть впливати на партнерство та потенційну роль України в регіоні.

Ефективність першого проєкту з РНБО вимірювали за допомогою метрики, яку назвали Acceptance Rate. Ця система оцінювання визначала, наскільки звіт, згенерований за допомогою ШІ, погоджували аналітики РНБО без подальших втручань і правок.

Початковий рівень Acceptance Rate був низьким, приблизно 20–30 %. Протягом шести-семи місяців показник піднявся до стабільних 80 %, і зараз він поступово зростає. Урешті, наша задача — навчити модель оцінювати не гірше від фахових аналітиків-людей, щоб ті витрачали час і ресурси виключно на протидію ворожим кампаніям.

Панель детекції пропагандистських технік 
Фото: Mantis Analytics
Панель детекції пропагандистських технік 

З часом, крім моніторингу інформаційного поля, нашарувалися й інші задачі: виявлення маніпулятивних технік і пропаганди тощо. Усі вони взаємопов'язані. Отримуєш певну аналітику й думаєш: «О, а можливо, на це ще й так подивитися?» — і ось ви з командою вже створюєте нову фічу.

Типові дезінформаційні кампанії. «Біолабораторії НАТО» й Маріуполь

Ще до лютого 2022 року росіяни наполегливо просували кампанію про нібито розташовані в Україні біолабораторії НАТО. Свого піка вони сягнули 25 лютого — під час облоги Маріуполя. Тоді активно розганяли меседж про «біолабораторію НАТО, яка розміщена під Азовсталлю».

Цільова аудиторія кампанії, звісно, росіяни. В українському інфопросторі цю нісенітницю дублювали переважно замасковані під українські російські канали. Тобто здебільшого ми як суспільство цього не бачили й не чули. Ба більше — за водоспадом новин, які сповіщали про ситуацію на тих чи інших ділянках фронту, вловити це було майже неможливо.

Які, в біса, біолабораторії, коли ракети цілять у лікарні?

А втім, ця інформаційна атака була досить потужною та скоординованою. Упроваджена, аби виправдати події в Маріуполі, пояснити так звані причини облоги, а потім і знищення міста росіянами, як би гірко й гидко зараз це не звучало.

Ще один наратив російської кампанії — «біолабораторії, фінансовані США, розташовані біля російських кордонів в Україні, Казахстані, Грузії, Вірменії та країнах Балтії»
Фото: Mantis Analytics
Ще один наратив російської кампанії — «біолабораторії, фінансовані США, розташовані біля російських кордонів в Україні, Казахстані, Грузії, Вірменії та країнах Балтії»

Нині дуже схожу інформаційну кампанію розгортають у Китаї, який розігрує таку карту з Тайванем. У співпраці з тайванською Doublethink Lab ми досліджували, наскільки російська інформація про Тайвань автономна від китайської пропаганди та як це може впливати на міжнародні відносини.

Аналіз наративу «Тайвань — невіддільна частина Китаю» в російських ЗМІ після лютого 2022 року
Фото: Mantis Analytics
Аналіз наративу «Тайвань — невіддільна частина Китаю» в російських ЗМІ після лютого 2022 року

Крім того, ми зараз досліджуємо тему російських експатів й емігрантів у країнах Балтії. Виїжджаючи з Росії, вони беруть зі собою не лише валізки, але й переконання. І залишаються вразливими до російської пропаганди: фізично перебуваючи за кордоном, нерідко поширюють шкідливі і для нас, і для всього цивілізованого світу наративи.

Залучення коштів. Гранти від Brave1 і Mediengeist

Щоб розвивати технології, у певний момент ми, природно, звернулися по фінансову підтримку. Волонтерський чи ні, масштабний ІТ-проєкт вимагає значних вкладень в інфраструктуру. А ще full-time фахівців для його розвитку. Ми не стягували цього всього лиш власним коштом.

Тож щойно почав функціонувати Brave1 — кластер для розвитку безпекових технологій в Україні, ми подалися на грант. Пройшли серйозний відбір, адже всі проєкти верифікують. Щоб узяти участь, потрібно підтвердити: ти дійсно працюєш з організаціями (або є такою організацією), залученими до оборони держави.

Урешті, опинилися в десятці перших проєктів, які отримали від Brave1 фінансову підтримку — $25 000.

Ці гроші, по-перше, допомогли нам зробити ряд послуг для РНБО й інших органів, залучених до оборони держави. Не лише щодо дезінформації, але й збору й аналізу інших публічних даних за певними критеріями.

Частину цих рішень наші органи інтегрували у власні all inclusive системи для моніторингу, підсиливши їх на певних напрямках.

По-друге, ми нарешті найняли нашого першого full-time LLM-інженера, який вивів модель для детекції дезінформації на новий рівень якості.

Згодом отримали ще кілька грантів. Один з них — у рамках акселератора проєктів з протидії дезінформації Mediengeist 2.0, який організували німецький Goethe-Institut Ukraine й українське науково-популярне медіа «Куншт».

Антон презентує проєкт з протидії дезінформації на <i>Mediengeist 2.0</i>
Фото: Mantis Analytics
Антон презентує проєкт з протидії дезінформації на Mediengeist 2.0

Звісно, грантові кошти йдуть виключно на проєкти, пов’язані з обороною та інформаційною безпекою України.

Лютий 2023. Марафон з планування й корпоратизація

На початку 2023 року ми активно розмірковували над розвитком проєкту. Сиділи, спілкувалися — хто й де бачить себе, як ми бачимо подальшу долю всіх наших напрацювань. На той час усе більше людей зверталися до нас по допомогу: якщо протягом першої половини 2022 року ми працювали переважно з РНБО й деякими іншими силовими структурами, то згодом почали активно допомагати медіа й різноманітним громадським ініціативам.

Тоді ж відчули, що ця робота не лише цікава для нас і корисна для України, але й може стати комерційно привабливою — якщо відповідно адаптувати й покращити напрацювання.

Усе, що потрібно стартапу на початку, ми вже мали: ідея, команда й продукт. До того ж первинний набір клієнтів.

Ми вирішили просунутися за рамки аналізу дезінформації, пропаганди й маніпуляцій. І зайти у B2B-сектор як компанія, що надає послуги з комплексного моніторингу й аналізу інформаційних і фізичних ризиків.

Це на рівні відчуттів… ти просто відчуваєш, чи живі ідея та продукт. Ми відчували, що так. А активності довкола повсякчас підтверджували, що те, що ми робимо, корисне, важливе й потрібне.

Тож ми почали оформлювати все документально. А це поступовий і кропіткий процес, що зайняв близько дев'яти місяців — офіційно як компанія ми народилися у грудні 2023 року.

Остап на конференції з питань оборонної промислової бази США — Україна в Білому домі
Фото: Mantis Analytics
Остап на конференції з питань оборонної промислової бази США — Україна в Білому домі

Навесні 2023-го до проєкту приєднався СТО компанії — Остап. Він мав систематизувати всі проєкти, технології та процеси, розвивати їх у потрібних компанії напрямках. Фактично збирати цілісний продукт із розрізнених фрагментів.

«Хтось займався пропагандою, ще хтось виявляв локації. Усе це круті проєкти, але їх будували розрізнено та спонтанно. Слід було навести лад і задати вектор подальшого розвитку», — розповідає Остап.

Паралельно ми дбали про маркетинг, позиціювання, оточували себе фахівцями з галузі інформаційної безпеки, нагадували про стартап на всіляких конференціях. І, звісно ж, почали залучати інвестиції.

Вересень 2023. Інвестиції, розблокування контрактів і складнощі ринку

Залучення інвестицій — окремий процес, який включає як етап рейзу, так і (в нашому випадку) тривалу прелюдію. Ми довго вели перемовини з потенційними інвесторами — знайомилися, будували довірчі стосунки, показували наші прогрес й ефективність. Не шукали швидких грошей і виважено сприймали кожну угоду.

Рейз ми розпочали восени 2023-го, на ІТ-арені у Львові — тоді отримали $50 тисяч від ангельського інвестора. Також нещодавно анонсували інвестицію $50 тисяч від ZAS Ventures. Приєдналися до одного з найбільших акселераторів для B2B-компаній на ранніх стадіях Alchemist Accelerator і залучили $30 тисяч інвестиції. На початку 2024 року виграли пітчинг The Copenhagen Democracy Tech Award на Копенгагенському саміті демократії. Окрім того, що це принесло $10 тисяч, вдалося показати наше рішення на сцені, де вели дискусії Урсула фон дер Ляєн, Санна Марін, колишній генсек НАТО Андерс Фог Расмуссен тощо.

Паралельно ведемо перемовини про залучення коштів ще з кількома десятками потенційних інвесторів. Маємо кілька м’яких зобов'язань, яких поки що не робимо публічними.Так, крок за кроком закриваємо раунд2, і все має цілком оптимістичний вигляд.

Сам процес залучення інвестицій трохи нагадує комп’ютерну гру. Усі інвестори мають певні вимоги — назвемо їх квестами. Виконуючи їх, компанія розблоковує інвестиційні контракти й переходить на новий рівень. Звісно, усе це не без складнощів. Зараз ринок інвестицій загалом не надто активний. А Україну ще й вважають країною з підвищеними ризиками. Часто перемовини проходять чудово, але, врешті-решт, тобі кажуть: «Прекрасний проєкт. Ми обов’язково вас підтримаємо. Нехай тільки ситуація стабілізується...». Однак навіть тут можна вгледіти переваги. Через кепський ринок проєктам доводиться більше спиратися на власні ресурси й швидше ставати на комерційні рейки, уникаючи так званих бульбашкових проєктів3.

Залучені кошти ми спрямовуємо на розвиток платформи для аналізу ризиків, виводячи її на рівень готового продукту. Усе ж різниця між прототипом та готовим до реалізації серед клієнтів продуктом, величезна. І ключову роль у подоланні цієї різниці відіграють саме кошти. До початку продажів підписок вона має бути ефективною, безпечною в контексті захисту даних та дружньою до користувача.

Як усе працює. Аналіз ризиків для компанії Х

Уявімо компанію Х (вигадану, а не ту, що колись була Twitter :), що присутня на ринках різних країн. Їй потрібна допомога з аналізом репутаційних і фізичних ризиків.

У першому випадку за допомогою ML-моделі ми досліджуємо медіа й інтернет, шукаючи згадки про компанію. Аналізуємо наративи, виявляємо дезінформацію, проводимо моніторинг інформаційних атак.

У другому моніторимо інформацію, яка пов’язана з близькими до діяльності Х галузями в кожній країні, стежимо за ситуаціями на місцях загалом. Це допомагає виявити потенційні законодавчі зміни, які вплинуть на компанію, або ж показати ризик виникнення конфліктів у певному регіоні.

Для різних напрямків аналізу ми використовуємо різні моделі. Після цього формуємо звіт у вигляді графіків, позначок на мапах тощо.

Волонтерство. Етапи відбору, NDA-договори та найм

Зараз робота нашої компанії поділена на два сегменти. Перший включає комерційні проєкти. Другий — волонтерську діяльність на оборону України.

Ми разом — Максим, Антон й Остап — куруємо обидва напрямки, але до них залучені різні фахівці. Над ШІ-платформою платформою працюють шість людей у штаті. Ще вісім людей — волонтери — долучені до проєктів на кшталт детекції дезінформації для РНБО. 

Здебільшого команда складається з NLP Engineer, ML Engineer, Frontend і Backend Engineer, Q&A та Data Scientist — стандартного колективу, що спеціалізується на роботі зі штучним інтелектом.

Частину «своїх» ми знаходимо на тематичних заходах, наприклад, хакатонах. Частина долучається через сарафанне радіо у спільноті — і неважливо, в Україні людина чи за кордоном.

Наприклад, нещодавно до нас як волонтер доєднався Артем. Він навчається в Бостоні та спеціалізується на кібербезпеці. Для нього це одночасно і застосування знань, і, звісно, добра справа.

Артем, волонтер у <i>Mantis Analytics</i>
Фото: Mantis Analytics
Артем, волонтер у Mantis Analytics

Звісно, ми не приймаємо до лав волонтерів абикого. Усі кандидати проходять перевірку, перш ніж їх долучають до спільноти.

По-перше, це мотиваційне інтерв’ю — нам необхідно розуміти цілі людини та її цінності. По-друге, технічна співбесіда, де ми оцінюємо навички людини. По-третє — бекграунд-чек. Нам важливо розуміти історію людини, чи не було скандалів, чи не пов'язана вона, врешті-решт, з країною-агресором. І, по-четверте, підписання волонтерського договору.

Інформація, з якою доводиться працювати волонтерам, може бути чутливою. Для деяких проєктів волонтерів окремо просять підписати NDA — договір про нерозголошення інформації.

У всьому іншому робота і працівника, і волонтера в Mantis Analytics мало чим відрізняється від роботи у класичному технологічному стартапі. Хіба що у волонтерів більший потік людей та інший рівень навантаження й зобов’язань. Ці показники різняться від людини до людини, але в середньому ми очікуємо від волонтерів до восьми годин роботи на тиждень.

Якщо людина показує себе добре, а в нашій внутрішній команді з’являється вакансія відповідної спеціалізації, то пропонуємо волонтеру/волонтерці приєднатися до команди вже на комерційній основі. Це про повагу, адже наші волонтери — гарні фахівці, і про вдячність — ми дуже цінуємо їхній внесок.

Вікторія, <i>ML Engineer</i> в <i>Mantis Analytics</i>
Фото: Mantis Analytics
Вікторія, ML Engineer в Mantis Analytics


Нещодавній приклад — наша ML Engineer Вікторія. Коли вона полишила попередню роботу, то, по-перше, хотіла відпочити. А по-друге, долучитися до проєктів й ініціатив, які працюють на Україну та її захист. Вікторія приєдналася до проєкту як волонтерка, а нині працює як співробітниця.

Будьмо чесні — волонтерська історія компанії допомогла й допомагає «забирати» дійсно кваліфікованих фахівців. Участь в інформаційному спротиві — потужна мотивація приєднатися до стартапу на ранніх етапах його існування.

Робота з ШІ. Збір, фільтрація даних і специфіка Telegram

Наразі ми активно збираємо інформацію і з російських, і з українських джерел, моніторячи обидва інформаційні простори. Додаються й інші країни Східної Європи. Не так давно ми попрацювали з організацією в Молдові й почали звертати увагу на тамтешній сегмент. Як виявилося, багато каналів, які вдають із себе «істинно» молдовські, насправді ведуться росіянами.

Тож обсяг даних, які ми аналізуємо, просто зростає. Наприклад, можемо аналізувати дані про конфлікт між Ізраїлем і ХАМАС, який також активно представлений у Telegram.

Цей месенджер — узагалі окрема тема для розмови. Відсутність регулювання й модерації робить його щедрим джерелом дезінформації та маніпуляцій. Хоча можна мати й користь — наприклад, прямі відеодокази російських воєнних злочинів. На інших платформах такі речі зазвичай не затримуються.

Станом на 2023 рік близько 72 % українців використовували Telegram як джерело новин. Через таку популярність і неконтрольованість контенту в месенджері 25 березня 2024 року у Верховній Раді зареєстрували законопроєкт про регулювання інформаційних платформ, зокрема месенджерів.

Потік даних із цього месенджера ми отримуємо практично миттєво — у режимі реального часу.

Щоденно моніторимо близько 100 тисяч каналів, і ця кількість постійно зростає, як і обсяг повідомлень, що наразі становить 5–6 мільйонів. Усе це, звісно, відкриті дані. Приватні повідомлення ми ніяк не можемо подивитися. Та й це вже кримінал.

Вікно операційного моніторингу на картах 
Фото: Mantis Analytics
Вікно операційного моніторингу на картах 

А щодо фільтрації даних… Уявіть, що в нас є канал у соцмережах, який до кожного посту додає беззмістовну приписку, що слугує цілям брендування, скажімо: «Новини — Київ».

Іноді такі приписки можуть бути дуже довгими. Цей контент не несе ніякої інформації, але машиною може розпізнаватися як те, що потребує уваги, і буде використаний як текст. Нам це не потрібно, бо, з нашого погляду, це шум.

Для кожного такого каналу маємо спосіб визначити подібні префікси й постфікси, щоб прибрати шум. Це один спосіб. Є й інші, як є й інші види шуму.

Виявлення дезінформації. Науковий підхід й академічна команда

Використовуючи штучний інтелект під час аналізу дезінформації, слід бути особливо обережним. Її не завжди можна визначити лише за текстом, а наші моделі працюють саме на їх рівні.

Ми не даємо остаточних висновків. Але можемо говорити про ймовірність маніпуляції, її масштаби, емоційне навантаження й інші фактори, що впливають на сприйняття. У цьому ми спираємося на 18 науково обґрунтованих технік пропаганди, на кшталт слоганізації4 чи вотебаутизму5. Ці техніки, зокрема, підтверджені дослідженнями з квантитативними підходами6 для аналізу текстів.

Наукова доведеність — питання культури для нас. Ми намагаємося якомога більше спиратися на обґрунтовані судження, академічну базу. Навіть колектив академічний: наприклад, наша Вероніка закінчує докторантуру з ШІ Вільного Університету Берліна, Микита — студент Оксфорду, Остап нині вивчає бізнес в УКУ.

Вероніка, <i>NLP Engineer у Mantis Analytics</i>
Фото: Mantis Analytics
Вероніка, NLP Engineer у Mantis Analytics

На початковому етапі роботи ми аналізуємо потреби людей, які будуть користуватися нашими системами, визначаємо можливі когнітивні хиби, що впливають на оцінку роботи моделей, розробляємо методики експериментів, які можна відтворити. Це основа, якої необхідно дотримуватися в роботі зі штучним інтелектом.

Під час розробки моделей аналізуємо їхні ключові показники для початкової та покращеної версій, щоб оцінити їхню точність і якість роботи з конкретним набором даних. Також слідкуємо за швидкістю роботи моделі — аналізуємо computational costs й інші обмеження.

Збираємо оцінку за ключовими метриками для певної версії моделі, потім збираємо ці самі метрики для її наступної версії й порівнюємо, наскільки чітко модель працює на відповідному наборі даних. Крім того, вимірюємо швидкодію. Разом з технічними метриками дивимося й на галузеві. Останнє, до речі — задача із зірочкою.

Бо одна річ, навчати ШІ на вже давно усталених практиках. І зовсім інша — навчати його працювати на потреби галузі, в якій відсутні стандарти.

Середніх, загальноприйнятих систем оцінки в питанні дезінформації немає. Проблеми починаються навіть на рівні термінології — поняття «дезінформація» по-різному використовують у регуляторних політиках і юридичних документах країн, і більшість з них мають власні концепції.

У повсякденні ж люди часто схильні називати неправдивою інформацію ту, яка їм просто не до вподоби. Усе це ускладнює нашу задачу, але не робить її неможливою.

Скажімо, ми оцінили ймовірність того, що певний контент є підозрілим, на 83 %. Щоб прийняти рішення, потрібна внутрішня шкала. Це одна із задач, над якою ми працюємо.

Технічне підґрунтя. Розробка сервісів і систем з Machine Learning

Розробка сервісів і систем з використанням ML складається з певних етапів.

Ми збираємо сирі дані з вибірок телеграм-каналів, медіа й інших ресурсів. Далі, залежно від специфіки задачі, розмічаємо ці дані вручну або ж генеруємо розмітку за допомогою LLM (GPT, MISTRAL, LLaMA). Інколи використовуємо загальнодоступні датасети. Як правило, дані, з якими ми працюємо, охоплюють три мови: українську, англійську та російську.

Після цього вводимо метрики — чіткі, вимірювані критерії для оцінки ефективності NLP моделей.

Далі йде етап проєктування й навчання моделей. Часто використовуємо open-source моделі, які вже були навчені робити великий діапазон задач, а потім дотреновуємо ці моделі на наших даних, щоб досягти розумних прогнозувань під наші конкретні задачі та специфічний домен.

На наступному етапі проєктуємо архітектуру, за допомогою якої отримуємо дані, обробляємо й віддаємо кінцевому користувачеві.

Вікно моніторингу трендів і наративів
Фото: Mantis Analytics
Вікно моніторингу трендів і наративів

Для нас пріоритетними є етичність, висока якість, масштабування, стійкість рішення й незалежність від зовнішніх API-сервісів, адже це ключ до вищої якості та кращих результатів.

Багато компаній, які вважають себе AI-компаніями, фактично просто перепаковують популярні моделі. А ми не хочемо бути R&D-командою ChatGPT.


Ми будуємо власні рішення із застосуванням ML і постійно покращуємо їх у потрібних напрямках. Вони можуть ідентифікувати більше кейсів, і ці критерії ідентифікації збігаються з якісними стандартами, прийнятими в індустрії. Це важливо для фактчекерів, які використовують наші моделі.

Моделі глибокого навчання для завдань обробки природної мови (NLP), які використовує Mantis Analytics:

— Трансформери із сімейств T5 і BART для підсумовування тексту;

— Трансформери, які використовують архітектури BERT і RoBERTa для класифікації текстів і розпізнавання іменованих сутностей (NER);


— Класичні техніки машинного навчання, такі як логістична регресія та бустинг у поєднанні з TF-IDF для класифікації текстів;

— Трансформери речень для некерованих методологій у текстовому аналізі, кластеризації та моделюванні тем.

Так, крок за кроком, ми отримуємо все кращі й масштабніші результати. Робота зі ШІ — це постійний, ітеративний процес. Наприклад, якщо на початку нашої роботи функцію пошуку дезінформації ми могли застосувати лише до одного фрагмента тексту (що непогано демонструвало можливості, але було не надто практично), то згодом перейшли до груп одиниць контенту: сто, тисяча, кілька тисяч тощо. До того ж сильно зросла і кількість критеріїв. Зараз моделі використовують близько 1000 критеріїв детекції дезінформації.

Пам’ятаєте так званий «марш справєдлівості» в Росії, коли Пригожин, засновник ПВК «Вагнер» розвернув окупаційні війська в бік Москви?

Потік даних тоді був величезним і безперервно оновлювався. Наша команда отримала запити від різних організацій, включно з німецьким медіа. Їм потрібна була допомога, щоб зрозуміти потік контенту в Telegram і структурувати цю інформацію. Ми проаналізували понад 25 000 згадок події за ключовими питаннями, які цікавили журналістів. Наприклад, причини падіння літака. Наші моделі виділили понад 20 можливих причин, і їхній аналіз допоміг виявити декотрі фактори, які приховували росіяни. А від отримання нами запиту до надсилання журналістам звіту минуло близько чотирьох годин.

Досвід, який ми здобуваємо, внутрішні розуміння інформаційних кампаній важливі не лише для нас як компанії або ж окремих держструктур, з якими ми співпрацюємо, але й для всієї України.

Якщо ми так активно розвиваємося в галузі, що немає усталених практик, то наша робота й розробки претендують на те, щоб стати ними.

1 Machine Learning, ML — це галузь досліджень штучного інтелекту, яка зосереджена на розробці та вивченні алгоритмів, здатних навчатися з даних. Ці алгоритми можуть узагальнювати набуті знання в нові дані й виконувати завдання без явних інструкцій.

2 Раунд (наприклад, seed round) — це зазвичай офіційний етап залучення інвестицій для стартапу. На першому, seed-раунді, забезпечується фінансування (посівний капітал) в обмін на частку власності або підписання угоди про надання конвертованого капіталу або боргу на більш пізній термін.

3 Бульбашкові проєкти — це інвестиційні проєкти, які з’являються під час економічних бумів або інвестиційних бульбашок, характеризуються високим рівнем ризику та надмірною залежністю від зовнішнього фінансування. Вони часто не мають стійкої основи, перевіреного бізнес-плану або довгострокової стратегії, що робить їх вразливими до змін на ринку та знижує їхні шанси на виживання після спаду інвестиційного інтересу.

4 Слоганізація — це стратегія використання коротких, емоційно насичених фраз або слоганів для маніпуляції громадською думкою, формування ставлення та спонукання до певної поведінки. Ці слогани часто повторюються, аби закріпити певні ідеологічні концепції у свідомості мас, і є ключовим елементом пропагандистських кампаній.

5 Вотебаутизм (whataboutism) — риторична тактика, коли критику відкидають, а зосереджують увагу на інших проблемах, при цьому не спростовують первісних аргументів.

6 Квантитативні підходи в аналізі текстів дозволяють вимірювати й аналізувати інформацію на основі числових даних, що може включати частоту вживання певних слів, структуру тексту й інші кількісні характеристики. Ці методи є важливими для об'єктивного вивчення текстів і виявлення прихованих зразків у використанні мови.

Марія ГурськаМарія Гурська, журналістка
LB.ua в соцмережах: