УКРАЇНСЬКИЙ ЕПІГРАФІЧНИЙ КОРПУС


У відкритому доступні оприлюднено Ukrainian Epigraphic Corpus: Academic and Web-Based Texts (20th–21st Century) за авторством кандидата філологічних наук, доцента, докторанта кафедри прикладної лінгвістики, порівняльного мовознавства та перекладу Амест Тамразян.


Цей набір даних містить корпус українських епіграфічних текстів, зібраних із наукових публікацій, матеріалів конференцій та веб-джерел. Корпус призначений для лінгвістичного аналізу, виокремлення термінів і розробки словника системи простої організації знань (SKOS) для української епіграфіки.


Корпус включає 292 документи з понад 1 290 000 токенів і 778 104 слів, які відбивають комплексну мовну та історичну репрезентацію українських написів. Корпус містить тексти періоду від другої половини ХХ століття до 2024 року, що охоплюють різні регіони України, такі як Київ, Галичина та Чернігів. Джерела варіюються від книг і монографій до веб-епіграфічних обговорень, що забезпечує як академічну точність, так і сучасність.


Обробка даних проводилася за допомогою Sketch Engine, включаючи токенізацію, лематизацію та тегування частин мови для полегшення точної ідентифікації термінів і частотного аналізу. Цей корпус особливо цінний для дослідників епіграфіки, лінгвістики, цифрових гуманітарних наук і термінологій.


AT 2025