Розроблення квантитативного методу автоматичного визначення авторства текстового контенту на основі статистичного аналізу розподілу N-грам


  • Vasyl Lytvyn Національний університет «Львівська політехніка» вул. С. Бандери, 12, м. Львів, Україна, 79013, Україна https://orcid.org/0000-0002-9676-0180
  • Victoria Vysotska Національний університет «Львівська політехніка» вул. С. Бандери, 12, м. Львів, Україна, 79013, Україна https://orcid.org/0000-0001-6417-3689
  • Ihor Budz Національний університет «Львівська політехніка» вул. С. Бандери, 12, м. Львів, Україна, 79013, Україна https://orcid.org/0000-0002-5400-0984
  • Yaroslav Pelekh Національний університет «Львівська політехніка» вул. С. Бандери, 12, м. Львів, Україна, 79013, Україна https://orcid.org/0000-0002-4339-8093
  • Nataliia Sokulska Національна академія сухопутних військ імені гетьмана Петра Сагайдачного вул. Героїв Майдану, 32, м. Львів, Україна, 79026, Україна https://orcid.org/0000-0002-3425-5517
  • Roman Kovalchuk Національна академія сухопутних військ імені гетьмана Петра Сагайдачного вул. Героїв Майдану, 32, м. Львів, Україна, 79026, Україна https://orcid.org/0000-0001-8337-8591
  • Lyudmyla Dzyubyk Національна академія сухопутних військ імені гетьмана Петра Сагайдачного вул. Героїв Майдану, 32, м. Львів, Україна, 79026, Україна https://orcid.org/0000-0001-6942-9436
  • Oksana Tereshchuk Національна академія сухопутних військ імені гетьмана Петра Сагайдачного вул. Героїв Майдану, 32, м. Львів, Україна, 79026, Україна https://orcid.org/0000-0002-6444-0609
  • Myroslav Komar Тернопільський національний економічний університет вул. Львівська, 11, м. Тернопіль, Україна, 46009, Україна https://orcid.org/0000-0001-6541-0359



Ключові слова:

NLP, контент, контент-моніторінг, стоп-слова, контент-аналіз, статистийний лінгвістичний аналіз, квантитативна лінгвістика, статистична лінгвістика, лінгвометрія


Розглянуто особливості застосування технологій лінгвостатистики для ідентифікації стилістики автора текстового контенту науково-технічного профілю. Квантитативний лінгвістичний аналіз тексту використовує переваги контент-моніторінгу на основі методів NLP для визначення та аналізу множини стопових слів, ключових слів, стійких словосполучень та дослідження N-грам. Останні використовують в методах лінгвометрії для визначення приналежності аналізованого тексту конкретному авторові у відсотках. Розроблено квантитативний метод автоматичного визначення авторства текстового контенту на основі статистичного аналізу розподілу 3-грам. Запропоновано підхід реалізації визначення автора україномовного тексту науково-технічного профілю. Отримано експериментальні результати запропонованого методу для визначення приналежності аналізованого тексту конкретному автору за наявності еталонного авторського тексту. Застосування лінгвостатистичного аналізу 3-грам до множини статей дозволить сформувати підмножину подібних за лінгвістичними характеристиками публікацій. Накладання на підмножину додаткових умов у вигляді проведення статистичних та квантитативних аналізів (множини ключових слів, стійких словосполучень, стилеметричного, лігвометричного тощо) дозволить значно скоротити цю підмножину, уточнивши список ймовірніших авторських робіт. Для якісного та ефективного аналізу контенту при визначенні ступеня авторства конкретному автору пропонуємо аналізувати еталонного тексту та досліджуваного в декілька етапів: лінгвометричний аналіз коефіцієнтів різноманіття авторського мовлення, стилометричний аналіз, аналіз стійких словосполучень, лінгвостатистичний аналіз 3-грам. Для автоматизованого опрацювання тексту має велике значення не тільки частота появи тієї чи іншої категорії, а взагалі присутність в досліджуваному тексті. Кількісний підрахунок дозволяє зробити об’єктивні висновки щодо спрямованості матеріалів за кількістю уживань одиниць аналізу в досліджуваних текстах. Якісний аналіз робить те саме, але внаслідок дослідження того, чи зустрічається (і в якому контексті) певна важлива оригінальна категорія взагалі

