Розробка методів попередньої кластерізації та віртуального об'єднання коротких документів для побудови словників предметної області
DOI:
https://doi.org/10.15587/1729-4061.2020.215190Ключові слова:
словник предметної області, короткий документ, кластерізація, коефіцієнт близькості документів, віртуальне об’єднанняАнотація
Метою дослідження є підвищення якості словників предметної області шляхом розширення корпусу досліджуваних документів за рахунок коротких документів. Запропоновано модель документа, що дозволяє визначити короткий документ і необхідність його об'єднання з іншими документами для виділення багатослівних термінів. Розроблено алгоритм виділення змістовної частини документа, оскільки в короткому документі звичайно заголовна й заключна частини містять терміни, що не відносяться до досліджуваної предметної області. Розроблено метод попередньої кластерізації коротких документів для виділення багатослівних термінів. Метод заснований на виділенні й підрахунку входжень іменників (однослівних термінів) для всіх аналізованих документів. Уведено поняття близькості документів, що визначається по сукупності двох критеріїв: відносній кількості співпадаючих термінів і відносній частоті появи співпадаючих термінів. Принцип угруповання документів у замовника часто не відповідає принципам угруповання, необхідним для побудови словника предметної області. У короткому документі звичайно неможливо виділити багатослівний термін, оскільки повторюваність термінів дуже низька. Розроблено метод віртуального об'єднання коротких документів за принципом досягнення необхідної повторюваності однослівних термінів. Об'єднаний документ має максимально можливу частоту термінів для кластера, у який він входить. Одночасно зберігається вихідний текст документів і можливість зв'язати виділений багатослівний термін з тими документами, у які він входить. Експеримент дозволив знайти найкраще співвідношення для елементів коефіцієнта близькості документів і підтвердити ефективність запропонованого методу попередньої кластерізаціїПосилання
- Bourgeois, D., Mortati, J., Wang, S., Smith, J. (2019). Information Systems for Business and Beyond (2019). Information systems, their use in business, and the larger impact they are having on our world. Available at: https://opentextbook.site/exports/ISBB-2019.pdf
- Kungurtsev, А. B., Potochniak, I. B. (2014). User interface for users communication with information systems in a natural language. Elektrotehnicheskie i komp'yuternye sistemy, 14 (90), 74–81. Available at: http://nbuv.gov.ua/UJRN/etks_2014_14_12
- Kim, S. N., Cavedon, L. (2011). Classifying Domain-Specific Terms Using a Dictionary. In Proceedings of Australasian Language Technology Association Workshop, 57−65. Available at: https://www.aclweb.org/anthology/U11-1009.pdf
- Kolle, P., Bhagat, S., Zade, S., Dand, B., Lifna, C. S. (2018). Ontology based Domain Dictionary. 2018 International Conference on Smart City and Emerging Technology (ICSCET). doi: https://doi.org/10.1109/icscet.2018.8537346
- Deng, Q., Hine, M. J., Ji, S., Sur, S. (2019). Inside the Black Box of Dictionary Building for Text Analytics: A Design Science Approach. Journal of International Technology and Information Management, 27 (3), 119–159. Available at: https://scholarworks.lib.csusb.edu/cgi/viewcontent.cgi?article=1376&context=jitim
- Maynard, D., Bontcheva, K., Augenstein, I. (2016). Natural Language Processing for the Semantic Web. Morgan & Claypool publishers. Available at: https://tianjun.me/static/essay_resources/RelationExtraction/Paper/NaturalLanguageProcessingfortheSemanticWeb.pdf
- Siddiqi, S., Sharan, A. (2015). Keyword and Keyphrase Extraction Techniques: A Literature Review. International Journal of Computer Applications, 109 (2), 18–23. doi: https://doi.org/10.5120/19161-0607
- Tamsin Maxwell, K. (2016). Term Selection in Information Retrieval. University of Edinburgh. Available at: https://era.ed.ac.uk/bitstream/handle/1842/20389/Maxwell2016.pdf?sequence=1&isAllowed=y
- Vivek, S. (2018). Automated Keyword Extraction from Articles using NLP. Available at: https://medium.com/analytics-vidhya/automated-keyword-extraction-from-articles-using-nlp-bfd864f41b34
- Nokel, M., Loukachevitch, N. (2013). An Experimental Study of Term Extraction for Real Information-Retrieval Thesauri. Proceedings of 10th International Conference on Terminology and Artificial Intelligence, 69–76. Available at: https://istina.msu.ru/publications/article/4964490/
- Kungurtsev, O., Zinovatnaya, S., Potochniak, I., Kutasevych, M. (2018). Development of information technology of term extraction from documents in natural language. Eastern-European Journal of Enterprise Technologies, 6 (2 (96)), 44–51. doi: https://doi.org/10.15587/1729-4061.2018.147978
- Vavilenkova, A. I. (2017). Analiz i syntez lohiko-linhvistychnykh modelei rechen pryrodnoi movy. Kyiv, 152. Available at: https://er.nau.edu.ua/bitstream/NAU/42436/1/блок%20в%20печать.pdf
- Kozlov, P. Yu. (2017). Automated analysis method of short unstructured text documents. Programmnye produkty i sistemy, 30 (1), 100–105.
- Wahlin, L. (2020). Fundamentals of Engineering Technical Communications. A Resource & Writing Guide for the Fundamentals of Engineering Program. The Ohio State University. Available at: https://ohiostate.pressbooks.pub/feptechcomm/
- Liang, S., Yilmaz, E., Kanoulas, E. (2016). Dynamic Clustering of Streaming Short Documents. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. doi: https://doi.org/10.1145/2939672.2939748
- Punitha, S. C., Punithavalli, M. (2011). A Comparative Study To Find A Suitable Method For Text Document Clustering. International Journal of Computer Science and Information Technology, 3 (6), 49–59. doi: https://doi.org/10.5121/ijcsit.2011.3604
- Hartmann, J., Huppertz, J., Schamp, C., Heitmann, M. (2019). Comparing automated text classification methods. International Journal of Research in Marketing, 36 (1), 20–38. doi: https://doi.org/10.1016/j.ijresmar.2018.09.009
- Novokhatska, K., Kungurtsev, O. (2016). Application of Clustering Algorithm CLOPE to the Query Grouping Problem in the Field of Materialized View Maintenance. Journal of Computing and Information Technology, 24 (1), 79–89. doi: https://doi.org/10.20532/cit.2016.1002694
- Fernández, J., Antón-Vargas, J. A., Villuendas-Rey, Y., Cabrera-Venegas, J. F., Chávez, Y., Argüelles-Cruz, A. J. (2016). Clustering Techniques for Document Classification. Research in Computing Science, 118 (1), 115–125. doi: https://doi.org/10.13053/rcs-118-1-11
- Vtoraya mezhdunarodnaya konferentsiya «Upravlenie biznesom v tsifrovoy ekonomike»: sbornik tezisov vystupleniy (2019). Sankt-Peterburg. Available at: https://events.spbu.ru/eventsContent/events/2019/digital/tez_new.pdf
- Sil'no korrelirovannye dvumernye sistemy: ot teorii k praktike: tezisy dokladov Vserossiyskoy konferentsii s mezhdunarodnym uchastiem (2018). Yakutsk: Izdatel'skiy dom SVFU. Available at: https://www.s-vfu.ru/universitet/rukovodstvo-i-struktura/instituty/fti/kres/conference/Сборник%20тезисов%20конференции/2D%20systems%20abstracts.pdf
- Transport v integratsionnyh protsessah mirovoy ekonomiki (2020). Materialy Mezhdunarodnoy nauchno-prakticheskoy onlayn-konferentsii. Gomel'. Available at: https://www.bsut.by/images/MainMenuFiles/NauchnyeIssledovaniya/Konferencii/materialy/2020/transport_febt_2020.pdf
- Tsifrovaya transformatsiya obrazovaniya (2018). Nauchno-prakticheskaya konferentsiya. Minsk. Available at: http://dtconf.unibel.by/doc/Conference.pdf
- Obespechenie bezopasnosti zhiznedeyatel'nosti na sovremennom etape razvitiya obshchestva (2019). Materialy respublikanskoy studencheskoy nauchno-prakticheskoy konferentsii. Gorki, 69. Available at: https://baa.by/upload/science/conferencii/snk-bzd-19.pdf
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2020 Oleksii Kungurtsev, Svitlana Zinovatna, Iana Potochniak, Nataliia Novikova
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Закріплення та умови передачі авторських прав (ідентифікація авторства) здійснюється у Ліцензійному договорі. Зокрема, автори залишають за собою право на авторство свого рукопису та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons CC BY. При цьому вони мають право укладати самостійно додаткові угоди, що стосуються неексклюзивного поширення роботи у тому вигляді, в якому вона була опублікована цим журналом, але за умови збереження посилання на першу публікацію статті в цьому журналі.
Ліцензійний договір – це документ, в якому автор гарантує, що володіє усіма авторськими правами на твір (рукопис, статтю, тощо).
Автори, підписуючи Ліцензійний договір з ПП «ТЕХНОЛОГІЧНИЙ ЦЕНТР», мають усі права на подальше використання свого твору за умови посилання на наше видання, в якому твір опублікований. Відповідно до умов Ліцензійного договору, Видавець ПП «ТЕХНОЛОГІЧНИЙ ЦЕНТР» не забирає ваші авторські права та отримує від авторів дозвіл на використання та розповсюдження публікації через світові наукові ресурси (власні електронні ресурси, наукометричні бази даних, репозитарії, бібліотеки тощо).
За відсутності підписаного Ліцензійного договору або за відсутністю вказаних в цьому договорі ідентифікаторів, що дають змогу ідентифікувати особу автора, редакція не має права працювати з рукописом.
Важливо пам’ятати, що існує і інший тип угоди між авторами та видавцями – коли авторські права передаються від авторів до видавця. В такому разі автори втрачають права власності на свій твір та не можуть його використовувати в будь-який спосіб.