Development of the method for filtering verbal noise while search keywords for the English text

Oleg Bisikalo; Alexander Yahimovich; Yaroslav Yahimovich

doi:10.15587/2312-8372.2018.149962

Автор(и)

Oleg Bisikalo Вінницький національний технічний університет, вул. Хмельницьке шосе, 95, м. Вінниця, Україна, 21021, Україна https://orcid.org/0000-0002-7607-1943
Alexander Yahimovich Вінницький національний технічний університет, вул. Хмельницьке шосе, 95, м. Вінниця, Україна, 21000, Україна https://orcid.org/0000-0001-6960-5823
Yaroslav Yahimovich Вінницький національний технічний університет, вул. Хмельницьке шосе, 95, м. Вінниця, Україна, 21000, Україна https://orcid.org/0000-0003-2101-2791

DOI:

https://doi.org/10.15587/2312-8372.2018.149962

Ключові слова:

фільтрація вербального шуму, ключові слова англомовного тексту, лінгвістичний пакет, DKPro Core, синтаксичний аналіз

Анотація

Об’єктом дослідження є процес обробки вербальної інформації для визначення ключових слів в тексті. Найважливішим етапом пошуку ключових термінів є розрахунок їх ваг в аналізованому документі, що дозволяє оцінити їх значущість відносно один одного в даному контексті. Для вирішення цього завдання існує багато підходів, які умовно діляться на дві групи: вимагають навчання і не потребують навчання. Під навчанням мається на увазі необхідність попередньої обробки вихідного корпусу текстів з метою вилучення інформації про частоту зустрічальності термінів у всьому корпусі. Альтернативним підходом є використання лінгвістичних онтологій, які є більш-менш наближеними моделями існуючого набору слів заданої мови. На базі обох підходів були створені системи для автоматичної екстракції ключових термінів. Тим не менш у напрямку пошуку ключових слів не припиняються дослідження з метою підвищення точності і повноти результатів, а також з метою використання методів вилучення інформації з тексту для вирішення нових завдань.

Охарактеризовано існуючі підходи до визначення ключових слів. Краща якість обробки тексту досягається лінгвістичними методами або ж при їх комбінації зі статистичними. Систему автоматичного визначення ключових фраз з тексту природною мовою слід розробляти з використанням морфологічного словника і синтаксичних правил.

У ході дослідження використовується підхід до визначення ключових слів, який базується на знаходженні синтаксичних зв’язків між словоформами у реченнях англомовного тексту за допомогою інструментальних можливостей сучасних лінгвістичних пакетів. У межах загального підходу зменшення вербального шуму у методі, що пропонується, досягнуто за допомогою формалізованих операцій: заміна займенників на відповідні до них іменники; вилучення шумових зв'язків; вилучення шумових слів; вилучення стоп слів. Описані операції можна використовувати як додаткові модулі, що покращують результати знаходження ключових слів як для розробленого методу визначення ключових слів англомовного тексту, так і для інших алгоритмів знаходження ключових слів.

Біографії авторів

Oleg Bisikalo, Вінницький національний технічний університет, вул. Хмельницьке шосе, 95, м. Вінниця, Україна, 21021

Доктор технічних наук, професор

Кафедра автоматизації та інтелектуальних інформаційних технологій

Alexander Yahimovich, Вінницький національний технічний університет, вул. Хмельницьке шосе, 95, м. Вінниця, Україна, 21000

Аспірант

Кафедра автоматизації та інтелектуальних інформаційних технологій

Yaroslav Yahimovich, Вінницький національний технічний університет, вул. Хмельницьке шосе, 95, м. Вінниця, Україна, 21000

Аспірант

Кафедра електроніки та наносистем

Посилання

Ershov, Yu. S. (2014). Vydelenie klyuchevykh slov v russkoyazychnykh tekstakh. Molodezhnyy nauchno-tekhnicheskiy vestnik, FS77-51038, 70–79.
Grashhenko, L. A. (2013). O model'nom stop-slovare. Izvestiya Akademii nauk Respubliki Tadzhikistan. Otdelenie fiziko-matematicheskikh, khimicheskikh, geologicheskikh i tekhnicheskikh nauk, 1 (150), 40–46.
Andreev, A. M., Berezkin, D. V., Syuzev, V. V., Shabanov, V. I. (2003). Modeli i metody avtomaticheskoy klassifikatsii tekstovykh dokumentov. Vestn. MGTU. Seriia Priborostroenie, 3, 64–94.
Abramov, E. G. (2011). Podbor klyuchevykh slov dlya nauchnoy stat'i. Nauchnaya periodika: problemy i resheniya, 1 (2), 35–40.
Darkulova, K. N., Ergeshova, G. (2014). Neobkhodimost' vydeleniya klyuchevykh slov dlya svertyvaniya teksta. Lingvisticheskiy analiz nauchnogo teksta. Yuzhno-Kazakhstanskiy gosudarstvennyy universitet im. Mukhtara Auezova Shymkent, 30–35.
Halkidi, M., Batistakis, Y., Vazirgiannis, M. (2001). On clustering validation techniques. Journal of intelligent information systems, 17 (2-3), 107–145. doi: http://doi.org/10.1023/a:1012801612483
Barahnin, V. B., Tkachev, D. A. (2010). Clustering of text documents based on composite key terms. Vestnik NSU. Series: Information Technology, 8 (2), 5–14.
Grashhenko, L. A. (2013). O model'nom stop-slovare. Izvestiya Akademii nauk Respubliki Tadzhikistan. Otdelenie fiziko-matematicheskikh, khimicheskikh, geologicheskikh i tekhnicheskikh nauk, 1 (150), 40–46.
Guo, A., Tao, Y. (2016). Research and Improvement of Feature Words Weight Based on TFIDF Algorithm. 2016 IEEE Information Technology, Networking, Electronic and Automation Control Conference. Chongqing. doi: http://doi.org/10.1109/itnec.2016.7560393
Grineva, M., Grinev, M., Boldakov, A., Novak, L., Syssoev, A., Lizorkin, D. (2009). Sifting Micro-blogging Stream for Events of User Interest. Proceedings of the 32nd international ACM SIGIR conference on Research and development in information retrieval. Boston, 327–333. doi: http://doi.org/10.1145/1571941.1572157
Reed, J., Jiao, Y., Potok, T., Klump, B., Elmore, M., Hurson, A. (2006). TF-ICF: A New Term Weighting Scheme for Clustering Dynamic Data Streams. 2006 5th International Conference on Machine Learning and Applications. Orlando, 258–263. doi: http://doi.org/10.1109/icmla.2006.50
Mihalcea, R., Csomai, A. (2007). Wikify!: linking documents to encyclopedic knowledge. Proceedings of the sixteenth ACM conference on Conference on information and knowledge management. Lisbon, 233–242. doi: http://doi.org/10.1145/1321440.1321475
Astrakhantsev, N. (2014). Automatic term acquisition from domain-specific text collection by using Wikipedia. Proceedings of the Institute for System Programming of RAS, 26 (4), 7–20. doi: http://doi.org/10.15514/ispras-2014-26(4)-1
Özgür, A., Hur, J., He, Y. (2016). The Interaction Network Ontology-supported modeling and mining of complex interactions represented with multiple keywords in biomedical literature. BioData Mining, 9 (1). doi: http://doi.org/10.1186/s13040-016-0118-0
Wong, W., Liu, W., Bennamoun, M. (2012). Ontology learning from text. ACM Computing Surveys, 44 (4), 1–36. doi: http://doi.org/10.1145/2333112.2333115
Korobkin, D. M., Fomenkov, S. A., Kolesnikov, S. G. (2015). Method of ontology-based extraction of physical effect description. Vestnik Komp’iuternykh i Informatsionnykh Tekhnologii, 28–35. doi: http://doi.org/10.14489/vkit.2015.02.pp.028-035
Besplatnyy onlayn-generator klyuchevykh slov s teksta. Available at: http://seotool.by/analiz/seo/keywordstext.php
Generator klyuchevykh slov s teksta. Available at: http://www.rise-top.com
Advego. Available at: http://wiki.advego.ru/index.php/Адвего
Natural Language Processing: Integration of Automatic and Manual Analysis (2014). Available at: http://tuprints.ulb.tu-darmstadt.de/4151/1/rec-thesis-final.pdf
Bisikalo, O. V., Wójcik, W., Yahimovich, O. V., Smailova, S. (2016). Method of determining of keywords in English texts based on the DKPro Core. Photonics Applications in Astronomy, Communications, Industry, and High-Energy Physics Experiments 2016. doi: http://doi.org/10.1117/12.2249225
Determiner. Available at: http://universaldependencies.org/u/dep/det.html
Expletive and Reflexives. Available at: http://universaldependencies.org/u/dep/expl.html
Welo, E. (2013). Null Anaphora. Encyclopedia of Ancient Greek Language and Linguistics. doi: http://doi.org/10.1163/2214-448x_eagll_com_00000254
Manning, C., de Marneffe, M. (2016). Stanford typed dependencies manual. Available at: https://nlp.stanford.edu/software/dependencies_manual.pdf
Fixed multiword. Available at: http://universaldependencies.org/u/dep/fixed.html
Punctuation. Available at: http://universaldependencies.org/u/dep/punct.html
Root. Available at: http://universaldependencies.org/u/dep/root.html
Taylor, A., Marcus, M., Santorini, B. (2003). The Penn Treebank: An Overview. Text, Speech and Language Technology, 5–22. doi: http://doi.org/10.1007/978-94-010-0201-1_1
Penn Treebank II Constituent Tags: Word level. Available at: http://www.surdeanu.info/mihai/teaching/ista555-fall13/readings/PennTreebankConstituents.html#Word
Alphabetical list of part-of-speech tags used in the Penn Treebank Project. Available at: https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html
Bougé, K. Lists of stop words. Available at: https://sites.google.com/site/kevinbouge/stopwords-lists