Development of the method of automatic determination of the speaker gender on the basis of joint evaluation of frequency moments of basic tons and formant frequencies

Sergey Omelchenko

doi:10.15587/2312-8372.2018.134977

Автор(и)

Sergey Omelchenko Харківський національний університет радіоелектроніки, пр. Науки, 14, м. Харків, Україна, 61166, Україна https://orcid.org/0000-0002-3998-978X

DOI:

https://doi.org/10.15587/2312-8372.2018.134977

Ключові слова:

розпізнавання статі диктора, формантного-смугові ознаки, коефіцієнт асиметрії, частота основного тону

Анотація

Об'єктом дослідження є методи розпізнавання статі диктора по мовним сигналам. Одними з найбільш проблемних місць є недостатня вивченість вибору ознак і вирішальних правил. Це необхідно для підвищення ймовірності правильного розпізнавання і завадостійкості розпізнавання статі по мовним сигналам в умовах дії перешкод. Важливим також є простота реалізації алгоритмів розпізнавання статі дикторів.

Для розпізнавання статі диктора обрана нова сукупність класифікаційних ознак, що включають спільне використання оцінок середнього значення частоти основного тону, її коефіцієнта ексцесу, оцінок середніх значень формант і їх коефіцієнтів асиметрії. В ході дослідження використовувався метод статистичного випробування запропонованих алгоритмів на персональному комп'ютері. Експерименти проводилися з використанням реальних звукових сигналів, введених з мікрофона в персональний комп'ютер як для представників жіночої, так і чоловічої статі, і записаних у вигляді окремих файлів. Для цього було використано 10 еталоні 10 слів для кожного з 5 дикторів жінок та 5 дикторів чоловіків.

За результатами статистичних випробувань для алгоритму, що включає спільне використання оцінок середньої величини частоти основної тони, її коефіцієнта ефекту, оцінок середніх значень формантів та їх коефіцієнтів асиметрії, отримана оцінка середньої вірогідності правильного розпізнавання 1. При додатковій дії адитивної перешкоди типу гаусів білий шум і відношення сигналу/шум q=20, для такого алгоритму експериментально отримана вірогідність правильного розпізнавання – 0,8. Для алгоритму прийняття рішень, що використовує лише оцінки середньої величини частоти основної тони та її коефіцієнт ефекту, отримана оцінка середньої вірогідності правильного розпізнавання – 0,9. Це говорить про більшу завадостійкість таких алгоритмів.

В перспективі передбачається використання отриманих результатів не тільки для російської та української мов, але і для ряду іноземних мов.

Біографія автора

Sergey Omelchenko, Харківський національний університет радіоелектроніки, пр. Науки, 14, м. Харків, Україна, 61166

Кандидат технічних наук, доцент

Кафедра інформаційно мережева інженерія

Посилання

Kalyuzhnyi, A. Ya., Semenov, V. Yu. (2009). Metod identifikatsii pola diktora na osnove modelirovaniya akusticheskikh parametrov golosa gaussovymi smesyami. Akustichniy vіsnik, 12 (2), 31–38.
Scheme, E., Castillo-Guerra, E., Englehart, K., Kizhanatham, A. (2006). Practical Considerations for Real-Time Implementation of Speech-Based Gender Detection. Lecture notes in computer science, 4225, 426–436. doi: http://doi.org/10.1007/11892755_44
Sorokin, V. N., Makarov, I. S. (2008). Opredelenie pola diktora po golosu. Akusticheskiy zhurnal, 54 (4), 659–668.
Zeng, Y.-M., Wu, Z.-Y., Falk, T., Chang, W.-Y. (2006). Robust GMM-based gender classification using pitch and RASTA-PLP parameters of speech. Proceedings of the Fifth International Conference on Machine Learning and Cybernetics. Dalian, 3376–3379. doi: http://doi.org/10.1109/icmlc.2006.258497
Faek, F. (2015). Objective Gender and Age Recognition from Speech Sentences. Aro, The Scientific Journal of Koya University, 3 (2), 24–29. doi: http://doi.org/10.14500/aro.10072
Jayasankar, T., Vinothkumar, K., Vijayaselvi, A. (2017). Automatic Gender Identiﬁcation in Speech Recognition by Genetic Algorithm. Applied Mathematics & Information Sciences, 11 (3), 907–913. doi: http://doi.org/10.18576/amis/110331
Ahmad, J., Fiaz, M., Kwon, S.-I., Sodanil, M., Vo, B., Wook Baik, S. (2015). Gender Identification using MFCC for Telephone Applications – A Comparative Study. International Journal of Computer Science and Electronics Engineering, 3 (5), 351–355.
Levitan, S. I., Mishra, T., Bangalore, S. (2016). Automatic identification of gender from speech. Proceeding of Speech Prosody, 84–88. doi: http://doi.org/10.21437/speechprosody.2016-18
Yucesoy, E., Nabiyev, V. V. (2013). Gender identification of a speaker using MFCC and GMM. 2013 8th International Conference on Electrical and Electronics Engineering (ELECO). Bursa. doi: http://doi.org/10.1109/eleco.2013.6713922
Harb, H., Chen, L. (2003). Gender identification using a general audio classifier. 2003 International Conference on Multimedia and Expo. ICME ’03. Proceedings (Cat. No.03TH8698). Baltimore. doi: http://doi.org/10.1109/icme.2003.1221721
Presnyakov, I. N., Omelchenko, S. V. (2003). Pomekhoustoychivye algoritmy segmentatsii rechi v sistemakh obrabotki. Radiotekhnika, 131, 165–177.
Sorokin, V. N., Tsyplikhin, A. I. (2004). Segmentatsiya i raspoznavanie glasnykh. Informatsionnye protsessy, 4 (2), 202–220.
Presnyakov, I. N., Omelchenko, A. V., Omelchenko, S. V. (2002). Avtomaticheskoe raspoznavanie rechi kanalakh peredachi. Radioelektronika i informatika nauchno-tekhnicheskiy zhurnal, 1, 26–31.
Rabiner, L. R., Schafer, R. W. (1978). Digital Processing of Speech Signals. Pearson; US edition, 962.
Marple, S. L. (1987). Digital Spectral Analysis: With Applications/Disk,Pc/MS Dos/IBM/Pc/at. Prentice Hall Signal Processing Series, 492.
Presnyakov, I. N., Omelchenko, S. V. (2003). Avtomaticheskoe raspoznavanie razdel'nykh slov i fonem rechi. Radioelektronika i informatika, 2, 41–47.
Presnyakov, I. N., Omelchenko, S. V. (2004). Algoritmy raspoznavaniya rechi. Avtomatizirovannye sistemy upravleniya i pribory avtomatiki, 126, 136–145.