Розробка методу автоматичного визначення статі диктора на основі спільного оцінювання моментів частоти основного тону і формантних частот
DOI:
https://doi.org/10.15587/2312-8372.2018.134977Ключові слова:
розпізнавання статі диктора, формантного-смугові ознаки, коефіцієнт асиметрії, частота основного тонуАнотація
Об'єктом дослідження є методи розпізнавання статі диктора по мовним сигналам. Одними з найбільш проблемних місць є недостатня вивченість вибору ознак і вирішальних правил. Це необхідно для підвищення ймовірності правильного розпізнавання і завадостійкості розпізнавання статі по мовним сигналам в умовах дії перешкод. Важливим також є простота реалізації алгоритмів розпізнавання статі дикторів.
Для розпізнавання статі диктора обрана нова сукупність класифікаційних ознак, що включають спільне використання оцінок середнього значення частоти основного тону, її коефіцієнта ексцесу, оцінок середніх значень формант і їх коефіцієнтів асиметрії. В ході дослідження використовувався метод статистичного випробування запропонованих алгоритмів на персональному комп'ютері. Експерименти проводилися з використанням реальних звукових сигналів, введених з мікрофона в персональний комп'ютер як для представників жіночої, так і чоловічої статі, і записаних у вигляді окремих файлів. Для цього було використано 10 еталоні 10 слів для кожного з 5 дикторів жінок та 5 дикторів чоловіків.
За результатами статистичних випробувань для алгоритму, що включає спільне використання оцінок середньої величини частоти основної тони, її коефіцієнта ефекту, оцінок середніх значень формантів та їх коефіцієнтів асиметрії, отримана оцінка середньої вірогідності правильного розпізнавання 1. При додатковій дії адитивної перешкоди типу гаусів білий шум і відношення сигналу/шум q=20, для такого алгоритму експериментально отримана вірогідність правильного розпізнавання – 0,8. Для алгоритму прийняття рішень, що використовує лише оцінки середньої величини частоти основної тони та її коефіцієнт ефекту, отримана оцінка середньої вірогідності правильного розпізнавання – 0,9. Це говорить про більшу завадостійкість таких алгоритмів.
В перспективі передбачається використання отриманих результатів не тільки для російської та української мов, але і для ряду іноземних мов.
Посилання
- Kalyuzhnyi, A. Ya., Semenov, V. Yu. (2009). Metod identifikatsii pola diktora na osnove modelirovaniya akusticheskikh parametrov golosa gaussovymi smesyami. Akustichniy vіsnik, 12 (2), 31–38.
- Scheme, E., Castillo-Guerra, E., Englehart, K., Kizhanatham, A. (2006). Practical Considerations for Real-Time Implementation of Speech-Based Gender Detection. Lecture notes in computer science, 4225, 426–436. doi: http://doi.org/10.1007/11892755_44
- Sorokin, V. N., Makarov, I. S. (2008). Opredelenie pola diktora po golosu. Akusticheskiy zhurnal, 54 (4), 659–668.
- Zeng, Y.-M., Wu, Z.-Y., Falk, T., Chang, W.-Y. (2006). Robust GMM-based gender classification using pitch and RASTA-PLP parameters of speech. Proceedings of the Fifth International Conference on Machine Learning and Cybernetics. Dalian, 3376–3379. doi: http://doi.org/10.1109/icmlc.2006.258497
- Faek, F. (2015). Objective Gender and Age Recognition from Speech Sentences. Aro, The Scientific Journal of Koya University, 3 (2), 24–29. doi: http://doi.org/10.14500/aro.10072
- Jayasankar, T., Vinothkumar, K., Vijayaselvi, A. (2017). Automatic Gender Identification in Speech Recognition by Genetic Algorithm. Applied Mathematics & Information Sciences, 11 (3), 907–913. doi: http://doi.org/10.18576/amis/110331
- Ahmad, J., Fiaz, M., Kwon, S.-I., Sodanil, M., Vo, B., Wook Baik, S. (2015). Gender Identification using MFCC for Telephone Applications – A Comparative Study. International Journal of Computer Science and Electronics Engineering, 3 (5), 351–355.
- Levitan, S. I., Mishra, T., Bangalore, S. (2016). Automatic identification of gender from speech. Proceeding of Speech Prosody, 84–88. doi: http://doi.org/10.21437/speechprosody.2016-18
- Yucesoy, E., Nabiyev, V. V. (2013). Gender identification of a speaker using MFCC and GMM. 2013 8th International Conference on Electrical and Electronics Engineering (ELECO). Bursa. doi: http://doi.org/10.1109/eleco.2013.6713922
- Harb, H., Chen, L. (2003). Gender identification using a general audio classifier. 2003 International Conference on Multimedia and Expo. ICME ’03. Proceedings (Cat. No.03TH8698). Baltimore. doi: http://doi.org/10.1109/icme.2003.1221721
- Presnyakov, I. N., Omelchenko, S. V. (2003). Pomekhoustoychivye algoritmy segmentatsii rechi v sistemakh obrabotki. Radiotekhnika, 131, 165–177.
- Sorokin, V. N., Tsyplikhin, A. I. (2004). Segmentatsiya i raspoznavanie glasnykh. Informatsionnye protsessy, 4 (2), 202–220.
- Presnyakov, I. N., Omelchenko, A. V., Omelchenko, S. V. (2002). Avtomaticheskoe raspoznavanie rechi kanalakh peredachi. Radioelektronika i informatika nauchno-tekhnicheskiy zhurnal, 1, 26–31.
- Rabiner, L. R., Schafer, R. W. (1978). Digital Processing of Speech Signals. Pearson; US edition, 962.
- Marple, S. L. (1987). Digital Spectral Analysis: With Applications/Disk,Pc/MS Dos/IBM/Pc/at. Prentice Hall Signal Processing Series, 492.
- Presnyakov, I. N., Omelchenko, S. V. (2003). Avtomaticheskoe raspoznavanie razdel'nykh slov i fonem rechi. Radioelektronika i informatika, 2, 41–47.
- Presnyakov, I. N., Omelchenko, S. V. (2004). Algoritmy raspoznavaniya rechi. Avtomatizirovannye sistemy upravleniya i pribory avtomatiki, 126, 136–145.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2018 Sergey Omelchenko

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Закріплення та умови передачі авторських прав (ідентифікація авторства) здійснюється у Ліцензійному договорі. Зокрема, автори залишають за собою право на авторство свого рукопису та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons CC BY. При цьому вони мають право укладати самостійно додаткові угоди, що стосуються неексклюзивного поширення роботи у тому вигляді, в якому вона була опублікована цим журналом, але за умови збереження посилання на першу публікацію статті в цьому журналі.