Теория, алгоритми и технологии за разпознаване на реч
(магистърски курс)

Анотация на курса

Анотация
Дисциплината е избираема за 1ви (1 год. срок на обучение) и 3ти (2 год. срок на обучение) семестър по учебния план на образователно-квалификационната степен на обучение “Магистър” на специалността “Информатика”.
В предложената учебна програма се разглеждат: теоретичните основи и развитието на съвременните технологиите за обработка на говорима реч. Анализират се широко използвани софтуерни продукти за обработка на реч и тяхното приложение при разпознаване на реч на български език. Курсът дава и допълнителни познания в приложната дейност на съвременния специалист-магистър по информатика.
Препоръчителна е предварителната подготовка на студентите по дисциплините: „Програмиране и структури от данни“, „Обектно-ориентирано програмиране“, „Бази от данни“, „Дискретна математика“, „Лингвистика“, „Разпознаване на образите“ и „Невронни мрежи“.

Цели, задачи и очаквани резултати
Този курс има за цел да осигури на студентите задълбочени познания и допълнителна специална подготовка за теорията и практиката в съвременната технология за обработка на естествена реч, приложението й, тенденции в разработването на приложения и бъдещите насоки на развитие. Те ще се запознаят с методите за обработка на речеви сигнал, извличане на основните характеристики и способите за минимизиране на очакваната грешка. Също така ще изучат начините за изграждане на фонетичен и езиков модел на даден език.
Основната задача е студентът да добие умения за прилагане на похватите и средствата за разпознаване на естествена реч при разработването на реални софтуерни приложения.
Очакваните резултати от курса като цяло и от всяка тема поотделно са усвояването от студентите на теоретичните основи на технологията за разпознаване на реч. Придобиване на умения за обработка на речевия сигнал и прилагане на различни филтри. Изграждане на основни познания по фонетичното и езиково моделиране. Изучаване на съвременни системи за обработка от тип „текст-към-реч“, „реч-към-текст“ и диалогови системи.


ЛЕКЦИИ

1. Анатомия и физиология на речеобразуването. (2 часа)
Материали за тази тема.

2. Вероятности и статистика при разпознаване на реч. (2 часа)
Материали за тази тема.

3. Цифрова обработка на речевия сигнал. (2 часа)
Материали за тази тема.

4. Представяне на речевия сигнал. (2 часа)
Материали за тази тема.

5. Кодиране на речевия сигнал. (2 часа)
Материали за тази тема.

6. Основи на теорията на скритите марковски модели при разпознаване на реч. (2 часа)
Материали за тази тема.

7. Акустично моделиране. Изменения на речевия сигнал. Изчисляване на грешката при разпознаване. (2 часа)
Материали за тази тема.

8. Акустично моделиране. Извличане на характеристиките на речевия сигнал и прилагане на адаптивни техники, за намаляване на степента на грешка. (2 часа)
Материали за тази тема.

9. Изследване на акустичните характеристики и особености на заобикалящата среда. (2 часа)

10. Езиково моделиране. (2 часа)

11. Основни алгоритми за търсене използвани в теорията за разпознаване на реч. (2 часа)

12. Алгоритми за търсене в големи речници. (2 часа)

13. Организация на съвременни корпуси от говорима реч. (2 часа)
Материали за тази тема.

14. Организация на системи за разпознаване от вида „текст-към-реч“. (2 часа)

15. Организация на съвременните диалогови системи за разпознаване на реч от тип „текст-към-текст“ (чат системи) и от тип „реч-към-реч“ (интерактивни учители). (2 часа)


УПРАЖНЕНИЯ

1. Работа със софтуерния продукт за изследване на речевата вълна WaveSurfer. (5 часа)

2. Работа със софтуер за фонетична обработка Praat. (5 часа)

3. Работа със софтуер за разпознаване на реч Sphinx. (10 часа)

4. Разработване на курсов проект. (10 часа)


Литература

Основна

1. Xuedong Huang, Alex Acero, Hsiao-Wuen Hon, Spoken Language processing – A Guide to Theory, Algorithm, and System Development, Prentice Hall PTR, 2001
2. Stephen E. Leinson, Mathematical Models for Speech Technology, John Wiley & Sons, 2005
3. Wu Chou, Bing Hwang Juang, Pattern Recognition in Speech and Language Processing, CRC Press, 2003
4. Joseph Keshet, Samy Bengio, Automatic Speech and Speaker Recognition – Large Margin and Kernel Method, John Wiley & Sons, 2009
5. Lawrence Rabiner, Ronald Schafer, Theory and Application of Digital Speech Processing, Prentice Hall, 2010
6. Daniel Jarefsky, James Martin, Speech and Language Processing (2nd Edition), Prentice Hall, 2008
7. Gerosa, M., Giuliani, D., Narayanan, S. (2006) Acoustic analysis and automatic recognition of spontaneous children's speech, In proc. of InterSpeech-2006
8. Berouti, M.G., D.G. Childers, and A. Paige (1977) Glottal area versus glottal volume velocity, Int. Conf. on Acoustics, Speech and Signal Processing, Hartford, Conn pp. 33-36.
9. Krishnamurthy, A.K. and D.G. Childers (1986) Two channel speech analysis, IEEE Trans. on Acoustics, speech and signal processing, pp. 730-743.
10. Rosenberg, A.E. (1971) Effect of glottal pulse shape on the quality of natural vowels, Journal of the acoustical society of America, Vol. 49, pp. 583-590.
11. ITU-T (1996) Methods for Subjective Determination of Transmission Quality, Int. Telecommunication Unit
12. Bregman, A.S. (1990) Auditory Scene Analysis, Cambridge MA, MIT Press
13. Comon, P. (1994) Independent Component Analysis: A New Concept, Signal Processing, 1994, Vol. 36, pp. 287-314
14. Stolcke, A. (1998) Entropy-based Pruning of Backoff Language Models, DARPA Broadcast News Transcription and Understanding Workshop, Lansdowne, VA

Допълнителна

1. CHILDES: Child Language Data Exchange System, http://childes.psy.cmu.edu/
2. Praat: doing phonetics by computer, http://www.fon.hum.uva.nl/praat/
3. WaveSurfer, http://www.speech.kth.se/wavesurfer/
4. The International Phonetic Association, http://www.langsci.ucl.ac.uk/ipa/index.html
5. Българска асоциация на компютърната лингвистика, http://www.bacl.org/index.html


Оценяване на студентите

Текущ контрол
Оценката от текущият контрол се оформя от разработване на един курсов проект КП и един реферат Р. Всеки реферат и курсов проект носят по равен брой точки.
Оценката от текущ контрол (Отк) се изчислява по формулата:

Отк= (КП + Р) / 2
Студентите, които нямат минимална оценка среден /3/ от текущ контрол не се допускат до изпит на редовната сесия. Те трябва да представят допълнителни разработки и след получаване на оценка поне среден /3/ се допускат до писмен изпит на поправителна или ликвидационна сесия.

Крайна оценка
Окончателната оценка (Оок) отчита резултатите от текущия контрол и оценката от писмения изпит (Оиз) в съотношение 1:1 съгласно формулата:

Оок = (Отк + Оиз) / 2

Окончателната оценка, изпитната оценка и оценката от текущ контрол се дават по шестобалната система – 2, 3, 4, 5, 6.