ПРОГРАММНЫЕ СРЕДСТВА ПОДДЕРЖКИ ГОЛОСОВОГО ОБЩЕНИЯ МЕЖДУ УЧАСТНИКАМИ ВИРТУАЛЬНОЙ КОЛЛЕКТИВНОЙ СРЕДЫ

Хованский Владимир Павлович, Герасимов Алексей Викторович, Морозов Михаил Николаевич

Марийский государственный технический университет, г.Йошкар-Ола

задать вопрос автору

Среди многочисленных сред электронного обучения всю большую популярность приобретают виртуальные коллективные среды (ВКС). ВКС совместного обучения – это программа, функционирующая на объединенных в сеть компьютерах и обеспечивающая поддержку группы учащихся, выполняющих в сотрудничестве общую учебную задачу. В ВКС большую роль играют коммуникационные взаимодействия между учениками. Текстовые коммуникации не обеспечивают необходимой динамики (возникают паузы между сообщениями вследствие набора текста), а также не позволяют передавать эмоции и интонацию участников. Голосовые коммуникации, напротив, обеспечивают непосредственное общение между участниками. Проведенные эксперименты показывают, что применение голосовых коммуникаций внутри ВКС повышает мотивацию участников ВКС к взаимодействию друг с другом. Главный эффект голоса заключается в том, что участники оценивают образ персонажа как более привлекательный и человекоподобный, когда он имеет человеческий голос.

Вместе тем большинство существующих ВКС не включают голосовых средств коммуникации ввиду сложности их реализации. К основным проблемам использования голосовых коммуникаций в коллективных средах относятся:

Соглашение о параметрах соединения между участниками (выбор протокола, кодека и так далее). Участники должны иметь один и тот же кодек для кодирования и декодирования голоса. При отправлении пакета с голосом в сеть данный пакет сжимается кодеком и для того, чтобы распознать пакет с голосом собеседника, участник должен иметь тот же самый кодек, что и у собеседника.

Проблема идентификации голоса. В ВКС участники представляются аватарами. Сложность заключается в сопоставлении голоса говорящего участника с определенным аватаром, а также реализация средств визуального представления общения.

Конфиденциальность общения – из-за открытого протокола. Из открытого протокола возможен доступ к информации, представленного в телекоммуникациях. Эта проблема в популярной системе Skype решается многочисленными кодировками информации.

В разработанной системе для поддержки коммуникации, где используется взаимодействие между обитателями виртуального мира, персонажами, воспроизведение речи сопровождается анимацией губ, отражающих воспроизводимые звуки. Многие воспроизводимые звуки дают нам практически одинаковое положение губ. Такие звуки группируем в набор звуков, которые будем называть лексемами.

Для реализации голосовых коммуникаций использовалась библиотека OpenH323, основанная на протоколе H.323. Были доработаны логические каналы, по которым передаются аудиоданные, и разработаны виртуальный кодек, который перехватывает этапы кодирования и декодирование речи, с целью передачи и синхронизации лексем.

Разработанная система состоит из серверной части и клиентской части. Серверная часть обеспечивает управление голосовыми конференциями, синхронизацию лексем. Клиентская часть реализует воспроизведение речи, запись речи с микрофона, а также реализует протоколирование речевых сообщений участника ВКС в виде набора звуковых файлов.

В клиентской части реализованы средства визуального представления общения. Для того чтобы представить визуально общение, необходимо распознать голос. Распознавание голоса идет следующим образом. Сначала каждый аватар помечается идентификатором. Речевое сообщение с микрофона поступают на входы модуля протоколирования речевых сообщений и модуля генератора лексем (создается лексема). Затем речевое сообщение кодируется кодеком. К лексеме привязывается идентификатор аватара (для последующего распознавания клиентами на приеме). Данная пара идентификатор и лексема конвертируется в поток данных и включается в RTP-пакет в качестве дополнительного заголовка и отправляется серверу.

На стороне сервера при получении данных анализируется RTP-пакет. Из него извлекаются поток данных из дополнительного заголовка пакета. Полученные данные преобразуются в пару — идентификатор аватара и лексема - и поступают на вход генератора пакета лексем. Из всех поступивших пар (идентификатор аватара и лексема) от участников одной группы создается список пар (идентификатор аватара и лексемы). Список для каждого участника свой, из списка удаляется пара (идентификатор аватара и лексемы) данного участника. Затем отправляется данному участнику.

Клиент принимает данный список пар (идентификатор аватара и лексемы) и поступают в блок воспроизведения лексем, в котором периодически они опрашиваются при обновлении 3D-сцены.

Описанные программные средства звуковой коммуникации в Лаборатории систем мультимедиа были использованы в системе поддержки голосового общения между участниками ВКС. Система используется в ВКС «Английский язык. 8 класс» и в разрабатываемых виртуальных мирах для цели обеспечения учебного процесса.

Литература

  1. Kundan N. S. Reliable, Scalable and Interoperable Internet Telephony. COLUMBIA UNIVERSITY. 2006.
  2. Moreno, R., & Mayer, R. E. (2002). Verbal Redundancy in Multimedia Learning:When Reading Helps Listening. Journal of Educational Psychology, 94(1), 156-163.
  3. Cleborne D. Maddux, Dee LaMont Johnson, Jacque Ewing-Taylor – 2002. Distance Education: Issues and Concerns,89, 135
  4. http://www.packetizer.com/voip/h323.