В программу школы войдут лекции по следующим направлениям:
  1. Основы лингвистики и анализа текста. Контекст и его применение в ходе анализа текстов. Корпусная лингвистика. Ягунова Е.В., доцент СПбГУ.
  2. Компьютерная лингвистика: задачи, технологии, приложения. Большакова Е.И., доцент МГУ.
  3. Извлечение информации из текста. Ландэ Д.В., ведущий научный сотрудник ИПРИ НАН Украины.
  4. Кластеризация текстов, оценка качества кластеризации. Пескова О.В., доцент МГТУ им. Н.Э. Баумана, Федоровский А.Н., Директор по исследованиям и разработке Mail.Ru.

В рамках школы предусмотрены практические занятия по следующим вопросам:

  1. Применение существующих инструментов для анализа текстов: морфологический, графематический, синтаксический анализ.
  2. Разработка простой системы извлечения информации из текстов.

Занятия будут вести Клышинский Э.С. (МИЭМ), Бочаров В.В. (СПбГУ).

В рамках проведения мероприятия планируется работа студентов командами по 5-6 человек над созданием системы, извлекающей информацию из корпуса текстов.

 

 

Программа проведения летней студенческой школы
по компьютерной лингвистике

5 июля

 

Утро 1, 2 – заезд, размещение.

День 1 – Уровни анализа текста (Бочаров, Клышинский, практ.)

День 2 – Поиск 1. Что такое информационный поиск. Индексация документов. (Пескова, Федоровский, лекц.)

 

Дискотека в честь открытия

 

6 июля

 

Утро 1 – Компьютерная лингвистика: задачи, технологии, приложения.  (Большакова, лекц.)

Утро 2 – Язык. Текст. Основы лингвистики и теории речевой коммуникации. Слово — коллокация – синтаксические конструкции – текст. (Ягунова, лекц.)

День 1 – Синтаксический анализ предложения при помощи контекстно-свободных грамматик (Клышинский, Бочаров, лекц.)

День 2 – Поиск 2. Ранжирование результатов, методы оценки. (Пескова, Федоровский, лекц.)

 

7 июля

 

Утро 1 – Инструментальные системы разработки приложений по автоматической обработке текстов (Носков, лекц.)

Утро 2 – Дополнительные консультации по проектированию системы

День 1 – Язык описания контекстно-свободных грамматик (Бочаров, практ.)

День 2 – Классификация с учителем. Методы категоризации документов и оценка качества работы. (Пескова, Федоровский, лекц.)

 

8 июля

 

Утро 1 – Автоматическое выявление терминологических слов и словосочетаний: методы, средства, приложения. (Большакова, лекц.)

Утро 2 – Единица анализа и контекст. Основы морфологии и синтаксиса. Корпусная лингвистика. (Ягунова, лекц.)

День 1 – Примеры контекстно-свободных грамматик (ФИО, даты) (Бочаров, практ.)

День 2 – Основы концепции Complex Networks (сложных сетей) и ее примененений (Ландэ, лекц.)

 

Спортивные игры

 

9 июля

 

Утро 1 – Модели информационных потоков (Ландэ, лекц.)

Утро 2 – Семантическая и информационная структуры при анализе текстов и/или коллекций. Основные элементы этих структур. Информационный поток как новый вид объекта исследования. (Ягунова, лекц.)

День 1 – Инструменты для отладки контекстно-свободных грамматик (Бочаров, практ.)

День 2 – Классификация без учителя. Постановка задачи, основные методы кластеризации документов. Методы и оценка качества. Визуализация результатов. (Пескова, Федоровский, лекц.)

 

10 июля

 

Утро 1 – Основы фрактального анализа информационных потоков. (Ландэ, лекц.)

Утро 2 – Эксперимент на службе анализа текстов (Ягунова, лекц.)

День 1 – Дополнительная практика и ответы на вопросы (Бочаров, практ.)

День 2 – Поиск и классификация документов. Дополнительные главы. (Пескова, Федоровский, лекц.)

 

Неофициальное закрытие

 

11 июля

 

Утро 1 –Самоподобие в информационном пространстве. (Ландэ, лекц.)

Утро 2 – Подведение итогов, награждение

День 1, 2 – сборы, отъезд