Корпус русскоязычных twitter-постов

Twitter_logo_2012 Юлия Рубцова в рамках своей работы собрала корпус русскоязычных twitter-постов, автоматически размеченных на два класса (положительные и отрицательные). Корпус нейтральных постов собирался отдельно. Каждый текст в корпусе имеет следующие атрибуты:

– дата публикации;
– имя автора;
– текст твита;
– класс, к которому принадлежит текст (положительный, отрицательный, нейтральный);
– количество добавлений сообщения в избранное;
– количество ретвитов (количество копирований этого сообщения другими пользователями);
– количество друзей пользователя;
– количество пользователей, у которых данный юзер в друзьях (количество фоловеров);
– количество листов, в которых состоит пользователь.

В результате был получен тренировочный корпус, состоящий из 114,911 положительных, 111,923 отрицательных записей. Скачать его можно по ссылке.