Анализ кинофильмов с применением R

Использована таблица со сведениями о кинофильмах, выложенная на сайте kaggle.com. Эта таблица сформирована на основе информации из IMDb. IMDb - это крупнейшая в мире база данных и веб-сайт о кинематографе. Как засвидетельствовано в "Википедиа", интернет-база насчитывала более 3,9 млн. кинофильмов, телесериалов и отдельных их серий. В используемой таблице содержится более 5 тыс. строк. С помощью R осуществлены некоторые процедуры разведочного анализа данных по отношению этой таблицы.


Разведочный анализ данных

Какие используются характеристики кинофильмов?

Исследуемая таблица содержит 5043 фильма. Сведения о каждом фильме состоят из 28 характеристик:

##  [1] "color"                     "director_name"            
##  [3] "num_critic_for_reviews"    "duration"                 
##  [5] "director_facebook_likes"   "actor_3_facebook_likes"   
##  [7] "actor_2_name"              "actor_1_facebook_likes"   
##  [9] "gross"                     "genres"                   
## [11] "actor_1_name"              "movie_title"              
## [13] "num_voted_users"           "cast_total_facebook_likes"
## [15] "actor_3_name"              "facenumber_in_poster"     
## [17] "plot_keywords"             "movie_imdb_link"          
## [19] "num_user_for_reviews"      "language"                 
## [21] "country"                   "content_rating"           
## [23] "budget"                    "title_year"               
## [25] "actor_2_facebook_likes"    "imdb_score"               
## [27] "aspect_ratio"              "movie_facebook_likes"

Динамика количества фильмов, собранных в базе IMDb, по годам представлена столбиковой диаграммой.

Динамика количества фильмов

Описательная статистика

Описательная статистика собранных в таблице данных свидетельствует о ряде фактов.

Обзоры кинофильмов 

  • ранним годом выхода фильма на публику является 1916 г., тогда как последним - 2016 г.;
  • в среднем фильм получает 140 обзоров от критиков и 272 обзора от пользователей (зрителей);
  • половина фильмов имеет до 110 обзоров от критиков и 156 обзоров от пользователей;
  • максимальное число обзоров от критиков и пользователей равняется 813 и 5060, соответственно. Наибольшее внимание критиков привлек фильм "Темный рыцарь: Возрождение легенды" (The Dark Knight Rises), выпущенный в 2012 г. Его оценка (IMDb score) равна ⭐8,4 (из 10 баллов). Больше всего отзывов от зрителей получила кинолента "Властелин колец: Братство кольца" (The Lord of the Rings: The Fellowship of the Ring) - ⭐8,8 б.;
    Темный рыцарь: Возрождение легенды
    © фото IMDb
    Властелин колец: Братство кольца
    © фото IMDb
  • среднее число пользователей, проголосовавших за фильм, равно 83 668 человек;
  • наибольшее число зрительских голосов (1 689 764) получил фильм "Побег из Шоушенка" (The Shawshank Redemption). Стоит cказать, что в сентябре 2017 г. число зрительских голосов увеличилось до 1 851 515. Данный кинофильм оценивается в 9,3 б, что позволяет ему долгое время оставаться на самой вершине рейтинга IMDb.

Побег из Шоушенка
© фото IMDb

Продолжительность кинофильмов

  • средняя продолжительность фильма - 107 минут;
  • 75% фильмов длятся не более 118 минут.

Отметки "Нравится"

  • максимально отметка "Нравится" была поставлена актеру / актрисе пользователями социальной сети "Facebook" 640 тыс. раз. Такого рода лидером стала Дарси Донаван. Актриса представлена в выборке (таблице) кинофильмов комедией 2004 года "Телеведущий: Легенда о Рони Бургунди" (Anchorman: The Legend of Ron Burgundy). Оценка этого фильма в интернет-базе IMDb составляет ⭐7,2 (из максимально допустимых 10 баллов).
     Darcy Donovan 
    Дарси Донаван © фото IMDb


    Телеведущий: Легенда о Рони Бургунди
    © фото IMDb
  • 2-е место по количеству "Нравится" занимает Мэттью Зифф (Matthew Ziff) - 260 тыс. отметок. На 3-м месте закрепилась Криста Аллен (Krista Allen) - 164 тыс. Далее на 4-м месте расположился Эндрю Фисцелла (Andrew Fiscella) - 137 тыс. отметок. На этом список актеров, имеющих больше 100 тыс. отметок "Нравится" исчерпан.
  • кинофильмом с наибольшим количеством отметок "Нравится" в социальной сети "Facebook" - 349 тыс. - стала научно-фантастическая приключенческая драма 2014 года "Интерстеллар" (Interstellar), ⭐ 8,6.
    Интерстеллар
    © фото IMDb

    Следует отметить, что на начало сентября 2017 г. страница фильма понравилась уже 355 тыс. людей. Актер Мэттью Макконахи за роль в этом фильме был удостоен премии "Сатурн" в номинации лучший актер. Среди пользователей Facebook он понравился 11 тыс. людей (к сентябрю 2017 г. число "Нравится" выросло до 12 тыс.).
    Мэттью Макконахи
    © фото IMDb

  • первенство среди режиссеров принадлежит Джозефу Гордон-Левитту. У него 23 тыс. "Нравится". За ним с небольшим отставанием идут Кристофер Нолан (22 тыс.) и Дэвид Финчер (21 тыс.). Кстати, Кристофер Нолан работал над упомянутыми выше фильмами: "Интерстеллар" и "Темный рыцарь: Возрождение легенды". Дэвид Финчер известен, прежде всего, по работе над фильмом "Бойцовский клуб" (1999 г., ⭐ 8,8 б.).
    Джозеф Гордон-Левитт
    © фото IMDb

Разведочный анализ данных в среде R

По ссылке представлены другие приемы, применяемые в ходе разведочного анализа данных (exploratory data analysis) с помощью R. В частности:
  • Построены графики зависимостей между IMBb рейтингом кинофильма и числом отметок "Нравится" ему, а также между рейтингом и общим числом отметок "Нравится", связанных с конкретным фильмом (фильму, актерам, режиссеру и т.д.).
  • Показана диаграмма рейтинга фильмов по годам.
  • С помощью графиков рассмотрены зависимости между 5 переменными: 1) количеством отметок "Нравится" 1-му актеру; 2) числом рецензий от критиков; 3) числом отзывов от пользователей; 4) количеством проголосовавших пользователей; 5) количеством отметок актерскому составу.
  • Для количества пользователей, которые проголосовали, и которые предоставили свой отзыв, с учетом числа отметок "Нравится" по каждому кинофильму предложена пузырьковая диаграмма.
  • Создана сотовая диаграмма фильмов по 2-м показателям - размер бюджета и сумма дохода. Более того, показано, как можно создавать цветные сотовые диаграммы, а также графики зависимостей с прозрачными маркерами либо через цвет плотности распределения точек.
  • Кратко изложены вопросы очистки данных и выбора нужных исследователю переменных.
  • Существенное влияние уделено ранжированию актеров. 
  • Построен график упорядоченных рейтингов актеров.
  • Определены 10 лучших актеров по числу главных ролей (по позиции 1-й актер в актерском составе). 
  • Первые 2 актера в полученном топ-списке сравниваются по доходам кинофильмов (с их участием), по рейтинговой оценке IMDb кинофильмов
  • Построена диаграмма, которая показывает года выхода фильмов с участием актеров из списка Топ-10.
  • Получены графики оценок фильмов по годам для актеров из Топ-10 (в общем и отдельно по каждому актеру).

Английская версия статьи "Разведочный анализ данных (EDA) Интернет-базы кинофильмов (IMDb)" находится по ссылке >>>.

Comments

Popular posts from this blog

Big Data Sources for Supply Chain Management

Смыкание временных рядов

Система складирования: хранение и комплектация заказов