Автор: Нина Глущенко
Слишком большие данные: сколько информации хранится в интернете?
Самый первый компьютер разменял восьмой десяток лет, но по сравнению даже с самым простым современным телефоном он не умел ничего. Он тратил на простые математические операции по несколько секунд и всю информацию получал с перфорированных лент, не имел собственной оперативной и встроенной памяти. Сегодня мы в мгновение ока обмениваемся сообщениями и даже мультимедийными файлами через крошечное устройство — смартфон, который не привязан ни к чему.

Мы даже не задумываемся, какой объем данных генерируем в течение дня, и где все эти данные хранятся. Благодаря интернету в 2017 году Google в день обрабатывает больше данных, чем было написано во всех литературных работах на всех языках до появления интернета, и это при том, что к паутине подключена только половина планеты.

Материал подготовлен при поддержке DEAC
Что это значит?

Нативная реклама — материал/серия материалов, которые подготовлены журналистами AIN.UA по редакционным стандартам и были выпущены при поддержке рекламодателя
Большой толчок
Безусловно, стремительный рост данных подтолкнул к появлению сайтов и распространению интернета — ведь одно дело копить информацию, другое — иметь возможность ею делиться. Первый сайт появился в 1990 году и содержал исключительно текстовую информацию — описание технологии World Wide Web.

Первые годы количество сайтов в интернете росло в два раза за каждые три месяца. К июню 1993 года в мире существовало уже 130 сайтов. А к декабрю — 623. К началу 1996 года количество сайтов в интернете достигло 100 000. В 2014 году их стало больше миллиарда, а к нынешнему времени — 1,2 млрд. Это примерно в шесть раз меньше, чем людей на Земле, и в три раза меньше, чем интернет-пользователей (3,6 млрд). То есть, грубо говоря, на каждый сайт в интернете приходится 3 интернет-пользователя.
Особенно быстро интернет-аудитория росла с 2010 года. Росту проникновения интернета способствовали мобильные сети — 3G и 4G. Сейчас у технологий мобильного доступа в интернет 3,3 млрд и 912 млн пользователей, а к 2020 году их количество должно достигнуть 4,3 и 1,8 млрд соответственно. Несмотря на то, что это большие цифры, значительная часть жителей планеты пользуется Сетью пока через другие каналы доступа.
Так, в 1995 году количество всех пользователей составляло 14 млн человек, то есть менее 1% населения Земли. В период с 1999 по 2013 интернет-аудитория выросла в 10 раз. Первый миллиард в сети появился в 2005 году, а еще через пять лет аудитория сети пробила отметку в 2 млрд человек. По планете пользователи распределены неравномерно. По данным 2013 года, примерно половина всех интернет-пользователей была из Азии, а наименее многочисленная группа — Тихоокеанский бассейн (0,9%). Европа, между прочим, представлена в сети не так многочисленно, как можно было бы подумать.
И это при том, что до сих пор доступ в сеть получило только 49% населения Земли, и те, кто его лишены, проживают преимущественно в Азиатско-Тихоокеанском регионе и Африке. Невысокий уровень жизни, страх перед технологиями и препятствия в виде сложного ландшафта становятся преградой для роста количества интернет-пользователей в этих регионах. К интернету подключено 6,4 млн компьютеров.
Занятие для каждого
Если первое время интернет был местом для интеллектуалов и снобов, хакеров и пионеров технологий, которые потребляли и создавали контент, то сегодня интернет — это социальные сети, YouTube-видео, сайты для взрослых и другие не самые узкоспециализированные активности.

Сайт internetlivestats.com рассказывает о том, что происходит в интернете в режиме реального времени — за последнюю секунду, день или год.
Интересно, что в день интернет-пользователи отправляют 216 млрд электронных писем, а за последний год (на момент написания статьи) их было 37,8 триллионов — 37 764 560 548 485, если быть точными. И большинство из них — спам!
В первом квартале 2017 процент спама в email-трафике
составил 55,9%
Но вернемся к трафику. По данным Google, в 2008 году компания обрабатывала 20 петабайт данных в день. Сегодня аналогичный результат достигается меньше чем за 8 минут. За последний год эта цифра достигла 636 эксабайтов! На это было потрачено 554 524 478 мегаватт-часов.

Для сравнения все сезоны сериала «Игра престолов» весят около 70 Гб в разрешении видео 1024х576 — столько трафика обрабатывается Google за пару секунд.

Количество поисковых запросов, обрабатываемых Google:

  • 1998 г. — 9800 в день, 3,2 млн в год;
  • 2007 г. — 1,2 млрд в день, 438 млрд в год;
  • 2016 г. — 3 млрд в день, 1,2 трлн в год.
Сколько весит интернет
Первый жесткий диск на 5 МБ появился 60 лет назад. Он весил около тонны и по размеру был сравним с крупным современным холодильником. Внутри массивного корпуса находилось 50 дисков диаметром 60 сантиметров или примерно 23 дюйма. Сегодня на таком пространстве помещаются две серверные стойки, а маленькое устройство в кармане может хранить несколько сотен гигабайт информации. Не только хранить, но и создавать — контент для видеохостингов, соцсетей и мессенджеров.
YouTube
YouTube — крупнейший в мире легальный видеохостинг. Первое видео было загружено на него 23 апреля 2005 года. Сегодня ежедневная аудитория ресурса составляет 30 млн человек, а в целом хостингом пользуется 1,3 млрд. Это большой кусок интернет-аудитории, хотя и меньше, чем у Facebook. Ежеминутно на YouTube заливается 300 часов видео.
Но несмотря на то, что Youtube является крупнейшим видеохостингом для всех, его трафик не сравнится с трафиком видеохостингов «для взрослых». Так, в 2016 году Pornhub отчитался о том, что в его недрах хранится 3110 петабайт данных, а ежеминутно стримится 6 Тб видео. Правда в количестве времени, проведенного на ресурсе, он уступает. За год было просмотрено 92 млрд видео за 23 млрд сеансов, что составляет примерно 12,5 видео на одного человека на планете. За год пользователи этого ресурса отсмотрели 4,6 млрд часов.
Facebook
Аудитория Facebook составляет 1,94 млрд. Это больше, чем у Youtube и больше, чем у любой другой социальной сети в интернете. Для сравнения, в Google+ — чуть более половины миллиарда пользователей, у Twitter — 300 млн. Такое распространение социальной сети обусловлено в том числе тем, что бесплатный доступ к ней есть у бедного населения Африки и Азии благодаря проекту Марка Цукерберга Internet.org. Причем часть пользователей из бедных регионов даже не знает, что находясь в Facebook, они находятся в интернете.
Основная масса загружаемых на Facebook фотографий сделаны смартфонами. Современные устройства делают снимки весом по паре мегабайт, но соцсеть сжимает их перед загрузкой. Если представить, что средний вес загружаемого снимка составляет 100 КБ, то ежедневный «вес» загружаемых снимков достигает 30 ТБ. А ведь есть еще Instagram, куда ежедневно попадает 33 млн снимков.
Что дальше?
Предполагается, что к 2020 году на планете будет 50 млрд подключенных устройств, из них 6,1 млрд — смартфоны. Население Земли достигнет 7,75 млрд (то есть в 6,5 раз меньше), и каждый житель будет генерировать 1,7 Мб информации в секунду. Примерно треть всех данных будет храниться в облаке. В 2013 общий объем данных в интернете составлял 4,3 зеттабайта, каждые два года он удваивается.

Предположительно, к 2020 году этот показатель возрастет до 44 зеттабайтов. Сложно сравнить это с чем-то осязаемым. Но попробуйте представить, что разместить их все можно будет, например, на 4,4 млрд 10-терабайтных накопителях.
Где это все хранится?
Интернет-гиганты строят огромные дата-центры для хранения информации. Обычно данные об их расположении, оснащении и размерах хранятся в секрете. В лучшем случае, в интернете можно найти фотографии фасадов. Но Google три года назад приоткрыли завесу тайны над одним из своих дата-центров и объемами инвестиций в него.

Дата-центр Google, где находятся серверы с Youtube-роликами и где обрабатываются поисковые запросы, об объемах которых мы уже писали выше, занимает 10 000 квадратных метров. Но Google — огромная корпорация с миллиардными доходами, которая может себе позволить столько дата-центров и такого размера, как ей нужно.
Один из дата-центров Google
На новый дата-центр в Орегоне площадью 15 240 кв. м компания потратила $600 млн в 2015 году. К 2020-му году, несмотря на удешевление технологий, скорее всего расходы будут еще выше. Apple строит дата-центр в Ирландии стоимостью $1 млрд и площадью 500 акров. От тепла, которое он будет вырабатывать, будут отапливаться близлежащие дома. В компании планируют покрыть этим дата-центром потребности по обеспечению своими сервисами европейских пользователей на ближайшие 10-15 лет.

Но для обычных пользователей, которые как раз и генерируют основной объем, эта информация едва ли важна. Кто задумывается о том, где конкретно YouTube хранит видео, а Instagram – фотографии, сколько это весит и во сколько обходится компаниям? Разработчики уже подумали об этом, чтобы пользователи комфортно занимались своими делами в их сервисах.

Другое дело бизнес – сами сервисы, торговые сети, интернет-магазины. Развитие технологий идет рука об руку с ростом объема данных, и чем дальше, тем больше их будет. И тут речь идет не только о картиночках, сообщениях и прочем UGC, но и о данных о поведении пользователей, Big Data.
Охладительные системы дата-центра Google в Орегоне. Территория настолько большая, что персоналу приходится перемещаться на велосипедах
Big Data — это нефть нашего времени, она позволяет делать многие вещи, среди которых — адаптация сервисов и даже городской инфраструктуры под потребности людей (об этом мы писали, например, тут), производить более точные измерения (например, фактического потока туристов в городе, о чем мы рассказывали тут), анализировать поведение пользователей и делать на основании этих данных более точные прогнозы. Во всех примерах выше речь идет не о заморских странах, а об украинских государственных проектах и стартапах, которые уже становятся более эффективными и в будущем оставят конкурентов далеко позади.

Несмотря на то, что Big Data — это уже реальность и в Украине, многие бизнесы до сих пор думают, что это дорого и для этого нужен некий суперкомпьютер. По факту есть две разные статьи расходов. Первая — это место под хранение данных. Оно нужно постоянно, но стоит сравнительно недорого. Вторая — анализ данных. Для этого нужны большие вычислительные мощности, которые как раз стоят дорого. Но при этом потребность в них нерегулярная — только на этапе анализа, а все остальное время ресурсы просто простаивают.

Современные технологии позволяют обрабатывать Big data в облаке, комбинируя публичные и частные облака — то есть используя гибридное облако. Частные облака подходят в том случае, когда доступ к ресурсу должен быть постоянным — например, когда речь идет о хранении данных. В таком случае есть смысл в том, чтобы строить свою инфраструктуру. Публичные — когда ресурсы требуются время от времени. В частности, их анализе и построении прогнозов. Их выгоднее «покупать» в публичном облаке, оплачивая только используемый ресурс.
Комментарий Андриса Гайлитиса, СЕО оператора дата-центров DEAC
Успех работы с облачными мощностями зависит не столь от производительности и мощности оборудования, на котором размещены данные, сколько в грамотно разработанной стратегии. Важно правильно поставить цель и определиться со стратегией работы в облаке — как на данном облаке будут работать аппликации, базы данных, какая сетевая и физическая инфраструктура сможет реализовать облачные нагрузки и работать без простоев, какими процессами будет управлять технический персонал провайдера, а какими-собственные сотрудники.

Гибридное облако является удобным решением для тех компаний, которые по какой-то причине не могут или не хотят отказаться от частного облака (например, по причинам безопасности), но в какой-то момент появляется необходимость выделить задачи с повышенной производительностью в публичное облако для быстрого наращивания мощностей. Такая модель облака помогает компаниям без предварительного опыта не только быстрее адаптироваться к облачной среде, но и подстраховаться на случай неожиданного роста больших данных. В среднем бизнес, максимально использующий возможности арендованного облака вне зависимости от его типа, может в течение 5 лет достичь снижение общих IT-расходов на 40%.
© 1999—2017 AIN.UA
[email protected]
Made on
Tilda