Основні системи зберігання даних та їх особливості. Як вибрати СГД? Системи Зберігання Даних DAS, NAS, SAN Системи зберігання даних принципи роботи

Головна / Очищення пристрою

Починаємо нову рубрику під назвою «Лікнеп». Тут описуватимуться, здавалося б, усім добре відомі речі, але, як часто виявляється, — не всім, і не настільки добре. Сподіваємось, що рубрика буде корисною.

Отже, випуск №1 - "Системи зберігання даних".

Системи збереження даних.

По-англійськи вони називаються одним словом – storage, що дуже зручно. Але російською це слово перекладається досить кострубато – «сховище». Часто на сленгу «ІТ-шників» використовують слово «сторадж» у російській транскрипції, або слово «зберігання», але це вже зовсім моветон. Тому використовуватимемо термін «системи зберігання даних», скорочено СГД, або просто «системи зберігання».

До пристроїв зберігання даних можна віднести будь-які пристрої запису даних: т.зв. "флешки", компакт-диски (CD, DVD, ZIP), стрічкові накопичувачі (Tape), жорсткі диски (Hard disk, їх ще називають по-старому "вінчестери", оскільки перші їх моделі нагадували обойму з патронами однойменної гвинтівки 19 століття) і пр. Жорсткі диски використовуються не тільки всередині комп'ютерів, але і як зовнішні USB-пристрої запису інформації, і навіть, наприклад, одна з перших моделей iPod'а – це невеликий жорсткий дискдіаметром 1,8 дюйма, з виходом на навушники та вбудованим екраном.

Останнім часом все більшої популярності набирають т.зв. "твердотільні" системи зберігання SSD (Solid State Disk, або Solid State Drive), які за принципом дії схожі з "флешкою" для фотоапарата або смартфона, тільки мають контролер і більший обсяг даних, що зберігаються. На відміну від жорсткого диска, SSD диск не має механічно рухомих частин. Поки що ціни на такі системи зберігання досить високі, але швидко знижуються.

Все це – споживчі пристрої, а серед промислових системслід виділити, перш за все, апаратні системи зберігання: масиви жорстких дисків, Т.зв. RAID-контролери для них, стрічкові системи зберігання довгострокового зберігання даних. Крім того, окремий клас: контролери для систем зберігання, для керування резервуванням даних, створення «миттєвих знімків» (Snapshot) у системі зберігання для подальшого їх відновлення, реплікації даних тощо). У системи зберігання даних також входять мережеві пристрої (HBА, комутатори Fiber Channel Switch, кабелі FC/SAS та ін.). І, нарешті, розроблено масштабні рішення щодо зберігання даних, архівації, відновлення даних та стійкості до катастроф (disater recovery).

Звідки беруться дані, які потрібно зберігати? Від нас, коханих, користувачів, від прикладних програм, електронної пошти, і навіть від різноманітного устаткування – файлових серверів, і серверів баз даних. З іншого боку, постачальник великої кількості даних – т.зв. пристрої М2М (Machine-to-Machine communication) - різного роду датчики, сенсори, камери та ін.

За частотою використання даних, що зберігаються, СГД можна підрозділити на системи короткострокового зберігання (online storage), зберігання середньої тривалості (near-line storage) і системи довготривалого зберігання (offline storage).

До перших можна зарахувати жорсткий диск (або SSD) будь-якого персонального комп'ютера. До других і третіх - зовнішні системи зберігання DAS (Direct Attached Storage), які можуть бути масивом зовнішніх, по відношенню до комп'ютера, дисків (Disk Array). Їх, у свою чергу також можна поділити на "просто масив дисків" JBOD (Just a Bunch Of Disks) і масив з контролером, що управляє iDAS (intelligent disk array storage).

Зовнішні системи зберігання бувають трьох типів DAS (Direct Attached Storage), SAN (Storage Area Network) та NAS (Network attached Storage). На жаль, навіть багато досвідчених ІТ-шників не можуть пояснити різницю між SAN і NAS, кажучи, що колись ця різниця була, а тепер – її, нібито, вже й немає. Насправді різниця є і істотна (див. рис. 1).

Малюнок 1. Відмінність між SAN та NAS.

SAN з системою зберігання пов'язані фактично самі сервери через мережу області зберігання даних SAN. У разі NAS – мережеві сервери пов'язані через локальну мережа LANіз загальною файловою системою в RAID.

Основні протоколи підключення СГД

Протокол SCSI(Small Computer System Interface), вимовляється як «скáзі», протокол, розроблений у середині 80-х для підключення зовнішніх пристроїв до міні-комп'ютерів. Його версія SCSI-3 є основою всім протоколів зв'язку систем зберігання даних і використовує загальну систему команд SCSI. Його основні переваги: ​​незалежність від сервера, можливість паралельної роботи декількох пристроїв, висока швидкість передачі даних. Недоліки: обмеженість підключених пристроїв, дальність з'єднання сильно обмежена.

Протокол FC(Fiber Channel), внутрішній протокол між сервером та спільно використовуваною СГД, контролером, дисками. Це широко використовується протокол послідовного зв'язку, що працює на швидкостях 4 або 8 Гігабіт за секунду (Gbps). Він, як випливає з його назви, працює через оптоволокно (fiber), але й по міді теж може працювати. Fiber Channel – це основний протокол для систем зберігання FC SAN.

Протокол iSCSI(Internet Small Computer System Interface), стандартний протокол передачі блоків даних поверх широко відомого протоколу TCP/IP тобто. "SCSI over IP". iSCSI може розглядатися як високошвидкісне недороге рішення для систем зберігання, що підключаються віддалено, через Інтернет. iSCSI інкапсулює команди SCSI у пакети TCP/IP для передачі їх по IP-мережі.

Протокол SAS(Serial Attached SCSI). SAS використовує послідовну передачу даних та сумісний із жорсткими дисками SATA. В даний момент SAS може передавати дані зі швидкістю 3 Гбіт/с або 6 Гбіт/с, і підтримує повний режим дуплексу, тобто. може передавати дані обидві сторони з однаковою швидкістю.

Типи систем зберігання.

Можна розрізнити три основні типи систем зберігання:

  • DAS (Direct Attached Storage)
  • NAS (Network attached Storage)
  • SAN (Storage Area Network)

СГД з безпосереднім підключенням дисків DAS були розроблені ще наприкінці 70-х років, внаслідок вибухового збільшення даних, які вже просто фізично не поміщалися у внутрішній довгостроковій пам'яті комп'ютерів (для молодих зробимо примітку, що тут йдеться не про персоналки, їх тоді ще не було, а великих комп'ютерах, так званих мейнфреймах). Швидкість передачі у DAS була дуже високої, від 20 до 80 Мбіт/с, але тодішніх потреб її цілком вистачало.

Малюнок 2. DAS

СГД із мережевим підключенням NAS з'явилися на початку 90-х років. Причиною став швидкий розвиток мереж та критичні вимоги до спільного використання великих масивів даних у межах підприємства чи мережі оператора. У NAS використовувалася спеціальна мережна файлова система CIFS (Windows) або NFS (Linux), тому різні сервери різних користувачівмогли зчитувати той самий файл з NAS одночасно. Швидкість передачі була вже вище: 1 – 10 Гбіт/с.

Малюнок 3. NAS

У середині 90-х з'явилися мережі підключення пристроїв зберігання FC SAN. Їх розробка була викликана необхідністю організації розкиданих мережею даних. Один пристрій зберігання SAN може бути розбитий на кілька невеликих вузлів, званих LUN (Logical Unit Number), кожен з яких належить одному серверу. Швидкість передачі зросла до 2-8 Гбіт/с. Такі СГД могли забезпечувати технології захисту від втрат (snapshot, backup).

Малюнок 4. FC SAN

Інший різновид SAN – IP SAN (IP Storage Area Network), розроблений на початку 2000-х років. FC SAN були дорогі, складні в управлінні, а мережі протоколу IP перебували на піку розвитку, тому й з'явився цей стандарт. СГД підключалися до серверів за допомогою iSCSI-контролера через IP-комутатори та забезпечували швидкість передачі даних 1 – 10 Гбіт/с.

Рис.5. IP SAN.

У таблиці нижче показано деякі порівняльні характеристики всіх розглянутих систем зберігання:

Тип NAS SAN
Параметр FC SAN IP SAN DAS
Тип передачі SCSI, FC, SAS FC IP IP
Тип даних Блок даних Файл Блок даних Блок даних
Типова програма Будь-яке Файл-сервер Бази даних Відеоспостереження
Перевага Чудова сумісність Легкість встановлення, низька вартість Хороша масштабованість Хороша масштабованість
Недоліки Проблема управління.

Неефективне використання ресурсів. Погана масштабованість

Низька продуктивність.

Обмеження у застосовності

Висока вартість.

Складність конфігурації масштабування

Низька продуктивність

Коротко, SAN призначені передачі масивних блоків даних СХД, тоді як NAS забезпечують доступом до даних лише на рівні файлів. Комбінацією SAN + NAS можна отримати високий рівень інтеграції даних, високопродуктивний та спільний доступ до файлів. Такі системи отримали назву unified storage - "уніфіковані системи зберігання".

Уніфіковані системи зберігання:архітектура мережевих СХД, яка підтримує як файлово-орієнтовану систему NAS, і блоко-орієнтовану систему SAN. Такі системи були розроблені на початку 2000-х років з метою вирішення проблем адміністрування та високої сумарної вартості володіння роздільними системами на одному підприємстві. Ця СГД підтримує майже всі протоколи: FC, iSCSI, FCoE, NFS, CIFS.

Жорсткі диски

Всі жорсткі диски можна поділити на два основні типи: HDD (Нard Disk Drive, що, власне, і перекладається як жорсткий диск) і SSD (Solid State Drive, - т.зв. твердотільний диск). Тобто, і той та інший диск – жорсткі. Що ж тоді м'який диск, такі взагалі бувають? Так, у минулому були, називалися «флоппі-диски» (так їх прозвали через характерний звук, що “плескає” в дисководі при роботі). Приводи для них ще можна побачити в системних блокахстарих комп'ютерів, які збереглися у деяких держустановах. Однак, за всього бажання, такі магнітні диски їх навряд чи можна віднести до СИСТЕМ зберігання. Це були деякі аналоги нинішніх «флешок», хоч і дуже невеликий ємності.

Відмінність HDD і SSD в тому, що HDD має всередині кілька співвісних магнітних дисків і складну механіку, що переміщає магнітні головки зчитування-запису, а SSD зовсім не має частин, що механічно рухаються, і являє собою, по суті, мікросхему, запресовану в пластик. Тому називати жорсткими дисками тільки HDD, строго кажучи, некоректно.

Жорсткі диски можна класифікувати за такими параметрами:

  • Конструктивне виконання: HDD, SSD;
  • Діаметру HDD у дюймах: 3.5, 2.5, 1.8 дюйма;
  • Інтерфейс: ATA/IDE, SATA/NL SAS, SCSI, SAS, FC
  • Класу використання: індивідуальні (desktop class), корпоративні (enterprsie class).
Параметр SATA SAS NL-SAS SSD
Швидкість обертання (RPM) 7200 15000/10000 7200 NA
Типова ємність (TБ) 1T/2T/3T 0.3T/0.6T/0.9T 2T/3T/4T 0.1T/0.2T/0.4T
MTBF (година) 1 200 000 1 600 000 1 200 000 2 000 000
Примітки Розвиток жорстких дисків ATA із послідовною передачею даних.

SATA 2.0 підтримує швидкість передачі 300MБ/с, SATA3.0 підтримує до 600MБ/с.

Середньорічний % відмов AFR (Annualized Failure Rate) для дисків SATA – близько 2%.

Тверді диски SATA з інтерфейсом SAS підходять для ієрархічних (tiering). Середньорічний % відмов AFR (Annualized Failure Rate) для дисків NL-SAS близько 2%. Твердотільні диски виконані з електронних мікросхем пам'яті, включаючи пристрій керування та чіп (FLASH/DRAM). Специфікація інтерфейсу, функції та метод використання такі ж, як у HDD, розмір та форма – теж.

Характеристики жорстких дисків.

  • Ємність

У сучасних жорстких дисках ємність вимірюється у гігабайтах чи терабайтах. Для HDD ця величина кратна ємності одного магнітного дискаусередині коробки, помноженої на кількість магнітних, яких зазвичай буває кілька.

  • Швидкість обертання (лише HDD)

Швидкість обертання магнітних дисків усередині приводу, що вимірюється в обертах за хвилину RPM (Rotation Per Minute), зазвичай становить 5400 RPM або 7200 RPM. HDD з інтерфейсами SCSI/SAS мають швидкість обертання 10000-15000 RPM.

  • Середній час доступу =Середнє час пошуку (Mean seek time) + Середній час очікування (Mean wait time), тобто. час отримання інформації з диска.
  • Швидкість передачі даних

Це швидкість зчитування та запису даних на жорсткому диску, що вимірюється в мегабайтах за секунду (MB/S).

  • IOPS (Input/Output Per Second)

Число операцій введення-виводу (або читання-запису) за секунду (Input/Output Operations Per Second), один з основних індикаторів вимірювання продуктивності диска. Для додатків із частими операціями читання та запису, таких як OLTP (Online Transaction Processing) – онлайн-обробка транзакцій, IOPS – найважливіший показник, т.к. саме від нього залежить швидкодія бізнес-додатку. Інший важливий показник – data throughput, що можна перекласти як «пропускна здатність передачі», що показує, який обсяг даних можна передати за одиницю часу.

RAID

Як би не були надійні жорсткі диски, а все ж таки дані в них іноді губляться, з різних причин. Тому було запропоновано технологію RAID (Redundant Array of Independent Disks) – масив незалежних дисків із надмірністю зберігання даних. Надмірність означає те, що всі байти даних під час запису на один диск дублюються на іншому диску, і можуть бути використані в тому випадку, якщо перший диск відмовить. Окрім того, ця технологія допомагає збільшити IOPS.

Основні поняття RAID - stripping (т.зв. «розполосування» або поділ) та mirroring (т.зв. «дзеркалювання», або дублювання) даних. Їхні поєднання визначають різні види RAID-масивів жорстких дисків.

Розрізняють такі рівні RAID-масивів:

Комбінації цих видів породжують ще кілька нових видів RAID:

Малюнок пояснює принцип виконання RAID 0 (поділ):

Мал. 6. RAID 0.

А так виконується RAID 1 (дублювання):

Мал. 7. RAID 1.

А ось так працює RAID 3. XOR – логічна функція"виключає АБО" (eXclusive OR). За її допомогою обчислюється значення паритету для блоків даних A, B, C, D… , який записується окремий диск.

Мал. 8. RAID 3.

Наведені вище схеми добре ілюструють принцип дії RAID і коментарів не потребують. Ми не наводитимемо схеми роботи інших рівнів RAID, бажаючі можуть їх знайти в Інтернеті.

Основні характеристики видів RAID наведено у таблиці.

Програмне забезпечення систем зберігання

Програмне забезпечення для систем зберігання можна поділити на такі категорії:

  1. Управління та адміністрування (Management):керування та завдання параметрів інфраструктури: вентиляції, охолодження, режими роботи дисків та ін., керування за часом доби та ін.
  2. Захист даних: Snapshot («моментальний знімок» стану диска), копіювання вмісту LUN, множинне дублювання (split mirror), віддалене дублювання даних (Remote Replication), безперервний захист даних CDP (Continuous Data Protection) та ін.
  3. Підвищення надійності:різне ПЗ для множинного копіювання та резервування маршрутів передачі даних усередині ЦОД та між ними.
  4. Підвищення ефективності:Технологія тонкого резервування (Thin Provisioning), автоматичний поділ системи зберігання на рівні (tiered storage), усунення повторень даних (deduplication), управління якістю сервісу, попереднє вилучення з кеш-пам'яті (cache prefetch), поділ даних (partitioning), автоматична міграція даних зниження швидкості обертання диска (disk spin down)

Дуже цікава технологія. thin provisioning». Як це часто буває в ІТ, терміни часто важко піддаються адекватному перекладу російською мовою, наприклад, важко точно перекласти слово «provisioning» («забезпечення», «підтримка», «надання» – жоден із цих термінів не передає сенсу повністю). А коли воно – «тонке» (thin)…

Для ілюстрації принципу "thin provisioning" можна навести банківський кредит. Коли банк випускає десять тисяч кредитних картокз лімітом 500 тисяч, йому не потрібно мати на рахунку 5 мільярдів, щоб цей обсяг кредитів обслуговувати. Користувачі кредитних карток зазвичай не витрачають весь кредит відразу, і використовують лише його малу частину. Тим не менш, кожен користувач окремо може скористатися усією або майже всією сумою кредиту, якщо загальний обсяг коштів банку не вичерпано.

Мал. 9. Thin provisioning.

Таким чином, використання thin provisioning дозволяє вирішити проблему неефективного розподілу простору в SAN, заощадити місце, полегшити адміністративні процедури розподілу простору додаткам на сховище, і використовувати так званий oversubscribing, тобто виділити додаткам місця більше, ніж ми маємо фізично, в розрахунку на те, що програми не вимагають одночасно весь простір. У міру виникнення в ньому потреби пізніше можна збільшити фізичну ємність сховища.

Поділ системи зберігання на рівні (tiered storage) передбачає, що різні дані зберігаються у пристроях зберігання, швидкодія яких відповідає частоті звернення до цих даних. Наприклад, дані, що часто використовуються, можна розміщувати в «online storage» на дисках SSD з високою швидкістю доступу, високою продуктивністю. Однак, ціна таких дисків поки що висока, тому їх доцільно використовувати тільки для online storage (поки що).

Швидкість дисків FC/SAS також є досить високою, а ціна помірна. Тому такі диски добре схожі на «near-line storage», де зберігаються дані, звернення до яких відбуваються не так часто, але в той же час і не так рідко.

Нарешті, диски SATA/NL-SAS мають відносно невисоку швидкість доступу, але відрізняються великою ємністю і відносно дешеві. Тому на них зазвичай роблять offline storage для даних рідкісного використання.

Як тільки система управління зауважує, що звернення до даних у offline storage почастішали, вона переводить їх у near-line storage, а при подальшій активізації їх використання – і online storage на дисках SSD.

Дедуплікація (усунення повторень) даних(Deduplication, DEDUP). Як випливає з назви, дедуплікація усуває повтори даних на просторі диска, який зазвичай використовується в частині резервування даних. Хоча система нездатна визначити, яка інформація надмірна, може визначити наявність повторів даних. За рахунок цього можна значно скоротити вимоги до ємності системи резервування.

Зниження швидкості обертання диска (Disk spin-down) - Те, що зазвичай називають «Гібернація» (засипанням) диска. Якщо дані на якомусь диску не використовуються довгий час, то Disk spin-downпереводить його в режим глибокого сну, щоб знизити споживання енергії на марне обертання диска на звичайній швидкості. При цьому також підвищується термін служби диска та збільшується надійність системи загалом. При надходженні нового запиту до даних на цьому диску він прокидається і швидкість його обертання збільшується до звичайної. Платою за економію енергії та підвищення надійності є деяка затримка при першому зверненні до даних на диску, але ця плата цілком виправдана.

"Моментальний знімок" стану диска (Snapshot). Snapshot – це повністю придатна до використання копія певного набору даних на диску на момент знімання цієї копії (тому вона називається «моментальним знімком»). Така копія використовується для часткового відновлення системи на момент копіювання. При цьому безперервність роботи системи зовсім не торкається і швидкодія не погіршується.

Віддалена реплікація даних (Remote Replication): працює з використанням технології дзеркалювання (Mirroring). Може підтримувати кілька копій даних на двох або більше сайтах для запобігання втраті даних у разі стихійного лиха. Існує два типи реплікації: синхронна та асинхронна, відмінність між ними пояснена на малюнку.

Мал. 10. Віддалена реплікація даних (Remote Replication).

Безперервний захист даних CDP (Continuous data protection), також відома як continuous backup або real-time backup, є створення резервної копії автоматично при кожній зміні даних. При цьому стає можливим відновлення даних при будь-яких аваріях у будь-який момент часу, причому доступні актуальна копія даних, а не тих, що були кілька хвилин або годин тому.

Програми управління та адміністрування (Management Software):сюди входить різноманітне програмне забезпечення з управління та адміністрування різних пристроїв: прості програми конфігурації (cofiguration wizards), програми централізованого моніторингу: відображення топології, моніторинг реального часу механізми формування звітів про збоях. Також сюди входять програми «гарантії безперервності бізнесу» (Business Guarantee): багаторозмірна статистика продуктивності, звіти та запити продуктивності та ін.

Відновлення при стихійних лихах (DR, Disaster Recovery) . Це досить важлива складова серйозних промислових СГД, хоч і досить затратна. Але ці витрати необхідно нести, щоб не втратити відразу «те, що нажито непосильною працею». Розглянуті вище системи захисту даних (Snapshot, Remote Replication, CDP) хороші до тих пір, поки в населеному пункті, де розташована система зберігання, не відбулося якесь стихійне лихо: цунамі, повінь, землетрус або (тьху-тьху-тьху) – ядерна війна. Та й будь-яка війна теж здатна сильно зіпсувати життя людям, які займаються корисними справами, наприклад, зберіганням даних, а не біганням з автоматом з метою відчепити собі чужі території або покарати якихось «невірних». Віддалена реплікація має на увазі, що реплікуюча СГД знаходиться в тому самому місті, або як мінімум поблизу. Що, наприклад, за цунамі не рятує.

Технологія Disaster Recovery передбачає, що центр резервування, що використовується для відновлення даних при стихійних лихах, розташовується на значній відстані від місця основного ЦОД, і взаємодіє з ним по мережі передачі даних, накладеної на транспортну мережу, найчастіше оптичну. Використовувати при такому розташуванні основного та резервного ЦОД, наприклад, технологію CDP буде просто неможливо технічно.

У технології DR використовуються три основні поняття:

  • BW (Backup Window)- "Вікно резервування", час, необхідний для системи резервування для того, щоб скопіювати прийнятий обсяг даних робочої системи.
  • RPO (Recovery Point Objective)– «Допустима точка відновлення», максимальний період часу та відповідний обсяг даних, який допустимо втратити для користувача СГД.
  • RTO (Recovery Time Objective)- «Припустимий час недоступності», максимальний час, протягом якого СГД може бути недоступним, без критичного впливу на основний бізнес.

Мал. 11. Три основні поняття технології DR.

* * *

Дане есе не претендує на повноту викладу і лише пояснює основні засади роботи СГД, хоч і далеко не в повному обсязі. У різних джерелах в Інтернеті міститься багато документів, які докладніше описують усі викладені (і не викладені) тут моменти.

Продовження теми СГД про об'єктні системи зберігання – .

Якщо Сервери - це універсальні пристрої, що виконують здебільшого
- або функцію сервера програми (коли на сервері виконуються спеціальні програми, і йдуть інтенсивні обчислення),
- або функцію файл-сервера (тобто якогось місця для централізованого зберігання файлів даних)

СХД (Системи Зберігання Даних) - пристрої, спеціально спроектовані для виконання таких серверних функцій, як зберігання даних.

Необхідність придбання СГД
з'являється зазвичай у досить зрілих підприємств, тобто. тих, хто замислюється над тим, як
- зберігати та керувати інформацією, найціннішим активом компанії
- забезпечити безперервність бізнесу та захист від втрати даних
- Збільшити адаптованість ІТ-інфраструктури

СГД та віртуалізація
Конкуренція змушує компанії МСБ працювати ефективніше, без простоїв та з високим ККД. Зміна виробничих моделей, тарифних планів, видів послуг відбувається все частіше. Весь бізнес сучасних компаній "зав'язаний" на інформаційних технологіях. Потреби бізнесу змінюються швидко, і миттєво відбиваються на ІТ - зростають вимоги до надійності та адаптованості ІТ-інфраструктури. Віртуалізація надає такі можливості, але для цього потрібні недорогі та прості в обслуговуванні системи зберігання даних.

Класифікація СГД за типом підключення

DAS. Перші дискові масиви з'єднувалися із серверами за інтерфейсом SCSI. При цьому один сервер міг працювати лише з одним дисковим масивом. Це - пряме з'єднання СГД (DAS - Direct Attached Storage).

NAS. Для більш гнучкої організації структури обчислювального центру – щоб кожен користувач міг використовувати будь-яку систему зберігання – необхідно підключити СГД у локальну мережу. Це - NAS - Network Attached Storage). Але обмін даними між сервером і СХД набагато інтенсивніший ніж між клієнтом і сервером, тому в такому варіанті варіанті з'явилися об'єктивні труднощі, пов'язані з пропускною здатністю мережі Ethernet. Та й з погляду безпеки не зовсім правильно показувати СГД у спільну мережу.

SAN. Але можна створити між серверами та СГД свою, окрему, високошвидкісну мережу. Таку мережу назвали SAN (Storage Area Network). Швидкодія забезпечується тим, що фізичним середовищем передачі є оптика. Спеціальні адаптери (HBA) та оптичні FC-комутатори забезпечують передачу даних на швидкості 4 та 8Gbit/s. Надійність такої мережі підвищувалася резервуванням (дуплікацією) каналів (адаптерів, комутаторів). Основним недоліком є ​​висока ціна.

iSCSI. З появою недорогих Ethernet-технологій 1Gbit/s та 10Gbit/s, оптика зі швидкістю передачі 4Gbit/s вже виглядає не так привабливо, особливо з урахуванням ціни. Тому все частіше як середовище SAN використовується протокол iSCSI (Internet Small Computer System Interface). Мережа iSCSI SAN може бути побудована на будь-якій досить швидкій фізичній основі, що підтримує протокол IP.

Класифікація Систем Зберігання Даних по області застосування:

клас опис
personal

Найчастіше являють собою звичайний 3.5" або 2.5" або 1.8" жорсткий диск, поміщений у спеціальний корпус і оснащений інтерфейсами USB та/або FireWire 1394 та/або Ethernet, та/або eSATA.
Таким чином ми маємо переносний пристрій, який може підключатися до комп'ютера/сервера та виконувати функції зовнішнього накопичувача. Іноді для зручності пристрою додають функції бездротового доступу, принтерних і USB портів.

male workgroup

Зазвичай це стаціонарний або переносний пристрій, який можна встановлювати кілька (найчастіше від 2 до 5) жорстких дисків SATA, з можливістю гарячої заміни або без, що має інтерфейс Ethernet. Диски можна організовувати в масиви – RAID різного рівня для досягнення високої надійності зберігання та швидкості доступу. СГД має спеціалізовану ОС, зазвичай на основі Linux, і дозволяє розмежовувати рівень доступу по імені та паролю користувачів, організовувати квотування дискового простору тощо.
Такі СГД підходять для невеликих робочих груп як заміна файл-серверів.

workgroup

Пристрій, що зазвичай монтується в 19" стійку (rack-mount) в який можна встановлювати 12-24 жорстких дисків SATA або SAS з можливістю гарячої заміни HotSwap. Має зовнішній інтерфейс Ethernet, та/або iSCSI. Диски організовані в масиви - RAID для досягнення високої надійності зберігання та швидкості доступу СХД поставляється зі спеціалізованим програмним забезпеченнямщо дозволяє розмежовувати рівень доступу, організовувати квотування дискового простору, організовувати BackUp (резервне копіювання інформації) тощо.
Такі СГД підходять для середніх і великих підприємств і використовуються спільно з одним або декількома серверами.
enterprise
Стаціонарний пристрій або пристрій, що монтується в 19" стійку (rack-mount), в який можна встановлювати до сотень жорстких дисків.
На додаток до попереднього класу СГД можуть мати можливість нарощування, модернізації та заміни компонентів без зупинки системи, системи моніторингу. Програмне забезпечення може підтримувати створення "миттєвих знімків" та інші "просунуті" функції.
Такі СГД підходять для великих підприємств та забезпечують підвищену надійність, швидкість та захист критично важливих даних.

high-end enterprise

На додаток до попереднього класу СГД може підтримувати тисячі жорстких дисків.
Такі СГД займають кілька 19” кабінетів, загальна вага сягає кількох тонн.
СГД призначені для безперервної роботи з найвищим ступенем надійності, зберігання стратегічно важливих даних рівня держави/корпорацій.

Історія питання.

Перші сервери поєднували в одному корпусі всі функції (як комп'ютери) - обчислювальні (сервер додатків) і зберігання даних (файл-сервер). Але в міру зростання потреби додатків в обчислювальних потужностях з одного боку і в міру зростання кількості даних з іншого боку - стало просто незручно розміщувати все в одному корпусі. Ефективніше виносити дискові масиви в окремі корпуси. Але тут постало питання з'єднання дискового масиву із сервером. Перші дискові масиви з'єднувалися із серверами за інтерфейсом SCSI. Але в такому разі один сервер міг працювати лише з одним дисковим масивом. Народу захотілося гнучкішої організації структури обчислювального центру - щоб будь-який сервер міг використати будь-яку систему зберігання. Підключити всі пристрої безпосередньо в локальну мережу та організувати обмін даними по Ethernet – звичайно, просте та універсальне рішення. Але обмін даними між серверами та СГД у багато разів більш інтенсивний ніж між клієнтами та серверами, тому в такому варіанті варіанті (NAS – див. нижче) з'явилися об'єктивні труднощі, пов'язані з пропускною спроможністю мережі Ethernet. Виникла ідея створити між серверами та СГД свою, окрему високошвидкісну мережу. Таку мережу назвали SAN (див. нижче). Вона схожа на Ethernet, тільки фізичним середовищем передачі є оптика. Там теж є адаптери (HBA), які встановлюються в сервери та комутатори (оптичні). Стандарти на швидкість передачі даних по оптиці – 4Gbit/s. З появою технологій Ethernet 1Gbit/s та 10Gbit/s, а також протоколу iSCSI все частіше як середовище SAN використовується Ethernet.

У цій статті йдеться про системи зберігання даних початкового та середнього рівня, а також про ті тенденції, які сьогодні яскраво виділяються в цій галузі. Для зручності називатимемо системи зберігання даних накопичувачами.

Спочатку ми трохи зупинимося на термінології та технологічних засадах автономних накопичувачів, а потім перейдемо до новинок та обговорення сучасних досягнень у різних технологічних та маркетингових групах. Ми також обов'язково розповімо про те, навіщо потрібні системи того чи іншого виду та наскільки ефективним є їх використання у різних ситуаціях.

Автономні дискові підсистеми

Для того, щоб краще зрозуміти особливості автономних накопичувачів, зупинимося трохи на одній із простих технологій побудови систем зберігання даних – шинно-орієнтованої технології. Вона передбачає використання корпусу для дискових накопичувачів та контролера PCI RAID.

Малюнок 1. Шинно-орієнтована технологія побудови систем зберігання даних

Таким чином, між дисками та PCI-шиною хоста (від англ. Host- у даному випадкуавтономний комп'ютер, наприклад сервер або робоча станція) є тільки один контролер, який значною мірою задає швидкодію системи. Накопичувачі, побудовані за цим принципом, є найпродуктивнішими. Однак у з архітектурними особливостями практичне їх використання, крім рідкісних випадків, обмежується змінами з одним хостом.

До недоліків шинно-орієнтованої архітектури накопичувачів слід зарахувати:

  • ефективне використання лише у конфігураціях з одним хостом;
  • залежність від операційної системи та платформи;
  • обмежену масштабованість;
  • обмежені можливості щодо організації відмовостійких систем.

Звичайно, все це не має значення, якщо дані потрібні для одного сервера або робочої станції. Навпаки, у такій конфігурації ви отримаєте максимальну швидкодію за мінімальні гроші. Але якщо вам потрібна система зберігання даних для великого обчислювального центру або навіть для двох серверів, яким потрібні ті самі дані, шинно-орієнтована архітектура зовсім не підходить. Недоліків цієї архітектури дозволяє уникнути архітектури автономних дискових підсистем. Основний принцип її побудови є досить простим. Контролер, який керує системою, переноситься з хост-комп'ютера в корпус накопичувача, забезпечуючи незалежне від хост-систем функціонування. Слід зазначити, що така система може мати велику кількість зовнішніх каналів вводу/виводу, що забезпечує можливість підключення до системи кількох або навіть багатьох комп'ютерів.


Малюнок 2. Автономна система зберігання даних

Будь-яка інтелектуальна система зберігання даних складається з апаратної частини та програмного коду. В автономній системі завжди є пам'ять, де зберігається програма алгоритмів роботи самої системи та процесорні елементи, які цей код обробляють. Така система функціонує незалежно від цього, з якими хост-системами вона пов'язана. Завдяки своїй інтелектуальності автономні накопичувачі найчастіше самостійно реалізують безліч функцій із забезпечення безпеки та управління даними. Одна з найважливіших базових і практично повсюдно використовуваних функцій - RAID (Redundant Array of Independent Disks). Інша, що вже належить системам середнього та високого рівня - це віртуалізація. Вона забезпечує такі можливості як миттєва копія або віддалене резервування, а також інші досить витончені алгоритми.

Коротко про SAS, NAS, SAN

У рамках розгляду автономних систем зберігання даних обов'язково слід зупинитися на тому, як здійснюється доступ хост-систем до накопичувачів. Це значною мірою визначає сфери їх використання та внутрішню архітектуру.

Розрізняють три основні варіанти організації доступу до накопичувачів:

  • SAS (Server Attached Storage) - накопичувач, приєднаний до сервера [друга назва DAS (Direct Attached Storage) - безпосередньо під'єднаний накопичувач];
  • NAS (Network Attached Storage) - накопичувач, підключений до мережі;
  • SAN (Storage Area Network) – мережа зберігання даних.

Ми вже писали про технології SAS/DAS, NAS та SAN у статті присвяченій SAN, якщо когось ця інформація зацікавить, рекомендуємо звернутися до сторінок iXBT. Але все ж таки дозволимо собі трошки освіжити матеріал з акцентом на практичне використання.

SAS/DAS- це досить простий традиційний спосіб підключення, який має на увазі пряме (звідси і DAS) приєднання системи зберігання до однієї або кількох хост-систем через високошвидкісний канальний інтерфейс. Часто в таких системах, для приєднання накопичувача до хоста використовується такий самий інтерфейс, який використовується для доступу до внутрішніх дисків хост-системи, що у загальному випадку забезпечує високу швидкодію та просте підключення.

SAS-систему можна рекомендувати до використання у разі, якщо є потреба у високошвидкісній обробці даних великих обсягів на одній або кількох хост-системах. Це, наприклад, може бути файл-сервер, графічна станція або стійка до відмови кластерна система, що складається з двох вузлів.



Малюнок 3. Кластерна система із загальним накопичувачем

NAS- накопичувач, який підключений до мережі та забезпечує файловий (зверніть увагу – файловий, а не блоковий) доступ до даних для хост-систем у мережі LAN/WAN. Клієнти, які працюють з NAS, зазвичай використовують протоколи NSF (Network File System) або CIFS (Common Internet File System) для доступу до даних. NAS інтерпретує команди файлових протоколів і виконує запит до дискових накопичувачів відповідно до канального протоколу, що використовується в ньому. Фактично, архітектура NAS – це еволюція файлових серверів. Головною перевагою такого рішення є швидкість розгортання та якість організації доступу до файлів завдяки спеціалізації та вузькій спрямованості.

Виходячи зі сказаного, NAS можна рекомендувати для використання у випадку, якщо потрібен мережевий доступ до файлів і досить важливими факторами є: простота рішення (що зазвичай є певним гарантом якості) та простота його супроводу та встановлення. Прекрасним прикладом є використання NAS як файл-сервер в офісі невеликої компанії, для якої важлива простота встановлення та адміністрування. Але в той же час, якщо вам потрібен доступ до файлів з великої кількості хост-систем, потужний NAS-накопичувач, завдяки відточеному спеціалізованому рішенню, здатний забезпечити інтенсивний обмін трафіком з величезним пулом серверів і робочих станцій за досить низької вартості комунікаційної інфраструктури (наприклад , комутаторів Gigabit Ethernet та мідної кручений пари).

SAN- Мережа зберігання даних. Зазвичай у SAN використовується блоковий доступ до даних, хоча можливе підключення до мереж зберігання даних пристроїв, що надають файлові послуги, наприклад NAS. У сучасних реалізаціях мережі зберігання даних найчастіше використовують протокол Fibre Channel, але у загальному випадку це не є обов'язковим, у зв'язку з чим прийнято виділяти окремий клас Fibre Channel SAN (мережі зберігання даних на основі Fibre Channel).

Основою SAN є окрема від LAN/WAN мережа, яка служить для організації доступу до даних серверів та робочих станцій, які безпосередньо займаються обробкою. Така структура робить побудову систем з високою готовністю та високою інтенсивністю запитів щодо простого завдання. Незважаючи на те, що SAN сьогодні залишається дорогим задоволенням, TCO (загальна вартість володіння) для середніх та великих систем, побудованих з використанням технології мереж зберігання даних, є досить низькою. Опис способів зниження TCO корпоративних системзберігання даних завдяки SAN можна знайти на сторінках ресурсу techTarget: http://searchstorage.techtarget.com.

Сьогодні вартість дискових накопичувачів з підтримкою Fibre Channel як найбільш поширеного інтерфейсу для побудови SAN близька до вартості систем з традиційними недорогими канальними інтерфейсами (такими як паралельний SCSI). Головними вартісними складовими в SAN залишається комунікаційна інфраструктура, а також вартість її розгортання та супроводу. У зв'язку з чим, в рамках SNIA та багатьох комерційних організаціяхведеться активна робота над технологіями IP Storage, що дозволяє використовувати значно дешевшу апаратуру та інфраструктуру IP-мереж, а також колосальний досвід фахівців у цій сфері.

Прикладів ефективного використання SAN можна навести досить багато. Практично скрізь, де є необхідність використання кількох серверів з спільною системоюзберігання даних можна використовувати SAN. Наприклад, для організації колективної роботи над відео або попередньої обробки друкованої продукції. У такій мережі кожен учасник процесу обробки цифрового контенту має можливість практично одночасно працювати над Терабайтами даних. Або, наприклад, організація резервування великих обсягів даних, якими користується безліч серверів. При побудові SAN та використанні незалежного від LAN/WAN алгоритму резервування даних та технологій «моментальної копії» можна резервувати майже будь-які обсяги інформації без шкоди функціональності та продуктивності всього інформаційного комплексу.

Fibre Channel у мережах зберігання даних

Безумовним фактом є те, що сьогодні саме FC (Fibre Channel) домінує у мережах зберігання даних. І саме розвиток цього інтерфейсу призвело до розвитку самої концепції SAN.

У проектуванні FC брали участь фахівці зі значним досвідом у розробці як канальних, так і мережевих інтерфейсів, і їм вдалося поєднати всі важливі позитивні риси обох напрямків. Однією з найважливіших переваг Fibre Channel поряд зі швидкісними параметрами (які, до речі, не завжди є головними для користувачів SAN, і можуть бути реалізовані за допомогою інших технологій) є можливість роботи на великих відстанях та гнучкість топології, яка прийшла в новий стандартіз мережевих технологій. Таким чином, концепція побудови топології мережі зберігання даних базується на тих же принципах, що і традиційні локальні мережі, на основі концентраторів, комутаторів та маршрутизаторів, що значно спрощує побудову багатовузлових конфігурацій систем, зокрема без жодної точки відмов.

Варто також відзначити, що в рамках Fibre Channel для передачі даних використовуються як оптоволоконні, так і мідні середовища. При організації доступу до територіально віддалених вузлів на відстані до 10 км використовується стандартна апаратура і одномодове оптоволокно для передачі сигналу. Якщо ж вузли рознесені на десятки або навіть 100 кілометрів використовуються спеціальні підсилювачі. При побудові таких SAN враховуються досить нетрадиційні для систем зберігання даних параметри, наприклад швидкість поширення сигналу в оптоволокні.

Тенденції розвитку систем зберігання даних

Світ систем зберігання даних дуже різноманітний. Можливості систем зберігання даних, і вартість рішень досить диференційована. Існують рішення, що поєднують у собі можливості обслуговування сотень тисяч запитів за секунду до десятків і навіть сотень Терабайт даних, а також рішення для одного комп'ютера з недорогими дисками з інтерфейсом IDE.

IDE RAID

Останнім часом максимальний обсяг дисків з IDE-інтерфейсом колосально збільшився і випереджає SCSI-диски приблизно вдвічі, а якщо говорити про співвідношення ціна на одиницю об'єму, то IDE-диски лідирують із розривом більш ніж у 6 разів. Це, на жаль, позитивно не вплинуло на надійність IDE-дисків, але все ж сфера їх застосування в автономних системах зберігання даних невблаганно збільшується. Головним чинником у цьому є те, що у великих обсягах даних зростає швидше, ніж обсяг одиночних дисків.

Ще кілька років тому рідкісні виробники вирішували випускати автономні підсистеми, орієнтовані використання IDE-дисків. Сьогодні їх випускає практично кожен виробник, орієнтований ринку систем початкового рівня. Найбільшого поширення у класі автономних підсистем з IDE-дисками спостерігається у NAS-системах початкового рівня. Адже якщо ви використовуєте NAS як файлового сервераз інтерфейсом Fast Ethernetабо навіть Gigabit Ethernet, то в більшості випадків швидкодії таких дисків є більш ніж достатнім, а їхня низька надійність компенсується використанням технології RAID.

Там, де необхідний блоковий доступ до даних при мінімальній ціні за одиницю інформації, що зберігається, сьогодні активно використовуються системи з IDE-дисками всередині і із зовнішнім SCSI-інтерфейсом. Наприклад, на системі JetStor IDE виробництва американської компанії AC&NC для побудови відмовостійкого архіву з обсягом даних, що зберігаються в 10 Терабайт і можливістю швидкого блочного доступу до даних, вартість зберігання одного Мегабайта становитиме менше 0,3 цента.

Ще однією цікавою та досить оригінальною технологією, з якою довелося познайомитися зовсім недавно, була система Raidsonic SR-2000 із зовнішнім паралельним IDE-інтерфейсом.


Малюнок 4. Автономний IDE RAID початкового рівня

Це автономна дискова система, яка розрахована на використання двох IDE дисків і орієнтована на монтаж усередині корпусу хост-системи. Вона є абсолютно незалежною від операційної системи на хост-машині. Система дозволяє організувати RAID 1 (дзеркало) або просто копіювання даних з одного диска на інший з можливістю гарячої заміни дисків, без будь-якої шкоди або незручності з боку користувача комп'ютера, чого не скажеш про шинно-орієнтовані підсистеми, побудовані на контролерах PCI IDE RAID .

Слід зазначити, що провідні виробники дисків IDE анонсували випуск дисків середнього класу з інтерфейсом Serial ATA, в яких будуть використовуватися високорівневі технології. Це має сприятливо вплинути на їхню надійність і збільшити частку ATA-рішень у системах зберігання даних.

Що нам принесе Serial ATA

Перше і найприємніше, що можна знайти в Serial ATA – це кабель. У зв'язку з тим, що ATA інтерфейс став послідовним, кабель став круглим, а конектор - вузьким. Якщо вам доводилося укладати кабелі паралельного інтерфейсу IDE в системі на вісім IDE-каналів, я впевнений, що вам сподобається ця особливість. Звичайно, вже давно існували круглі кабелі IDE, але конектор у них все ж таки залишався широким і плоским, та й максимально допустима довжина паралельного ATA-кабелю не тішить. При побудові систем з великою кількістю дисків наявність стандартного кабелю взагалі не сильно допомагає, так як кабелі доводиться робити самостійно, і при цьому їх укладання стає чи не головним за часом завданням при складанні.

Крім особливості кабельної системи, Serial ATA має інші нововведення, які для паралельної версії інтерфейсу реалізувати самостійно за допомогою канцелярського ножа та іншого підручного інструменту не вдасться. У дисках із новим інтерфейсом незабаром має з'явитися підтримка набору інструкцій Native Command Queuing (конвеєризації команд). При використанні Native Command Queuing, контролер Serial ATA аналізує запити введення-виведення та оптимізує черговість їх виконання таким чином, щоб мінімізувати час пошуку. Досить очевидна схожість ідеї Serial ATA Native Command Queuing з організацією черги команд у SCSI, щоправда, для Serial ATA підтримуватиметься черга до 32 команд, а не традиційних для SCSI - 256. З'явилася також рідна підтримка гарячої заміни пристроїв. Звичайно, така можливість існувала і раніше, але її реалізація була за рамками стандарту і, відповідно, не могла набути широкого поширення. Говорячи про нові швидкісні можливості Serial ATA, слід зауважити, що зараз від них радості поки великої немає, але головне тут те, що на майбутнє є хороший Roadmap, реалізувати який у рамках паралельного ATA було б дуже не просто.

Зважаючи на сказане, можна не сумніватися, що частка ATA-рішень у системах зберігання початкового рівня повинна збільшитися саме за рахунок нових дисків Serial ATA та систем зберігання даних, орієнтованих на використання таких пристроїв.

Куди йде паралельний SCSI

Всі, хто працює із системами зберігання даних, навіть початкового рівня, навряд чи можуть сказати, що їм подобаються системи з дисками IDE. Головна перевага ATA дисків - їх низька ціна, в порівнянні з SCSI-пристроями та й ще, напевно, нижчий рівень шуму. І відбувається все це з простої причини, так як SCSI-інтерфейс краще підходить для використання в системах зберігання даних і поки що значно дешевше, ніж ще більше функціональний інтерфейс- Fibre Channel, то й диски зі SCSI-інтерфейсом виробляються якісніші, надійніші та швидші, ніж з дешевим IDE-інтерфейсом.

Сьогодні багато виробників при проектуванні систем зберігання з паралельним SCSI використовують Ultra 320 SCSI, найновіший інтерфейс у сімействі. Колись у багатьох Roadmap були плани випуску пристроїв з інтерфейсом Ultra 640 і навіть Ultra 1280 SCSI, але все йшло до того, що в інтерфейсі потрібно щось міняти кардинальним чином. Паралельний SCSI вже зараз, на етапі використання Ultra 320, багатьох не влаштовує, головним чином через незручність використання класичних кабелів.

На щастя, нещодавно з'явився новий інтерфейс Serial Attached SCSI (SAS). Новий стандарт матиме цікаві особливості. Він об'єднує деякі можливості Serial ATA і Fibre Channel. Незважаючи на цю дивність, слід сказати, що в такому переплетенні є здоровий глузд. Стандарт виник на основі фізичних та електричних специфікацій послідовного ATA з такими удосконаленнями, як збільшення рівня сигналу для відповідного збільшення довжини кабелю, збільшення максимальної адресності пристроїв. А найцікавіше те, що технологи обіцяють забезпечити сумісність пристроїв Serial ATA та SAS, але лише у наступних версіях стандартів.

До найважливіших особливостей SAS можна віднести:

  • інтерфейс точка-крапка;
  • двоканальний інтерфейс;
  • підтримка 4096 пристроїв у домені;
  • стандартний набір команд SCSI;
  • кабель довжиною до 10 метрів;
  • кабель 4-жильний;
  • Повний дуплекс.

Завдяки тому, що новий інтерфейс пропонує використовувати такий мініатюрний конектор, як і Serial ATA, у розробників з'являється нова можливістьз побудови компактніших пристроїв з високою продуктивністю. Стандарт SAS також передбачає використання розширювачів. Кожен розширювач буде підтримувати адресацію 64 пристроїв з можливістю каскадування до 4096 пристроїв в рамках домену. Це звичайно значно менше, ніж можливості Fibre Channel, але в рамках систем зберігання початкового та середнього рівнів, з накопичувачами, які безпосередньо під'єднані до сервера, цього цілком достатньо.

Незважаючи на всі принади, інтерфейс Serial Attached SCSI навряд чи швидко замістить звичайний паралельний інтерфейс. У світі рішень для підприємств розробки зазвичай ведуться ретельніше і, природно, протягом більшого часу, ніж для настільних систем. Та й йдуть старі технології не дуже швидко, тому що період, за який вони відпрацьовують себе, теж великий. Але все ж таки, в році 2004 пристрої з інтерфейсом SAS повинні вийти на ринок. Звичайно, спочатку це будуть в основному диски та PCI-контролери, але ще через рік підтягнуться і системи зберігання даних.

Для кращого узагальнення інформації пропонуємо ознайомитись із порівнянням сучасних та нових інтерфейсів для систем зберігання даних у вигляді таблиці.

1 - Стандарт регламентує відстань до 10 км для одномодового оптоволокна, існують реалізації пристроїв для передачі даних на відстань більше ніж 105 м.

2 - В рамках внутрішньої віртуальної топології кільця працюють концентратори та деякі комутатори FC, також існує багато реалізацій комутаторів, які забезпечують з'єднання точка-точка будь-яких пристроїв, приєднаних до них.

3 - Існують реалізації пристроїв з SCSI, FICON, ESCON, TCP/I, HIPPI, VI протоколами.

4 – Справа в тому, що пристрої будуть взаємно сумісні (так обіцяють зробити у найближчому майбутньому виробники). Тобто SATA-контролери підтримуватимуть SAS-диски, а SAS-контролери – диски SATA.

Масове захоплення NAS

Останнім часом за кордоном відзначається масове захоплення NAS-накопичувачами. Справа в тому, що зі збільшенням актуальності орієнтованого на дані підходу до побудови інформаційних систем збільшилася привабливість спеціалізації класичних файл-серверів та формування нової маркетингової одиниці – NAS. При цьому досвід у побудові подібних систем був достатнім для швидкого старту технології накопичувачів, приєднаних до мережі, а вартість їхньої апаратної реалізації була гранично низькою. Сьогодні NAS-накопичувачі виробляють практично всі виробники систем зберігання даних, серед них і системи початкового рівня за дуже маленькі гроші, і середнього, і навіть системи, що відповідають за зберігання десятків терабайт інформації, здатні обробити колосальну кількість запитів. У кожному класі NAS-систем є свої цікаві оригінальні рішення.

NAS на основі PC за 30 хвилин

Ми хочемо дещо описати одне оригінальне рішення початкового рівня. Про практичну цінність його реалізації можна сперечатися, але в оригінальності йому не відмовиш.

По суті, NAS-накопичувач початкового рівня, та й не тільки початкового, є досить простим персональним комп'ютеромз деякою кількістю дисків та програмною частиною, яка забезпечує доступ інших учасників мережі до даних на файловому рівні. Таким чином, для побудови NAS пристрою достатньо взяти зазначені компоненти та з'єднати їх між собою. Вся річ у тому, наскільки якісно ви це зробите, настільки ж надійний та якісний доступ до даних отримає робоча група, що працює з даними, доступ до яких забезпечує ваш пристрій. Саме з огляду на ці фактори, а також час розгортання рішення, плюс деякі дизайнерські дослідження будується NAS-накопичувач початкового рівня.

Різниця між хорошим NAS-рішенням початкового рівня з самостійно зібраною та налаштованою в рамках обраної ОС персоналкою, якщо знову-таки опустити конструктивне виконання, буде в тому:

  • наскільки швидко ви це зробите;
  • наскільки легко зможе обслуговуватися ця система некваліфікованим персоналом;
  • наскільки якісно це рішення працюватиме та підтримуватиметься.

Іншими словами, у разі професійного підбору комплектуючих та існування певного спочатку налаштованого набору програмного забезпечення, можна досягти гарного результату. Істина начебто банальна, це ж можна сказати про будь-яке завдання, яке вирішується за схемою готових компонентних рішень: «hardware» плюс «software».

Що пропонує зробити компанія X? Формується досить обмежений перелік сумісних комплектуючих: материнських плат з усім інтегрованим господарством, необхідних NAS-серверу початкового рівня жорстких дисків. Ви купуєте встановлюваний в IDE-роз'єм на материнської плати FLASH дискіз записаним програмним забезпеченням та отримуєте готовий NAS накопичувач. Операційна система та утиліти, записані на цей диск, завантажуючись, конфігурують необхідні модулі належним чином. І в результаті користувач отримує пристрій, який може керуватися як локально, так і віддалено через HTML-інтерфейс і надавати доступ до дискових накопичувачів, підключених до нього.

Файлові протоколи у сучасних NAS

CIFS (Common Internet File System)- це стандартний протокол, який забезпечує доступ до файлів та сервісів на віддалених комп'ютерах (у тому числі й до Інтернету). Протокол використовує клієнт-серверну модель взаємодії. Клієнт створює запит до сервера на доступ до файлів або надсилання повідомлення програмі, яка знаходиться на сервері. Сервер виконує запит клієнта та повертає результат своєї роботи. CIFS - це відкритий стандарт, який виник на основі SMB-протоколу (Server Message Block Protocol), розробленого Microsoft, але, на відміну від останнього, CIFS враховує можливість виникнення великих тайм-аут, оскільки орієнтований на використання в тому числі і в розподілених мережах. SMB-протокол традиційно використовувався в локальних мережах з Windows для доступу до файлів та друку. Для транспортування даних CIFS використовує протокол TCP/IP. CIFS забезпечує функціональність схожу на FTP (File Transfer Protocol), але надає клієнтам покращений (схожий на прямий) контроль за файлами. Він також дозволяє розділяти доступ до файлів між клієнтами, використовуючи блокування та автоматичне відновлення зв'язку із сервером у разі збою мережі.

NFS (Network File System)- це стандарт IETF, який включає розподілену файлову систему і мережевий протокол. NFS було розроблено компанією Sun Microsystem Computer Corporation. Він спочатку використовувався лише в UNIX-системах, пізніше реалізації клієнтської та серверної чатів стали поширеними та інших системах.

NFS, як і CIFS, використовує клієнт-серверну модель взаємодії. Він забезпечує доступ до файлів на віддаленому комп'ютері(сервері) для запису та зчитування так, ніби вони перебували на комп'ютері користувача. У ранніх версіях NFS для транспортування даних використовувався UDP-протокол, у сучасних – використовується TCP/IP. Для роботи NFS в Інтернеті компанією Sun був розроблений протокол WebNFS, який використовує розширення функціональності NFS для його коректної роботиу всесвітній мережі.

DAFS (Direct Access File System)- це стандартний протокол файлового доступу, що базується на NFSv4. Він дозволяє прикладним завданням передавати дані в обхід операційної системи та її буферного простору безпосередньо до транспортних ресурсів, зберігаючи семантику, властиву файловим системам. DAFS використовує переваги новітніх технологій передачі за схемою пам'ять-пам'ять. Його використання забезпечує високі швидкості файлового введення-виводу, мінімальне завантаження CPU та всієї системи, завдяки значному зменшенню кількості операцій та переривань, які зазвичай необхідні для обробки мережевих протоколів. Особливо ефективним є використання апаратних засобів підтримки VI (Virtual Interface).

DAFS проектувався з орієнтацією на використання в кластерному та серверному оточенні для баз даних та різноманітних інтернет-додатків, орієнтованих на безперервну роботу. Він забезпечує найменші затримки доступу до загальних файлових ресурсів та даних, а також підтримує інтелектуальні механізми відновлення працездатності системи та даних, що робить його дуже привабливим для використання у High-End NAS-накопичувачах.

Усі дороги ведуть до IP Storage

У системах зберігання даних високого та середнього рівня за останні кілька років з'явилося дуже багато нових цікавих технологій.

Fibre Channel мережі зберігання даних сьогодні вже досить відома та популярна технологія. У той же час, їхнє масове поширення сьогодні є проблематичним через низку особливостей. До них можна віднести високу вартість реалізації та складність побудови географічно розподілених систем. З одного боку - це лише особливості технології рівня підприємства, але з іншого, якщо SAN стане дешевше, і побудова розподілених систем спроститься, це має дати колосальний прорив у розвитку мереж зберігання даних.

В рамках роботи над мережевими технологіями зберігання даних в Internet Engineering Task Force (IETF) було створено робочу групу та форум IP Storage (IPS) за напрямами:

FCIP - Fibre Channel over TCP/IP, створений з урахуванням TCP/IP тунельний протокол, функцією якого є з'єднання географічно віддалених FC SAN без будь-якого на FC і IP протоколи.

iFCP - Internet Fibre Channel Protocol, створений на базі TCP/IP протокол для з'єднання FC систем зберігання даних FC мереж зберігання даних, використовуючи IP інфраструктуру спільно або замість FC комутаційних і маршрутизуючих елементів.

iSNS - Internet Storage Name Service, протокол підтримки імен накопичувачів у мережі Інтернет.

iSCSI - Internet Small Computer Systems Interface, це протокол, який базується на TCP/IP і розроблений для встановлення взаємодії та управління системами зберігання даних, серверами та клієнтами (Визначення SNIA - IP Storage Forum: ).

Найбільш бурхливим і найцікавішим з перерахованих напрямків є iSCSI.

iSCSI – новий стандарт

11 лютого 2003 iSCSI став офіційним стандартом. Ратифікація iSCSI обов'язково вплине на ширший інтерес до стандарту, що вже розвивається досить активно. Найшвидше розвиток iSCSI послужить поштовхом до поширення SAN у малому та середньому бізнесі, оскільки використання відповідного стандарту обладнання та підходу до обслуговування (у тому числі поширеного в рамках стандартних мереж Ethernet) дозволить зробити мережі зберігання даних значно дешевше. Що ж до використання iSCSI в Інтернет, то сьогодні тут вже непогано прижився FCIP, і конкуренція з ним буде важкою.

Новий стандарт охоче підтримали відомі ІТ-компанії. Є, звичайно, і противники, але все ж таки, практично всі компанії, які беруть активну участь у ринку систем початкового і середнього рівня, вже працюють над пристроями з підтримкою iSCSI. У Windows та Linux iSCSI драйвери вже включені, системи зберігання даних iSCSI виробляє IBM, адаптери – Intel, найближчим часом підключитися до процесу освоєння нового стандарту обіцяють HP, Dell, EMC.

Однією з дуже цікавих особливостей iSCSI і те, що передачі даних на накопичувачі з інтерфейсом iSCSI можна використовувати як носії, комутатори і маршрутизатори існуючих мереж LAN/WAN, а й звичайні мережеві адаптери Fast Ethernet чи Gigabit Ethernet на стороні клієнта. Щоправда, у своїй виникають значні накладні витрати процесорної потужності ПК, який використовує такий адаптер. За твердженням розробників, програмна реалізація iSCSI може досягти швидкостей середовища передачі даних Gigabit Ethernet за значного, до 100% завантаження сучасних CPU. У зв'язку з чим рекомендується використання спеціальних мережевих карток, які підтримуватимуть механізми розвантаження CPU від обробки стека TCP.

Віртуалізація у мережах зберігання даних

Ще однією важливою технологією у побудові сучасних накопичувачів та мереж зберігання даних є віртуалізація.

Віртуалізація систем зберігання даних - це уявлення фізичних ресурсів у якомусь логічному, зручнішому вигляді. Ця технологія дозволяє гнучко розподіляти ресурси між користувачами та ефективно ними керувати. В рамках віртуалізації успішно реалізується віддалене копіювання, моментальна копія, розподіл запитів введення-виведення на найбільш відповідні за характером обслуговування накопичувачі та багато інших алгоритмів. Реалізація алгоритмів віртуалізації може здійснюватися як засобами самого накопичувача, так і за допомогою зовнішніх пристроїв віртуалізації або за допомогою серверів, що управляють, на яких працює спеціалізоване програмне забезпечення під стандартними ОС.

Це, звичайно, дуже мала частина того, що можна сказати про віртуалізацію. Ця тема дуже цікава та велика, тому ми вирішили присвятити їй окрему публікацію.

Еволюціонували від найпростіших карт та стрічок з дірочками, що використовувалися для зберігання програм та даних, до накопичувачів на твердому тілі. На цьому шляху було створено безліч несхожих один на одного пристроїв – це магнітні стрічки, барабани, диски, оптичні диски. Частина з них залишилася в минулому: це перфоровані носії, магнітні барабани, гнучкі (флоппі) диски та оптичні диски, інші живуть і житимуть довго. Те, що сьогодні пішло, можна подивитися та поностальгувати у музеї застарілих медійних технологій Museum Of Obsolete Media. І водночас, наче приречене, залишається. Свого часу передбачали кінець магнітним стрічкам, проте сьогодні їх існуванню ніщо не заважає, точно те ж саме відноситься і до жорстких дисків, що обертаються (HDD), пророцтва про їх кінець позбавлені будь-якої підстави, вони досягли такого рівня досконалості, що за ними збережеться їхня власна ніша, незважаючи на жодні новації.

На нинішньому багаторівневому пейзажі СГД присутні стрічкові бібліотеки резервного копіюваннята архівації, швидкі та повільні диски HDD, твердотільні диски SSD на флеш-пам'яті, що мімікриють (інтерфейси, форм-фактор) під HDD насамперед для узгодження з існуючим програмним забезпеченням та конструктивами, а також новітні флеш-накопичувачі у форматі карт, що підключаються за інтерфейсом NVMe. Ця картина склалася під впливом кількох факторів, серед яких схема Джона фон Неймана, яка ділить пам'ять на оперативну, безпосередньо доступну процесору та вторинну, призначену для зберігання даних. Цей поділ зміцнився після того, як на зміну феритової пам'яті, що зберігає свій поточний стан, прийшла напівпровідникова, що вимагає завантаження програм для початку роботи. І звичайно ж впливає питома вартість зберігання, чим швидше пристрій, тим ця вартість вища, тому в найближчому майбутньому залишиться місце і для стрічок, і для дисків. Докладніше про еволюцію СГД.

Як зберігали дані раніше

Носії даних, які використовують перфорацію

Перфокарти

До появи комп'ютерів протягом століть у найпростіших пристроях з програмним управлінням(ткацькі верстати, шарманки, годинники-карильйони) використовували перфоровані носії різних форматів і розмірів і барабани зі штифтами. Зберігаючи цей принцип запису, Герман Холлеріт, засновник компанії TMC, що пізніше увійшла до IBM, зробив відкриття. Саме в 1890 році він усвідомив, як можна використовувати перфокарти для запису та обробки даних. Він реалізував цю ідею при обробці статистичних даних, отриманих в ході перепису населення, а пізніше переніс її і в інші додатки, ніж забезпечив благополуччя IBM на десятиліття вперед.

Чому карти? Їх можна сортувати і до них може бути забезпечений, умовно кажучи, «прямий доступ» для того, щоб на спеціальному пристрої-табуляторі, слідуючи нескладній програмі, частково автоматизувати обробку даних.

Формат карток змінювався, і з 20-х років міжнародним стандартом стали 80-колонні карти. Монополія ними до початку 60-х належала IBM.

Ці прості картонки з прямокутними отворами залишалися домінуючим носієм даних протягом кількох десятиліть, вони виготовлялися мільярдами. Про обсяги споживання карток можна судити хоча б за одним прикладом Центру розшифровки німецьких радіограм у Блечлі Парку: тиждень роботи – 2 мільйони карток, це середнього розміру вантажівка! Післявоєнний бізнес також будувався на зберіганні даних на картах. Говорячи про перфокарти, слід пам'ятати, що вони використовувалися в Німеччині для збору даних про людей, які підлягають знищенню.

Перфострічки

Здавалося б, перфострічки – практичніші носії, але в бізнесі вони практично не використовувалися, хоча пристрої для введення та виведення були суттєво простіші та легші. Їх поширенню заважав послідовний доступ, менша ємність та низькі швидкості введення та виведення, складність архівації. Вузькі 5-колонні перфострічки з 1857 року використовували для підготовки та подальшої передачі даних по телеграфу, щоб не обмежити швидкість введення фізичними можливостями оператора і тим самим краще використовувати пропускну спроможністьканалу. Широкі 24-колонні перфострічки були створені для запису програм у електромеханічному калькуляторі Harvard Mark I у 1937 році. Як носій, не схильний до впливу різного електромагнітного та гамма-вивчення, перфострічки широко використовувалися як бортові пристрої, вони досі використовуються в деяких оборонних системах.

Магнітні стрічки

Спосіб запису звуку на магнітний носій котушковий, спочатку на дріт був запропонований в 1928 році. Магнітофон такого типу використовувався UNIVAC-1. Початком історії комп'ютерних магнітних стрічок вважається IBM Model 726, що входила до складу комп'ютера IBM Model 701. Ширина стрічки для IBM Model 726 та інших пристроїв того часу дорівнювала одному дюйму, але такі стрічки виявилися незручними в експлуатації. Через їхню велику масу були потрібні потужні приводи, тому незабаром їм на зміну прийшли напівдюймові «відкриті стрічки» (open reel), в яких перемотування здійснювалося з однієї бобіни на іншу (reel-to-reel). Вони мали три щільності запису 800, 1600 та 6250. Такі стрічки зі знімними кільцями для захисту від запису стали стандартом для архівування даних до кінця 80-х років.

У Model 726 використовували котушки від кіноплівки, відповідно ширина стрічки дорівнювала одному дюйму, а діаметр бобіни – 12 дюймам. Model 726 була здатна зберігати 1,4 Мбайт даних, щільність 9-доріжкового запису складала 800 біт на дюйм; під час руху стрічки зі швидкістю 75 дюймів на секунду в комп'ютер передавалося 7500 байт на секунду. Сама магнітна стрічка для Model 726 була розроблена компанією 3M (тепер Imation).

Незабаром від дюймових стрічок відмовилися, через їхню вагу при роботі в старт-стопному режимі були потрібні занадто потужні приводи і вакуумні кишені, і на тривалий період встановилося майже монопольне панування напівдюймових «відкритих стрічок» (open reel), в яких перемотування здійснювалося з однієї бобіни на іншу (reel-to-reel). Щільність запису зросла з 800 до 1600 і навіть 6250 біт на дюйм. Ці стрічки з кільцями для захисту від запису були популярні на комп'ютерах типу ЄС і СМ ЕОМ. напівдюймових «відкритих стрічок» (open reel), у яких перемотування здійснювалося з однієї бобіни на іншу (reel-to-reel). Щільність запису зросла з 800 до 1600 і навіть 6250 біт на дюйм. Ці стрічки з кільцями для захисту від запису були популярні на комп'ютерах типу ЄС і СМ ЕОМ.

Стимулом до подальшого розвитку стало те, що в середині 80-х ємності жорстких дисків стали вимірюватися сотнями мегабайт або навіть гігабайт тому для них знадобилися накопичувачі резервування, відповідної ємності. Незручності відкритих стрічок були зрозумілі, навіть у побуті касетні магнітофони швидко витіснили котушкові. Природний перехід до картриджів відбувався двома шляхами: один – створювати спеціалізовані пристрої, орієнтовані на комп'ютери (за лінійною технологією): другий – звернутися до технологій, винайдених для відеозапису та аудіозапису з головками, що обертаються (за гвинтовою технологією). З того часу склався поділ на два табори, який надає ринку накопичувачів неповторну специфіку.

За тридцять років було розроблено кілька десятків стандартів картриджів, найпоширеніший сьогодні стандарт LTO (Linear Tape-Open), у процесі яких картриджі вдосконалювалися, підвищувалася їхня надійність, ємність, швидкість передачі та інші експлуатаційні характеристики. Сучасний картридж - це складний пристрій, з процесором і флеш-пам'яттю.

Переходу на картриджі сприяло те, що нині стрічки працюють виключно у потоковому режимі. Картриджі використовуються в автономних пристроях, або у складі стрічкових бібліотек. Першою роботизовану бібліотеку на 6 тис. картриджів випустила компанія StorageTek у 1987 році.

Аналітики та виробники дисків не раз пророкували стрічкам кончину. Відоме гасло «Tapes must die», але вони живі і житимуть довго, бо розраховані на багаторічне зберігання великих архівів. Розмір бізнесу, пов'язаного з виробництвом стрічкопротяжок, стрічок та стрічкових бібліотек у 2017 році оцінювався приблизно в $5 млрд. І чим більше стають обсяги інформації, які можна зберегти на жорстких дисках, тим більша потреба в архівуванні та створенні резервних копій. На чому? Зрозуміло, на стрічках: економічно виправданої за вартістю зберігання альтернативи магнітним стрічкам поки що не знайдено. Нинішнє 8 покоління стандарту LTO дозволяє штатно зберегти до 12 Тб, а в компресованому режимі 30 Тб, перспективі ці цифри зростуть на порядок і більше, при зміні поколінь підвищуються не тільки кількісні показники, але і інші експлуатаційні характеристики.

Магнітний барабан

Тимчасовим способом для вирішення протиріч між технологією послідовного запису на стрічку та необхідністю прямого доступу до даних на зовнішньому пристроїстав магнітний барабан, точніше циліндр із нерухомими головками. Його винайшов австрієць Густав Тучек у 1932 році

Магнітним є не барабан, у якого, як відомо, робочою поверхнею служить днище, а циліндр з нанесеним на його бічну поверхню феримагнітним покриттям, розділеним на доріжки, а вони, у свою чергу, діляться на сектори. Над кожною з доріжок розміщено власну головку читання/запису, причому всі головки можуть працювати одночасно, тобто операції читання/запису здійснюються в паралельному режимі.

Барабани використовувалися не тільки як периферійний пристрій. До переходу на феритові сердечникиОперативна пам'ять була надзвичайно дорогою і ненадійною, тому в ряді випадків барабани грали роль оперативної пам'яті, були навіть комп'ютери, що називалися барабанними. Зазвичай магнітні барабани використовувалися для оперативної (часто змінюваної) або важливої ​​інформації, до якої був потрібен швидкий доступ. В умовах обмежень на розмір оперативної пам'яті через її дорожнечу на них зберігалася копія операційної системи, записувалися проміжні результати виконання програм. На барабанах вперше була реалізована процедура свопінгу, що представляє віртуалізацію пам'яті за рахунок простору на барабані, а пізніше на диску.

Накопичувачі на магнітних барабанах мали ємність менше, ніж диски, але працювали швидше, тому що на відміну від дисків у них головки нерухомі, що виключає час, потрібний для підведення до потрібної доріжки.

Барабани активно використовувалися до початку 80-х, деякий час вони жили паралельно з дисками. Барабанами комплектувалася ЕОМ БЭСМ 6 та її сучасники. З відкритих джерел відомо, що останні барабани простояли в системах управління ракетами Мінітмен до середини 90-х.

Гнучкі диски

Активне життя гнучких (floppy) дисків розтяглося на 30 років з кінця сімдесятих до кінця дев'яностих. Вони виявилися надзвичайно затребуваними через те, що ПК з'явилися раніше, ніж у користувачів з'явилася можливість передачі даних по мережі. У цих умовах флоппіки служили не тільки за прямим призначенням для зберігання резервних копій, але, мабуть, більшою мірою для обміну даними між користувачами, ось чому їх ще називають sneaker, як кросівки, типове взуття програмістів. Обмінюючись флоппиками, вони створювали своєрідну мережу – sneakernet.

Існували 3 основних типи дисків і безліч різних модифікацій. Флопії-диски діаметром 8 дюймів були створені в 1967 році в IBM, вони замислювалися як пристрій початкового завантаження (bootstrap) для мейнфреймів IBM/370 на заміну дорожчої постійної пам'яті (non-volatile read-only memory), нею комплектувалося попереднє покоління IBM 360. Однак, усвідомивши комерційну цінність новинки, в 1971 IBM перетворила флоппі на самостійний продукт, а в 1973 керівник розробки Алан Шугарт створив компанію Shugart Associates, що стала провідним виробників 8-дюймових дисків з максимальною ємністю 1,2 Мбайта. Ці великі диски використовували на ПК, що випускалися до IBM XT. Особливої ​​популярності цей тип дискет отримав завдяки операційній системі CP/M Гаррі Кілдала.

Що ж до дискет з діаметром 5,25 дюйма, то їхня поява нагадує анекдот про Миколу II, який досить своєрідно пояснює збільшену ширину російської залізничної колії в порівнянні з європейською. У нашому випадку Ен Ванг, господар компанії Wang Laboratories, зустрівся в барі з вихідцями з Shugart Associates, які запропонували зробити для його комп'ютерів дешевший дисковод, але вони не могли наважитися на конкретний діаметр. Тоді Ванг узяв коктейльну серветку і сказав, що йому здається, що розмір має бути таким. П'ятидюймові диски ємністю 360 і 720 Кб випускали остаточно дев'яностих років, були сучасниками комп'ютерів IBM XT і IBM AT, операційних систем MS-DOS і DR-DOS, правильно служачи становленню нової галузі.

Запропонований в 1983 Sony альтернативний картридж мав розмір 90,0 мм × 94,0 мм, але його за традицією стали називати 3,5 дюймовим. В американському професійному середовищі він називається стіффі (stiffy disk, переклад варто подивитися у словнику). Після ряду удосконалень у 1987 році було прийнято галузевий стандарт 3,5-inch HD (High Density) з ємністю 1,44 Мб. Спочатку такими дисками комплектували IBM PS/2 та Macintosh IIx, а пізніше він став універсальним стандартом для PC та Macintosh. Спроби зробити в другій половині дев'яностих диски більшої ємності Extended Density (ED) 2,88 Мб, а також магнітооптичні Floptical disk 25 Мб, SuperDisk 120-240 Мб і HiFD 150-240 Мб ринкового успіху не мали.

Чому виникла потреба у СГД

З проведеного дослідження IDC Perspectives випливає, що зберігання даних посідає друге місце серед витрат на ІТ і становить приблизно 23% всіх витрат. За інформацією The InfoPro, Wave 11 «приріст витрат на СГД у середній компанії Fortune 1000 перевищує 50% на рік».

На загальну думку аналітиків, в організаціях по всьому світу щохвилини виростають обсяги інформації, що зберігається і обробляється. Унікальна інформація стає все дорожчою, її обсяг щороку збільшується багаторазово, а її зберігання потребує витрат. З огляду на це організації прагнуть не тільки формувати розвиток інфраструктури зберігання даних, а й шукати можливості поліпшення та підвищення економічної ефективності СГД: зниження енергоспоживання, витрат на сервіс, загальної вартості володіння та закупівлі систем резервного копіювання та зберігання.

Зростання обсягів даних, зростання вимог до надійності зберігання та швидкодії доступу до даних роблять необхідним виділення засобів зберігання в окрему підсистему обчислювального комплексу (ВК). Можливість доступу до даних та управління ними є необхідною умовою для виконання бізнес-процесів. Безповоротна втрата даних наражає бізнес на серйозну небезпеку. Втрачені обчислювальні ресурси можна відновити, а втрачені дані, за відсутності грамотно спроектованої та впровадженої системи резервування вже не підлягають відновленню.

Відбувається помітне розвиток потреби у придбанні СГД корпоративними клієнтами, але й у строгому обліку, аудиті та моніторингу використання дорогих ресурсів. Немає нічого гіршого за зупинення бізнес-процесів через неможливість своєчасно отримати необхідні дані (або повної їхньої втрати), адже це може спричинити незворотні наслідки.

Чинники, що сприяють розвитку СГД

Основним чинником було зростання конкуренції та ускладнення її характеру у всіх сегментах ринку. У Західній Європі ці явища можна було спостерігати і раніше, а у Східній Європі – останні п'ять років. П'ять років тому у мобільного оператора було 25-25 млн зареєстрованих SIM-карток, а сьогодні - 50-70 млн. Таким чином, мобільним зв'язком від цих компаній забезпечений практично кожен житель країни, адже є ще регіональні оператори. Ось реальний рівень конкуренції: на ринку не залишилося нікого, хто б не мав мобільного телефона. І тепер оператори не можуть екстенсивно зростати за рахунок продажу своїх продуктів тим, хто не має аналогічних продуктів. Їм потрібні клієнти, які працюють із конкурентами, та необхідно зрозуміти, як їх отримати. Потрібно розібратися в їх поведінці, у тому, чого вони хочуть. Щоб отримати корисну інформацію з доступних даних, необхідно помістити їх у сховище .

Ще один фактор - поява на ринку безлічі компаній, які пропонують свої рішення для підтримки бізнесу підприємств: ERP, білінгові системи, системи підтримки прийняття рішень і т. д. Всі вони дозволяють збирати детальні дані різного характеру у величезних обсягах. За наявності організації розвиненої ІТ-інфраструктури ці дані можна зібрати разом і проаналізувати їх.

Наступний чинник – технологічного характеру. До певного часу виробники програм самостійно розробляли різні версії своїх рішень для різних серверних платформ або пропонували відкриті рішення. Важливою для галузі технологічною тенденцією стало створення платформ, що адаптуються, для вирішення різних аналітичних завдань, які включають апаратну складову і СУБД. Користувачів вже не хвилює, хто зробив для їх комп'ютера процесор або оперативну пам'ять, - вони розглядають сховище даних як послугу. І це найважливіше зрушення у свідомості.

Технології, які дозволяють використовувати сховища даних для оптимізації операційних бізнес-процесів практично в реальному часі не лише для висококваліфікованих аналітиків та топ-менеджерів, а й для співробітників фронт-офісу, зокрема для співробітників офісів продажу та контактних центрів. Прийняття рішень делегується співробітникам, які стоять на нижчих щаблях корпоративних сходів. Необхідні їм звіти, як правило, прості і стислі, але їх потрібно дуже багато, а час формування має бути невеликим.

Сфери застосування СГД

Традиційні сховища даних можна зустріти повсюдно. Вони призначені для формування звітності, що допомагає розібратися з тим, що сталося у компанії. Однак це перший крок, базис.

Людям недостатньо знати, що сталося, їм хочеться зрозуміти, чому це сталося. Для цього використовуються інструменти бізнес-аналітики, які допомагають зрозуміти те, що говорять дані.

Після цього приходить використання минулого для передбачення майбутнього, побудова прогностичних моделей: які клієнти залишаться, а які підуть; які продукти чекає на успіх, а які виявляться невдалими і т.д.

Деякі організації вже знаходяться на стадії, коли сховища даних починають використовувати для розуміння того, що відбувається в бізнесі зараз. Тому наступний крок - це «активація» фронтальних систем за допомогою рішень, що ґрунтуються на аналізі даних, найчастіше в автоматичному режимі.

Обсяги цифрової інформаціїростуть лавиноподібно. У корпоративному секторіце зростання викликане, з одного боку, посиленням регулювання та вимогою зберігати все більше інформації, що стосується ведення бізнесу. З іншого боку, посилення конкуренції вимагає все більш точної і докладної інформації про ринок, клієнтів, їх переваги, замовлення, дії конкурентів і т.д.

У державному секторі зростання обсягів даних, що зберігаються, підтримує повсюдний перехід до міжвідомчого електронного документообігу та створення відомчих аналітичних ресурсів, основою яких є різноманітні первинні дані.

Не менш потужну хвилю створюють і звичайні користувачі, які викладають в інтернет свої фотографії, відеоролики та активно обмінюються мультимедійним контентом у соціальних мережах.

Вимоги до СГД

Група компаній ТІМ у 2008 році провела опитування серед клієнтів з метою з'ясувати, які характеристики найбільш важливі для них при виборі СГД. На перших позиціях виявилися якість та функціональність запропонованого рішення. У той самий час розрахунок сукупної вартості володіння російського споживача явище нетипове. Замовники найчастіше не до кінця усвідомлюють які їх очікують витрати, наприклад, витрати на оренду та оснащення приміщення, електроенергію, кондиціювання, навчання та зарплату кваліфікованого персоналу та ін.

Коли виникає необхідність придбати СГД, максимум, що оцінює собі покупець, це прямі витрати, які проходять через бухгалтерію для придбання даного устаткування. Втім, ціна за ступенем ваги виявилася на дев'ятому місці з десяти. Безперечно, замовники враховують можливі труднощі, пов'язані з обслуговуванням техніки. Зазвичай їх уникнути допомагають пакети розширеної гарантійної підтримки, які пропонують у проектах.

Надійність та відмовостійкість.У СГД передбачено повне чи часткове резервування всіх компонентів – блоків живлення, шляхів доступу, процесорних модулів, дисків, кешу тощо. Обов'язково наявність системи моніторингу та оповіщення про можливі та існуючі проблеми.

Доступність даних.Забезпечується продуманими функціями збереження цілісності даних (використання технології RAID, створення повних та миттєвих копій даних усередині дискової стійки, реплікування даних на віддалену СГД тощо) та можливістю додавання (оновлення) апаратури та програмного забезпечення у гарячому режимі без зупинки комплексу;

Засоби управління та контролю.Управління СГД здійснюється через web-інтерфейс або командний рядок, є функції моніторингу та кілька варіантів оповіщення адміністратора про неполадки. Доступні апаратні технології діагностики продуктивності.

Продуктивність.Визначається числом та типом накопичувачів, обсягом кеш-пам'яті, обчислювальною потужністю процесорної підсистеми, числом та типом внутрішніх та зовнішніх інтерфейсів, а також можливостями гнучкого налаштування та конфігурування.

Масштабованість.У СГД зазвичай є можливість нарощування числа жорстких дисків, обсягу кеш-пам'яті, апаратної модернізації та розширення функціоналу за допомогою спеціального ПЗ. Всі перелічені операції роблять без значного переконфігурування та втрат функціональності, що дозволяє економити та гнучко підходити до проектування ІТ-інфраструктури.

Типи СГД

Дискові СГД

Використовують для оперативної роботи з даними, а також створення проміжних резервних копій.

Існують такі види дискових СГД:

  • СГД для робочих даних (високопродуктивне обладнання);
  • СГД для резервних копій (дискові бібліотеки);
  • СГД для довготривалого зберігання архівів (системи CAS).

Стрічкові СГД

Призначені для створення резервних копій та архівів.

Існують такі види стрічкових СГД:

  • окремі накопичувачі;
  • автозавантажувачі (один накопичувач та кілька слотів для стрічок);
  • стрічкові бібліотеки (більше одного накопичувача, безліч слотів для стрічок).

Варіанти підключень СГД

Для підключення пристроїв та жорстких дисків усередині одного сховища використовуються різні внутрішні інтерфейси:

Найбільш поширені зовнішні інтерфейси підключення СГД:

Популярний інтерфейс міжвузлової кластерної взаємодії Infiniband тепер також використовується для доступу до СГД.

Варіанти топологій СГД

Традиційний підхід до сховищ даних полягає у безпосередньому підключенні серверів до системи зберігання Direct Attached Storage, DAS (Direct Attached Storage). Крім Direct Attached Storage, DAS, існують пристрої зберігання даних, що підключаються до мережі - NAS (Network Attached Storage), а також компоненти мереж зберігання даних - SAN (Storage Area Networks). І NAS-, і SAN-системи з'явилися як альтернатива архітектурі Direct Attached Storage, DAS. Причому кожне рішення розроблялося як відповідь на зростаючі вимоги до систем зберігання даних і ґрунтувалося на використанні доступних на той час технологіях.

Архітектури мережевих системзберігання були розроблені в 1990-х рр.., і їх завданням було усунення основних недоліків систем Direct Attached Storage, DAS. У загальному випадку мережеві рішенняв галузі систем зберігання мали реалізувати три завдання: знизити витрати та складність управління даними, зменшити трафік локальних мереж, підвищити ступінь готовності даних та загальну продуктивність. При цьому архітектури NAS та SAN вирішують різні аспекти загальної проблеми. Результатом стало одночасне співіснування двох мережевих архітектур, кожна з яких має свої переваги та функціональні можливості.

Системи прямого підключення (DAS)

Програмний та апаратний RAID

Російський ринок СГД

В останні кілька років російський ринок СГД успішно розвивається та зростає. Так, наприкінці 2010 року виторг виробників систем зберігання, проданих на російському ринку, перевищив $65 млн, що в порівнянні з другим кварталом того ж року більше на 25% і на 59% 2009-го. Загальна ємність проданих СГД становила приблизно 18 тис. терабайт, що є показником зростання більше ніж на 150% на рік.

Основні етапи проектів створення сховищ даних

Сховище даних – дуже складний об'єкт. Однією з основних умов його створення є грамотних фахівців, розуміють, що вони роблять, - лише за постачальника, а й за клієнта. Споживання СГД стає невід'ємною частиною застосування комплексних інфраструктурних рішень. Як правило, йдеться про значні інвестиції на 3-5 років, і замовники розраховують, що протягом усього терміну експлуатації система повною мірою відповідатиме вимогам, що пред'являються з боку бізнесу.

Далі, необхідно мати технології створення сховищ даних. Якщо ви почали створювати сховище та розробляєте для нього логічну модель, то у вас має бути словник, який визначає всі основні поняття. Навіть такі поняття, як «клієнт» і «продукт», мають сотні визначень. Тільки отримавши уявлення у тому, що означають ті чи інші терміни у цій організації, можна визначити джерела необхідних даних, які слід завантажити у сховище.

Тепер можна розпочати створення логічної моделі даних. Це є критично важливим етапом проекту. Треба від усіх учасників проекту створення сховища даних досягти згоди щодо актуальності цієї моделі. Після завершення цієї роботи стає зрозуміло, що насправді потрібно клієнту. І тільки потім має сенс говорити про технологічних аспектахнаприклад про розміри сховища. Клієнт виявляється віч-на-віч з гігантською моделлю даних, яка містить тисячі атрибутів і зв'язків.

Потрібно постійно пам'ятати, що сховище даних не повинно бути іграшкою для ІТ-департаменту та об'єктом витрат для бізнесу. І насамперед сховище даних має допомагати клієнтам вирішувати їх найкритичніші проблеми. Наприклад, допомогти телекомунікаційним компаніям запобігти витоку клієнтів. Для вирішення проблеми необхідно заповнити певні фрагменти великої моделі даних, а потім допомагаємо вибрати програми, які допоможуть вирішити цю проблему. Це можуть бути дуже нескладні програми, скажімо Excel. Насамперед варто спробувати вирішити основну проблему за допомогою цих інструментів. Намагатись заповнити всю модель відразу, використовувати всі джерела даних буде великою помилкою. Дані в джерелах необхідно ретельно проаналізувати, щоб забезпечити їхню якість. Після успішного вирішення однієї-двох проблем першорядної важливості, в ході якого забезпечена якість необхідних для цього джерел даних, можна приступати до вирішення наступних проблем, поступово заповнюючи інші фрагменти моделі даних, а також використовуючи заповнені фрагменти.

Ще одна серйозна проблема – модернізація СГД. Найчастіше СГД, придбана три-п'ять років тому, вже не справляється з обсягами даних, що зростають, і вимогами до швидкості доступу до них, тому купується нова система, на яку переносяться дані з колишньої. По суті, замовники повторно платять за обсяги зберігання, необхідні для розміщення даних і, крім того, несуть витрати на встановлення нової СГД та перенесення даних на неї. При цьому колишні СГД зазвичай ще не настільки застарілі, щоб відмовлятися від них повністю, тому замовники намагаються пристосувати їх під інші завдання.

2009

Стрімка еволюція щорічно вносить серйозні зміни до основних трендів розвитку СГД. Так, в 2009 році на чільне місце ставилася здатність економічно розподіляти ресурси (Thin Provisioning), останні кілька років проходять під знаком роботи СГД в "хмарах". Спектр пропонованих систем відрізняється різноманітністю: величезна кількість представлених моделей, різні варіанти та комбінації рішень від початкового рівня до Hi-End класу, рішення під ключ та покомпонентне складання із застосуванням найсучаснішої начинки, програмно-апаратні рішення від російських виробників.

Прагнення скорочення витрат на ІТ-інфраструктуру вимагає постійного балансу між вартістю ресурсів СГД та цінністю даних, які на них зберігаються в даний момент часу. Для ухвалення рішення про те, як найбільш ефективно розміщувати ресурси на програмних та апаратних засобах, фахівці ЦОД керуються не лише підходами ILM та DLM, а й практикою багаторівневого зберігання даних. Кожній одиниці інформації, що підлягає обробці та зберіганню, надаються певні метрики. Серед них ступінь доступності (швидкість надання інформації), важливість (вартість втрати даних у разі апаратного та програмного збою), період, через який інформація переходить на наступну стадію.

Приклад поділу систем зберігання відповідно до вимог зберігання та обробки інформації за методикою багаторівневого зберігання даних.

Разом з тим, зросли вимоги до продуктивності трансакційних систем, що передбачає збільшення кількості дисків у системі та відповідно вибір СГД вищого класу. У відповідь на цей виклик виробники забезпечили системи зберігання новими твердотілими дисками, що перевершують попередні за продуктивністю більш ніж у 500 разів на коротких операціях читання-запису (характерних для трансакційних систем).

Популяризація хмарної парадигми сприяла підвищенню вимог до продуктивності та надійності СГД, оскільки у разі відмови або втрати даних постраждають не один-два підключені безпосередньо сервери - відбудеться відмова в обслуговуванні для всіх користувачів хмари. З тієї ж парадигми виявилася тенденція до об'єднання пристроїв різних виробників у федерацію. Вона створює об'єднаний пул ресурсів, що надаються на вимогу з можливістю динамічного переміщення додатків та даних між географічно рознесеними майданчиками та постачальниками послуг.

Певний зсув відзначений у 2011 році в галузі управління `Великими даними`. Раніше подібні проекти були на стадії обговорення, а тепер вони перейшли в стадію реалізації, пройшовши весь шлях від продажу до впровадження.

На ринку намічається прорив, який вже стався на ринку серверів, і, можливо, вже в 2012 році ми побачимо в масовому сегменті СГД, які підтримують дедуплікацію та технологію Over Subscribing. У результаті, як і у разі серверної віртуалізації, це забезпечить масштабну утилізацію ємності СГД.

Подальший розвиток оптимізації зберігання полягатиме у вдосконаленні методів стиснення даних. Для неструктурованих даних, куди припадає 80% всього обсягу, коефіцієнт стискування може досягати кількох порядків. Це дозволить суттєво знизити питому вартість зберігання даних для сучасних SSD.

  • Андрій Захаров, Основні системи зберігання даних та їх особливості
  • Журнал Upgrade4_08_05
  • Яким є призначення систем зберігання даних (СГД)?

    Системи зберігання даних призначені для безпечного та стійкого до відмови зберігання оброблюваних даних з можливостями швидкого відновлення доступу до даних у разі збою в роботі системи.

    Які основні різновиди СГД?

    За типом реалізації СГД діляться на апаратні та програмні. За сферою застосування СГД діляться на індивідуальні, для малих робочих груп, для робочих груп, для підприємств, корпоративні. За типом підключення СГД поділяються на:

    1. DAS (Direct Attached Storage – системи з прямим підключенням)

    Особливістю даного типу систем є те, що контроль за доступом до даних пристроїв, підключених до мережі, здійснюється сервером або робочою станцією, до якої підключено сховище.

    2. NAS (Network Attached Storage - системи, що підключаються до ЛОМ)

    У цьому типі систем доступ до інформації, розміщеної в сховищі, контролюється програмним забезпеченням, яке працює у самому сховищі.

    3. SAN (Storage Attached Network) — системи, що є мережею між серверами, які обробляють дані і, власне, СГД);

    При такому способі побудови системи зберігання даних контроль доступу до інформації здійснюється програмним забезпеченням, що працює на серверах СГД. Через комутатори SAN здійснюється підключення сховища до серверів за високопродуктивними протоколами доступу (Fibre channel, iSCSI, ATA over ethernet тощо)

    Які особливості програмної та апаратної реалізації СГД?

    Апаратна реалізація СХД є єдиним апаратним комплексом, що складається з пристрою зберігання (що представляє собою диск або масив дисків, на яких дані фізично зберігаються), і пристрої управління (контролер, що займається розподілом даних між елементами сховища).

    Програмна реалізація СГД є розподіленою системою, в якій дані зберігаються без прив'язки до якого-небудь конкретного сховища або сервера, і доступ до даних здійснюється за допомогою спеціалізованого ПЗ, яке відповідає за збереження і безпеку даних, що зберігаються).

    © 2023 androidas.ru - Все про Android