스토리지와 Raid 그리고 SAN

작성자

작성시간

2004-03-20 12:57:34

관련사이트: target=_blank>http://www.raid.co.kr/sub/study/san.asp

스토리지와 SCSI HDD비교

우선적으로 스토리지 하드디스크 서버 부터시작해서 스토리지 개념이 광범위 합니다.

일반적인 테입드라이버의 경우에는 일반 박스 타입부터 시작해서 마운트 타입 외부배이에 따라오는 형태의 등등의(종류이름은 가묵었음) 종류가 많기 때문에 차이가 납니다.
보통 테입드라이버는 40GB를 많이 사용하고 타입은 3 타입이 최근에 많이 사용하고 있죠.

그런대 테입드라이버의 데이터 안정성 및 백업의 보존성은 확실한데 데이터의 전송속도는 상당히 느리죠. 그래서 어떤 프로그램이나 사용자가 백업을 하기 위해서 테입드라이버로 백업을 하는 귀찮음이(시간이 3~4시간씩 걸리죠.)

서버의 Raid를 묶는 것도 스토리지 시스템으로 구성이 됩니다.

작년에 본 HP의 스토리지 타워만 해도 깡통만 10억짜리를 보았으니 거기에는 한단에 하드가 16개가 들어가고 총 24단의 Raid를 물릴 수 있도록 구성이 되어 있습니다.
즉 Raid 백본 스토리지가 36G라고 가정해도 36G * 16 * 24단 = 13T정도의 용량이 공급이 되는 거죠. 이런것에 테입같은 백본 스토리지가 다이렉트로 붙는다면 관리자는 살인적일 것입니다.

여기에서는 스토리지 타워를 하나 더 구성을해서 실시간으로 백업을 계속 적으로 받을 수 있도록 프로그램을 구성을 해놓고(클러스트링을 응용) 백업을 실시간으로 받으면서, 중요한 기본데이터는 테입으로 백을 재 백업을 받는 식으로 구성을 하는 경우가 많기 때문에, 안정적일 수 밖에 없죠. (이러면 백업 스토리지쪽에만 부하가 걸리게 되니 사용자는 안정적인 트레픽을 공급이 가능하게 되는 거죠)

우선 실시간으로 사용자들이 접근하고 있는 스토리지 타워에 접근성을 주고 스토리지 타워를 하나더 구성해서 실시간으로 백업을 받으면서, 그리고 백업 스토리지 타워에 접근은 관리자 정도 밖에 못하기 때문에 만약 실제 스토리지 타워에 문제가 발생하였을때 바로 실시간 복구가 가능 할 뿐만 아니라, 백업 스토리지 타워메 문제가 발생하였을 경우에도 백업 스토리지 타워를 테입으로 다시 복사해서 보관하기 때문에 복구가 언제든지 가능한 경우에 속하게 됩니다.

참고로 물리적으로 아닌 논리적 환경에서 3개의 망이 다 죽을 확율은 거의 0%에 가갑습니다.

지금 이해하는 것은 SCSi HDD에 Raid로 0+5로 물려놓고, 그냥 물리적으로 하나 나갔을때 복원 하는 정도로 생각하는 것 같은데 이정도라면 데이터 안정성을 어느정도 보장은 하겠지만 외부적인 손실에 대한 복원까지 완전히 보안하는 부분이 아니기 때문에 당연히 큰 업체정도 될려면 스토리지 시스템을 겹겹이 치는 것이 가장 좋겠죠

adultonly (2002-11-28 06:31 작성)

0부터 5까지는 0,1,5만 알면 됩니다.
나머지는 비슷한데 약간 기술적부문만 다른것이고
6이상은 기본개념에서 벗어난 팔아먹을려고 억지로 이름붙이는 스타일이라 실제 필드에서는 그런이름 거의 안씁니다.

0 : 스트라이핑
1 : 미러링
5 : 스트라이핑+패리티

위에 세개입니다. 10이런건 그냥 0+1 이거입니다.(스트라이핑+미러링)

먼저 간단히 RAID라는것은 두가지 목적을 위해 사용합니다

디스크속도 개선, 재해대비, 고용량디스크구현 이 주된 목적입니다.

먼저 RAID0
스트라이핑은 디스크여러개를 묶어서 하나처럼 쓰는기술을 말합니다.
대용량의 디스크를 만들수 있고 사용할때 데이터를 분리해서
읽고 쓰기때문에 속도도 빨라집니다.
DISK1 DISK2 DISK3을 RAID0으로 구성을 한다면 데이터가 012345678을 넣는다면

DISK1에 0 3 6
DISK2에 1 4 7
DISK3에 2 5 8
이 들어가게되죠
근데 DISK1,2,3을 동시에 사용하기때문에 읽고 쓰는속도는 3배가 빨라지겠죠 (실제로는 이렇게는 안됩니다. 이것저것 데이타 쪼개주고 하는 계산시간이 들어가기 때문에)
단점은 디스크 하나가 뽀개지면 전부다 날라간다는겁니다.
DISK2가 날라가면 0x23x56x8의 데이터가 남아있게되는데
망가진 데이터는 쓸수가 없죠
이걸 조금이나마 방지하기 위해 RAID5를 사용하구요
이건 패리티체크를 더한건데..패리티에대한내용은...
따로 공부하세요 ^^;

그리고 RAID1은 철저하게..장애대비용입니다.
똑같은걸 두개이상의 디스크에 기록을 하는거죠
DISK1,DISK2를 RAID0으로 구성했다면
12345678의 데이터를 넣으면
DISK1 1 2 3 4 5 6 7 8
DISK2 1 2 3 4 5 6 7 8
똑같이 들어갑니다. 대신 DISK1이나 DISK2가 뽀개지면
다른 하나 쓰면되니까 그거쓰고있으면서 뽀개진 디스크를 교체해서
시간을 벌고 데이터도 살리고 그런 용도지요.

RAID10(1+0)은 1과 0을 합쳐서
속도도 빠르게 하고 대용량 디스크도 만들고..장애대비도하고(그냥 RAID0만 하면 디스크 자주 뽀개집니다 --;;) 이거죠

실제 필드에서는 RAID1+0을 많이 사용합니다.

추가적으로 이런걸 전용으로 구성해서 서버와 디스크를 분리해서 쓰는것장비들이 NAS, SAN 등의 스토리지 입니다.

..
... RAID는 Redundant Array of Inexpensive (or Independant) Disks의 약어이다
... RAID 시스템은 여러 드라이브의 집합을 하나의 저장장치처럼 다룰 수 있게 하고, 장애가 발생했을 때
... 데이터를 잃어버리지 않게 하며 각각에 대해 독립적으로 동작할 수 있도록 한다.
... 1988년 버클리의 David Patterson, Garth Gibson, Randy Katz가 SIGMOD에서
... "A Case for Redundant Arrays of Inexpensive Disks (RAID)"라는 논문을 발표했다.
... 이 논문은 데이터와 패리티 정보를 디스크에 배치하는 방법에 따라 디스크 어레이를 분류하고 있는
... 데, 이것이 이후 RAID level이라고 불리게 된다. 절대적이지도 않고 가능한 모든 아키텍처를
... 수용하고 있는 것도 아니다.
... 기본적인 RAID의 개념은 작고 값싼 드라이브들을 연결해서 크고 비싼 드라이브 하나
... (SLED: Single Large Expansive Disk)를 대체하자는 것이다.

... 기본정의
... 장애 발생요인을 최대로 제거한 고성능의 무정지 대용량 저장장치
... 여러 개의 HDD를 하나의 Virtual Disk로 구성하므로 대용량 저장 창치 구축가능
... 다수의 HDD에 Data를 분할하여 병렬 전송함으로써 전송 속도 향상
.... 시스템 가동 중 Disk Module 고장 시에도 시스템 정지 없이 새 Disk 로 교체하면서 원래의
....Data 를 자동복구
....기원
....1986년 미국U.C.Berkely 컴퓨터 공학과
....발표지 : “ A Case for RAID ”
....연구자
....David a Patterson
....Garth Gibson
....Randyh Kats 공동발표
....목적및 이론의 근거
.... 소량이면서 저가인 PC Type의 Disk Error 에 대한 연구
.... 중복 구성된 Disk Group에 Data를 Byte, Block, Segment 단위로 나누어 병렬로 동시에 기록
.... Disk의 일부용량에 Data가 아닌 Parity정보를 처리하고 기록
.... Data Disk가 파손되어도 Host에 서는 RAID내의 Parity 정보를 이용하여 Read/Write 작업을
........ 지속적으로 수행
.... Fail Disk 교체 시 RAID내에서 Parity정보를 이용하여 Data복구기능을 수행

...
..... 고 가용성 / 데이터 보호
......... 시스템에 있는 디스크의 수가 증가함에 따라 그중 한 디스크가 장애를 일으킬 가능성도 함께
......... 함께 증가한다. 그러므로 디스크 어레이는 어느 한 디스크의 장애에 면역성을 가져야 한다.
......... 미러링은 간결하지만 실 저장용량의 두배에 해당하는 디스크를 필요로 한다.
......... 인코딩 기법은 요구되는 여분의 디스크 용량을 감소시키기 위해 사용된다.
..... 드라이브 접속성의 증대
......... 운영체제에게 여러개의 물리적 드라이브가 하나의 논리적 드라이브로 보임으로서 논리적
......... 드라이브 수의 제한을 피할 수 있다.
..... 저렴한 비용과 작은 체적으로 대용량 구현
......... 여러개의 소용량 드라이브로 대용량 드라이브를 대체할 수 있다.
..... 지능형 콘트롤러에 의한 유연성
..... 특정 상황에서의 효율성 증가
......... 효율성은 하나의 디스크 입출력 요구에 대하여 여러 디스크에 데이터를 분산시키고 병렬적으로
......... 입출력을 처리함으로서 증가될 수 있다.
..... 데이터 분산에 의한 효율성의 재고
......... 디스크 어레이 (RAID) 의 목적은 데이터 가용성과 총 저장 용량을 증가시키며 여러 물리적
......... 디스크에 데이터를 적절히 분산시킴으로서 효율성을 재고시키는 것이다.

보통 운용형태는
서버는 웹만 가능하게 하구요->웹에서 아이디 비번을 입력하면 인증서버로 갔다가
사용자 인증을 하고 다시 웹서버로 돌아오고 원하는 공간으로 들어가면
커뮤니티 서버로 갔다가 5메가의 용량을 스토리지에서 불러 옵니다.
실시간으로 데이터가 왔다갔다 하죠 로그아웃하면 스토리지는 마지막을 저장합니다.

요즈음 커뮤니티 사이트들이 거의 이런식으로 운용이 되더라구요
옜날에는 서버를 막 늘려서 나누어서 저장하고 했었는데 현재는 스토리지를 많이
이용합니다. 이렇게 하는것이 트래픽 사용을 많이 줄여 주니까요

트래픽이란 간단하게 설명하면 자동차가 움직이기위해 도로가 존재하는것으로 생각
하시면 될것 같네요
데이터가 움직이는 도로를 트래픽이라고 생각하시면 될겁니다.
따라서 데이터는 많은데 도로가 좁다면 병목현상이 생기면서 지연되겠죠
그러면 도로를 넓혀주는것 처럼 트래픽 용량을 증설하면 되겠죠

SAN의 특징.
? 전용네트워크(Fiber Channel)를 통한 고속 Disk I/O
? 여러 대의 서버가 Fiber Channel Switch를 통하여 하나의 스토리지 공유
? 서버-스토리지간 프로토콜: Encapsulated SCSI
? 데이터전송은 Block단위
? 서버간 물리적인 Disk분할사용, 단지 외형상 Storage 공유
? 데이터관리는 연계된 각 서버에서 이루어짐
? Physical Layer Overhead가 작음
? 제품간 호환성 문제
? 비용, 거리의 문제
? EMC SYMMETRIX 시리즈, IBM Shark Series, Sun Storage, Hitachi

SAN은 DAS의 확장이며 NAS는 파일공유를 위한 별개의 솔루션으로 생각하여야 할 것으로 보입니다. 향후 방향은 당분간 파일공유를 위해 NAS를 채용하고 구성의 유연성과 접속성 그리고 확장성을 확보하기 위해 SAN을 채용해 두 가지가 혼합한 형태로 나갈 것으로 예상됩니다

목록 | 입력 | 수정 | 답변 | 삭제