Storage Networks

download Storage Networks

of 120

Transcript of Storage Networks

ARQUITETURAS DE REDES DE ARMAZENAMENTO DE DADOSAriovaldo Veiga de Almeida

Trabalho Final de Mestrado Profissional em Computao

Instituto de Computao Universidade Estadual de Campinas

ARQUITETURAS DE REDES DE ARMAZENAMENTO DE DADOS

Ariovaldo Veiga de AlmeidaJulho de 2006

Banca Examinadora: Prof. Dr. Nelson Luis Saldanha da Fonseca Orientador - Instituto de Computao - Unicamp Prof. Dr. Omar Branquinho PUC-Campinas Prof. Dra. Islene Calciolari Garcia Instituto de Computao - Unicamp Prof. Dra. Maria Beatriz Felgar de Toledo (Suplente) Instituto de Computao Unicamp

ii

ARQUITETURAS DE REDES DE ARMAZENAMENTO DE DADOS

Este exemplar corresponde redao final do Trabalho Final devidamente corrigido e defendido por Ariovaldo Veiga de Almeida e aprovado pela Banca Examinadora.

Campinas, Julho de 2006.

Prof. Dr. Nelson Luis Saldanha da Fonseca (Orientador Instituto de Computao - Unicamp)

Trabalho Final apresentado ao Instituto de Computao, UNICAMP, como requisito parcial para Mestre em a obteno do ttulo de Computao na rea de

Redes de Computadores.

iii

Bibliotecria: Maria Jlia Milani Rodrigues CRB8a / 2116

FICHA CATALOGRFICA ELABORADA PELA BIBLIOTECA DO IMECC DA UNICAMP

Almeida, Ariovaldo Veiga de AL64a Arquiteturas de redes de armazenamento de dados / Ariovaldo Veiga de Almeida -- Campinas, [S.P. :s.n.], 2006. Orientador : Nelson Luis Saldanha da Fonseca Trabalho final (mestrado profissional) - Universidade Estadual de Campinas, Instituto de Computao. 1. Redes de computao Protocolos. 2. Redes de informaes. da. II. Universidade Estadual de Campinas. Instituto de Ttulo. 3.

Armazenamento de dados. 4. Desempenho. I. Fonseca, Nelson Luis Saldanha Computao. III.

Ttulo em ingls: Storage networks architectures. Palavras-chave em ingls (Keywords): 1. Computer network protocols. 2. Information networks. 3. Information warehousing. 4. Performance. rea de concentrao: Redes de Computadores Titulao: Mestre em Computao Banca examinadora: Prof. Dr. Nelson Luis Saldanha da Fonseca (IC-UNICAMP) Prof. Dr. Omar Branquinho (PUC-Campinas) Profa. Dra. Islene Calciolari Garcia (IC-UNICAMP)

Data da defesa: 26/07/2006 Programa de Ps-Graduao: Mestrado em Computao

iv

Ariovaldo Veiga de Almeida, 2006 Todos os direitos reservados.

v

.

Agradecimentos

Agradeo em primeiro lugar a Deus pela minha existncia e por ter me dado a chance de evoluir academicamente e como pessoa ao enfrentar a tarefa de escrever este trabalho. Agradeo aos meus pais, Gioconda Veiga de Almeida e Gonzaga de Almeida, pela vida e educao que me deram, amo muito vocs. Agradeo aos meus irmos Carlos Gonzaga de Almeida e Gerson Veiga de Almeida pelo carinho e amizade que disfrutamos todos esses anos. Agradeo muito ao Prof. Nelson, pela orientao, apoio e enorme pacincia no decorrer de todo este trabalho. Agradeo a todo pessoal do Instituto de Computao, em particular a Claudinha, uma pessoa muito especial, atenciosa e colaborativa em todos os momentos. Por fim agradeo ao meu grande amigo Neto, sem sua obstinao eu no teria retornado ao mundo acadmico.

vi

Dedicatria

Dedico este trabalho a: Minhas trs queridas Mes: Me Mariquinha (minha av), Me Nica (minha tia) e minha Me materna. Sempre chamei a todas de Me , sempre estaro no meu corao. Meu Pai que sempre lutou para dar uma vida melhor para os filhos. Meus Filhos: Andre Luis Esteves Almeida e Alexandre Esteves Almeida. Espero que meu exemplo possa de alguma forma ajud-los no futuro.

vii

ResumoAs Redes de Armazenamento de Dados oferecem aos sistemas computacionais acesso consolidado e compartilhado aos dispositivos de armazenamento de dados, aumentando sua eficincia e disponibilidade. Elas permitem que os dispositivos de armazenamento de dados de diferentes fornecedores, mesmo que usem diferentes protocolos de acesso, possam ser logicamente disponibilizados para acesso. Elas permitem que as funes de gerenciamento de dados, como backup e recuperao, replicao de dados, ambientes de recuperao de desastres, e migrao de dados, possam ser realizados de maneira rpida e eficiente, com o mnimo de sobrecarga nos sistemas computacionais. Na dcada de 80, observou-se a descentralizao dos sistemas computacionais que evoluram dos ambientes centralizados, como no caso dos sistemas mainframe, para plataformas distribudas, onde os sistemas eram separados em blocos operacionais, com cada um dos blocos realizando uma funo especfica. No foram somente os sistemas computacionais que evoluram, mas tambm os sistemas de armazenamento de dados evoluiram para arquiteturas distribudas. A evoluo natural dos dispositivos de armazenamento de dados dos sistemas computacionais foi do uso de conexo direta e dedicada aos computadores para uma forma mais flexvel e compartilhada. A forma adotada foi atravs do uso de infra-estruturas das redes de computadores. Este trabalho analisa as tecnologias das redes de armazenamento de dados Storage Area Networks (SAN) e Network Attached Storage (NAS), que so as principais arquiteturas que utilizam as tecnologias de redes para o armazenamento e compartilhamento de dados. Enfoca-se as vantagens decorrentes dessas arquiteturas quando comparadas com a forma tradicional de conexo direta do dispositivo de armazenamento de dados aos computadores, a denominada arquitetura Direct Attached Storage (DAS). Palavras-chave: Redes de armazenamento de dados, Armazenamento de dados, Protocolos de redes, DAS, NAS, SAN, Direct Attached Storage, Network Attached Storage, Storage Area Network. viii

AbstractStorage Networks offer shared access to data storage devices, increasing the efficiency and the availability of storage data. They allow data storage devices, from different suppliers, using different access protocols, to be logically available for access. They also allow management of data, backup and recovery, data replication, disaster recovery environments, and data migration can be done in a fast and efficient way, with minimum overhead to the computer systems. In the 80s, we observed the decentralization of the computational systems. They evolved from a centralized environment to distributed platforms, where systems were separated in operational blocks, with each block executing specific functions. Both the computational systems and the storage envolved to a distributed architecture. The natural evolution of the storage devices was to move from the direct connection to computational systems to a more flexible and shared approach. This happened by the adoption of infrastructures used by computer networks. This work analyzes Storage Networks architectures: Storage Area Network (SAN) and Network Attached Storage (NAS), which are the main architectures that employ computer networks technologies. We will show the advantages of these architectures compared to the traditional form of direct connection of storage devices to computers, the named Direct Attached Storage (DAS) architecture. Keywords: Storage Networks, Storage, Network Protocols, DAS, NAS, SAN, Direct Attached Storage, Network Attached Storage, Storage Area Network.

ix

As Redes de Armazenamento de Dados podem melhorar de maneira significativa os procedimentos de backup e recuperao, provendo funcionalidade avanada ao mesmo tempo em que diminuim o Custo Total de Propriedade (TCO) e fornecem um Retorno de Investimento (ROI) significativo quando comparadas com ambiente DAS. Salomon Smith Barney, 2001

x

SumrioResumo ............................................................................................................................... viii Abstract ............................................................................................................................... ix 1 1.1 1.1.1 1.1.2 1.2 1.3 1.4 1.5 Introduo ........................................................................................................... Objetivos ............................................................................................................. Objetivo geral ..................................................................................................... Objetivos especficos ......................................................................................... Justificativa do estudo ....................................................................................... Motivao para o trabalho .................................................................................. Limitaes do trabalho ....................................................................................... Estrutura do trabalho .......................................................................................... 1 4 4 5 6 6 7 7 9 9 14 15 15 17 17 18 19 21 22 22 24 25 27 27 27 28 28 29 30 31 32 32 33 33 34 35 35 36 37

2 Componentes de uma Rede de Armazenamento ................................................ 2.1 Computadores ..................................................................................................... 2.2 Dispositivos de armazenamento de dados ......................................................... 2.2.1 Disco magntico ................................................................................................ 2.2.1.1 Princpios de funcionamento .............................................................................. 2.2.1.2 Tecnologias de discos magnticos ...................................................................... 2.2.1.2.1 SSA ..................................................................................................................... 2.2.1.2.2 ATA .................................................................................................................... 2.2.1.2.3 SCSI .................................................................................................................... 2.2.1.2.4 Fibre Channel ..................................................................................................... 2.2.1.3 Sistema de agregao e proteo de discos ........................................................ 2.2.1.3.1 RAID .................................................................................................................. 2.3 Redes de computadores ...................................................................................... 2.3.1 O Modelo de Referncia OSI/ISO ...................................................................... 2.3.2 Topologias de rede ............................................................................................. 2.3.2.1 Ponto a ponto ...................................................................................................... 2.3.2.2 Linear ou em barramento .................................................................................... 2.3.2.3 Estrela ................................................................................................................. 2.3.2.4 Anel ..................................................................................................................... 2.3.3 Protocolos de rede .............................................................................................. 2.3.3.1 TCP/IP ................................................................................................................. 2.3.3.1.1 TCP ..................................................................................................................... 2.3.3.1.2 UDP ............................................................................................................... 2.3.3.1.3 IP .................................................................................................................... 2.4 Tecnologias de rede ........................................................................................... 2.4.1 Ethernet ............................................................................................................ 2.4.1.1 Fast Ethernet ................................................................................................... 2.4.1.2 Gigabit Ethernet ................................................................................................... 2.4.1.3 10Gigabit Ethernet ............................................................................................. 2.4.2 Fibre Channel ...................................................................................................... 2.4.2.1 Topologias Fibre Channel ................................................................................. xi

2.4.2.1.1 Topologia ponto a ponto ..................................................................................... 2.4.2.1.2 Topologia lao arbitrado ..................................................................................... 2.4.2.1.3 Topologia comutador Fibre Channel ou Fabric .................................................. 2.5 Protocolos de redes de armazenamento .............................................................. 2.5.1 NFS ...................................................................................................................... 2.5.2 CIFS .................................................................................................................... 2.5.3 FCP ...................................................................................................................... 2.5.4 iSCSI ................................................................................................................... 2.5.5 FCIP .................................................................................................................... 2.5.6 iFCP ..................................................................................................................... 3. 3.1 3.2 3.3 3.4 3.5 4. 4.1 4.2 4.3. 4.3.1 4.3.2 4.4 4.5 4.6 5. 5.1 5.2 5.3 5.3.1 5.3.2 5.3.3 5.4 5.5 5.6 6

38 38 40 41 41 42 43 44 45 46

Arquiteturas de Armazenamento de Dados ......................................................... 47 O modelo SNIA de armazenamento de dados compartilhado ............................. 47 Arquitetura DAS .................................................................................................. 49 Arquitetura SAN .................................................................................................. 51 Arquitetura NAS .................................................................................................. 51 Combinao de arquiteturas ................................................................................... 53 Comparao de Arquiteturas de Armazenamento de Dados ............................... Arquitetura DAS .................................................................................................. Arquitetura FAS .................................................................................................. Arquitetura SAN .................................................................................................. Fibre Channel SANs ............................................................................................ IP SANs ............................................................................................................... Arquitetura NAS .................................................................................................. Comparao de DAS, SAN e NAS ...................................................................... Comparao de SAN com NAS............................................................................ Armazenamento de Dados e Computao Grid ................................................... Incio da Computao Grid .................................................................................. Componentes da Arquitetura Grid ....................................................................... Armazenamento de Dados em Grid ..................................................................... Transferncia de dados em Ambientes Grid ........................................................ Acesso a Dados Remotos em Ambientes Grid .................................................... Arquiteturas de Armazenamento de Dados em Ambientes Grid ......................... Evoluo das Tecnologias Grid ........................................................................... Computao Grid nas Empresas .......................................................................... Organizaes voltadas Padronizao de Computao Grid ............................. 55 55 60 62 65 66 67 71 74 78 79 83 85 86 87 88 91 94 97

Concluses ........................................................................................................... 99

Referncias Bibliogrficas ................................................................................................. 102

xii

Lista de FigurasFigura 2.1 Figura 2.2 Figura 2.3 Figura 2.4 Figura 2.5 Figura 2.6 Figura 2.7 Figura 2.8 Figura 2.9 Figura 2.10 Figura 2.11 Figura 2.12 Figura 2.13 Figura 2.14 Figura 3.1 Figura 3.2 Figura 3.3 Figura 3.4 Figura 3.5 Figura 4.1 Figura 4.2 Figura 4.3 Figura 4.4 Figura 4.5 Figura 4.6 Figura 4.7 Figura 4.8 Figura 4.9 Figura 4.10 Figura 4.11 Figura 4.12 Disco magntico com seus principais componentes Arquitetura SCSI-3 com as vrias alternativas de conexo fsica Representao grfica de uma rede ponto a ponto Representao grfica de uma rede linear ou de barramento Representao grfica de uma rede em estrela Representao grfica de uma rede em anel Datagrama IP Topologia ponto a ponto Topologia de lao arbitrado Topologia da conexo lao arbitrado da SAN usando hub Topologia da conexo fabric de uma SAN Exemplo de uma SAN com protocolo iSCSI Exemplo de uma SAN com protocolo FCPIP Exemplo de uma SAN com protocolo iFCP Modelo SNIA de armazenamento de dados compartilhado Modelo SNIA da arquitetura DAS Modelo SNIA da arquitetura SAN Modelo SNIA da arquitetura NAS Modelo SNIA da arquitetura mista DAS, SAN e NAS Arquitetura DAS com armazenamento local Arquitetura DAS com armazenamento consolidado Comparativo de custo das arquiteturas de armazenamento de dados Modelo genrico da arquitetura FAS Exemplo de uma rede SAN com comutador Fibre Channel Exemplo de uma rede SAN com comutador Gigabit Ethernet Exemplo de uma rede NAS com comutador Gigabit Ethernet Previso do mercado de discos externos para sistemas abertos Comparativo da utilizao de espao em disco entre DAS e FAS Gerenciamento de crescimento de dados em DAS e FAS Mercado DAS versus FAS de 2003 e 2008 Previso da evoluo do mercado FAS para sistemas abertos

xiii

Lista de TabelasTabela 2.1 Tabela 2.2 Tabela 2.3 Tabela 2.4 Tabela 2.5 Tabela 2.6 Tabela 2.7 Tabela 4.1 Tabela 4.2 Tabela 5.1 Geraes de computadores Principais marcos na evoluo dos computadores Comparao das especificaes do padro ATA Comparao das especificaes do padro SCSI Definio das camadas do Modelo de Referncia OSI Camadas do protocolo TCP/IP Comparativo de taxa de transmisso e distncia das tecnologias Ethernet Resumo comparativo das caractersticas de SAN e NAS Resumo de vantagens, desvantagens e aplicaes de SAN versus NAS Descrio das camadas da arquitetura grid

xiv

Lista de AbreviaesACL AFS ANSI ARP ARPA ARPANET ASCII ATA ATM CIFS CIM COBOL CPU DARPA DAS DIMM EBCDIC ESCON FAS FAT FC FC-AL FCIA FCIP FCP FDDI FORTRAN FS FTP GGF GSI HBA HIPPI HPC HTTP ICMP IDE IEEE IEFT IFCP IP IPX/SPX iSCSI Access Control List Andrew File System American National Standards Institute Address Resolution Protocol Advanced Research Projects Agency ARPA Network American Standard Code for Information Interchange Advanced Technology Attachment Asynchronous Transfer Mode Common Internet File System Common Information Model Common Bussiness Oriented Language Central Processing Unit Defense ARPA Direct Attached Storage Dual Inline Memory Module Extended Binary Coded Decimal Interchange Code Enterprise Systems Connection Fabric Attached Storage File Allocation Table Fibre Channel Fibre Channel Arbitrated Loop Fibre Channel Industry Association Fibre Channel over TCP/IP Fibre Channel Protocol Fiber Distributed Data Interface Formula Translator File System File Transfer Protocol Global Grid Forum Grid Security Infrastructure Host Bus Adapter High Performance Parallel Interface High Performance Computing Hypertext Transfer Protocol Internet Control Message Protocol Integrated Drive Electronics Institute of Electrical and Electronics Engineers Internet Engineering Task Force Internet Fibre Channel Protocol Internet Protocol Internetwork Packet Exchange/Sequenced Packet Exchange Internet Small Computer System Interface xv

ISO LAN LVM MAN MTBF NAS NetBIOS NFS NIC NNTP NTFS OGSA OSI PATA RAID RFC ROI RPC SAN SASI SATA SETI SCSI SNA SNIA SMB SMTP SSA TCP TCP/IP TCO TI UFS UDP USENET VLAN VLSI VO VOIP XFS XML WTC WAN WWW

-

International Standarization Organization Local Area Network Logical Volume Manager Metropolitan Area Network Mean Time Between Failure Network Attached Storage Network Basic Input/Output System Network File System Network Interface Card Network News Transfer Protocol New Technology File System Open Grid Services Architecture Open Systems Interconnection Parallel Advanced Technology Attachment Redundant Array of Independent Disks Request For Comments Return Of Investment Remote Procedure Calls Storage Area Networks Shugart Associates Systems Interface Serial Advanced Technology Attachment Search for ExtraTerrestrial Intelligence Small Computer Systems Interface System Network Architecture Storage Networking Industry Association Server Message Block Simple Mail Transfer Protocol Serial Storage Architecture Transmission Control Protocol Transfer Control Protocol/Internet Protocol Total Cost of Ownership Technolgy Information Unix File System User Datagram Protocol idem NNTP Virtual LAN Very large Scale Integration Virtual Organization Voice Over IP XFS File System Extensible Markup Language World Trade Center Wide Area Network World Wide Web

xvi

1. IntroduoCom a sem-precedente conectividade provida pela Internet, muitas novas aplicaes so desenvolvidas. Uma imensa quantidade de dados tornou-se disponvel para acesso, satisfazendo a demanda dessas novas aplicaes David H. C. Du, 2003 As informaes esto certamente entre os bens mais importantes e crticos das organizaes. Podemos comprovar isso quando do ataque terrorista s Torres Gmeas do WTC1, em 2001. Segundo Rory Nolan, diretor tcnico da ITRM, empresa irlandesa de gerenciamento de risco, com a destruio das torres 43 % da empresas que sofreram grandes perdas de dados no reabriram. Do restante de empresas, 51% delas fecharam nos dois anos seguintes ao desastre e somente 6% das empresas sobreviveram no longo prazo [1]. Assim, devido importncia que os dados representam, crtica a sua armazenagem. Atualmente as organizaes empresariais precisam armazenar, organizar, gerenciar e disponibilizar dados de uma forma global, alm de garantir sua integridade durante todos os processos, em alguns casos, devendo mant-los por vrios anos por razes legais. Os dados nos sistemas computacionais crescem continuamente de forma a ocupar quase todo armazenamento disponvel. Um estudo [2] publicado em 2003 pela School of Information Management and Systems da Universidade da California, Berkeley, mostrou que, em 2002, foram armazenadas em mdia magntica aproximadamente 5 EB2 de informaes. Desse volume, aproximadamente 2 EB em disco rgido. Esse mesmo estudo estimou que o volume de informaes armazenadas por pessoa, por ano, no mundo, foi de 800 MB3. Esse crescimento vertiginoso tem levado a uma busca contnua pelo aumento na capacidade e desempenho dos dispositivos de armazenamento de dados.

2

O World Trade Center possuia duas torres que foram derrubadas por ataques terroristas em 11/09/2001. Exabyte equivale a 1018 bytes. 3 Megabyte equivale a 106 bytes.

1

1

Desde o aparecimento do primeiro disco magntico, desenvolvido pela IBM em 1956, as tecnologias associadas aos discos tem evoluido continuamente. Elas procuram atender ao crescente volume de contedo digital, impulsionado pela tambm crescente utilizao dos computadores e, mais recentemente, da Internet. Em Dezembro de 2005, o IDC4 publicou um estudo [3] sobre sistemas externos de armazenamento de dados em disco magntico para sistemas abertos. Nesse estudo, somente no terceiro quartil de 2005, o tamanho do mercado mundial para esse tipo de armazenamento foi de $5.7 bilhes de dlares, equivalente a um volume de 505 PB5 de dados, correspondendo, respectivamente, a um crescimento de 13.3% e 58% em relao ao ano anterior. Segundo outra pesquisa do IDC [4], publicada em 2005, a projeo de crescimento do mercado brasileiro de armazenamento de dados dever ser, em mdia, de 35% ao ano at o ano de 2009. Em 2004 o volume vendido em equipamentos de armazenamento corporativo em disco foi de aproximandamente 7 PB sendo que a previso para 2009 dever ser superior a 30 PB. Isso aumentar, com certeza, a necessidade das empresas brasileiras em administrar grandes volumes de dados. Em 2001, as empresas Merrill Lynch e McKinsey & Company, publicaram um estudo [5] onde relatam que o gerenciamento tradicional de grandes volumes de dados de forma isolada tem sido bastante ineficiente, tanto que os resultados do estudo mostram que at 50% dessa capacidade de armazenamento pode ser desperdiada ou subutilizada quando gerenciada dessa forma. Essa baixa utilizao motivou ao aparecimento de novas formas de armazenamento buscando otimizar o gerenciamento de dados. Elas surgiram como evoluo natural dos dispositivos de armazenamento de dados dos sistemas computacionais se deslocando da conexo direta e dedicada aos computadores para formas mais flexveis, consolidadas e compartilhadas. A tecnologia adotada foi atravs da utilizao de infra-estruturas baseadas em redes de computadores.

4 5

IDC o principal provedor global de inteligncia no mercado e servios de aconselhamento. Petabyte equivale a 1015 bytes

2

A conexo do dispositivo de armazenamento de dados atravs de uma forma direta e dedicada computador conhecida como DAS (Direct Attached Storage). A conexo DAS a forma pioneira. Embora oferea uma plataforma slida, conhecida e dominada pelos usurios, apresenta limitaes relacionadas a gerenciabilidade, escalabilidade, disponibilidade, confiabilidade e recuperabilidade. As limitaes da arquitetura DAS levaram a vrios desenvolvimentos, tanto na rea de armazenamento de dados, quanto na rea de tecnologias de redes, que, segundo Preston [6], esto convergindo para infra-estruturas integradas, as chamadas Redes de Armazenamento de Dados (Storage Networks). Existem, atualmente, dois tipos de redes de armazenamento de dados: as redes Storage Area Networks (SAN) e as redes Network Attached Storage (NAS). As redes de armazenamento buscam solucionar as limitaes da arquitetura de armazenamento de dados dedicado (DAS), oferecendo um alto nvel de desempenho com maior escalabilidade e flexibilidade, possibilitando que os departamentos de informtica das organizaes atinjam altos nveis de servio na utilizao e gerenciamento de dados. A seguir apresentada uma breve descrio dessas arquiteturas, que sero mais detalhadas e comparadas nos Captulos 3 e 4. DAS - arquitetura que consiste em conectar o dispositivo de armazenamento de dados de forma dedicada e direta ao computador. Exemplos tpicos desse tipo de arquitetura podem ser: discos internos dos computadores, dispositivos JBOD6, etc. SAN - arquitetura que contm dispositivos de armazenamento que se comunicam atravs do protocolo serial SCSI7 na forma dos protocolos: FCP8 - transporte de comandos e blocos de dados SCSI atravs de tecnologia Fibre Channel, ou iSCSI9 - transporte de comandos e blocos de dados SCSI atravs de protocolo TCP/IP. A arquitetura SAN caracterizada pela transferncia de blocos de dados entre os sistemas computacionais e os dispositivos de armazenamento de dados.Just a Bunch Of Disks, termo usado para equipamento modular com discos, sem funcionalidades adicionais. Small Computer System Interface tecnologia e protocolo que ser visto no prximo captulo. 8 Fibre Channel Protocol protocolo que ser visto no prximo captulo. 9 Internet SCSI protocolo que ser visto no prximo captulo.7 6

3

NAS - arquitetura que contm dispositivos de armazenamento que se comunicam atravs de redes baseadas em TCP/IP e usam protocolos de compartilhamento de arquivos, sendo os mais comuns: NFS10 e CIFS11, que so protocolos nativos nos sistemas operacionais baseados em UNIX e Microsoft Windows, respectivamente. Na arquitetura NAS, os dispositivos de armazenamento de dados so vistos, e se comportam, como servidores de arquivos, com seus prprios sistemas operacionais processando protocolos de comunicao. Ela caracterizada pela transferncia de arquivos entre os sistemas computacionais e os dispositivos de armazenamento de dados.

O presente estudo descreve e compara as tecnologias de redes de armazenamento de dados SAN e NAS, que representam as principais arquiteturas que utilizam as tecnologias de rede para o armazenamento e compartilhamento de dados. Faz-se uma exposio dos dispositivos bsicos utilizados na implementao das redes de armazenamento de dados, como os computadores, os discos magnticos, e os protocolos de transporte e comunicao de dados. Apresenta-se, tambm, as vantagens dessas tecnologias quando comparadas com a forma tradicional de conexo DAS.

1.1. Objetivos

1.1.1. Objetivo geral O objetivo principal deste estudo discutir o estgio atual do armazenamento de dados nos sistemas computacionais, descrevendo e comparando as arquiteturas DAS, SAN e NAS. Apresenta-se neste trabalho a forte ligao entre redes de armazenamento de dados e computao grid, mostrando que as redes de armazenamento de dados oferecem a infra-estrutura bsica para o armazenamento de dados em grid.

10 11

Network File System protocolo que ser visto no prximo captulo. Common Internet File System protocolo que ser visto no prximo captulo.

4

1.1.2. Objetivos especficos Para alcanar o objetivo geral deste estudo necessrio alcanar, tambm, alguns objetivos especficos sobre as redes de armazenamento de dados, so eles: Definir o conceito de armazenamento de dados; Definir o conceito de acesso remoto a dados; Desenvolver uma comparao entre os sistemas de armazenamento de dados; Avaliar a convergncia das atuais formas de armazenamento e compartilhamento de dados, com as infra-estruturas de redes de armazenamento de dados; Avaliar a conectividade entre os sistemas e o desempenho no gerenciamento e acesso aos dados; Analisar a disponibilidade de dados e entre os diversos sistemas da organizao; Avaliar a questo dos backups e do tempo na implantao de novos sistemas; Analisar por quais motivos e benefcios do uso das redes de armazenamento de dados, e como isso se traduz em uma diminuio nos custos de armazenamento e gerenciamento de acesso a dados; Apresentar as tecnologias e solues utilizadas na implementao das redes de armazenamento de dados que permitem obter o mximo de seus recursos; Apresentar quais arquiteturas de armazenamento oferecem flexibilidade para implementao de novas solues de armazenamento de dados com facilidade e com uma boa relao custo/benefcio. Apresentar os conceitos de computao grid e como armazenamento de dados em redes se integra a essa nova tecnologia.

5

1.2. Justificativa do estudo A justificativa para o desenvolvimento deste trabalho deve-se ao armazenamento de dados em rede ser a soluo atual que permite o gerenciamento eficiente dos grandes volumes de dados que crescem diariamente. A consolidao que essa soluo oferece, permitindo conectar quaisquer computadores aos dispositivos de armazenamento de dados, oferece uma economia e melhor uso dos investimentos em armazenamento de dados. O armazenamento de dados em rede pode diminuir custos de gerenciamento e processamento de informaes, pois permite a consolidao de vrios ambientes e o compartilhamento de dispositivos e capacidades de armazenamento. Outra vantagem a criao de um ambiente unificado para os vrios ambientes computacionais, permitindo o processamento de informaes a qualquer momento, a partir de qualquer sistema computacional que tenha acesso rede de armazenamento de dados.

1.3. Motivao para o trabalho Os avanos nas tecnologias de armazenamento de dados, como: grande capacidade de armazenamento, velocidade de acesso aos dados, confiabilidade e reduo de custos, tm possibilitado administrar grandes volumes de informaes, transformado-as em grandes bases de dados organizadas. As redes de armazenamento de dados permitem aos sistemas computacionais acesso compartilhado aos dispositivos de armazenamento de dados, aumentando sua eficincia e disponibilidade. Elas permitem a separao entre sistema computacional e dispositivo de armazenamento de dados. Mesmo que o sistema computacional no esteja disponvel, independente da causa (por alguma falha, manueteno, etc), os dados estaro disponveis e protegidos. Permitem ainda que as funes de gerenciamento de dados, como backup e recuperao, replicao de dados, ambientes de recuperao de desastres e migrao de dados, possam ser realizadas de maneira rpida e eficiente, com o mnimo de sobrecarga nos sistemas computacionais.

6

1.4. Limitaes do trabalho A consolidao das redes de armazenamento de dados leva a uma diminuio de custos, melhor gerenciamento, melhor utilizao de recursos, maior disponibilidade de dados e grande escalabilidade. No entanto, j que existem vrias situaes onde qualquer uma das arquiteturas poderia ser utilizada, fica um questionamento: Qual das diferentes arquiteturas deve ser adotada para cada ambiente computacional ? Assim, uma limitao deste trabalho a falta de uma comparao que considere os requisitos de desempenho das aplicaes a serem usadas nas redes de armazenamento de dados. No simples essa comparao, j que as duas arquiteturas de redes de armazenamento de dados tratam de diferentes unidades bsicas de informao, de um lado transferncia de blocos de dados no caso de SAN e, por outro lado, transferncia de arquivos no caso de NAS. Alm disso, em NAS, o controle da distribuio de dados fisicamente nos discos feito em de nvel de sistema de arquivos do prprio dispositivo de armazenamento de dados, enquanto, em SAN, esta tarefa fica a cargo do prprio sistema operacional do computador que est utilizando o dispositivo de armazenamento de dados.

1.5. Estrutura do trabalho O restante deste trabalho est organizado da seguinte forma: O Captulo 2 o referencial terico sobre as tecnologias que so usadas para se montar ou construir sistemas de armazenamento de dados em redes. Neste captulo, so abordados, desde os sistemas computacionais, dispositivos de armazenamento de dados, at as redes de computadores e seus protocolos de comunicao e transporte de dados. O Captulo 3 utiliza o formalismo do modelo SNIA12 de armazenamento de dados compartilhado para descrever as arquiteturas de armazenamento de dados DAS, SAN e NAS.

12

Storage Nerwork Industry Association Associao de empresas ligadas a redes de armazenamento de dados.

7

O Captulo 4 compara as formas de armazenamento DAS, SAN e NAS, ressaltando, principalmente, a utilizao de armazenamento de dados em rede. formalizada a unificao de SAN e NAS no que tem sido denominada arquitetura Fabric Attached Storage (FAS). O Captulo 5 complementa o estudo de redes de armazenamento de dados ao mostrar sua integrao com a computao grid. Finalmente, no Cpitulo 6, apresentam-sa as concluses e recomendaes para armazenamento e compartilhamento de dados. Faz-se uma apreciao de como sistemas de armazenamento de dados devem complementar o ambiente computacional no futuro.

8

2. Componentes de uma Rede de ArmazenamentoEu acho que h um mercado mundial para talvez cinco computadores Thomas Watson, Chairman da IBM, 1943. Os computadores no futuro no devem pesar mais que 1.5 toneladas Revista americana Popular Mechanics, 1949. O objetivo deste captulo oferecer uma reviso dos principais ambientes relacionados ao armazenamento de dados em rede. Aborda-se computadores, dispositivos de armazenamento de dados, redes de computadores e finalizando com principais protocolos relacionados com armazenamento de dados e redes.

2.1. Computadores Os computadores fazem parte dos instrumentos que o homem inventou e desenvolveu buscando agilizar suas atividades. As primeiras aplicaes dos computadores foram como instrumento para agilizar a execuo de operaes matemticas, contudo hoje sua aplicao se encontra em praticamente todos as atividades do ser humano. Os computadores so os grandes responsveis pela existncia dos dispositivos de armazenamento de dados. Desde a inveno dos computadores viu-se necessidade de armazenar dados, tanto os dados a serem processados quanto aos dados produzidos a partir de processamento. Para muitos, a histria do computador remonta ao surgimento do mais antigo equipamento para clculo, o baco. Surgido da tentativa do homem de se livrar dos trabalhos manuais e repetitivos e da necessidade inata de se fazer contas mais rpida e precisamente, o baco provavelmente foi criado por volta de 2500 A.C. Em latim, uma pedrinha do baco era chamada de calculus, da a raiz das palavras ligadas a calcular.

9

O primeiro computador mecnico [8], projetado e desenvolvido como prottipo por Charles Babbage, em 1822, foi Difference Engine , mquina para tabular polinmios. Em 1834, Babbage projeta a Analytical Engine , mquina que usava cartes perfurados para armazenar os programas. Para essa mquina, Ada Byron King, a condessa de Lovelace, matemtica talentosa, criou programas, se tornando a primeira programadora de computador do mundo. Em 1936, Alan Turing publica On Computable Numbers, with an application to the Entscheidungsproblem , onde introduz uma mquina de computar digital abstrata, agora chamada de Turing machine , uma concepo dos princpios do computador moderno. Existem vrias formas de se organizar os principais momentos histricos ligados inveno e desenvolvimento dos computadores modernos. Um forma de se fazer isso a diviso dos computadores em geraes, iniciando a partir do uso de vlvulas Assim usa-se a Tabela 2.1 para descrever as geraes de computadores. Na Tabela 2.2 apresenta-se os principais marcos da evoluo dos computadores. Deve-se observar que existem pequenas divergncias sobre as datas exatas de alguns eventos que levaram a definir as vrias geraes, mas a idea bsica de cada gerao geralmente um consenso.Tabela 2.1 Geraes de computadores Legenda Gerao dos computadores Vlvulas a vcuo (1943 a 1958) Caracteriza-se pela construo de computadores a partir de vlvulas I a vcuo, resultando em mquinas grandes que podiam pesar muitas toneladas. Estas mquinas consumiam uma grande quantidade de energia devido ao grande nmero de vlvulas que usavam para funcionar. Transistores (1959 a 1964) A inveno do transistor, em 1947, foi feita pelos pesquisadores da II Bell Labs, John Bardeen, Walter Brattain e Willian Shockley. O primeiro computador experimental transistorizado foi feito, em 1953, pela Universidade de Manchester, e mostrou a possibilidade de substituir as vlvulas dos computadores, garantindo menor consumo, maior poder computacional e confiabilidade a eles. Essa gerao usa tambm compiladores FORTRAN e/ou COBOL facilitando o desenvolvimento de aplicaes.

10

III

IV

V

Circuitos integrados (1964 a 1972) O circuito integrado foi inventado, em 1958, por Jack St Clair Kilby da Texas Instruments e, num trabalho separado, por Robert Noyce da Fairchild Semiconductors Corporation. Com os circuitos integrados surgiram os grandes computadores (mainframes) e nessa poca aparecem os primeiros Sistemas Operacionais. Microprocessadores (1972 a 1993) Em 1971, a Intel produziu o primeiro microprocessador comercial (4004) que operava com 2.300 transistores e executava 60.000 clculos por segundo. Microprocessadores ULSI (1993 at os dias atuais) Circuito central com tecnologia ULSI. Utiliza-se o Processamento Paralelo (mltiplos processadores executando mltiplas tarefas) e Inteligncia Artificial (capacidade de processar o conhecimento). Amplia-se a capacidade de processamento de dados, armazenamento e taxas de transferncia.

Tabela 2.2 Principais marcos na evoluo dos computadores Gerao I Data 1943 Autor / Instituio Dr.Thomas Flower The Post Office Research Labs Comentrios Colossus foi o primeiro computador eletrnico digital programvel. Ele continha 2400 vvulas e foi desenvolvido em segredo para decodificao de mensagens alems durante 2 Guerra Mundial. Primeiro computador eletrnico, Harvard Mark I. Ocupava 120 m3, pesava 5 toneladas, possua 17 m de comprimento por 2,5 m de altura e era composto de milhares de rels e precisava de 3 segundos para operar dois nmeros de 10 dgitos. Foi criado para a Marinha dos EUA criar tabelas balsticas.

I

1944

Howard Aiken Universidade de Harvard

11

Gerao I

Data 1946

Autor / Instituio John W. Mauchly e J. Presper Eckert Universidade da Pensilvnia

I

1951

John W. Mauchly e J. Presper Eckert Remington Rand

I

1951

Jay Forrester MIT

II

1954

Bell Laboratories Fora Area Norte-americana

II II

1960 1961

Digital IBM

Comentrios Um dos primeiros computadores totalmente eletrnico, o ENIAC pesava 30 toneladas, possua 5 m de largura por 24 m de comprimento e era composto de 18.000 vlvulas, 70.000 transistores, 10.000 capacitores e 800 Km de fios. Consumia 160 KW de potncia. Executava at 5000 operaes de soma/subtrao por segundo. Foi usado pelo Exrcito dos EUA para clculo de trajetrias balsticas e testar teorias para o desenvolvimento da bomba de hidrognio. O primeiro computador comercial a ter sucesso, o UNIVAC I foi tambm o primeiro computador de propsito geral. A primeira unidade foi para o U. S. Census Bureau dos Estados Unidos. O primeiro computador a trabalhar em tempo-real, o Whrilwind foi o primeiro a permitir computao interativa atravs do uso de um teclado e um display tubo de rios catdicos. Foi feito para ser usado pelo US Air Defense System. Desenvolvido o primeiro computador usando transistores, o TRADIC. Ocupava menos de 1 m3, possua 800 transistores e 10.000 diodos. Dissipava 100 W de potncia e executava 1.000.000 de operaes por segundo. Surgimento do primeiro mini computador, o PDP 1, do qual foram vendidas unidades. Aparecimento do IBM-1401, pequeno computador comercial com grande sucesso.

12

Gerao II

Data 1964

Autor / Instituio Seymour Cray na empresa Control Data Corporation

IV IV

1974 1975

Jonathan Titus Steve Wozniac e Steve Jobs IBM

IV

1981

IV

1990

IBM

V

1993

Intel

Comentrios Lanamento do CDC 6600, que utilizava mltiplas unidades funcionais. Acredita-se que tenha sido o primeiro computador a ser designado como "supercomputador". Ele possuia a velocidade de clock mais rpida de sua poca (100 nanossegundos). Foi um dos primeiros computadores a usar o lquido Freon para refrigerao. Foi o primeiro computador comercial a usar um display tubo de rios catdicos. Desenvolvimento do primeiro computador pessoal chamado de Mark-8. Lanamento do computador pessoal Apple I. O incio da popularizao de microcomputadores. Lanamento dos microcomputadores IBM PC, operando a com processador Intel 8088 com velocidade de 4.7 MHz. Lanamento dos microcomputadores IBM PC-AT 386, operando com processador Intel 8086 com velocidade de 20 MHz, usando os microchips VLSI. Lanamento do primeiro processador Pentium, que posteriormente evoluiu para o Pentium II, III e 4, utilizando memrias DIMM e barramento de 64 bits.

A partir da gerao atual de computadores, possvel que no possamos mais empregar o conceito de geraes tecnolgicas por causa das rpidas mudanas que vem ocorrendo nas tecnologias de hardware, software e comunicaes, o que dificulta a definio de parmetros claros de classificao.

13

2.2. Dispositivos de armazenamento de dados Desde o surgimento dos sistemas computacionais existe a necessidade de armazenamento de dados. Eles so passveis de serem armazenados para uso imediato ou futuro, tanto os dados de entrada, que sero processados pelos sistemas computacionais, como os dados intermedirios, usados durante o processamento, quanto os dados de sada, resultado final do processamento. Os dispositivos de armazenamento de dados dos sistemas computacionais podem ser classificados de acordo com o tipo de dados que eles armazenam, podendo ser: dados on-line, dados off-line, dados transientes ou dados persistentes. Entre os dispositivos de armazenamento de dados, os dispositivos magnticos so amplamente usados pelos sistemas computacionais, pois oferecem as seguintes vantagens: Baixo custo: devido s tecnologias empregadas e ao grande volume de produo. Para se ter uma idia, hoje o armazenamento em disco magntico mais barato que o armazenamento em papel. Alta confiabilidade: Os discos magnticos esto entre os dispositivos

eletromagnticos mais confiveis produzidos atualmente. A maioria dos discos magnticos de mercado possui MTBF13 maior que um milho de horas. Universalidade: Nas ltimas dcadas, as tecnologias de conexo dos discos magnticos aos sistemas computacionais tm sido padronizadas. Hoje, a maioria dos discos magnticos pode ser usada com a maioria dos sistemas computacionais. As fitas e/ou cartuchos magnticos so muito usados como dispositivos de armazenamento de dados em situaes de backup e manuteno de dados off-line. So usados para arquivamento, transporte de dados entre sistemas e/ou localidades, armazenamento de dados histricos, replicao de dados em local remoto, etc.

13

Mean Time Between Failure tempo mdio de falha, ou seja, um indicador de possibilidade de falha.

14

J os discos magnticos so usados nos processamentos on-line e em tempo real . A gravao e leitura de dados podem ser feitas continuamente e de forma imediata. A grande vantagem dos discos em relao s fitas e cartuchos magnticos a possibilidade que os discos oferecem para acesso aleatrio aos dados armazenados, agilizando muito a manipulao de informaes. O disco magntico tem se apresentado como a soluo tecnolgica mais usada para o armazenamento de dados persistentes e on-line. Existem outras tecnologias de armazenamento de dados, como os discos pticos, os discos de estado slido, etc, porm neste trabalho o enfoque principal ser dado s tecnologias de discos magnticos, pois so amplamente utilizados [2] e oferecem, a baixo custo, o tipo de armazenamento permanente e on-line necessrio aos sistemas computacionais atuais.

2.2.1. Disco magntico O disco magntico ou disco rgido o dispositivo de armazenamento de dados persistente mais comum nos sistemas computacionais. Desde os primeiros computadores ficou clara a necessidade de armazenar dados. No incio com uso de cartes perfurados e depois fita magntica. Foi somente em 1956 que a IBM lanou o primeiro sistema com discos rgidos magnticos, o RAMAC 305 [9]. Ele possuia um conjunto de 50 discos ( pratos ) e tinha a capacidade de armazenar o equivalente a 5 MB de dados. Ele permitia que informaes fossem codificadas (gravadas) nos discos de forma magntica, e, podeiam ser recuperadas posteriormente de forma aleatria. Essa foi considerada uma verdadeira revoluo na indstria de computadores. Foi o primeiro passo para aplicaes com grandes volumes de informaes on-line e em tempo real, comuns nos dias de hoje.

2.2.1.1. Princpios de funcionamento Os discos magnticos sofreram vrias melhorias tecnolgicas desde a sua inveno, mas preservam os mesmos princpios de funcionamento, ou seja, com o uso de certos materiais ferromagnticos possvel magnetizar de forma permanente pequenas regies atravs da sua

15

exposio a um campo magntico [10]. Essas regies podem ser posteriormente lidas ou regravadas. Deste modo, podemos usar esse meio magntico para armazenamento de dados. Na Figura 2.1, apresenta-se o modelo geral de um disco magntico, onde so identificados os seus principais componentes. Os discos magntico so formados por um ou, em geral, mais pratos ( discos ) circulares. Cada superfcie do prato recoberta de material ferro-magntico. Cada superfcie possui uma cabea magntica responsvel pela criao do campo magntico para leitura e gravao de dados. Com a finalidade de identificar e localizar dados nos discos magnticos, esses so organizados em crculos concntricos chamados trilhas. As cabeas de gravao e leitura so fixadas em atuadores que movem as cabeas de leitura e gravao de trilha em trilha. Cada trilha dividida em setores, que so blocos de dados de tamanho fixo (geralmente de 512 a 520 bytes). Todas as trilhas num mesmo raio so coletivamente chamadas de cilindro.

Figura 2.1

Disco magntico com seus principais componentes

Cada setor inicializado com um padro de sincronizao e identificao seguido dos dados do setor mais um cdigo de correo de erro (ECC14), seguido de um padro indicador de final de setor. Setores adjacentes so separados por um padro que ajuda a manter a cabea de

14

Error Correction Code sistema de deteco e correo de erros.

16

leitura e gravao centralizada na trilha. Uma marca no incio e final de cada trilha ajuda a lgica de controle do disco magntico a determinar a posio no disco e manter posio rotacional. Dentre as vrias melhorias que os discos magnticos tiveram e continuam tendo, destacam-se: o aumento da densidade de gravao, aumento no desempenho, diminuio do tamanho, diminuio do consumo e aumento na confiabilidade. Todas essas caractersticas e a ampliao do seu uso em computadores pessoais e mveis levou a uma grande diminuio do seu custo e, conseqentemente, sua popularizao.

2.2.1.2. Tecnologias de discos magnticos Os discos magnticos possuem interfaces controladoras que os conectam aos sistemas computacionais. Atravs dessas interfaces possvel executar e administrar a transferncia de dados entre os sistemas computacionais e os discos. Vrias tecnologias de discos e interfaces controladoras foram desenvolvidas. A seguir so descritas as principais tecnologias em uso atualmente.

2.2.1.2.1. SSA A tecnologia SSA (Serial Storage Architecture) [11] foi inventada pela IBM em 1990. Apesar de ser vista como uma tecnologia proprietria da IBM, foi definida como padro ANSI15 nmero X3T10.1. Apesar de padro, nunca foi usada amplamente pela indstria. Ela especifica uma forma de conexo serial, com cabeamento em lao bidirecional, de alto desempenho, que permite a conexo de at 127 discos hot swappable16. Os discos possuem duas portas de conexo. Cada controladora SSA suporta at 32 conjuntos de discos com proteo RAID17, podendo estar conectados por fio metlico ou fibra ptica. Para facilitar a portabilidade, o SSA mantm muitas caractersticas do protocolo lgico do SCSI-2, que ser apresentado a seguir. As implementaes atuais operam a uma taxa de transferncia de dados de at 80 MB/s.American National Standards Institute Hot swappable caracterstica que permite a adio ou substituiao de discos com o equipamento em funcionamento. 17 RAID mecanismo de virtualizao e proteo de discos que ser visto ainda neste captulo.16 15

17

2.2.1.2.2. ATA A tecnologia ATA (Advanced Technology Attachment) [12] tem um padro de interface paralela para conexo de perifricos (como discos, CD-ROM etc.) a computadores pessoais. Foi originalmente desenvolvido em 1986 pelas empresas: Imprimis, uma diviso CDC18, Western Digital, e Compaq Computer. Outro nome usado quase como sinnimo para essa interface IDE (Integrated Drive Electronics). Na realidade IDE uma tecnologia de unidade de disco e no de conexo como o ATA. O cabeamento ATA padro possui 40 vias e pode ter at 45 cm de comprimento, suportando somente dois dispositivos por interface controladora (um chamado mestre e outro escravo). Com o passar do tempo, vrias melhorias foram implementadas no padro ATA. A Tabela 2.3 apresenta um histrico de melhorias implementadas no padro ATA desde a sua criao.Tabela 2.3 Comparao das especificaes do padro ATAPadro ATA-1 ATA-2 ATA-3 ATA-4 ATA-5 ATA-6 ATA-7 ATA-8 Padro ANSI 1994 1996 1997 1998 2000 2002 2005 Nome pelo qual conhecido ATA, IDE EIDE,Fast-ATA,Fast-IDE,UltraATA EIDE ATAPI-4, ATA/ATAPI-4 ATA/ATAPI-5 ATA/ATAPI-6 ATA/ATAPI-7 ATA/ATAPI-8 Taxa de transferncia (em MB/s) De 3.3, 5.2, 8.3 MB/s De 11,1 a 16,6 MB/s 16,6 MB/s De 16,7 a 33,3 MB/s (chamado de Ultra-DMA 33) De 44.4 a 66.7 MB/s (chamado de Ultra DMA 66) 100 MB/s (chamado de Ultra DMA 100) 133 MB/s (chamado de Ultra DMA 133) Em desenvolvimento

Em 2003, com a introduo do Serial ATA ou SATA (Serial Advanced Technology Attachment) [13], o padro ATA passou a ser chamado para PATA (Parallell Advanced18

Control Data Corporation

18

Technology Attachment). O padro Serial ATA uma evoluo proativa da interface ATA, saindo de uma arquitetura de barramento paralelo para uma arquitetura de barramento serial. Na sua introduo a taxa de transferncia foi de 150MB/s, porm hoje j possui taxas de 300 MB/s e com planejamento de chegar a 600 MB/s no futuro. O cabeamento SATA possui 7 vias, nele podemos conectar somente um dispositivo (somente conexo ponto a ponto). O cabeamento tem tamanho mximo de 100 cm.

2.2.1.2.3. SCSI O padro SCSI (Small Computer Systems Interface) [14, 15] foi criado em 1979 quando a empresa Shugart Associates desenvolveu a interface paralela de conexo a discos chamada SASI (Shugart Associates Systems Interface). Ela suportava um conjunto pequeno de comandos e funcionava a uma taxa de 1,5 MB/s. Em 1981, a Shugart Associates e outra empresa, a NCR Corporation, unem-se para convencer o comit de padronizao da ANSI a tornar o SASI um padro. Foi, somente, em 1986, que o primeiro padro SCSI foi publicado pelo grupo de trabalho X3T9.2 da ANSI. Uma das principais diferenas da interface SCSI com as outras interfaces na poca era que o controle do processo de comunicao estava no prprio perifrico. Outras vantagens incluem cabeamento mais comprido, possibilidade de conectar at 7 perifricos (posteriormente foi aumentado para 15) em uma nica interface SCSI. Os perifricos podem ser de vrios tipos (discos, fitas, CDs, scanners, etc). Outra vantagem da interface SCSI sobre as demais a possibilidade de manter e administrar uma fila de comandos e permitir o enfileiramento de requisies de vrios perifricos. Isto significa, por exemplo, que a controladora de disco trabalha em multitarefa. O primeiro padro SCSI, tambm conhecido por SCSI-1, definiu um barramento paralelo de 8 bits trabalhando a uma taxa de transferncia de 5 MB/s, com possibilidade de conectar at 7 perifricos.

19

O primeiro aperfeioamento veio com SCSI-2, publicado como padro ANSI em 1994. Ele foi desenvolvido para ser um aperfeioamento do SCSI-1, assim, mantm compatibilidade com este. Entre as melhorias implementadas temos o aumento do nmero de perifricos no barramento SCSI, que passa de 8 para 16, alm disso a taxa transferncia de at 10 MB/s para barramento de dados de 8 bits ou de at 20MB/s para o novo barramento de dados de 16 bits. Um novo aperfeioamento veio com SCSI-3, publicado como padro ANSI em 1996. Uma das principais novidades desse aperfeioamento foi a adio de um esquema de interconexo serial alm da paralela. O padro foi dividido em mltiplos nveis, oferecendo mais alternativas para o nvel fsico, podendo ser: SCSI Serial, Fibre Channel, SSA, IEEE 1394, InfiniBand, entre outras como ilustra a Figura 2.2.

Figura 2.2

Arquitetura SCSI-3 com as vrias alternaticas de conexo fsica.

Na Tabela 2.4, as vrias especificaes de SCSI so comparadas. Nela pode-se comparar os seguintes aspectos: tamanho do barramento de dados, velocidade de comunicao mxima, nmero mximo de perifricos, e distncia mxima de cabeamento que podemos ter para cada especificao SCSI.

20

Tabela 2.4 Comparao das especificaes do padro SCSI Especificaes Tamanho do Taxa de Tamanho barramento transferncia mximo do (bits) (MB/s) cabeamento (m) 8 8 16 8 16 8 16 16 16 5 10 20 20 40 40 80 160 320 6 1.5 a 3 1.5 a 3 1.5 a 3 1.5 a 3 12 12 12 12 Nmero mximo de dispositivos 8 8 16 8 16 8 16 16 16

SCSI Fast SCSI (SCSI-2) Fast Wide SCSI (SCSI-2) Ultra SCSI Ultra Wide SCSI (SCSI-3) Ultra2 SCSI Ultra2 Wide SCSI Ultra3 SCSI (Ultra-160) Ultra-320 SCSI

Na Tabela 2.4 pode-se constatar que a evoluo de SCSI tem buscado atender ao crescimento do armazenamento de dados. Isso pode ser visto pelo aumento da taxa de transferncia e do nmero de dispositivos que podem ser conectados a uma interface controladora SCSI.

2.2.1.2.4. Fibre Channel O padro de discos Fibre Channel [16] faz uso da tecnologia Fibre Channel implementada na controladora de discos. Os discos Fibre Channel esto na mesma categoria que os discos SCSI. So considerado, pelos fabricantes, discos para ambientes Enterprise , pois possuem caractersticas de alto MTBF, baixo rido e alto desempenho. So prprios para os sistemas computacionais chamados servidores e so amplamente usados nos sistemas de armazenamento de dados corporativos. Usam controladoras de discos, chamadas HBA (Host Bus Adapter) que funcionam a velocidades de 100 MB/s, 200 MB/s ou 400 MB/s. A conexo de discos com a controladora feita atravs de cabo serial com 4 vias e podem conectar num lao com at 126 dispositivos.

21

2.2.1.3. Sistema de agregao e proteo de discos A necessidade de armazenar cada vez mais informaes cresceu mais rapidamente do que a capacidade dos discos magnticos podiam oferecer isoladamente. Uma soluo foi desenvolvida para atender a essa necessidade. Ela baseada num processo de agregao e virtualizao de vrios discos, criando-se um disco virtual de maior capacidade. O conceito de agregao de discos magnticos surgiu para aumentar a capacidade e melhorar o desempenho e a disponibilidade dos dispositivos de armazenamento. As funes bsicas na agregao de discos so [10]: Concatenao discos concatenados se apresentam como se fosse um grande e nico disco virtual de maior capacidade. Distribuio tambm conhecido com stripping permite aumentar o desempenho ao distribuir informaes em vrios discos fsicos simultaneamente. Alm disso, apresenta um grande e nico disco virtual de maior capacidade. Espelhamento informaes idnticas so escritas em dois ou mais discos. Do ponto de vista do sistema computacional, o espelhamento visto como um nico disco. Combinao vrios discos so agregados usando-se tcnicas RAID para distribur dados entre eles. Grava-se uma informao de redundancia nos discos para garantir integridade de dados. Alm disso, apresenta um grande e nico disco virtual de maior capacidade.

2.2.1.3.1. RAID O RAID (Redundant Array of Independent Disks) uma tecnologia na qual os dados so armazenados de forma distribuda entre grupos de disco para conseguir ao mesmo tempo redundncia e taxas mais altas de transferncia de dados. Ao invs de armazenar os dados em um nico disco rgido que pode falhar, o RAID mantm uma forma de redundncia de informao baseada nos dados gravados entre diversos discos do grupo de disco.

22

Em 1987, Patterson et al., publicaram o artigo A Case for Redundant Arrays of Inexpensive Disks (RAID) [17]. O objetivo inicial era trabalhar com discos mais baratos que os discos de mainframe da poca, da o uso da palavra Inexpensive (barato), mas logo a palavra foi substituda por Independente, pois, pelas caractersticas de RAID, possvel agregar discos para aumentar a capacidade de armazenamento, bem como, aumentar o nvel de proteo ao gravar informaes redundantes em discos. Com essa proteo, mesmo falhando um disco, possvel recuperar as informaes a partir dos discos restantes. Os autores descreveram 5 configuraes (RAID-1 a RAID-5), combinando mltiplos discos. Eles podem ser vistos como um nico disco com aumento de desempenho e confiabilidade. Eles tambm descrevem uma configurao chamada RAID-0 que no impelmenta redundncia, como pode ser visto a seguir: RAID 0: Distribuio de dados em vrios discos (stripping). Neste caso, as informaes so espalhadas em vrios discos para se ter um desempenho maior fazendo a gravao em paralelo entre eles. As taxas de transferncias so muito altas, mas no h proteo contra falhas nos discos. RAID 1: Espelhamento (mirror). Todos os dados so sempre gravados em dois ou mais discos, o que oferece a mais alta confiabilidade de dados. Para leitura, a taxa de transferncia de dados mais alta do que para um nico disco, pois pode ler de qualquer um dos discos simultaneamente. RAID 2: Distribuio de dados em vrios discos, com informao de redundncia (paridade) sendo gravada em multplos discos. A paridade que se usa o cdigo de deteco de erros Hamming code. Na prtica, no um mtodo usado porque as prprias controladoras de discos atuais j possuem mecanismos de deteco e correo de erros. RAID 3: Distibuio de dados em vrios discos com um disco adicional de redundncia (paridade). Todos os discos trabalham de forma sincronizada. A gravao feita de forma simultnea, em tiras ( stripes ) por todos os discos de dados. No disco de paridade, a informao gravada operao lgica XOR de todos os dados da tira . A unidade de

23

informao usada dos discos um nico byte. No caso da falha de qualquer disco, possvel continuar entregando dados a partir dos discos restantes. RAID 4: Similar ao RAID 3, porm no trabalha de maneira sincronizada e a informao bsica de informao da tira , usada para calcular a redundncia (paridade) um blocos de dados (em mdia de 1 a 8 Kbytes). RAID 5: Similar ao RAID 4, porm ao invs de usar a paridade em um nico disco, todos os discos contm tiras para dados e tiras para armazenar a paridade dos outros discos do grupo RAID.

Mais tarde, outras configuraes RAID foram definidas, inclusive pela combinao de mais de um nvel. A seguir apresentamos duas deles: RAID 6: Similar ao RAID 5, mas grava um segundo disco de paridade. Assim, possvel mesmo depois da falha simultnea de dois discos de dados, continuar entregando dados; RAID 0+1: Tambm chamado pela indstria de RAID 10, usa de maneira conjunta as duas tcnicas: diviso de dados e espelhamento. Obtm-se o melhor desempenho por conta do paralelismo do RAID-0 e a proteo oferecida pelo RAID-1.

2.3. Redes de computadores As redes de computadores so agregaes de ns distribudos (como computadores pessoais, estaes de trabalho, servidores, perifricos etc.), que atravs de protocolos de comunicao suportam interaes entre si. Esses ns so no-estruturados e no-previsveis. Assim, um nmero maior de decises de roteamento de dados devem ser feitas para que haja sucesso da comunicao entre um n e outro da rede. As redes tm relativamente latncia maior que as conexes em canal, j que as decises de roteamento exigem mais processamento, fazendo com que sejam relativamente mais lentas.

24

As redes de computadores foram desenvolvidas para conectar computadores, permitindo que uns tivessem acesso aos outros. Dessa maneira, poderiam compartilhar seus recursos disponibilizados na rede [18]. So vrias as vantagens que as redes de computadores oferecem, entre elas pode-se citar: Permitir o acesso simultneo a programas e dados importantes; Permitir s pessoas compartilhar dispositivos perifricos; Facilitar o processo de realizao de cpias de segurana (backups) em mquinas remotas; Agilizar as comunicaes pessoais como, por exemplo, o correio eletrnico. A classificao de redes, em categorias, pode ser realizada segundo diversos critrios. Os critrios mais comuns so: dimenso ou rea geogrfica ocupada, capacidade de transferncia de informao, topologia, meios fsicos de suporte ao envio de dados, ambiente em que esto, mtodo de transferncia dos dados, tecnologia de transmisso, etc. A seguir apresenta-se as principais caractersticas que so importantes para as redes de armazenamento de dados, comeando, porm, com o modelamento de redes de computadores.

2.3.1. O Modelo de Referncia OSI/ISO No incio na dcada de 1970, diversos esforos foram realizados para se estabelecer um padro nico para redes de computadores. Vrios modelos de referncia foram formalmente propostos, porm somente um tem sido considerado de maneira geral, o chamado Modelo de Referncia OSI/ISO19 [19 ]. Em maro de 1977, a Organizao Internacional para Padronizao (ISO), constituiu um grupo de trabalho para estudar a padronizao da interconexo de sistemas de computao. Em

19

Open Systems Interconnection / International Organization for Standardization

25

1984, foi definida uma arquitetura geral, denominada Modelo de Referncia OSI, para servir de base para a padronizao da interconexo de sistemas abertos. Esse modelo define os processos de comunicao em rede atravs de camadas. O modelo especifica sete camadas e a interface, escopo funcional, requisitos e servios de cada camada para que haja troca de mensagens entre as camadas adjacentes. Ele utiliza sucessivos encapsulamentos de protocolos, de modo que um protocolo de uma camada superior seja envolvido pelo protocolo de um camada inferior. A Tabela 2.5 mostra o nome e descrio das sete camadas do Modelo de Referncia OSI.Tabela 2.5 Descrio das camadas do Modelo de Referncia OSI Nmero camada 7 6 5 4 3 2 1 Nome da Camada Aplicao Apresentao Sesso Transporte Rede Enlace Fsica Descrio Seleo de servios apropriados a aplicaes Formatao e reformatao de dados Interface para o estabelecimento de sesses Gerenciamento de conexes Protocolos de roteamento de dados, interconexo de redes Mtodo de acesso Transporte fsico. Especifica conector, pinagem, etc.

Quando uma mensagem passa da camada n+1 para a camada n so acrescidos outros dados relevantes camada n (como, por exemplo, tipo da mensagem, endereos, tamanho da mensagem, cdigo de deteco de erro etc.). Estes dados so retirados quando a mensagem chega na camada de mesmo nvel na estao de destino. Embora as camadas estejam interligadas, elas so independentes, pois o modelo permite uma flexibilidade na implementao funcional de cada camada usando a tecnologia que seja mais apropriada (por exemplo, a camada de enlace pode ser implementada com as tecnologias Ethernet, Token Ring, FDDI, etc). Deste modo, as funes de uma camada superior podem ser suportadas por uma grande variedade de implementaes das camadas inferiores.

26

2.3.2. Topologias de rede A forma com que os ns (dispositivos) so conectados influenciar a rede em diversos pontos considerados crticos como flexibilidade, velocidade e segurana. Da mesma forma que no existe o melhor computador, no existe a melhor topologia de rede. Tudo depende da necessidade e aplicao.

2.3.2.1. Ponto a ponto Na topologia ponto a ponto, um n est ligado diretamente e, de forma nica, a outro n da rede. Na Figura 2.3, pode-se ver uma representao desse tipo de topologia. Neste tipo de topologia, toda banda da rede est totalmente disponvel para comunicao entre os ns conectados.

Figura 2.3

Representao grfica de uma rede ponto a ponto.

2.3.2.2. Linear ou em barramento Na topologia linear ou em barramento, todos os ns compartilham um mesmo meio de conexo. Neste caso, a banda da rede ser compartilhada entre todos os ns da rede. Na Figura 2.4, pode-se ver uma representao dessa topologia.

Figura 2.4

Representao grfica de uma rede linear ou de barramento

27

2.3.2.3. Estrela Na topologia estrela, todos os ns so conectadas a um equipamento concentrador, podendo ser um hub ou um comutador. Esta topologia a mais usada atualmente, porque, ao contrrio da topologia linear, onde a rede inteira deixa de funcionar quando algum trecho da rede se rompe, na topologia estrela, apenas a estao conectada naquele trecho deixa de utilizar a rede. A Figura 2.5 ilustra este tipo de topologia.

Figura 2.5

Representao grfica de uma rede em estrela

O hub um perifrico que repete para todas as suas portas as informaes (pacotes) que chegam em uma porta. Da mesma forma como acontece na topologia linear, a banda da rede compartilhada entre todos os ns da rede. J o comutador um equipamento que tem a capacidade de analisar o endereamento de um pacote de dados, enviando-o diretamente porta de destino, sem replic-lo desnecessariamente para todas as portas. Isso permite que a banda da rede possa ser usada na sua totalidade entre duas portas diferentes. Alm disso, duas ou mais transmisses podem ser efetuadas simultaneamente, desde que tenham portas de origem e destino diferentes.

2.3.2.4. Anel Na topologia em anel, os ns formam um lao fechado. Neste lao, a informao de um n para outro circula pelos ns intermedirios do anel. A informao sai do n origem circula at chegar no n destino. Na Figura 2.6, pode-se ver a representao desse tipo de topologia. 28

Figura 2.6

Representao grfica de uma rede em anel

2.3.3. Protocolos de rede Os protocolos de rede formam um conjunto de regras que definem os procedimentos, as convenes e os mtodos utilizados para transmisso dos dados entre dois ou mais dispositivos em rede. A troca de dados entre dois dispositivos (origem e destino) comea na origem, onde o fluxo de dados para o destino dividido em pequenos blocos, chamados pacotes , que devem ser transmitidos pela rede at chegar no destino. No destino, esses pacotes so remontados e passam como um fluxo de dados para o sistema operacional do dispositivo no destino entregar para a aplicao apropriada. Tudo isso especificado e controlado por vrios protocolos. Dos vrios protocolos existentes que so usados nos sistemas computacionais atuais, destacamos: TCP/IP (Transfer Control Protocol/Internet Protocol) protocolo padro usado na maioria das redes locais, o protocolo padro da Internet. IPX/SPX (Internetwork Packet Exchange/Sequenced Packet Exchange) protocolo padro das primeiras redes Netware/Novell, foi muito usado na dcada de 1990 quando do surgimento das primeiras redes locais de computadores pessoais. NetBIOS (Network Basic Input/Output System) protocolo padro das redes locais baseadas no Microsoft Windows. 29

SNA (System Network Architecture) protocolo desenvolvido pela IBM em 1974. muito usado nas redes de para comunicao com os mainframes. AppleTalk protocolo padro das redes locais de computadores pessoais da empresa Apple. A seguir, detalha-se- o conjunto de protocolos TCP/IP por sua grande difuso e por ser a

pilha de protocolos adotados na Internet.

2.3.3.1. TCP/IP TCP/IP o nome geral de um conjunto de protocolos de comunicao, comumente chamado de conjunto ou suite de protocolos TCP/IP . O nome refere-se principalmente a dois protocolos TCP (Transmission Control Protocol) e IP (Internet Protocol). O TCP/IP tem sua origem em 1969 atravs de um projeto de pesquisa que havia se iniciado no incio da dcada de 60 para a agncia ARPA (Advanced Research Projects Agency) para o Departamento de Defesa dos Estado Unidos [20]. Como resultado, surgiu a rede ARPANET, uma rede experimental, que foi convertida em uma rede operacional em 1975, aps ter demostrado seu sucesso. Em 1983, o novo conjunto de protocolos TCP/IP foi adotado como um padro, e todos os computadores da rede ARPANET passaram a utiliz-lo. Quando a ARPANET finalmente cresceu e se tornou a Internet, em 1990, o uso do TCP/IP espalhou-se principalmente aps o lanamneto da verso UNIX de Berkeley que, alm de incluir esses protocolos, colocava-os em domnio pblico para serem usados por qualquer organizao. Os protocolos do conjunto TCP/IP so muito conhecidos atualmente, pois fornecem transporte de dados para todos os servios disponveis na Internet. Alguns desses servios incluem: Navegao e acesso a WWW (World Wide Web) 30

Troca de correio eletrnico; Transferncia de arquivoS; Entrega de notcis a grupo de usurios; Comunicao instantnea; Jogos interativos Comrcio eletrnico. O TCP/IP opera atravs do uso de uma pilha de protocolos. Essa pilha a soma total de

todos os protocolos necessrios para comunicao entre dispositivos na rede. Na Tabela 2.6, pode-se ver esta pilha dividida em quatro camadas.Tabela 2.6 Camadas do protocolo TCP/IP Camada Aplicativo Transporte Rede Enlace Descrio Quando o usurio inicia uma transferncia de dados, esta camada passa as solicitaes para a camada de transporte. Como por exemplo, Telnet, FTP, e-mail, etc. TCP e UDP Aqui so adicionados os endereos de IP de origem e destino para propsitos de roteamento.Protocolos IP, ICMP, IGMP. Efetua as verificaes de erros sobre o fluxo de dados entre os protocolos acima e a camada fsica.

Todo esse processo emprega um sistema complexo de verificao de erros, tanto na dispositivo de origem como no destino. Cada camada da pilha pode se comunicar com a camada adjacente enviando e recebendo dados. A seguir detalha-se um pouco mais or trs protocolos bsicos do TCP/IP, que so TCP, UDP e IP.

2.3.3.1.1. TCP O TCP (Transmission Control Protocol) um dos principais protocolos empregados na Internet. Ele facilita tarefas de misso crtica, como transferncias de arquivo e sesses remotas atravs de um mtodo chamado de transferncia de dados assegurando que eles cheguem na 31

mesma seqncia e estado em que foram enviados. O TCP um protocolo orientado conexo, a conexo estabelecida entre o dispositivo solicitante e seu destinatrio feita atravs de um processo dividido em fases, freqentemente referido como handshake de trs partes. O TCP fornece capacidades de verificao de erro atravs de um valor numrico gerado para cada bloco de dados transmitido. Se uma transferncia no for bem-sucedida, e um erro for recebido, os dados so retransmitidos, a no ser que o erro seja fatal, quando a transmisso normalmente interrompida. Da mesma forma, se nenhuma confirmao for recebida durante um perodo de tempo especificado, as informaes tambm devero ser retransmitidas. O TCP prov um mecanismo que permite ao transmissor distinguir entre mltiplos receptores num mesmo equipamento destinatrio.

2.3.3.1.2. UDP O UDP (User Datagram Protocol) um protocolo da camada de transporte. Ele um protocolo muito mais simples que o TCP, pois oferece um servio sem conexo e no confivel, pois no garantia de entrega de mensagem ao destinatrio, nem que os dados chegaro em perfeito estado. Da mesma forma que o protocolo TCP, prov um mecanismo que permite ao transmisso distinguir entre mltiplos receptores num mesmo equipamento destinatrio.

2.3.3.1.3. IP O protocolo IP (Internet Protocol) o protocolo bsico usado pelo TCP/IP. Atravs dele todos os dados dos protocolos TCP, UDP, ICMP e IGMP so transmitidos como datagramas IP. O IP no oferece garantia de entrega de dados ao destinatrio. Ele oferece um servio que no orientado conexo. Ele pertence camada de rede, fornece uma forma de transporte de datagramas da origem ao destino, independentemente das mquinas estarem na mesma rede ou no.

32

Como mostra a Figura 2.7, um datagrama IP composto de um cabealho e uma rea de dados. O cabealho contm uma rea de dados variados e os endereos IP de origem e de destino. Esses elementos juntos formam um cabealho completo. A parte restante do datagrama contm os dados que esto sendo enviados.

Figura 2.7

Datagrama IP

As outras informaes contidas em um datagrama IP incluem: a identificao do protocolo utilizado, uma soma de verificao de cabealho (checksum), uma especificao de tempo de vida, tamanho total do datagrama e o nvel de segurana da informao.

2.4. Tecnologias de rede As tecnologias de redes de computadores aqui abordados sero aquelas relacionadas aos ambientes de armazenamento de dados. As principais tecnologias de transporte usadas nas redes de armazenamento de dados atualmente so Ethernet e Fibre Channel. A seguir essas duas tecnologias so descritas.

2.4.1. Ethernet O padro Ethernet [25], como conhecemos hoje, comeou em julho de 1972, quando Bob Metcalfe foi trabalhar no Laboratrio de Cincia da Computao no Centro de Pesquisa da Xerox em Palo Alto, EUA. L ele entra em contato com o trabalho do professor Norman Abramson e seus colegas da Universidade do Havai sobre uma rede de computadores denominada ALOHA [22]. Baseado nessa rede, no final de 1972, Metcalfe e seu colega David Boggs desenvolveram uma rede prpria para conectar vrios computadores da Xerox. Em 22 de Maio de 1973 a rede de 33

Metcalfe funcionou. Neste dia, ele escreve um memorando anunciando a rede e batiz-a com o nome da rede Ethernet, em referncia palavra ether , meio pelo qual se imaginava, no passado, que as ondas eletromagnticas se propagavam. Em Junho de 1979, as empresas DEC, Intel e Xerox (DIX) fazem reunies trilaterias a respeito da rede Ethernet. No ano seguinte, publicam a primeira especificao de Ethernet no livro Ethernet Blue Book ou DIX Ethernet Verso 1.0 . Dois anos depois, melhoram o padro e publicaram a especificao Ethernet Verso 2.0 . Em Junho de 1981, o projeto 802 do IEEE20 decidiu formar um subcomit 802.3 para produzir um padro de rede, baseado no trabalho da DIX, que pudesse ser aceito internacionalmente. Isso ocorre em 1983 com a primeira especificao de Ethernet como padro IEEE 10BASE5. Esse nome foi escolhido, pois o padro especificava uma velocidade de transmisso de 10 Mbps usando sinalizao banda base e permitia distncia entre ns de 500 metros. Os padres IEEE para Ethernet so 10BASE5, 10BASE2 e 10BASE-F. Desde o primeiro padro IEEE, Ethernet tem evoluido continuamente. Vrias novas especificaes j foram publicadas e esto em uso. A seguir apresentamos as mais relevantes para os ambientes de redes de armazenamento de dados.

2.4.1.1. Fast Ethernet O padro Fast Ethernet manteve o padro Ethernet no que se refere ao endereamento, formato do pacote, tamanho e mecanismo de deteco de erro. As mudanas mais significativas em relao ao padro Ethernet so o aumento de velocidade que foi para 100Mbps e o modo de transmisso que pode ser half-duplex ou full-duplex. Os padres IEEE para Fast Ethernet so 100BASE-TX, 100BASE-T4 e 100BASE-FX.

20

Institute of Electrical and Electronics Engineers

34

2.4.1.2. Gigabit Ethernet O padro Gigabit Ethernet foi ratificado IEEE em 1998. Ele foi desenvolvido para suportar o quadro padro Ethernet, o que significa manter a compatibilidade com a base instalada de dispositivos Ethernet e Fast Ethernet, sem modificaes. Possui taxa de transmisso de 1000 Mbps e, na sua essncia, segue o padro Ethernet com deteco de coliso e regras de repetidores. Aceita os modos de transmisso half-duplex e full-duplex. Os padres IEEE para Gigabit Ethernet so 1000BASE-LX, 1000BASE-SX, 1000BASE-CX e 1000BASE-T.

2.4.1.3. 10-Gigabit Ethernet O padro 10-Gigabit Ethernet foi ratificado pelo IEEE em 2002. A idia do novo padro foi complementar os padres Ethernet anteriores de 10, 100 e 1.000 Mbps, oferecendo uma soluo capaz de construir redes de velocidade 10.000 Mbps, interligar redes distantes com uma velocidade comparvel a dos backbones DWDM21. O padro 10-Gigabit Ethernet segue o padro Gigabit Ethernet, porm seu modo de transmisso nica e exclusivamente full-duplex. Originalmente o meio fsico foi fibra ptica, podendo atingir at 40 Km em fibra monomodo e 300 metros em fibra ptica multimodo. Em 2004, foi estabelecido o padro chamado 10GBASE-CX4, que possibilita a operao a velocidade de at 10000 Mbps em fio de cobre com distncias at 15 metros entre dispositivos. Os padres IEEE para 10-Gigabit Ethernet so 10GBASE-SR, 10GBASE-LX4, 10GBASE-LR, 10GBASE-ER, 10GBASE-SW, 10GBASE-LW w 10GBASE-EW.Tabela 2.7 Comparativo de taxa de transmisso e distncias das topologias Ethernet. Ethernet Taxa de transmisso Fibra multmodo 10 Mbps 2 Km Fast Ethernet 100 Mbps 412 m (half-duplex) 2 Km (full-duplex) Gigabit Ethernet 1.000 Mbps 500 m 10-Gigabit Ethernet 10.000 Mbps 300 m

21

Dense Wavelength Division Multiplexing tecnologia ptica usada para aumentar a banda sobre backbones existentes de fibra ptica.

35

Fibra monomodo STP/Coaxial UTP Categoria 5

25 Km 500 m 100 m

2 Km 100 m 100 m

3 Km 25 m 100 m

40 Km na 5m

2.4.2 Fibre Channel Fibre Channel (FC) o nome geral de um conjunto de padres de comunicao [23] desenvolvido pelo ANSI e corresponde uma tecnologia de comunicao de propsito geral, desenvolvida para atender s exigncias relacionadas demanda crescente por transferncia de dados em alta velocidade, mas que vem sendo usada quase que exclusivamente em ambientes de armazenamento de dados. Na realidade Fibre Channel a tecnologia de redes usada na implementao da redes de armazenamento de dados chamadas SAN. No se deve confundir FC com com o protocolo FCP, que o protocolo da camada de aplicao do FC, o qual transporta comandos SCSI-3 para a transmisso, recepo e controle de blocos de dados entre sistemas computacionais e dispositivos de armazenamento de dados. O uso da palavra Fibre e no Fiber no nome dessa arquitetura aconteceu porque, originalmente, essa arquitetura presumia o uso de fibra ptica (fiber) como meio fsico de transporte dos dados, porm, no seu desenvolvimento, com a possibilidade de se usar fios metlicos para esse fim, o grupo de trabalho responsvel pelo desenvolvimento resolveu utilizar uma nomenclatura que mostrasse que a arquitetura no indicava necessariamente cabos de fibra ptica, da, usar a mesma palavra na forma europia, ou seja, fibre. Fibre Channel refere-se ao meio fsico ou cabeamento, mtodos de conexo, topologias de rede, uma metodologia de acesso ao barramento, protocolos de controle de fluxo, reconhecimento e enquadramento, mecanismos de sinalizao de baixo nvel e esquema de codificao de bits. Ele define um transporte serial de dados full-duplex em velocidades de 1, 2 ou 4 Gbps.

36

Embora essa arquitetura seja chamada de Fibre Channel, ela no representa um canal (channel), to pouco uma topologia real de rede. Ela permite um esquema inteligente de interconexo, baseado em um comutador Fibre Channel, chamado Fabric, para conectar dispositivos. Tudo que uma porta Fibre Channel faz gerenciar uma conexo simples ponto a ponto entre ela mesma e outra porta Fibre Channel ou a porta de um comutador Fibre Channel. Em geral, Fibre Channel tenta combinar o melhor desses dois mtodos de comunicao em uma nova interface de entrada/sada que atenda s necessidades dos usurios, tanto de canal quanto de redes [3]. O desenvolvimento do Fibre Channel comeou em 1988, quando o grupo de trabalho X3 do ANSI comeou a trabalhar nos padres dessa tecnologia. Na poca, foram gerados cerca de 20 documentos, cada um definindo um aspecto do Fibre Channel. Foi somente em 1994 que o padro foi aprovado pela ANSI . Fibre Channel, usando a topologia lao arbitrado (que veremos mais frente), est sendo usado para substituir as conexes tradicionais SCSI. Muitas empresas j implementam adaptadores SCSI para as vrias plataformas e sistemas operacionais, e assim como unidades de discos, unidades de fita e dispositivos de armazenamento com interfaces Fibre Channel. um padro aberto que suporta mltiplos protocolos, incluindo alguns de alto nvel como o SCSI, FDDI, HIPPI e IPI. O Fibre Channel capaz de gerenciar a transferncia de dados para esses protocolos. Embora possa operar com velocidade desde 133 Mbps a 4 Gbps, hoje mais utilizado com velocidades de 2 Gbps e caminhando rapidamente para 4 Gbps.

2.4.2.1 Topologias Fibre Channel A topologia de rede do padro Fibre Channel evoluiu da tradicional conexo ponto a ponto SCSI dos sistemas computacionais para um modelo em lao arbitrado (arbitrated loop) com banda compartilhada e, depois, para um modelo baseado em comutador que permite mltiplas conexes ponto a ponto. Todas as trs topologias de rede so transparentes aos equipamentos conectados. Assim, no padro Fiber Channel as trs topologias possveis so: 37

Ponto a ponto (Point to Point), Lao Arbitrado (Arbitraded Loop) e Comutador Fibre Channel (Switch Fabric ou Cross Point).

2.4.2.1.1. Topologia ponto a ponto A topologia ponto a ponto a mais simples em Fibre Channel. A Figura 2.8 mostra dois (e somente dois) dispositivos Fibre Channel conectados entre si diretamente. Um cabo conecta a porta de transmisso de um dispositivo porta de recepo do outro dispositivo e vise-versa. necessrio que haja uma seqncia de inicializao das portas para que possa ocorrer qualquer transferncia de dados entre elas. Esse tipo de topologia oferece toda a banda da porta Fibre Channel para os dispositivos conectados, embora seja improvvel que essa banda toda seja usada por um perodo longo de tempo.

Figura 2.8

Topologia ponto a ponto

2.4.2.1.2. Topologia lao arbitrado A topologia FC-AL (Fibre Channel Arbitrated Loop) amplamente utilizada e, tambm, a mais complexa. Tornou-se muito utilizada porque um modo muito econmico de se conectar at 127 portas Fibre Channel em uma nica rede sem a necessidade de se usar um comutador. Ao contrrio das outras topologias, o meio de comunicao compratilhado entre os dispositivos conectados, limitando o acesso de cada dispositivo. O uso do meio compartilhado por todos os participantes significa que qualquer dispositivo desejando transferir dados deve antes ganhar controle do meio. Este passo possvel com uma seqncia de arbitrao. Durante a seqncia de arbitrao, a prioridade de cada dispositivo 38

requisitando acesso ao meio considerada, sendo que o mais baixo endereo tem a mais alta prioridade. Quando a seqncia de arbitrao termina os dois dispositivos que desejam se comunicar, um em cada extremidade da transio, estabelecem uma conexo e controlam o meio. Quando a transio completada, ambos liberam o controle do meio.

Figura 2.9

Topologia de lao arbitrado

Os dispositivos Fibre Channel esto ligados um ao outro numa configurao em anel usando um lao arbitrado, como mostra a Figura 2.9. Neste caso a porta de transmisso de um dispositivo conecta-se porta de recepo do prximo dispositivo e assim por diante. O ltimo dispositivo ento se conecta ao primeiro dispositivo do mesmo modo. Note que a figura mostra as conexes lgicas somente, fisicamente no h cabo do ltimo dispositivo ao primeiro.

Figura 2.10

Topologia da conexo lao arbitrado da SAN usando hub

39

O cabeamento simples da topologia lao arbitrado na Figura 2.9 de baixo custo embora a falha em um cabo, conexo ou componente de hardware em um nico ponto pode fazer o lao inteiro falhar. Para minimizar esse tipo de falha, que, frequentemente, se usa um hub Fibre Channel para configurao de lao arbitrado, como mostra a Figura 2.10.

2.4.2.1.3. Topologia comutador Fibre Channel ou Fabric Um comutador Fibre Channel, chamado Fabric, conecta dispositivos Fibre Channel a um ou mais comutadores Fibre Channel. Nesta topologia, pode-se ter, teoricamente, at 224 portas para conexo. Cada dispositivo faz uso de uma porta de conexo ponto a ponto e tem toda a banda disponvel para ele, assim toda a banda agregada aumenta na medida que novos dispositivos so adicionados. A Figura 2.11 apresenta um exemplo da topologia fabric de uma SAN.

Figura 2.11

Topologia com conexo fabric de uma SAN

Do mesmo modo que na topologia ponto a ponto, os dispositivos capazes de se conectar a um comutador fabric devem estabelecer uma sesso usando uma seqncia de inicializao antes de transferir dados. Contudo, a seqncia de inicializao e os quadros de dados usados so diferentes nos dois casos. Os comutadores fabric podem e freqentemente fazem conexes lao arbitrado para outros laos e/ou dispositivos comutadores fabric.

40

Os termos switch director , diretor-class switch e storage director , comuns nos ambientes de grande porte para armazenamento de dados, referem-se a um comutador fabric com um grande nmero de portas. Enquanto um comutador padro possui 8, 16 ou 32 portas, um comutador director-class possui 64, 128 e at 256 portas Fibre Channel.

2.5. Protocolos de redes de armazenamento O objetivo dessa seo apresentar os principais protocolos que, atualmente, esto sendo usados nas redes de armazenamento de dados. So protocolos de movimentao de blocos de dados ou arquivos pela rede.

2.5.1. NFS O protocolo NFS (Network File System) protocolo padro para o compartilhamento e gerenciamento de arquivos atravs de redes baseadas em TCP/IP. Ele padro para nos sistemas operacionais baseados em UNIX, e com implementaes em outros sistemas operacionais. Ele implementa um sistema de arquivos remoto, implementado na forma cliente/servidor, onde o servidor oferece uma rea de armazenamento local que pode ser utilizada por um cliente como se fosse uma rea local a ele. Foi projetado e inicialmente implementado pela Sun Microsystems [24]. O protocolo NFS tem um conjunto de procedimentos que permitem que um cliente tenha acesso transparente a arquivos armazenados num servidor remoto. Ele independente da arquitetura do servidor, do sistema operacional, da rede, e do protocolo de transporte. Foi concebido pela Sun Microsystems, em 1984, e colocado no domnio pblico. Foi em 1989 que sua primeira especificao se tornou a RFC 1094. Em 1995, foi publicada a verso 3.0 do NFS atravs da RFC 1813. J, em 2003, foi publicada a verso 4.0 do NFS atravs da RFC 3530, sendo atualmente a verso mais recente deste protocolo.

41

Algumas caractersticas gerais do protocolo NFS so: O protocolo foi projetado para ser stateless, ou seja, no necessrio manter ou guardar o estado da conexo entre cliente e servidor, tornando-o muito robusto para ambientes distribudos; O protocolo foi projetado para suportar a semntica de sistema de arquivos dos ambientes Unix, porm ficando limitado a esse sistema operacional; Os controles de acesso e proteo seguem a semntica de segurana do Unix usando a identificao do usurio (us