Mostrando postagens com marcador Disaster. Mostrar todas as postagens
Mostrando postagens com marcador Disaster. Mostrar todas as postagens

12 de abril de 2007

Business Continuity Plan, not Bullshit Compliance Plan

Algumas pessoas me perguntaram porque questionar tanto o profissionalismo e conteúdo disponibilizado em "terra brasilis" sobre BCP. Simples, para espetar e incentivar as pessoas a sairem da simples "rodinha de hamster" do BCI (Business Continuity Institute). A explicação para tantos profissionais utilizarem é uma só: o The BCI Guide descreve de forma simples os passos para a implementação de um processo de continuidade de negócios. Excelente documentação que recomendo a todos como ponto de partida.



Conhecer o The BCI Guide me torna um especialista em BCP? Não. Um especialista se faz do senso crítico e muito estudo e dedicação a vários temas que envolvem determinada ciência. Assim como The BCI Guide, qualquer outra fonte de informação como: 10 práticas profissionais; NIST 800-34; CISSP-CBK; e outras, deve servir como base para seu entendimento e implementação, não como características mandatórias e verdades absolutas.

O problema é tão sério que esses dias me deparei com uma notícia em português e na hora me perguntei: eu já li essa notícia! E realmente eu tiha razão (as vezes eu ainda tenho memória), a notícia havia saído no continuitycentral e os "autores" brasileiros haviam publicado a notícia sem a decência de divulgar a fonte. Sem contar os livros nacionais sobre o tema, não passam de um plano de projeto com MDM (Mesmo do Mesmo).

Me perdoe a sinceridade, mas, existem profissionais e profissionais, eu poderia citar vários nomes de profissionais competentes e que realmente buscam entender o tema, agora poderia também afirmar que 90% dos profissionais envolvidos com BCP não acrescentam nada ao tema e vivem de carteirada: "Já fiz mais de 20 projetos"; "Já escrevi um livro"; "Sou certificado"; "Trabalho com BCP a 20 anos".

Por isso eu, um jovem senhor de 27 anos, continuo estudando muito sobre o tema e questionando, críticando a postura de profissionais que não estudam, não compartilham conhecimento e trabalham para que o mercado seja refém de sua "expertise". Que por sinal foi adquirida a vários anos e está um pouco "enferrujada".

Um bom profissional se destaca pela sua competência, não por sua capacidade de esconder seus truques! Compartilhe conhecimento sempre, você tem muito a ganhar trocando experiências e informações. Com a maturidade você chegará a uma simples conclusão: quanto mais eu pesquiso e estudo, mais eu sei que nada sei.

BS 25999

Tem uma nova falácia no mercado que eu decidi que deveria escrever um post e não um dos tópicos do BCP FAQ. Simplesmente porque ela é um absurdo e mostra o despreparo de alguns profissionais sobre o tema.

Meu amigo e companheiro de trabalho há vários anos, Jeferson D'Addario, comentou que algumas pessoas o endagaram sobre a possibilidade do DRII (Disaster Recovery Institute International) perder sua "força".

Bom, aqui a coisa fica realmente feia, pois, estão comparando bananas com laranjas. O DRII não só vai permanecer da mesma forma, como vai ser muito melhor aproveitado. O DRII não possui nem mesmo uma metodologia, quem dirá uma norma. Ele possui uma base de conhecimento chamada de dez práticas profissionais, muito semelhante a iniciativa do PMI (Project Management Institute).

Uma norma como a BS 25999-1:2006 e muito em breve ISO 27006, só fortalece os propósitos do DRII, um instituto sem fins lucrativos que busca fomentar e capacitar profissionais do mundo todo sobre continuidade de negócios e gerenciamento de crises.

22 de janeiro de 2007

Crisis Communication

Os últimos incidentes em nosso país, como a queda do avião do 747-800 da gol; acidente na linha amarela do metro paulista; crise no sistema aéreo brasileiro e o mais recente acidente em fábrica de cimento mineira, onde o desabamento de um andaime deixou três mortos e até o momento a controladora da empresa não se pronunciou, nos levam a pensar em um problema sério em nossa cultura de gerenciamento de crises.

Não estamos preparados para a comunicação clara destes incidentes, e como sabemos, um plano de comunicação adequado é essencial para um gerenciamento de crise adequado. Os problemas de comunicação poderiam ser evitados se investíssemos em um plano de comunicação em situações de crise.

Segundo o glossário da Defesa Civil: crise é uma manifestação violenta e repentina de ruptura de equilíbrio. Momento perigoso e decisivo. Situação que implica a ruptura da normalidade ou do equilíbrio dinâmico de um sistema e favorece sua desorganização.

Um plano de comunicação de crises eficiente deve possuir no mínimo os seguintes itens:

  • Uma matriz de acionamento (call tree) com os principais contatos e ordem de acionamento;
  • Uma equipe treinada e capacitada para uma comunicação adequada da crise;
  • Definir os canais de comunicação para atingir cada público, considerando a comunicação interna e a externa;
  • Estabelecer um canal exclusivo com o gestor da crise;
  • Um número ou central de atendimento exclusivo para suporte a vítimas e envolvidos;
  • Um vocábulo comum entre a equipe de comunicação e de fácil entendimento ao público envolvido;
  • Um relacionamento adequado com autoridades externas como: bombeiros; hospitais; polícia; defesa civil e outros relacionados;

Além dos tópicos mencionados são imprescindíveis a clareza e transparência na comunicação, de nada adianta comunicar bem, se a mensagem não é verdadeira.

Como é possível ver pela internet, nossos incidentes estão servindo como base para estudos e estatísticas no mundo todo e nós, será que estamos aprendendo?

Crisis Communication Plan 1
Crisis Communication Plan 2
Glossário da Defesa Civil

10 de janeiro de 2007

Disaster Recovery and Virtualization

Um dos assuntos que tem se falado muto sobre recuperação de desastres é a utilização de recursos de virtualização na estratégia de recuperação de desastres. Apesar de não ser um grande especialista em consolidação/virtualização de servidores, acredito que realmente seja uma solução bem interessante.

Uma solução de virtualização basicamente consiste em “emular” várias maquinas dentro de apenas um ambiente. Ou seja, com apenas uma infra-estrutura de hardware você pode rodar vários ambientes.



A confiabilidade e desempenho desses ambientes emulados estarão diretamente associados a sua infra-estrutura de hardware que suporta ambientes de virtualização como Vmware, Microsoft Virtual Server, Xen e outros. Ai que entra a aposta de alguns profissionais em ambientes virtualizados para solução de recuperação de desastres.



Começamos pelo simples:

Eu posso criar imagens de backup do meu ambiente e manter na mesma maquina, como estou trabalhando com apenas uma maquina é muito mais barato e simples montar um ambiente de alta-disponibilidade, implementando discos hot-swap, fontes e outros componentes redundantes. Caso aconteça problemas de software, eu rapidamente disponibilizo uma nova “imagem”.

Missão crítica:

A solução anterior estaria baseada em apenas uma maquina, caso o site sofresse um incidente que inviabilizasse a utilização do ambiente, tudo estaria comprometido.

Uma solução de missão crítica precisaria de algo mais complexo, como um server que controlasse dois ambientes virtualizados, um ambiente no site principal e outro em um site alternativo. Com uma solução dessa um ambiente estaria operando em um site alternativo rapidamente e sem muita dor de cabeça em um incidente que afetasse todo o site principal.

Essa solução também exige cuidados, principalmente com a maquina que controla os ambientes, mas, com certeza é muito mais simples e barato que uma solução de sincronização de dados, ou redundância de catálogos de backup. Para recuperar a maquina que controla os ambientes virtualizado, bastaria conectividade com os ambientes e qualquer hardware que suportasse a instalação do ambiente de controle, porque uma das características da virtualização é não depender da característica do hardware.

Algumas considerações:

Deve-se ter cuidado com a consolidação dos serviços, instalar vários ambiente em uma maquina pode indisponibilizar o serviço para vários clientes, isso pode ser catastrófico se o RTO (Recovery Time Objective – Tempo que o processo pode ficar indisponível sem afetar o negócio) do processo que esse ativo suporta for menor que o tempo necessário para recuperação desse ambiente.

Mesmo diminuindo muito o tempo de restauração com algumas soluções de virtualização, uma coisa é ficar indisponível um processo com um RTO de 6 horas, outra coisa é ficar indisponível um processo com RTO de 6, mais alguns com RTO de poucos minutos.

Outra coisa a se preocupar é a transferência de I/O, alguns especialistas afirmam que um ambiente virtualizado não se dá muito bem com sistemas que realizam muitos I/O, como banco de dados.

Além das características técnicas, eu ainda vejo outras características interessantes para recuperação de desastres:

Dependência muito menor de capacidade técnica dos analistas, sendo que, é relativamente mais simples restaurar uma maquina virtual, do que restaurar uma maquina inteira;

Necessidade muito menor de procedimentos de recuperação de desastres, poderíamos documentar o procedimento de restauração do ambiente virtualizado, ficando o procedimento de restauração total em segundo plano, não excluindo a necessidade de elaborar;

Testes funcionais, onde o ambiente é “desligado” no ambiente principal e “ligado” no ambiente alternativo são executados em menor tempo e com custo menor.

Consolidação de hardware

Uma tendência na consolidação de hardware são as Blades, maquinas onde você vai acrescentando lâminas que são servidores dentro de um chassi e consomem menos recursos e espaço. Segundo o IDC as maquinas Blades chegaram a 25% de participação no mercado até 2010.



Links Relacionados

Virtualização por wikipedia
Portal sobre virtualização
Vmware
Virtual Server
Xen