Parceiro de crescimento IPNET

Conteúdo sobre Tecnologia, Inovação, Growth Hacking, Nuvem e Ciência de Dados.

Follow publication

Introdução ao Cloud Data Fusion

O primeiro de uma série de artigos sobre o serviço de integração de dados da Google Cloud

Está procurando por um serviço de integração de dados totalmente gerenciado, nativo na nuvem e com interface gráfica? Talvez o Cloud Data Fusion seja sua resposta.

O que é o Cloud Data Fusion?

Se você caiu nesse artigo de paraquedas e nunca ouviu falar sobre esta ferramenta da Google, não fique desesperado achando que o mundo está mudando muito rápido. Vou deixar aqui uma rápida explicação sobre a ferramenta para te situar no que está acontecendo.

O Cloud Data Fusion, ou apenas Data Fusion, é um serviço de integração de dados corporativos totalmente gerenciado, nativo na nuvem. Ele utiliza uma interface gráfica, reduzindo a complexidade e permitindo que qualquer tipo de usuário crie soluções de integração de dados escalonáveis ​​de maneira fácil e confiável para limpar, preparar, combinar, transferir e transformar estes dados sem ter que lutar com a infraestrutura.

O Data Fusion permite ao usuário criar e gerenciar pipelines de dados rapidamente por meio de mapas e cards que se conectam, montando assim um pipeline de execução.

Objetivo

O objetivo desse material é ensinar você a utilizar o Data Fusion e algumas boas práticas da ferramenta. Devido à grande quantidade de coisas que é possível realizar no Data Fusion, esse conteúdo vai ser dividido em partes, e conforme disponibilizarmos as novas partes, postaremos os links relacionados aqui no artigo.

Onde encontrar o Data Fusion?

Se você nunca tinha visto o Data Fusion, achou legal e quer testar, surge aquela pergunta: Onde eu encontro a ferramenta?

Bem, para quem não sabe, o Cloud Data Fusion é um projeto de código aberto desenvolvido pela CDAP e faz parte do Google Cloud Platform.

Agora, se você nunca utilizou o GCP, eu tenho uma boa dica para você: A Google oferece um valor de 300 dólares para usar com qualquer uma de suas ferramentas. Então, aproveite e crie sua conta, e vamos junto desse tutorial aprender a utilizar o Data Fusion.

https://cloud.google.com/free?hl=pt-br#always-free

Agora, se você já sabe de tudo isso, vamos deixar de enrolação e vamos para o que realmente importa: criar uma instância de Data Fusion.

Criando Uma Instância

A primeira coisa que precisa ser feita para utilizar o Data Fusion é criar uma instância. Basta você ir na barra de busca do Google Cloud Plataform e pesquisar por Data Fusion:

Se for a sua primeira vez utilizando a ferramenta, ele vai pedir que você ative a API. É só clicar em Enable, e feito isso, você vai ser direcionado para a página do Data Fusion.

Dentro da página do Data Fusion, procure por um um botão chamado Criar Instância, ele vai estar na parte superior da página. Dentro da interface de criação de instância, poucos são campos obrigatórios, porém, alguns são bem importantes de se observar.

  • Primeiro, observe a região, pois o Data Fusion tem um custo um pouco alto atrelado. É aconselhável utilizar uma região em que tem um custo baixo. No caso do exemplo, optei por US-East1.
  • Segundo, na versão do pipeline, é sempre bom utilizar a versão mais atual disponível.
  • Terceiro, na versão da licença, caso você esteja somente experimentando a ferramenta, utilize sempre a versão Developer, pois tem um custo menor em comparação às demais licenças.
  • Quarto, em Opções Avançadas: nesta seção, você só vai precisar ativar as duas box referente a logging and monitoring, para que a instância gere log no loggin do GCP.

OBS: A parte de Private IP é utilizada se você precisa fazer uma conexão externa privada com a sua instância. Nesse caso, além de ativar o private IP, é necessário fazer outras configurações que não vão ser explicadas neste tutorial.

Após fazer essas alterações, é só clicar em create, e aguardar entre 20 a 30 minutos para a criação da instância. Em seguida, basta clicar em view Instance, e você vai ser direcionado para página da instância do Data Fusion.

Dentro da Interface

Pronto, agora sim estamos dentro de uma instância do Data Fusion. A primeira coisa que vai aparecer para você é o bom e velho: Deseja fazer um tour pela interface do Data Fusion? Bem, fica à sua escolha optar por fazê-lo ou não. Caso você opte por não fazer o tour, a tela que você vai encontrar é a seguinte:

Deixo aqui uma pequena descrição das ferramentas que julgo serem mais importantes. Ao decorrer desse e dos demais artigos, vou me aprofundar mais nesses itens.

  1. Menu de acesso rápido para navegar na ferramenta;
  2. Opções de acesso rápido a funções bem importantes no Data Fusion:
    Operations: Lista por intervalo de tempo os jobs que foram executados na instância
    HUB: Sessão utilizada para adicionar extensões que vão ser utilizadas nos pipelines
    System Admin: Sessão em que vai se encontrar os logs da ferramenta e realizar algumas configurações
  3. Wrangle: É o local em que você vai explorar e editar suas bases de dados de forma visua;
  4. Integrate: Local aonde você vai passar a maior parte do tempo, pois é aqui aonde vão estar os pipelines que vão ser criados, a opção Studio e para você criar novos pipelines, e o List, onde vão estar listados todos os pipelines que foram criados, seja ele executado ou só salvo.
  5. Manage: É uma outra forma de acessar o mesmo local que o System Admin.

Conclusão

Nessa introdução, descobrimos o que é o Cloud Data Fusion e o que ele faz, vimos como criamos uma instância de Data Fusion e para que serve cada botão na sua interface. Continuaremos este tema num próximo artigo.

Acompanhe a IPNET nas redes sociais para saber mais sobre nossos conteúdos produzidos para desmistificar temas de Tecnologia, Inovação e a Nuvem.

Free

Distraction-free reading. No ads.

Organize your knowledge with lists and highlights.

Tell your story. Find your audience.

Membership

Read member-only stories

Support writers you read most

Earn money for your writing

Listen to audio narrations

Read offline with the Medium app

Parceiro de crescimento IPNET
Parceiro de crescimento IPNET

Published in Parceiro de crescimento IPNET

Conteúdo sobre Tecnologia, Inovação, Growth Hacking, Nuvem e Ciência de Dados.

IPNET Growth Partner
IPNET Growth Partner

Written by IPNET Growth Partner

Parceira da Google na América Latina para proporcionar soluções de produtividade, especialista em Cloud.

No responses yet

Write a response