ETL é uma sigla usada para definir processamento de informações. Se sua empresa possui processos de processamento de dados para gerar tabelas e arquivos, então vocês utilizam ETLs em seu dia a dia.
Exemplos de uso: Consolidação de Indicadores, Envio de alarmes, Atualização de Cadastros, Geração de Documentos.
Se você ainda automatiza suas tarefas com "Macros" ou "Procedures", há uma grande chance de estar com sua produtividade comprometida.
Os motivos são: Impossibilidade de automação fim-a-fim, Baixa performance, Limitações técnicas. Se você precisa esperar 3 dias por uma "consolidação", algo está errado.
Vantagens de utilizar o Pentaho Data Integration
Open Source, Free, Multiplataforma. Permite trabalhar de forma transparente entre diferentes sistemas operacionais e bancos de dados.
Interface visual. O processo é montado arrastando-se ícones para a área de trabalho.
Permite agendamento para execução em horários pré-programados. Realiza o envio de e-mails em caso de sucesso ou erro de processamento.
Funciona em máquinas sem privilégios administrativos. Para instalar, basta copiar uma pasta.
Portabiliza as regras de negócio e agiliza o fase-out de atividades entre os colaboradores.
Poupa recursos do servidor, uma vez que todo o desenvolvimento passa a ser desenvolvido na workstation.
Acelera o processamento através da paralelização de processos (threads) sem que o desenvolvedor necessite ter conhecimentos avançados em programação.
Rápida curva de aprendizado para iniciantes e recursos avançados para desenvolvedores experientes.
Possibilita Automação fim-a-fim. Eliminação de etapas manuais durante o processamento das informações.
Interfaces nativas para dezenas de formatos. Permite expansão via plugins ou via importação de bibliotecas (.jar).
Para os cientistas de dados: Permite integração com todo o ecosistema de Análise Preditiva, Análise Exploratória e Machine Learning do Python.