Das experiências à implantação: MLflow 101
LarLar > Notícias > Das experiências à implantação: MLflow 101

Das experiências à implantação: MLflow 101

Feb 24, 2024

Idade avançada

Seguir

--

1

Ouvir

Compartilhar

Imagine o seguinte: você tem uma ideia de negócio totalmente nova e os dados de que precisa estão ao seu alcance. Você está animado para mergulhar na criação daquele fantástico modelo de aprendizado de máquina 🤖. Mas, sejamos realistas, essa jornada não é moleza! Você fará experiências como um louco, lidando com pré-processamento de dados, escolhendo algoritmos e ajustando hiperparâmetros até ficar tonto 😵‍💫. À medida que o projeto fica mais complicado, é como tentar pegar fumaça: você perde a noção de todos aqueles experimentos malucos e ideias brilhantes que teve ao longo do caminho. E acredite em mim, lembrar de tudo isso é mais difícil do que pastorear gatos 😹

Mas espere, tem mais! Depois de obter esse modelo, você precisa implementá-lo como um campeão! E com os dados e as necessidades dos clientes em constante mudança, você treinará novamente seu modelo mais vezes do que trocará suas meias! É como uma montanha-russa sem fim e você precisa de uma solução sólida para manter tudo sob controle 🔗. Digite MLOps! É o molho secreto que traz ordem ao caos ⚡

Tudo bem, pessoal, agora que temos o porquêatrás de nós, vamos mergulhar no quee o suculento comoneste blog.

Vamos dar uma olhada no pipeline que construiremos até o final deste blog 👆

Segure firme, porque esta não será uma leitura rápida! Estamos elaborando uma solução MLOps ponta a ponta e, para mantê-la real, tive que dividi-la em três seções.

Seção 1:Estabeleceremos as bases e teorias 📜

Seção 2: Agora é aí que está a ação! Estamos construindo um filtro de spam e rastreando todas aquelas experiências malucas com MLflow 🥼🧪

Seção 3:Vamos nos concentrar no negócio real: implantar e monitorar nosso modelo campeão, deixando-o pronto para produção 🚀

Vamos agitar com MLOps!

MLOps representa uma coleção de metodologias e práticas recomendadas do setor destinadas a ajudar os cientistas de dados a simplificar e automatizar todo o ciclo de vida de treinamento, implantação e gerenciamento de modelos em um ambiente de produção em grande escala.

Está emergindo gradualmente como uma abordagem distinta e autônoma para gerenciar todo o ciclo de vida do aprendizado de máquina. As etapas essenciais do processo MLOps incluem o seguinte:

Como vamos implementá-lo? Embora várias opções estejam disponíveis, como Neptune, Comet e Kubeflow, etc., continuaremos com o MLflow. Então, vamos conhecer o MLflow e mergulhar em seus princípios.

O MLflow é como o canivete suíço do aprendizado de máquina: é super versátil e de código aberto, ajudando você a gerenciar toda a sua jornada de ML como um chefe. Ele funciona bem com todas as bibliotecas de ML importantes (TensorFlow, PyTorch, Scikit-learn, spaCy, Fastai, Statsmodels, etc.). Ainda assim, você também pode usá-lo com qualquer outra biblioteca, algoritmo ou ferramenta de implantação de sua preferência. Além disso, ele foi projetado para ser super personalizável – você pode adicionar facilmente novos fluxos de trabalho, bibliotecas e ferramentas usando plug-ins personalizados.

O MLflow segue uma filosofia de design modular e baseada em API, dividindo sua funcionalidade em quatro partes distintas.

Agora, vamos conferir cada uma dessas partes uma por uma!

Isso encerra nosso entendimento básico das ofertas do MLflow. Para detalhes mais detalhados, consulte sua documentação oficial aqui 👉📄. Agora, armados com esse conhecimento, vamos mergulhar na Seção 2. Começaremos criando um aplicativo de filtro de spam simples e, em seguida, entraremos no modo de experimento completo, rastreando diferentes experimentos com execuções exclusivas!

Tudo bem, pessoal, preparem-se para uma jornada emocionante! Antes de mergulharmos no laboratório e sujarmos as mãos com experimentos, vamos traçar nosso plano de ataque para sabermos o que estamos construindo. Primeiro, vamos usar um classificador de spam usando o classificador de floresta aleatório (eu sei que o Multinomial NB funciona melhor para classificação de documentos, mas ei, queremos brincar com os hiperparâmetros da floresta aleatória). Faremos intencionalmente que não seja tão bom no início, apenas pela emoção. Em seguida, vamos liberar nossa criatividade e acompanhar várias execuções, ajustando hiperparâmetros e experimentando coisas legais como Bag of Words e Tfidf. E adivinha? Usaremos a UI do MLflow como um chefe para toda aquela doce ação de rastreamento e nos prepararemos para a próxima seção. Então aperte o cinto, porque vamos nos divertir muito! 🧪💥