Este é o segundo episódio de nossa exploração do aprendizado de máquina “sem código”. Em nosso primeiro artigoapresentamos nosso conjunto de problemas e discutimos os dados que usaremos para testar se uma ferramenta de ML altamente automatizada projetada para analistas de negócios pode fornecer resultados econômicos próximos da qualidade de Métodos mais intensivos em código Envolve um pouco de ciência de dados orientada por humanos.
Se você não leu este artigo, pelo menos volte roçar. Se estiver tudo pronto, vamos revisar o que vamos fazer com nossos dados de ataque cardíaco em condições de aprendizado de máquina “normais” (ou seja, as mais intensivas em código) e depois jogar tudo fora e apertar o botão “fácil”.
Conforme discutido anteriormente, trabalhamos com um conjunto de dados de saúde do coração extraídos de um estudo da Cleveland Clinic e do Instituto Húngaro de Cardiologia em Budapeste (além de outros lugares cujos dados descartamos por motivos de qualidade). Todos esses dados estão disponíveis em armazém Nós o criamos no GitHub, mas sua forma original faz parte do armazém de dados Foi mantido para projetos de aprendizado de máquina pela Universidade da Califórnia-Irvine. Usamos duas versões do conjunto de dados: uma versão menor e mais completa que consiste em 303 registros de pacientes da Cleveland Clinic e um banco de dados maior (597 pacientes) que inclui dados de HGI, mas faltam dois tipos de dados do conjunto menor.
Parece que os dois campos ausentes dos dados húngaros podem ser importantes, mas os próprios dados da Cleveland Clinic podem ser muito pequenos para alguns aplicativos de ML, então tentaremos cobrir nossas bases.
o plano
Com vários conjuntos de dados disponíveis para treinamento e teste, é hora de começar a trabalhar. Se estivéssemos fazendo da maneira que os cientistas de dados costumam fazer (e da maneira que tentamos no ano passado), faríamos:
- Divida os dados em um conjunto de treinamento e um conjunto de teste
- Use dados de treinamento com um tipo de algoritmo existente para criar o modelo
- Verifique o modelo com o conjunto de teste para verificar sua precisão
Podemos fazer tudo isso codificando-o no notebook Jupyter e modificando o modelo até atingir uma precisão aceitável (como fizemos no ano passado, em um ciclo perpétuo). Mas, em vez disso, primeiro tentaremos dois métodos diferentes:
- Uma abordagem “sem código” com o Sagemaker Canvas da AWS: o Canvas pega os dados como um todo, divide-os automaticamente em treinamento e teste e cria um algoritmo preditivo
- Outra abordagem “sem/pouco código” usando o Sagemaker Studio Jumpstart e AutoML: AutoML é muito do que está por trás do Canvas; Ele avalia os dados e tenta vários tipos diferentes de algoritmos para determinar o melhor
Feito isso, usaremos um dos muitos métodos de aprendizado de máquina testados em batalha que os cientistas de dados já experimentaram com esse conjunto de dados, alguns dos quais reivindicaram mais de 90% de precisão.
O produto final desses métodos deve ser um algoritmo que podemos usar para executar uma consulta preditiva com base em pontos de dados. Mas o resultado real será uma olhada nas compensações de cada abordagem em termos de tempo para conclusão, precisão e custo do tempo de computação. (Em nosso último teste, o próprio AutoML praticamente explodiu todo o saldo de crédito da conta da AWS.)
“Viciado em TV certificado. Ninja zumbi irritantemente humilde. Defensor do café. Especialista em web. Solucionador de problemas.”
More Stories
Como os especialistas em IA do novo programa Gemini Gems do Google podem impulsionar seu SEO
Vazamentos revelam o nome e design do suposto dispositivo PS5 Pro
Os jogadores reclamam do longo tempo de matchmaking no PS5 conforme os números do Concord caem