Novembro 24, 2024

O Ribatejo | jornal regional online

Informações sobre Portugal. Selecione os assuntos que deseja saber mais sobre a Folha d Ouro Verde

Modo AI de previsão de ataque cardíaco solto com ferramentas ‘sem código’

Modo AI de previsão de ataque cardíaco solto com ferramentas ‘sem código’

Ampliação / Ah, o botão fácil!

Oric Lawson | Imagens Getty

Este é o segundo episódio de nossa exploração do aprendizado de máquina “sem código”. Em nosso primeiro artigoapresentamos nosso conjunto de problemas e discutimos os dados que usaremos para testar se uma ferramenta de ML altamente automatizada projetada para analistas de negócios pode fornecer resultados econômicos próximos da qualidade de Métodos mais intensivos em código Envolve um pouco de ciência de dados orientada por humanos.

Se você não leu este artigo, pelo menos volte roçar. Se estiver tudo pronto, vamos revisar o que vamos fazer com nossos dados de ataque cardíaco em condições de aprendizado de máquina “normais” (ou seja, as mais intensivas em código) e depois jogar tudo fora e apertar o botão “fácil”.

Conforme discutido anteriormente, trabalhamos com um conjunto de dados de saúde do coração extraídos de um estudo da Cleveland Clinic e do Instituto Húngaro de Cardiologia em Budapeste (além de outros lugares cujos dados descartamos por motivos de qualidade). Todos esses dados estão disponíveis em armazém Nós o criamos no GitHub, mas sua forma original faz parte do armazém de dados Foi mantido para projetos de aprendizado de máquina pela Universidade da Califórnia-Irvine. Usamos duas versões do conjunto de dados: uma versão menor e mais completa que consiste em 303 registros de pacientes da Cleveland Clinic e um banco de dados maior (597 pacientes) que inclui dados de HGI, mas faltam dois tipos de dados do conjunto menor.

Parece que os dois campos ausentes dos dados húngaros podem ser importantes, mas os próprios dados da Cleveland Clinic podem ser muito pequenos para alguns aplicativos de ML, então tentaremos cobrir nossas bases.

o plano

Com vários conjuntos de dados disponíveis para treinamento e teste, é hora de começar a trabalhar. Se estivéssemos fazendo da maneira que os cientistas de dados costumam fazer (e da maneira que tentamos no ano passado), faríamos:

  1. Divida os dados em um conjunto de treinamento e um conjunto de teste
  2. Use dados de treinamento com um tipo de algoritmo existente para criar o modelo
  3. Verifique o modelo com o conjunto de teste para verificar sua precisão

Podemos fazer tudo isso codificando-o no notebook Jupyter e modificando o modelo até atingir uma precisão aceitável (como fizemos no ano passado, em um ciclo perpétuo). Mas, em vez disso, primeiro tentaremos dois métodos diferentes:

  • Uma abordagem “sem código” com o Sagemaker Canvas da AWS: o Canvas pega os dados como um todo, divide-os automaticamente em treinamento e teste e cria um algoritmo preditivo
  • Outra abordagem “sem/pouco código” usando o Sagemaker Studio Jumpstart e AutoML: AutoML é muito do que está por trás do Canvas; Ele avalia os dados e tenta vários tipos diferentes de algoritmos para determinar o melhor

Feito isso, usaremos um dos muitos métodos de aprendizado de máquina testados em batalha que os cientistas de dados já experimentaram com esse conjunto de dados, alguns dos quais reivindicaram mais de 90% de precisão.

O produto final desses métodos deve ser um algoritmo que podemos usar para executar uma consulta preditiva com base em pontos de dados. Mas o resultado real será uma olhada nas compensações de cada abordagem em termos de tempo para conclusão, precisão e custo do tempo de computação. (Em nosso último teste, o próprio AutoML praticamente explodiu todo o saldo de crédito da conta da AWS.)