Como construir um forte portfólio de ciência de dados como um novato
Depois de aprender os fundamentos da ciência de dados, você poderá começar a trabalhar em problemas do mundo real. Mas como você mostra seu trabalho? Neste artigo, aprenderemos uma maneira única de criar um portfólio de ciência de dados.
By Abid Ali Awan, Cientista de Dados Certificado.
Imagem do autor | Elementos por Vetor grátis | Ilustração do conceito de estatística
Como iniciante, tive muitas dúvidas sobre como começar? Como aprendo ou onde consigo ideias para trabalhar em projetos. Então, depois de uma longa busca, encontrei um projeto sobre análise de dados. Levei 3 dias apenas para escrever o código e fiquei feliz com minha primeira tentativa, mas então surgiu a grande questão de como posso compartilhá-lo com o mundo? Eu simplesmente não tinha boas habilidades de codificação ou documentação para mostrar meu trabalho, então armazenei-o na nuvem e esqueci dele. Depois de um mês, eu estava procurando aleatoriamente por mais projetos no GitHub e encontrei isso incrível perfis que me motivou a criar meu portfólio. Essa foi a melhor decisão que tomei, pois me colocou no mapa da comunidade de desenvolvedores e, logo depois, comecei a receber e-mails de recrutadores e iniciantes sobre meus projetos.
Conseguir um emprego geralmente é o principal motivo para construir um portfólio. Às vezes, é necessário se não tivermos formação ou experiência relevante (eugeneyan.com). Neste mundo moderno, os empregadores são céticos quanto à contratação de recém-formados, então como convencê-los de que você é o melhor para o trabalho? Você exibe suas habilidades mostrando o trabalho que realizou em um projeto anterior. Quanto mais forte for o seu portfólio online, maiores serão as chances de você ser contratado para o emprego dos seus sonhos.
“Os portfólios são extremamente importantes porque, quando você está na entrevista, eles mostram sua experiência no mundo real, para que você possa explicar a um empregador de A a Z todo o fluxo de trabalho da ciência de dados.” - David Yakobovitch.
A outra motivação é criar o seu projeto pessoal que satisfaça sua curiosidade em aprender coisas novas. Quando aprendemos uma nova habilidade, queremos experimentar e, eventualmente, construir um produto funcional que possa ser usado no mundo real.
Neste artigo, aprenderemos como você pode mostrar seu trabalho como iniciante em ciência de dados. Você aprenderá sobre uma nova plataforma que facilita sua vida e dicas sobre como construir portfólios fortes.
GitHub
Deixe-me apenas esclarecer o equívoco entre os cientistas de dados. Sim, GitHub é necessário e todos devemos aprender git. Como cientista de dados, uso diariamente o Github, onde procuro conjuntos de dados e projetos interessantes. Esta é a plataforma mais popular entre os desenvolvedores e, para ser honesto, o recrutador verifica seu perfil no GitHub antes de ligar para uma entrevista.
Imagem por autor | github
GitHub é uma plataforma colaborativa global onde as pessoas compartilham e colaboram em projetos. Como você pode ver no meu perfil abaixo como contribuí para projetos de outras pessoas e também trabalhei em meus próprios projetos.
Imagem do autor | Kingabzpro
Dicas para criar um perfil sólido:
- Crie sua página de perfil e, para um tutorial completo, confira Sarah Hart blog.
- Documente cada projeto com links, imagens de capa e descrições detalhadas.
- Bifurque o projeto que você mais gosta e envie sua primeira solicitação pull (freecodecamp.org).
- Seja ativo nesta plataforma contribuindo, relatando bugs e promovendo seus projetos atuais.
Nota profunda
Nota profunda é muito mais simples que o GitHub e também é adequado para iniciantes. Se você está familiarizado com Caderno Jupyter então será muito fácil para você publicar seu primeiro projeto. Minha experiência com o Deepnote é absolutamente incrível, pois a plataforma oferece todas as qualidades do GitHub, mas é muito mais simples e focada na comunidade de cientistas de dados.
Imagem do autor | Progresso da vacinação no Paquistão
Recentemente, eles introduziram um perfil Deepnote que mostrará todos os cadernos que você publica com suas informações e foto de perfil.
Imagem do autor | Nota profunda
Assim como GitHub Gist, você pode compartilhar um trecho do seu código com sua equipe ou com o público em geral. Usei o Deepnote Cell em todas as publicações médias e plataformas de mídia social. Você pode verificar meu anterior artigo para entender como implementar uma célula Deepnote. Usar trechos de código com saída permite compartilhar seus projetos em várias plataformas.
A razão pela qual prefiro a célula incorporada do Deepnote em vez do GitHub Gist é que ela vem com saída, não apenas saída estática, mas com recursos interativos.
Você pode usar o Plotly e exibir seu gráfico em um artigo do Medium:
Dicas para criar um perfil sólido:
- Atualize sua biografia, foto de perfil e informações de contato.
- Sempre adicione descrições detalhadas sobre o seu projeto usando a célula markdown.
- Use a foto da capa para destacar seu projeto.
- Use os recursos do aplicativo no Deepnote para criar um webapp interativo.
- Continue postando seu projeto antigo ou até mesmo repassando notebooks do GitHub.
DAGsHub
DAGsHub é novo neste mundo e está ganhando nome rapidamente ao fornecer uma solução completa para profissionais de aprendizado de máquina e engenheiros de dados. DAGsHub vem com um DVC servidor, Fluxo de ML, Visualização de pipeline e sincronização do GitHub. Não nos aprofundaremos nos recursos, mas nos concentraremos nos recursos que o diferenciam.
O DAGsHub permite que você compartilhe seu repositório GitHub e crie seu projeto de ciência de dados com a capacidade de visualizar aprendizado de máquina e pipelines de dados. Ele também possui um recurso oculto README.ipynb como arquivo de descrição do projeto, que é melhor para iniciantes que não estão acostumados com descontos e cientistas de dados que adoram trabalhar no Jupyter Notebook. É semelhante ao GitHub, o que significa que você precisa aprender Git e DVC para usar esta plataforma corretamente.
O que tenho visto outros usuários gostarem é a capacidade de visualizar a estrutura do projeto por meio do pipeline, bem como a capacidade de ver seus dados e modelos como parte integrante do projeto. Além disso, o fato de nos basearmos em ferramentas de código aberto em vez de reinventarmos soluções existentes é algo que as pessoas gostam. - Decano
Imagem de Dean | dagshub
Meu perfil é bastante novo, mas adoro essa plataforma porque ela me fornece um ecossistema completo de aprendizado de máquina. Acho que prefiro mais do que o GitHub em termos de recursos e simplicidade da interface do usuário.
Imagem do autor | DAGsHub
Dicas para criar um perfil sólido:
- Aprenda DVC, Git e Fluxo de ML para aproveitar ao máximo.
- Adicione a descrição do projeto ao seu caderno e README.
- Atualize seu perfil adicionando biografia, avatar e informações de contato.
- Tente adicionar dvc.yaml e dvc.lock em seu projeto para exibir pipelines de dados. Para mais informações, confira Definindo o pipeline.
- Mantenha um perfil ativo contribuindo para projetos de código aberto e impulsionando seu projeto pessoal. Você pode usar fds cli para facilitar sua vida e evitar erros.
- Faz uso total do DVC, carregando seus dados e modelo em um servidor remoto. Os recrutadores estão interessados em candidatos que conheçam o ciclo completo da ciência de dados, desde a ingestão de dados até os painéis.
Kaggle
Se quiser ser notado mais rapidamente no mundo da ciência de dados, você deve criar um Kaggle conta e comece a contribuir para competições, conjuntos de dados, cadernos e discussões. Quando você se torna um grande mestre, as pessoas o respeitam e lhe oferecem melhores oportunidades de carreira. Se você me perguntar, sugiro que crie um perfil Kaggle enquanto aprende o básico. Aprenda com especialistas e descubra o seu nicho. Sou um grande fã desta plataforma, pois ela oferece suporte para um iniciante competir e desenvolver soluções inovadoras para diversos setores. É a espinha dorsal da pesquisa em IA.
Imagem do autor | Kaggle
Você pode conferir meu perfil abaixo, pois desde o início venho contribuindo em diversas categorias para ganhar posições. Atualmente sou Expert, mas com uma medalha de ouro e uma de prata na competição, me tornarei Master, o que não é fácil e, sinceramente, respeito os Grandes Mestres, pois eles provaram que são os melhores entre os demais profissionais de dados.
Imagem do autor | Kaggle
Dicas para criar um perfil sólido:
- Seja ativo na plataforma usando novos conjuntos de dados e criando análises de dados ou modelos de aprendizado de máquina.
- Participe de discussões, aprenda com especialistas e peça ajuda.
- Use web scraping para publicar um novo conjunto de dados.
- Participe da maioria das competições para aprender diversos tipos de problemas de aprendizado de máquina e ganhar distintivos.
- Concentre-se em publicar seu melhor trabalho com descrições detalhadas e código de alta qualidade.
- Escreva sobre você na biografia e adicione detalhes de contato.
Blog
Escrever blogs é o próximo passo após criar seu projeto nas plataformas acima. Se você deseja expandir seu público, sugiro fortemente que você comece com Médio. Escrever um blog não é necessário, mas você obtém mais força em vários campos. A plataforma Medium permite que você crie seu perfil e publique seus artigos em diversas publicações como Rumo à ciência de dados e Em direção à IA. Você pode desenvolver seu site de blog ou usar outra plataforma semelhante, como Análise Vidhya.
Imagem do autor | Médio
Dicas para criar um perfil sólido:
- Escreva blogs sobre o projeto em que você trabalhou pessoalmente.
- Crie blogs sobre uma tecnologia emergente ou sobre novos aplicativos de ciência de dados.
- Faça pesquisas adequadas ao escrever blogs e adicione citações para evitar violações das regras da plataforma.
- Use fotos de capa atraentes para cada blog.
- Sempre escreva sobre o que você aprendeu com sua experiência ao desenvolver projetos de ciência de dados.
- Não siga a tendência e concentre-se nas coisas em que você é bom.
Website do portfólio
Você também pode exibir seu projeto em um site pessoal e, se não for um desenvolvedor web, existem algumas ferramentas simples disponíveis para tornar o processo bastante fácil. Você pode conferir Como construir um site de portfólio de ciência de dados com páginas Hugo e GitHub e Hugo para vários modelos.
O site do meu portfólio possui projetos de todas as plataformas com breves descrições e subcategorias. Levei três dias para criar o site inteiro e implantá-lo nas páginas do GitHub.
Imagem do autor | Portfólio
Dicas para criar um site de portfólio sólido:
- Adicione sua habilidade, biografia e currículo.
- Mostre sua experiência e um
- Apresente seus projetos com links para seus projetos GitHub ou Deepnote.
- Torne seu site mínimo e interativo para que o recrutador tenha facilidade para navegar por todo o seu portfólio.
- Mantenha o site do seu portfólio atualizado com o projeto mais recente em que você está trabalhando.
Peso e preconceitos
Eu costumo usar Peso e preconceitos para experimentação de aprendizado de máquina e registro de métricas de desempenho de meus modelos, mas isso mudou com a introdução do perfil W&B. Você pode escrever um blog sobre seu projeto atual usando links incorporados e integração gráfica. É bastante semelhante a outras plataformas de portfólio que mencionei, mas vem com a vantagem da integração direta com bibliotecas Python.
A Ayush profile me impressionou mais, pois ele tem contribuído para outras organizações enquanto escreve blogs sobre aprendizado de máquina.
Imagem de Ayush | Pesos e preconceitos
O projeto W&B possui métricas de desempenho modelo, conforme mostrado abaixo.
Imagem do autor | kaggle-seti
Dicas para criar um perfil sólido:
- Junte-se a outras organizações de ciência de dados e participe de projetos em grupo.
- Use a API W&B para exibir os resultados do seu projeto de aprendizado de máquina.
- Escreva um blog usando integração de métricas W&B.
- Adicione uma biografia, foto de perfil e informações de contato.
- Tente se envolver na discussão da comunidade e sempre procure um novo projeto interessante.
Conclusão
W&B é um curinga, pois é famoso por registrar experimentos e não por portfólios, mas a introdução de blogs interativos nos deu a vantagem única de exibir seu projeto e criar um portfólio forte.
Se você é iniciante, sugiro que comece com o Deepnote, pois é gratuito para equipes e oferece ferramentas amigáveis para iniciantes para começar. Se você deseja ser notado pela comunidade de ciência de dados, tente criar seu perfil no GitHub e no Kaggle. Se você deseja criar sua marca, comece com sites de blog ou crie seu site.
No final, quero que todos criem o seu perfil em todas as plataformas que mencionei acima, pois todas trazem vantagens únicas para impressionar o seu potencial empregador. Eu sei que é bastante complicado no início, mas quando você se acostumar a documentar e apresentar seus projetos, ficará mais fácil.
Bio: Abid Ali Awan (@ 1abidaliawan) é um profissional certificado em ciência de dados que adora criar modelos de aprendizado de máquina e pesquisar as mais recentes tecnologias de IA. Atualmente testando produtos de IA no PEC-PITC, seu trabalho é posteriormente aprovado para testes em humanos, como o Classificador de Câncer de Mama.
Relacionado:
Fonte: https://www.kdnuggets.com/2021/10/strong-data-science-portfolio-as-beginner.html
- "
- &
- Conta
- ativo
- Vantagem
- AI
- ai pesquisa
- Todos os Produtos
- entre
- análise
- api
- app
- aplicações
- Aplicativos
- artigo
- artigos
- público
- avatar
- emblemas
- fundamentos básicos
- MELHOR
- Blog
- Blogging
- Blogs
- Câncer de mama
- Bug
- construir
- Prédio
- Câncer
- Oportunidades
- Na nuvem
- código
- Codificação
- colaborativo
- comunidade
- competição
- Competições
- contribuiu
- Criar
- curiosidade
- Atual
- dados,
- análise de dados
- ciência de dados
- cientista de dados
- deep learning
- desenvolver
- Developer
- desenvolvedores
- DID
- ecossistema
- Educação
- empregadores
- Engenharia
- Engenheiros
- Excel
- Expandir
- vasta experiência
- experimentar
- especialistas
- Rosto
- Característica
- Funcionalidades
- Campos
- Primeiro nome
- Foco
- seguir
- Gratuito
- cheio
- Geral
- Git
- GitHub
- Global
- Dourado
- Bom estado, com sinais de uso
- Grupo
- guia
- Contratando
- Como funciona o dobrador de carta de canal
- Como Negociar
- HTTPS
- enorme
- indústrias
- INFORMAÇÕES
- inovadores
- integral
- integração
- interativo
- Entrevista
- IT
- Trabalho
- Caderno Jupyter
- mais recente
- APRENDER
- aprendizagem
- longo
- gosta,
- aprendizado de máquina
- Fazendo
- mapa,
- Mídia
- média
- Métrica
- modelo
- Mais populares
- Nova Plataforma
- laptops
- oferecer
- online
- aberto
- oportunidades
- organizações
- Outros
- Pessoas
- atuação
- fotografia
- plataforma
- Plataformas
- Popular
- pasta
- Produto
- Produtos
- Perfil
- projeto
- projetos
- público
- publicações
- publicar
- Publishing
- Python
- mundo real
- pesquisa
- Resultados
- regras
- Ciência
- cientistas
- raspagem
- Pesquisar
- Partilhar
- Baixo
- Prata
- simples
- Locais
- Habilidades
- So
- Redes Sociais
- meios de comunicação social
- sociais plataformas de mídia
- Soluções
- começo
- começado
- estatística
- Histórias
- ajuda
- Tecnologias
- Tecnologia
- ensaio
- O Básico
- o mundo
- tempo
- dicas
- topo
- tutorial
- ui
- us
- usuários
- web
- Raspagem da web
- Site
- QUEM
- Atividades:
- de gestão de documentos
- mundo
- escrita
- X
- Youtube