Comment créer un portefeuille solide en science des données en tant que débutant
Après avoir appris les bases de la science des données, vous pouvez commencer à travailler sur des problèmes du monde réel. Mais comment présenter son travail ? Dans cet article, nous allons apprendre une manière unique de créer un portfolio de science des données.
By Abid Ali Awan, Data Scientist certifié.
Image par auteur | Éléments par Vecteur gratuit | Illustration du concept de statistiques
En tant que débutant, je me posais de nombreuses questions sur par où commencer ? Comment puis-je apprendre ou où puis-je trouver des idées pour travailler sur des projets. Ainsi, après une longue recherche, j'ai trouvé un projet sur l'analyse de données. Il m'a fallu 3 jours rien que pour écrire du code, et j'étais satisfait de mon premier essai, mais ensuite s'est posée cette grande question : comment puis-je le partager avec le monde ? Je n'avais tout simplement pas de bonnes compétences en codage ou en documentation pour présenter mon travail, alors je l'ai stocké dans le cloud et je l'ai oublié. Après un mois, je cherchais au hasard plus de projets sur GitHub et j'ai trouvé ça incroyable profil cela m'a motivé à créer mon portfolio. C'était la meilleure décision que j'ai prise car cela m'a mis sur la carte de la communauté des développeurs, et peu de temps après, j'ai commencé à recevoir des e-mails de recruteurs et de débutants concernant mes projets.
Obtenir un emploi est généralement la principale raison de constituer un portefeuille. Parfois, cela est nécessaire si nous n’avons pas la formation ou l’expérience pertinente (eugeneyan.com). Dans ce monde moderne, les employeurs sont sceptiques quant à l’embauche de nouveaux diplômés, alors comment les convaincre que vous êtes le meilleur pour le poste ? Vous affichez vos compétences en montrant le travail que vous avez effectué dans un projet précédent. Plus votre portfolio en ligne est solide, plus vous avez de chances d'être embauché pour l'emploi de vos rêves.
« Les portfolios sont extrêmement essentiels, car lorsque vous participez à l'entretien, ils montrent votre expérience du monde réel, ce qui vous permet d'expliquer à un employeur de A à Z l'ensemble du flux de travail de la science des données. » — David Yakobovitch.
L'autre motivation est de créer votre projet personnel cela satisfait votre curiosité d’apprendre de nouvelles choses. Lorsque nous apprenons une nouvelle compétence, nous souhaitons expérimenter et éventuellement créer un produit fonctionnel pouvant être utilisé dans le monde réel.
Dans cet article, nous apprendrons comment vous pouvez présenter votre travail en tant que débutant en science des données. Vous découvrirez une nouvelle plateforme qui vous facilite la vie et des conseils pour créer des portefeuilles solides.
GitHub
Permettez-moi simplement de dissiper cette idée fausse parmi les data scientists. Oui, GitHub est nécessaire, et nous devrions tous apprendre jet. En tant que data scientist, j'utilise quotidiennement Github, où je recherche des ensembles de données et des projets intéressants. Il s'agit de la plateforme la plus populaire parmi les développeurs et, pour être honnête, le recruteur vérifie votre profil GitHub avant de vous appeler pour un entretien.
Image par auteur | github
GitHub est une plateforme collaborative mondiale où les gens partagent et collaborent sur des projets. Comme vous pouvez le voir dans mon profil ci-dessous, comment j'ai contribué aux projets d'autres personnes et comment j'ai également travaillé sur mes propres projets.
Image par auteur | kingabzpro
Conseils pour créer un profil solide :
- Créez votre page de profil et pour un tutoriel complet, consultez Sarah Hart blog.
- Documentez chaque projet avec des liens, des images de couverture et des descriptions détaillées.
- Forkez le projet que vous aimez le plus et envoyez votre première pull request (freecodecamp.org).
- Soyez actif sur cette plateforme en contribuant, en signalant des bugs et en poussant vos projets en cours.
Note profonde
Note profonde est beaucoup plus simple que GitHub, et il est également adapté aux débutants. Si vous connaissez Carnet Jupyter alors ce sera un jeu d’enfant pour vous de publier votre premier projet. Mon expérience avec Deepnote est absolument incroyable car la plateforme vous offre toutes les qualités de GitHub mais est beaucoup plus simple et axée sur la communauté des data scientists.
Image par auteur | Progrès de la vaccination au Pakistan
Récemment, ils ont introduit un profil Deepnote qui présentera tous les blocs-notes que vous publiez avec vos informations et votre photo de profil.
Image par auteur | Note profonde
Tout comme GitHub Gist, vous pouvez partager un extrait de votre code avec votre équipe ou le public en général. J'ai utilisé Deepnote Cell sur toutes les plateformes de publication Medium et de réseaux sociaux. Vous pouvez vérifier mon précédent article pour comprendre comment implémenter une cellule Deepnote. L'utilisation d'extraits de code avec sortie vous donne la possibilité de partager vos projets sur plusieurs plateformes.
La raison pour laquelle je préfère la cellule intégrée Deepnote à GitHub Gist est qu'elle est livrée avec une sortie, pas seulement une sortie statique, mais avec des fonctionnalités interactives.
Vous pouvez utiliser Plotly et afficher votre graphique dans un article Medium :
Conseils pour créer un profil solide :
- Mettez à jour votre biographie, votre photo de profil et vos coordonnées.
- Ajoutez toujours des descriptions détaillées de votre projet en utilisant la cellule de démarque.
- Utilisez la photo de couverture pour faire ressortir votre projet.
- Utilisez les fonctionnalités de l'application dans Deepnote pour créer une application Web interactive.
- Continuez à publier votre ancien projet ou même à republier des blocs-notes depuis GitHub.
DAGsHub
DAGsHub est nouveau dans ce monde et se fait rapidement un nom en fournissant une solution unique aux praticiens de l'apprentissage automatique et aux ingénieurs de données. DAGsHub est livré avec un DVC serveur, MLflow, Visualisation du pipeline et Synchronisation GitHub. Nous n’entrerons pas dans les détails des fonctionnalités, mais nous nous concentrerons sur celles qui le distinguent.
DAGsHub vous permet de partager votre référentiel GitHub et de créer votre projet de science des données avec la possibilité de visualiser l'apprentissage automatique et les pipelines de données. Il dispose également d'une fonctionnalité cachée README.ipynb comme fichier de description de projet, ce qui convient mieux aux débutants qui ne sont pas habitués au démarque et aux data scientists qui aiment travailler sur Jupyter Notebook. Il est similaire à GitHub, ce qui signifie que vous devez apprendre à la fois Git et DVC pour utiliser correctement cette plateforme.
Ce que j'ai vu d'autres utilisateurs apprécier, c'est la possibilité de visualiser la structure de leur projet via le pipeline, ainsi que la possibilité de voir leurs données et modèles comme partie intégrante du projet. De plus, le fait que nous nous basions sur des outils open source au lieu de réinventer les solutions existantes est quelque chose que les gens apprécient. — doyen
Image de Doyen | dagshub
Mon profil est assez nouveau, mais j'adore cette plateforme car elle me fournit un écosystème complet d'apprentissage automatique. Je pense que je le préfère plus que GitHub en termes de fonctionnalités et de simplicité de l'interface utilisateur.
Image par auteur | DAGsHub
Conseils pour créer un profil solide :
- Ressources DVC, Gitet une MLflow pour en profiter pleinement.
- Ajoutez la description du projet à votre carnet et à README.
- Mettez à jour votre profil en ajoutant une biographie, un avatar et des informations de contact.
- Essayez d'ajouter dvc.yaml ainsi que le dvc.lock dans votre projet pour afficher les pipelines de données. Pour plus d'informations, consultez Définir le pipeline.
- Gardez un profil actif en contribuant à des projets open source et en poussant votre projet personnel. Vous pouvez utiliser fds cli pour vous simplifier la vie et éviter les erreurs.
- Tire pleinement parti de DVC en téléchargeant vos données et votre modèle sur un serveur distant. Les recruteurs s'intéressent aux candidats qui connaissent le cycle complet de la science des données, de l'ingestion des données aux tableaux de bord.
Kaggle
Si vous souhaitez vous faire remarquer plus rapidement dans le monde de la science des données, vous devez créer un Kaggle compte et commencez à contribuer à des concours, des ensembles de données, des cahiers et des discussions. Lorsque vous devenez grand maître, les gens vous respectent et vous offrent de meilleures opportunités de carrière. Si vous me le demandez, je vous suggère de créer un profil Kaggle tout en apprenant les bases. Apprenez des experts et découvrez votre niche. Je suis un grand fan de cette plateforme car elle aide un débutant à rivaliser et à développer des solutions innovantes pour diverses industries. C’est l’épine dorsale de la recherche sur l’IA.
Image par auteur | Kaggle
Vous pouvez consulter mon profil ci-dessous, car depuis le début, j'ai contribué dans diverses catégories pour gagner des rangs. Actuellement, je suis un expert, mais avec une médaille d'or et d'argent au concours, je deviendrai un maître, ce qui n'est pas facile, et honnêtement, je respecte les grands maîtres car ils ont prouvé qu'ils étaient les meilleurs parmi les autres praticiens des données.
Image par auteur | Kaggle
Conseils pour créer un profil solide :
- Soyez actif sur la plateforme en utilisant de nouveaux ensembles de données et en créant des modèles d'analyse de données ou d'apprentissage automatique.
- Participez à la discussion, apprenez des experts et demandez de l’aide.
- Utilisez le web scraping pour publier un nouvel ensemble de données.
- Participez à la plupart des compétitions pour apprendre plusieurs types de problèmes d'apprentissage automatique et gagner des badges.
- Concentrez-vous sur la publication de vos meilleurs travaux avec des descriptions détaillées et un code de haute qualité.
- Écrivez sur vous dans la bio et ajoutez vos coordonnées.
Blog
La rédaction de blogs est la prochaine étape après la création de votre projet sur les plateformes ci-dessus. Si vous souhaitez élargir votre audience, je vous suggère fortement de commencer par Moyenne. Écrire un blog n'est pas nécessaire, mais vous obtenez plus de traction dans divers domaines. La plateforme Medium vous permet de créer votre profil et de publier vos articles sous diverses publications telles que Vers la science des données ainsi que le Vers l'IA. Vous pouvez développer votre site de blogs ou utiliser une autre plateforme similaire telle que Analytique Vidhya.
Image par auteur | Moyenne
Conseils pour créer un profil solide :
- Écrivez des blogs sur le projet sur lequel vous avez personnellement travaillé.
- Créez des blogs sur une technologie émergente ou sur de nouvelles applications de science des données.
- Faites des recherches appropriées lors de la rédaction de blogs et ajoutez des citations pour éviter les violations des règles de la plateforme.
- Utilisez des photos de couverture attrayantes pour chaque blog.
- Écrivez toujours ce que vous apprenez de votre expérience lors du développement de projets de science des données.
- Ne suivez pas la tendance et concentrez-vous sur les domaines dans lesquels vous excellez.
Site Web du portfolio
Vous pouvez également afficher votre projet sur un site Web personnel, et si vous n'êtes pas un développeur Web, des outils simples sont disponibles pour rendre le processus assez simple. Vous pouvez consulter Comment créer un site Web de portfolio de science des données avec les pages Hugo et GitHub ainsi que le Hugo pour divers modèles.
Mon site Web de portfolio contient un projet de toutes les plateformes avec de courtes descriptions et sous-catégories. Il m'a fallu trois jours pour créer l'intégralité du site Web et le déployer sur les pages GitHub.
Image par auteur | Portefeuille
Conseils pour créer un site Web de portfolio solide :
- Ajoutez vos compétences, votre biographie et votre CV.
- Affichez votre expérience et un
- Présentez vos projets avec des liens vers vos projets GitHub ou Deepnote.
- Rendez votre site Web minimal et interactif afin que le recruteur puisse facilement parcourir l'ensemble de votre portefeuille.
- Gardez votre site Web de portfolio à jour avec le dernier projet sur lequel vous travaillez.
Poids et biais
J'utilise habituellement Poids et biais pour l'expérimentation de l'apprentissage automatique et la journalisation des mesures de performances de mes modèles, mais cela a changé avec l'introduction du profil W&B. Vous pouvez rédiger un blog sur votre projet actuel en utilisant des liens intégrés et l'intégration de graphiques. Elle est assez similaire aux autres plates-formes de portefeuille que j'ai mentionnées, mais elle présente l'avantage d'une intégration directe avec les bibliothèques Python.
Les Ayush Ce profil m'a le plus impressionné car il a contribué à d'autres organisations tout en écrivant des blogs sur l'apprentissage automatique.
Image de Ayush | Pondérations et biais
Le projet W&B dispose de mesures de performances de modèle, comme indiqué ci-dessous.
Image par auteur | kaggle-seti
Conseils pour créer un profil solide :
- Rejoignez d'autres organisations de science des données et participez à des projets de groupe.
- Utilisez l'API W&B pour afficher les résultats de votre projet de machine learning.
- Écrivez un blog en utilisant l'intégration des métriques W&B.
- Ajoutez une biographie, une photo de profil, des informations de contact.
- Essayez de participer à des discussions communautaires et recherchez toujours un nouveau projet intéressant.
Conclusion
W&B est un joker car il est célèbre pour ses expériences de journalisation et non pour ses portfolios, mais l'introduction de blogs interactifs nous a donné l'avantage unique d'afficher votre projet et de créer un portfolio solide.
Si vous êtes débutant, je vous suggère de commencer avec Deepnote, car il est gratuit pour les équipes et de fournir à vos débutants des outils adaptés aux débutants. Si vous cherchez à vous faire remarquer par la communauté de la science des données, essayez de créer votre profil sur GitHub et Kaggle. Si vous souhaitez créer votre marque, commencez par des sites de blogs ou créez votre site Web.
En fin de compte, je veux que vous créiez tous votre profil sur toutes les plateformes que j'ai mentionnées ci-dessus, car elles présentent toutes des avantages uniques pour impressionner votre employeur potentiel. Je sais que c'est assez écrasant au début, mais une fois que vous serez habitué à documenter et à présenter vos projets, cela deviendra facile.
Bio: Abid Ali Awan (@1abidaliawan) est un professionnel certifié en data scientist qui aime créer des modèles d'apprentissage automatique et rechercher les dernières technologies d'IA. Testant actuellement des produits d'IA au PEC-PITC, leurs travaux sont ensuite approuvés pour des essais sur l'homme, tels que le classificateur du cancer du sein.
Connexe:
Source : https://www.kdnuggets.com/2021/10/strong-data-science-portfolio-as-beginner.html
- "
- &
- Compte
- infection
- Avantage
- AI
- recherche ai
- Tous
- parmi
- selon une analyse de l’Université de Princeton
- api
- appli
- applications
- applications
- article
- sur notre blog
- public
- Avatar
- badges
- Basics
- LES MEILLEURS
- Blog
- Blogging
- blogue
- Cancer du sein
- Punaise
- construire
- Développement
- Cancer
- Carrière
- le cloud
- code
- Codage
- collaborative
- Communautés
- concurrence
- Compétitions
- contribué
- La création
- curiosité
- Courant
- données
- l'analyse des données
- science des données
- Data Scientist
- l'apprentissage en profondeur
- développer
- Développeur
- mobiles
- DID
- risque numérique
- Éducation
- employeurs
- ENGINEERING
- Les ingénieurs
- Excel
- Développer vous
- d'experience
- expérience
- de santé
- Visage
- Fonctionnalité
- Fonctionnalités:
- Des champs
- Prénom
- Focus
- suivre
- Gratuit
- plein
- Général
- Git
- GitHub
- Global
- Or
- Bien
- Réservation de groupe
- guide
- Embauchons
- Comment
- How To
- HTTPS
- majeur
- secteurs
- d'information
- technologie innovante
- intégrale
- l'intégration
- Interactif
- Interview
- IT
- Emploi
- Jupyter Notebook
- Nouveautés
- APPRENTISSAGE
- apprentissage
- Location
- love
- machine learning
- Fabrication
- Localisation
- Médias
- moyenne
- Métrique
- modèle
- Le Plus Populaire
- Nouvelle plateforme
- ordinateurs portables
- code
- en ligne
- ouvert
- Opportunités
- organisations
- Autre
- Personnes
- performant
- image
- plateforme
- Plateformes
- Populaire
- portefeuille
- Produit
- Produits
- Profil
- Projet
- projets
- public
- publications
- publier
- Édition
- Python
- monde réel
- un article
- Résultats
- Sciences
- scientifiques
- grattage
- Rechercher
- Partager
- Shorts
- Argent
- étapes
- Sites
- compétences
- So
- Réseaux sociaux
- réseaux sociaux
- plateformes de médias sociaux
- Solutions
- Commencer
- j'ai commencé
- statistiques
- Stories
- Support
- Les technologies
- Technologie
- Essais
- Les bases
- le monde
- fiable
- conseils
- top
- tutoriel
- ui
- us
- utilisateurs
- web
- grattage web
- Site Web
- WHO
- activités principales
- workflow
- world
- écriture
- X
- Youtube