Aller au-dela de value_counts () : creer des tableaux de frequences visuellement attrayants avec seulement 3 lignes de code (a l’aide de precisions OkCupid)

Quelques astuces simples mais indispensables que vous ne connaissiez probablement pas

Bien que le possible le plus facile de creer une table de frequences Afin de votre objet Series dans la bibliotheque Python pandas consiste a appliquer la value_counts() technique, le resultat de votre operation parai®t plutot basique. Nous pouvons le rendre plus informatif en ajustant des parametres booleens de la methode normalize , sort , ascending , et dropna , ou en regroupant des valeurs (si elles seront numeriques) dans des bacs. Cependant, les alternatives ici paraissent assez limitees, donc Afin de ameliorer visuellement la table de frequences resultante, nous pouvons envisager des astuces simples mais utiles, telles que le chainage de methodes, la personnalisation du texte, l’ajout du % symbole a chaque valeur de frequence et l’utilisation en puissance de jolie- impression.

Dans Ce texte, nous allons experimenter un ensemble de donnees Kaggle contenant des precisions sur l’age, le sexe, l’emplacement, l’education, etc., pour 60 000 utilisateurs de l’ application de rencontres OkCupid ??. Pour les besoins, cependant, nous n’utiliserons que les informations sur les statuts des utilisateurs.

1. Enchainement des methodes

Pour commencer, creons un tableau de frequence de base Afin de des statuts des utilisateurs :

( Note : ci-apres, nous allons laisser l’integralite des autres parametres de la value_counts() technique via defaut, cela signifie que nous ne considererons que les tableaux de frequences tries par ordre decroissant et en excluant les valeurs manquantes. Pour les besoins, se servir de ou non ces parametres ne peu importe.)

Sans connaitre le contexte, a partir du tableau ci-dessus, il pourra ne comment commencer une conversation sur myladyboydate point etre net que nos nombres representent des pourcentages et non des frequences absolues. Ajoutons un titre au tableau avec le formatage f-string :

Dans l’exemple ci-dessus, nous avons ajoute le % symbole au titre du tableau. Et si nous voulions plutot l’ajouter a chaque valeur de frequence ? Une solution de contournement consiste a creer une liste de valeurs de frequence avec le % symbole ajoute a chacune d’entre elles, et a creer une serie a partir de cette liste. Pour faire la liste, nous pouvons utiliser la boucle for suivante :

Enfin, nous pouvons joliment imprimer le tableau des frequences. Pour ce qui, nous allons utiliser la to_markdown() methode pandas qui necessite l’installation (souvent pas l’import) du module tabulate ( pip install tabulate ).

Important : Afin de afficher convenablement les resultats, la to_markdown() technique doit etre utilisee uniquement a l’interieur en print() prends.

Jouons avec les parametres tablefmt et stralign . Le premier d’entre eux definit le format du tableau et va avoir l’une des valeurs suivantes : plain , simple , github , grid , fancy_grid , pipe , orgtbl , jira , presto , pretty , psql , rst , etc. comme, le format de tableau que nous avons surpris plus bas s’appelle pipe , celui par defaut concernant les to_markdown() pandas methode. Curieux que pour le package tabulate lui-meme, le format de tableau via defaut est simple . Quant au deuxieme parametre, stralign , il sert a remplacer l’alignement des donnees de chaine avec defaut (qui reste left ). Les options possibles ici sont right et center .

Attention : le floatfmt parametre ne fonctionne pas en combinaison avec le format du tableau pretty .

Plats a emporter confortables

Bien que tous J’ai procedure pas a gui?re ci-dessus ait necessite beaucoup de iterations et descriptions, nous trouverons ci-dessous nos solutions de code finales pour 4 versions differentes de notre tableau des frequences pour profiles[‘status’] , l’article en % :

  • 2 tableaux simples avec/sans le % symbole,
  • 2 jolis tableaux imprimes avec/sans le % symbole et avec/sans en-tete de tableau.

Dans Ce texte, nous avons discute de divers approches simples mais puissantes Afin de ameliorer la disposition du tableau des frequences et la lisibilite globale. Ils ont l’ensemble de la value_counts() methode des pandas comme element central, mais l’ensemble de vont au-dela et aboutissent a des representations plus percutantes. De plus, chacune des solutions proposees, dans sa forme definitive, necessite au maximum 3 lignes de code.

J’espere que vous avez apprecie la lecture du article et que vous l’avez trouve utile. Merci d’avoir lu a n’importe qui, et bonne chance a ceux qui utilisent l’application de rencontres OkCupid ????

Vous pouvez tomber sur passionnant aussi ces articles :