Afin d'extraire les données d'un fichier CSV, nous devons parcourir les lignes à l'aide d'une boucle et utiliser des méthodes de fractionnement pour extraire les données. Les fichiers CSV sont utilisés par des programmes qui gèrent de grandes quantités de données.
Pour extraire des données d'un fichier CSV, vous devez utiliser la fonction de lecture csv. reader pour générer un objet contenant les données de lecture.
Pour lire un fichier, il faut commencer par ouvrir le fichier grâce à la méthode reader , par exemple, cr = csv. reader(open(nom_fichier_csv,"r"),delimiter=";") permettra de lire le contenu du fichier nom_fichier_csv et d'obtenir un objet cr (il s'agit d'un itérateur python) contenant les fichiers.
Une fois le fichier CSV chargé dans un Cadre de données , vous pouvez utiliser l'indexation pour extraire des colonnes spécifiques par nom ou position. Par exemple, vous pouvez utiliser iloc [] méthode pour extraire les colonnes en fonction de leur position d'index.
import csv # ouverture en lecture du fichier csv with open('personnes. csv', newline='') as fichier: # on crée un objet reader lecture = csv. reader(fichier, delimiter=',') # on transforme l'itérateur en liste: lignes = list(lecture) print(f"La ligne 0 du fichier: {lignes[0]}.
Importer le module Pandas et utiliser la fonction read_csv() pour lire un fichier CSV contenant des données sur les prix de l'immobilier dans une ville donnée. Assignez le résultat à une variable appelée "df". Affichez les premières 5 lignes de "df" à l'aide de la méthode head().
Lorsque vous avez un ensemble de données que vous souhaitez stocker dans un fichier CSV, vous devez utiliser la fonction writer (). Pour itérer les données sur les lignes (lignes), vous devez utiliser la fonction writerow ().
Chargez des données avec les fonctions intégrées de Python
Pour lire et écrire un fichier, vous pouvez utiliser la fonction intégrée open() , qui requiert deux paramètres : le nom du fichier et le mode. Nom du fichier : le chemin d'accès au fichier que vous voulez lire ou dans lequel vous voulez écrire.
Lire les données d'un fichier en Python
Pour lire entièrement un fichier, on peut utiliser la méthode read() sans argument. Cette méthode renverra le contenu du fichier sous forme de chaine de caractères.
Pour extraire un élément de la liste python, entrez son index entre crochets. L'argument x est l'entier positif indiquant la position (index) d'un élément dans l'index. L'index du premier élément de la liste est zéro, l'indice du deuxième élément est un, etc.
Ouvrir un fichier en Python avec fopen()
Pour cela, on utilise la fonction fopen() . La fonction fopen() renvoie un objet de type “fichier” (type file en anglais). Cette fonction nous permet d'ouvrir un fichier pour y réaliser différentes opérations.
Fichiers XLS (Excel)
La fonction read_excel() de Pandas permet de lire les données contenues dans les cellules d'un ficher Excel et de les importer dans un DataFrame. On cherche ici à importer les données du fichier "catdata. xlsx" dans un DataFrame. → catExcel est le nom de l'objet crée, de type DataFrame.
Faire un clic droit sur le fichier ainsi téléchargé, puis “ouvrir avec” et sélectionnez “OpenOffice. app”. Dans la partie "Jeu de caractères", vous devez sélectionner le même encodage (UTF-8 dans notre exemple) que celui utilisé durant votre export du fichier en CSV (étape 1).
Dans la boîte de dialogue Région, sous l'onglet Format, cliquez sur Paramètres supplémentaires. Dans la boîte de dialogue Personnaliser le format, sous l'onglet Nombres, tapez un caractère à utiliser comme nouveau séparateur dans la zone Séparateur de liste. Cliquez deux fois sur OK.
Pour accéder à une colonne d'un data frame, il suffit d'utiliser la syntaxe nom_dataframe[nom_colonne] . Ainsi, on accède à la variable email de notre data frame clients . La syntaxe permet une lecture assez claire de ce à quoi on essaie d'accéder.
Pour obtenir les colonnes d'une DataFrame, on peut utiliser l'attribut "columns". Si votre DataFrame est trop grande, vous n'obtiendrez par défaut qu'un résultat partiel. Pour afficher la totalité des colonnes avec cette instruction, vous devez modifier les paramètres de la librairie Pandas.
Pour récupérer les derniers caractères (les plus à droite) d'un string, il suffit d'utiliser la syntaxe x[-nb:] où nb représente le nombre de caractères à récupérer.