Trang chủ>  Blog >  Kiến thức chuyên môn >  03 CÁCH HỮU DỤNG XỬ LÝ TỆP CSV BẰNG PYTHON

03 CÁCH HỮU DỤNG XỬ LÝ TỆP CSV BẰNG PYTHON


Đối với những người mới bắt đầu với ngôn ngữ lập trình Python, CSV là một trong những tệp văn bản đơn giản thường lưu trữ dữ liệu của Data Scientist. Vậy làm thế nào xử lý tệp CSV nhanh chóng? Cùng tìm hiểu trong những chia sẻ dưới đây.

  871 lượt xem

Nội dung bài viết

Đối với những người mới bắt đầu với ngôn ngữ lập trình Python, CSV là một trong những tệp văn bản đơn giản thường lưu trữ dữ liệu của Data Scientist. Vậy làm thế nào xử lý tệp CSV nhanh chóng? Cùng tìm hiểu trong những chia sẻ dưới đây.  

1. Tệp CSV là gì?

CSV là viết tắt của Comma Separated Value - là những giá trị được phân tách bằng dấu phẩy và là tệp văn bản thuần túy chứa dữ liệu. Nó được biết đến như một trong những định dạng lưu trữ dữ liệu đơn giản nhất và được Data Scientist và Data Engineer thường xuyên sử dụng. 

Đây là một cấu trúc ví dụ:

 

2. Cách xử lý tệp CSV 

2.1 Sử dụng thư viện Pandas 

Pandas là một thư viện Python mã nguồn mở được xây dựng dựa trên Numpy.

Công thức là:

import pandas as pd

 

2.2 Sử dụng công thức read_csv() để đọc tệp 

read_csv() thực hiện theo câu lệnh bạn đưa ra, nó “đọc” tệp csv của bạn vào DataFrame theo câu lệnh sau:

df = pd.read_csv("electric_cars.csv")

df.head(5)

Ví dụ:

 

 

2.3 Sử dụng csv.reader

 

Python có một mô-đun tích hợp gọi là csv có thể được sử dụng để đọc tệp. Dưới đây là một số bước nhanh chóng và dễ dàng:

Nhập câu lệnh:

import csv

Mở tệp CSV của bạn:

with open('electric_cars.csv', 'r') as infile:

    r = csv.reader(infile)

for one_line in r:

    print(one_line)

 

Bạn có thể tham khảo ở ví dụ dưới đây:

 

2.4 Split method

 

 Bên cạnh những công thức vừa nêu trên, bạn có thể có thể dễ dàng tải các tệp CSV thông qua phương thức split. Phương thức .split trên các chuỗi trả về một danh sách các chuỗi. 

Công thức:

for one_line in open('electric_cars.csv'):

    print(one_line.split(','))

 

Tuy nhiên, nhìn vào hình ảnh ví dụ bên dưới và thay vì có dấu phẩy làm dấu phân cách, bạn muốn có một tab làm dấu phân cách, bạn có thể viết công thức như sau

with open('format1.csv', 'w') as outfile:

    for one_line in open('electric_cars.csv'):

        outfile.write(('\t'.join(one_line.strip().split(',')) + '\n'))

 

Ví dụ:

 

 Kết luận 

Có nhiều cách để bạn có thể xử lý tệp CSV bằng Python. Bạn có thể xử lý bằng cách này hoặc bằng cách khác miễn sao kết quả cuối cùng có thể phục vụ cho công việc của mình. Bên cạnh đó, học thêm nhiều kiến thức mới sẽ luôn là điều tốt nếu bạn muốn làm việc trong lĩnh vực Khoa học dữ liệu.

Chương trình đào tạo: Phân tích dữ liệu, Khoa học dữ liệu, Kĩ sư dữ liệu, Lập trình ứng dụng.
Chất lượng nhất - Uy tín nhất - Nhiều học viên tin tưởng nhất
Hơn 8000 học viên ưu tú đã tốt nghiệp
Các khóa học

Đăng ký tư vấn khóa học

*Vui lòng nhập số điện thoại của bạn

*Vui lòng nhập họ tên của bạn

*Vui lòng chọn địa điểm học

*Vui lòng chọn giới tính

*Vui lòng chọn 1 trường


Các bài viết liên quan


So sánh Python và R: Lựa chọn công cụ phân tích dữ liệu tốt nhất năm 2024

Python và R: công cụ nào sẽ là lựa chọn tối ưu cho bạn trong năm 2024? Hãy cùng khám phá những điểm tương đồng và khác biệt giữa chúng để đưa ra quyết định đúng đắn cho nhu cầu phân tích dữ liệu của bạn

Hành Trình Đào Tạo Doanh Nghiệp 365 Ngày Cùng MCI: Tổng Kết và Chia Sẻ

Trải qua một năm đầy thách thức và học hỏi, 365 ngày đầy ý nghĩa và khát vọng của MCI Việt Nam, nơi mà chúng tôi không chỉ đào tạo, mà còn đồng hành cùng các doanh nghiệp Việt, đặc biệt là trong lĩnh vực quan trọng - Phân tích Dữ liệu.

SQL và Python là gì? Bắt đầu học Data Analyst nên học công cụ nào trước?

SQL hay Python? Công cụ nào quan trọng hơn? Nên học công cụ nào trước?

Các bài viết liên quan