MCI BLOGS


Nơi chia sẻ về những câu chuyện thú vị và những kinh nghiệm về lập trình phần mềm, phân tích dữ liệu, khoa học dữ liệu và kĩ sư dữ liệu..
Câu chuyện nghề nghiệp trong ngành công nghệ thông tin và khoa học dữ liệu của Học viện Công nghệ MCI dành cho độc giả.

TỔNG HỢP 38 THƯ VIỆN PYTHON HÀNG ĐẦU CHO DATA SCIENTIST, DATA VISUALIZATION & MACHINE LEARNING P1

Lê Thị Huyền Trang - Jan. 4, 2023, 5:21 p.m.

Bài viết này tổng hợp 38 thư viện Python hàng đầu cho khoa học dữ liệu, trực quan hóa dữ liệu & machine learning

Xem nhanh

Trong bài viết này, các thư viện Python sẽ chia thành những lĩnh vực sau: 

Dữ liệu - thư viện để quản lý, thao tác và xử lý dữ liệu khác

Toán học - các thư viện thực hiện các nhiệm vụ toán học

Machine Learning - các thư viện chủ yếu dành cho việc xây dựng mạng lưới hoặc để tự động hóa các quy trình máy học

Automated machine learning - các thư viện chủ yếu hoạt động để tự động hóa các quy trình liên quan đến máy học

Data visualization - các thư viện chủ yếu phục vụ chức năng liên quan đến trực quan hóa dữ liệu

Explanation & exploration - thư viện chủ yếu để khám phá và giải thích các mô hình hoặc dữ liệu

1. Thư viện Python tốt nhất cho: Dữ liệu

 1. Apache Spark

Stars: 27600, Commits: 28197, Contributors: 1638

Apache Spark - Công cụ phân tích hợp nhất để xử lý dữ liệu quy mô lớn

 

2. Pandas

 Stars: 26800, Commits: 24300, Contributors: 2126

Pandas cung cấp các cấu trúc dữ liệu nhanh, linh hoạt và biểu cảm được thiết kế để giúp làm việc với dữ liệu "relational" hoặc "labeled" một cách dễ dàng và trực quan. Nó nhằm mục đích trở thành khối xây dựng cấp cao cơ bản để thực hiện phân tích dữ liệu trong thế giới thực, thực tế bằng Python.

 

3. Dask

 Stars: 7300, Commits: 6149, Contributors: 393

Tính toán song song với lập lịch tác vụ

 

2. Thư viện Python tốt nhất cho: Toán học

4. Scipy

Stars: 7500, Commits: 24247, Contributors: 914

SciPy (phát âm là "Sigh Pie") là phần mềm mã nguồn mở dành cho toán học, khoa học và kỹ thuật. Nó bao gồm các mô-đun để thống kê, tối ưu hóa, tích hợp, đại số tuyến tính, biến đổi Fourier, xử lý tín hiệu và hình ảnh, bộ giải ODE, v.v.

 

5. Numpy

 Stars: 1500, Commits: 24266, Contributors: 1010

Gói cơ bản cho tính toán khoa học với Python.

 

3. Thư viện Python tốt nhất cho: Machine Learning

6. Scikit-Learn

Stars: 42500, Commits: 26162, Contributors: 1881

Scikit-learning là một mô-đun Python dành cho máy học được xây dựng dựa trên SciPy và được phân phối theo giấy phép BSD 3 Khoản.

 

7. XGBoost

 Stars: 19900, Commits: 5015, Contributors: 461

Thư viện Tăng cường Gradient có thể mở rộng, di động và phân tán (GBDT, GBRT hoặc GBM), dành cho Python, R, Java, Scala, C++, v.v. Chạy trên một máy, Hadoop, Spark, Flink và DataFlow

 

8. LightGBM

Stars: 11600, Commits: 2066, Contributors: 172

Khung tăng cường độ dốc (GBT, GBDT, GBRT, GBM hoặc MART) nhanh, phân tán, hiệu suất cao dựa trên thuật toán cây quyết định, được sử dụng để xếp hạng, phân loại và nhiều tác vụ máy học khác.

 

9. Catboost

 Stars: 5400, Commits: 12936, Contributors: 188

Thư viện Tăng tốc độ dốc nhanh, có thể mở rộng, hiệu suất cao trên Cây quyết định, được sử dụng để xếp hạng, phân loại, hồi quy và các tác vụ học máy khác cho Python, R, Java, C++. Hỗ trợ tính toán trên CPU và GPU.

 

10. Dlib

 Stars: 9500, Commits: 7868, Contributors: 146

Dlib là bộ công cụ C++ hiện đại chứa các thuật toán máy học và các công cụ để tạo phần mềm phức tạp trong C++ nhằm giải quyết các vấn đề trong thế giới thực. Có thể được sử dụng với Python thông qua API dlib

 

11. Annoy

 Stars: 7700, Commits: 778, Contributors: 53

Approximate Nearest Neighbors trong C++/Python được tối ưu hóa cho việc sử dụng bộ nhớ và tải/lưu vào đĩa

 

12. H20ai

 Stars: 500, Commits: 27894, Contributors: 137

 Nền tảng máy học có khả năng mở rộng nhanh mã nguồn mở cho các ứng dụng thông minh hơn: Deep Learning, Gradient Boosting & XGBoost, Random Forest, Generalized Linear Modeling (Logistic Regression, Elastic Net), K-Means, PCA, Stacked Ensembles, Automatic Machine Learning (AutoML), v.v. .

 

Chương trình đào tạo: Phân tích dữ liệu, Khoa học dữ liệu, Kĩ sư dữ liệu, Lập trình ứng dụng.
Chất lượng nhất - Uy tín nhất - Nhiều học viên tin tưởng nhất
Hơn 6000 học viên ưu tú đã tốt nghiệp