Python kinh tế lượng

Bộ ghi chú này được viết lại từ các ghi chú kinh tế lượng MATLAB của tôi, đã lỗi thời. Tôi vẫn đang tổ chức các tài liệu cũ

Các ghi chú bài giảng dựa trên một số sách giáo khoa

  1. Giới thiệu về Kinh tế lượng, bởi Christopher Dougherty
  2. Giới thiệu về kinh tế lượng, bởi James H. Chứng khoán và Mark W. Watson
  3. Kinh tế lượng cơ bản, bởi Damodar N. Gujarati

Python kinh tế lượng

điều kiện tiên quyết

Phần thứ nhất là trình độ nhập môn, yêu cầu học viên có kiến ​​thức cơ bản về thống kê và lý thuyết xác suất. Phần thứ hai yêu cầu đại số tuyến tính

Cuốn sách này giới thiệu gói phần mềm và ngôn ngữ lập trình phổ biến, mạnh mẽ và miễn phí Python, tập trung vào việc triển khai các công cụ và phương pháp tiêu chuẩn được sử dụng trong kinh tế lượng. Không giống như những cuốn sách khác về các chủ đề tương tự, nó không cố gắng cung cấp một cuộc thảo luận khép kín về các phương pháp và mô hình kinh tế lượng. Thay vào đó, nó được xây dựng trên cuốn sách giáo khoa xuất sắc và nổi tiếng "Introductory Econometrics" của Jeffrey M. Wooldridge. Một số phiên bản và phiên bản khác cũng hoạt động, xem bên dưới. Nó tương thích về các chủ đề, tổ chức, thuật ngữ và ký hiệu, và được thiết kế để chuyển đổi liền mạch từ lý thuyết sang thực hành. Chủ đề bao gồm

  • Giới thiệu nhẹ nhàng về Python
  • bao gồm các mô-đun Pandas, NumPy, SciPy và Matplotlib
  • Hồi quy đơn giản và bội số ở dạng ma trận và sử dụng các thói quen hộp đen
  • Suy luận trong các mẫu nhỏ và tiệm cận
  • Mô phỏng Monte Carlo
  • phương sai thay đổi
  • Hồi quy chuỗi thời gian
  • Tổng hợp các mặt cắt ngang và dữ liệu bảng
  • Biến công cụ và bình phương tối thiểu hai giai đoạn
  • Mô hình phương trình đồng thời
  • Biến phụ thuộc hạn chế. nhị phân, đếm dữ liệu, kiểm duyệt, cắt xén và chọn mẫu
  • Báo cáo được định dạng và tài liệu nghiên cứu bằng Jupyter Notebooks kết hợp Python với Markdown hoặc LaTeX

Các chương có cùng tên và bao gồm cùng nội dung như các chương tương ứng trong sách giáo khoa của Wooldridge. Giả sử người đọc đã quen thuộc với các khái niệm được thảo luận ở đó, cuốn sách này giải thích và trình bày cách triển khai mọi thứ trong Python và sao chép nhiều ví dụ trong sách giáo khoa. Chúng tôi cũng mở một số hộp đen của các hàm có sẵn để ước tính và suy luận bằng cách áp dụng trực tiếp các công thức đã biết trong sách giáo khoa để tái tạo kết quả. Một số phân tích bổ sung như mô phỏng Monte Carlo cung cấp thêm trực giác và hiểu biết sâu sắc

Cuốn sách được thiết kế chủ yếu dành cho sinh viên kinh tế lượng nhập môn, những người lý tưởng sử dụng "Kinh tế lượng nhập môn" của Wooldridge làm sách giáo khoa chính của họ. Nó cũng có thể hữu ích cho những độc giả quen thuộc với kinh tế lượng và có thể là các gói phần mềm khác, chẳng hạn như Stata. Đối với họ, nó cung cấp phần giới thiệu về Python và có thể được sử dụng để tra cứu việc triển khai các phương pháp kinh tế lượng tiêu chuẩn

Tất cả mã máy tính được sử dụng trong cuốn sách này đều có thể được tải xuống để dễ dàng sao chép kết quả và sửa đổi các thông số kỹ thuật

Lưu ý về các phiên bản "Kinh tế lượng nhập môn" khác

Về cuốn sách

Python kinh tế lượng

Cuốn sách bắt đầu như một phần phụ của cuốn sách chị em Sử dụng R cho kinh tế lượng nhập môn, vừa được xuất bản dưới dạng ấn bản thứ hai. Chúng tôi dựa trên cuốn sách này dựa trên phiên bản R, sử dụng cùng một cấu trúc, cùng các ví dụ và thậm chí nhiều nội dung giống nhau ở chỗ nó có nghĩa. Quyết định này không chỉ được thực hiện cho sự lười biếng. Nó cũng giúp người đọc dễ dàng chuyển đổi qua lại giữa các cuốn sách. Và nếu ai đó đã học qua cuốn sách R, cô ấy có thể dễ dàng tra cứu cách Python để đạt được kết quả chính xác như vậy và ngược lại, giúp việc học cả hai ngôn ngữ trở nên đặc biệt dễ dàng. Cuốn sách được tự xuất bản và không được biên tập chuyên nghiệp. Khi bạn vượt qua bố cục gớm ghiếc và ngữ pháp kinh khủng, bạn có thể bắt đầu tận hưởng những lợi ích

Hiểu nguồn gốc của sự nóng lên toàn cầu với cơ sở dữ liệu Wooldridge, không có thư viện thống kê hoặc cách thực hiện hồi quy tuyến tính và tính toán ma trận trong Python 3. 8, của Louis Brulé Naudet

khuyến nghị

Kiểm tra khả năng tương thích được thực hiện với Python 3. 8, được thực thi trên MacOS 11. 3 và Linux Ubuntu Server 20. 04 môi trường LTS

thư viện được sử dụng. Numpy, Gấu trúc, Bokeh, SciPy

Để làm cho chương trình có thể thực thi được với sự can thiệp tối thiểu của con người và để tối ưu hóa việc triển khai chương trình trên máy chủ, quyền tự chủ nâng cấp, tải xuống dữ liệu và xử lý ngoại lệ đã được triển khai, đặc biệt là trong lớp server_SMTP

Trước tiên, mã nguồn sẽ quan sát sự hiện diện của các thư viện cần thiết để thực thi, sau đó, tải chúng xuống trong trường hợp không có để tự động cập nhật cấu hình phần mềm của môi trường thực thi. Trên cùng một mô hình, một bản sao của cơ sở dữ liệu sẽ được tải xuống từ louisbrulenaudet. com, để tránh xung đột liên quan đến việc ghi đường dẫn truy cập trên các máy khác nhau, thông qua việc thay đổi xác minh chứng chỉ SSL

Phân tích mô tả các biến

Để đơn giản hóa việc đọc mã nguồn, chúng tôi tạo một chức năng tập trung các khối lệnh con cho phép thực hiện các tính toán khác nhau về độ phân tán và vị trí

Cách giải thích khả thi đầu tiên là giá trị trung bình gần như cao hơn một cách có hệ thống so với giá trị trung bình của mỗi chuỗi, như trường hợp của tổng lượng khí thải CO2 trên thế giới, hoặc biến được giải thích. nhiệt độ trung bình (phân phối chủ yếu không đối xứng bên phải). Quan sát thứ hai, lượng khí thải CO2 từ sản xuất và đốt cháy xi măng về cơ bản thấp hơn so với khí thải, dầu mỏ hoặc sản xuất than đá. Cụ thể, lượng khí thải CO2 từ hai yếu tố sau là lớn nhất được biết đến trong cơ sở dữ liệu của chúng tôi. Về mặt thực tế và để nâng cao trải nghiệm người dùng, bằng cách cung cấp đồ họa tương tác trong HTML/JavaScript, tất cả các biểu diễn đều có thể truy cập trực tuyến. Do đó, có thể xem phần nổi bật về sự thay đổi theo thời gian của các biến giải thích và biến được giải thích bằng cách nhấp vào đây (trang cuộn dọc). Biểu diễn đồ họa chứng thực trực giác của chúng tôi và chúng tôi quan sát thấy sự tăng trưởng tổng thể của tất cả các biến giải thích và của biến được giải thích theo thời gian, ngoại trừ lượng khí thải CO2 từ đốt cháy và đáng kể đối với lượng khí thải từ sản xuất xi măng. Mức tăng trưởng gần như tuyến tính được quan sát đối với mức tiêu thụ năng lượng sơ cấp và bất thường hơn một chút đối với tổng lượng khí thải CO2. Biến được giải thích cho thấy sự tăng trưởng không thể phủ nhận trong dài hạn, nhưng đáng ngờ hơn trong trung hạn (quy mô nửa thập kỷ)

Để hạn chế việc sử dụng thư viện, tất cả các phân tích thống kê đã được phát triển từ các khối hướng dẫn độc quyền. Theo định nghĩa, phương sai theo kinh nghiệm của một chuỗi thống kê tuy nhiên bị sai lệch bởi vì

Tuy nhiên, nếu n>1, theo tính tuyến tính của kỳ vọng, phương sai ước tính thu được bằng cách nhân phương sai đo được trên mẫu với

Là một ước lượng hội tụ và không chệch của bình phương sigma. Như vậy, các công thức được áp dụng trong mã nguồn lần lượt là

Các giá trị độ lệch chuẩn tương đối lớn được quan sát cho tất cả các biến giải thích, ngoại trừ lượng khí thải CO2 từ quá trình đốt và sản xuất xi măng, đồng nghĩa với sự phân tán về độ lớn giữa các giá trị của từng mẫu, do đó khẳng định không có tính bất biến theo thời gian và có xu hướng biến đổi

Tương quan và hồi quy tuyến tính đơn giản

Đối với phần còn lại của công việc, chúng tôi cố gắng phủ nhận giả định về tính độc lập giữa các biến giải thích và biến được giải thích, để đạt được một điều chỉnh affine gần đúng nhất với từng đám mây điểm trong mặt phẳng

Quan sát đầu tiên là mối tương quan Pearson (một đại lượng không thứ nguyên), một dạng hiệp phương sai được chuẩn hóa để định lượng độ lệch chung của hai biến so với kỳ vọng tương ứng của chúng, tương đối cao đối với tất cả các biến giải thích được đề cập ở trên và ngược lại, thấp đối với CO2 . Tuy nhiên, không có biến nào có hệ số tương quan nhỏ hơn 0. 1, chúng ta có thể ước tính rằng tất cả chúng ít nhiều đều là nguồn phụ thuộc cho biến được giải thích. Tổng lượng phát thải CO2 và tiêu thụ năng lượng sơ cấp là hai biến giải thích tương quan nhất với nhiệt độ. Hồi quy được thử nghiệm trong phân tích của chúng tôi dựa trên phương pháp bình phương nhỏ nhất thông thường, i. e. giảm thiểu tổng bình phương của phần dư giữa mỗi điểm của đám mây hồi quy và điểm được chiếu của nó. Do đó, mô hình hồi quy đơn giản tìm cách thiết lập mối quan hệ tuyến tính giữa hai biến bằng cách xác định các ước lượng không chệch tốt nhất của vectơ hệ số β

Hệ số β1 được hiểu là tác động biên của một đơn vị biến giải thích bổ sung đối với biến được giải thích. Đối với hồi quy tuyến tính đơn biến, bình phương R được định nghĩa là tỷ lệ của phương sai được giải thích bởi hồi quy SES trên tổng phương sai SST và đo mức độ gần của dữ liệu với đường hồi quy phù hợp. Do đó, một hệ số xác định gần bằng 1 sẽ chỉ ra rằng mô hình giải thích tất cả sự biến thiên của dữ liệu phản hồi xung quanh giá trị trung bình và ngược lại, một hệ số giảm sẽ thể hiện hồi quy không giải thích được sự phụ thuộc giữa các biến. Trong nghiên cứu của chúng tôi, chúng tôi quan sát thấy rằng hệ số phù hợp quan trọng nhất là hồi quy nhiệt độ đối với lượng khí thải CO2 từ sản xuất khí đốt. Kết quả này khẳng định một lần nữa các giả định của chúng tôi. Một điểm bất thường mà chúng ta có thể cố gắng giải thích, đó là hệ số tương quan thấp liên quan đến lượng khí thải CO2 từ sản xuất dầu. Về mặt đồ họa, chúng tôi quan sát thấy rằng phân phối sẽ tiếp cận một hàm số mũ, điều này sẽ giải thích sự không phù hợp với định nghĩa của hồi quy tuyến tính. Vì lý do này, tất cả các hồi quy có sẵn bằng cách nhấp vào đây. Một quan sát khác liên quan đến hệ số β1 liên quan đến lượng khí thải CO2 do đốt cháy. Phải thừa nhận rằng cái này cao đáng kể so với những cái khác, tuy nhiên, hệ số xác định rất thấp cho chúng ta thấy sự thiếu ý nghĩa của hồi quy. Lời chỉ trích này được phản ánh về mặt toán học bởi giá trị tương đối lớn hơn của lỗi tiêu chuẩn và giá trị p. Định lượng ý nghĩa thống kê, giá trị của nó gần bằng 0. 05 cho thấy rằng kết quả tương tự sẽ có thể xảy ra nếu giả thuyết không được xác minh. Không giống như biến này, tất cả các hồi quy khác đều có ý nghĩa thống kê đối với giá trị p. Về thống kê t, chúng tôi nhận thấy trực giác của mình, cụ thể là loại bỏ sự bất thường của lượng phát thải CO2 từ sản xuất dầu, rằng các hồi quy quan trọng nhất là kết quả của sản xuất khí đốt, tiêu thụ năng lượng sơ cấp và tổng lượng phát thải CO2

Thiếu sót chính của hồi quy tuyến tính đơn giản là sự tồn tại của độ lệch biến bị bỏ qua. Do đó, ngoài tính đồng thời, mối tương quan giữa các biến giải thích và thuật ngữ sai số có thể xảy ra khi một biến bị bỏ sót ảnh hưởng đến cả biến được giải thích và (các) biến giải thích. Điều này sẽ cho phép chúng tôi giải thích sự bất thường của chúng tôi. Một phương pháp để hạn chế sai lệch này là đưa ra một số biến giải thích trong hồi quy tuyến tính bội. Để làm điều này, trước tiên chúng tôi đã chuẩn hóa dữ liệu để tránh bất kỳ tác động tiêu cực nào đến hiệu suất của thuật toán giảm độ dốc. Vì các giá trị của nhiệt độ trung bình có thể âm, nên chúng tôi không áp dụng phép biến đổi logarit mà áp dụng phép biến đổi chuẩn, cụ thể là

Sau đó, tỷ lệ này cho phép chúng tôi bù đắp cho sự khác biệt lớn về mức độ giữa từng loại phát thải

Tương quan và hồi quy tuyến tính bội

Thuật toán giảm độ dốc nhằm mục đích tối ưu hóa khả vi. Do đó, nó nhằm cực tiểu hóa một hàm thực khả vi được xác định trên không gian Euclide. Thuật toán được lặp đi lặp lại và tiến hành bằng các cải tiến liên tiếp, cho đến khi hội tụ. Sau đó, chúng tôi cố gắng giảm thiểu độ dốc, tổng quát hóa nhiều chiều của đạo hàm. Hệ số học sẽ được định nghĩa là một tham số cho phép điều chỉnh hiệu chỉnh và mở rộng là tốc độ hội tụ. Trong khuôn khổ của mô hình của chúng tôi, chúng tôi tìm thấy

Để tối ưu hóa việc xác định hệ số huấn luyện α và hệ số β của hồi quy, một danh sách các giá trị có thể sẽ được tạo bằng cách lặp lại trên từng giá trị, để chỉ giữ lại hệ số xác định cao nhất cho hồi quy bội.

Theo kinh nghiệm, chúng tôi tìm thấy một bình phương R của 0. 900927, xác nhận đề xuất của chúng tôi về độ lệch biến bị bỏ qua. Thật vậy, chưa bao giờ với một hồi quy tuyến tính đơn giản, chúng tôi lại thu được kết quả cao như vậy cho thống kê này

Dự báo trung và dài hạn

Từ quan sát này, chúng ta có thể thiết lập các dự báo về giá trị của nhiệt độ trung bình trong trung hạn và dài hạn bằng cách thực hiện các phép biến thiên mọi sự vật đều như nhau, trên mỗi biến số, tăng giảm. Do đó, chúng ta sẽ có thể thiết lập các biện pháp cần thực hiện để giảm nhiệt độ toàn cầu. Đối với phân tích của chúng tôi, chúng tôi đã quyết định thực hiện các biến thể tăng và giảm tương ứng là 5%, 10%, 25%, 50%, 100% và 200%, dựa trên giá trị đã biết cuối cùng cho từng biến trong cơ sở dữ liệu của chúng tôi

Chúng tôi quan sát thấy rằng trong ngắn hạn và trung hạn, các tác động là không rõ ràng, tuy nhiên, về dài hạn, chúng tôi nhận thấy rằng sự gia tăng đáng kể lượng khí thải CO2 từ sản xuất dầu, khí đốt và xi măng, ảnh hưởng đáng kể đến nhiệt độ trung bình. Xi măng không được đề cập ngay từ đầu cuộc thảo luận của chúng tôi, nhưng phát hiện này đặc biệt phù hợp với mức độ tương đối của β1 liên quan đến hồi quy tuyến tính đơn giản và hệ số xác định của nó. Nó thậm chí dường như là nguồn phát thải CO2 lớn thứ hai trong thời gian dài, nếu mức tăng của nó là rất lớn. Tác động này được giải thích bởi hai yếu tố. việc sản xuất clinker trong các nhà máy xi măng đòi hỏi phải khử cacbon đá vôi, dạng canxi ổn định nhất trong tự nhiên và nung nó với sự có mặt của silica

Do đó, một trong những giả thuyết về việc giảm lượng khí thải CO2 toàn cầu, dường như có mối tương quan chặt chẽ với sự gia tăng nhiệt độ trung bình, sẽ là thúc đẩy việc sử dụng nhiên liệu không cacbonat thay thế nhiên liệu hóa thạch. Khí tự nhiên phải trải qua quá trình xử lý bao gồm loại bỏ các nguyên tố ăn mòn, chẳng hạn như lưu huỳnh, và các quá trình này là tất cả các nguyên tố góp phần phát thải CO2 vào khí quyển. Một giải pháp thay thế sẽ là sử dụng viên nén gỗ để sưởi ấm trong gia đình hoặc máy bơm nhiệt. Tuy nhiên, một giải pháp cho phép cân bằng hoàn hảo giữa tiện nghi sống và giảm lượng khí thải có vẻ khó tìm. Thật vậy, dường như không tưởng khi chỉ có thể sưởi ấm bằng điện, với một nguồn điện tái tạo hoàn toàn như năng lượng gió. Tuy nhiên, vẫn không thể phủ nhận rằng việc sản xuất điện bằng phản ứng phân hạch nguyên tử dường như là một trong những giải pháp ít gây ô nhiễm nhất về carbon dioxide. Nó thậm chí còn là một giải pháp thay thế tốt hơn cho quang điện, với sản lượng từ 100 đến 200 g CO2/kWh, cao gấp ba lần so với năng lượng hạt nhân. Cuối cùng, và phù hợp với các chỉ thị công khai đang được thực hiện ở các nước Tây Âu, việc giảm lượng khí thải do sản xuất dầu gây ra dường như là một trục cải tiến chính để giảm nhiệt độ toàn cầu. Điều này đặt ra vấn đề tương tự như đối với khí đốt, đó là làm thế nào để tìm ra một hệ thống dễ tiếp cận, linh hoạt và hiệu quả như dầu mỏ, đồng thời giảm sản xuất khí nhà kính?

Ảnh của NOAA trên Bapt

Đề xuất về năng lượng điện trở lại như một giải pháp thần kỳ, ngoại trừ việc lưu trữ nó, yêu cầu sử dụng pin lithium, một kim loại kiềm khó tái chế với chi phí thấp hơn hiện nay. Trong lĩnh vực giao thông vận tải, hydro dường như cũng là một triển vọng phát triển thú vị, cũng như nhiên liệu sinh học, được sản xuất từ ​​vật liệu hữu cơ. Tuy nhiên, hồi quy bội của chúng tôi vẫn còn mơ hồ về tác động của tiêu thụ năng lượng sơ cấp, cũng như tác động của sản xuất than, mặc dù hệ số xác định của nó cho thấy sự phụ thuộc vào nhiệt độ toàn cầu. Hãy để chúng tôi kết thúc phân tích của mình với nghịch đảo của hệ thống của chúng tôi về tất cả các biến thể bằng nhau khác, tác động tiêu cực lên từng biến. Không tưởng, các biện pháp chúng tôi đề xuất sẽ cho phép chúng tôi giảm nhiệt độ toàn cầu

Ghi chú. Độ lệch có thể có của các biến bị bỏ qua do kích thước nhỏ của cơ sở dữ liệu ban đầu là nguồn gốc của sự bất thường do phân tích của chúng tôi. Các nguồn khí nhà kính khác phải tồn tại và khả năng trái đất đang nóng lên độc lập với hoạt động của con người không bị bỏ qua

Louis Brulé Naudet, có bằng kép về Luật và Kinh tế/Quản lý của Đại học Paris-Saclay

Python có tốt cho kinh tế lượng không?

Python là ngôn ngữ lập trình có mục đích chung được sử dụng rộng rãi, rất phù hợp với kinh tế lượng , phân tích dữ liệu và các bài toán số tổng quát khác.

R hay Python tốt hơn cho kinh tế lượng?

Mặc dù nó đã nhanh chóng tăng số lượng thư viện hữu ích cho nghiên cứu kinh tế và thường có các thư viện phong phú hơn cả Matlab và Python, R. R is by far the richest. It has a library for almost every possible statistical calculation one could imagine.

Kinh tế lượng có mã hóa không?

Mặc dù phổ biến trong thực hành kinh tế lượng, lập trình hầu như không có trong chương trình giảng dạy kinh tế lượng .

4 loại dữ liệu trong kinh tế lượng là gì?

Chúng tôi quan tâm đến bốn loại dữ liệu. dữ liệu theo ngành, dữ liệu theo chuỗi thời gian, dữ liệu theo ngành tổng hợp và dữ liệu theo chiều dọc (còn gọi là bảng điều khiển) .