Cập nhật thông tin chi tiết về Tổng Quan Về Regression (Phân Tích Hồi Quy) mới nhất trên website Caffebenevietnam.com. Hy vọng nội dung bài viết sẽ đáp ứng được nhu cầu của bạn, chúng tôi sẽ thường xuyên cập nhật mới nội dung để bạn nhận được thông tin nhanh chóng và chính xác nhất.
Bigdatauni.com
Follow Fanpage
Contact
Ở những bài viết trước về các thuật toán cây quyết định, Decision trees hay Classification & Regression trees, chúng tôi đã đề cập đến phương pháp phân tích hồi quy, Regression analysis, cụ thể trong phần cuối cùng về Regression tree, cách sử dụng cây quyết định để dự báo giá trị của biến mục tiêu (là biến định lượng), dựa trên các thuộc tính, đặc điểm nằm ở những biến đầu vào còn lại của các đối tượng dữ liệu. Mô hình cây quyết định sử dụng chính nguyên lý hoạt động của các phương trình hồi quy, đó là tìm ra mối quan hệ giữa những biến độc lập với biến phụ thuộc, giữa những biến đầu vào và biến dự báo, cũng vì vậy nên được gọi là Regression tree.
Ví dụ được lấy từ tài liệu “Data mining for business analytics – concepts, techniques and applications in R” của tác giả Galit Shmueli và các cộng sự. Bên trên là mô hinh Regression tree dự báo giá của một chiếc xe Toyota dựa trên 3 biến: tuổi đời chiếc xe (Age), trọng lượng (Weight) và mã lực (Horse power – HP), đã được chọn lọc trong 12 biến có được trong tập dữ liệu về 1000 chiếc xe Toyota Corolla, được lấy ra 600 để làm tập dữ liệu training. Ví dụ với chiếc xe có độ tuổi là 55, mã lực bằng 100 thì có thể bán với giá 9358$.
Các bạn có thể thấy mối quan hệ giữa độ tuổi với giá trị của chiếc xe, tức độ tuổi cao hay thấp sẽ có tác động nhất định với giá trị của chiếc xe, tương tự như mã lực cao hay thấp, tuy nhiên tác động của độ tuổi, và mã lực đến giá xe, tác động nào mạnh hơn, lớn hơn? Dựa trên mô hình cây quyết định chúng ta khó có thể xác định được. Cũng chính vì thế, để diễn giải kết quả phân tích hồi quy, hoặc mô tả mối quan hệ theo cách định lượng hóa, thì mô hình cây quyết định thường không được phổ biến hay ưu tiên áp dụng, mà thay vào đó là sử dụng những phương trình hay mô hình hồi quy bao gồm các công thức định lượng mối quan hệ giữa các biến, các phương pháp kiểm định để chắc chắn các biến có mối liên hệ, và kết hợp với những đồ thị trực quan.
Phần 2 bài viết, chúng ta sẽ tìm hiểu về cách thức xác định mối quan hệ giữa 2 biến đơn giản bất kỳ, sử dụng Correlation và Regression (dạng đầu tiên Simple linear regression).
Correlation và Regression là gì?
Có lẽ sẽ có bạn thắc mắc tại sao trọng tâm bài viết là về Regression nhưng chúng tôi lại đề cập về phương pháp phân tích sự tương quan, Correlation, đầu tiên. Đơn giản, chúng ta có thể xác định biến mục tiêu và biến độc lập có quan hệ với nhau hay không và quan hệ như thế nào về mặt định lượng chỉ bằng phương pháp hồi quy. Tuy nhiên trong những trường hợp chúng ta muốn tìm hiểu nhanh liệu 2 biến bất kỳ có quan hệ với nhau, mức độ quan hệ ra sao hay không mà chưa cần dùng đến phương pháp hồi quy phức tạp hay muốn kiểm chứng từ phương trình hồi quy lần nữa xem 2 biến có quan hệ với nhau không, thì phương pháp phân tích tương quan sẽ cho chúng ta kết quả nhanh chóng. Qua các giải thích trên chắc các bạn đã phần nào hiểu được phân tích tương quan là gì.
Correlation là phương pháp nghiên cứu mối quan hệ tuyến tính giữa 2 hay nhiều biến khác nhau, dựa trên đo lường mức độ quan hệ, hay cường độ quan hệ tuyến tính.
Điểm khác biệt thứ nhất giữa tương quan và hồi quy mà chúng tôi trình bày trong bài viết này, đó là Correlation không quan tâm biến nào sẽ là biến độc lập và biến nào sẽ là biến phục thuộc, các biến ở vị thế “ngang nhau”, tức biến này có thể tác động lên biến kia và ngược lại, còn Regression chỉ quan tâm đến biến mục tiêu, tìm hiểu xem các biến khác sẽ tác động ra sao lên biến mục tiêu này.
Correlation sử dụng hệ số tương quan (Correlation Coefficient) và phương pháp kiểm định hệ số tương quan để xem xét giữa các biến có mối quan hệ tương quan hay nhau. Lưu ý lần nữa, tương quan theo nghĩa tiếng Việt đơn giản là tác động qua lại giữa hai phía, nghĩa là phương pháp này có thể xem xét mối liên hệ theo 2 chiều, còn Regression thì thể hiện khía cạnh 1 chiều (biến độc lập tác động thế nào đến biến mục tiêu chứ không xét ngược lại).
Regression là phương pháp nghiên cứu mối quan hệ giữa 2 biến mà cụ thể một biến sẽ là biến độc lập (ảnh hưởng đến biến mục tiêu), và biến còn lại sẽ là biến mục tiêu (bị ảnh hưởng bởi biến độc lập), mô hình hóa, định lượng hóa mối quan hệ này để qua đó có thể xác định được giá trị của biến mục tiêu nếu các biến độc lập thay đổi như thế nào.
Điểm khác biệt thứ hai, có thể là khác biệt lớn nhất đó chính là kết quả của phân tích hồi quy, chính là kết quả dự báo của biến mục tiêu. Đây là cơ sở để Regression còn là phương pháp chính trong Predictive analytics (phân tích dự báo) bên cạnh là kiến thức nền tảng trong lĩnh vực thống kê (Statistics) và khai phá dữ liệu (Data mining). Còn kết quả của Correlation chỉ dừng lại ở việc đánh giá có mối quan hệ giữa 2 biến hay không, đo lường chiều hướng và tính bền vững trong mối quan hệ này. Cụ thể hệ số tương quan của Correlation sẽ nằm từ -1 đến 1:
Giải thích một chút về từ quan hệ tuyến tính (linear relationship), như các bạn đã từng được học ở các lớp phổ thông hay trung học về đồ thị hàm số, cho các giá trị của x và các giá trị y tương ứng, nhiệm vụ là tìm phương trình và vẽ đồ thị. Nếu phương trình mà các bạn lập được thành công, và đồ thị các bạn vẽ được là một đường thẳng thì lúc này các bạn đã chứng minh giữa x và y đã có mối quan hệ tuyến tính (chưa xét đến nghịch hay thuận).
Nhưng đó chỉ là bài toán rất đơn giản để chúng ta hiểu thế nào là mối quan hệ tuyến tính giữa x và y. Trong thực tế, khi tìm hiểu về mối quan hệ giữa 2 hay nhiều đối tượng, hiện tượng nghiên cứu khác nhau ở mọi lĩnh vực và đảm bảo kết quả chính xác thì dữ liệu cần phân tích là rất nhiều, do đó các công thức tính toán như trước đây chúng ta từng được học sẽ không thể nào áp dụng. Lúc này phương pháp Correlation và Regression sẽ cực kỳ hữu dụng. Giả sử chúng ta có một tập dữ liệu gồm nhiều giá trị x, và tương ứng với mỗi giá trị x là một giá trị, chúng ta sẽ có các điểm dữ liệu gọi là Mi (xi, yi), nếu các điểm dữ liệu này nằm trên cùng một đường thẳng chứng tỏ x và y có quan hệ tuyến tính và ngược lại.
Giá trị x tăng thì y tăng theo, lúc này x và y có quan hệ tuyến tính thuận, hệ số tương quan sẽ lớn hơn 0 nhưng chưa chắc tiến gần 1, chưa có cơ sở khẳng định mối quan hệ này vững chắc.
Hình trên thì x và y không thể hiện mối quan hệ tuyến tính, lúc này hệ số tượng quan có thể gần giá trị 0.
Giá trị x giảm, giá trị y lại tăng, x và y thể hiện mối quan hệ tuyến tính nghịch, lúc này hệ số tương quan sẽ mang giá trị âm và nhỏ hơn 0, nhưng chưa chắn tiến gần giá trị -1 và không có cơ sở khẳng định mối quan hệ này là bền vững.
Giá trị x tăng, y chắc chắn sẽ tăng, lúc này x và y thể hiện mối quan hệ tuyến tính thuận và cực kỳ bền vững và hoàn hảo, lúc này giá trị của hệ số tương quan có thể bằng 1.
Giá trị của x giảm, và y chắc chắn tăng, lúc này giữa x và y thể hiện mối quan hệ tuyến tính nghịch, và mối quan hệ này bền vững, giá trị của hệ số tương quan sẽ bằng -1. Công thức của hệ số tương quan tổng quát như sau:
Với Sxy là hiệp phương sai (Covariance) của x và y, Sx là độ lệch chuẩn của các giá trị x, Sy là độ lệch chuẩn của các giá trị y. Hiệp phương sai của x và y cũng là một chỉ số thể hiện sự tương quan của 2 biến bất kỳ. Bên cạnh việc tính toán hệ số tương quan, chúng ta còn có thể sử dụng phương pháp kiểm định giả thuyết t để củng cố kết luận của mình. Lưu ý công thức ở trên áp dụng cho xác định mối quan hệ giữa x và y cho bộ dữ liệu mẫu (Sample) không phải dữ liệu tổng thể.
Ở bài viết sắp tới về cách phân tích mối quan hệ giữa 2 biến bất kỳ, chúng tôi sẽ trình bày lại Correlation trong ví dụ cụ thể, tương tự như dạng đầu tiên của Regression là Simple linear regression. Còn ở phần 1 kỳ này chúng tôi chỉ dừng lại ở phần giới thiệu mà thôi.
Correlation và Regression là 2 phương pháp thường song hành nhau trong lĩnh vực thống kê. Ví dụ như nếu chỉ sử dụng Correlation, và nhìn vào biểu đồ hay giá trị của hệ số tương quan chúng ta sẽ thấy được mối quan hệ tuyến tính giữa x và y chỉ trong dữ liệu lịch sử, vậy muốn lập phương trình, muốn đưa ra dự báo về giá trị y khi trong tương lai giá trị x thay đổi một lượng bất kỳ, thì chúng ta phải sử dụng phương pháp Regression. Đối với dạng tuyến tính cho 2 biến, thì chúng ta có phương trình hồi quy tổng quát, và đơn giản nhất của Regression như sau:
Với y là biến phụ thuộc (chịu ảnh hưởng của biến x), là biến chúng ta sẽ dự báo giá trị, x là biến độc lập (biến tác động lên biến phụ thuộc), β0 là giá trị ước lượng của y khi x đạt giá trị 0, β1 là độ dốc của đường hồi quy tuyến tính, nói cách khác là mức độ thay đổi của y khi x thay đổi 1 đơn vị, ε là sai số, thể hiện giá trị của các yếu tố khác không thể nghiên cứu hết và các yếu tố này vẫn tác động lên giá trị của y.
Cách xác định các tham số sẽ được chúng tôi trình bày ở bài viết sắp tới. Tuy nhiên trong thực tế chúng ta không chỉ có nghiên cứu mối quan hệ giữa 2 biến độc lập và biến phụ thuộc, mà còn nghiên cứu mối quan hệ của nhiều biến độc lập và biến phụ thuộc, và không chỉ có mối quan hệ tuyến tính mà còn nhiều mối quan hệ phức tạp hơn giữa các biến mà chúng ta phải khai phá. Chính vì thế chúng ta có nhiều phương trình hồi quy và nhiều đồ thị trực quan thể hiện các phương trình từ đơn giản đến phức tạp khác nhau. Do đó mặc dù là kiến thức nền tảng và xuất hiện đầu tiên trong lĩnh vực thống kê (Statistics) nhưng Regression với nhiều dạng khác nhau, được ứng dụng nhiều trong các lĩnh vực khác nhau không chỉ riêng ở lĩnh vực khoa học dữ liệu.
Các dạng, các loại mô hình (phương trình) hồi quy phổ biến
Các mô hình hồi quy có thể được phân loại theo nhiều cách như các mô hình tuyến tính (linear) và phi tuyến tính (non-linear); các mô hình áp dụng cho biến định lượng và các mô hình áp dụng cho biến định tính; các mô hình áp dụng cho phân tích mối quan hệ giữa 2 biến hay nhiều hơn 2 biến; các mô hình có tham số và không có tham số; các mô hình cổ điển và hiện đại (những mô hình mở rộng).
Linear Regression
Simple linear regression, đây được xem là mô hình hồi quy đơn bội, đơn giản nhất và phổ biến nhất, chỉ nghiên cứu mối quan hệ tuyến tính giữa một biến độc lập và biến phụ thuộc, áp dụng cho biến định lượng, và đồ thị là dạng đường thẳng
Phương trình tổng quát:
Đồ thị minh họa
Multiple regression (Multi linear regression), mô hình hồi quy đa bội áp dụng cho nghiên cứu mối quan hệ của nhiều biến độc lập và một biến phụ thuộc, áp dụng cho biến định lượng. Phương trình tổng quát:
Đồ thị minh họa (nguồn hình Analyticsvidhya post – Medium)
Logistic Regression
Mô hình hồi quy Logit áp dụng cho biến phụ thuộc là biến định đính hoặc định lượng chỉ có 2 giá trị, hay còn gọi là biến thay phiên (Binary) ví dụ y chỉ có 2 giá trị là 0 và 1, có hoặc không,… Phương trình tổng quát: Logistic Regression cho đơn biến
Logistic Regression cho mô hình đa biến
(Nguồn hình: En.wikipedia)
Polynominal Regression
Mô hình hồi quy Polynominal áp dụng cho các trường hợp mà biến độc lập x có bậc mũ lớn hơn 1, và y là biến định lượng. Phương trình tổng quát:
Đồ thị của mô hình hồi quy này không phải đường thẳng, và là một đường cong, do đó đây không phải dạng hồi quy tuyến tính.
Đồ thị minh họa:
(Nguồn hình towardsdatascience )
Quantile Regression
Là dạng mô hình hồi quy mở rộng của hồi quy tuyến tính – Linear regression, tìm hiểu mối quan hệ tuyến tuyến giữa biến độc lập và biến phụ thuộc trong trường hợp bộ dữ liệu có các giá trị ngoại lệ (outliers), độ lệch/ chệch cao của phân phối dữ liệu (high skewness), mức độ không đồng nhất của dữ liệu. Mô hình dựa trên xem xét phân phối tổng thể của dữ liệu, không chỉ sử dụng mỗi giá trị trung bình để tính toán, xây dựng công thức như trong linear regression.
Quantile chính là phân vị trong lĩnh vực thống kê, là phương pháp xác định với n % bất kỳ của bộ dữ liệu thì phân phối các giá trị của dữ liệu trong n % là như thế nào (các giá trị đãđược sắp xếp từ nhỏ đến lớn) để đánh giá độ phân tán của dữ liệu, và tại phân vị thứ n này giá trị đạt được của biến là bao nhiêu. Phương trình tổng quát của Quantile Regression tương tự như Linear regression, và y biến định lượng liên tục (Continuous varibale), tuy nhiên Quantile Regression hướng đến giảm thiểu sai số của mô hình với công thức tổng quát như sau: Phương trình tổng quát:
Công thức tính sai số có trọng số theo mô hình hồi quy
Với τ là phân vị cần xét của tập dữ liệu.
Đồ thị minh họa:
Ridge Regression (Shrinkage regression)
Mô hình Ridge Regression là phương pháp áp dụng khi bộ dữ liệu gặp vấn đề về đa cộng tuyến (các biến độc lập x có mối liên hệ với nhau, và ảnh hưởng lên kết quả dự báo của y), hay giải quyết các vấn đề về Overfitting (mô hình áp dụng tốt cho dữ liệu training nhưng không không hoạt động tốt trên dữ liệu test) mà mô hình hồi quy tuyến tính thông thường gặp phải. Phương trình tổng quát của linear regression cho đơn biến và đa biến các bạn có thể để ý sẽ thấy giá trị ε ở đằng sau mỗi phương trình.
Đậy là sai số của các phương trình hồi quy, là chênh lệch giữa kết quả dự báo và kết quả thực tế. Các sai số được chia thành 2 phần: Biased (thiên vị), Variance (phương sai). Biased là trường hợp mô hình phân tích không khớp, không đem lại kết quả chính xác trên tập dữ liệu training, còn Variance là đối với dữ liệu test. Mối quan hệ đánh đổi giữa Biased và Variance xét trên mức độ phức tạp của mô hình, chúng tôi sẽ đề cập vấn đề này trong chính bài viết về Ridge regression sắp tới.
Nguồn hình chúng tôi
Ridge Regression là mô hình hồi quy phân tích mối quan hệ giữa các biến độc lập và biến phụ thuộc sử dụng phương pháp Regularization, điều chỉnh mô hình sao cho giảm thiểu các vấn đề Overfitting, tối ưu hay kiểm soát mức độ phức tạp của mô hình để cân đối giữa Biased và Variance qua đó giảm sai số của mô hình. Công thức tổng quát của mô hình:
Hệ số lambda còn gọi là tham số Regularization, hay tham số Penalty, hay tham số Shrinkage, là số luôn dương, là giá trị mà ở đó phương trình tuyến tính sẽ được “tinh chỉnh” sao cho sai số của mô hình được giảm tối đa, nghĩa là giá trị lambda nào mà mô hình đạt MSE (Mean Square Error) sẽ được chọn, wj là hệ số β của phương trình hồi quy tuyến tính.
Cách triển khai công thức như thế nào, áp dụng phương pháp Regularization chúng tôi sẽ trình bày lại ở bài viết về Ridge Regression. Đồ thị minh họa:
Nguồn hình: stats.stackexchange.com
Lasso Regression
Lasso viết tắt của Least Absolute Shrinkage and Selection Operator, là phương pháp gần giống với Ridge Regression, cũng hạn chế sự khác biệt, chênh lệch giữa kết quả dự báo và kết quả thực tế của mô hình hồi quy tuyến tính, gia tặng độ chính xác của mô hình.
Công thức tổng quát của Lasso Regression khác một chút ở phía cuối công thức, thay vì bình phương wj, hay chính là hệ số β như Ridge Regression, thì ở đây công thức Lasso lấy trị tuyệt đối.
Elastic Net Regression
Là mô hình hồi quy kết hợp mô hình Lasso và Ridge để xây dựng mô hình hồi quy xử lý vấn đề các biến độc lập x có mối quan hệ tương quan với nhau dẫn đến kết quả dự báo cho biến phụ thuộc y bị ảnh hưởng. Công thức tổng quát:
Poisson Regression
Mô hình hồi quy Poisson áp dụng cho trường hợp biến phụ thuộc, biến y mang giá trị là các số đếm, tức biến định lượng dạng rời rạc có thể đếm được, ví dụ 0, 1, 2, 3, 4. Để áp dụng mô hình hồi quy Poisson thì giá trị của biến y phải có phân phối Poisson, và là số nguyên dương.
Công thức phân phối Poisson của một giá trị x bất kỳ
Với e là hằng số Nepe gần bằng 2.71828 µ là E(x) và là trung bình của x được tính bằng n*p, ở một số tài liệu thống kê khác µ chính là λ Giá trị kỳ vọng E(x) = µ = λ, phương sai Var (x) = λ = µ. Chúng ta áp dụng cho giá trị y thì được, P là xác suất của một giá trị y = k bất kỳ
Ghép vào mô hình hồi quy với hệ số β và từng biến xi để xác định giá trị kỳ vọng cho từng giá trị của biến y. Phương trình tổng quát
Cox Regression
Mô hình hồi quy Cox áp dụng cho loại dữ liệu theo thời gian, được dùng trong phân tích sống sót “Survival analysis” ví dụ như phân tích rủi ro khách hàng rời dịch vụ theo thời gian, thời gian bệnh nhân tính từ lúc bệnh nhân bắt đầu điều trị ung thư cho đến khi qua đời,…Tức y lúc này có thể chỉ mang 2 giá trị “còn” và “không”, “sống” và “chết”, “đã rời dịch vụ” và “chưa rời dịch vụ”. Mô hình tổng quát của Cox regression sẽ có dạng:
Đồ thị minh họa:
(nguồn hình: chúng tôi
Về chúng tôi, công ty BigDataUni với chuyên môn và kinh nghiệm trong lĩnh vực khai thác dữ liệu sẵn sàng hỗ trợ các công ty đối tác trong việc xây dựng và quản lý hệ thống dữ liệu một cách hợp lý, tối ưu nhất để hỗ trợ cho việc phân tích, khai thác dữ liệu và đưa ra các giải pháp. Các dịch vụ của chúng tôi bao gồm “Tư vấn và xây dựng hệ thống dữ liệu”, “Khai thác dữ liệu dựa trên các mô hình thuật toán”, “Xây dựng các chiến lược phát triển thị trường, chiến lược cạnh tranh”.
Bài Tập Phân Tích Tương Quan Và Hồi Qui
CHƯƠNG II PHÂN TÍCH TƯƠNG QUAN VÀ HỒI QUI 2.1. Phân tích tương quan Xét một đại lượng ngẫu nhiên biến thiên X tương ứng với sự biến thiên của đại lượng Y, ta có: Y = X + Ngẫu nhiên có điều kiện Như vậy: Y = f(x) Y = X + Ngẫu nhiên (không có điều kiện) Độc lập Nếu: Y = X + Ngẫu nhiên có điều kiện + Ngẫu nhiên CHƯƠNG IIPHÂN TÍCH TƯƠNG QUAN VÀ HỒI QUI Vậy phải ước lượng dưới dạng tổng quát thống kê và hệ số tương quan là tiêu chí quan trọng. Hệ số tương quan là đại lượng không thứ nguyên: – Đại lượng ngẫu nhiên độc lập r = 0 – Đại lượng ngẫu nhiên có điều kiện càng có thể r = 0 gọi đó là đại lượng không tương quan. CHƯƠNG IIPHÂN TÍCH TƯƠNG QUAN VÀ HỒI QUI Hệ số tương quan đặc trưng cho sự phụ thuộc tuyến tính Tổng quát hệ số tương quan có giá trị trong giới hạn: – 1 0 quan hệ X, Y tồn tại tương quan dương Khi rx,y tp (f) ảnh hưởng của yếu tố thứ j có ý nghĩa với thông số tối ưu hóa yi, hệ số bj được giữ lại. * Nếu tj < tp (f) hệ số bj bị loại khỏi phương trình hồi qui (p – mức ý nghĩa, f – bậc tự do tái hiện) CHƯƠNG IIPHÂN TÍCH TƯƠNG QUAN VÀ HỒI QUI * Kiểm định sự tương thích của phương trình hồi qui: Sự tương thích của phương trình hồi qui được kiểm định theo tiêu chuẩn Fisher Trong đó: – phương sai tương thích – phương sai tái hiện CHƯƠNG IIPHÂN TÍCH TƯƠNG QUAN VÀ HỒI QUI ftt = fdư – fth = n – l l – số hệ số có nghĩa trong phương trình hồi qui. Nếu F tính được nhỏ hơn giá trị tra trong bảng F1-p (f1, f2) với mức ý nghĩa p, f1 = ftt, f2 = fth thì phương trình tương thích với thực nghiệm. CHƯƠNG IIPHÂN TÍCH TƯƠNG QUAN VÀ HỒI QUI CHƯƠNG III MỘT SỐ PHƯƠNG PHÁP QUI HOẠCH THỰC NGHIỆM 3.1. Thực nghiệm yếu tố toàn phần: – Những thực nghiệm mà mọi tổ hợp của các mức của các yếu tố đều được thực nghiệm nghiên cứu gọi là thực nghiệm yếu tố toàn phần (TYT). – Có k yếu tố, mỗi yếu tố có n mức số thí nghiệm phải thực hiện là: N = nk CHƯƠNG IIIMỘT SỐ PHƯƠNG PHÁP QUI HOẠCH THỰC NGHIỆM – Nếu các thí nghiệm chỉ thực hiện ở hai mức thì N = 2k, hai mức ở giá trị biên của yếu tố được khảo sát. – Nếu chọn thí nghiệm có một tâm đối xứng ta có phương án cấu trúc có tâm. – Xét yếu tố được ký hiệu là Zj ta có: j = 1 k Trong đó: CHƯƠNG IIIMỘT SỐ PHƯƠNG PHÁP QUI HOẠCH THỰC NGHIỆM – mức cao – mức thấp – mức cơ sở (tâm của phương án) Biến thiên của yếu tố Zj tính từ mức cơ sở: , j = 1 k – Tiện cho tính toán ta chuyển sang hệ trục không thứ nguyên nhờ chọn tâm của miền là gốc hệ trục tọa độ. , j = 1 k CHƯƠNG IIIMỘT SỐ PHƯƠNG PHÁP QUI HOẠCH THỰC NGHIỆM – Từ đó ta có mức trên là +1, mức dưới là -1 ở tâm trùng với góc tọa độ Ví dụ: Nghiên cứu tốc độ phản ứng hóa học của một phản ứng đã cho phụ thuộc vào, nhiệt độ toC nồng độ C, áp suất P. CHƯƠNG IIIMỘT SỐ PHƯƠNG PHÁP QUI HOẠCH THỰC NGHIỆM * Xác lập ma trận thực nghiệm: Các biến độc lập được chọn là: – Nhiệt độ Z1 mức cao: 300oC mức thấp 200oC – Nồng độ Z2 mức cao: 45 g/l mức thấp 35 g/l – Áp suất Z3 mức cao: 1,25 at mức thấp 0,75 at CHƯƠNG IIIMỘT SỐ PHƯƠNG PHÁP QUI HOẠCH THỰC NGHIỆM Phương án thí nghiệm được viết dưới dạng ma trận (TYT) 2 mức thí nghiệm, số biến độc lập k = 3. Số thí nghiệm được thực hiện là: N = 23 = 8 Phương án thí nghiệm và kết quả thí nghiệm được trình bày trên bảng 1 CHƯƠNG IIIMỘT SỐ PHƯƠNG PHÁP QUI HOẠCH THỰC NGHIỆM MA TRẬN TYT 23 = 8 CHƯƠNG IIIMỘT SỐ PHƯƠNG PHÁP QUI HOẠCH THỰC NGHIỆM Để thuận tiện cho nghiên cứu người ta hàm biến ảo xo, xo = 1 Ma trận qui hoạch với biến ảo TYT 23 CHƯƠNG IIIMỘT SỐ PHƯƠNG PHÁP QUI HOẠCH THỰC NGHIỆM Ma trận qui hoạch đảm bảo tính trực giao. Và * Xác lập phương trình hồi qui Nếu dùng phương trình hồi qui tuyến tính dưới dạng: CHƯƠNG IIIMỘT SỐ PHƯƠNG PHÁP QUI HOẠCH THỰC NGHIỆM Theo phương pháp tính hệ số trong phương trình hồi qui: Ma trận XTXcó dạng: CHƯƠNG IIIMỘT SỐ PHƯƠNG PHÁP QUI HOẠCH THỰC NGHIỆM Từ tính chất trên ta có: CHƯƠNG IIIMỘT SỐ PHƯƠNG PHÁP QUI HOẠCH THỰC NGHIỆM Suy ra: Tính b1 = 34,625, tương tự ta có: b2 = 63,125, b3 = -0,375, bo = 311, 125 CHƯƠNG IIIMỘT SỐ PHƯƠNG PHÁP QUI HOẠCH THỰC NGHIỆM Ta có mô hình: Y = 311,125 + 34,625×1 + 63,125×2 – 0,375×3 Để xét mô hình đầy đủ hơn Ma trận qui hoạch được mở rộng CHƯƠNG IIIMỘT SỐ PHƯƠNG PHÁP QUI HOẠCH THỰC NGHIỆM Các hiệu ứng tương tác được xác định tương tự như hiệu ứng tuyến tính. thay số vào Tương tự: b13 = – 8,625, b23 = 67,125 Phương trình hồi qui lúc này có dạng Y = 311,125 + 34,625×1 + 63,125×2 – 0,375×3 – 75,625x1x2 = 8,625x1x3 + 67,125x2x 3 CHƯƠNG IIIMỘT SỐ PHƯƠNG PHÁP QUI HOẠCH THỰC NGHIỆM * Kiểm định tính ý nghĩa của các hệ số phương trình hồi qui – Vì ma trận (XTX)-1 là ma trận đường chéo nên các hệ số độc lập với nhau. – Loại bỏ các hệ số không có nghĩa không ảnh hường đến hệ số còn lại. – Các hệ số kiểm định theo tiêu chuẩn Student (t). – Mọi hệ số của phương trình được xác định với độ chính xác. CHƯƠNG IIIMỘT SỐ PHƯƠNG PHÁP QUI HOẠCH THỰC NGHIỆM – Do không làm thí nghiệm song song để xác định phương sai tái hiện sth ta tiến hành làm 3 thí nghiệm ở tâm phương án nhận 3 giá trị theo bảng dưới: CHƯƠNG IIIMỘT SỐ PHƯƠNG PHÁP QUI HOẠCH THỰC NGHIỆM CHƯƠNG IIIMỘT SỐ PHƯƠNG PHÁP QUI HOẠCH THỰC NGHIỆM Ý nghĩa của các hệ số được kiểm định theo tiêu chuẩn Student t Ta tính được: t1 = 9,38, t2 = 17,107, t3 = 0,1016, t12 = 20,494 t13 = 2,337 t23 = 18,191 CHƯƠNG IIIMỘT SỐ PHƯƠNG PHÁP QUI HOẠCH THỰC NGHIỆM Tra bảng tp(f) với p = 0,05, f = 2 f = l – 1 bậc tự do tái hiện l số thí nghiệm song song ở tâm t0,05 (2) = 4,3 Vì t3 < tp(f), t13 < tp(f) Các hệ số b3, b13 bị loại, phương trình lúc này có dạng: CHƯƠNG IIIMỘT SỐ PHƯƠNG PHÁP QUI HOẠCH THỰC NGHIỆM * Kiểm định sự tương thích của phương trình hồi qui: Sự tương tích của phương trình hồi qui được kiểm định bằng tiêu chuẩn Fisher. Trong đó: N – số thí nghiệm l – số thí nghiệm ở tâm CHƯƠNG IIIMỘT SỐ PHƯƠNG PHÁP QUI HOẠCH THỰC NGHIỆM Thay số Tra bảng F1p (f1, f2) với p = 0,05 f1 = 3, f2 = 2 f1 – bậc tự do phương sai tương thích f1 = N – l N số thí nghiệm : 8 l hệ số có nghĩa trong phương trình hồi qui: 5 CHƯƠNG IIIMỘT SỐ PHƯƠNG PHÁP QUI HOẠCH THỰC NGHIỆM f2 – bậc tự do phương sai tái hiện f2 = N – 1 N – số thí nghiệm song song ở tâm F0,05 (3,2) = 19,2 phương trình hồi qui tương thích với thực nghiệm. CHƯƠNG IIIMỘT SỐ PHƯƠNG PHÁP QUI HOẠCH THỰC NGHIỆM
Phân Tích Và Đọc Kết Quả Hồi Quy Đa Biến Trong Spss
– Adjusted R Square hay còn gọi là R bình phương hiệu chỉnh, nó phản ánh mức độ ảnh hưởng của các biến độc lập lên biến phụ thuộc. Cụ thể trong trường hợp này, 6 biến độc lập đưa vào ảnh hưởng 67.2% sự thay đổi của biến phụ thuộc, còn lại 32.8% là do các biến ngoài mô hình và sai số ngẫu nhiên .
Xây dựng xong một mô hình hồi quy đa biến, vấn đề quan tâm đầu tiên của bạn phải là xem xét độ phù hợp của mô hình đối với tập dữ liệu qua giá trị Adjusted R Square (hoặc R Square) như đã trình bày ở mục 1. Nhưng cần nhớ rằng, sự phù hợp này mới chỉ thể hiện giữa mô hình bạn xây dựng được với tập dữ liệu là MẪU NGHIÊN CỨU.
Tổng thể rất lớn, chúng ta không thể khảo sát hết toàn bộ, nên thường trong nghiên cứu, chúng ta chỉ chọn ra một lượng mẫu giới hạn để tiến hành điều tra, từ đó suy ra tính chất chung của tổng thể. Mục đích của kiểm định F trong bảng ANOVA chính là để kiểm tra xem mô hình hồi quy tuyến tính này có suy rộng và áp dụng được cho tổng thể hay không.
Cụ thể trong trường hợp này, giá trị sig của kiểm định F là 0.000 < 0.05. Như vậy, mô hình hồi quy tuyến tính xây dựng được phù hợp với tổng thể .
3. Bảng Coefficients
Đầu tiên là giá trị Sig kiểm định t từng biến độc lập, sig nhỏ hơn hoặc bằng 0.05 có nghĩa là biến đó có ý nghĩa trong mô hình, ngược lại sig lớn hơn 0.05, biến độc lập đó cần được loại bỏ.
Tiếp theo là hệ số hồi quy chuẩn hóa Beta, trong tất cả các hệ số hồi quy, biến độc lập nào có Beta lớn nhất thì biến đó ảnh hưởng nhiều nhất đến sự thay đổi của biến phụ thuộc. Do đó khi đề xuất giải pháp, các bạn nên chú trọng nhiều vào các nhân tố có Beta lớn. Nếu hệ số Beta âm nghĩa là biến đó tác động nghịch, hệ số Beta dương, biến đó tác động thuận. Khi so sánh thứ tự độ lớn, chúng ta xét giá trị tuyệt đối của hệ số Beta.
Cuối cùng là VIF, giá trị này dùng để kiểm tra hiện tượng đa cộng tuyến. Theo lý thuyết nhiều tài liệu viết, VIF < 10 sẽ không có hiện tượng đa cộng tuyến. Tuy nhiên trên thực tế với các đề tài nghiên cứu có mô hình + bảng câu hỏi sử dụng thang đo Likert thì VIF < 2 sẽ không có đa cộng tuyến, trường hợp hệ số này lớn hơn hoặc bằng 2, khả năng cao đang có sự đa cộng tuyến giữa các biến độc lập. Để hiểu rõ hơn về nguyên nhân, dấu hiệu nhận biết và giải pháp khắc phục đa cộng tuyến, các bạn có thể xem qua bài viết: Đa cộng tuyến: Nguyên nhân, dấu hiệu nhận biết và cách khắc phục. Với dữ liệu mình đang chạy, như các bạn thấy sig hệ số hồi quy của các biến độc lập đều nhỏ hơn hoặc bằng 0.05, do đó các biến độc lập này đều có ý nghĩa giải thích cho biến phụ thuộc, không biến nào bị loại bỏ. Hệ số VIF nhỏ hơn 2 do vậy không có đa cộng tuyến xảy ra .
Riêng cột Tolerance, các bạn sẽ thấy một số bài nghiên cứu, tài liệu sử dụng hệ số này để kiểm tra đa cộng tuyến. Nhưng ở đây mình không dùng, bởi vì hệ số này là nghịch đảo của VIF, nên các bạn có thể sử dụng 1 trong 2, cái nào cũng được, thường mọi người hay dùng VIF hơn.
Như vậy phương trình hồi quy chuẩn hóa sẽ là:
F_YD = 0.317*F_NT + 0.414*F_NTi + 0.351 *F_KSD
+ 0.251*F_DM + 0.365*F_KST + 0.242*F_GT
4. Biểu đồ tần số phần dư chuẩn hóa Histogram
Từ biểu đồ ta thấy được, một đường cong phân phối chuẩn được đặt chồng lên biểu đồ tần số. Đường cong này có dạng hình chuông, phù hợp với dạng đồ thị của phân phối chuẩn. Giá trị trung bình Mean gần bằng 0, độ lệch chuẩn là 0.976 gần bằng 1, như vậy có thể nói, phân phối phần dư xấp xỉ chuẩn. Do đó, có thể kết luận rằng: Giả thiết phân phối chuẩn của phần dư không bị vi phạm.
5. Biểu đồ phần dư chuẩn hóa Normal P-P Plot
Như mình đã đề cập ở mục 4, ngoài cách kiểm tra bằng biểu đồ Histogram, thì P-P Plot cũng là một dạng biểu đồ được sử dụng phổ biến giúp nhận diện sự vi phạm giả định phần dư chuẩn hóa.
Với P-P Plot (hoặc bạn có thể dùng Q-Q Plot, 2 đồ thị này không khác nhau nhiều), các điểm phân vị trong phân phối của phần dư sẽ tập trung thành một đường chéo nếu phần dư có phân phối chuẩn. Hay nói một cách đơn giản, dễ hiểu, các bạn nhìn vào đồ thị này, các chấm tròn tập trung thành dạng một đường chéo thì sẽ không vi phạm giả định hồi quy về phân phối chuẩn phần dư.
Cụ thể với dữ liệu mình đang sử dụng, các điểm phân vị trong phân phối của phần dư tập trung thành 1 đường chéo, như vậy, giả định phân phối chuẩn của phần dư không bị vi phạm .
6. Biểu đồ Scatter Plot kiểm tra giả định liên hệ tuyến tính
Biểu đồ phân tán Scatter Plot giữa các phần dư chuẩn hóa và giá trị dự đoán chuẩn hóa giúp chúng ta dò tìm xem, dữ liệu hiện tại có vi phạm giả định liên hệ tuyến tính hay không. Trong bài viết này, mình biểu diễn giá trị phần dư chuẩn hóa (Standardized Residual) ở trục hoành và giá trị dự đoán chuẩn hóa (Predicted Value) ở trục tung. Các bạn phải thực sự chú ý chỗ này, bởi vì có nhiều tài liệu, sách biểu diễn ngược lại với mình nên khi nhận xét sẽ có vài điểm thay đổi giữa mỗi tác giả khác nhau.
Kết quả đồ thị xuất ra, các điểm phân bố của phần dư nếu có các dạng: đồ thị Parabol, đồ thị Cubic,.. hay các dạng đồ thị khác không phải đường thẳng thì dữ liệu của bạn đã vi phạm giả định liên hệ tuyến tính. Nếu giả định quan hệ tuyến tính được thỏa mãn thì phần dư sẽ dao dộng xung quanh đường tung độ 0 và không phân tán đi quá xa.
Cụ thể với tập dữ liệu mình đang sử dụng, phần dư chuẩn hóa phân bổ tập trung xunh quanh đường tung độ 0, do vậy giả định quan hệ tuyến tính không bị vi phạm .
Từ khóa: hồi quy trong spss, hồi quy đa biến spss, phân tích hồi quy spss, hồi quy tuyến tính bội spss, đọc kết quả hồi quy spss, cách chạy hồi quy bội spss
Hướng Dẫn Hồi Quy Mô Hình Probit Trên Stata
Tìm hiểu về mô hình probit
Hồi quy probit, còn được gọi là mô hình probit, được sử dụng để mô hình các biến kết cục nhị phân hoặc nhị phân. Trong mô hình probit, phân phối chuẩn của nghịch đảo xác suất được mô hình hóa như một tổ hợp tuyến tính của các yếu tố dự đoán.
Xin lưu ý: Mục đích của trang này là hiển thị cách sử dụng các lệnh phân tích dữ liệu khác nhau. Nó không bao gồm tất cả các khía cạnh của quá trình nghiên cứu mà các nhà nghiên cứu dự kiến sẽ làm. Đặc biệt, nó không bao gồm việc làm sạch và kiểm tra dữ liệu, xác minh các giả định, chẩn đoán mô hình và phân tích theo dõi tiềm năng.
Một mô hình probit là một đặc điểm kỹ thuật phổ biến cho một mô hình phản ứng nhị phân hoặc nhị phân . Do đó, nó xử lý cùng một tập hợp các vấn đề như hồi quy logistic bằng các kỹ thuật tương tự. Mô hình probit, sử dụng hàm liên kết probit , thường được ước tính bằng cách sử dụng thủ tục khả năng tối đa tiêu chuẩn , một ước tính như vậy được gọi là hồi quy probit .
Ứng dụng hồi quy mô hình probit
Để bắt đầu tìm hiểu về hồi quy mô hình probit ta sử dụng bộ dữ liệu sau:
Trong đó:
admint: biết nhị phân cũng là biến phụ thuộc
gre, gpa là biến liên tục
rank là biến thứ bậc
Hồi quy probit, trọng tâm của bài này
Hồi quy logistic. Một mô hình logit sẽ tạo ra kết quả tương tự hồi quy probit. Sự lựa chọn của probit so với logit phụ thuộc phần lớn vào sở thích cá nhân.
Hồi quy OLS. Khi được sử dụng với biến phản ứng nhị phân, mô hình này được biết đến như một mô hình xác suất tuyến tính và có thể được sử dụng như một cách để mô tả xác suất có điều kiện. Tuy nhiên, các lỗi (nghĩa là phần dư) từ mô hình xác suất tuyến tính vi phạm tính đồng nhất và tính quy phạm của các giả định lỗi của OLS hồi quy, dẫn đến các lỗi tiêu chuẩn và kiểm tra giả thuyết không hợp lệ.
Phân tích chức năng phân biệt hai nhóm. Một phương pháp đa biến cho các biến kết cục nhị phân. Khách sạn T 2 . Kết quả 0/1 được chuyển thành nhóm biến, và các dự đoán trước đây được biến thành kết quả biến. Điều này sẽ tạo ra một bài kiểm tra tổng thể có ý nghĩa nhưng sẽ không đưa ra các hệ số riêng cho từng biến và không rõ phạm vi mà mỗi “yếu tố dự đoán” được điều chỉnh theo tác động của cái khác “dự đoán.”
Hồi quy probit
Để hồi quy probit ta sử dụng lệnh như sau:
probit admit gre gpa rank
Đồng thời 3 biến phụ thuộc là gre, gpa, rank điều có giá trị p-value <5%, nên 3 biến này điều có ý nghĩa thống kê.
Khi gre tăng 1 đơn vị thì z-score tăng 0.001 đơn vị
Khi gpa tăng 1 đơn vị thì z-core tăng 0.464 đơn vị
Còn biến rank là biến thư bậc, nên khi rank tăng lên 1 bậc thì điểm z sẽ giảm đi -2,01. điều này có nghĩa là các bậc tăng hay giảm trong mô hình điều như nhau, điều này thật không đúng. Chúng ta cần phải tìm cho chính xách mức độ ảnh hưởng của rank =3 thì tác động lên admit như thế nào ?
probit admit gre gpa i.rank
Nhân tiện đây chúng ta kiểm định các biến phụ thuộc của rank không đồng thời bằng =0
test chúng tôi 3.rank 4.rank
Tìm độ nhạy biên của mô hình
chúng ta tìm độ nhạy của biến xếp hạng rank lên biến admit
margin rank, atmean
Chúng ta có xác suất tổ chức được xếp vào rank=1 là 0.52 (52%), xác suất được xếp vào rank=4 là 19%.
Kiểm tra thống kê phù hợp fitstat
Những điều cần cân nhắc
Các ô trống hoặc ô nhỏ: Bạn nên kiểm tra trống hay nhỏ các tế bào bằng cách thực hiện một dấu chéo giữa các yếu tố dự đoán phân loại và biến kết quả. Nếu một ô có rất ít trường hợp (một ô nhỏ), mô hình có thể trở nên không ổn định hoặc nó có thể không chạy được gì cả.
Tách hoặc tách biệt (còn gọi là dự đoán hoàn hảo), một điều kiện trong đó kết quả không thay đổi ở một số cấp độ của các biến độc lập. Xem trang của chúng tôi Câu hỏi thường gặp: Sự tách biệt hoàn toàn hoặc gần như hoàn toàn trong hồi quy logistic / probit và làm thế nào để chúng ta đối phó với chúng? để biết thông tin về các mô hình với dự đoán hoàn hảo.
Cỡ mẫu: Cả hai mô hình probit và logit đều yêu cầu nhiều trường hợp hơn hồi quy OLS vì chúng sử dụng các kỹ thuật ước tính khả năng tối đa. Đôi khi có thể ước tính các mô hình cho kết quả nhị phân trong bộ dữ liệu chỉ với một số ít trường hợp sử dụng hồi quy logistic chính xác (sử dụng lệnh exlogistic ). Để biết thêm thông tin, xem ví dụ phân tích dữ liệu của chúng tôi để biết hồi quy logistic chính xác . Cũng cần lưu ý rằng khi kết quả rất hiếm, ngay cả khi tổng số liệu lớn, có thể khó ước tính mô hình probit.
Trong Stata, các giá trị 0 được coi là một cấp của biến kết quả, và tất cả các giá trị không thiếu khác được coi là mức thứ hai của kết quả.
Hướng dẫn hồi quy logit trên spss Hướng dẫn hồi quy probit trên stata Hướng dẫn hồi quy tobit trên stata
Bạn đang xem bài viết Tổng Quan Về Regression (Phân Tích Hồi Quy) trên website Caffebenevietnam.com. Hy vọng những thông tin mà chúng tôi đã chia sẻ là hữu ích với bạn. Nếu nội dung hay, ý nghĩa bạn hãy chia sẻ với bạn bè của mình và luôn theo dõi, ủng hộ chúng tôi để cập nhật những thông tin mới nhất. Chúc bạn một ngày tốt lành!