Wednesday 19 July 2017

Sas เคลื่อนไหว เฉลี่ย ถดถอย


โค้ดตัวอย่างในแท็บรหัสแบบเต็มแสดงวิธีคำนวณค่าเฉลี่ยเคลื่อนที่ของตัวแปรผ่านชุดข้อมูลทั้งหมดในช่วงการสังเกตการณ์ครั้งล่าสุดในชุดข้อมูลหรือมากกว่าการสังเกตการณ์ N ครั้งล่าสุดภายในกลุ่ม BY กลุ่มตัวอย่างไฟล์เหล่านี้และ ตัวอย่างรหัสที่จัดทำโดย SAS Institute Inc โดยไม่มีการรับประกันใด ๆ ไม่ว่าจะโดยชัดแจ้งหรือโดยนัยรวมถึง แต่ไม่ จำกัด เพียงการรับประกันโดยนัยของความสามารถในเชิงพาณิชย์และความเหมาะสมสำหรับวัตถุประสงค์เฉพาะผู้รับทราบและยอมรับว่า SAS Institute จะไม่รับผิดชอบใด ๆ ความเสียหายใด ๆ ที่เกิดขึ้นจากการใช้วัสดุนี้นอกจากนี้ SAS Institute จะให้การสนับสนุนสำหรับเอกสารที่มีอยู่ในเอกสารฉบับนี้ตัวอย่างไฟล์และตัวอย่างโค้ดนี้จัดทำโดย SAS Institute Inc โดยไม่มีการรับประกันใด ๆ ไม่ว่าจะโดยชัดแจ้งหรือโดยนัย, รวมถึง แต่ไม่ จำกัด เฉพาะการรับประกันโดยนัยของความสามารถเชิงพาณิชย์และความเหมาะสมสำหรับวัตถุประสงค์เฉพาะผู้รับทราบและยอมรับว่าสถาบัน SAS จะไม่รับผิดชอบ นอกจากนี้ SAS Institute จะให้การสนับสนุนสำหรับเนื้อหาที่มีการระบุค่าเฉลี่ยเคลื่อนที่ของตัวแปรผ่านชุดข้อมูลทั้งหมดในช่วงการสังเกตการณ์ครั้งล่าสุดในชุดข้อมูลหรือ ข้อผิดพลาด ARMA ข้อผิดพลาดและรูปแบบอื่น ๆ ที่เกี่ยวข้องกับความล่าช้าของข้อผิดพลาดสามารถประมาณโดยใช้งบ FIT และจำลองหรือคาดการณ์โดยใช้งบ SOLVE แบบ ARMA สำหรับกระบวนการข้อผิดพลาดเป็น มักใช้สำหรับโมเดลที่มีส่วนเกี่ยวข้องกับความสัมพันธ์แบบ autocorrelated แมโคร AR สามารถใช้เพื่อระบุโมเดลที่มีกระบวนการข้อผิดพลาดแบบ autoregressive แมโคร MA สามารถใช้เพื่อระบุโมเดลที่มีขบวนการเกิดข้อผิดพลาดในการเคลื่อนที่เฉลี่ยข้อผิดพลาดในการทำงานแบบอัตโนมัติกับข้อผิดพลาด autoregressive ลำดับแรก AR 1 มีรูปแบบในขณะที่กระบวนการข้อผิดพลาดของ AR 2 มีรูปแบบและอื่น ๆ สำหรับกระบวนการที่มีลำดับขั้นสูงโปรดทราบว่า s มีความเป็นอิสระและมีการกระจายแบบเดียวกันและ มีค่าที่คาดว่าจะเท่ากับ 0. ตัวอย่างของแบบจำลองที่มีส่วนประกอบ AR 2 คือเป็นต้นและสำหรับกระบวนการที่มีลำดับขั้นสูงตัวอย่างเช่นคุณสามารถเขียนแบบจำลองการถดถอยเชิงเส้นแบบง่ายๆโดยมี MA2 moving-average error as. where MA1 และ MA2 เป็นค่าเฉลี่ยที่เคลื่อนที่ได้หมายเหตุว่า RESID Y ถูกกำหนดโดย PROC MODEL โดยอัตโนมัติหมายเหตุว่า RESID Y เป็นค่าลบของฟังก์ชัน ZLAG ต้องถูกใช้สำหรับ MA models เพื่อตัดทอนการซ้ำซ้อนของ lags เพื่อให้มั่นใจว่า lagged ข้อผิดพลาดเริ่มต้นที่ศูนย์ในระยะล้าหลังและไม่เผยแพร่ค่าที่ขาดหายไปเมื่อตัวแปรลุ่ม ๆ คราว ๆ หายไปและจะทำให้มั่นใจได้ว่าข้อผิดพลาดในอนาคตจะเป็นศูนย์แทนที่จะหายไประหว่างการจำลองหรือการคาดการณ์สำหรับรายละเอียดเกี่ยวกับฟังก์ชันล่าช้าให้ดูที่ ส่วน Lag Logic รูปแบบนี้เขียนโดยใช้แมโคร MA มีดังต่อไปนี้แบบฟอร์มทั่วไปสำหรับ ARMA โมเดลทั่วไป ARMA p, q กระบวนการมีรูปแบบต่อไปนี้ ARMA p, q รุ่นสามารถระบุได้ดังต่อไปนี้ AR i และ MA j แสดงถึง autoregressive และ movin พารามิเตอร์ g - ค่าเฉลี่ยสำหรับ lags ต่างๆคุณสามารถใช้ชื่อใด ๆ ที่คุณต้องการสำหรับตัวแปรเหล่านี้และมีวิธีที่เท่าเทียมกันจำนวนมากที่สามารถเขียนข้อมูลได้นอกจากนี้กระบวนการ ARMA ยังสามารถประมาณด้วย PROC MODEL เช่นอาร์เรย์แบบสองตัวแปร 1 กระบวนการสำหรับข้อผิดพลาดของตัวแปรทั้งสอง endogenous Y1 และ Y2 สามารถระบุได้ดังต่อไปนี้ปัญหาความแปรปรวนของโมเดล ARMA โมเดลของ ARMA อาจเป็นเรื่องยากที่จะประมาณหากค่าประมาณของพารามิเตอร์ไม่อยู่ในช่วงที่เหมาะสม เงื่อนไขการเติบโตชี้แจงส่วนที่เหลือที่คำนวณได้สำหรับข้อสังเกตในภายหลังอาจมีขนาดใหญ่มากหรือสามารถล้นได้สิ่งนี้อาจเกิดขึ้นได้เนื่องจากค่าเริ่มต้นที่ไม่เหมาะสมถูกใช้หรือเนื่องจากการทำซ้ำได้ย้ายออกไปจากค่าที่สมเหตุสมผลควรเลือกใช้ค่าเริ่มต้นสำหรับพารามิเตอร์ ARMA 0 001 สำหรับพารามิเตอร์ ARMA มักจะใช้งานได้ถ้าแบบจำลองนี้เหมาะกับข้อมูลที่ดีและปัญหาเป็นไปอย่างเหมาะสมโปรดสังเกตว่าแบบจำลอง MA มักจะสามารถใช้งานได้ ximated โดยรูปแบบ AR สูงสั่งและในทางกลับกันซึ่งจะส่งผลให้ collinearity สูงในรูปแบบ ARMA ผสมซึ่งจะทำให้เกิดความไม่ถูกต้องร้ายแรงในการคำนวณและความไม่แน่นอนของการประมาณค่าพารามิเตอร์ถ้าคุณมีปัญหาการลู่เข้าในขณะที่ประมาณ รูปแบบกับกระบวนการข้อผิดพลาด ARMA พยายามที่จะประมาณในขั้นตอนแรกใช้คำสั่ง FIT เพื่อประมาณค่าพารามิเตอร์โครงสร้างที่มีพารามิเตอร์ ARMA จัดขึ้นเพื่อเป็นศูนย์หรือประมาณการที่เหมาะสมก่อนหน้าถ้ามีต่อไปใช้คำสั่ง FIT อื่นเพื่อประมาณการพารามิเตอร์ ARMA เท่านั้น, ใช้ค่าพารามิเตอร์โครงสร้างจากการทำงานครั้งแรกเนื่องจากค่าของพารามิเตอร์โครงสร้างมีแนวโน้มที่จะใกล้เคียงกับการประมาณขั้นสุดท้ายของพวกเขาแล้วค่าพารามิเตอร์ ARMA อาจมาบรรจบกันสุดท้ายใช้คำสั่ง FIT อื่นเพื่อสร้างการประมาณค่าพารามิเตอร์ทั้งหมดพร้อมกันตั้งแต่เริ่มต้น ค่าของพารามิเตอร์ตอนนี้น่าจะใกล้เคียงกับการประมาณค่าร่วมขั้นสุดท้ายแล้วค่าประมาณควรจะรวมตัวกันอย่างรวดเร็วหากโม del เหมาะสมกับข้อมูลเงื่อนไขเริ่มต้นเงื่อนไขข้อผิดพลาดครั้งแรกของข้อผิดพลาดของ AR p models สามารถจำลองได้หลายวิธีวิธีการเริ่มต้นข้อผิดพลาด autoregressive ที่ได้รับการสนับสนุนโดย SAS ETS คือขั้นตอนต่อไปนี้เป็นขั้นตอนน้อยที่สุดของ ARIMA และ MODEL ขั้นต่ำสุด โหมด ARIMA และ MODEL ขั้นต่ำสุดที่ไม่มีเงื่อนไข AUTOREG, ARIMA และ MODEL ขั้นตอนการ AUTOURY-Walker AUTO-AUTO เท่านั้นโดยอัตโนมัติ Hildreth-Lu ซึ่งจะลบขั้นตอนการสังเกตการณ์ครั้งแรกของ MODEL เท่านั้นดูบทที่ 8 ขั้นตอน AUTOREG, สำหรับคำอธิบายและอภิปรายเกี่ยวกับประโยชน์ของวิธีการเริ่มต้น AR p ต่างๆการเริ่มต้น CLS, ULS, ML และ HL สามารถทำได้โดย PROC MODEL สำหรับข้อผิดพลาด AR 1 สามารถเริ่มต้นการเริ่มต้นเหล่านี้ได้ดังแสดงในตารางที่ 18 2 วิธีการเหล่านี้คือ เทียบเท่าในตัวอย่างขนาดใหญ่ตารางที่ 18 2 Initializations ดำเนินการโดย PROC MODEL AR 1 ข้อผิดพลาดความล่าช้าครั้งแรกของข้อผิดพลาดของ MA q รุ่นยังสามารถจำลองในรูปแบบที่แตกต่างกัน ขั้นตอนการเริ่มต้นของข้อผิดพลาดในการเริ่มต้นใช้งานได้รับการสนับสนุนโดยขั้นตอน ARIMA และ MODEL ขั้นต่ำสุดของรูปสี่เหลี่ยมจัตุรัสน้อยที่สุดสี่เหลี่ยมจัตุรัสน้อยที่สุดเงื่อนไขวิธีคิดอย่างน้อยที่สุดในการประมาณค่าข้อผิดพลาดโดยเฉลี่ยของข้อผิดพลาดในการเคลื่อนที่ไม่เหมาะสมเพราะไม่สนใจปัญหาการเริ่มต้น ของประมาณการแม้ว่าจะยังคงเป็นกลางส่วนที่เหลือล้าหลังเริ่มต้นขยายก่อนการเริ่มต้นของข้อมูลจะถือว่าเป็น 0 ค่าที่คาดหวังที่ไม่มีเงื่อนไขของพวกเขานี้แนะนำความแตกต่างระหว่างส่วนที่เหลือเหล่านี้และเศษส่วนที่เหลือน้อยที่สุดสำหรับความแปรปรวนเฉลี่ยความแปรปรวนเฉลี่ย ซึ่งแตกต่างจากรูปแบบ autoregressive ยังคงผ่านชุดข้อมูลโดยปกติความแตกต่างนี้ converges ได้อย่างรวดเร็วถึง 0 แต่สำหรับเกือบค่าคงที่ noninvertible กระบวนการ convergence ค่อนข้างช้าเพื่อลดปัญหานี้คุณควรมีข้อมูลมากมายและย้าย - การประมาณค่าพารามิเตอร์เฉลี่ยควรอยู่ในช่วงที่มีการเปลี่ยนแปลงได้ปัญหานี้สามารถแก้ไขได้โดยค่าใช้จ่ายของ writin ga โปรแกรมที่ซับซ้อนมากขึ้นค่าที่น้อยที่สุดสำหรับขั้นตอน MA 1 สามารถคำนวณได้โดยการระบุรูปแบบดังต่อไปนี้ข้อผิดพลาดที่เกิดขึ้นโดยเฉลี่ยอาจเป็นเรื่องยากที่จะคาดคะเนคุณควรพิจารณาการประมาณค่า AR p ไปเป็นค่าเฉลี่ยเคลื่อนที่เฉลี่ย process มักจะถูกประมาณโดยกระบวนการ autoregressive ถ้าข้อมูลไม่ได้รับการปรับให้เรียบหรือแตกต่าง AR Macro SAS macro AR สร้างคำสั่งการเขียนโปรแกรมสำหรับ PROC MODEL สำหรับโมเดล autoregressive แมโคร AR เป็นส่วนหนึ่งของซอฟต์แวร์ SAS ETS และไม่มี ตัวเลือกพิเศษจำเป็นต้องถูกตั้งค่าให้ใช้มาโครขั้นตอน autoregressive สามารถนำมาใช้กับข้อผิดพลาดของสมการโครงสร้างหรือแบบ endogenous ได้เองอาร์กิวเมนต์ AR สามารถใช้สำหรับประเภท autoregression. unrestricted vector autoregression. contricted vector autoregression. Univariate การถดถอยอัตโนมัติ (Autoregression) หากต้องการกำหนดรูปแบบคำผิดพลาดของสมการเป็นกระบวนการอัตถิภาวนิยมให้ใช้ข้อความต่อไปนี้หลังจากสมการตัวอย่างเช่น สมมติว่า Y เป็นฟังก์ชันเชิงเส้นของ X1, X2 และข้อผิดพลาด AR 2 คุณจะเขียนแบบจำลองดังต่อไปนี้การเรียก AR ต้องมาหลังจากสมการทั้งหมดที่ใช้กับกระบวนการ y, 2 สร้างคำสั่งที่แสดงในผลลัพธ์ของ LIST ในรูปที่ 18 58. รูปที่ 18 58 LIST Option Output สำหรับ AR 2 Model. The ตัวแปร PRED prefixed เป็นตัวแปรโปรแกรมชั่วคราวที่ใช้เพื่อให้ความล่าช้าของเศษเหลือเป็นจำนวนที่ถูกต้องและ ไม่ใช่นิยามใหม่โดยสมการนี้หมายเหตุว่านี่เทียบเท่ากับคำสั่งที่เขียนไว้ในส่วน General Form for ARMA Models นอกจากนี้คุณยังสามารถ จำกัด ค่าพารามิเตอร์ autoregressive ให้เป็นศูนย์ที่ lags ที่เลือกได้ตัวอย่างเช่นถ้าคุณต้องการพารามิเตอร์ autoregressive ที่ lags 1, 12 และ 13 คุณสามารถใช้คำสั่งต่อไปนี้คำสั่งเหล่านี้สร้างผลลัพธ์ที่แสดงในรูปที่ 18 59. รูปที่ 18 59 ตัวเลือกรายการตัวเลือกสำหรับรุ่น AR ที่มีความล่าช้าที่ 1, 12 และ 13 ขั้นตอน MODEL รายการของการคอมไพล์ Programme Co de. Statement เป็น Parsed. PRED yab x1 c x2.RESID y PRED y - ACTUAL y. ERROR y PRED y - y. OLDPRED y PRED y yl1 ZLAG1 y - perdy yl12 ZLAG12 y - perdy yyr13 ZLAG13 y - PREDy. RESID y PRED y - จริง y. ERROR y PRED y - y. There มีรูปแบบวิธีเงื่อนไขน้อยที่สุดขึ้นอยู่กับว่าข้อสังเกตที่จุดเริ่มต้นของชุดที่ใช้ในการอุ่นเครื่องกระบวนการ AR โดยค่าเริ่มต้นวิธีอาร์เรย์เงื่อนไขน้อยที่สุดสี่เหลี่ยมใช้ ข้อสังเกตทั้งหมดและสันนิษฐานศูนย์สำหรับล่าช้าเริ่มต้นของเงื่อนไข autoregressive โดยการใช้ตัวเลือก M คุณสามารถขอให้ AR ใช้ unclonditional น้อยที่สุด ULS หรือวิธี ML สูงสุดโอกาสสำหรับแทนตัวอย่างเช่นวิธีการเหล่านี้มีอยู่ในส่วน AR เงื่อนไขเริ่มต้นโดยการใช้ตัวเลือก M CLS n คุณสามารถขอให้มีการใช้การสังเกต n แรกเพื่อคำนวณค่าประมาณของค่าความผิดพลาดที่เกิดขึ้นเองในตอนแรกในกรณีนี้การวิเคราะห์จะเริ่มต้นด้วยการสังเกตการณ์ n 1 ตัวอย่างเช่นคุณสามารถใช้มาโคร AR เพื่อ ใช้แบบจำลองอัตถิภาวนิยมกับ endogenous ตัวแปรแทนที่จะเป็นเงื่อนไขข้อผิดพลาดโดยใช้ตัวเลือก TYPE V ตัวอย่างเช่นถ้าคุณต้องการเพิ่มห้า lags ที่ผ่านมาของ Y ไปยังสมการในตัวอย่างก่อนหน้านี้คุณสามารถใช้ AR เพื่อสร้างพารามิเตอร์และล่าช้าโดยใช้ งบต่อไปนี้สร้างผลลัพธ์ที่แสดงในรูปที่ 18 60. รูปที่ 18 60 รายการตัวเลือกผลลัพธ์สำหรับรุ่น AR ของ Y รุ่นนี้ทำนาย Y เป็นชุดค่าผสมเชิงเส้นของ X1, X2, intercept และค่าของ Y ในระยะเวลาห้าปีที่ผ่านมาการจำแนกเวคเตอร์แบบไม่ใช้อิสระเพื่อให้รูปแบบข้อผิดพลาดของชุดสมการเป็นกระบวนการอัตถิภาพอัตโนมัติใช้รูปแบบอาร์เรย์ AR ต่อไปนี้หลังจากสมการค่า processname คือชื่อใด ๆ ที่คุณจ่ายสำหรับ AR เพื่อใช้ในการสร้างชื่อสำหรับพารามิเตอร์ autoregressive คุณสามารถใช้อาร์เรย์ AR เพื่อสร้างกระบวนการ AR หลาย ๆ อันสำหรับชุดสมการที่แตกต่างกันได้โดยใช้ชื่อกระบวนการที่แตกต่างกันสำหรับแต่ละชุดชื่อกระบวนการจะตรวจสอบให้แน่ใจว่าชื่อตัวแปรใช้เป็น uni que ใช้ค่า processname สั้น ๆ สำหรับกระบวนการนี้ถ้าการประมาณค่าพารามิเตอร์ถูกเขียนลงในชุดข้อมูลเอาต์พุตอาร์กิวเมนต์ AR พยายามสร้างชื่อพารามิเตอร์ให้น้อยกว่าหรือเท่ากับแปดอักขระ แต่ถูก จำกัด ด้วยความยาวของ processname ซึ่งใช้เป็น คำนำหน้าสำหรับชื่อพารามิเตอร์ AR ค่า variablelist คือรายการของตัวแปรภายนอกสำหรับสมการตัวอย่างสมมติว่าข้อผิดพลาดสำหรับสมการ Y1, Y2 และ Y3 ถูกสร้างขึ้นโดยกระบวนการอัตถิภาพอัตโนมัติลำดับที่สองคุณสามารถใช้ข้อมูลต่อไปนี้ statement. which สร้างต่อไปนี้สำหรับ Y1 และรหัสที่คล้ายกันสำหรับ Y2 และ Y3.Only วิธีเงื่อนไขน้อยที่สุด M CLS หรือ M CLS n วิธีสามารถใช้สำหรับเวกเตอร์ processes. You ยังสามารถใช้แบบฟอร์มเดียวกันกับข้อ จำกัด ที่ค่าสัมประสิทธิ์เมทริกซ์เป็น 0 ที่ล่าช้าที่เลือกตัวอย่างเช่นข้อความต่อไปนี้ใช้กระบวนการเวกเตอร์ลำดับที่สามกับข้อผิดพลาดของสมการที่มีค่าสัมประสิทธิ์ทั้งหมดที่ความล่าช้า 2 จำกัด ไว้ที่ 0 และมีค่าสัมประสิทธิ์ที่ lags 1 และ 3 ไม่มีข้อ จำกัด . คุณสามารถทำรูปแบบสามชุด Y1 Y3 เป็นกระบวนการ autoregressive เวกเตอร์ในตัวแปรแทนในข้อผิดพลาดโดยใช้ตัวเลือก TYPE V ถ้าคุณต้องการรูปแบบ Y1 Y3 เป็นฟังก์ชันของค่าที่ผ่านมาของ Y1 Y3 และบางตัวแปรภายนอกหรือค่าคงที่ คุณสามารถใช้อาร์เรย์ในการสร้างคำสั่งสำหรับเงื่อนไขล่าช้าเขียนสมการสำหรับแต่ละตัวแปรสำหรับส่วนที่ไม่เป็นไปตามแนวตั้งของโมเดลและจากนั้นเรียก AR พร้อมกับตัวเลือก TYPE V ตัวอย่างเช่นส่วนที่ไม่เป็นไปตามข้อกำหนดของรูปแบบสามารถเป็นฟังก์ชันได้ ตัวแปรภายนอกหรือสามารถตัดพารามิเตอร์ได้ถ้าไม่มีส่วนประกอบภายนอกใด ๆ ในรูปแบบการโต้วาทีแบบเวกเตอร์รวมทั้งไม่มี intercepts จากนั้นกำหนดค่าเป็นศูนย์ให้กับแต่ละตัวแปรต้องมีการกำหนดให้กับแต่ละตัวแปรก่อนที่อาร์เรย์จะถูกเรียกใช้ตัวอย่างนี้ โมเดลเวกเตอร์ Y Y1 Y2 Y3 เป็นฟังก์ชันเชิงเส้นเพียงค่าของมันในสองช่วงก่อนหน้าและมีรูปแบบข้อผิดพลาดของสัญญาณรบกวนสีขาวรูปแบบมี 18 3 3 3 3 parameters. Syntax ของ AR Macro มีสองกรณีของซิ ntax ของ AR macro เมื่อข้อ จำกัด ในกระบวนการเวกเตอร์ AR ไม่จำเป็นต้องมีไวยากรณ์ของมาโคร AR มีรูปแบบทั่วไประบุคำนำหน้าสำหรับ AR เพื่อใช้ในการสร้างชื่อของตัวแปรที่จำเป็นในการกำหนดกระบวนการ AR หาก endolist ไม่ได้ ระบุรายการเริ่มต้นของ endogenous ชื่อซึ่งจะต้องเป็นชื่อของสมการที่ใช้กระบวนการข้อผิดพลาด AR ค่าชื่อไม่เกิน 32 characters. is ลำดับของกระบวนการ AR ระบุรายการของสมการที่ กระบวนการ AR จะถูกนำมาใช้ถ้ามีมากกว่าหนึ่งชื่อจะมีการสร้างกระบวนการเวกเตอร์ที่ไม่ จำกัด โดยมีโครงสร้างที่เหลืออยู่ของสมการทั้งหมดที่รวมอยู่ใน regressors ในแต่ละสมการถ้าไม่ได้ระบุค่าเริ่มต้น endolist เพื่อระบุระบุรายการล่าช้า ที่ AR เงื่อนไขที่จะมีการเพิ่มค่าสัมประสิทธิ์ของเงื่อนไขที่ล่าช้าไม่อยู่ในรายการจะถูกกำหนดเป็น 0 ทุกล่าช้าที่ระบุไว้จะต้องน้อยกว่าหรือเท่ากับ nlag และต้องมีรายการที่ซ้ำกันถ้าไม่ได้ระบุ laglist defaul ts ถึง lags ทั้งหมด 1 ถึง nlag. specifies วิธีการประมาณค่าที่จะใช้ค่าที่ถูกต้องของ M คือเงื่อนไข CLS เงื่อนไขอย่างน้อยที่สุดสี่เหลี่ยมประมาณ ULS ไม่มีเงื่อนไขอย่างน้อยที่สุดประมาณการโดยประมาณและ ML สูงสุดโอกาสประมาณการ M CLS เป็นค่าเริ่มต้นเฉพาะ M CLS ได้รับอนุญาตเมื่อมากกว่าหนึ่ง สมการระบุวิธีการ ULS และ ML ไม่ได้รับการสนับสนุนสำหรับรุ่น AR AR โดยระบุว่ากระบวนการ AR จะถูกนำไปใช้กับตัวแปรภายในตัวเองแทนที่จะเป็นส่วนที่เหลือจากโครงสร้างของสมการ Vector Invasion แบบอิสระที่ถูก จำกัด คุณสามารถควบคุมได้ พารามิเตอร์จะรวมอยู่ในกระบวนการการ จำกัด 0 พารามิเตอร์เหล่านั้นที่คุณไม่ได้รวมก่อนใช้ AR กับตัวเลือก DEFER เพื่อประกาศรายการตัวแปรและกำหนดขนาดของกระบวนการจากนั้นใช้สาย AR เพิ่มเติมเพื่อสร้างคำสำหรับสมการที่เลือกด้วย ตัวแปรที่เลือกที่ล่าช้าที่เลือกเช่นสมการข้อผิดพลาดที่ผลิตมีดังต่อไปนี้รุ่นนี้ระบุว่าข้อผิดพลาดสำหรับ Y1 ขึ้นอยู่กับข้อผิดพลาด ของทั้ง Y1 และ Y2 แต่ไม่ Y3 ที่ lags 1 และ 2 และข้อผิดพลาดสำหรับ Y2 และ Y3 ขึ้นอยู่กับข้อผิดพลาดก่อนหน้านี้สำหรับทั้งสามตัวแปร แต่เฉพาะที่ล่าช้า 1 AR Macro Syntax สำหรับ Vector จำกัด การใช้ AR. An ทางเลือก ของ AR ได้รับอนุญาตให้กำหนดข้อ จำกัด เกี่ยวกับกระบวนการ AR ของเวกเตอร์โดยการเรียก AR หลายครั้งเพื่อระบุอาร์กิวเมนต์ AR ที่แตกต่างกันและล่าช้าสำหรับสมการที่แตกต่างกันการเรียกครั้งแรกมีรูปแบบทั่วไประบุคำนำหน้าสำหรับ AR เพื่อใช้ในการสร้างชื่อของตัวแปรที่จำเป็นในการ กำหนดกระบวนการเวกเตอร์ AR ระบุลำดับของกระบวนการ AR ระบุรายการสมการที่จะใช้กระบวนการ AR ระบุว่า AR ไม่ได้สร้างกระบวนการ AR แต่ต้องรอข้อมูลเพิ่มเติมที่ระบุใน AR ต่อไป เรียกใช้ค่าชื่อเดียวกันสายที่ตามมามีรูปแบบทั่วไปเช่นเดียวกับในการโทรครั้งแรกกำหนดรายการสมการซึ่งข้อกำหนดในการโทร AR นี้จะใช้เฉพาะชื่อที่ระบุไว้ในค่าเอนโทรออริสตอลของ cal แรก l สำหรับค่าชื่อสามารถปรากฏในรายการสมการใน eqlist ระบุรายชื่อสมการที่เหลืออยู่ของโครงสร้างที่เหลือจะถูกรวมเป็น regressors ในสมการใน eqlist เฉพาะชื่อใน endolist ของการเรียกครั้งแรกสำหรับค่าชื่อจะปรากฏขึ้น ใน varlist หากไม่ได้ระบุค่าดีฟอลต์ของ varlist เพื่อ endolist ระบุรายการล่าช้าที่จะเพิ่มเงื่อนไข AR ค่าสัมประสิทธิ์ของเงื่อนไขที่ล่าช้าไม่อยู่ในรายการจะถูกตั้งค่าเป็น 0 ทั้งหมดที่ระบุในรายการล่าช้าต้องน้อยกว่าหรือเท่ากับ ค่าของ nlag และต้องไม่มีรายการที่ซ้ำกันหากไม่ได้ระบุค่าเริ่มต้น laglist ไปยัง lags ทั้งหมด 1 ถึง nlag MA Macro SAS แมโคร MA สร้าง statement การเขียนโปรแกรมสำหรับ PROC MODEL สำหรับโมเดลเฉลี่ยที่เคลื่อนที่ MA macro เป็นส่วนหนึ่งของ SAS ETS ซอฟต์แวร์และไม่มีตัวเลือกพิเศษที่จำเป็นในการใช้แมโครกระบวนการคำนวณความผิดพลาดโดยเฉลี่ยสามารถนำมาใช้กับข้อผิดพลาดของสมการโครงสร้างไวยากรณ์ของ MA แมโครจะเหมือนกับมาโคร AR ยกเว้นไม่มีอาร์กิวเมนต์ TYPE เมื่อคุณเป็นเรา แมโคร MA และ AR รวมแมโครแมโครจะต้องปฏิบัติตามแมโคร AR ต่อไปนี้ SAS IML งบก่อให้เกิดข้อผิดพลาด ARMA 1, 1 3 และบันทึกไว้ในชุดข้อมูล MADAT2 คำสั่ง PROC MODEL ต่อไปนี้ใช้ในการประมาณค่าพารามิเตอร์ ของรูปแบบนี้โดยใช้โครงสร้างข้อผิดพลาดสูงสุดโอกาสประมาณการของพารามิเตอร์ที่ผลิตโดยการทำงานนี้จะแสดงในรูปที่ 18 61. รูปที่ 18 61 ประมาณการจาก ARMA 1, 1 3 Process. There มีสองกรณีของไวยากรณ์สำหรับมาโครแมโคร เมื่อข้อ จำกัด ในเวกเตอร์แมสซาชูเซตไม่จำเป็นต้องมีกระบวนการไวยากรณ์ของแมโคร MA มีรูปแบบทั่วไประบุคำนำหน้าสำหรับแมสซาชูเซตส์ที่ใช้ในการสร้างชื่อของตัวแปรที่จำเป็นในการกำหนดกระบวนการ MA และเป็น endolist. is เริ่มต้นตามลำดับ กระบวนการแมสซาชูเซตระบุสมการที่จะใช้กระบวนการแมสซาชูเซตส์ถ้ามีมากกว่าหนึ่งชื่อการประมาณค่า CLS จะใช้สำหรับกระบวนการเวกเตอร์ระบุความล่าช้าที่จะมีการเพิ่มข้อกำหนดของ MA ทั้งหมด ต้องน้อยกว่าหรือเท่ากับ al เพื่อ nlag และต้องไม่มีรายการที่ซ้ำกันหากไม่ได้ระบุค่าเริ่มต้น laglist กับ lags ทั้งหมด 1 ถึง nlag. specifies วิธีการประมาณค่าที่จะใช้ค่าที่ถูกต้องของ M คือ CLS เงื่อนไขอย่างน้อยสี่เหลี่ยมประมาณ ULS ไม่มีเงื่อนไขน้อยที่สุดประมาณการและความเป็นไปได้สูงสุด ML ประมาณ M CLS เป็นค่าเริ่มต้นเฉพาะ M CLS ได้เมื่อมีการระบุสมการมากกว่าหนึ่งสมการใน endolist แมโครไวยากรณ์แมโครสำหรับการเคลื่อนที่แบบเวกเตอร์ที่ถูก จำกัด - การใช้งานทางเลือกอื่น ๆ ของแมสซาชูเซตส์ได้รับอนุญาตให้กำหนดข้อ จำกัด เกี่ยวกับกระบวนการเวกเตอร์ MA โดยการเรียก MA หลายครั้งเพื่อระบุเงื่อนไข MA ที่แตกต่างกันและล่าช้าสำหรับสมการที่แตกต่างกันการโทรครั้งแรกมีรูปแบบทั่วไปกำหนด คำนำหน้าสำหรับ MA ใช้ในการสร้างชื่อของตัวแปรที่จำเป็นในการกำหนดเวกเตอร์แมสซาชูเซต process. specifies ลำดับของกระบวนการแมสซาชูเซตระบุรายชื่อของสมการที่จะใช้กระบวนการ MA เพื่อระบุว่า MA ไม่ได้สร้าง MA แต่จะรอข้อมูลเพิ่มเติมที่ระบุไว้ในภายหลัง MA เรียกค่าชื่อเดียวกันสายต่อมามีรูปแบบทั่วไปเช่นเดียวกับในการโทรครั้งแรกกำหนดรายการของสมการที่ข้อกำหนดในการโทร MA นี้ จะระบุรายชื่อสมการที่มีส่วนที่เหลืออยู่ของโครงสร้างที่ล้าหลังจะถูกรวมไว้เป็น regressors ในสมการใน eqlist ระบุรายละเอียดของความล่าช้าที่จะมีการเพิ่มข้อกำหนดของ MA ด้วยการกดดันด้วย SAS Chapter 2 Regression Diagnostics. Chapter Outline 2 0 การวิเคราะห์การถดถอย 2 1 ข้อมูลผิดปกติและมีอิทธิพล 2 2 การทดสอบความธรรมดาของเศษ 2 3 การทดสอบความคลาดเคลื่อนที่ไม่เสถียรของความแปรปรวน 2 4 การทดสอบความหลากหลาย 2 5 การทดสอบความไม่เป็นเชิงเส้น 2 6 ข้อมูลจำเพาะของแบบจำลอง 2 7 ประเด็น of Independence 2 8 สรุป 2 9 สำหรับข้อมูลเพิ่มเติม 2 การวิเคราะห์การถดถอย 0 ในบทสุดท้ายของเราเราได้เรียนรู้วิธีการถดถอยเชิงเส้นแบบธรรมดากับ SAS โดยสรุปวิธีการตรวจสอบการแจกแจงตัวแปรเพื่อตรวจสอบตัวแปรที่ไม่กระจายตามปกติเช่น การตรวจสอบสมมติฐานในการถดถอยโดยไม่ต้องยืนยันว่าข้อมูลของคุณเป็นไปตามสมมติฐานการถดถอยผลลัพธ์ของคุณอาจทำให้เข้าใจผิดบทนี้จะสำรวจว่าคุณสามารถใช้ SAS เพื่อทดสอบว่าข้อมูลของคุณเป็นไปตามสมมติฐานของการถดถอยเชิงเส้นโดยเฉพาะอย่างยิ่งเราจะพิจารณา สมมติฐานต่อไปนี้ความสัมพันธ์ระหว่างความสัมพันธ์ระหว่างตัวทำนายและตัวแปรผลควรเป็นเส้นตรงข้อผิดพลาดทั่วไป ควรจะกระจายตามปกติเทคนิคปกติเป็นสิ่งที่จำเป็นสำหรับการทดสอบ t - จะถูกต้องประมาณค่าสัมประสิทธิ์เพียงต้องการให้ข้อผิดพลาดจะกระจายเหมือนกันและเป็นอิสระความหลากหลายของความแปรปรวน homoscedasticity ความแปรปรวนผิดพลาดควรจะคงที่ความเป็นอิสระข้อผิดพลาดที่เกี่ยวข้องกับหนึ่ง สังเกตการณ์ไม่มีความสัมพันธ์กับข้อผิดพลาดของการสังเกตการณ์อื่น ๆ ข้อผิดพลาดในตัวแปรตัวทำนายตัวแปรจะถูกวัดโดยไม่มีข้อผิดพลาดที่เราจะกล่าวถึงในบทที่ 4. ข้อกำหนดของแบบจำลองควรได้รับการระบุอย่างถูกต้องรวมทั้งตัวแปรที่เกี่ยวข้องทั้งหมดและยกเว้นตัวแปรที่ไม่เกี่ยวข้องออกไป เป็นปัญหาที่สามารถเกิดขึ้นได้ในระหว่างการวิเคราะห์ว่าในขณะที่พูดอย่างเคร่งครัดไม่ได้เป็นสมมติฐานของการถดถอยเป็นอย่างน้อยไม่ต้องกังวลมากนักวิเคราะห์การถดถอยการมีส่วนร่วมสังเกตบุคคลที่มีอิทธิพลเกินควรในสัมประสิทธิ์โคไซเคิลทำนายที่มี collinear สูง, (linearly related) อาจทำให้เกิดปัญหาในการประมาณการ ating ค่าสัมประสิทธิ์การถดถอย. หลายวิธีกราฟิกและการทดสอบเชิงตัวเลขได้รับการพัฒนาขึ้นในช่วงหลายปีสำหรับการวิเคราะห์การถดถอยในบทนี้เราจะสำรวจวิธีการเหล่านี้และแสดงวิธีการตรวจสอบสมมติฐานการถดถอยและตรวจสอบปัญหาที่อาจเกิดขึ้นโดยใช้ SAS.2 1 ข้อมูลผิดปกติและมีอิทธิพล การสังเกตเดียวที่แตกต่างจากข้อสังเกตอื่น ๆ อย่างมากอาจทำให้ผลการวิเคราะห์ถดถอยของคุณมีความแตกต่างกันมากขึ้นหากการสังเกตเดียวหรือกลุ่มเล็ก ๆ ที่มีการสังเกตการณ์มีการเปลี่ยนแปลงผลลัพธ์ของคุณอย่างมากคุณจะต้องการทราบข้อมูลนี้และตรวจสอบต่อไป ในการถดถอยเชิงเส้นค่าความผิดปกติคือการสังเกตที่มีขนาดใหญ่ที่เหลืออยู่ในคำอื่น ๆ มันเป็นข้อสังเกตที่มีค่าตัวแปรขึ้นอยู่กับความผิดปกติเนื่องจากค่าของมันในตัวแปร predictor ตัวแปรที่ผิดปกติอาจบ่งบอกถึงลักษณะเฉพาะของตัวอย่าง หรืออาจบ่งบอกถึงข้อผิดพลาดในการป้อนข้อมูลหรือปัญหาอื่น ๆ ความคุ้มครองการสังเกตด้วยความรุนแรง ค่า e ในตัวแปร predictor เรียกว่าจุดที่มี Leverage สูง Leverage เป็นตัวชี้วัดว่าการสังเกตการณ์เบี่ยงเบนไปจากค่าเฉลี่ยของตัวแปรนั้นไกลแค่ไหนจุด leverage เหล่านี้สามารถมีผลต่อค่าประมาณของค่าสัมประสิทธิ์การถดถอยได้ข้อมูลที่กล่าวมา มีอิทธิพลถ้าลบสังเกตอย่างมากเปลี่ยนแปลงประมาณการของค่าสัมประสิทธิ์อิทธิพลสามารถคิดเป็นผลิตภัณฑ์ของ leverage และ outlier. เราสามารถระบุทั้งสามชนิดของการสังเกต Let s ดูตัวอย่างชุดข้อมูลที่เรียกว่าอาชญากรรมข้อมูลนี้ปรากฏในวิธีทางสถิติสำหรับสังคม Science, Third Edition โดย Alan Agresti และ Barbara Finlay Prentice Hall, 1997 ตัวแปรคือสถานะ id sid รัฐชื่อรัฐอาชญากรรมรุนแรงต่อ 100,000 คนอาชญากรรมฆาตกรรมต่อการฆาตกรรม 1,000,000 เปอร์เซ็นต์ของประชากรที่อาศัยอยู่ในเขตปริมณฑล pctmetro ร้อยละ ของประชากรที่เป็นขาว pctwhite ร้อยละของประชากรที่มีการศึกษาระดับมัธยมศึกษาหรือสูงกว่า pcths, percen t ของประชากรที่อาศัยอยู่ภายใต้ความยากจนบรรทัดความยากจนและร้อยละของประชากรที่เป็นพ่อแม่เดียวเดียวด้านล่างเราใช้ proc เนื้อหาและ proc หมายถึงการเรียนรู้เพิ่มเติมเกี่ยวกับแฟ้มข้อมูลนี้ให้เราบอกว่าเราต้องการทำนายอาชญากรรมโดยความยากจน pctmetro และเดียวนั่นคือ กล่าวว่าเราต้องการสร้างแบบจำลองการถดถอยเชิงเส้นระหว่างอาชญากรรมตัวแปรการตอบสนองและความยากจนตัวแปร pctmetro ความยากจนและเดียวเราจะดูแผนกระจายของอาชญากรรมต่อแต่ละตัวแปรพยากรณ์ก่อนการวิเคราะห์การถดถอยเพื่อให้เราจะมีความคิดบางอย่าง เกี่ยวกับปัญหาที่อาจเกิดขึ้นเราสามารถสร้างเมทริกซ์ scatterplot ของตัวแปรเหล่านี้ได้ดังรูปข้างล่างนี้กราฟของอาชญากรรมกับตัวแปรอื่น ๆ แสดงถึงปัญหาที่อาจเกิดขึ้นในพล็อตทุกครั้งเราจะเห็นจุดข้อมูลที่อยู่ไกลจากส่วนที่เหลือของจุดข้อมูล Let s make แต่ละกราฟของอาชญากรรมกับ pctmetro และความยากจนและเดี่ยวเพื่อให้เราสามารถได้รับมุมมองที่ดีขึ้นของ scatterplots เหล่านี้เราจะเพิ่มตัวเลือก pointlabel รัฐในคำสั่งสัญลักษณ์เพื่อ pl ot ชื่อรัฐแทนจุดทั้งหมดแปลงกระจายชี้ให้เห็นว่าการสังเกตสำหรับ dc รัฐเป็นจุดที่ต้องให้ความสนใจเป็นพิเศษเพราะมันยืนออกห่างจากจุดอื่น ๆ ทั้งหมดเราจะเก็บไว้ในใจเมื่อเราทำการวิเคราะห์การถดถอยของเรา เราจะไปทีละขั้นตอนเพื่อระบุจุดที่อาจผิดปกติหรือมีอิทธิพลต่อไปหลังจากนั้นเราจะส่งออกสถิติหลายอย่างที่เราจะต้องใช้ในการวิเคราะห์ต่อไปไม่กี่แห่งไปยัง ชุดข้อมูลที่เรียกว่า crime1res และเราจะอธิบายสถิติแต่ละแห่งในทางสถิติเหล่านี้รวมถึงข้อมูลที่เหลือเรียกว่า R, leverage เรียกว่า lev, Cook's D เรียกว่า cd และ DFFITS ที่เรียกว่า dffit เรากำลังขอสถิติทั้งหมดเหล่านี้ในตอนนี้เพื่อให้สามารถวางไว้ในชุดเดียว dataset ที่เราจะใช้สำหรับหลายตัวอย่างต่อไปมิเช่นนั้นเราอาจต้องเรียกใช้ proc reg ในแต่ละครั้งที่เราต้องการสถิติใหม่และบันทึกสถิติดังกล่าวไปยังไฟล์ข้อมูลผลลัพธ์อื่น เราได้ขอให้นักศึกษาที่เหลืออยู่ในการถดถอยข้างต้นในงบเอาท์พุทและตั้งชื่อพวกเขา r เราสามารถเลือกชื่อที่เราต้องการตราบเท่าที่เป็นชื่อตัวแปร SAS ที่ถูกต้อง Studentized residues is a type ของเหลือที่เป็นมาตรฐานที่สามารถนำมาใช้เพื่อระบุค่าผิดปกติลองตรวจสอบส่วนที่เหลือด้วยก้านและแปลงของใบเราจะเห็นส่วนที่เหลือสามตัวที่ติดอยู่ออกมา -3, 57, 2 62 และ 3 77 การแสดงผลของลำต้นและใบช่วยให้เราสามารถมองเห็น แต่เราไม่สามารถมองเห็นสถานะที่สังเกตเป็นข้อผิดพลาดที่อาจเกิดขึ้น Let s การจัดเรียงข้อมูลที่เหลือและแสดง 10 ที่ใหญ่ที่สุดและ 10 ที่เหลือน้อยที่สุดพร้อมกับ id รัฐและชื่อรัฐเราควรให้ความสนใจกับเหลือเหลือตลาดที่เกิน 2 หรือ - 2 และได้รับความกังวลมากขึ้นเกี่ยวกับส่วนที่เหลือที่เกินกว่า 2 5 หรือ -2 5 และแม้กระทั่งความกังวลมากขึ้นเกี่ยวกับส่วนที่เหลือที่เกิน 3 หรือ -3 ผลเหล่านี้แสดงให้เห็นว่า DC และ MS เป็นข้อสังเกตที่น่าเป็นห่วงที่สุด fol ต่ำโดย FL. Let s แสดงตัวแปรทั้งหมดในการถดถอยของเราที่เหลือเหลือตลาดเกิน 2 หรือ -2 คือที่ค่าสัมบูรณ์ของส่วนที่เหลือเกินกว่า 2 เราจะเห็นข้อมูลสำหรับสามตัวชี้วัดที่อาจเกิดขึ้นที่เราระบุ ได้แก่ ฟลอริด้ามิสซิสซิปปี และวอชิงตันดีซีมองอย่างระมัดระวังที่ทั้งสามข้อสังเกตเรา couldn t พบข้อผิดพลาดใด ๆ ที่รายการการป้อนข้อมูลแม้ว่าเราอาจต้องการที่จะทำการวิเคราะห์การถดถอยอีกด้วยจุดสุดโต่งเช่น DC ลบเราจะกลับไปที่ปัญหานี้ในภายหลังตอนนี้ให้ดูที่ ใช้ประโยชน์จากการสังเกตข้อสังเกตที่จะมีอิทธิพลอย่างมากต่อการประมาณการค่าสัมประสิทธิ์การถดถอยโดยทั่วไปควรมีการตรวจสอบจุดที่มีอำนาจเหนือกว่า 2k 2 n โดยที่ k คือจำนวนของตัวทำนายและ n คือจำนวนการสังเกตในตัวอย่างของเรา ทำงานออกไป 2 3 2 51 15686275 เพื่อให้เราสามารถทำต่อไปนี้เป็นที่เราได้เห็น DC เป็นข้อสังเกตว่าทั้งสองมีส่วนที่เหลือขนาดใหญ่และมีขนาดใหญ่จุดดังกล่าวอาจมีอิทธิพลมากที่สุดเรา สามารถทำพล็อตที่แสดงให้เห็นถึงการยกระดับโดยที่เหลืออยู่ในรูปสี่เหลี่ยมและมองหาข้อสังเกตที่ร่วมกันสูงในทั้งสองของมาตรการเหล่านี้เราสามารถทำเช่นนี้ใช้ยกระดับเมื่อเทียบกับพล็อตที่เหลือตกต่ำใช้ที่เหลือถ่วงน้ำหนักแทนของที่เหลือเองกราฟถูก จำกัด ให้ มุมมองแรกและตำแหน่งสัมพัทธ์ของจุดข้อมูลจะถูกเก็บรักษาไว้นี่คือวิธีที่รวดเร็วในการตรวจสอบการสังเกตที่มีศักยภาพและข้อผิดพลาดในเวลาเดียวกันทั้งสองประเภทเป็นประเด็นที่น่าเป็นห่วงสำหรับเราจุดสำหรับ DC ดึงดูดความสนใจของเราให้มีทั้งที่สูงที่สุด จุดเด่นของ MS มีขนาดใหญ่เกือบเท่าที่มีอยู่ยกกำลังสอง แต่ก็ไม่มีการใช้ประโยชน์เหมือนกันเราจะสังเกตข้อสังเกตเหล่านี้อย่างรอบคอบโดยแสดงรายชื่อไว้ด้านล่างตอนนี้ให้ไปต่อที่ มาตรการโดยรวมของอิทธิพลโดยเฉพาะอย่างยิ่งให้ดูที่ Cook s D และ DFITS มาตรการเหล่านี้ทั้งสองรวมข้อมูลเกี่ยวกับส่วนที่เหลือและใช้ประโยชน์คุก D และ DFITS เป็นอย่างมาก imilar ยกเว้นว่าพวกเขามีขนาดแตกต่างกัน แต่พวกเขาให้เราตอบคำถามที่คล้ายกันค่าต่ำสุดที่ Cook S สามารถสมมติเป็นศูนย์และสูงกว่า Cook s D คือจุดที่มีอิทธิพลมากขึ้นคือจุดตัดทั่วไปคือ 4 n เราสามารถแสดงรายการสังเกตการณ์ใด ๆ เหนือจุดตัดโดยการทำดังต่อไปนี้เราจะเห็นว่าคุก D สำหรับ DC คือโดยไกลที่ใหญ่ที่สุดตอนนี้ให้ดูที่ DFITS จุดตัดทั่วไปสำหรับ DFITS คือ 2 sqrt Kn DFITS สามารถเป็นบวกหรือลบได้โดยมีจำนวนใกล้เคียงกับศูนย์ซึ่งตรงกับจุดที่มีขนาดเล็กหรือศูนย์เท่าที่เราเห็น DFITS ยังระบุด้วยว่า DC คือการสังเกตการณ์ที่มีอิทธิพลมากที่สุดมาตรการข้างต้นเป็นมาตรการทั่วไปที่มีอิทธิพล คุณยังสามารถพิจารณามาตรการที่เฉพาะเจาะจงมากขึ้นของอิทธิพลที่ประเมินวิธีแต่ละสัมประสิทธิ์การเปลี่ยนแปลงโดยการลบการสังเกตมาตรการนี้เรียกว่า DFBETA และถูกสร้างขึ้นสำหรับแต่ละ predictors Apparently นี้มาก computationally เข้มข้นกว่าสถิติสรุปเช่น Coo ks D เนื่องจากตัวทำนายแบบจำลองมีมากขึ้นการคำนวณที่มากขึ้นอาจเกี่ยวข้องกับเราสามารถจำกัดความสนใจของเราเฉพาะตัวทำนายที่เรามีความกังวลมากที่สุดและเพื่อดูว่าพฤติกรรมเหล่านี้ทำนายได้ดีแค่ไหนใน SAS เราจำเป็นต้องใช้ผลลัพธ์ ods ชื่อตัวแปรใหม่ที่สร้างขึ้นจะถูกเลือกโดยเอสเอเอสโดยอัตโนมัติและเริ่มต้นด้วย DFB ซึ่งจะสร้างตัวแปรสามตัว DFBpctmetro DFBpoverty และ DFBsingle ลองดูค่า 5 ค่าแรกค่า DFBsingle สำหรับอะแลสกาเป็น 0 14 ซึ่งหมายความว่าโดยการรวมอยู่ในการวิเคราะห์เมื่อเทียบกับที่ได้รับการยกเว้นอะแลสกาเพิ่มค่าสัมประสิทธิ์สำหรับข้อผิดพลาดเพียงครั้งเดียว 0 14 มาตรฐาน ได้แก่ 0 ครั้งที่ 14 ข้อผิดพลาดมาตรฐานสำหรับ BSingle หรือ 0 14 15 5 เนื่องจาก การรวมข้อสังเกตอาจช่วยเพิ่มหรือลดค่าสัมประสิทธิ์การถดถอยได้ DFBETA สามารถเป็นได้ทั้งบวกหรือลบค่า DFBETA เกินกว่า 2 sqrt n บุญธรรมต่อไป inves tigation ในตัวอย่างนี้เราจะกังวลเกี่ยวกับค่าสัมบูรณ์เกินกว่า 2 sqrt 51 หรือ 0 28. เราสามารถคำนวณค่า DFBETA ทั้งสามค่าเทียบกับ id สถานะในหนึ่งกราฟที่แสดงด้านล่างเราเพิ่มบรรทัดที่ 0 28 และ -0 28 ถึง ช่วยให้เราเห็นข้อสังเกตที่อาจเป็นอุปสรรคเราเห็นค่าที่มากที่สุดคือประมาณ 3 0 สำหรับ DFsingle เราสามารถทำซ้ำกราฟนี้กับตัวเลือกสถานะ pointlabel ในคำสั่ง symbol1 เพื่อติดฉลากจุดด้วยกราฟด้านบนเราสามารถระบุได้ว่า DFBeta เป็นปัญหาและ กับกราฟด้านล่างเราสามารถเชื่อมโยงการสังเกตที่มีสถานะที่มาจากตอนนี้ให้รายการข้อสังเกตเหล่านี้มี DFBsingle ใหญ่กว่าค่าตัดอีกครั้งเราจะเห็นว่า DC เป็นข้อสังเกตที่มีปัญหามากที่สุดตารางต่อไปนี้สรุปทั่วไป กฎของหัวแม่มือที่เราใช้สำหรับมาตรการเหล่านี้เพื่อระบุข้อสังเกตที่คุ้มค่าของการตรวจสอบต่อไปที่ k เป็นจำนวนของ predictors และ n คือจำนวน observations. Washington DC ได้ปรากฏเป็น outlier รวมทั้งมีอิทธิพล จุดในการวิเคราะห์ทุกเนื่องจากวอชิงตัน ดี.ซี. ไม่ได้เป็นรัฐจริงๆเราสามารถใช้วิธีนี้เพื่อแก้ตัวจากการวิเคราะห์ได้โดยบอกว่าเราต้องการเพียงแค่วิเคราะห์รัฐก่อนลองทำซ้ำการวิเคราะห์ของเรารวมทั้ง DC ตอนนี้ให้เรียกใช้ การวิเคราะห์การละเว้น DC โดยการรวมคำสั่งไว้ที่นี่ ne ย่อมาจากไม่เท่ากัน แต่คุณสามารถใช้ to mean the same thing As we expect, deleting DC made a large change in the coefficient for single The coefficient for single dropped from 132 4 to 89 4 After having deleted DC, we would repeat the process we have illustrated in this section to search for any other outlying and influential observations. In this section, we explored a number of methods of identifying outliers and influential points In a typical analysis, you would probably use only some of these methods Generally speaking, there are two types of methods for assessing outliers statistics such as residuals, leverage, Cook s D and DFITS, that assess the overall impact of an observation on the regression results, and statistics such as DFBETA that assess the specific impact of an observation on the regression coefficients. In our example, we found that DC was a point of major concern We performed a regression with it and without it and the regression equations were very different We can justify removing it from our analysis b y reasoning that our model is to predict crime rate for states, not for metropolitan areas.2 2 Tests for Normality of Residuals. One of the assumptions of linear regression analysis is that the residuals are normally distributed This assumption assures that the p-values for the t-tests will be valid As before, we will generate the residuals called r and predicted values called fv and put them in a dataset called elem1res We will also keep the variables api00 meals ell and emer in that dataset. Let s use the elemapi2 data file we saw in Chapter 1 for these analyses Let s predict academic performance api00 from percent receiving free meals meals , percent of English language learners ell , and percent of teachers with emergency credentials emer. Below we use proc kde to produce a kernel density plot kde stands for kernel density estimate It can be thought as a histogram with narrow bins and a moving average. Proc univariate will produce a normal quantile graph qqplot plots the quantiles of a variable against the quantiles of a normal distribution qqplot is most sensitive to non-normality near two tails and probplot As you see below, the qqplot command shows a slight deviation from normal at the upper tail, as can be seen in the kde above We can accept that the residuals are close to a normal distribution. Severe outliers consist of those points that are either 3 inter-quartile-ranges below the first quartile or 3 inter-quartile-ranges above the third quartile The presence of any severe outliers should be sufficient evidence to reject normality at a 5 significance level Mild outliers are common in samples of any size In our case, we don t have any severe outliers and the distribution seems fairly symmetric The residuals have an approximately normal distribution See the output of the proc univariate above. In the Shapiro-Wilk W test for normality, the p-value is based on the assumption that the distribution is normal In our example, the p-value is very large 0 51 , indicating that we cannot reject that r is normally distributed See the output of the proc univariate above.2 3 Tests for Heteroscedasticity. One of the main assumptions for the ordinary least squares regression is the homogeneity of variance of the residuals If the model is well-fitted, there should be no pattern to the residuals plotted against the fitted values If the variance of the residuals is non-constant, then the residual variance is said to be heteroscedastic There are graphical and non-graphical methods for detecting heteroscedasticity A commonly used graphical method is to plot the residuals versus fitted predicted values Below we use a plot statement in the proc reg The r and p tell SAS to calculate the residuals r and predicted values p for use in the plot We see that the pattern of the data points is getting a little narrower towards the right end, which is an indication of mild heteroscedasticity. Now let s look at a test for heteroscedasticity, the White test The White test tests the null hypothesis that the variance of the residuals is homogenous Therefore, if the p-value is very small, we would have to reject the hypothesis and accept the alternative hypothesis that the variance is not homogenous We use the spec option on the model statement to obtain the White test. While the White test is significant, the distribution of the residuals in the residual versus fitted plot did not seem overly heteroscedastic. Consider another example where we use enroll as a predictor Recall that we found enroll to be skewed to the right in Chapter 1 As you can see, this example shows much more serious heteroscedasticity. As we saw in Chapter 1, the variable enroll was skewed considerably to the right, and we found that by taking a log transformation, the transformed variable was more normally distributed Below we transform enroll run the regression and show the residual versus fitted plot The distribution of the residuals is much improved Certainly, this is not a perfect distribu tion of residuals, but it is much better than the distribution with the untransformed variable. Finally, let s revisit the model we used at the start of this section, predicting api00 from meals ell and emer Using this model, the distribution of the residuals looked very nice and even across the fitted values What if we add enroll to this model Will this automatically ruin the distribution of the residuals Let s add it and see. As you can see, the distribution of the residuals looks fine, even after we added the variable enroll When we had just the variable enroll in the model, we did a log transformation to improve the distribution of the residuals, but when enroll was part of a model with other variables, the residuals looked good enough so that no transformation was needed This illustrates how the distribution of the residuals, not the distribution of the predictor, was the guiding factor in determining whether a transformation was needed.2 4 Tests for Collinearity. When there is a per fect linear relationship among the predictors, the estimates for a regression model cannot be uniquely computed The term collinearity describes two variables are near perfect linear combinations of one another When more than two variables are involved, it is often called multicollinearity, although the two terms are often used interchangeably. The primary concern is that as the degree of multicollinearity increases, the regression model estimates of the coefficients become unstable and the standard errors for the coefficients can get wildly inflated In this section, we will explore some SAS options used with the model statement that help to detect multicollinearity. We can use the vif option to check for multicollinearity vif stands for variance inflation factor As a rule of thumb, a variable whose VIF values is greater than 10 may merit further investigation Tolerance, defined as 1 VIF, is used by many researchers to check on the degree of collinearity A tolerance value lower than 0 1 i s comparable to a VIF of 10 It means that the variable could be considered as a linear combination of other independent variables The tol option on the model statement gives us these values Let s first look at the regression we did from the last section, the regression model predicting api00 from meals, ell and emer and use the vif and tol options with the model statement. The VIFs look fine here Here is an example where the VIFs are more worrisome. In this example, the VIF and tolerance 1 VIF values for avged gradsch and colgrad are worrisome All of these variables measure education of the parents and the very high VIF values indicate that these variables are possibly redundant For example, after you know gradsch and colgrad you probably can predict avged very well In this example, multicollinearity arises because we have put in too many variables that measure the same thing parent education. Let s omit one of the parent education variables, avged Note that the VIF values in the analysis below appear much better Also, note how the standard errors are reduced for the parent education variables, gradsch and colgrad This is because the high degree of collinearity caused the standard errors to be inflated With the multicollinearity eliminated, the coefficient for gradsch which had been non-significant, is now significant. Let s introduce another option regarding collinearity The collinoint option displays several different measures of collinearity For example, we can test for collinearity among the variables we used in the two examples above Note that if you use the collin option, the intercept will be included in the calculation of the collinearity statistics, which is not usually what you want The collinoint option excludes the intercept from those calculations, but it is still included in the calculation of the regression. We now remove avged and see the collinearity diagnostics improve considerably. The condition number is a commonly used index of the global instability of the regression coefficients a large condition number, 10 or more, is an indication of instability.2 5 Tests on Nonlinearity. When we do linear regression, we assume that the relationship between the response variable and the predictors is linear This is the assumption of linearity If this assumption is violated, the linear regression will try to fit a straight line to data that does not follow a straight line Checking the linear assumption in the case of simple regression is straightforward, since we only have one predictor All we have to do is a scatter plot between the response variable and the predictor to see if nonlinearity is present, such as a curved band or a big wave-shaped curve For example, let us use a data file called that has data about a number of nations around the world Below we look at the proc contents for this file to see the variables in the file Note that the position option tells SAS to list the variables in the order that they are in the data file. Let s look a t the relationship between GNP per capita gnpcap and births birth Below if we look at the scatterplot between gnpcap and birth we can see that the relationship between these two variables is quite non-linear We added a regression line to the chart, and you can see how poorly the line fits this data Also, if we look at the residuals by predicted plot, we see that the residuals are not nearly homoscedastic, due to the non-linearity in the relationship between gnpcap and birth. Now we are going to modify the above scatterplot by adding a lowess also called loess smoothing line By default, SAS will make four graphs, one for smoothing of 0 1, 0 2, 0 3 and 0 4 We show only the graph with the 0 4 smooth. some output omitted. The lowess line fits much better than the OLS linear regression In trying to see how to remedy these, we notice that the gnpcap scores are quite skewed with most values being near 0, and a handful of values of 10,000 and higher This suggests to us that some transformation of the variable may be useful One of the commonly used transformations is a log transformation Let s try it below As you see, the scatterplot between lgnpcap and birth looks much better with the regression line going through the heart of the data Also, the plot of the residuals by predicted values look much more reasonable. This section has shown how you can use scatterplots to diagnose problems of non-linearity, both by looking at the scatterplots of the predictor and outcome variable, as well as by examining the residuals by predicted values These examples have focused on simple regression however, similar techniques would be useful in multiple regression However, when using multiple regression, it would be more useful to examine partial regression plots instead of the simple scatterplots between the predictor variables and the outcome variable.2 6 Model Specification. A model specification error can occur when one or more relevant variables are omitted from the model or one or more irre levant variables are included in the model If relevant variables are omitted from the model, the common variance they share with included variables may be wrongly attributed to those variables, and the error term is inflated On the other hand, if irrelevant variables are included in the model, the common variance they share with included variables may be wrongly attributed to them Model specification errors can substantially affect the estimate of regression coefficients. Consider the model below This regression suggests that as class size increases the academic performance increases Before we publish results saying that increased class size is associated with higher academic performance, let s check the model specification. There are a couple of methods to detect specification errors A link test performs a model specification test for single-equation models It is based on the idea that if a regression is properly specified, one should not be able to find any additional independent varia bles that are significant except by chance To conduct this test, you need to obtain the fitted values from your regression and the squares of those values The model is then refit using these two variables as predictors The fitted value should be significant because it is the predicted value One the other hand, the fitted values squared shouldn t be significant, because if our model is specified correctly, the squared predictions should not have much of explanatory power That is, we wouldn t expect the fitted value squared to be a significant predictor if our model is specified correctly So we will be looking at the p-value for the fitted value squared. Let s try adding one more variable, meals to the above model and then run the link test again. The link test is once again non-significant Note that after including meals and full the coefficient for class size is no longer significant While acsk3 does have a positive relationship with api00 when no other variables are in the model, when w e include, and hence control for, other important variables, acsk3 is no longer significantly related to api00 and its relationship to api00 is no longer positive.2 7 Issues of Independence. The statement of this assumption is that the errors associated with one observation are not correlated with the errors of any other observation cover several different situations Consider the case of collecting data from students in eight different elementary schools It is likely that the students within each school will tend to be more like one another that students from different schools, that is, their errors are not independent We will deal with this type of situation in Chapter 4.Another way in which the assumption of independence can be broken is when data are collected on the same variables over time Let s say that we collect truancy data every semester for 12 years In this situation it is likely that the errors for observation between adjacent semesters will be more highly correlated than fo r observations more separated in time This is known as autocorrelation When you have data that can be considered to be time-series, you should use the dw option that performs a Durbin-Watson test for correlated residuals. We don t have any time-series data, so we will use the elemapi2 dataset and pretend that snum indicates the time at which the data were collected We will sort the data on snum to order the data according to our fake time variable and then we can run the regression analysis with the dw option to request the Durbin-Watson test. The Durbin-Watson statistic has a range from 0 to 4 with a midpoint of 2 The observed value in our example is less than 2, which is not surprising since our data are not truly time-series. In this chapter, we have used a number of tools in SAS for determining whether our data meets the regression assumptions Below, we list the major commands we demonstrated organized according to the assumption the command was shown to test. Detecting Unusual and Inf luential Data. scatterplots of the dependent variables versus the independent variable. looking at the largest values of the studentized residuals, leverage, Cook s D, DFFITS and DFBETAs. Tests for Normality of Residuals Tests for Heteroscedasity. kernel density plot. quantile-quantile plots. standardized normal probability plots. Shapiro-Wilk W test. scatterplot of residuals versus predicted fitted values. Tests for Multicollinearity. looking at VIF. looking at tolerance. Tests for Non-Linearity. scatterplot of independent variable versus dependent variable. Tests for Model Specification. time series. Durbin-Watson test.2 9 For more information.

No comments:

Post a Comment