DATA KITA

Data Informasi Dan Berita Terbaru

DATA ANALISIS REGRESI BERGANDA

Statistik selalu mencari formula untuk menggambarkan hubungan. Tapi alih-alih menggunakan formula hubungan yang kita semua kenal, seperti "rebound", "emas-penggali" dan "teman-teman dengan manfaat," statistik hanya menggunakan ... matematika.

Jenis paling sederhana dari rumus matematika yang dapat digunakan untuk menggambarkan hubungan hanya garis lurus. Kami Geeks menyebut bahwa "hubungan linear." (Linear = garis, mendapatkannya?) Saya yakin Anda pernah mendengar banyak ucapan yang menggambarkan hubungan linear:

"Semakin Anda dimasukkan ke dalam sesuatu, semakin Anda akan keluar."

Atau, secara bergantian, "Sampah masuk, sampah keluar."

Atau, versi Hollywood: "Bodoh adalah sebagai bodoh tidak."

Tapi di sini yang hubungan linear seperti pada grafik: 

ANALISIS REGRESI


Sehingga nilai sepanjang bagian bawah (x) meningkat, nilai sepanjang sisi (y) akan lebih besar juga.

Bagaimana garis yang menggambarkan hubungan? Nah, mari kita coba ini:

Semakin saya berolahraga di gym, semakin besar kemungkinan orang-orang di bar ini akan menemukan saya menarik.

Atau, bagi Anda yang sinis luar sana:

Semakin saya minum di bar ini, semakin besar kemungkinan saya untuk menemukan orang-orang lain yang menarik.

Oke, Anda mendapatkan ide.


Generalisasi seperti ini mungkin baik untuk tahu, tapi statistik ingin mendapatkan spesifik. Dia ingin tahu persis berapa banyak push up seseorang harus dilakukan untuk memperoleh sebuah pandangan tambahan. Atau berapa banyak bir teman Anda harus minum sebelum dia setuju untuk audisi untuk kencan reality show-TV.

Statistik sejumlah Geeks, ingat?


Lebih penting lagi, mereka ingin menguji untuk melihat apakah generalisasi sebenarnya benar. Jadi mereka mengumpulkan data - dengan kata lain, mereka pergi keluar dan menuliskan informasi. Mungkin Anda melacak jumlah tanggal seseorang mendapat setiap minggu setelah ia mulai program kerja-out. Atau Anda duduk kembali dan mencatat jumlah orang mabuk hits di dalam bar, bersama dengan jumlah minuman yang dikonsumsinya.

Apa pun yang Anda belajar, Anda ingin mengumpulkan dua variabel informasi - variabel independen (misalnya: hal apa pun yang Anda lakukan pertama, seperti minggu bekerja keluar atau bir yang dikonsumsi), dan variabel dependen (hal lain yang kami pikir kekuatan hasil dari melakukan hal pertama, seperti jumlah tanggal yang Anda dapatkan atau jumlah gagal melewati Anda buat).

Setelah Anda mengumpulkan data Anda, saatnya untuk merencanakan angka pada grafik, seperti ini:
ANALISIS REGRESI

Oke, aku bisa membayangkan Anda menggelengkan kepala. "Tapi titik-titik ini tidak membuat garis lurus!" Anda berpikir untuk diri sendiri. Benar?

Nah, Anda benar.

Mencoba untuk menghubungkan titik-titik ini mungkin membentuk beberapa bentuk aneh, tapi itu tidak akan menjadi bagus, garis lurus halus yang ahli statistik perlu untuk menggambarkan hubungan linear. Jadi kita melakukan hal terbaik berikutnya - kami mencoba untuk menarik garis yang datang sedekat kita bisa untuk banyak dari titik-titik data yang mungkin.

Dan, ya, statistik telah menciptakan formula matematika untuk melakukan hal itu. Mereka menyebutnya formula ini "regresi kuadrat terkecil."

Mengapa nama canggung?


Sebenarnya, nama tidak canggung sama sekali. Ini menggambarkan apa persamaan ini tidak. A kuadrat regresi menemukan garis yang paling mendekati titik-titik data pada grafik. Mengapa "kuadrat terkecil"? Bayangkan Anda menarik persegi untuk setiap titik data pada grafik. Titik data itu sendiri akan menjadi salah satu sudut alun-alun dan titik di mana alun-alun memenuhi garis akan berada di sudut lain. Posisi garis yang meminimalkan ukuran semua kotak dijumlahkan adalah garis regresi kuadrat terkecil.

Mengapa menggunakan kotak? Mengapa tidak hanya menarik banyak jalur lain, menghubungkan titik data dengan garis Anda mencoba untuk menggambar? Inilah masalah dengan itu: Beberapa titik data terletak di atas garis, dan lain-lain terletak di bawah itu. Jika Anda hanya diukur jarak jauh dari garis, Anda akan memiliki nomor positif dari titik data di atas garis, dan angka negatif untuk titik data di bawah garis. Tapi Anda tidak ingin angka-angka untuk membatalkan satu sama lain. Anda ingin menambahkan nilai absolut dari semua nomor mereka sebagai gantinya.

Daripada melakukan itu, jika Anda hanya persegi semua jarak tersebut, Anda mendapatkan nilai-nilai positif bagi mereka semua tetap. Itu jauh lebih sederhana untuk matematika untuk mengekspresikan dalam persamaan. Plus, menggunakan kotak benar-benar menghukum baris yang terlalu jauh dari beberapa titik data mereka, yang memungkinkan Anda untuk menemukan sejalan dengan cocok lebih tepat untuk data Anda.

Presisi yang tepat dari fit yang diukur dengan hasil yang disebut R 2 (R-squared). Angka itu, diukur antara 0 dan 1, memberitahu Anda berapa banyak variasi dalam variabel dependen dijelaskan oleh variabel independen. Salah satunya adalah cocok. Nol - tidak begitu banyak. (Sisanya, pikir oleh satu minus R 2 nilai, adalah berapa banyak dari variasi dalam variabel dependen dijelaskan oleh kesalahan.)

Statistik memiliki proses yang disebut ANOVA (An alysis o f Va riance), yang menghasilkan R 2 dan sejumlah angka yang dapat memberitahu Anda apakah garis regresi kuadrat terkecil Anda mengungkapkan "signifikan secara statistik" hubungan ... atau jika Anda sudah saja minum terlalu banyak dan nomor Anda tidak berarti apa-apa.

Ingat, analisis regresi hanya memberitahu Anda seberapa baik dua variabel yang berkorelasi dengan satu sama lain. Tapi korelasi tidak berarti sebab-akibat. Berikut ini adalah contoh: Sebuah penelitian mungkin menemukan bahwa peningkatan angka kelahiran lokal berkorelasi dengan migrasi tahunan bangau atas kota. Ini tidak berarti bahwa bangau membawa bayi. Atau bahwa bayi dibawa bangau.

Statistik menyebut hal semacam ini suatu "hubungan palsu," yang merupakan istilah keren untuk "total kebetulan."

Orang-orang yang menginginkan sesuatu dari orang lain sering menggunakan studi regresi untuk mencoba untuk mendukung perjuangan mereka. Mereka akan mengatakan sesuatu di sepanjang baris "sebuah penelitian menunjukkan bahwa kebijakan polisi baru yang kita ingin menyebabkan penurunan 20 persen dalam kejahatan selama periode 10-tahun di (beberapa kota)."

Itu mungkin benar, tapi penurunan angka kriminalitas bisa disebabkan sesuatu selain itu kebijakan baru. Bagaimana jika, katakanlah, usia rata-rata kota-kota 'penduduk meningkat secara signifikan selama periode 10 tahun? Karena kejahatan diyakini tergantung usia (artinya laki-laki lebih muda yang ada dalam suatu daerah, semakin banyak kejahatan yang Anda miliki), penuaan penduduk berpotensi menjadi penyebab penurunan angka kriminalitas.

sumber : http://www.robertniles.com/stats/regression.shtml
0 Komentar untuk "DATA ANALISIS REGRESI BERGANDA"

 
Copyright © 2014 DATA KITA - All Rights Reserved
Template By. Catatan Info