প্রস্তাব টেস্টিং

পাইথন ব্যবহার করে হাইপোথিসিস টেস্টিংয়ের একটি সহজ এবং সংক্ষিপ্ত টিউটোরিয়াল

ছবি থেকে: http://www.advanceinnovationgroup.com/blog/median-based-hypothesis-testing

এই ব্লগে আমি পাইথনের পরিসংখ্যান পদ্ধতি ব্যবহার করে হাইপোথিসিস পরীক্ষার একটি সংক্ষিপ্ত টিউটোরিয়াল দেব। হাইপোথিসিস টেস্টিং বৈজ্ঞানিক পদ্ধতির অংশ যার সাথে আমরা সকলেই পরিচিত, এমন কিছু আমরা সম্ভবত আমাদের প্রাথমিক শিক্ষাগত বছরগুলিতে শিখেছি। তবে পরিসংখ্যানগুলিতে জনসংখ্যার নমুনায় অনেক পরীক্ষা-নিরীক্ষা করা হয়।

“পর্যবেক্ষণের একটি নমুনা সেট প্রস্তাবিত ব্যাখ্যা সম্পর্কে আমাদের কী বলে তা নির্ধারণ করার জন্য, সাধারণভাবে, আমাদের অনিশ্চয়তার সাথে যুক্তির কারণ হিসাবে একটি পরিসংখ্যান করা প্রয়োজন, বা আমরা পরিসংখ্যানবিদরা এটি বলেছি। অনিশ্চয়তার সাথে যুক্তি যুক্তিগত পরিসংখ্যানের মূল বিষয় এবং সাধারণত নাল হাইপোথিসিসের গুরুত্বপূর্বক পরীক্ষা নামক একটি পদ্ধতি ব্যবহার করে এটি করা হয়। -Ovens।

এই ব্লগের উদাহরণ হিসাবে, আমি কাগল-তে পাওয়া একটি ইউরোপীয় সকার ডেটা সেট ব্যবহার করব এবং অনুমান পরীক্ষা করব। ডেটাসেটটি এখানে পাওয়া যাবে।

ধাপ 1

একটি পর্যবেক্ষণ করুন

প্রথম পদক্ষেপটি ঘটনাটি পর্যবেক্ষণ করা। এই ক্ষেত্রে, এটি হবে: গড় অনুমোদিত গোলগুলিতে প্রতিরক্ষা আগ্রাসনের কোনও প্রভাব আছে?

ধাপ ২

গবেষণা পরীক্ষা

কাজ করার জন্য একটি ভাল মানসিকতা হ'ল কাজটি আরও কঠোর নয়। আপনার পর্যবেক্ষণ সম্পর্কিত গবেষণা ইতিমধ্যে বিদ্যমান কিনা তা দেখার একটি ভাল কাজ। যদি তা হয় তবে এটি আমাদের প্রশ্নের উত্তর দিতে সহায়তা করতে পারে। ইতিমধ্যে বিদ্যমান গবেষণা বা পরীক্ষাগুলি সম্পর্কে সচেতন হওয়া আমাদের আমাদের পরীক্ষা-নিরীক্ষার আরও কাঠামোগত গঠনে সহায়তা করবে বা আমাদের প্রশ্নের উত্তর এমনকি আমাদের প্রথম দিকে পরীক্ষাটি পরিচালনা করতে হবে না।

ধাপ 3

নাল হাইপোথিসিস এবং একটি বিকল্প হাইপোথিসিস গঠন করুন

একটি বিকল্প অনুমান হ'ল আমাদের শিক্ষিত অনুমান এবং নাল অনুমানটি কেবল বিপরীত। বিকল্প অনুমান যদি দুটি ভেরিয়েবলের মধ্যে উল্লেখযোগ্য সম্পর্ক থাকে তবে নাল হাইপোথিসিসটি উল্লেখ করে যে এর সাথে উল্লেখযোগ্য সম্পর্ক নেই।

আমাদের নাল হাইপোথেসিসটি হ'ল: প্রতিরক্ষা আগ্রাসন রেটিং সহ vers৫ টির চেয়ে কম বা equal৫ এর নীচে দলগুলির প্রতিরক্ষা আগ্রাসন রেটিংযুক্ত দলগুলির সাথে অনুমোদিত গোলগুলির মধ্যে কোনও পরিসংখ্যানগত পার্থক্য নেই।

বিকল্প হাইপোথিসিস: প্রতিরক্ষা আগ্রাসন রেটিং সহ 65 টির চেয়ে কম বা 65 এর চেয়ে কম সমান দলগুলির সাথে অনুমোদিত গোলগুলির মধ্যে একটি পরিসংখ্যানগত পার্থক্য রয়েছে।

পদক্ষেপ 4

আমাদের অনুমানটি যদি একটি লেজযুক্ত পরীক্ষা বা দ্বি-পুচ্ছ পরীক্ষা হয় তা নির্ধারণ করুন।

ওয়ান-টেইলড টেস্ট

"আপনি যদি ০.০৫ এর তাত্পর্য স্তরটি ব্যবহার করে থাকেন তবে একটি লেজযুক্ত পরীক্ষা আপনার সমস্ত আলফাকে স্বার্থের এক দিক থেকে পরিসংখ্যানগত তাত্পর্য পরীক্ষা করতে দেয়” " এক-লেজযুক্ত পরীক্ষার উদাহরণ হ'ল "আগ্রাসনের রেটিং 65৫ এর চেয়ে কম সহ সকার দলগুলি teams৫ এর চেয়ে কম রেটিং প্রাপ্ত দলগুলির তুলনায় পরিসংখ্যানগতভাবে উল্লেখযোগ্যভাবে আরও বেশি গোলের অনুমতি দেয়।"

দ্বি-টাইল পরীক্ষা

“আপনি যদি ০.০৫ এর তাত্পর্য স্তরটি ব্যবহার করে থাকেন তবে একটি দ্বি-পুচ্ছ পরীক্ষা আপনার আলফার অর্ধেকটি এক দিক দিয়ে পরিসংখ্যানিক তাত্পর্য পরীক্ষা করতে এবং আপনার আলফার অর্ধেকটিকে অন্য দিকে স্ট্যাটিস্টিকাল তাত্পর্য পরীক্ষা করতে দেয়। এর অর্থ হল আপনার পরীক্ষার পরিসংখ্যান বিতরণের প্রতিটি পুচ্ছের মধ্যে 0.025 রয়েছে ”"

একটি দ্বি-পুচ্ছ পরীক্ষা দিয়ে আপনি উভয় দিক দিয়ে পরিসংখ্যানগত তাত্পর্য পরীক্ষা করছেন। আমাদের ক্ষেত্রে, আমরা উভয় দিক দিয়ে পরিসংখ্যানগত তাত্পর্য পরীক্ষা করছি।

পদক্ষেপ 5

একটি থ্রেশহোল্ড তাত্পর্য স্তর সেট করুন (আলফা)

(আলফা মান): প্রান্তিক প্রান্তিক প্রান্তিক স্থলে যেখানে নাল অনুমানটি প্রত্যাখ্যান করা আমরা ঠিক আছি। একটি আলফা মান যে কোনও মান হতে পারে যা আমরা 0 এবং 1 এর মধ্যে নির্ধারণ করি যাইহোক, বিজ্ঞানের সর্বাধিক সাধারণ আলফা মান 0.05 হয়। ০.০৫ এ সেট করা একটি আলফা অর্থ আমরা এলোমেলো কারণে to% বা তার কম সম্ভাবনা থাকলেও নাল অনুমানকে প্রত্যাখ্যান করতে আমরা ঠিক আছি।

পি-মান: এ ডাটা এলোমেলোভাবে আগত হওয়ার গণনা করা সম্ভাবনা।

যদি আমরা একটি পি-মান গণনা করি এবং এটি 0.03 এ চলে আসে তবে আমরা এর অর্থ এই বলে ব্যাখ্যা করতে পারি যে "3% সম্ভাবনা রয়েছে যা আমি দেখছি ফলাফলগুলি এলোমেলোভাবে বা নির্ভেজাল ভাগ্যের কারণে"।

শিখুন.কম থেকে প্রাপ্ত চিত্র

আমাদের লক্ষ্য হল পি-মান গণনা করা এবং এটি আমাদের আলফার সাথে তুলনা করা। আলফা যত কম তত পরীক্ষা আরও কঠোর।

পদক্ষেপ 6

স্যাম্পলিং সম্পাদন করুন

এখানে আমাদের সকার নামক ডেটাসেট রয়েছে। আমাদের পরীক্ষার জন্য, আমাদের কেবলমাত্র আমাদের ডেটা সেটে দুটি কলাম দরকার: টিম_ডেফ_আগ্রার_রেটিং এবং গোল_লাইজড। আমরা এটি এই দুটি কলামে ফিল্টার করব তারপরে প্রতিরক্ষামূলক আগ্রাসন রেটিং teams৫ এর চেয়ে বেশি বা সমান এবং teams৫ এর নিচে প্রতিরক্ষামূলক আগ্রাসন রেটিং সহ দলগুলির জন্য দুটি উপসেট তৈরি করব।

কেবল আমাদের অনুমান পরীক্ষার জন্য পুনরুদ্ধার করতে:

গড় অনুমোদিত গোলগুলিতে প্রতিরক্ষা আগ্রাসনের প্রভাব। নাল হাইপোথেসিস: প্রতিরক্ষা আগ্রাসন রেটিং সহ vers৫ টির চেয়ে কম বা সমান vers৫ টির চেয়ে কম দলগুলির সাথে অনুমোদিত গোলগুলির মধ্যে কোনও পরিসংখ্যানগত পার্থক্য নেই Al 65 এর নীচে 65 বনাম দলগুলির চেয়ে সমান বা সমান Two দুই-লেজযুক্ত টেস্ট আলফা: 0.05

এখন আমাদের কাছে দুটি নমুনার তালিকা রয়েছে যা আমরা পরিসংখ্যান সংক্রান্ত পরীক্ষা চালাতে পারি। এই পদক্ষেপের আগে, আমি একটি দৃশ্য পেতে দুটি বিতরণ প্লট করব।

পদক্ষেপ 7

দ্বি-নমুনা টি-পরীক্ষা করুন

দুটি নমুনা টি-পরীক্ষা দুটি জনসংখ্যার সমান কিনা তা নির্ধারণ করতে ব্যবহৃত হয়। এর জন্য, আমরা স্ট্যাটমোডালস নামে পাইথন মডিউলটি ব্যবহার করব। আমি স্ট্যাটাস মডেলগুলি সম্পর্কে খুব বেশি বিশদে যাব না তবে আপনি এখানে ডকুমেন্টেশন দেখতে পারেন।

পদক্ষেপ 8

মূল্যায়ন এবং উপসংহার

মনে রাখবেন যে আমরা যে আলফাটি সেট করেছিলাম তা ছিল এক = 0.05। আমরা আমাদের পরীক্ষার ফলাফলগুলি থেকে দেখতে পাচ্ছি যে পি-মানটি আমাদের আলফার চেয়ে কম। আমরা আমাদের নাল অনুমানকে প্রত্যাখ্যান করতে পারি এবং 95% আত্মবিশ্বাসের সাথে আমাদের বিকল্প অনুমানটি গ্রহণ করি।

পড়ার জন্য আপনাকে ধন্যবাদ! হাইপোথিসিস টেস্টিংয়ের আরও গভীরতার জন্য, আপনি এখানে হাইপোথিসিস পরীক্ষার সাথে জড়িত গিটহাবের এই গ্রুপ প্রকল্পটি পরীক্ষা করে দেখতে পারেন।

সম্পদ:

ওভেনস, ম্যাথু আপনার স্ট্যাটসগুরু থেকে প্রাপ্ত "পরিসংখ্যান এবং" বৈজ্ঞানিক পদ্ধতি "। https://www.yourstatsguru.com/secrets/scimethod-stats/?v=4442e4af0916

এসএএস-এর পরিচিতি। UCLA: পরিসংখ্যান পরামর্শ গ্রুপ। https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq- কি-are-the-differences-between-one-tailed-and-two-tailed-tests/ থেকে (অ্যাক্সেসড মে 16, 2019)।

প্রকৌশল পরিসংখ্যানের পুস্তক। https://www.itl.nist.gov/div898/handbook/eda/section3/eda353.htm