Samenvatting: Codecademy Ml Summarizing The Relationship Between Two Features
- Deze + 400k samenvattingen
- Een unieke studie- en oefentool
- Nooit meer iets twee keer studeren
- Haal de cijfers waar je op hoopt
- 100% zeker alles onthouden
Lees hier de samenvatting en de meest belangrijke oefenvragen van Codecademy ML Summarizing the Relationship between Two Features
-
1 Associations: Quantitative and Categorical Variables
Dit is een preview. Er zijn 1 andere flashcards beschikbaar voor hoofdstuk 1
Laat hier meer flashcards zien -
Hoe splits je op in verschillende lijsten in een associatie tussen quantitieve en categorische variabelen ?
Bvb associatie testscore en platteland of stedelijk :
scores_urban = students.G3[students.address == 'U']
scores_rural = students.G3[students.address == 'R'] -
1.2 Side-by-Side Box Plots
Dit is een preview. Er zijn 1 andere flashcards beschikbaar voor hoofdstuk 1.2
Laat hier meer flashcards zien -
Waarvoor zijn side by side boxplots nuttig ?
Een manier om een beter gevoel te krijgen voor despreiding is door te kijken naar eenvisuele weergave van de gegevens.Boxplots naast elkaar zijnnuttig om verschillen ingemiddelden enmedianen te visualiseren, omdat ze ons in staat stellen de variatie in de gegevens visueel teschatten . Dit kan ons helpen te bepalen of de verschillen in gemiddelde ofmediaan “groot” of “klein” zijn. Maw is er een grote overlap tussen de twee boxplots ? -
1.3 Inspecting Overlapping Histograms
Dit is een preview. Er zijn 1 andere flashcards beschikbaar voor hoofdstuk 1.3
Laat hier meer flashcards zien -
Wat kan je afleiden uit de overlap ?
Bij weinigoverlap van de distributie mogelijk sterkgeassocieerd -
1.4 Exploring Non-Binary Categorical Variables
-
Wat zijn non binary categorische variabelen ?
deze variabelen.hebben meer dan twee categorien -
Hoe vergelijk je associaties met non binary categorical variabelen
Visueel gezien moeten we elke box met elke andere box vergelijken. Hoewel de meeste van deze boxen elkaar overlappen, zijn er enkele paren waarvoor duidelijke verschillen zichtbaar zijn. Zo lijken de scores hoger te zijn bij studenten van wie de moeders in de gezondheidszorg werken dan bij studenten van wie de moeders thuis werken of een “andere” baan hebben. Als er ENIGE paargewijze verschillen zijn, kunnen we zeggen dat de variabelen met elkaar samenhangen; -
2 Associations: Two Quantitative Variables
-
2.1 Scatter Plots
Dit is een preview. Er zijn 1 andere flashcards beschikbaar voor hoofdstuk 2.1
Laat hier meer flashcards zien -
Wat is het voordeel van een scatterplot te tekenen ?
Zo zie je snel of er zich patronen vormen -
2.3 Correlation
Dit is een preview. Er zijn 2 andere flashcards beschikbaar voor hoofdstuk 2.3
Laat hier meer flashcards zien -
Wat zijn de limieten van een correlatie of covariantie ?
Omdat correlatie en covariantie allebei de sterkte meten van lineaire relaties met een niet-nulhelling, maar geen andere soorten relaties, kan correlatie misleidend zijn. -
3 Associations: Two Categorical Variables
-
3.2 Contingency Tables: Proportions
-
Hoe maak je een kruistabel van proporties ?
We kunnen dit eenvoudig doen door alle frequenties in een contingentietabel te delen door het totale aantal observaties (de som van alle frequenties):
influence_leader_freq = pd.crosstab(npi.influence, npi.leader)
influence_leader_prop = influence_leader_freq/len(npi) -
3.3 Marginal Proportions
-
Wat zijn marginale proporties ?
Marginale proporties in de statistiek zijn de proporties (of percentages) die je krijgt door de totalen van rijen of kolommen in een kruistabel te delen door het totale aantal observaties.
Het woord marginaal komt van de “marges” (de randen) van een tabel: de rijtotalen en kolomtotalen staan altijd in de marges. -
Waarom zijn marginale proporties nuttig?
Ze geven algemene informatie over je steekproef:- Hoe de variabelen afzonderlijk verdeeld zijn.
- Of een categorie zeldzaam of veelvoorkomend is.
- Ze helpen je bij het interpreteren van joint en conditional proportions (gezamenlijke en conditionele proporties).
- Hoe de variabelen afzonderlijk verdeeld zijn.
- Hogere cijfers + sneller leren
- Niets twee keer studeren
- 100% zeker alles onthouden















