Big Data zijn niet meer uit het onderwijs weg te denken. Om studenten te trainen in het verzamelen en analyseren van data, ontwikkelden Tilburg University en de Open Universiteit de MOOC ‘Data science voor alfa en gamma’.
Instelling
Tilburg University en de Open Universiteit
Doel en doelgroep
Big data spelen een steeds belangrijker rol in onderzoek. Daarom is het belangrijk dat ook studenten zonder programmeerkennis leren omgaan met extreem grote databestanden. In de MOOC ‘Data science voor alfa en gamma’ leren studenten hoe ze via data analytics en datamining inzicht krijgen in grote databestanden. De MOOC richt zich niet alleen op het verzamelen en analyseren van data, maar leert studenten ook hoe ze verbanden en conclusies kunnen presenteren.
Resultaten
De MOOC ‘Data science voor alfa en gamma’ omvat een breed scala van open leermaterialen, zoals een introductie in de vorm van zes videolezingen, video-testimonials van data-scientists uit de praktijk en hands-on opdrachten gebaseerd op Orange en WEKA. Voor de MOOC is gebruik gemaakt van een combinatie van een Canvas-omgeving met YouTube video’s en iPython Notebooks. Het ondersteunende materiaal is beschikbaar via GitHub, zodat docenten naar eigen inzicht delen van de module kunnen overnemen.
Ontwikkelde materialen
6 video lectures ter introductie van data science:
- Video Lecture 1 – Introduction to Data Science
- Video Lecture 2 – Representing Data
- Video Lecture 3 – Working with Text Data – Part 1
- Video Lecture 4 – Best Practices and Common Pitfalls
- Video Lecture 5 – Working with Text Data – Part 2
- Video Lecture 6 – Mining Massive Data
Op github vind je de powerpointslides voor docenten die zijn gekoppeld aan de onderstaande uitlegvideo's over het gebruik van datamining omgevingen Orange en WEKA. Ook vind je er de Jupyter Notebook voor hands-on oefeningen.
Deze introductievideo legt de basis van WEKA in ongeveer 23 minuten uit.
De introductie WEKA video’s hieronder geven een goed overzicht over de software en de basics of data mining.
- Introduction
- Exploring the Explorer
- Comparing Classifiers
- Building a Classifier
- Using a Filter
- Visualising your Data
- Be a Classifier
- Training and Testing
- Repeated Training and Testing
- Baseline Accuracy
- Cross-Validation
- Cross-Validation Results
- Decision Trees and Rules
- Generating Decision Rules
- Using Probabilities
- Decision Trees
- Pruning Decision Trees
- Nearest Neighbor
- Classification Boundaries
- Linear Regression
- Classification by Regression
- Logistic Regression
- Support Vector Machines
- Ensemble Learning
Hieronder vind je 19 tutorial video's voor data mining met Orange.
- Welcome to Orange
- Data Workflows
- Widgets and Channels
- Loading your Data
- Hierarchical Clustering
- Making Predictions
- Model Evaluation and Scoring
- Add-ons
- Principal Component Analysis
- Feature Scoring and Ranking
- k-Means
- k-Means Explained
- Silhouette
- Image Analytics – Clustering
- Image Analytics – Classification
- Text Preprocessing
- Text Clustering
- Text Classification
- How to Import Text Documents
Pointers naar vrij beschikbaar materiaal om basisvaardigheden Python op te doen.
- Download Python. Python documentatie. Python tutorial.
- The Coder’s Apprentice by Pieter Spronck (Dutch version) is a gentle introduction to Python.
Tips
- Een MOOC valt of staat met een gedegen integratie in het eigen onderwijs: MOOC, face-to-face onderwijs en programmeeromgeving moeten een logische drie-eenheid vormen.
- Maak vooraf een goede afweging bij de keuze voor een commercieel of niet-commercieel platform, en kijk daarbij vooral ook kritisch naar de kosten.
Contactpersoon voor vragen
Marie Postma-Nilsenová: marie.postma@uvt.nl
Stimuleringsregeling open en online onderwijs
Dit project heeft in 2015 deelgenomen aan de stimuleringsregeling open en online onderwijs.