Data Mining Unit 3 Notes | Data & Data Mining

Unit 3

🎯 Unit 3 Overview

Unit 3 introduces data and data mining concepts. It covers data types, quality of data, data preprocessing, similarity measures, summary statistics, data distributions, basic data mining tasks, KDD, issues in data mining and fuzzy logic.

Exam Tip: Data preprocessing, similarity measures, KDD, data mining tasks and fuzzy logic are important topics for RGPV exams.

📊 Introduction to Data

Data is a collection of facts, values, observations or records. In data mining, data is analyzed to discover useful patterns and knowledge.

Examples of Data

Student marks
Customer purchase records
Bank transactions
Medical records
Website logs
Social media data

📂 Data Types

Data Type	Description	Example
Nominal Data	Categories without order.	Gender, city, branch
Ordinal Data	Categories with order.	Low, medium, high
Interval Data	Numeric data without true zero.	Temperature in Celsius
Ratio Data	Numeric data with true zero.	Age, income, weight
Discrete Data	Countable values.	Number of students
Continuous Data	Measured values.	Height, time, distance

✅ Quality of Data

Data quality means how accurate, complete, consistent and useful data is for analysis. Poor data quality gives wrong results in data mining.

Data Quality Issues

Missing values
Duplicate records
Noisy data
Inconsistent data
Outliers
Incorrect format
Incomplete records

🧹 Data Preprocessing

Data preprocessing is the process of converting raw data into clean and useful data before mining.

Steps of Data Preprocessing

Data cleaning
Data integration
Data transformation
Data reduction
Data discretization

Raw data directly mining ke liye suitable nahi hota. Isliye pehle preprocessing ki jaati hai.

🔍 Similarity Measures

Similarity measures are used to find how similar or different two data objects are. They are mostly used in clustering and classification.

Common Similarity / Distance Measures

Euclidean distance
Manhattan distance
Cosine similarity
Jaccard similarity
Hamming distance

Measure	Use
Euclidean Distance	Distance between two points in space.
Manhattan Distance	Distance measured along right-angle paths.
Cosine Similarity	Measures angle similarity between vectors.
Jaccard Similarity	Used for set similarity.

📈 Summary Statistics

Summary statistics describe the main features of data using numerical values.

Important Measures

Mean: Average value.
Median: Middle value.
Mode: Most frequent value.
Range: Difference between maximum and minimum value.
Variance: Spread of data values.
Standard Deviation: Dispersion from mean.

📊 Data Distributions

Data distribution shows how data values are spread over a range.

Types

Normal distribution
Uniform distribution
Skewed distribution
Binomial distribution
Poisson distribution

Understanding distribution helps in selecting suitable data mining algorithms.

⛏️ Basic Data Mining Tasks

Task	Description
Classification	Assigns data into predefined classes.
Clustering	Groups similar data objects.
Association Rule Mining	Finds relationships between items.
Regression	Predicts continuous numeric values.
Prediction	Predicts future outcomes.
Anomaly Detection	Finds abnormal or unusual data.

🧠 Data Mining vs Knowledge Discovery in Databases

KDD means Knowledge Discovery in Databases. It is the complete process of discovering useful knowledge from large datasets. Data mining is one important step of KDD.

KDD Process Steps

Data selection
Data cleaning
Data transformation
Data mining
Pattern evaluation
Knowledge presentation

KDD complete process hai, Data Mining us process ka main step hai.

⚖️ Data Mining vs KDD

Data Mining	KDD
It is a step in KDD.	It is the complete knowledge discovery process.
Focuses on pattern extraction.	Includes selection, cleaning, mining and interpretation.
Uses algorithms.	Uses complete methodology.
Output is patterns.	Output is useful knowledge.

⚠️ Issues in Data Mining

Data quality problems
Large volume of data
Data privacy and security
High dimensional data
Noisy and incomplete data
Scalability issues
Complex data types
Pattern evaluation difficulty
Data ownership issues

🌫️ Introduction to Fuzzy Sets

A fuzzy set allows partial membership. In classical sets, an element either belongs or does not belong to a set. But in fuzzy sets, membership value can be between 0 and 1.

Example

A person can be partially tall. Membership value may be 0.7 instead of only true or false.

Classical set: 0 or 1 only. Fuzzy set: value between 0 and 1.

🧩 Fuzzy Logic

Fuzzy logic is a form of logic that handles uncertainty and approximate reasoning. It is useful where answers are not simply true or false.

Applications

Control systems
Decision making
Pattern recognition
Image processing
Data mining
Expert systems

⭐ Important Questions

Explain different types of data with examples.
What is data quality? Explain data quality issues.
Explain data preprocessing and its steps.
Explain similarity measures used in data mining.
Explain summary statistics.
Explain basic data mining tasks.
Differentiate between data mining and KDD.
Explain KDD process with steps.
Explain issues in data mining.
Explain fuzzy sets and fuzzy logic.

🔥 Last Minute Revision

Data mining finds useful patterns from large data.
Data quality affects mining result accuracy.
Preprocessing makes raw data clean and useful.
Similarity measures are used in clustering and classification.
KDD is complete knowledge discovery process.
Data mining is one step of KDD.
Fuzzy set allows membership between 0 and 1.
Fuzzy logic handles uncertainty.

🔗 Related Links

Back to Subject Previous Unit Next Unit