[]

[]

 
எளிய தமிழில்

Machine Learning

 
 து.நித்யா

 nithyadurai87@gmail.com  

 
மின்னூல் வெளியீடு :

கணியம் அறக்கட்டளை

kaniyam.com 

 
அட்டைப்படம், மின்னூலாக்கம் : த. சீனிவாசன் tshrinivasan@gmail.com 

உரிமை : Creative Commons Attribution - ShareAlike 4.0 International
License. 

 
முதல் பதிப்பு  ஏப்ரல் 2019 

பதிப்புரிமம் © 2019 கணியம் அறக்கட்டளை 

 
கற்கும் கருவி இயல் - Machine Learning – கணினி உலகில் அதி வேகமாக வளர்ந்து
வரும் துறை ஆகும். இதை, இந்த நூல் எளிமையாக அறிமுகம் செய்கிறது.

தமிழில் கட்டற்ற மென்பொருட்கள் பற்றிய தகவல்களை “கணியம்” மின் மாத இதழ்,
2012 முதல் வெளியிட்டு வருகிறது.இதில் வெளியான  Machine Learning பற்றிய
கட்டுரைககளை இணைத்து ஒரு முழு புத்தகமாக வெளியிடுவதில் பெரு மகிழ்ச்சி
கொள்கிறோம்.

உங்கள் கருத்துகளையும், பிழை திருத்தங்களையும் editor@kaniyam.com க்கு
மின்னஞ்சல் அனுப்பலாம்.

http://kaniyam.com/learn-machine-learning-in-tamil  என்ற முகவரியில்
இருந்து இந்த நூலை பதிவிறக்கம் செய்யலாம். உங்கள் கருத்துகளையும் இங்கே
பகிரலாம்.

படித்து பயன் பெறவும், பிறருடன் பகிர்ந்து மகிழவும் வேண்டுகிறோம்.

கணியம் இதழை தொடர்ந்து வளர்க்கும் அனைத்து அன்பர்களுக்கும் எமது நன்றிகள்.

த.சீனிவாசன்

tshrinivasan@gmail.com

ஆசிரியர்
கணியம்

editor@kaniyam.com 

 
பொருளடக்கம்

1. உரிமை 7 

2. ஆசிரியர் உரை 8 

3. உதாரணங்கள் 10 

4. உள்ளே செல்லும் முன் 11 

5. நன்றி 16 

6. அறிமுகம் 17 

7. Statistical Learning 24 

8. Probably Approximately Correct (PAC Method) 29 

9. Linear Regression 33 

9.1 Simple Linear Regression 33 

9.2 Multiple Linear Regression 40 

9.3 Simple Linear Algorithm 42 

9.4 Gradient descent 50 

9.5 Matrix 54 

9.6 Multiple Linear Algorithm 58 

10. Pandas 64 

11. Model file handling 76 

11.1 Model Creation 76 

11.2 Prediction 80 

11.3 Flask API 82 

11.4 Model comparison 84 

11.5 Improving Model score 90 

12. Feature Selection 97 

12.1 Highly Correlated features (MV - DV) 98 

12.2 Zero Correlated features (PV - MV,DV) 102 

12.3 Recursive Feature Elimination Technique 104 

13. Outliers Removal 106 

14. Explanatory Data Analysis 111 

14.1 Univariate 111 

14.2 Bivariate 115 

14.3 Multivariate 121 

15. Polynomial Regression 125 

15.1 Underfitting – High bias 128 

15.2 Overfitting – High variance 129 

15.3 Regularization 129 

16. Logistic regression 132 

16.1 Sigmoid function 132 

16.2 Decision Boundary 134 

16.3 Cost function 135 

16.4 Classification accuracy 137 

16.5 Confusion Matrix 138 

16.6 Precision, Recall & F1 score 139 

16.7 Trading-off between Precision & Recall 140 

17. Multi-class classification 141 

17.1 Vectors 147 

17.2 Natural Language Toolkit 153 

18. Decision Trees & Random Forest 159 

19. Clustering with K-Means 167 

19.1 Centroids (திணிவுக்கான புள்ளி) 170 

19.2 Elbow Method 174 

19.3 silhouette_coefficient 176 

20. Support Vector Machine (SVM) 181 

20.1 Large margin classifier (linear) 181 

20.2 Kernels (non-linear) 184 

21. PCA - Principle Component Analysis 188 

21.1 Data Projection 192 

21.2 Projection Error 193 

21.3 Compressed components 194 

22. Neural Networks 197 

22.1 Neural Network அமைப்பு 198 

22.2 h(x) கணிப்புகள் நிகழும் விதம் 199 

22.3 Forward propagation 203 

22.4 Back propagation 204 

23. Perceptron 205 

24. Artificial Neural Networks 213 

25. முடிவுரை 219 

26. காணொளிகள் 220 

27. ஆசிரியரின் பிற மின்னூல்கள் 222 

28.  கணியம் பற்றி 223 

29. கணியம் அறக்கட்டளை 226 

29.1 தொலை நோக்கு – Vision 226 

29.2 பணி இலக்கு  – Mission 226 

29.3 தற்போதைய செயல்கள் 227 

29.4 கட்டற்ற மென்பொருட்கள் 227 

29.5 அடுத்த திட்டங்கள்/மென்பொருட்கள்  228 

29.6 வெளிப்படைத்தன்மை 229 

29.7 நன்கொடை 230 

29.8 UPI செயலிகளுக்கான QR Code 230 

     
உரிமை

இந்த நூல் கிரியேடிவ் காமன்ஸ் என்ற உரிமையில் வெளியிடப்படுகிறது ..
CC-BY-SA இதன் மூலம், நீங்கள்

-   யாருடனும் பகிர்ந்து கொள்ளலாம்.

-   திருத்தி எழுதி வெளியிடலாம்.

-   வணிக ரீதியிலும்யன்படுத்தலாம்.

-   ஆனால், மூலப் புத்தகம், ஆசிரியர் மற்றும் www.kaniyam.com பற்றிய
    விவரங்களை சேர்த்து தர வேண்டும். இதே உரிமைகளை யாவருக்கும் தர
    வேண்டும். கிரியேடிவ் காமன்ஸ் என்ற உரிமையில் வெளியிட வேண்டும்.

 நூல் மூலம் :

http://static.kaniyam.com/ebooks/learn-machine-learning-in-tamil.odt  

 This work is licensed under a Creative Commons Attribution-ShareAlike
3.0 Unported License.

[]

[]

 
ஆசிரியர் உரை                                                                    

 அனைவரையும் போல எனக்கும் ஒருநாள் வேலைப்பார்க்கும் இடத்தில் பல்வேறு
பிரச்சனைகள் எழத் தொடங்கியது. அலுவலகத்தில் தேவைக்கும் அதிகமான நேரம்
இல்லாதது, மாலை நேரங்களில் உடற்பயிற்சிக் கூடம் செல்வது என்று பல்வேறு
புகார்கள் என்மீது வைக்கப்பட்டன. இதற்கு முன்பு வேலை பார்த்த நிறுவனங்களில்
சுதந்திரமாக இருந்து வேலை பார்த்துப் பழகிய எனக்கு, திடீரென்று ஒரு
 சுதந்திரம் இல்லாத  நிறுவனத்தில் வேலை பார்க்கத் தொடங்கியதால் ஏற்பட்ட
பிரச்சனையே இது. இத்தகைய பணிச்சூழல் எனக்கு சற்றும் ஒத்துப் போகவில்லை.
எனவே, சட்டென்று ஒரு நாள் வேலையை விட்டுவிட்டேன். "நமக்குத்தான் 10 வருடம்
'Software Testing' துறையில் அனுபவம் உள்ளதே" எனும் நினைப்பில், புது வேலை
கிடைக்கும் முன்பே, இருக்கும் வேலையை விட்டுவிட்டேன். ஆனால் என்னுடைய அந்த
10 வருட அனுபவமே எனக்கு மிகப் பெரிய பிரச்சனையாக அமைந்துவிட்டது. எங்கு
நேர்காணலுக்குச் சென்றாலும், இவ்வளவு அதிக அனுபவம் கொண்ட நபர் எங்களுக்கு
Testing-க்குத் தேவையில்லை என்று கூறி அனுப்பிவிட்டனர். வீட்டில் இருந்தே
பழக்கப்படாத எனக்கு, வேலையில்லாமல் வீட்டில் இருப்பது சற்று கடினமான
காலகட்டமாகவே இருந்தது. எங்கு சென்றாலும் தொடர்ச்சியாக நிராகரிக்கப்
பட்டேன். Testing செய்ய குறைந்த அனுபவம் கொண்டவர்களே போதும் என்றார்கள்.
எனவே Testing என்று சொன்னால், என்னுடைய அனுபவத்திற்கு வேலை கிடைப்பது
கடினம் என்று தோன்றவே, வேறு துறைகளில் என்னுடைய திறன்களை வளர்த்துக் கொள்ள
முடிவு செய்தேன்.

இதுவரை தொடர்ச்சியாக நான் கற்றுக்கொண்டே வந்த  GNU/Linux, Mysql, html,
css, javascript, Python போன்றவை எனக்கு கைகொடுக்கத் தொடங்கின. அவைகளோடு
சேர்த்து Bigdata, ELK, hadoop, pig, hive, spark போன்றவற்றையும் கற்கத்
தொடங்கினேன். அதற்காகத் தனியாக எந்த ஒரு course-ம் சேரவில்லை. course
நடத்துபவர்கள் அதற்கான பயிற்சித் தொகையாக யானை விலை, குதிரை விலை
கேட்டார்கள். எனவே வீட்டில் இருந்தபடியே கற்கத் தொடங்கினேன். கற்றவற்றை
தொடர்ந்து பயிற்சி செய்தும், அவை பற்றி கணியம் மின்னிதழில் எழுதியும்,
காணொளிகள் உருவாக்கி YouTube ல் வெளியிட்டும் வந்தேன். அதன் பின்னர்
Bigdata Engineer, Hadoop admin போன்ற பதவிக்கான நேர்காணல்களை எதிர்கொள்ளத்
தொடங்கினேன்.

இதில் ஆச்சரியம் என்னவென்றால், நான் பங்கு பெற்ற இரண்டு நிறுவனங்களின்
நேர்காணலிலும் என்னைத் தேர்வு செய்து விட்டார்கள். அதில் ஒன்றான TCS -ல்
நான் வேலைக்குச் சேர்ந்துவிட்டேன். அதன் பின்னர் வழக்கம்போல எனக்குத்
தெரிந்த bigdata, hadoop போன்றவற்றை விட்டுவிட்டு, 'Machine learning'
எனும் புதிய துறையில் வேலைசெய்யச் சொன்னார்கள். நானும் ஆர்வமுடன் பல புதிய
விஷயங்களைக் கற்றுக் கொண்டு சுதந்திரமாக வேலை செய்யத் தொடங்கினேன். இதுவரை
நான் கற்றுக்கொண்ட விஷயங்களை வைத்து இப்புத்தகத்தை எழுதியுள்ளேன். தற்போது
Deep learning-ஐப் பற்றிக் கற்றுக் கொண்டு இருக்கிறேன்.

இதனால் நான் சொல்ல வருவது என்னவென்றால், "கற்றோருக்கு செல்லும் இடமெல்லாம்
சிறப்பு" :)

[]

து. நித்யா

கிழக்கு தாம்பரம்
26 ஏப்ரல் 2019

 மின்னஞ்சல்: nithyadurai87@gmail.com 

வலை பதிவு: http://nithyashrinivasan.wordpress.com 

உதாரணங்கள் 

இந்த நூலில் உள்ள  நிரல்  உதாரணங்கள் யாவும்

http://github.com/nithyadurai87/machine_learning_examples  

  இங்கே உள்ளன.

 
உள்ளே செல்லும் முன்

Kaniyam.com இதழில் Bigdata மற்றும் Machine learning பற்றிய கட்டுரைகளை
எழுத ஆரம்பித்தத்தில் இருந்து, இத்துறையில் சேர விருப்பமுள்ள பலர் பல்வேறு
கேள்விகளை எழுப்பிய வண்ணம் உள்ளனர். அவர்கள் அனைவரும், "இத்துறையில் சேர
வேண்டுமென்றால், என்னென்வெல்லாம் கற்க வேண்டும்? எங்கு கற்க வேண்டும்?
இதற்குரிய பாடத் திட்டங்களைக் கற்று முடிக்க எவ்வளவு நாள் ஆகும்? கணினித்
துறைக்கே புதிய நபரால் இதற்குள் நேரடியாக நுழைய முடியுமா?" என்றெல்லாம்
கேட்டால், அவை அனைத்திற்குமான பதிலை நேரடியாக சொல்லிவிட முடியாது. ஆனால்
எல்லோராலும் இத்தகைய துறைகளுக்குள் நுழைய முடியும் என்பதே பதில். பலரும்
bigdata, data science, machine learning, deep learning, AI போன்ற
துறைகளுக்குள் சேர விருப்பப்படுவது வரவேற்கத் தக்க ஒன்றே. ஆனால் அதற்கென
அதிக அளவு கற்றலையும், நேரத்தையும் செலவிட வேண்டும். வீட்டிலிருந்த படியே
பயிற்சி எடுப்பதன் மூலமும், இதற்கான பல்வேறு குழுக்களில் இணைந்து
பங்களிப்பதன் மூலமும் கற்றுக் கொள்ளலாம். 

எடுத்துக்காட்டாக நாம் விமானியாகி ஆகாயத்தில் விமானம் ஒட்ட விரும்பினால்,
நேரடியாக ஒரு பயிற்சி மையம் சென்று பயிற்சி எடுத்துவிட்டு விமானம் ஒட்டி
விட முடியாது. முதலில் மிதிவண்டி, இரு சக்கர வாகனம், நான்கு சக்கர வாகனம்
போன்றவற்றையெல்லாம் ஒட்டிப் பழகி இயந்திரங்களைப் பற்றிய அடிப்படை அறிவினை
வளர்த்துக் கொள்ள வேண்டும். பின்னர் இயற்பியல், வானியல், காற்றியக்கவியல்
போன்றவற்றைப் பற்றி சிறிது கற்றுக் கொள்ள வேண்டும். அதன் பின்னரே விமானம்
ஒட்டக் கற்றுக் கொள்வதற்கு நீங்கள் தயார் ஆவீர்கள். அதே போன்று இத்தகைய
துறைகளில் சேர விரும்புவது என்பதும், விமானம் ஓட்டுவதைப் போன்றதே. இவற்றில்
நுழைய விரும்புவோருக்கு பல்வேறு முன் நிபந்தனைகள் உள்ளன. அவை பின்வருமாறு: 

 
1. GNU/Linux:

முதலில் லினக்ஸ் கற்றுக்கொள்ள வேண்டும். இதுவே பறப்பதற்கு அடிப்படை.
அதனுடைய command line, vim  போன்றவற்றின் மீது உங்களுக்கு விருப்பம்
ஏற்படவேண்டும். ஆகவே windows-ஐ முழுவதுமாக மறந்துவிட்டு லினக்ஸில் வாழத்
தொடங்குங்கள். Windows-ஐ வைத்துக் கொண்டு இதையெல்லாம் கற்றுக் கொள்வதை விட
ஊசியின் காதில் ஒட்டகம் நுழைவது எளிது.  

ஆகவே இப்புத்தகத்திலிருந்து துவங்குங்கள்   

http://www.linuxtraining.co.uk/download/new_linux_course_modules.pdf  

http://freetamilebooks.com/ebooks/learn-gnulinux-in-tamil-part1/ 

http://freetamilebooks.com/ebooks/learn-gnulinux-in-tamil-part2/  

 
2. Networking basics:

வலைப்பின்னல்கள் பற்றிய அடிப்படைகள், IP முகவரி, Routing, Firewall, DNS,
VPN போன்றவற்றைப் பற்றி சிறிது தெரிந்து வைத்துக் கொள்ளுங்கள். 

http://www.linuxhomenetworking.com/  

 
3. Programming:

நிரலாக்கம் தெரிந்து கொள்ள வேண்டியது அவசியம். "நிரலாக்கம் எனக்கு வராது"
எனும் எண்ணம் இருந்தால், Python-லிருந்து துவங்குங்கள். இது மிகவும் எளிய
மொழி. உங்கள் பயத்தினை சுலபமாக நீக்கிவிடும். நீங்கள் பல்வேறு மாய
வித்தைகளை செய்வதற்கு இதுவே உதவும். 

https://pymbook.readthedocs.io/en/latest/  

4. SQL/NoSQL/JSON 

பின்வரும் கட்டமைப்பு வினவல் மொழிகளைப்(SQL) பற்றித் தெரிந்து வைத்துக்
கொள்ளுங்கள். 

MySQL

NoSQL with Redis,MongoDB

http://freetamilebooks.com/ebooks/learn-mysql-in-tamil/

http://freetamilebooks.com/ebooks/learn-mysql-in-tamil-part-2/

5. Visualizations 

தரவுகளைக் கண்ணால் பார்த்து புரிந்து கொள்வதற்கு ஏதுவான வரைபடங்களை
உருவாக்குவது பற்றித் தெரிந்து வைத்துக் கொள்ளுங்கள். இதற்கென Matplotlib
மற்றும் Kibana ஆகியவை உள்ளன. 

 
6. Cloud services 

Bigdata கருவிகள் அனைத்தையும், நமது மடிக்கணினி மூலமே கற்றுக் கொள்ள
முடியும். இதற்கென குறைந்தபட்சம் 4GB முதல் 8GB வரையிலான RAM தேவை. மேலும்
AWS, Digital ocean, Google cloud platform, Azure ஆகியவற்றைப் பற்றித்
தெரிந்து வைத்துக் கொள்ளுங்கள். ஆனால் ஏதாவதொரு cloud service
provider-லிருந்து கற்றுக் கொள்வது இன்னும் சிறப்பாக அமையும். இதற்குச்
சிறிது செலவு ஆனாலும் பரவாயில்லை. புதிய virtual கருவிகளை உருவாக்கி, TB
அளவிலான தரவுகளை சுலபமாக process செய்ய  இத்தகைய cloud services உதவும். 

7. The Big Data tools

Hadoop, Spark, Pig, Hive, Scikit Learn, Tensor Flow போன்றவற்றைப்
பற்றியெல்லாம் சிறிது கற்றுக் கொள்ளுங்கள். இவையே நாம் செல்ல விரும்பும்
உலகத்துக்கு நம்மை அழைத்துச் செல்லும். 

http://freetamilebooks.com/ebooks/learn-bigdata-in-tamil/

http://tutorialspoint.com/ 

https://www.kaggle.com/ 

 
8. Maths/Algorithms

பள்ளி, கல்லூரியிலேயே கணக்கு முடிந்து விட்டது என்று நாம் நினைத்தாலும்,
கணக்கு நம்மை விடுவதில்லை. புள்ளியியலைப் பற்றி இன்னும் சற்று தெளிவாகக்
கற்றுக் கொள்ளுங்கள். இதுவே algorithms எவ்வாறு உருவாக்கப்படுகின்றன
என்பதைப் புரிந்து கொள்ள உதவும். 

9. Community Contributions

மற்றவர்களுக்கு ஒரு விஷயத்தைப் பற்றிக் கற்றுக் கொடுக்கும்போதுதான், நாம்
அதைப் பற்றி இன்னும் ஆழமாகக் கற்றுக் கொள்கிறோம். எனவே நீங்கள் கற்றுக்
கொண்டதைப் பற்றி தினமும் ஒரு பதிவு எழுதி வெளியிடுங்கள். அருகிலுள்ள
குழுக்களில் இணைந்து, சேர்ந்து கற்றுக்கொள்ளுங்கள். Meetup.com இதற்கு
உதவும்.  

 
இவையெல்லாம் பார்ப்பதற்கு மலைப்பாக இருந்தாலும், ஒவ்வொன்றாக செய்யத்
தொடங்குங்கள். அது நீங்கள் விரும்பும் உயரத்திற்கு உங்களை அழைத்துச்
 செல்லும்.

இதை மீண்டும் மீண்டும் நினைவு படுத்திக் கொள்ளுங்கள்.

இன்றைய இணையம்  சூழ் உலகில், உங்களுக்கு ஒரு விஷயம் தெரியவில்லை என்றால்,
அதற்குக் காரணம் ,நீங்கள் அதை தெரிந்து கொள்ள முயற்சி  செய்யவில்லை..

நன்றி

 
Machine Learning – Online Free Course – Andrew NG

https://www.coursera.org/learn/machine-learning 

இந்த இணைய வழிப் பாடம், மிகவும் பயனுள்ளது. இதைத் தவற விடாதீர்கள்.

அறிமுகம்

 
இயந்திரவழிக் கற்றல் என்பது தற்போது அதிகமாக வளர்ந்து வருகின்ற ஒரு துறை.
ஒரு கணினிக்கு கற்பிப்பது, அதற்கு அறிவு புகட்டுவது, புகட்டப்பட்ட அறிவின்
அடிப்படையில் கணினிகளையே முடிவினை மேற்கொள்ளுமாறு செய்வது போன்ற பல்வேறு
விஷயங்களை இயந்திரவழிக் கற்றலில் காணலாம். மனிதன் செய்கின்ற வேலையை வெறும்
நிரல்கள் எழுதி கணினியைச் செய்யவைப்பதன் பெயர் இயந்திரவழிக் கற்றல் ஆகாது.
அதன் பெயர் தானியக்கம் (Automation). மனிதனைப் போன்று கணினிகளை யோசிக்க
வைத்து, முடிவுகளையும் அதனை வைத்தே எடுக்க வைப்பது, அவ்வாறு எடுக்கப்படும்
முடிவுகள் இயந்திரத்தனமாக அல்லாமல் அறிவின் அடிப்படையில் அமைவதற்கு
என்னென்ன செய்ய வேண்டும், அவ்வாறு யோசிக்க வைப்பது எவ்வாறு
சாத்தியப்பட்டது, அதிலுள்ள வழிமுறைகள் என்ன, கோட்பாடுகள் என்னென்ன என்பது
போன்ற அனைத்தையும் விளக்குவதே இயந்திரவழிக் கற்றல் ஆகும்.
                                         

இவற்றையெல்லாம் செய்வதற்கு வெறும் தகவல் தொழில்நுட்ப அறிவோடு
மட்டுமல்லாமல், கணிதம், புள்ளியியல் போன்ற மற்ற துறைகளிலும் சிறிது
அடிப்படை அறிவினை வளர்த்துக் கொள்ள வேண்டும். அப்போதுதான் நம்மால் சுலபமாக
கணினிக்குக் கற்றுக் கொடுக்க முடியும். மேலும் மாறும் சூழ்நிலைகளுக்கும்,
தரவுகளுக்கும் ஏற்ப தமது சோதனை முடிவுகளையும், கணிப்புகளையும் மாற்றி
வழங்குவதே இயந்திரவழிக் கற்றலின் சிறப்புப் பண்பு ஆகும். இதையே Adaptivity
என்று கூறுவர். எந்தெந்த வகையான சூழ்நிலைகள் இயந்திரவழிக் கற்றலுக்கு வழி
வகுக்கின்றன என்பதைக் கீழே காணலாம்.

மனிதனுடைய அனுபவ அறிவால் செய்யக்கூடிய செயல்கள்: வாகனம் ஒட்டுவது,
ஒருவருடைய குரலைக் கேட்டே ஆளை கணிப்பது போன்றவையெல்லாம் ஒருவர் தன்னுடைய
அனுபவ அறிவாலும், புத்தி சாதுர்யத்தாலும் செய்யக் கூடியவை.
இவற்றுக்கெல்லாம் நேரடியாக நிரல்கள் எழுதி கணினிக்கு சொல்லித்தர முடியாது.
அந்த அனுபவத்தையும் அறிவையும் கொடுத்துத்தான் நாம் கணினியைப் பழக்க
வேண்டும். மேலும் எத்துறை சார்ந்த விஷயங்களை நாம் கணினிக்குப் புகட்ட
விரும்புகிறோமோ, அத்துறை சார்ந்த வல்லுநர்கள் மூலம் கணினிக்குப் போதிய
அறிவினை வழங்க வேண்டும். இதையே domain expertise என்று கூறுவர்.

மனித சக்தியை மீறி செய்ய வேண்டிய செயல்கள்: விண்வெளி, பூகோளம், அறிவியல்
போன்ற அனைத்துத் துறைகளிலும் பல்வேறு சோதனைகள் நடத்தப்படுகின்றன. அவை
வெற்றியைத் தழுவ வேண்டுமென்றால், ஏற்கெனவே தோல்வியைத் தழுவிய முந்தைய சோதனை
முடிவுகளை எடுத்து ஆராய்ந்து வெற்றிக்கான கணிப்பினைக் கூற வேண்டும்.
உதாரணத்துக்கு மருத்துவத் துறையை எடுத்துக்கொண்டால், பிரசவத்தின்போது
பெண்களின் இறப்பு விகிதம் என்பது பாதிக்குப் பாதியாக இருந்தது. இதனைக்
குறைப்பதற்கு இதுவரை பிரசவத்தின்போது இறந்த பலகோடிக்கணக்கான பெண்களின்
ஆய்வறிக்கைகளை எடுக்க வேண்டும். அவற்றுள் ஒவ்வொரு பெண்ணும் எதனால்
இறந்திருக்கிறாள், எத்தனை பெண்கள் ஒரே வகையான காரணத்தால் இறக்கிறார்கள்,
எத்தனை வகையான காரணங்கள் இறப்புக்கு வழிவகுக்கின்றன என்பது போன்ற
விஷயங்களையெல்லாம் கண்டு பிடிக்க வேண்டும். இதெல்லாம் உண்மையிலேயே மனித
சக்திக்கு அப்பாற்பட்ட செயல்தான். ஆகவே இவற்றைச் செய்வதற்கு கணினிகளைப்
பழக்கி, ஒரே மாதிரியான pattern-ல் இருக்கும் தரவுகளைக்
கண்டுபிடிக்கின்றனர். பின்னர் அவற்றை எடுத்து மருத்துவ வல்லுநர்கள்
பரிசீலித்து "இறப்புக்கு வழிவகுக்கும் காரணிகள்" என முடிவு செய்கின்றனர்.
பின்னர் இதன் அடிப்படையில்தான் தற்போது கர்பிணியாக வருகின்ற பெண்களிடம்
இவற்றில் ஏதேனும் ஒன்று தென்பட்டால் கூட உடனே அறுவை சிகிச்சை செய்து
விடுகின்றனர். ஆகவேதான் தற்போது பாதிக்குப் பாதி பெண்களுக்கு அறுவை
சிகிச்சை செய்யப்பட்டாலும், இறப்பு விகிதம் என்பது முழுவதுமாகக் குறைந்து
விட்டது.

இயந்திரங்களுக்குக் கற்பிப்பது என்பது "விலங்குகள் எவ்வாறு கற்கின்றன"
என்பதை அடிப்படையாக வைத்தே ஆராயப்பட்டது. இதில் பின்வரும் இரு பெரும்
கோட்பாடுகள் முக்கியப் பங்கு வகிக்கின்றன.

Bait's shyness: தம்மை ஈர்க்குமாறு இருக்கும் உணவினைக் கண்டு அஞ்சுதல்
என்பதே இதன் பொருள். அதாவது விஷம் தடவப்பட்ட ஆனால் பார்ப்பதற்குக்
கவரக்கூடிய வகையில் இருக்கும் சுவையூட்டப்பட்ட உணவுகளைக் கண்டு எலிகள்
அச்சம் கொள்ளும். எனவே அவற்றை முழுதாக உட்கொள்வதற்கு முன்னர், உணவின் ஒரு
சிறு பகுதியை எடுத்து முதலில் சாப்பிடும். அதனால் தனக்கு யாதொரு பாதிப்பும்
இல்லையெனில் உண்ணலாம் என்றும், பதிப்பு நேர்ந்தால் உண்ண வேண்டாம் என்றும்
முடிவெடுக்கும். பின்னர் மீண்டும் அதே போன்ற ஒரு உணவினை மறுமுறை
காணும்போது, தான் ஏற்கனவே நடத்திய சோதனை முடிவுகளின் அடிப்படையில் உண்ணலாமா
வேண்டாமா என முடிவெடுக்கும். இதுவே இயந்திரவழிக் கற்றலிலும் நடைபெறுகிறது.

மாபெரும் தரவுகளிலிருந்து ஒரு சிறுபகுதியை எடுத்து கணிணியானது முதலில்
ஆராயும். இதுவே sampling எனப்படும். அச்சிறு பகுதி தரவுகள் training data
என்று அழைக்கப்படும். அத்தரவுகளை உண்ணலாம் வேண்டாம் என்பது போன்று
வகைப்படுத்துவதே labeling எனப்படும். இம்முடிவுகளை வைத்து வருகின்ற புதிய
தரவுகளைக் கணிப்பது Predicting the future data எனப்படும். இதுபோன்று
பல்வேறு பதங்கள் இயந்திரவழிக் கற்றலில் பயன்படுத்தப்படுகின்றன. ஆனால்
இதுபோன்ற தீர்மானங்கள் சிலசமயம் தவறாக மாறிவிடவும் வாய்ப்புள்ளது. இதற்கு
ஒரு சிறந்த உதாரணமாக பின்வரும் கோட்பாட்டைக் கூறலாம்.

Pigeon's superstition: புறாக்களின் தவறான கணிப்பு என்று நாம் இதைக்
கூறலாம். ஒருமுறை B.F.Skinner எனும் மனோ தத்துவவியலாளர் புறாக்களை வைத்து
ஆய்வு ஒன்றை நடத்தினார். அதில் பல புறாக்களை ஒன்றாக கூண்டிற்குள் வைத்து ,
அவைகளுக்கு குறிப்பிட்ட கால இடைவெளிகளில் உணவு சென்று சேருமாறு தானியங்கி
ஒன்றை அமைத்தார். அதுவும் சரியாக செயல்பட்டு ஒவ்வொரு முறையும் உணவளித்து
வந்தது. புறாக்கள் தனக்கு ஒவ்வொருமுறையும் உணவு எப்படி வருகிறது என்பதைக்
கண்டுபிடிக்க அந்நேரத்தில் அது என்ன செய்துகொண்டிருந்தது என்பதை கவனிக்கத்
தொடங்கியது. அதாவது ஒரு புறா தான் தலையசைக்கும்போதெல்லாம் உணவு வருவதால்,
தான் தலையசைப்பதால்தான் தனக்கு உணவு வருகிறதென்றும், மற்றொரு புறா அது
குதித்துக்கொண்டிருக்கும்போதெல்லாம் உணவு வருவதால் அதனால்தான் உணவு
வருகிறதென்றும் நினைத்துக் கொண்டது..

ஆனால் இவையிரண்டும் தற்செயலாகத் தொடர்பான ஒன்றே ! (temporal correlation) .
உண்மையில் பார்த்தால் எந்தஒரு சம்மந்தமும் கிடையாது. ஆனால் புறாவோ
இவ்விரண்டுக்கும் தவறான ஒரு தொடர்பினை உண்டாக்கி, அதனடிப்படையில் கணிப்பினை
நிகழ்த்தி விடுகிறது. திடீரென தானியங்கி செயல்படும் நேரம் மாற்றப்பட்டு
உணவு வரத் தொடங்கியது. ஆனால் இதையறியாப் புறாக்கள் தலையசைத்துப்
பார்த்தும், குதித்துப் பார்த்தும் உணவு வராததால், அதன் எடை குறையத்
தொடங்கியது. உணவு வருகின்ற நேரத்தை சரியாகக் கணிக்காததே இதற்குக் காரணம்.
இவ்வாறும் நமது இயந்திரங்களுக்கு நடந்துவிடக்கூடாது. தற்செயலாக நடைபெறும்
தொடர்புடைய நிகழ்வுகளின் நிகழ்தகவு அதிகமாக இருந்தால் அதுவே நமது
இயந்திரங்கள் நமக்கு அளிக்கும் கணிப்பாக இருந்துவிடக் கூடாது.

எலியினுடைய உதாரணத்தையே மீண்டும் பார்த்தால் அது சாப்பிட்டவுடன், ஒரு
மின்சாரக் கம்பியில் அடிபட்டு பாதிப்படைகிறதெனில், இவ்விரண்டுக்கும் எந்த
ஒரு தொடர்பும் இல்லையென்பது எலிக்குத் தெரியும். இதுபோன்று ஏலியிடம்
காணப்படுகின்ற ஒரு அடிப்படையான அறிவையே நாம் கணினிக்குப் புகட்ட வேண்டும்.
இதுவே Inductive bios என்று அழைக்கப்படுகிறது. Biosed என்றால் பாரபட்சம்
பார்ப்பது, ஒரு தலைப்பட்சமாக இருப்பது என்று பொருள். Inductive bios
என்றால் இயந்திரத் தனமான முடிவுகளை அப்படியே ஏற்றுக்கொள்ளாமல் அறிவின்
அடிப்படையில் பாரபட்சப் படுத்திப் பார்ப்பது என்று பொருள். இதுபோன்ற
அறிவினை கணினிக்கு அளிப்பதற்கு அத்துறை சார்ந்த வல்லுநர்கள் தேவை. அவர்களே
domain expert என்று அழைக்கப்படுகின்றனர்.

இயந்திர வழிக்கற்றலைப் பின்வரும் 4 விதங்களில் பிரிக்கலாம்.

1. Supervised vs Unsupervised Learning: ஒரு கணிப்பு நடைபெறுவதற்கு
உள்ளீடு என்னவாக இருக்க வேண்டும்; வெளியீடு என்னவாக இருக்க வேண்டும்;
இவ்விரண்டையும் எந்தெந்த விதிகளின்படி இணைக்க வேண்டும் போன்ற அனைத்தையும்
சொல்லிக்கொடுத்துக் கண்காணிப்பது supervised/structured learning
எனப்படும். உதாரணத்துக்கு நாம் கடைவீதிக்குச் சென்று வெண்டைக்காய்
வாங்குவதற்கு முன், அதன் நிறத்தைப் பார்த்து அவ்வாறே அடிநுனியை லேசாகக்
கிள்ளிப் பார்ப்போம். அது பசுமையாக, மிருதுவாக இருந்தால் வாங்கலாமென்றும்,
கடினமாக பழுப்பாக இருந்தால் வேண்டாமென்றும் முடிவு செய்வோம்.
                                                                                                                         

-   ஒரு வெண்டைக்காயை வாங்கலாமா வேண்டாமா என முடிவு செய்யும் காரணிகளான
    அதன் நிறம் தன்மை போன்றவை domain set எனப்படும். இவையே X எனும்
    உள்ளீட்டில் காணப்படும்.

-   வாங்கலாம், வேண்டாம் எனும் மதிப்புகள் labels என்றழைக்கப்படும். இவையே
    Y எனும் வெளியீட்டில் அமையும்.

-   ஒரு mapping function -ஆனது உள்ளீட்டில் உள்ள மதிப்புகளையும்,
    வெளியீட்டில் உள்ள மதிப்புகளையும் தொடர்பு செய்யும். மென்மை ->
    வாங்கலாம், கடினம் -> வேண்டாம், பசுமை -> வாங்கலாம், பழுப்பு ->
    வேண்டாம். இதுவே rules set எனப்படும். f: X -> Y

-   Rules set கற்பித்த விதிகளின் அடிப்படையில் கற்றுக்கொள்வது learner
    எனப்படும்.

-   Learner கற்றுக்கொண்ட விஷயங்களின் அடிப்படையில் புதிதாக வருகின்ற
    உள்ளீடுகளுக்கு வெளியீடு என்னவாக இருக்கும் என முடிவு செய்வது
    predictor எனப்படும். அதாவது புதிதாக மற்றொரு வெண்டைக்காயைப்
    பார்க்கும்போது, அதனை மீண்டும் சோதனை செய்யத் தேவையில்லை. இந்த சோதனை
    முடிவுகளின் அடிப்படையிலேயே வாங்கலாம், வேண்டாம் என முடிவெடுக்கலாம்.

இதனை classification மற்றும் regression என்று 2 விதமாகப் பிரிக்கலாம்.
Classification-ல் மதிப்பு ஏதோ ஒரு வகையின் கீழ் அமையும். வெண்டைக்காய்
உதாரணத்தில் வாங்கலாம் வேண்டாம் எனும் இரண்டு வகையின் கீழ் அமைவதை இதற்கு
உதாரணமாகக் கொள்ளலாம். Regression-ன் மதிப்பு ஒரு உண்மையான முழு மதிப்பாக
இருக்கும். வயிற்றிலுள்ள குழந்தையை scan செய்து ஆராய்ந்து அது
பிறக்கும்போது எவ்வளவு எடை இருக்கும் என்பதை kg-ல் கணித்துக் கூறுவதை
இதற்கு உதாரணமாகக் கொள்ளலாம்.

Unsupervised Learning - ல் வெறும் உள்ளீட்டுக்கான மதிப்புகள் மட்டுமே
காணப்படும். வெளியீட்டுக்கான மதிப்பு என்னவாக இருக்குமென்றோ, அது
எவ்விதிகளின்படி அமையுமென்றோ எந்தஒரு வரைமுறையும் கிடையாது. வெறும்
உள்ளீட்டுக்கான மதிப்புகளை மட்டுமே ஆராய்ந்து, அதிலிருந்து ஒரு pattern-ஐக்
கண்டுபிடித்து அதனை வெளியீட்டுக்கான கணிப்பாக நமக்கு வெளிப்படுத்தும். இதனை
clustering மற்றும் association எனும் இரண்டு விதமாகப் பிரிக்கலாம்.
வாடிக்கையாளர்களின் விருப்பத்திற்கு ஏற்றார்போல் விற்பனையாகின்ற
பொருட்களைக் கண்டுபிடித்து வகைப்படுத்துவதை clustering-க்கு உதாரணமாகக்
கொள்ளலாம். இதில் விற்பனையாகின்ற தரவுகளை மட்டுமே உள்ளீடாக
எடுத்துக்கொண்டு, அதன் போக்கிலேயே சென்று விற்பனையின் போக்கினைக் (sales
pattern) கண்டுபிடிக்கும். அடுத்து இவ்வாறு கண்டுபிடிக்கப்பட்ட விவரங்களை
எடுத்துக்கொண்டு, இதே மாதிரியான வேறு எந்தெந்த பொருட்களின் மீதெல்லாம்
வாடிக்கையாளர்களுக்கு விருப்பம் தோன்றும் எனக் கணிப்பதை association-க்கு
உதாரணமாகக் கொள்ளலாம். இதன் மூலம் ஒத்த விருப்பங்களின் கீழ் அமையும்
பல்வேறு பொருட்களின் விற்பனையை நாம் அதிகரிக்கலாம். இதுவே
unsupervised/unstructured learning எனப்படும்.

Structured மற்றும் Unstructured இவை இரண்டுக்கும் இடையில் அமைவது
semi-structured learning எனப்படும். அதாவது ஒருசில தரவுகள் label
செய்யப்பட்டும், மற்றவை label செய்யப்படாமலும் காணப்படும். உண்மையில்
நிகழ்காலத்தில் வருகின்ற தரவுகள் நமக்கு இம்முறையில்தான் இருக்கும்.
பலகோடிக்கணக்கான தரவுகளை ஆராய்ந்து label செய்வது என்பது சத்தியமற்றது.
அவ்வாறே அனைத்தையும் labelசெய்யாமல் விடுவதும் உதவாது. முக்கியமானவை label
செய்யப்பட்டாக வேண்டும். இதுபோன்று label செய்யப்பட்டும் செய்யப்படாமலும்
இருக்கும் தரவுகளை நாம் மேற்கண்ட இரண்டு விதங்களிலும் ஆராயலாம். மனித/மிருக
முகங்களின் கணிப்பு, குரல்களின் கணிப்பு போன்றவை இம்முறையில்தான் அமையும்.
Structured முறையில் label செய்யப்பட்டவற்றை மட்டும் training data-ஆகக்
கொடுத்து, அதனடிப்படையில் மற்றவைகளைக் கணிக்கலாம். Unstructured முறைப்படி
label செய்யப்பட்ட மற்றும் செய்யப்படாத அனைத்திலிருந்தும் ஒரு pattern-ஐக்
கண்டுபிடித்து அதை வைத்தும் கணிக்கலாம்.

2. Passive vs Active Learning: வருகின்ற தரவுகளை அப்படியே ஏற்றுக்கொண்டு,
கொடுக்கப்பட்ட விதிகளின்படி ஆராய்ந்து கற்றுக்கொள்வது passive learning
எனப்படும். ஒரு மின்னஞ்சல் spam-ஆ இல்லையா என சோதிப்பதை இதற்கு உதாரணமாகக்
கொள்ளலாம். இதில் எவையெல்லாம் spam-ஐக் குறிக்கும் வார்த்தைகள் என்பது
கணிணிக்குக் கற்பிக்கப்பட்டுவிடும். எனவே புதிதாக வருகின்ற ஒரு மின்னஞ்சல்
இத்தகைய வார்த்தைகளில் ஏதேனும் ஒன்றைக் கொண்டிருந்தால் அதனை spam
folder-க்கும், இல்லையெனில் inbox-க்கும் நகர்த்தும்.

திடீரென spam-க்குரிய எந்த ஒரு வார்த்தையையும் கொண்டிராமல், ஆனால்
சந்தேகத்திற்குரிய வழக்கத்திற்கு மாறாக ஒரு மின்னஞ்சல் வருகிறதெனில்
(anamoly detection), தனது சந்தேகத்தைத் தீர்த்துக்கொள்ளும் பொருட்டு
பல்வேறு கேள்விகளை எழுப்பி, அதற்கான விடைகளைப் பயனர்களிடமிருந்து
பெற்றுக்கொண்டு அதனடிப்படையில் கற்றலைத் தொடங்குது active learning
எனப்படும்.

3. Adversarial Teacher Method: Spam filtering, malware detection,
biometric recognition போன்றவற்றிலெல்லாம், ஆசிரியர் போன்று ஒருவர்
செயல்பட்டு கொடுக்கப்பட்டுள்ள விதிகள்
மீறப்படும்போதோ/சந்தேகிக்கப்படும்போதோ எது சரி எது தவறு என்பதை
எடுத்துரைப்பார். வெறும் தரவுகளோடு சேர்த்து இம்முறையிலும் கணினிக்குக்
கற்பிக்கப்படும்போது, காரண காரிய முறைப்படி பிரித்து கற்றுக்கொள்வதற்கான
வாய்ப்பு அதற்குக் கிடைக்கிறது.

4. Online vs Batch Learning: நிமிடத்திற்கு நிமிடம் மாறுகின்ற தரவுகளைக்
கண்காணித்து அதனடிப்படையில் கற்பது online learning எனவும், வரலாற்றுத்
தரவுகளை எடுத்துக்கொண்டு அதனடிப்படையில் கற்பது batch learning எனவும்
அழைக்கப்படும். Stock broker கணிக்கும் விதத்தை online-க்கு உதாரணமாகவும்,
மக்கள் தொகை கணிப்பு நடைபெறும் விதத்தை batch-க்கு உதாரணமாகவும் கொள்ளலாம்.
மக்கள் தொகை கணக்கெடுப்பில் 1970 – 80, 1981 – 90, 1991 – 2000, 2001 – 10
என்பது போன்று பல்வேறு பகுதிகளாகப் பிரிக்கப்பட்டு ஒவ்வொரு 10
வருடத்துக்கும் ஆய்வு நடைபெறுகிறது. இதனடிப்படையில் இனிவரும்
வருடங்களுக்கான மக்கள் தொகை கணிப்பு நடைபெறும். இதுவே batch
processing-க்கு சிறந்த உதாரணமாக அமையும்.

இயந்திர வழிக்கற்றலில் உள்ள பல்வேறு கோட்பாடுகள் பற்றியும் அவற்றின்படி
அமைந்த பல்வேறு வழிமுறைகள் (algorithmns) பற்றியும் இனிவரும் கட்டுரைகளில்
காணலாம்.
 

Statistical Learning                                                                                               

புள்ளி விவரங்களைக் கொண்டு கற்பதே இயந்திர வழிக்கற்றலின் அடிப்படை. எந்த
ஒரு கணிப்பும் தரவுகளாக அளிக்கப்படும் புள்ளி விவரங்களின் அடிப்படையிலேயே
அமைகிறது. இத்தகைய புள்ளி விவரங்களைத் திறம்படக் கையாண்டு கணினிக்குக்
கற்றுக் கொடுப்பது எப்படி என்று இப்பகுதியில் காணலாம். இதுவே Statistical
learning model என்று அழைக்கப்படும்.

Domain set: உள்ளீடாகத் தருகின்ற புள்ளி விவரங்களே இவ்வாறு அழைக்கப்படும்.
x={.....} என்பது domain set / instance space எனப்படும். இதிலுள்ள ஒவ்வொரு
தனித்தனி விவரமும் domain points / instances எனும் பெயரில் அழைக்கப்படும்.

 
உதாரணத்துக்கு ஒரு 1000 பக்க நோட்டுப்புத்தகத்தின் விலையை எவ்வளவு
வைக்கலாம் என ஒரு algorithmn மூலம் கணிப்பதற்கு, இதுவரை நாம் விலை
நிர்ணயித்துள்ள நோட்டுப்புத்தகங்களின் பக்கங்கள் இதற்கு உள்ளீடாக
அளிக்கப்படுகின்றன.

X = [10, 50, 150, .... 600, 800]

Label set: வெளியீடாக வர வேண்டிய விவரங்களை இது பெற்றிருக்கும். Y =
{........} . உள்ளீடாக இருக்கின்ற தரவுகள் எந்தெந்த வகையின் கீழ் அமையும்
எனும் மதிப்புகள் இதில் காணப்படும். இத்தகைய விவரங்களைத் தர உதவுபவர்
'domain expert' என்று அழைக்கப்படுவார்.

                                                                       
உள்ளீட்டில் நாம் அளித்த நோட்டுப்புத்தகங்களின் விலைகள் இங்கு காணப்படும்.

Y = [50, 95, 250, .... 750, 999]

Mapping function: மேற்கூறிய இரண்டையும் வைத்துக்கொண்டு உள்ளீட்டுக்கும்
வெளியீட்டுக்கும் இடையேயான தொடர்பை ஏற்படுத்தும் வேலையை mapping function
(f) செய்கிறது. இதனை வைத்துத் தான் நமது algorithm நம்முடைய தரவுகளைப்
பற்றிக் கற்றுக் கொள்கிறது.

f : x → y

f : 10 பக்கங்கள் -> 50 ரூபாய் ; 50 பக்கங்கள் -> 95 ரூபாய் ; 150
பக்கங்கள் -> 250 ரூபாய் ....

Probability Distribution: நாம் கொடுக்கின்ற மாதிரித் தரவுகள் பரவலாக அமைய
வேண்டும். வெறும் ஓரிரண்டு தரவுகளை மட்டும் கொடுத்துவிட்டு கணிப்புகள்
நிகழ்த்தக் கூடாது. உதாரணத்துக்கு 10 பக்கம் அடுத்து 500 பக்கம் எனுமிரண்டு
புத்தகத்தின் விலையை மட்டும் கொடுத்து விட்டு, திடீரென 1000 பக்க
புத்தகத்தின் விலையை கணிக்கச் சொன்னால், அந்தக் கணிப்பு தவறாகத் தான்
இருக்கும். இது ஓரளவுக்கு சரியாக இருக்க வேண்டுமானால், நாம் பயிற்சி
அளிக்கப் பயன்படுத்தும் தரவுகளானது சீரான முறையில் பரவலாக அமைய வேண்டும்.
அதாவது 10, 50, 150 .... என சீரான முறையில் பல்வேறு புத்தகங்களின்
பக்கங்களும், அதற்கான விலைகளும்  கொடுக்கப்பட வேண்டும். இதுவே probability
distribution எனப்படும். இதனடிப்படையில் எடுக்கப்படும் முடிவே சரியானதாக
இருக்கும்.

Sample data: நாம் தேர்ந்தெடுத்து அனுப்பும் மாதிரித் தரவுகளே sample data
அல்லது training data எனப்படும். உதாரணத்துக்கு நம்மிடம் 500 புத்தகங்களின்
பக்கங்களும், அதற்கான விலைகளும் இருக்கிறதெனில், அவை அனைத்தையும்
கொடுத்துப் பழக்காமல், 0 - 50 பக்கங்கள் கொண்ட புத்தகத்திலிருந்து
ஒரு புத்தகத்தின் விலை மற்றும் 50 - 100 பக்கங்கள் கொண்ட
புத்தகத்திலிருந்து மற்றொரு புத்தகத்தின் விலை என்பது போன்று நாம்
தேர்ந்தெடுத்து அனுப்பும் மாதிரித் தரவுகளே Sample data எனப்படும்.

 
Learner: நாம் தேர்ந்தெடுத்து அனுப்பியுள்ள மாதிரித் தரவுகளின்
அடிப்படையில் புத்தகங்களின் விலையை நிர்ணயிப்பது பற்றிய அறிவை நமது
algorithm- வளர்த்துக் கொள்கிறது. அவ்வாறு கற்றுக் கொண்ட algorithm-ஆனது
learner என்று அழைக்கப்படுகிறது. (A(S) = Algorithm of sample data)

A (S)

 
Predictor: Learner வளர்த்துக் கொண்ட அறிவின் மூலம், label செய்யப்படாத
புதிய சில புள்ளி விவரங்கள் வரும்போது அவற்றையெல்லாம் எந்தெந்த label-ன்
கீழ் அமைக்கலாம் என கணிப்பது Predictor எனப்படும். இதுவே hypothesis /
classifier எனும் பல்வேறு பெயர்களில் அழைக்கப்படுகின்றன. (h = hypothesis).
அதாவது அதிகபட்சமாக 800 பக்கங்கள் கொண்ட புத்தகத்தின் விலை வரை மட்டும்
தான் நமக்குத் தெரியுமெனில், அதற்கு மேல் பக்கங்கள் உயர உயர அதன் விலையை
எவ்வளவு வைக்கலாம் என்பதை predictor கணித்துக் கூறும்.

h : x → y

Validation data: ஒரு predictor-ன் கணிப்பு சரியாக உள்ளதா என சோதிப்பது
observation எனவும், அதற்கு உதவும் தரவுகள் validation data என்றும்
அழைக்கப்படும். ஒரு சிறந்த predictor-ஐத் தேர்வு செய்வதற்கு குறைந்தபட்சம்
30 observation-ஆவது தேவை. அதாவது நாம் 500 sample data-வைக் கையில்
வைத்துள்ளோம் என்றால், அவை அனைத்தையும் கொடுத்து learner-ஐக் கற்பிக்காமல்,
வெறும் 300 தரவுகளை மட்டும் கொடுத்து கற்பிக்க வேண்டும். பின்னர் கற்றுக்
கொடுத்த algorithm மூலம் மீதமுள்ள 200 தரவுகளுக்கான விலையை கணிக்கச் சொல்ல
வேண்டும். இவ்வாறு ஒரு algorithm சரியாக கணிக்கிறதா இல்லையா என்பதை
சோதிப்பதற்கு உதவும் அந்த 200 தரவுகளே validation data எனப்படும். பொதுவாக
sample data-வின் 25% validation data-ஆக அமையும்.

Loss / Risk: கணிப்பு எப்போதும் 100% சரியாக அமையாது. அவ்வாறு அமைவது
தவறும் கூட. predictor மூலம் எடுக்கப்படும் கணிப்பு உண்மையான மதிப்புடன்
எந்த அளவு விகிதத்தில் வேறுபடுகிறது என்பதைக் கணக்கிட்டுக் கூறுவதே risk
ஆகும். அதாவது நாம் validation data-ஐக் கொடுத்து சோதிக்கும் போது, நம்
கையில் உள்ள உண்மையான மதிப்புக்கும், அதன் கணிப்புக்கும் உள்ள வேறுபாடே
'இழப்பு' எனப்படும். உதாரணத்துக்கு 850 பக்கங்கள் கொண்ட
நோட்டுப்புத்தகத்தின் விலை 1200 ரூபாய் என நமக்கு ஏற்கனவே தெரிந்தாலும்,
ஒரு algorithm மூலம் கணிக்கப்படும் கணிப்பானது 1190 ரூபாய் அல்லது 1210
ரூபாய் என்றுதான் இருக்கும். ஏனெனில் இதுவரை அது கற்றுக்கொண்ட
புத்தகங்களின் விலையை வைத்து தோராயமாக ஒரு விலையைக் கணிக்கும்போது, அது
இவ்வாறுதான் இருக்கும். இதுவே சரியான முறையும் கூட. இந்த கடுகளவு வேறுபாடு
இருந்தால்தான், நமது algorithm சரியாக வேலை செய்கிறது என்று அர்த்தம்.
விடையை மிகத் துல்லியமாகக் கொடுத்தால், அது தரவுகளைக் கற்றுக்கொண்டு
கணிப்பு நிகழ்த்தாமல், மனப்பாடம் செய்து கொண்டு ஒப்பிக்கிறது என்றே
அர்த்தம் (இதனைப் பற்றி over-fitting-ல் காணலாம்). இதுபோன்ற Risk-ஐ
அளவிடுவதில் 2 படிகள் உள்ளன. முதலில் true risk அடுத்து empirical risk.

True Risk : 1200 ரூபாய் மதிப்பு கொண்ட நோட்டுப்புத்தகத்தின் விலையானது
1190 ரூபாய் என கணிக்கப்படும்போது, இடையிலுள்ள 10  ரூபாய் என்பதுதான்
உண்மையான risk. இதனை generalization error என்றும் கூறுவர். பொதுப்படையான
ஒன்றை உருவாக்குவதால் ஏற்படுகின்ற பிழை எனப் பொருள். ஆனால் இது போன்ற
பிழைகளை ஒவ்வொரு தரவிற்க்கும் தனித்தனியாகக் கணக்கிட்டுக் கூறுவதற்கு
பதிலாக அவைகளின் சராசரியான empirical risk என்ற ஒன்று கண்டறியப்படுகிறது. 
R(h) என்பது Risk of hypothesis ஆகும். அதாவது கணிப்பின் மூலம்
எடுக்கப்பட்ட வெளியீடும் h(x), mapping மூலம் அமைய வேண்டிய உண்மையான
வெளியீடும் f(x) சமமாக இல்லாத பட்சத்தில், அது ஒரு Risk என்பதையே
கீழ்க்கண்ட சூத்திரம் கூறுகிறது.

 
Empirical risk: சோதனைக்காக நாம் 200 புத்தகங்களை அளிப்பதாக வைத்துக்
கொண்டால், அவை ஒவ்வொன்றின் உண்மையான விலைக்கும் - கணிக்கப்படுகின்ற
விலைக்குமான வேறுபாட்டைக் கண்டறிந்து, அவற்றை சராசரி எடுப்பதன் மூலம்
அனைத்துத் தரவுகளுக்குமான தோராயமான risk ஒன்றை அமைக்கலாம். இதுவே empirical
risk ஆகும். இதன் மூலம் கணிக்கப்படுகின்ற புத்தகங்களின் விலையானது தோராயமாக
இவ்வளவு ரூபாய் வேறுபாட்டில் அமைந்திருக்கும் என நம்மால் வரையறுத்துக் கூற
முடியும்.

 
Empirical Risk Minimization : நமது சோதனைக்காக பல்வேறு algorithms கொண்டு
உருவாக்கப்பட்ட பல்வேறு predictor-களில் சிறந்ததைக் கண்டறிய validation
data-வைக் கொடுத்து ஒவ்வொரு கணிப்பானும் ஆராயப்படுகிறது. பல்வேறு
observations மூலம் ஒவ்வொன்றிலும் உள்ள இழப்பின் சராசரியானது
கண்டுபிடிக்கப்படுகிறது.  இத்தகைய சராசரி இழப்பின் மதிப்புகளில் எதனுடைய
மதிப்பு மிகக் குறைவாக உள்ளதோ அதனைக் கண்டுபிடிப்பதே Empirical Risk
Minimization எனப்படும். இதற்கான சூத்திரம் பின்வருமாறு. இதில் arg min
என்பது argument of minimum எனப் பொருள்படும். இவ்வாறு கண்டறியப்பட்ட
மதிப்பினை, ஒவ்வொரு algorithm-ம் தனக்கென்றே கொண்டுள்ள ஒருசில parameters
கொண்டு அளவிடுகிறது. அதன் பின்னரே இந்தக் கணிப்பினை எவ்வளவு தூரம்
நம்பலாம், இதனால் கணிக்கப்படும் மதிப்பு எந்த அளவுக்குத் துல்லியமாக
இருக்கும் என்பது போன்ற விஷயங்களெல்லாம் கணக்கிட்டுக் கூறுகிறது. இதைப்
பற்றி PAC Model-ல் காணலாம்.

 
Probably Approximately Correct (PAC Method)

ஒரு கணிப்பான் மூலம் நிகழ்த்தப்படும் கணிப்பு எவ்வளவு தூரம் சரியானதாக
இருக்கும், அதனை எவ்வளவு தூரம் நம்பலாம் என்பது போன்ற விஷயங்கள் எல்லாம்
இந்த முறையில்  கணக்கிடப்படுகிறது. முதலில் ஒரு கணிப்பானின் கணிப்பு
probably approximately correct -ஆக அமைவதற்கு அவற்றில் என்னென்ன
பண்புகளெல்லாம் இருக்க வேண்டும் என்பதை ஒருசில வரையறைகள் கொண்டு
சோதிக்கிறது. அதாவது over-fitting இல்லாமல் இருக்கிறதா, inductive bias
பெற்று விளங்குகிறதா,i.i.d  முறையில் பயிற்சித் தரவுகள்
அளிக்கப்பட்டுள்ளதா,அதன் sample complexity எவ்வளவு இருந்தால், கணிப்பு
ஓரளவுக்கு சரியாக அமையும் என்பது போன்ற நோக்கில் எல்லாம் ஆராயப்படுகிறது.
பின்னர் accuracy மற்றும் confidence parameters மூலம் நமது கணிப்பு
எவ்வளவு தூரம் துல்லியமானது என்பதைக் கணக்கிடுகிறது. இம்முறையில்
realizability assumption எனும் அனுமானம் காணப்படும். ஆனால் இது நாம்
அடுத்து காணப்போகும் Agnostic PAC Model-ல் நீங்கிவிடும். இங்கு
குறிப்பிட்டுள்ள ஒவ்வொன்றின் விளக்கத்தையும் கீழே காணலாம்.  

Overfitting: ஒருசில மாதிரித் தரவுகளைக் கொடுத்து learner-ஐப் பழக்காமல்,
ஒட்டுமொத்தமாக அனைத்துத் தரவுகளையும் கொடுத்துப் பழக்கினால் overfitting
என்ற அபாயம் ஏற்பட வாய்ப்பு உள்ளது. இவ்வாறு அளவுக்கு அதிகமாகத் தரவுகளைப்
பெற்றுக்கொள்ளும் learner-ஆனது கற்றுக்கொள்ள முயற்சி செய்யாமல், சுலபமாக
மனப்பாடம் செய்துவிடுகிறது. சோதனையின்போதும், நாம் எதிர்பார்க்கின்ற
மதிப்பினைத் துல்லியமாக அளிக்கின்றது. இதில் உள்ள risk-ன் மதிப்பு
எப்போதும் குறைவே. அதனாலேயே இதை ஒரு சரியான கணிப்பாக எடுத்துக் கொள்ள
முடியாது. ஏனெனில் பயிற்சியின் போது அளிக்கப்படாத புதிய தரவுகளுக்கு இதனால்
முறையாக கணிப்பினை நிகழ்த்த முடியாது. ஆகவே இந்த Overfitting-ஐ இல்லாமல்
செய்வதற்காக உள்ளதே inductive bias ஆகும்.

Inductive bias: hypothesis class என்பது மாதிரித் தரவுகளில் உள்ள
ஒவ்வொன்றையும் எந்தெந்த label-வுடன் முறைப்படுத்திக் கற்க வேண்டும் என்ற
தொடர்பினை விளக்குகிறது. இதுவே Inductive bias ஆகும். biased என்றால்
ஒன்றினைச் சார்ந்திருப்பது என்று பொருள். இம்முறையில் learner-ஆனது,
hypothesis class-ல் கூறப்படுகின்ற தொடர்புகளின் அடிப்படையில், தரவுகளைப்
பற்றிய அறிவை வளர்த்துக்கொள்கிறது. அவ்வாறு பெற்றுக்கொண்ட
அறிவினடிப்படையில்  கணிப்பினை நிகழ்த்துவதே inductive bias
என்றழைக்கப்படுகிறது. இதுவே சரியான முறையும் கூட! 

Hypothesis Class: ஒரு learner-ஐ inductive bias-ஆக இருக்குமாறு அமைக்க
உதவுவது hypothesis class ஆகும். இதனை finite & infinite என்று இரண்டு
வகையாகப் பிரிக்கலாம். Hypothesis என்பதை தமிழில் கருதுகோள் எனச்
சொல்லலாம். என்னென்ன கணிப்புகளின் கீழ் உள்ளீடுகள் இருக்கும் எனும்
வரையறையைக் கொடுத்து, அதன்கீழ் கணிக்கச் சொல்லுவது finite hypothesis
class. உதாரணத்துக்கு youtube-ல் login செய்யும் ஒருவர் காலையில் பக்திப்
பாடலும், மலையில் இளையராஜா பாடலும் தொடர்ச்சியாக கேட்டுக் கொண்டிருக்கிறார்
எனில், அவருக்கான hypothesis class பக்திப் பாடல் மற்றும் இளையராஜா பாடல்
எனும் இரண்டு வகையின் கீழ் அமையும். இதனை finite hypothesis class-க்கு
உதாரணமாகச் சொல்லலாம். ஆனால் மற்றொருவரோ எந்த வகையின் கீழ் அவருடைய ரசனை
இருக்கும் என வரையறுக்கவே முடியாத அளவுக்கு, காதல், பக்தி,
நகைச்சுவை, சண்டை, நடனம், குழந்தைப் பாடல்கள் என பல்வேறு வகையிலிருந்து
மாற்றி மாற்றிப் பார்க்கிறார்.  எனவே, அவருக்கான hypothesis class-ல்
இவ்வளவு வகைகள் தான் இருக்கும் என வரையறுக்கவே முடியாத படி நீண்டு கொண்டே
செல்லும். இதையே infinite hypothesis class-க்கு  உதாரணமாகச் சொல்லலாம்.

Sample complexity : மாதிரித் தரவுகளின் எண்ணிக்கை மிகவும் குறைந்து
இருந்தாலோ அல்லது அளவுக்கு அதிகமாக இருந்தாலோ கணிப்பு சரியாக
நடைபெறாது. எனவே ஒரு கணிப்பானின் வெற்றியானது அதற்கு மாதிரியாக
கொடுக்கப்படுகின்ற தரவுகளின் எண்ணிக்கையைப் பொறுத்தே அமைகிறது. தோராயமாக
எவ்வளவு மாதிரித் தரவுகள் கொடுத்தால், அதனுடைய கணிப்பு ஓரளவுக்கு சரியாக
இருக்கும் எனக் கூறுவதே sample complexity ஆகும்.

S similarity D to the power of m என்பதில் m -ஆனது மாதிரியாக
எடுக்கப்படும் தரவுகளின் எண்ணிக்கை ஆகும்.  அந்த எண்ணிக்கையைக் கணக்கிட
உதவும் கிளைத் தேற்றம் பின்வருமாறு.

 
இதற்கு அளிக்கப்படும் மாதிரித் தரவுகளானது i.i.d எனும் அனுமானத்தின் வழியே
நடக்கிறது. i.i.d என்றால் independently identically distributed என்று
பொருள். ஒன்றோடொன்று சார்பற்ற தனித்தனியான தரவு மாதிரிகளை எடுத்தனுப்பி
learner-க்குக் கற்பிப்பதையே இது வலியுறுத்துகிறது.

Realilzability assumption: நாம் ஏற்கனவே கண்ட உதாரணத்தில், புத்தகங்களின்
பக்கங்கள் அதிகரித்தால் அதனுடைய விலையும் அதிகரிக்கும் எனும் அனுமானத்தினை
நமது algorithm வளர்த்துக் கொள்கிறது. இதுவே realizability assumption
எனப்படும். ஆனால் இந்த அனுமானம் எல்லா வகையான கணிப்புக்கும்
பொருந்தாது. உதாரணத்துக்கு ஒரு நாணயத்தை சுண்டி விட்டால், தலை விழுமா பூ
விழுமா என்பதற்கு எந்த ஒரு அனுமானமும் செய்ய முடியாது. இதுபோன்ற நிலையற்ற
தன்மையைக் குறிக்கும் கணிப்புகளைப் பற்றி Agnostic PAC model-ல் காணலாம்.

Accuracy parameter: ஒரு predictor/classifier-ன் மதிப்பு எவ்வளவு தூரம்
துல்லியமாக இருக்கும் என்பதைக் குறிக்க ∈ எனும் குறியீடு பயன்படுகிறது.
எனவேR(h)>∈ என்பது ஒரு கணிப்பானின் தோல்வியாகவும், R(h)<=∈ என்பது தோராயமாக
ஒரு நல்ல கணிப்பானாகவும் எடுத்துக் கொள்ளப்படுகிறது  

Confidence parameter: இது delta மதிப்பின் அடிப்படையில்
குறிக்கப்படுகிறது.

இதில் நாம் எதிர்பார்ப்பதும், கணிப்பான் எடுத்துக்கூறுவதும் சரியாக
இருப்பதற்கான நிகழ்தகவு 1 எனவும், தவறாக அமைவதற்கான நிகழ்தகவு 0 எனவும்
கொள்ளப்படுகிறது. இதன் அடிப்படையில் பார்த்தால் 1 என்பது இரண்டும் சமமாக
அமைவதற்கான நிகழ்தகவு எனக் கொண்டால், 1-δ என்பது உண்மையான கணிப்பினை
எடுத்துக்கூறப் போதுமானதாக இல்லாமல் அமைவதற்கான நிகழ்தகவு ஆகும். இதுவே
இத்தகைய மாதிரிகளை எவ்வளவு தூரம் நம்பலாம் என்பதைக் குறிக்கும் confidence
parameter (1-δ ) ஆகும்.

அடுத்ததாக இதுவரை நாம் கற்றுக்கொண்ட விஷயங்களை வைத்து simple linear
regression-ஐ உருவாக்குவது எப்படி என்று பார்க்கலாம்.

Linear Regression

Simple Linear Regression

Simple Linear என்பது இயந்திர வழிக் கற்றலில் உள்ள ஒரு அடிப்படையான
algorithm ஆகும். இதில் இரண்டு விவரங்கள் எவ்வாறு தொடர்பு
படுத்தப்படுகின்றன, algorithm எவ்வாறு தனது புரிதலை மேற்கொள்கிறது, அந்தப்
புரிதல் எந்த அளவுக்கு சரியாக உள்ளது என்பது போன்ற விஷயங்களையெல்லாம்
ஒருசில தரவுகளை வைத்து செயல்முறையில் செய்து பார்க்கப் போகிறோம்.
உதாரணத்துக்கு ஒரு பிட்சாவின் அளவினைக் கொண்டு அதன் விலையை எவ்வாறு
நிர்ணயிப்பது என இப்பகுதியில் காணலாம். இதுவரை நம்மிடமுள்ள அனைத்து
பிட்சாவின் அளவும், அதற்கான விலைகளும் X மற்றும் Y variable-ல்
எடுத்துக்கொள்ள வேண்டும். இதுவே label set மற்றும் domain set ஆகும்.

x=[6,8,10,14,18,21]
y=[7,9,13,17.5,18,24]

பல்வேறு பிட்சாவின் விட்டத்தைப் (in inch) பெற்றிருக்கும் X என்பது
explanatory variable எனவும், அவற்றினுடைய விலைகளைக்(in dollar)
கொண்டிருக்கும் Y என்பது response variable எனவும் அழைக்கப்படும். புள்ளி
விவரங்களாக இருக்கும் இவற்றை ஒரு வரைபடமாக வரைந்து பார்ப்போம். அப்போதுதான்
அவை செல்லும்போக்கு நமக்குத் தெரியும். matplotlib என்பது வரைபடங்களை
வரைந்து காட்ட உதவும் ஒரு library ஆகும். இதிலுள்ள pyplot மூலம் நமது
புள்ளி விவரங்களுக்கான வரைபடம் வரையப்பட்டுள்ளது.இதற்கான நிரல்
பின்வருமாறு.

https://gist.github.com/nithyadurai87/cb77831526033da63be0790f917efe63 

     
import matplotlib.pyplot as plt

 
x=[[6],[8],[10],[14],[18],[21]]

y=[[7],[9],[13],[17.5],[18],[24]]

 
plt.figure()

plt.title('Pizza price statistics')

plt.xlabel('Diameter (inches)')

plt.ylabel('Price (dollars)')

plt.plot(x,y,'.')

plt.axis([0,25,0,25])

plt.grid(True)

plt.show()

 
    இது வெளிப்படுத்துகின்ற வரைபடம் பின்வருமாறு இருக்கும்.

 
இந்த வரைபடத்தில் பிட்சாவின் விட்டத்துக்கும், அதன் விலைக்குமிடையே
நேர்மாறல் தொடர்பு இருப்பதைக் காணலாம். அதாவது ஒன்றின் மதிப்பு அதிகரிக்க
அதிகரிக்க மற்றொன்றும் அதிகரிக்கும் என்பதே நேர்மாறல். இங்கும்
அப்படித்தான் உள்ளது. அடுத்து இதை வைத்து ஒரு algorithm-க்குக் கற்றுக்
கொடுப்பதற்கான நிரல் பின்வருமாறு.

https://gist.github.com/nithyadurai87/d94507f9052a6120dce5f20e31806cea 

                                                                                      
    import matplotlib.pyplot as plt 

    from sklearn.linear_model import LinearRegression

     
    x = [[6], [8], [10], [14], [18]]

    y = [[7], [9], [13], [17.5], [18]]

    model = LinearRegression()

    model.fit(x,y)

     
    plt.figure()

    plt.title('Pizza price statistics')

    plt.xlabel('Diameter (inches)')

    plt.ylabel('Price (dollars)')

    plt.plot(x,y,'.')

    plt.plot(x,model.predict(x),'--')

    plt.axis([0,25,0,25])

    plt.grid(True)

    plt.show()

     
    print ("Predicted price = ",model.predict([[21]]))

     
நிரலுக்கான விளக்கம்: sklearn என்பது பல்வேறு வகையான algorithms-ஐக் கொண்ட
ஒரு package ஆகும். இதிலிருந்து linear_model library-ல் உள்ள
LinearRegression() class-ஆனது import செய்யப்படுகிறது. இதுவே
கணிப்பான்/predictor ஆகும். இதற்கு நமது தரவுகளைப் பற்றிக் கற்றுக்
கொடுப்பதற்காக fit() எனும் method பயன்படுத்தப்பட்டுள்ளது. பிறகு நமது
Model எவ்வாறு கற்றுக் கொண்டுள்ளது என்பதை அறிய pyplot மூலம் வரைபடம்
வரைந்து காட்டப்பட்டுள்ளது. கடைசியாக predict() எனும் function, நமது
model-ன் மீது செயல்பட்டு 21 inch அளவு கொண்ட பிட்சாவின் விலை எவ்வளவு
இருக்கும் என கணிக்கிறது. 

நிரலுக்கான வெளியீடு: மேற்கண்ட பைத்தான் நிரலை இயக்கும்போது, பின்வருமாறு
ஒரு வரைபடம் வெளிப்படுகிறது. பின்னர் 21 inch அளவு
கொண்ட பிட்சாவின் விலையாக [[22.46767241]] எனும் மதிப்பினை
வெளிப்படுத்துகிறது.

 
இந்த வரைபடத்தில் அனைத்துப் புள்ளி விவரங்களுக்கும் மத்தியில் ஒரு நேர்கோடு
உள்ளத்தைக் காணலாம். இதுவே hyperplane என்று அழைக்கப்படும்.. அதாவது இந்தக்
கோடுதான் algorithm-ன் புரிதல். இனிவரும் பிட்சாவின் விட்டத்துக்கு இந்தக்
கோட்டினை வைத்துத்தான் விலையைக் கணிக்கும். இந்தப் புரிதலுக்கான
கோட்டிற்கும் உண்மையான புள்ளி விவரங்கள் அமைந்துள்ள இடத்திற்குமிடையே ஒரு
சிறு இடைவெளி இருப்பதைக் காணலாம். இந்த இடைவெளியே residuals அல்லது
training error என்று அழைக்கப்படும். இங்கு நாம் கண்ட உதாரணத்தில், 21 inch
விட்டம் கொண்ட பிட்சாவின் விலை 24 டாலர் என நமக்கு ஏற்கனவே தெரியும். ஆனால்
இதையே நமது Model கொண்டு கணிக்கும்போது அதன் விலை 22 டாலர் எனக்
காட்டுவதைக் காணலாம்.  இதையே generalization error / risk என்றும் கூறுவர்.
அதாவது பொதுப்படையாக ஒரு புரிதலை அமைத்துக்கொண்டு, அதை வைத்து கணிப்பதால்
ஏற்படும் error என்று பொருள். Residual sum of squares என்பது இந்த
risk-ஐக் கணக்கிட உதவும் ஒரு function ஆகும். இதையே loss function / cost
function என்று கூறுவர். Residuals sum of squares என்பது இத்தகைய இழப்பின்
சராசரியை கண்டறிந்து கூறும். இந்த risk-க்கு என்ன காரணம், இதை
எப்படிக் கணக்கிடுவது, கண்டுபிடிப்பது என்பது பற்றிப் பின்வருமாறு
காணலாம். 
                                                                                      

Algorithm - Simple linear: 

நமது கணிப்பான் fit() மூலம் கற்றுக் கொள்ளும் சமன்பாடு பின்வருமாறு
இருக்கும். இதுவே Simple linear regression-க்கான algorithm ஆகும். 

y = α + βx

இதில் நமது explanatory, response variables தவிர்த்து, α (intercept
term), β (coefficient) எனும் இரண்டு parameters காணப்படுகின்றன. அதாவது
இவற்றையும் சேர்த்தே நமது algorithm கற்றுக் கொள்கிறது. இதுவே நமது
model-ன் risk-க்குக் காரணம். இதைக் கண்டுபிடித்து விட்டால் risk-ஐ
எப்படிக் குறைப்பது என்பது தெரிந்துவிடும். முதலில் β-ன் மதிப்பினைக்
கண்டுபிடிக்க வேண்டும். பின்னர் இதை வைத்து α-ன் மதிப்பினைக் கண்டுபிடித்து
விடலாம். Variance என்பது நம்முடைய explanatory variable-ல் உள்ள
தரவுகளானது எவ்வளவு இடைவெளி வித்தியாசத்தில் அமைந்துள்ளது என்பதைக்
குறிக்கும்.. [1,3,5,7,9,11......] என்று இருக்கும் பட்சத்தில் அதன்
variance 0 ஆகும். ஏனெனில் இவை சீரான இடைவெளியுடன் அமைந்துள்ளது.. அதுவே
[1,5,7,10,11.....] என்று அடுத்தடுத்த எண்களுக்கான இடைவெளி சீரற்று
இருக்கும் பட்சத்தில், அந்த சீரற்ற தன்மை எவ்வளவு இருக்கிறது எனக்
கணக்கிடுவதே variance ஆகும். Co-variance என்பது நமது explanatory &
response variables இரண்டும் சேர்ந்து எவ்வளவு இடைவெளி வித்தியாசத்தில்
அமைந்துள்ளது என்பதைக் குறிக்கும்.. இவ்விரண்டுக்கும் இடையே linear தொடர்பு
இல்லையென்றால், இதன் மதிப்பு 0 ஆகும். இவைகளுக்கான சூத்திரங்கள்
பின்வருமாறு.

                                                                                                                                                                   
Numpy library-ல் உள்ள ஒருசில கணித functions மேற்கண்ட சூத்திரங்களின் படி
நமது தரவுகளைப் பொருத்தி விடையை அளிக்கும் வேலையைச் செய்கின்றன. 

https://gist.github.com/nithyadurai87/406747e718d04a4bc339f740b5f9de62 

     
    from sklearn.linear_model import LinearRegression

    import numpy as np

     
    x = [[6], [8], [10], [14], [18]]

    y = [[7], [9], [13], [17.5], [18]]

    model = LinearRegression()

    model.fit(x,y)

     
    print ("Residual sum of squares = ",np.mean((model.predict(x)- y) ** 2))

    print ("Variance = ",np.var([6, 8, 10, 14, 18], ddof=1))

    print ("Co-variance = ",np.cov([6, 8, 10, 14, 18], [7, 9, 13, 17.5, 18])[0][1])

    print ("X_Mean = ",np.mean(x))

    print ("Y_Mean = ",np.mean(y))

     
இதன் வெளியீடாக பின்வரும் மதிப்புகள் வெளிப்படும்.

Residual sum of squares = 1.7495689655172406
Variance = 23.2
Co-variance = 22.650000000000002
X_Mean = 11.2
Y_Mean = 12.9

இவ்வாறு நாம் கண்டுபிடித்த மதிப்புகளை சமன்பாட்டில் பொருத்தினால், 21 inch
விட்டம் கொண்ட பிட்சாவின் விலை எவ்வாறு 22.46 டாலர் எனக் காட்டுகிறது
என்பதை அறியலாம். 

y = α+ βx

= α+ β (21)

= 1.92 + (0.98*21) = 1.92 + 20.58 = 22.5

where as,

β = 22.65 / 23.2 = 0.98

α= 12.9 - (0.98*11.2) = 12.9 - 10.976 = 1.92

R-squared Score: கடைசியாக நாம் உருவாக்கியுள்ள model எவ்வளவு தூரம்
உண்மையான மதிப்பினை அளிக்கும் அளவுக்குப் பொருந்தியுள்ளது என்பதைக்
கணக்கிடுவதே R-Squared score ஆகும்.

https://gist.github.com/nithyadurai87/a39ecee72dc4a266933621c298e80df9 

     
    from sklearn.linear_model import LinearRegression

    import numpy as np

    from numpy.linalg import inv,lstsq

    from numpy import dot, transpose

     
    x = [[6], [8], [10], [14], [18]]

    y = [[7], [9], [13], [17.5], [18]]

    model = LinearRegression()

    model.fit(x,y)

     
    x_test = [[8], [9], [11], [16], [12]]                                                             

    y_test = [[11], [8.5], [15], [18], [11]]

    print ("Score = ",model.score(x_test, y_test))

     
R-squared score = 0.6620052929422553

score() எனும் function, அதற்கான சூத்திரத்தில் , நமது validation
data-வைப் பொருத்தி விடையினை நமக்கு அளிக்கிறது.. பொதுவாக score
வெளிப்படுத்தும் மதிப்பு 0-லிருந்து 1-வரை அமையும். 1 என்பது
overfit-ஆதலால், சற்று 1-க்கு நெருங்கிய மதிப்பாக இருந்தால், இதனை நாம்
ஏற்றுக்கொள்ளலாம். இங்கு நம்முடைய model-ன் மதிப்பு 0.66 என
வெளிப்பட்டுள்ளது. Simple linear -ஐ விட multiple linear-ல் accuracy
இன்னும் அதிகமாக இருக்கும். இதைப்பற்றி அடுத்து காண்போம்.

 
Multiple Linear Regression

Simple linear-ல் ஒரு பிட்சாவின் விலையானது அதன் விட்டதைப் பொறுத்து
அதிகரிப்பதைக் கண்டோம். ஆனால் உண்மையில் விலை அதிகரிப்புக்கு அதன் மீது
தூவப்படும் toppings-ம் ஒரு காரணியாக இருக்கும். எனவே ஒரு பிட்சாவின் விலை
அதன் விட்டம் மற்றும் அதிலுள்ள toppings-ன் எண்ணிக்கை ஆகிய இரண்டையும்
பொறுத்து  அமைகிறது. இதுபோன்று ஒன்றுக்கும் மேற்பட்ட explanatory
variables-ஐப் பொறுத்து, அதன் response variable அமைந்தால், அதுவே multiple
linear regression எனப்படும். இதற்கான சமன்பாடு பின்வருமாறு இருக்கும்.

 
மேற்கண்ட அதே உதாரணத்தில் explanatory variable-வுடன் toppings-ன்
எண்ணிக்கையும் சேர்த்து multiple linear-ஐ உருவாக்கியுள்ளோம். இது
பின்வருமாறு. 

https://gist.github.com/nithyadurai87/7068c32bd4d7fccb67ccca39623f68bc 

     
    from sklearn.linear_model import LinearRegression

    from numpy.linalg import lstsq

    import numpy as np

     
    x = [[6, 2], [8, 1], [10, 0], [14, 2], [18, 0]]

    y = [[7], [9], [13], [17.5], [18]]

    model = LinearRegression()

    model.fit(x,y)

     
    x1 = [[8, 2], [9, 0], [11, 2], [16, 2], [12, 0]]

    y1 = [[11], [8.5], [15], [18], [11]]

     
    predictions = model.predict([[8, 2], [9, 0], [12, 0]])

    print ("values of Predictions: ",predictions)  

    print ("values of β1, β2: ",lstsq(x, y, rcond=None)[0])  

    print ("Score = ",model.score(x1, y1))

     
நிரலுக்கான வெளியீடு: 

மேற்கண்ட நிரலுக்கான வெளியீடு பின்வருமாறு அமையும். இதில் accuracy
அதிகரித்திருப்பதைக் காணலாம். simple linear-ல் 0.66 என்றால் multiple
linear-ல் 0.77 என இருப்பதை கவனிக்கவும். எப்போதும் simple linear-ஐ விட
multiple linear-ஐப் பயன்படுத்தும்போது accuracy இன்னும் அதிகமாக இருக்கும்

values of Predictions: [[10.0625 ]
[10.28125]
[13.3125 ]]
values of ß1, ß2: [[1.08548851]
[0.65517241]]
Score = 0.7701677731318468

நாம் கண்டுபிடித்த இந்த மதிப்புகள் மேற்கண்ட சமன்பாடில் பின்வருமாறு
பொருந்துகின்றன. இதில் intercept term -ஆன α-ன் மதிப்பு x1 மற்றும் x2
எனும் இரண்டு variables-ஐயும் பொறுத்து அமைவதால், இது பொதுவாக ஒரு
constant-ஆக இருக்கும்.

10.06 = α + (1.09 * 8) + (0.66 * 2)
= α + 8.72 + 1.32
= α + 10.04

10.28 = α + (1.09 * 9) + (0.66 * 0)
= α + 9.81 + 0
= α + 9.81

13.31 = α + (1.09 * 12) + (0.66 * 0)
= α + 13.08 + 0
= α + 13.08

Simple Linear Algorithm

                                     
Simple linear regression -க்கான சமன்பாடு பின்வருமாறு அமையும். இதை வைத்து
(1,1) , (2,2) , (3,3) எனும் புள்ளி விவரங்களுக்கு பின்வரும் கணிப்பான்
 h(x) மூலம் கணிப்பதை நாம் இங்கு உதாரணமாக எடுத்துக் கொள்வோம்.

 
இந்தக் கணிப்பானது தீட்டா-0 மற்றும் தீட்டா-1 எனும் இரண்டு முக்கிய
parameters-ஐப் பொறுத்தே அமைகிறது. இவற்றையே முன்னர்  alpha, beta என
அழைத்தோம். வெவ்வேறு மதிப்புள்ள parameters-க்கு வெவ்வேறு வகையில்
கணிப்புகள் நிகழ்த்தப்படுவதை பின்வரும் உதாரணத்தில் காணலாம்.

https://gist.github.com/nithyadurai87/c57ac1197368249f015ed4d1dba029f0 

     
    import matplotlib.pyplot as plt

                                     
    x = [1, 2, 3]

    y = [1, 2, 3]

     
    plt.figure()

    plt.title('Data - X and Y')

    plt.plot(x,y,'*')

    plt.xticks([0,1,2,3])

    plt.yticks([0,1,2,3])

    plt.show()

     
    def linear_regression(theta0,theta1):

     predicted_y = []

     for i in x:

      predicted_y.append((theta0+(theta1*i)))

     plt.figure()

     plt.title('Predictions')

     plt.plot(x,predicted_y,'.')

     plt.xticks([0,1,2,3])

     plt.yticks([0,1,2,3])

     plt.show()  

     
    theta0 = 1.5

    theta1 = 0

    linear_regression(theta0,theta1)

     
    theta0a = 0

    theta1a = 1.5

    linear_regression(theta0a,theta1a)

     
    theta0b = 1

    theta1b = 0.5

    linear_regression(theta0b,theta1b)

     
முதலில் (1,1) , (2,2) , (3,3) -க்கான வரைபடம் வரையப்படுகிறது. பின்னர்
தீட்டா-0 =1.5, தீட்டா-1 =0 எனும் போது பின்வரும் சமன்பாட்டில் பொருத்தி
(1, 1.5) , (2, 1.5) , (3, 1.5) எனும் மதிப்புகளையும்,

h(1) = 1.5 + 0(1) = 1.5

h(2) = 1.5 + 0(2) = 1.5

h(3) = 1.5 + 0(3) = 1.5
                                                                               

அவ்வாறே தீட்டா-0 =0, தீட்டா-1 =1.5 எனும் போது (1, 1.5) , (2, 3) , (3,
4.5) எனும் மதிப்புகளையும், கடைசியாக தீட்டா-0 =1, தீட்டா-1 =0.5 எனும்
போது (1, 1.5) , (2, 2) , (3, 2.5) எனும் மதிப்புகளையும் அளிப்பதைக்
காணலாம்.

h(1) = 0 + 1.5(1) = 1.5 h(1) = 1 + 0.5(1) = 1.5

h(2) = 0 + 1.5(2) = 3 h(2) = 1 + 0.5(2) = 2

h(3) = 0 + 1.5(3) = 4.5 h(3) = 1 + 0.5(3) = 2.5

இவ்வாறு கண்டுபிடிக்கப்பட்ட மதிப்புகளுக்கு வரைபடங்கள் வரையப்படுகின்றன.
இவை பின்வருமாறு அமையும்.

 
மேற்கண்ட 3 கணிப்புகளில் எதன் கணிப்பு உண்மையான மதிப்புகளுக்கு அருகில்
உள்ளதோ அதனுடைய தீட்டா மதிப்புகளையே நாம் இறுதியாக கணிப்பிற்கு
எடுத்துக்கொள்ளலாம். இங்கு (1,1) , (2,2) , (3,3) எனும் மதிப்புகளுக்கு (1,
1.5) , (2, 2) , (3, 2.5) எனும் மதிப்புகள் சற்று அருகில் வந்துள்ளது. எனவே
தீட்டா-0 =1, தீட்டா-1 =0.5 எனும் மதிப்புகளைக் கொண்ட கணிப்பானையே நாம்
தேர்வு செய்து கொள்வோம்.

இங்கு வெறும் 3 தரவுகள் மட்டும் இருப்பதால், எதை வைத்துக் கணித்தால்
கணிப்பிற்கும் உண்மையான மதிப்பிற்குமான வேறுபாடு சற்று குறைவாக இருக்கும்
என நம்மால் சுலபமாகக் கூற முடியும். ஆனால் நிஜத்தில் ஆயிரக்கணக்கில்
தரவுகள் இருக்கும்போது, இந்த வேறுபாட்டினைக் கண்டறிந்து கூற உதவும்
சூத்திரமே cost function ஆகும்.

Cost Function: இதற்கான சமன்பாடு பின்வருமாறு.

 
J = cost function

m = மொத்த தரவுகளின் எண்ணிக்கை

i = மொத்தத் தரவுகளில் ஒவ்வொன்றாகச் செல்ல உதவும். .

h(x) = கணிக்கப்படுகின்ற மதிப்பு

y = எதிர்பார்க்கின்ற உண்மையான மதிப்பு

மேற்கண்ட அதே புள்ளி விவரங்களை பின்வரும் சமன்பாட்டில் பொருத்தி, நாம்
தேர்ந்தெடுத்துதுள்ள கணிப்பான் சிறிய அளவு cost வேறுபாட்டினை
வெளிப்படுத்துகிறதா எனக் காணவும். இதற்கான நிரல் பின்வருமாறு.

https://gist.github.com/nithyadurai87/86bd4ec2288d0e9af138a30a7af44a09

வெளியீடு:

cost when theta0=1.5 theta1=0 : 0.4583333333333333
cost when theta0=0 theta1=1.5 : 0.5833333333333333
cost when theta0=1 theta1=0.5 : 0.08333333333333333

கணக்கீடு நிகழும் விதம்:

(1, 1.5) , (2, 1.5) , (3, 1.5) vs (1, 1) , (2, 2) , (3, 3) (தீட்டா-0
=1.5, தீட்டா-1 =0)

J = 1/2*3 [(1.5-1)**2 + (1.5-2)**2 + (1.5-3)**2] = 1/6 [0.25 + 0.25 +
2.25] = 2.75

 
(1, 1.5) , (2, 3) , (3, 4.5) vs (1, 1) , (2, 2) , (3, 3) (தீட்டா-0 =0,
தீட்டா-1 =1.5)

J = 1/2*3 [(1.5-1)**2 + (3-2)**2 + (4.5-3)**2] = 1/6 [0.25 + 1 + 2.25] =
3.50

 
(1, 1.5) , (2, 2) , (3, 2.5) vs (1, 1) , (2, 2) , (3, 3) (தீட்டா-0 =1,
தீட்டா-1 =0.5)

J = 1/2*3 [(1.5-1)**2 + (2-2)**2 + (2.5-3)**2] = 1/6 [0.25 + 0 + 0.25] =
0.50

இதில் தனித்தனி வேறுபாடுகளைக் கூட்டி அதன் சராசரியைக் கண்டுபிடிப்பதன்
மூலம் ஒவ்வொரு கணிப்பான் நடத்தும் கணிப்பும் எந்த அளவு வேறுபாடில் அமையும்
என்பதைக் கூற முடியும்.இத்தகைய வேறுபாடுகளின் மடங்குகள்
கண்டுபிடிக்கப்பட்டு அவை 2-ஆல் வகுக்கப்படுவதற்கான காரணம் என்னவெனில்,
சராசரியைக் கண்டுபிடிக்கும்போது ஏதாவது ஒரு எதிர்மறை எண் இருந்தால்கூட அது
கூட்டப்படுவதற்கு பதிலாக கழிக்கப்பட்டு விடும். எனவேதான் சூத்திரம்
இதுபோன்று அமைக்கப்பட்டுள்ளது. இதுவே sum of squares error என்று
அழைக்கப்படும்.

இங்கு நாம் ஏற்கனவே கண்டுபிடித்த தீட்டா-0 =1, தீட்டா-1 =0.5 மதிப்புகள்
கொண்ட கணிப்பானே குறைந்த அளவு cost-ஐ வெளிப்படுத்துவதைக் காணலாம்(0.50).
எனவே தரவுகளின் எண்ணிக்கை பெருகினாலும், இந்த சூத்திரத்தின் மூலம்
வேறுபாட்டினை நாம் சுலபமாகக் கணக்கிடாலாம்.

இந்த 0.50 எனும் வேறுபாடு சற்று அதிகம் எனக் கருதினால், இதனை நாம் இன்னும்
குறைக்க பல்வேறு தீட்டாக்களுக்கு இச்சோதனையை திரும்பத் திரும்ப செய்து
அதில் குறைவான வேறுபாடு ஏற்படுத்தும் தீட்டாக்களை கண்டுபிடிக்க உதவுவதே
Gradient descent ஆகும். அதற்கு முதலில் பல்வேறு தீட்டாக்களின்
மதிப்பையும், அவற்றுக்கான cost-ஐயும் ஒரு வரைபடமாக வரைந்து பார்ப்போம்.
இதுவே contour plots ஆகும்.

Contour plots:

தீட்டா-0 , தீட்டா-1 மற்றும் இவ்விரண்டின் அடிப்படையில் கண்டறியப்பட்ட cost
மதிப்பு இம்மூன்றையும் முப்பரிமாண வரைபடமாக வரைந்து காட்ட உதவுவதே contour
வரைபடம் ஆகும். இது கிண்ண வடிவிலோ அல்லது வட்ட வடிவிலோ பின்வருமாறு
இருக்கும். புள்ளி வைத்துள்ள இடங்களில் எல்லாம் cost இருக்கிறது என
வைத்துக் கொண்டால், அவற்றை எல்லாம் இணைப்பதன் மூலம் கிண்ணம் போன்ற ஒரு
வடிவம் ஏற்படும்.

 
வட்டம் போன்ற வரைபடத்தில் பல்வேறு தீட்டா மதிப்புகளுக்கான cost பல்வேறு
வட்டங்களாக வெளிப்படுகின்றன. எனவே வட்டத்தின் மையத்தைக் கண்டறிவதன் மூலமோ
அல்லது கிண்ணத்தின் அடிப்பாகத்தை அடைவதன் மூலமோ குறைந்த அளவு வேறுபாட்டினை
வெளிப்படுத்தக் கூடிய தீட்டாக்களை நாம் கண்டறிய முடியும். இந்த வேலையையே
Gradient descent செய்கிறது.

கீழ்க்கண்ட நிரலில் -2 லிருந்து 2 வரை தீட்டாக்களுக்கு 100 முறை மதிப்புகள்
மாற்றி மாற்றி அளிக்கப்பட்டு cost கண்டறியப்படுகிறது. இங்கு numpy மூலம்
தீட்டாக்களுக்கு மதிப்புகள் வழங்கப்படுகின்றன. இவை uniform distribution
முறையில் அமையும்.

https://gist.github.com/nithyadurai87/8c120370181f5bb9ad966dc9fdd7935b 

 
    from mpl_toolkits.mplot3d.axes3d import Axes3D

    import matplotlib.pyplot as plt

    import numpy as np

     
    fig, ax1 = plt.subplots(figsize=(8, 5), 

                            subplot_kw={'projection': '3d'})  

           
    values = 2

    r = np.linspace(-values,values,100)

     
    theta0,theta1= np.meshgrid(r,r)

     
    original_y = [1, 2, 3]

    m = len(original_y) 

     
    predicted_y = [theta0+(theta1*1), theta0+(theta1*2), theta0+(theta1*3)]

     
    sum=0

    for i,j in zip(predicted_y,original_y):

      sum = sum+((i-j)**2) 

    J = 1/(2*m)*sum  

     
    ax1.plot_wireframe(theta0,theta1,J)

    ax1.set_title("plot")

     
    plt.show()

     
நமது தரவுகளுக்கான வரைபடம் பின்வருமாறு.

 
Gradient descent

குறைந்த அளவு வேறுபாடு ஏற்படுத்தக் கூடிய தீட்டாக்களின் மதிப்பினைக்
கண்டுபிடிக்கும் வேலையை gradient descent செய்கிறது முதலில்
தீட்டாக்களுக்கு ஒரு குறிப்பிட்ட மதிப்பினைக் கொடுத்து அதற்கான cost-ஐக்
கண்டறிகிறது. பின்னர் அம்மதிப்பிலிருந்து, ஒரு குறிப்பிட்ட அளவு
விகிதத்தில் தீட்டாக்களின் மதிப்புகள் குறைக்கப்பட்டு அதற்கான cost
கண்டறியப்படுகிறது. இவ்வாறாக ஒவ்வொரு சுழற்சியிலும் சிறிது சிறிதாகக்
குறைத்துக் கொண்டே வந்து குறைந்த அளவு cost கண்டுபிடிக்கப்படுகிறது. .
இதற்கான சமன்பாடு பின்வருமாறு.

 
இங்கு ஒவ்வொரு சுழற்சியின் முடிவிலும் தீட்டா-0 , தீட்டா-1 ஆகியவற்றின்
மதிப்புகள் ஒரே நேரத்தில் குறைக்கப்பட வேண்டும். இதுவே simultaneous update
எனப்படுகிறது. கிண்ணமாக இருப்பின், கிண்ணத்தின் அடிப்பகுதியைக்
கண்டறிவதும், வட்டமாக இருப்பின் அவ்வட்டத்தின் மையத்தைக் கண்டறியும்
வேலையையுமே இந்த gradient descent செய்கிறது. இதுவே global optimum-ஐ
அடையும் வழி ஆகும். இதற்கு மாறாக local optimum என்பது cost-ன்
மதிப்புகளில் தொடர்ச்சியாக ஏற்ற இறக்கங்கள் இருப்பின், ஒவ்வொரு இறக்கமும்
local optimum எனப்படும். பொதுவாக linear regression-க்கான வரைபடத்தில்,
local minimum என்பது கிடையாது. global optimum மட்டுமே.

Alpha என்பது தீட்டாக்களின் மதிப்புகள் எந்த அளவு விகிதத்தில் குறைக்கப்பட
வேண்டும் என்பதைக் குறிக்கும். இதன் மதிப்பு மிகவும் சிறியதாகவும்
இல்லாமல், மிகவும் பெரியதாகவும் இல்லாமல் சரியான அளவில் அமைய வேண்டும்.
பொதுவாக 0.1, 0.01, 0.001 என்று அமையும்.

 
மேற்கண்ட மூன்று படங்களிலும் J-ன் மதிப்பு புள்ளி வைத்துள்ள இடத்தில்
இருக்கிறது என வைத்துக்கொள்வோம். இப்போது alpha-ன் மதிப்பு மிகச்சிறியதாக
இருந்தால், புள்ளி வைத்துள்ள இடத்திலிருந்து ஒவ்வொரு சுழற்சிக்கும் சிறிது
சிறிதாகக் குறைக்கப்பட்டு global optimum-ஐ அடைவதற்கு மிகுந்த நேரம்
பிடிக்கும். அதிக அளவு சுழற்சிகளும் தேவைப்படும். ஒரு குழந்தை சின்னச்
சின்ன அடியாக அடியெடுத்து வைப்பது போல இது நகரும். அதுவே மிகவும் அதிகமாக
இருந்தால்கூட, J-ன் மதிப்பு global optimum-க்கு மிக அருகாமையில் வந்தாலும்
கூட, அடுத்த அடியை மிக நீளமாக எடுத்து வைப்பதால், global optimum-ஐயும்
தாண்டி, வேறு எங்கோ சென்று விடும். அவ்வாறே அடுத்தடுத்த சுழற்சிகளில்
எங்கெங்கோ சென்று மையத்தினைச் சென்றடையத் தவரும். எனவே alpha-ன் மதிப்பினை
சரியான அளவில் கொடுக்க வேண்டும்.

Alpha-க்கு அடுத்து ஒவ்வொரு தீட்டாவின் partial derivative
கண்டுபிடிக்கப்படுகிறது. Simple linear regression-ல் தீட்டா-0 என்பது
தனியாக இருக்கும். தீட்டா-1 என்பது x-வுடன் சேர்ந்து இருக்கும்( h(x) =
தீட்டா-0 + தீட்டா-1x ). partial derivative -க்கான சமன்பாடும் இதே
முறையில் பின்வருமாறு அமையும்.  

 
கீழ்க்கண்ட நிரலில் தீட்டா0 மதிப்பு நிலையாக வைக்கப்பட்டு, தீட்டா1 -ன்
மதிப்பு மட்டும் gradient descentமுறையில் குறைக்கப்படுகிறது. 50
சுழற்சிகள் நடத்தப்படுகின்றன. பின்னர் J_history எனும் list-ல் ஒவ்வொரு
சுழற்சியிலும் கண்டறியப்பட்ட cost சேமிக்கப்பட்டு அதிலிருந்து குறைவான
மதிப்பு தேர்வு செய்யப்படுகிறது. இதில் partial derivative-ஆனது delta
எனும் பதத்தால் குறிக்கப்படுகிறது. இதன் மதிப்பு பின்வரும் வகையில்
கணக்கிடப்படுகிறது.

delta = 1/m . (h(x) - y).x

= 1/m . (தீட்டா1.x – y).x where h(x)= தீட்டா1.x

= 1/m . x. தீட்டா1.x – x.y

https://gist.github.com/nithyadurai87/43664cacd625e7c290c8812894dca659 

     
    x = [1, 2, 3]

    y = [1, 2, 3]

     
    m = len(y)

     
    theta0 = 1

    theta1 = 1.5

    alpha = 0.01

     
    def cost_function(theta0,theta1):

     predicted_y = [theta0+(theta1*1), theta0+(theta1*2), theta0+(theta1*3)]

     sum=0

     for i,j in zip(predicted_y,y):

      sum = sum+((i-j)**2) 

     J = 1/(2*m)*sum 

     return (J)

     
    def gradientDescent(x, y, theta1, alpha):

     J_history = []

     for i in range(50):

      for i,j in zip(x,y):

       delta=1/m*(i*i*theta1-i*j);

       theta1=theta1-alpha*delta;

       J_history.append(cost_function(theta0,theta1))

     print (min(J_history))

      
    gradientDescent(x, y, theta1, alpha)

     
வெளியீடு:

0.5995100694321308

Gradient descent-ல் அதிகபட்ச சுழற்சிகள் எவ்வளவு இருக்க வேண்டும் எனக்
கொடுத்து, அதிலிருந்து குறைவான cost-ஐ தேர்வு செய்யலாம். மேலும்
அடுத்தடுத்த தொடர்ச்சியான சுழற்சிகளில் ஒரே மாதிரியான cost மதிப்புகள்
வெளிப்படுகிறதெனில் நாம் global optimum-ஐ அடைந்து விட்டோம் என்று
அர்த்தம். உதாரணத்துக்கு 300 முதல் 400 வரையிலான சுழற்சிகளில் J மதிப்பு,
மிக மிகக் குறைந்த அளவே வேறுபடுகிறதெனில் (<0.001) அது global optimum-ஐ
அடைந்து விட்டது என்றே அர்த்தம். இதுவே Automatic convergence test என்றும்
அழைக்கப்படுகிறது.

Matrix

பல்வேறு எண்கள் அணிவகுத்துச் செல்வது அணிகள் எனப்படும். simple linear
regression-ல் ஒரே ஒரு எண்ணை வைத்துக் கொண்டு வேறொரு எண்ணைக் கணித்தோம்.
ஆனால் இனிவரும் multiple linear-ல் ஒன்றுக்கும் மேற்பட்ட எண்கள் ஒன்றாகச்
சேர்ந்து வேறொரு எண்ணைக் கணிக்கப் போகிறது. அதாவது ஒரு வீட்டின் சதுர அடி
விவரத்தை மட்டும் வைத்துக் கொண்டு, அவ்வீட்டின் விலையைக் கணிப்பது simple
linear எனில், ஒரு வீட்டின் சதுரஅடி, அறைகளின் எண்ணிக்கை, எத்தனை வருடம்
பழையது போன்ற பல்வேறு காரணிகளை வைத்துக்கொண்டு அவ்வீட்டின் விலையைக்
கணிப்பது multiple linear ஆகும். எனவே அதைப் பற்றிக் கற்பதற்கு முன்னர்
ஒன்றுக்கும் மேற்பட்ட எண்களை எவ்வாறு அணிவகுப்பது, அணி வகுக்கப்பட்ட எண்களை
வைத்து எவ்வாறு கணக்கீடுகள் செய்வது போன்ற ஒரு சில அடிப்படை விஷயங்களைக்
கற்றுக் கொள்ள வேண்டும்.

அணி:  

ஒரு அணியில் எத்தனை rows மற்றும் columns உள்ளது என்பதே அந்த அணியின்
dimension எனப்படும். 2 rows மற்றும் 3 columns கொண்ட A அணி பின்வருமாறு
அமையும். இது 2 * 3 dimensional matrix எனப்படும். இந்த அணியில் உள்ள
மதிப்புகளை அணுக, A -ன் கீழ் எத்தனையாவது row மற்றும் எத்தனையாவது
column-ல் அம்மதிப்பு உள்ளது எனக் கொடுக்க வேண்டும். உதாரணத்துக்கு A22
என்பது இரண்டாவது row மற்றும் இரண்டாவது column-ல் உள்ள 5 எனும்
மதிப்பினைக் குறிக்கும்.

 
Multiple linear என்று வரும்போது ஒரு அணியின் dimension என்பது தரவுகளின்
எண்ணிக்கை மற்றும் அது கணிப்பதற்கு எடுத்துக் கொள்ளும் அம்சங்கள்
ஆகியவற்றைப் பொறுத்து அமையும். அதாவது.

rows = no. of records

columns = no. of features

வெக்டர்:

ஒரே ஒரு column-ஐக் கொண்ட அணி வெக்டர் என்று அழைக்கப்படும். இது
பின்வருமாறு. வெக்டரில் உள்ள மதிப்புகளை அணுக எத்தனையாவது row என்று
மட்டும் கொடுத்தால் போதுமானது. B3 என்பது மூன்றாவது row-ல் உள்ள மதிப்பான
38 என்பதைக் குறிக்கும். ஒரு வெக்டரை 0-indexed மற்றும் 1-indexed எனும்
இரு வகைகளில் குறிக்கலாம். B3 என்பது 1-indexed எனில் 38-ஐயும், 0-indexed
எனில் 47-ஐயும் குறிக்கும்.

 
அணிகளின் கூட்டல்:  

இரண்டு அணிகளின் dimension சமமாக இருந்தால் மட்டுமே அவ்விரண்டு அணிகளையும்
கூட்டி அதே dimension கொண்ட மற்றொரு அணியை உருவாக்க முடியும்.

If (3*2) * (3*2) = 3*2

1+7 8+2

3+9 4+10

5+11 6+12

 
அணிகளின் பெருக்கல்:  

முதலாவது அணியின் column மற்றும் இரண்டாவது அணியின் row ஆகியவைகளின்
எண்ணிக்கை சமமாக இருந்தால் மட்டுமே அவ்விரண்டு அணிகளையும் பெருக்கி மற்றொரு
அணியை உருவாக்க முடியும். புதிதாக பெருக்கி உருவாக்கப்பட்ட அணியின்
dimension-ஆனது, முதலாவது அணியின் rows மற்றும் இரண்டாவது அணியின் columns
மதிப்பினைப் பெற்றிருக்கும்.

If (3*2) * (2*2) = 3*2

முதலாவது அணியில் உள்ள row-ன் மதிப்புகள் இரண்டாவது அணியில் உள்ள column-ன்
மதிப்புகளுடன் தனித்தனியாகப் பெருக்கப்படும். பின்னர் அப்பெருக்களின்
மதிப்புகள் ஒன்றாகக் கூட்டப்படுகின்றன. இவ்வாறே அணிகளின் பெருக்கல்
நடைபெறுகிறது.

(1*7)+(2*9) (1*8)+(2*10) = 7+18 8+20

(3*7)+(4*9) (3*8)+(4*10) = 21+36 24+40

(5*7)+(6*9) (5*8)+(6*10) = 35+54 40+60

 
அணிகளின் transpose:  

ஒரு அணியில் உள்ள  rows அனைத்தும் columns-ஆக மாற்றப்படுவதே அந்த அணியின்
transpose எனப்படும்.

 
அணிகளின் Inverse:  

ஒரு அணியின் inverse என்பது சற்றே கடினமான முறையில் கணக்கிடப்படும். 2*2
dimension கொண்ட அணியின் inverse பின்வருமாறு கணக்கிடப்படும். A11, A22
மதிப்புகளின் பெருக்கலுக்கும் A12, A21 மதிப்புகளின் பெருக்கலுக்கும் உள்ள
வித்தியாசமானது 1-ன் கீழ் அமைந்து வகுக்கப்படும். இதன் தொடர்ச்சியாக அதே
அணியில் உள்ள A11, A22 மதிப்புகள் இடமாற்றம் செய்யப்பட்டும், A12, A21
மதிப்புகள் எதிர் மறையில் மாற்றப்பட்டும் பெருக்கப்படும்.

 
Identity Matrix:

ஒரே எண்ணிக்கையிலான rows மற்றும் columns-ஐக் கொண்ட அணியே சதுர அணி
எனப்படும். ஒரு சதுர அணியின் மூலைவிட்டத்தில் மட்டும் 1 என இருந்து மற்ற
இடங்களில் எல்லாம் பூஜ்ஜியம் என இருந்தால் அதுவே Identity Matrix
எனப்படும். ஒரு அணியும், அந்த அணியின் inverse-ம் சேர்ந்து Identity
matrix-ஐ உருவாக்கும்.

 
Multiple Linear Algorithm

 
ஒன்றுக்கும் மேற்பட்ட அம்சங்கள் ஒன்றாகச் சேர்ந்து ஒரு விஷயத்தைக்
கணிக்கிறது எனில் அதுவே multiple linear regression எனப்படும். ஒவ்வொரு
அம்சமும் x1,x2,x3.. எனக் கொண்டால், இதற்கான சமன்பாடு பின்வருமாறு அமையும்.

 
multiple linear-ல் ஒவ்வொரு feature-க்கும் ஒரு தீட்டா மதிப்பு காணப்படுமே
தவிர, no.of rows -ஐப் பொறுத்து மாறாது. எனவே தீட்டா என்பது எப்போதும் 1
row-ல் பல்வேறு மதிப்புகள் அமைந்துள்ள அணியாக இருக்கும். பின்னர் இந்த
அணியை transpose செய்து 1 column-ல் பல்வேறு மதிப்புகள் அமைந்துள்ள
வெக்டராக மாற்றலாம். எனவே தான் transpose செய்யப்பட்ட தீட்டா அணியையும்,
features-க்கான X அணியையும் பெருக்கினால் multiple linear-க்கான சமன்பாடு
வந்துவிடுகிறது.

இந்த சமன்பாட்டில் தீட்டா0 -வுடன் x0 எனும் புதிய feature ஒன்று
சேர்க்கப்படுகிறது. இது எப்போதும் 1 எனும் மதிப்பையே பெற்றிருக்கும். இந்த
புதிய feature-ஆல் தீட்டா0 மதிப்பில் எந்த ஒரு மாற்றமும் ஏற்படாது. வெறும்
அணிகளின் பெருக்கலுக்கு துணைபுரியும் வகையில் இது சேர்க்கப்பட்டுள்ளது.

கீழ்க்கண்ட உதாரணத்தில்,

800 சதுர அடி, 2 அறைகள், 15 வருட பழைய வீட்டின் விலை = 3000000

1200 சதுர அடி, 3 அறைகள், 1 வருட பழைய வீட்டின் விலை = 2000000

2400 சதுர அடி, 5 அறைகள், 5 வருட பழைய வீட்டின் விலை = 3500000

எனும் 3 தரவுகள் X எனும் அணியில் கொடுக்கப்பட்டுள்ளன. அவ்வாறே 100, 1000,
10000, 100000 ஆகிய மதிப்புகள் தீட்டா0 , தீட்டா1, தீட்டா2, தீட்டா3 -ன்
மதிப்புகளாக தீட்டா எனும் அணியில் கொடுக்கப்பட்டுள்ளன. இவை இரண்டும்
மேற்கண்ட சமன்பாட்டின் படி பொருத்தப்பட்டு, h(x) அணியை உருவாக்குகின்றன.

https://gist.github.com/nithyadurai87/5abf51e4b26717a3427d15fcaca6f48f 

     
    import matplotlib.pyplot as plt

    import numpy as np

     
    x = np.array([[1, 800, 2, 15],[1, 1200, 3, 1],[1, 2400, 5, 5]])

    y = np.array([3000000,2000000,3500000])

    theta = np.array([100, 1000, 10000, 100000])

     
    predicted_y = x.dot(theta.transpose())

    print (predicted_y)

     
    m = y.size

    diff = predicted_y - y

    squares = np.square(diff)

    #sum_of_squares = 5424168464

    sum_of_squares = np.sum(squares)

    cost_fn = 1/(2*m)*sum_of_squares 

    print (diff)

    print (squares)

    print (sum_of_squares)

    print (cost_fn)

     
வெளியீடு: 

[2320100 1330100 2950100]
[-679900 -669900 -549900]
[462264010000 448766010000 302390010000]

1213420030000

202236671666.66666

கணக்கிடு நிகழ்ந்த விதம்: 

 
Cost function:

 
இது simple linear-ஐ ஒத்தே இருக்கும். ஆனால் h(x) கணக்கிடும் சூத்திரம்
மட்டும் மாறுபடும்.  

Gradient descent:

இதுவும் simple linear-ஐ ஒத்தே இருக்கும். ஆனால் simple linear-ல் தீட்டா0
மதிப்பு குறைக்கப்படுவதற்கான சமன்பாடில் x என்பது இருக்காது. ஆனால் இங்கு
தீட்டா0 -வுடன் x0 சேர்க்கப்பட்டிருப்பதால், அனைத்து தீட்டா மதிப்புகள்
குறைக்கப்படுவதற்கான சமன்பாடும் பின்வருமாறு ஒரே மாதிரியாகத்தான்
இருக்கும்.

 
சூத்திரத்தின் மூலம்  minimum cost கண்டறிதல்:

Gradient descent-ஐப் பயன்படுத்துவதற்கு பதிலாக பின்வரும் சமன்பாட்டின்
மூலம் நேரடியாக நாம் minimum cost-ஐ ஏற்படுத்தக் கூடிய தீட்டாவை
கண்டுபிடிக்க முடியும். ஆனால் features-ன் எண்ணிக்கை அதிகமாக இருந்தால்,
gradient descent-ஐப் பயன்படுத்துவதே சிறந்தது. ஏனெனில் மொத்த
features-க்கும் அதனுடைய transpose கண்டுபிடிப்பது மிகுந்த நேர விரயம்
செய்யக்கூடியதாக அமையும்.

 
Feature Scaling:

இங்கு ஒவ்வொரு feature-ம் வெவ்வேறு அளவிலான எண் வரிசைகளில்
அமைந்திருப்பதைக் கவனிக்கவும். உதாரணத்துக்கு சதுர அடி என எடுத்துக்
கொண்டால் அவை 800 முதல் 1200 வரையிலும், அறைகளின் எண்ணிக்கை என
எடுத்துக்கொண்டால் அவை 2 முதல் 5 வரையிலும் பரவியுள்ளது.

சதுர அடி = 800, 1200, 2400

அறைகள் = 2, 3, 5

இவ்வாறு ஒவ்வொரு column-ல் உள்ள மதிப்புகளும் வெவ்வேறு எண் வரிசைகளில்
இல்லாமல், அனைத்தும் -1 லிருந்து +1 வரை அல்லது 0 லிருந்து 1 வரை என
normalize செய்வதே feature scaling எனப்படும். இதற்கு உதவுவதே mean
normalization ஆகும். இதற்கான சூத்திரம் பின்வருமாறு.

particular value – mean of all values

--------------------------------------------------

maximum – minimum

சதுர அடி = (800 –1600)/(2400–800), (1200–1600)/(2400–800),
(2400–1600)/(2400–800)

= -0.5 , 0.25, 0.5

அறைகள் = (2-3.5)/(5–2), (3-3.5)/(5–2), (5-3.5)/(5–2)

= -0.5 , -0.16, 0.5

இது போன்ற multiple linear-ல் gradient descent-ஐப் பயன்படுத்தும்போது
ஒவ்வொரு feature-ம் ஒவ்வொரு அளவு வரிசைகளில் இருப்பதால் plot-ஆனது மிக
மிகக் குறுகிய அளவு வட்டங்களை நெருக்க நெருக்கமாக ஏற்படுத்தும். எனவே
மையத்தினை சென்றடைய மிகவும் சிரமப்படும். அதுவே normalize செய்யப்பட்டு
அனைத்து வட்டங்களும் ஒரே அளவில் இருந்தால் மையத்தினை சென்றடைய வசதியாக
இருக்கும்.

Pandas

Pandas என்பது நிகழ்காலத் தரவுகளை அணுகி, அலசி நமக்கேற்றவாறு
வடிவமைப்பதற்கு python வழங்குகின்ற ஒரு library ஆகும். இதன் மூலம் csv,
txt, json போன்ற பல்வேறு வடிவங்களில் இருக்கும் மூலத் தரவுகளை எடுத்து ஒரு
dataframe-ஆக மாற்றி நமக்கேற்றவாறு தரவுகளை தகவமைத்துக் கொள்ள முடியும்.

இங்கு நாம் பார்க்கப் போகும் உதாரணத்தில் ஒரு வீட்டின் விற்பனை விலையை
நிர்ணயிப்பதற்கு உதவும் பல்வேறு காரணிகளும், அதன்படி நிர்ணயிக்கப்பட்ட
விலைகளும் csv கோப்பாக கொடுக்கப்பட்டுள்ளன. இதுவே training data எனப்படும்.
இதை வைத்துத்தான் நாம் ஒரு model-ஐ உருவாக்கப்போகிறோம்.

முதலில் model-ஐ உருவாக்குவதற்கு முன்னர் இந்த training data-ஐ நாம்
புரிந்து கொள்ள வேண்டும். இதில் எத்தனை தரவுகள் உள்ளன, எத்தனை null
மதிப்புகள் உள்ளன, எவையெல்லாம் விற்பனை விலையை பாதிக்கக்கூடிய முக்கியக்
காரணிகள், தேவையில்லாத இன்ன பிற காரணிகளை எவ்வாறு நீக்குவது, Null
மதிப்புகளை எவ்வாறு நமக்கு வேண்டிய மதிப்புகளால் மாற்றி அமைப்பது
போன்றவற்றையெல்லாம் Pandas மூலம் நாம் செய்து பார்க்கப்போகிறோம். இதுவே
preprocessing / feature selection எனப்படும். இதற்கான நிரல் பின்வருமாறு.

https://gist.github.com/nithyadurai87/5fd84f40ce26eac65a8060ee2d15280a 

 
    import pandas as pd

     
    # data can be downloaded from the url: https://www.kaggle.com/vikrishnan/boston-house-prices 

    df = pd.read_csv('data.csv')

    target='SalePrice'

     
    # Understanding data

    print (df.shape)

    print (df.columns)

    print(df.head(5))

    print(df.info())

    print(df.describe())

    print(df.groupby('LotShape').size())

     
    # Dropping null value columns which cross the threshold

    a = df.isnull().sum()

    print (a)

    b =  a[a>(0.05*len(a))]

    print (b)

    df = df.drop(b.index, axis=1)

    print (df.shape)

     
    # Replacing null value columns (text) with most used value

    a1 = df.select_dtypes(include=['object']).isnull().sum()

    print (a1)

    print (a1.index)

    for i in a1.index:

     b1 = df[i].value_counts().index.tolist()

     print (b1)

     df[i] = df[i].fillna(b1[0])

      
    # Replacing null value columns (int, float) with most used value

    a2 = df.select_dtypes(include=['integer','float']).isnull().sum()

    print (a2)

    b2 = a2[a2!=0].index 

    print (b2)

    df = df.fillna(df[b2].mode().to_dict(orient='records')[0])

     
    # Creating new columns from existing columns

    print (df.shape)

    a3 = df['YrSold'] - df['YearBuilt']

    b3 = df['YrSold'] - df['YearRemodAdd']

    df['Years Before Sale'] = a3

    df['Years Since Remod'] = b3

    print (df.shape)

     
    # Dropping unwanted columns

    df = df.drop(["Id", "MoSold", "SaleCondition", "SaleType", "YearBuilt", "YearRemodAdd"], axis=1) 

    print (df.shape)

     
    # Dropping columns which has correlation with target less than threshold

    x = df.select_dtypes(include=['integer','float']).corr()[target].abs()

    print (x)  

    df=df.drop(x[x<0.4].index, axis=1)

    print (df.shape)

     
    # Checking for the necessary features after dropping some columns

    l1 = ["PID","MS SubClass","MS Zoning","Street","Alley","Land Contour","Lot Config","Neighborhood","Condition 1","Condition 2","Bldg Type","House Style","Roof Style","Roof Matl","Exterior 1st","Exterior 2nd","Mas Vnr Type","Foundation","Heating","Central Air","Garage Type","Misc Feature","Sale Type","Sale Condition"]

    l2 = []

    for i in l1:

        if i in df.columns:

            l2.append(i)

           
    # Getting rid of nominal columns with too many unique values

    for i in l2:

        len(df[i].unique())>10

        df=df.drop(i, axis=1)

    print (df.columns)

     
    df.to_csv('training_data.csv',index=False)

     
நிரலுக்கான விளக்கம் மற்றும் வெளியீடு :

csv-ல் உள்ள தரவுகள் df எனும் dataframe-க்குள் pandas மூலம்
ஏற்றப்பட்டுள்ளது. இதில் எத்தனை rows மற்றும் columns உள்ளது என்பதை
பின்வருமாறு அறியலாம்.

 
    print (df.shape)

     
    (1460, 81)                                                                                                     

     
பின்வரும் கட்டளை என்னென்ன  columns உள்ளது என்பதை வெளிப்படுத்தும்.

     
    print (df.columns)

     
    Index(['Id', 'MSSubClass', 'MSZoning', 'LotFrontage', 'LotArea', 'Street',

    'Alley', 'LotShape', 'LandContour', 'Utilities', 'LotConfig',

    'LandSlope', 'Neighborhood', 'Condition1', 'Condition2', 'BldgType',

    'HouseStyle', 'OverallQual', 'OverallCond', 'YearBuilt', 'YearRemodAdd',

    'RoofStyle', 'RoofMatl', 'Exterior1st', 'Exterior2nd', 'MasVnrType',

    'MasVnrArea', 'ExterQual', 'ExterCond', 'Foundation', 'BsmtQual',

    'BsmtCond', 'BsmtExposure', 'BsmtFinType1', 'BsmtFinSF1',

    'BsmtFinType2', 'BsmtFinSF2', 'BsmtUnfSF', 'TotalBsmtSF', 'Heating',

    'HeatingQC', 'CentralAir', 'Electrical', '1stFlrSF', '2ndFlrSF',

    'LowQualFinSF', 'GrLivArea', 'BsmtFullBath', 'BsmtHalfBath', 'FullBath',

    'HalfBath', 'BedroomAbvGr', 'KitchenAbvGr', 'KitchenQual',

    'TotRmsAbvGrd', 'Functional', 'Fireplaces', 'FireplaceQu', 'GarageType',

    'GarageYrBlt', 'GarageFinish', 'GarageCars', 'GarageArea', 'GarageQual',

    'GarageCond', 'PavedDrive', 'WoodDeckSF', 'OpenPorchSF',

    'EnclosedPorch', '3SsnPorch', 'ScreenPorch', 'PoolArea', 'PoolQC',

    'Fence', 'MiscFeature', 'MiscVal', 'MoSold', 'YrSold', 'SaleType',

    'SaleCondition', 'SalePrice'],

    dtype='object')

     
head(5) முதல் 5 தரவுகளை வெளிப்படுத்தும்.

                         
    print(df.head(5))

     
    Id MSSubClass MSZoning ... SaleType SaleCondition SalePrice

    0 1 60 RL ... WD Normal 208500

    1 2 20 RL ... WD Normal 181500

    2 3 60 RL ... WD Normal 223500

    3 4 70 RL ... WD Abnorml 140000

    4 5 60 RL ... WD Normal 250000

    [5 rows x 81 columns]                                                                

     
info() நமது dataframe-ன் அமைப்பு பற்றிய விவரங்களை வெளிப்படுத்தும்.

 
print(df.info())

 
    &lt;class 'pandas.core.frame.DataFrame'&gt;

    RangeIndex: 1460 entries, 0 to 1459

    Data columns (total 81 columns):

    Id 1460 non-null int64

    MSSubClass 1460 non-null int64

    ...............

    SaleCondition 1460 non-null object

    SalePrice 1460 non-null int64

    dtypes: float64(3), int64(35), object(43)

    memory usage: 924.0+ KB

    None

     
describe() ஒருசில முக்கியப் புள்ளியியல் விவரங்களைக் கணக்கெடுத்து
வெளிப்படுத்தும்.

     
print(df.describe())
 

    Id MSSubClass ... YrSold SalePrice

    count 1460.000000 1460.000000 ... 1460.000000 1460.000000

    mean 730.500000 56.897260 ... 2007.815753 180921.195890

    std 421.610009 42.300571 ... 1.328095 79442.502883

    min 1.000000 20.000000 ... 2006.000000 34900.000000

    25% 365.750000 20.000000 ... 2007.000000 29975.000000

    50% 730.500000 50.000000 ... 2008.000000 163000.000000

    75% 1095.250000 70.000000 ... 2009.000000 214000.000000

    max 1460.000000 190.000000 ... 2010.000000 755000.000000

    [8 rows x 38 columns]

     
groupby() ஒரு column-ல் உள்ள மதிப்புகளை வகைப்படுத்தி வெளிப்படுத்தும்.
 

    print(df.groupby('LotShape').size())

     
    LotShape

    IR1 484

    IR2 41

    IR3 10

    Reg 925

    dtype: int64

     
ஒவ்வொரு column-லும் உள்ள null மதிப்புகளின் எண்ணிக்கையை வெளிப்படுத்தும்.

                 
    print (a)

     
    Id 0

    MSSubClass 0

    MSZoning 0

    LotFrontage 259

    LotArea 0

    Street 0

    Alley 1369

    LotShape 0

    LandContour 0

    Utilities 0

    ...............

    PoolQC 1453

    Fence 1179

    MiscFeature 1406

    MiscVal 0

    MoSold 0

    YrSold 0

    SaleType 0

    SaleCondition 0

    SalePrice 0

    Length: 81, dtype: int64

                                                                            
0.05 என்பது Null-க்கான threshold ஆகும். அதாவது 100 க்கு 5 null
மதிப்புகள் இருக்கலாம் என வரையறுக்கப்பட்டுள்ளது. எனவே அதை விட அதிக அளவு
null மதிப்புகள் கொண்ட columns கண்டறியப்பட்டு வெளிப்படுத்தப்படுகிறது.
பின்னர் இவை dataframe-லிருந்து நீக்கப்படுகின்றன.


    print (b)

     
    LotFrontage 259

    Alley 1369

    MasVnrType 8

    MasVnrArea 8

    BsmtQual 37

    BsmtCond 37

    BsmtExposure 38

    BsmtFinType1 37

    BsmtFinType2 38

    FireplaceQu 690

    GarageType 81

    GarageYrBlt 81

    GarageFinish 81

    GarageQual 81

    GarageCond 81

    PoolQC 1453

    Fence 1179

    MiscFeature 406

    dtype: int64

     
மேற்கண்ட 18 columns-ஐயும் நீக்கிய பின்னர் 81 என்பது 63-ஆகக்
குறைந்துள்ளத்தைக் காணலாம்.

     
    print (df.shape)

     
    (1460, 63)

     
அடுத்ததாக Threshold-ஐ விடக் குறைவான null மதிப்புகளைப் பெற்றுள்ள text
column-ஆனது வெளிப்படுத்தப்படுகிறது. include=['object'] என்பது text
column-ஐக் குறிக்கும்.

     
    print (a1)

     
    MSZoning 0

    Street 0

    LotShape 0

    ...............

    Electrical 1

    KitchenQual 0

    Functional 0

    PavedDrive 0

    SaleType 0

    SaleCondition 0

    dtype: int64

     
    print (a1.index)

     
    Index(['MSZoning', 'Street', 'LotShape', 'LandContour', 'Utilities',

    'LotConfig', 'LandSlope', 'Neighborhood', 'Condition1', 'Condition2',

    'BldgType', 'HouseStyle', 'RoofStyle', 'RoofMatl', 'Exterior1st',

    'Exterior2nd', 'ExterQual', 'ExterCond', 'Foundation', 'Heating',

    'HeatingQC', 'CentralAir', 'Electrical', 'KitchenQual', 'Functional',

    'PavedDrive', 'SaleType', 'SaleCondition'],

    dtype='object')

     
அந்த columns-ல் உள்ள ஒவ்வொரு மதிப்பும் எத்தனை முறை இடம்பெற்றுள்ளது
என்பது கண்டறியப்பட்டு அவை ஒரு list-ஆக மாற்றப்படுகின்றன. list-ன் முதலாவது
மதிப்பு அதிக அளவு இடம்பெற்றுள்ள வார்த்தை ஆகும். இவ்வார்த்தையினால் தான்
null மதிப்புகள் நிரப்பப்படுகின்றன.

     
    print (b1)

     
    ['RL', 'RM', 'FV', 'RH', 'C (all)']

    ['Pave', 'Grvl']

    ['Reg', 'IR1', 'IR2', 'IR3']

    ...............

    ['Y', 'N', 'P']

    ['WD', 'New', 'COD', 'ConLD', 'ConLI', 'ConLw', 'CWD', 'Oth', 'Con']

    ['Normal', 'Partial', 'Abnorml', 'Family', 'Alloca', 'AdjLand']

     
அடுத்ததாக Threshold-ஐ விடக் குறைவான null மதிப்புகளைப் பெற்றுள்ள
numerical column-ஆனது அதிக அளவு இடம்பெற்றுள்ள மதிப்பினால்
நிரப்பப்படுகிறது. include=['integer','float'] என்பது numerical
columns-ஐக் குறிக்கும்.

 
    print (a2)

     
    Id 0

    MSSubClass 0

    LotArea 0

    ...............

    MoSold 0

    YrSold 0

    SalePrice 0

    dtype: int64

     
    print (b2)

     
    Index([], dtype='object')

     
அடுத்ததாக இரண்டு column-ல் உள்ள மதிப்புகளை ஒப்பிட்டு, அவைகளின்
வித்தியாசம் கண்டறியப்பட்டு ஒரு புது column-ஆக dataframe-ல்
இணைக்கப்படுகிறது. 63 columns-ஆக உள்ளது புது columns இணைந்த பின் 65 என
மாறியிருப்பதைக் காணலாம்.   

     
    print (df.shape)

    (1460, 63)

     
    print (df.shape)

    (1460, 65)

     
தேவையில்லாத ஒருசில column-ன் பெயர்கள் நேரடியாகக் கொடுக்கப்பட்டு அவை
dataframe-ல் இருந்து நீக்கப்படுகின்றன. பின் 59 என மாறியிருப்பதைக்
காணலாம்.
 

    print (df.shape)

    (1460, 59)

     
numerical columns-க்கும், target columns-க்குமான correlation
கண்டறியப்பட்டு வெளிப்படுத்தப்படுகிறது. இதன் மதிப்பு 0.4 எனும்
threashold-ஐ விட குறைவாக இருப்பின் அவை dataframe-லிருந்து
நீக்கப்படுகின்றன.

     
    print (x)

     
    MSSubClass 0.084284

    LotFrontage 0.351799

    LotArea 0.263843

    ...............

    SalePrice 1.000000

    Years Before Sale 0.523350

    Years Since Remod 0.509079

    Name: SalePrice, dtype: float64

     
மேற்கூறிய மாற்றங்கள் அனைத்தும் நிகழ்ந்த பின், நமக்குத் தேவையான ஒருசில
முக்கிய விஷயங்கள் dataframe-ல் இன்னும் உள்ளதா என்பது
சோதிக்கப்படுகிறது.அளவுக்கு அதிகமான தனிப்பட்ட மதிப்புகளைக் கொண்ட columns
நீக்கப்படுகின்றன. இவையும் நீக்கப்பட்டபின் columns எண்ணிக்கை 38 என
மாறியிருப்பதைக் காணலாம்.
 

    print (df.shape)

    (1460, 38)

     
பின்னர் அவை எந்தெந்த  columns என வெளிப்படுத்தப்படுகின்றன.

     
    print (df.columns)

     
    Index(['MSZoning', 'LotShape', 'LandContour', 'Utilities', 'LotConfig',

    'LandSlope', 'Condition1', 'Condition2', 'BldgType', 'HouseStyle',

    'OverallQual', 'RoofStyle', 'RoofMatl', 'Exterior1st', 'Exterior2nd',

    'ExterQual', 'ExterCond', 'TotalBsmtSF', 'HeatingQC', 'CentralAir',

    'Electrical', '1stFlrSF', 'GrLivArea', 'FullBath', 'KitchenQual',

    'TotRmsAbvGrd', 'Functional', 'Fireplaces', 'GarageCars', 'GarageArea',

    'PavedDrive', 'SalePrice', 'Years Before Sale', 'Years Since Remod'],

    dtype='object')

     
கடைசியாக இந்த dataframe-ல் இருக்கும் மதிப்புகளானது training_data எனும்
பெயரில் .csv கோப்பாக சேமிக்கப்படுகின்றன. இதுவே model-ன் உருவாக்கத்திற்கு
உள்ளீடாக அமையும். இதை வைத்து model-ஐ உருவாக்குவது எப்படி என்று அடுத்த
பகுதியில் காணலாம்.

 
Model file handling

Model Creation

sklearn (sk for scikit) என்பது python-ல் உள்ள இயந்திரவழிக் கற்றலுக்கான
ஒரு library ஆகும். இதில் classification, regression ஆகிய வகைகளின் கீழ்
அமையும் linear, ensemble, neural networks போன்ற அனைத்து விதமான
model-க்கும் algorithms காணப்படும். இதிலிருந்து LinearRegression எனும்
algorithm-ஐ எடுத்து அதற்கு நம்முடைய data-வைப் பற்றி நாம் கற்றுத்
தருகிறோம். இதற்கான நிரல் பின்வருமாறு.

https://gist.github.com/nithyadurai87/91e74160ccb4ff51eef3188372a78b91 

 
    import pandas as pd

    from sklearn.linear_model import LinearRegression

    from sklearn.model_selection import train_test_split,cross_val_score

    from sklearn.externals import joblib

    from sklearn.metrics import mean_squared_error

    import matplotlib.pyplot as plt

    from math import sqrt

    import os

     
    df = pd.read_csv('./training_data.csv')

     
    i = list(df.columns.values)

    i.pop(i.index('SalePrice'))

    df0 = df[i+['SalePrice']]

    df = df0.select_dtypes(include=['integer','float'])

    print (df.columns)

     
    X = df[list(df.columns)[:-1]]

    y = df['SalePrice']

    X_train, X_test, y_train, y_test = train_test_split(X, y)

    regressor = LinearRegression()

    regressor.fit(X_train, y_train)

     
    y_predictions = regressor.predict(X_test)

     
    meanSquaredError=mean_squared_error(y_test, y_predictions)

    rootMeanSquaredError = sqrt(meanSquaredError)

     
    print("Number of predictions:",len(y_predictions))

    print("Mean Squared Error:", meanSquaredError)

    print("Root Mean Squared Error:", rootMeanSquaredError)

    print ("Scoring:",regressor.score(X_test, y_test))

     
    plt.plot(y_predictions,y_test,'r.') 

    plt.plot(y_predictions,y_predictions,'k-') 

    plt.title('Parity Plot - Linear Regression')

    plt.show()

     
    plot = plt.scatter(y_predictions, (y_predictions - y_test), c='b')

    plt.hlines(y=0, xmin= 100000, xmax=400000)

    plt.title('Residual Plot - Linear Regression')

    plt.show()

     
    joblib.dump(regressor, './salepricemodel.pkl')

     
நிரலுக்கான வெளியீடு:

     
    Index(['OverallQual', 'TotalBsmtSF', '1stFlrSF', 'GrLivArea', 'FullBath',

    'TotRmsAbvGrd', 'Fireplaces', 'GarageCars', 'GarageArea',

    'Years Before Sale', 'Years Since Remod', 'SalePrice'],

    dtype='object')

    Number of predictions: 365

    Mean Squared Error: 981297922.7884247

    Root Mean Squared Error: 31325.675136993053

    Scoring: 0.818899237738355

     
நிரலுக்கான விளக்கம்:

1.  training_data எனும் கோப்பிற்குள் உள்ள அனைத்துத் தரவுகளும் df-க்குள்
    செலுத்தப்பட்டுவிட்டன.

2.  கணிப்பதற்கு உதவும் அனைத்தும் X-லும், கணிக்கப்பட வேண்டிய 'SalePrice'
    என்பது y-லும் சேமிக்கப்பட்டுள்ளது. இதற்கு முன்னர் pop() என்பது
    கணிக்கப்பட வேண்டிய column-ஐ df-லிருந்து நீக்கி பின்னர் மீண்டும்
    கடைசி column-ஆக இணைக்கிறது. இதன் மூலம் [ :-1] எனக் கொடுத்து
    கடைசிக்கு முன்னால் உள்ள அனைத்தும் X-லும் கடைசி column-ஆன 
    'SalePrice'-ஐ y-லும் சேமித்துக் கொள்ளலாம்.

3.  fit() என்பது கற்றுக் கொடுப்பதற்கும், predict() என்பது
    கணிப்பதற்கும் பயன்படுகிறது.

4.  score() என்பது நமது algorithm எவ்வளவு தூரம் சரியாகக்
    கற்றுக்கொண்டுள்ளது என்பதை மதிப்பிடப் பயன்படுகிறது.

5.  train_test_split() என்பது நம்முடைய மொத்தத் தரவுகளை 75% - 25% எனும்
    விகிதத்தில் பிரிக்கிறது. அதாவது 75% தரவுகள் கற்றுக் கொடுப்பதற்கும்,
    25% தரவுகள் சோதனை செய்து மதிப்பிடுவதற்கும் பயன்படும்.

6.  mean_squared_error, sqrt ஆகிய functions, நமது algorithm-ஆல்
    கணிக்கப்படும் மதிப்புகளுக்கும் உண்மையான மதிப்புகளுக்கும் உள்ள
    இழப்பின் சராசரியைக் கண்டறிந்து கூறும். இந்த இழப்பு தான் 'Residual
    Error' ஆகும். இது ஒரு வரைபடமாக வரைந்து காட்டப்பட்டுள்ளது.

7.  joblib என்பது நமது model-ஐ .pkl கோப்பாக சேமிக்கும். இதுவே pickle
    file ஆகும். இது serialization மற்றும் de-serialization-க்கு
    உதவுகின்ற ஒரு binary கோப்பு வகை ஆகும். இதை வைத்து எவ்வாறு புதிய
    தரவுகளை கணிப்பது என அடுத்த பகுதியில் காணலாம்.

Prediction

நமது கோப்பில் உள்ள முதல் தரவினை மட்டும் கொடுத்து அதற்கான விலையை கணிக்கச்
சொல்லுவோம். இது input.json எனும் கோப்பின் வழியே கொடுக்கப்படுகிறது.

 
cat input.json

 
{

"OverallQual":[7],

"TotalBsmtSF":[856],

"1stFlrSF":[856],

"GrLivArea":[1710],

"FullBath":[2],

"TotRmsAbvGrd":[8],

"Fireplaces":[0],

"GarageCars":[2],

"GarageArea":[548],

"Years Before Sale":[5],

"Years Since Remod":[5]

}

 
predict() செய்வதற்கான நிரல் பின்வருமாறு.

https://gist.github.com/nithyadurai87/4a31b465220448ab05b84d2227e4e8a5 

     
    import os 

    import json

    import pandas as pd

    import numpy

    from sklearn.externals import joblib

     
    s = pd.read_json('./input.json')

    p = joblib.load("./salepricemodel.pkl")

r = p.predict(s)
 

    print (str(r))

     
நிரலுக்கான வெளியீடு:

     
    [213357.65598157]

     
உண்மையான SalePrice மதிப்பு 208500 எனில் நமது நிரல் 213357 எனும்
மதிப்பினை வெளிப்படுத்தும். இது கிட்டத்தட்ட பரவாயில்லை. ஏனெனில் நமது
algorithm-ன் score, 81% ஆகும். எனவே இந்த அளவு வித்தியாசம் இருக்கத்தான்
செய்யும்.

நிரலுக்கான விளக்கம்:

1.  joblib.load() என்பது binary வடிவில் உள்ள கோப்பினை de-serialize
    செய்து algorithm-ஆக மாற்றி சேமிக்கும்.

2.  பின்னர் இதன் மீது செயல்படும் predict() ஆனது json வடிவில் உள்ள
    தரவுகளை உள்ளீடாகக் கொடுத்து அதற்கான வெளியீட்டினைக் கணிக்கிறது..

அடுத்த இந்த prediction-க்கான உள்ளீடு மற்றும் வெளியீட்டு மதிப்பினை
எவ்வாறு ஒரு Rest API-ஆக expose செய்வது என்று பார்க்கலாம்.

Flask API

நமது algorithm கணிக்கும் மதிப்பினை ஒரு API-ஆக expose செய்வதற்கு Flask
பயன்படுகிறது. இதற்கான நிரல் பின்வருமாறு.

https://gist.github.com/nithyadurai87/9d04097e006e2fe6c7a96b1da643cb3a 

 
    import os 

    import json

    import pandas as pd

    import numpy

    from flask import Flask, render_template, request, jsonify

    from pandas.io.json import json_normalize

    from sklearn.externals import joblib

     
    app = Flask(__name__)

    port = int(os.getenv('PORT', 5500))

     
    @app.route('/')

    def home():

        return render_template('index.html')

     
    @app.route('/api/salepricemodel', methods=['POST'])

    def salepricemodel():

        if request.method == 'POST':

            try:

                post_data = request.get_json()

                json_data = json.dumps(post_data)

                s = pd.read_json(json_data)          

                p = joblib.load("./salepricemodel.pkl")

                r = p.predict(s)

                return str(r) 

            
            except Exception as e:

                return (e)

        
    if __name__ == '__main__':                                                

    app.run(host='0.0.0.0', port=port, debug=True)

     
நிரலுக்கான வெளியீடு: 

* Serving Flask app "flask_api" (lazy loading)
* Environment: production
WARNING: Do not use the development server in a production environment.
Use a production WSGI server instead.
* Debug mode: on
* Restarting with stat
* Debugger is active!
* Debugger PIN: 690-746-333
* Running on http://0.0.0.0:5500/ (Press CTRL+C to quit)

இதனை postman எனும் கருவி மூலம் நாம் சோதித்துக் கொள்ளலாம்.

 
Model comparison

 
நமது model உருவாக்கத்திற்கு வெறும் linear regression-ஐ மட்டும்
பயன்படுத்தாமல், வேறு சில algorithm-வுடனும் ஒப்பிட்டு எது சிறந்ததோ அதை
பயன்படுத்த வேண்டும். இதற்கான நிரல் பின்வருமாறு. இது நமது தரவுகளை பல்வேறு
algorithm-ல் பொருத்தி, ஒவ்வொன்றினுடைய Score மற்றும் RMSE மதிப்புகளை
வெளிப்படுத்துகிறது. இவற்றில் சிறந்ததை நாம் தேர்வு செய்து கொள்ளலாம்.

https://gist.github.com/nithyadurai87/9ecfcbf04593d245e26316d52b0708e1 

 
    import pandas as pd

    from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet

    from sklearn.ensemble import RandomForestRegressor, AdaBoostRegressor, ExtraTreesRegressor, GradientBoostingRegressor

    from sklearn.tree import DecisionTreeRegressor

    from sklearn.neural_network import MLPRegressor

    from sklearn.model_selection import train_test_split,cross_val_score

    from sklearn.externals import joblib

    from sklearn.metrics import mean_squared_error

    from azure.storage.blob import BlockBlobService

    import matplotlib.pyplot as plt

    from math import sqrt

    import numpy as np

    import os

     
    df = pd.read_csv('./training_data.csv')

     
    i = list(df.columns.values)

    i.pop(i.index('SalePrice'))

    df0 = df[i+['SalePrice']]

    df = df0.select_dtypes(include=['integer','float'])

     
    X = df[list(df.columns)[:-1]]

    y = df['SalePrice']

    X_train, X_test, y_train, y_test = train_test_split(X, y)

     
    def linear():

     regressor = LinearRegression()

     regressor.fit(X_train, y_train)

     y_predictions = regressor.predict(X_test)

     return (regressor.score(X_test, y_test),sqrt(mean_squared_error(y_test, y_predictions)))

      
    def ridge():

     regressor = Ridge(alpha=.3, normalize=True)

     regressor.fit(X_train, y_train)

     y_predictions = regressor.predict(X_test)

     return (regressor.score(X_test, y_test),sqrt(mean_squared_error(y_test, y_predictions)))

      
    def lasso():

     regressor = Lasso(alpha=0.00009, normalize=True)

     regressor.fit(X_train, y_train)

     y_predictions = regressor.predict(X_test)

     return (regressor.score(X_test, y_test),sqrt(mean_squared_error(y_test, y_predictions)))

      
    def elasticnet():

     regressor = ElasticNet(alpha=1, l1_ratio=0.5, normalize=False)

     regressor.fit(X_train, y_train)

     y_predictions = regressor.predict(X_test)

     return (regressor.score(X_test, y_test),sqrt(mean_squared_error(y_test, y_predictions)))

      
    def randomforest():

     regressor = RandomForestRegressor(n_estimators=15,min_samples_split=15,criterion='mse',max_depth=None)

     regressor.fit(X_train, y_train)

     y_predictions = regressor.predict(X_test)

     print("Selected Features for RamdomForest",regressor.feature_importances_)

     return (regressor.score(X_test, y_test),sqrt(mean_squared_error(y_test, y_predictions)))

     
    def perceptron():

     regressor = MLPRegressor(hidden_layer_sizes=(5000,), activation='relu', solver='adam', max_iter=1000)

     regressor.fit(X_train, y_train)

     y_predictions = regressor.predict(X_test)

     print("Co-efficients of Perceptron",regressor.coefs_)

     return (regressor.score(X_test, y_test),sqrt(mean_squared_error(y_test, y_predictions)))

      
    def decisiontree():

     regressor = DecisionTreeRegressor(min_samples_split=30,max_depth=None)

     regressor.fit(X_train, y_train)

     y_predictions = regressor.predict(X_test)

     print("Selected Features for DecisionTrees",regressor.feature_importances_)

     return (regressor.score(X_test, y_test),sqrt(mean_squared_error(y_test, y_predictions)))

     
    def adaboost():

     regressor = AdaBoostRegressor(random_state=8, loss='exponential').fit(X_train, y_train)

     regressor.fit(X_train, y_train)

     y_predictions = regressor.predict(X_test)

     print("Selected Features for Adaboost",regressor.feature_importances_)

     return (regressor.score(X_test, y_test),sqrt(mean_squared_error(y_test, y_predictions)))

      
    def extratrees():

     regressor = ExtraTreesRegressor(n_estimators=50).fit(X_train, y_train)

     regressor.fit(X_train, y_train)

     y_predictions = regressor.predict(X_test)

     print("Selected Features for Extratrees",regressor.feature_importances_)

     return (regressor.score(X_test, y_test),sqrt(mean_squared_error(y_test, y_predictions)))

     
    def gradientboosting():

     regressor = GradientBoostingRegressor(loss='ls',n_estimators=500, min_samples_split=15).fit(X_train, y_train)

     regressor.fit(X_train, y_train)

     y_predictions = regressor.predict(X_test)

     print("Selected Features for Gradientboosting",regressor.feature_importances_)

     return (regressor.score(X_test, y_test),sqrt(mean_squared_error(y_test, y_predictions)))

     
    print ("Score, RMSE values")

    print ("Linear = ",linear())

    print ("Ridge = ",ridge())

    print ("Lasso = ",lasso())

    print ("ElasticNet = ",elasticnet())

    print ("RandomForest = ",randomforest())

    print ("Perceptron = ",perceptron())

    print ("DecisionTree = ",decisiontree())

    print ("AdaBoost = ",adaboost())

    print ("ExtraTrees = ",extratrees())

    print ("GradientBoosting = ",gradientboosting())

     
நிரலுக்கான வெளியீடு.: 

Score, RMSE values
Linear = (0.7437086925668539, 40067.32048747698)
Ridge = (0.7426559924644496, 40149.523137601194)
Lasso = (0.7437086997392647, 40067.31992682729)
ElasticNet = (0.7427716507607811, 40140.499909601196)
RandomForest = (0.7816174352942802, 36985.57224959144)
Perceptron = (0.7090884723574984, 42687.80529374248)
DecisionTree = (0.7205230305007451, 41840.45264436496)
AdaBoost = (0.7405881117926998, 40310.51057481991)
ExtraTrees = (0.8112271823246542, 34386.90514804029)
GradientBoosting = (0.770865727419495, 37885.095662535474)

Selected Features for RamdomForest [0.61070268 0.04279095 0.04336447
0.17066371 0.01107406 0.01329107
0.0065515 0.03938371 0.02458596 0.02051551 0.01707638]

Selected Features for DecisionTrees [0.75618387 0.03596786 0.02304119
0.13037245 0.0022674 0. 0.00739768 0.01056845 0.01184136 0.01171254
0.01064719]

Selected Features for Adaboost [0.38413232 0.18988447 0.03844386
0.12826885 0.03857277 0.03995005
0.01059839 0.08066205 0.05036717 0.01473333 0.02438674]

Selected Features for Extratrees [0.33168574 0.04675749 0.05913052
0.11159271 0.05178125 0.02947481
0.03966461 0.16786223 0.06241882 0.05316226 0.04646956]

Selected Features for Gradientboosting [0.04426232 0.16359645 0.14768597
0.25403034 0.02119119 0.04361512
0.01825781 0.01626673 0.15891844 0.07188963 0.06028599]

Co-efficients of Perceptron [array([[ 2.83519650e-01, 7.33024272e-03,
2.80373628e-01, ..., -1.43939606e-03, -3.84913926e-02],
[ 1.34495184e-01, 1.31687141e-02, 1.72078666e-04, ...,1.70666499e-23,
-2.31494718e-02, -1.08758545e-02],
[ 9.44490485e-02, -2.34835375e-02, 2.37798999e-02, ..., -1.74549692e-02,
-2.70192753e-02, -3.67706290e-02],
...,
[ 1.59527225e-01, -3.19744701e-02, -1.22884400e-01,
..., -2.35994429e-26, -3.03880584e-02, -2.85251050e-02],
[-3.63149939e-01, -4.05674884e-02, 2.66679331e-01, ..., -1.73628910e-02,
7.40224353e-03, -6.89871249e-03],
[-4.30743882e-01, 7.07948777e-03, 3.34518179e-01, ..., -1.74075111e-02,
3.47755293e-02, -2.64627071e-02]]),

array([[ 0.16789784],[-0.01864141],[ 0.20432696],...,[
0.01739125],[-0.02779454],[-0.00476935]])]

ஒரு model-ஐ இதுவே சிறந்தது எனக் கூறுவதற்கு, அதனுடைய Score மற்றும் RMSE
மதிப்பு அல்லாது Threshold Limit, Sensitivity போன்றவற்றையும் நாம்
கணக்கில் கொள்ள வேண்டும். இதைப் பற்றியும் மேலே குறிப்பிட்டுள்ள ஒவ்வொரு
algorithm-ஐப் பற்றியும் பின்னர் நாம் விளக்கமாகக் காணலாம். மேலே
குறிப்பிட்டுள்ள algorithms-ல் ஒருசிலவை எந்தெந்த features-ஐ வைத்து
கணித்துள்ளது என்பதை வெளிப்படுத்தியுள்ளது. ஆனால் இந்தப் பண்பு linear,
ridge, lasso, elasticnet போன்றவற்றிற்குக் கிடையாது. ஆகவே இதுபோன்ற
algorithms-க்கு RFE technique மூலம் நாம் features-ஐ தேர்வு செய்து அனுப்ப
வேண்டும். இதைப் பற்றி 'feature selection' எனும் அடுத்த பகுதியில்
காணலாம்.

Improving Model score

நாம் உருவாக்கிய model-ன் score-ஆனது மிகவும் குறைவாக இருக்கிறது எனில்,
அது எந்த இடத்தில் அதிகம் வேறுபடுகிறது எனக் கண்டறிய  trend / parity போன்ற
வரைபடங்களைப் போட்டுப் பார்க்க வேண்டும். கீழ்க்கண்ட உதாரணத்தில் ஒரு
வீட்டின் விலையை நிர்ணயிப்பதற்கான பல்வேறு அம்சங்களும்,
அதனடிப்படையில் நிர்ணயிக்கப்பட்ட விற்பனை விலைகளும் பயிற்சிக்குக்
கொடுக்கப்பட்டுள்ளன. இதை வைத்து நாம் உருவாக்கிய model-ன் score ஆனது 35 என
வந்துள்ளது. எனவே எந்த இடத்தில் உண்மையான விலையும், கணிக்கப்படும் விலையும்
அதிகம் வேறுபடுகிறது எனக் கண்டறிய trend, parity plots வரையப்பட்டுள்ளன.

 
நிரல் மற்றும் அதன் வெளியீடு:

https://gist.github.com/nithyadurai87/ca54a4a8f59187cb988b5145d000c70c 


    import pandas as pd

    from sklearn.linear_model import LinearRegression

    from sklearn.model_selection import train_test_split,cross_val_score

    from sklearn.externals import joblib

    from sklearn.metrics import mean_squared_error

    import matplotlib.pyplot as plt

    from math import sqrt

    import os

     
    df = pd.read_csv('./training_data.csv')

     
    X = df[list(df.columns)[:-1]]

    y = df['SalePrice']

    X_train, X_test, y_train, y_test = train_test_split(X, y)

    regressor = LinearRegression()

    regressor.fit(X_train, y_train)

     
    y_predictions = regressor.predict(X_test)

     
    meanSquaredError=mean_squared_error(y_test, y_predictions)

    rootMeanSquaredError = sqrt(meanSquaredError)

     
    print("Number of predictions:",len(y_predictions))

    print("Mean Squared Error:", meanSquaredError)

    print("Root Mean Squared Error:", rootMeanSquaredError)

    print ("Scoring:",regressor.score(X_test, y_test))

     
    ## TREND PLOT

    y_test25 = y_test[:35]

    y_predictions25 = y_predictions[:35]

    myrange = [i for i in range(1,36)]

    fig = plt.figure()

    ax = fig.add_subplot(111)

    ax.grid()

    plt.plot(myrange,y_test25, marker='o')

    plt.plot(myrange,y_predictions25, marker='o') 

    plt.title('Trend between Actual and Predicted - 35 samples')

    ax.set_xlabel("No. of Data Points")

    ax.set_ylabel("Values- SalePrice")

    plt.legend(['Actual points','Predicted values'])

    plt.savefig('TrendActualvsPredicted.png',dpi=100)

    plt.show()

     
    ## PARITY PLOT

    y_testp = y_test[:]+50000

    y_testm = y_test[:]-50000

    fig = plt.figure()

    ax = fig.add_subplot(111)

    ax.grid()

    plt.plot(y_test,y_predictions,'r.') 

    plt.plot(y_test,y_test,'k-',color = 'green')

    plt.plot(y_test,y_testp,color = 'blue')

    plt.plot(y_test,y_testm,color = 'blue')

    plt.title('Parity Plot')

    ax.set_xlabel("Actual Values")

    ax.set_ylabel("Predicted Values")

    plt.legend(['Actual vs Predicted points','Actual value line','Threshold of 50000'])

    plt.show()

     
    ## Data Distribution

    fig = plt.figure()

    plt.plot([i for i in range(1,1461)],y,'r.')

    plt.title('Data Distribution')

    plt.show()

     
    a, b = 0 , 0

    for i in range(0,1460):

        if(y[i]>250000):

            a += 1

        else: 

            b +=1

    print(a, b)

     
    #X = X[:600]

    #y = y[:600]

     
Trend plot என்பது உண்மையான விலைகளும் model-கணித்த விலைகளும் எந்த
அளவுக்கு வித்தியாசப்படுகின்றன என்பதைக் காட்டுகிறது.

                                 
Parity plot என்பது அந்த வித்தியாசத்திற்கு ஒரு threshold-ஐ அமைக்கிறது.
அதாவது விலை வேறுபாடானது 50ஆயிரம் வரை முன்னும் பின்னும் செல்லலாம் எனக்
கொடுத்து அந்த threshold-க்குள் எவ்வளவு விலைகள் அமைந்துள்ளன, அதற்கு மேல்
எவ்வளவு அமைந்துள்ளது என்பதைக் காட்டுகிறது.

 
அடுத்தபடியாக data distribution chart வரையப்பட்டுள்ளது. இதன்
X-அச்சில் பயிற்சிக்கு அளிக்கப்பட்டுள்ள 1460 rows-ம், Y-அச்சில் விற்பனை
விலைகளும் வரைபடமாக வரைந்து காட்டப்பட்டுள்ளன. இதில் முதல் 600 records-வரை
விற்பனை விலைகள் 1 லட்சத்திலிருந்து 5 லட்சம் வரை பரவலாகப் பரவியுள்ளத்தைக்
காணலாம். அதற்கு மேல் 600-லிருந்து 1000 records-வரை விற்பனை விலைகள்
அனைத்தும் வெறும் 2 லட்சத்திலேயே அதிகம் அமைந்திருப்பதைக் காணலாம். இதுவே
model-ன் குறைந்த அளவு score-க்குக் காரணம். பயிற்சி அளிக்கப்படும்
தரவுகளானது சீரான முறையில் பரவலாக அமைந்திருக்க வேண்டும் என ஏற்கனவே
கண்டோம். இங்கு அவ்வாறு இல்லை. எனவே எதுவரை சீராகப் பரவியுள்ளதோ அதுவரை
மட்டும் உள்ள தரவுகளைக் கொடுத்து model-ஐ உருவாக்கும்போது அதன் score
அதிகரிப்பதைக் காணலாம். X = df[list(df.columns)[:-1]] , y =
df['SalePrice'] எனக் கொடுத்த பின்னர், X = X[:600] , y = y[:600] எனும்
வரிகளை இணைத்தால் போதுமானது. முதல் 600 records வரை மட்டும் உள்ள தரவுகளை
எடுத்து நமது model உருவாக்கப்படும்.

 
Output:

Number of predictions: 365

Mean Squared Error: 2312162517.277571

Root Mean Squared Error: 48084.95104788578

Scoring: 0.34729555622354125

97 1363

                             
கடைசியாக பயிற்சிக்குக் கொடுக்கப்பட்டுள்ள 1460 தரவுகளில் 250000-க்கும்
மேல் எவ்வளவு மதிப்புகள் உள்ளன, அதற்குக் கீழ் எவ்வளவு மதிப்புகள் உள்ளன
என்பது கண்டுபிடிக்கப்பட்டுள்ளது. இதில் 1363 மதிப்புகள்  250000-க்கு
கீழும், வெறும் 97 மதிப்புகள் அதற்கு மேலும் அமைந்துள்ளன. எனவே இதுவும்
சீராக இல்லை. இதுவே outliers எனப்படுகிறது. இதுபோன்ற outliers-ஐ எவ்வாறு
கண்டுபிடித்து நீக்குவது என அடுத்த பகுதியில் காணலாம்.

 
Feature Selection

 
ஒரு கோப்பினுள் பல்வேறு columns இருக்கிறதெனில், அவற்றுள் எந்தெந்த column
மதிப்புகளைப் பொறுத்து நாம் கணிக்கின்ற விஷயம் அமைகிறது எனக்
கண்டுபிடிப்பதே feature selection ஆகும். உதாரணத்துக்கு 400, 500
columns-ஐக் கொண்டுள்ள கோப்பிலிருந்து, prediction-க்கு உதவும் ஒருசில
முக்கிய columns-ஐத் தேர்வு செய்வது feature selection ஆகும். இதற்கு
முதலில் நம்மிடமுள்ள columns-ஐ process variables, manipulated variables &
disturbance variables எனும் 3 வகையின் கீழ் பிரிக்க வேண்டும். இதில்
manipulated மற்றும் disturbance இரண்டும் input-க்கான parameter-ஆகவும்,
process என்பது output-க்கான parameter-ஆகவும் அமைகிறது.

-   Manipulated Variables (MV) - இவ்வகையின் கீழ் அமையும் columns-ல் உள்ள
    மதிப்புகளை நம்மால் மாற்றி அமைக்க முடியும். நமக்கேற்றவாறு  இதனை நாம்
    கையாளலாம்.

-   Disturbance Variables (DV) - இதனை நம்மால் நேரடியாக மாற்றி அமைக்க
    முடியாது. ஆனால் manipulated-ன் மதிப்பினைப் பொறுத்தே இதன் மதிப்பு
    அமைகிறது.

-   Process Variales (PV) - பல்வேறு செயல்முறைகளைப் பொறுத்து இதிலுள்ள
    மதிப்புகள் அமையும். அதாவது மற்ற columns மதிப்புகளைப் பொறுத்தே இதன்
    மதிப்பு அமைகிறது. எனவே இதில் நாம் மாற்றுவதற்கு எதும் கிடையாது .

மேற்கண்டவாறு பிரித்த பின் ஒவ்வொரு variable-க்கும் மற்ற variables-வுடன்
இருக்கும் தொடர்பினைக் கணக்கிடல் வேண்டும். இதுவே correlation எனப்படும்.
இதன் மதிப்பு -1 லிருந்து +1 வரை அமையும். -1 என்பது எதிர்மறைத்
தொடர்பையும், +1 நேர்மறைத் தொடர்பையும் குறிக்கும். 

உதாரணத்துக்கு "உண்ணும் உணவின் அளவு", "உடற்பயிற்சி செய்யும் நேரம்", "எடை
குறைப்பு புத்தகங்களைப் படிக்கும் நேரம்" போன்ற சில பல features-ஐ
வைத்து, "உடலின் எடை" எனும் ஒரு விஷயத்தை நாம் கணிக்கப் போவதாகக் கொண்டால்
அதற்கான correlation matrixல் உள்ள மதிப்புகள் பின்வருமாறு அமையும். 

-   Positive Correlation: உடலின் எடைக்கும் - உண்ணும் உணவின் அளவுக்குமான
    தொடர்பு +1 என வெளிப்படும். உணவின் அளவு அதிகரித்தால் எடை
    அதிகரிக்கும்.

-   Negative Correlation: உடலின் எடைக்கும் - உடற்பயிற்சி செய்யும்
    நேரத்திற்குமான தொடர்பு -1 என வெளிப்படும். உடற்பயிற்சி செய்யும் நேரம்
    அதிகரித்தால் உடலின் எடை குறையும்.

-   Zero Correlation: எடை குறைப்பு பற்றிய புத்தகங்களைப் படிக்கும்
    நேரத்துடன் கொண்டுள்ள தொடர்பு 0 என வெளிப்படும். படிக்கும்
    நேரத்திற்க்கும் உடலின் எடைக்கும் யாதொரு சம்மந்தமும் இல்லை

-   இவையல்லாத வேறு சில features இருப்பின் அவை கொண்டுள்ள தொடர்பினைப்
    பொறுத்து, அதற்கான மதிப்பு -1 லிருந்து 1 வரை அமையும்.

Highly Correlated features (MV - DV)

கீழ்க்கண்ட உதாரணத்தில், data.csv எனும் கோப்பிற்குள் உள்ள columns-ல் எது
எது என்னென்ன வகையான parameters எனும் விவரத்தை நாம் domain expert-ன் உதவி
கொண்டு தெரிந்து கொள்ளலாம். உதாரணத்துக்கு A முதல் Z வரை பெயர்கள் கொண்ட 26
features-ல் A,B,C,D,E,F ஆகியவை process parameters ஆகவும், மற்றவை
manipulated மற்றும் disturbance parameters ஆகவும் கருதியுள்ளோம். எனவே
முதலில் process parameters அனைத்தும் dataframe-லிருந்து
நீக்கப்படுகின்றன. பின்னர் மீதியுள்ள manipulated மற்றும் disturbance
parameters-க்கான correlation கண்டுபிடிக்கப்பட்டு, அது கோப்பு வடிவிலும்,
வரைபட வடிவிலும் வெளிப்படுத்தப்பட்டுள்ளது. இவற்றில் அதிக அளவு
நேர்மறை மற்றும் எதிர்மறைத் தொடர்பு கொண்டுள்ளவை dataframe-லிருந்து
நீக்கப்படுகின்றன. அதாவது -98,-99,-1,98,99,1 எனும் தொடர்பினைப்
பெற்றிருக்கும் இரு features-ல் ஒன்று நீக்கப்படுகிறது. இவ்வாறாக
manipulated மற்றும் disturbance-க்கிடையில் அதிகத் தொடர்பு கொண்டுள்ள
அம்சங்கள் கண்டுபிடிக்கப்பட்டு அவற்றில் ஒன்று
நீக்கப்படுகிறது. மீதமுள்ள அனைத்தும் training_data எனும் பெயரில்
சேமிக்கப்படுகிறது. இதுவே நமது process variable-க்கும்,
தேர்ந்தெடுக்கப்பட்ட manipulated & disturbance variable-க்குமான
தொடர்பினைக் கண்டறிவதற்கு உள்ளீடாக அமைகிறது. இவைகள் அனைத்தும் நாம் கணிக்க
வேண்டிய process variable-வுடன் கொண்டுள்ள தொடர்பினைக் கண்டுபிடித்து,
அதில் 0 தொடர்பு பெற்றுள்ள columns-ஐ நீக்குவது அடுத்த படியாக அமைகிறது. 

https://gist.github.com/nithyadurai87/5a43155d33cf5288204def23661704d0 

 
    import pandas as pd

    import matplotlib.pyplot as plt

    import numpy

    from sklearn.linear_model import LinearRegression

    from sklearn.model_selection import train_test_split,cross_val_score

    from sklearn.metrics import mean_squared_error

    from math import sqrt

    from sklearn.feature_selection import RFE

    from sklearn.datasets import make_friedman1

     
    df = pd.read_csv('./data.csv')

     
    # Dropping all process parameters

    df = df.drop(["A","B", "C", "D", "E", "F"], axis=1) 

     
    #finding correlation between manipulated & disturbance variables

    correlations = df.corr()

    correlations = correlations.round(2)

    correlations.to_csv('MV_DV_correlation.csv',index=False)

    fig = plt.figure()

    g = fig.add_subplot(111)

    cax = g.matshow(correlations, vmin=-1, vmax=1)

    fig.colorbar(cax)

    ticks = numpy.arange(0,20,1)

    g.set_xticks(ticks)

    g.set_yticks(ticks)

    g.set_xticklabels(list(df.columns))

    g.set_yticklabels(list(df.columns))

    plt.savefig('MV_DV_correlation.png')

     
    #removing parameters with high correlation 

    upper = correlations.where(numpy.triu(numpy.ones(correlations.shape), k=1).astype(numpy.bool))

    cols_to_drop = []

    for i in upper.columns:

     if (any(upper[i] == -1) or any(upper[i] == -0.98) or any(upper[i] == -0.99) or any(upper[i] == 0.98) or any(upper[i] == 0.99) or any(upper[i] == 1)):

      cols_to_drop.append(i)

    df = df.drop(cols_to_drop, axis=1) 

     
    print (df.shape,df.columns)

    df.to_csv('./training_data.csv',index=False)

     
நிரலுக்கான வெளியீடு: 

(20, 17) Index(['G', 'H', 'J', 'K', 'M', 'N', 'P', 'Q', 'R', 'S', 'T',
'U', 'V', 'W', 'X', 'Y', 'Z'], dtype='object')

 
Zero Correlated features (PV - MV,DV) 

"A" என்பது நாம் கணிக்க வேண்டிய process parameter எனக் கொள்வோம்.
training_data எனும் கோப்பிற்குள், இந்த  "A" -வை கடைசி column-ஆக இணைத்து
கீழ்க்கண்ட நிரலுக்கு உள்ளீடாக அனுப்பவும். பின்னர் A-க்கும் மற்ற
parameters-க்குமான தொடர்பினைக் கண்டுபிடித்து, அதில் 0 தொடர்பு கொண்டுள்ள
MV, DV -யை நிக்கிவிடவும். இங்கு 0.6 -க்கும் குறைவான அதாவது 0.1, 0.2,
0.3, 0.4, 0.5 எனும் மதிப்புகளைப் பெற்றுள்ள columns நீக்கப்படுகின்றன. 

https://gist.github.com/nithyadurai87/e0cca6ec864405a032888244122a90d8 


    import pandas as pd

    import matplotlib.pyplot as plt

    import numpy

    from sklearn.linear_model import LinearRegression

    from sklearn.model_selection import train_test_split,cross_val_score

    from sklearn.metrics import mean_squared_error

    from math import sqrt

    from sklearn.feature_selection import RFE

    from sklearn.datasets import make_friedman1

     
    df = pd.read_csv('./training_data.csv')

    print (df.shape,df.columns)

     
    # Dropping columns which has correlation with target less than threshold

    target = "A"

    correlations = df.corr()[target].abs()

    correlations = correlations.round(2)

    correlations.to_csv('./PV_MVDV_correlation.csv',index=False)

    df=df.drop(correlations[correlations<0.06].index, axis=1)

     
    print (df.shape,df.columns)

    df.to_csv('./training.csv',index=False)

     
நிரலுக்கான வெளியீடு:
 

(20, 18) Index(['G', 'H', 'J', 'K', 'M', 'N', 'P', 'Q', 'R', 'S', 'T',
'U', 'V', 'W', 'X', 'Y', 'Z', 'A'], dtype='object')
(20, 17) Index(['G', 'H', 'J', 'K', 'M', 'N', 'P', 'Q', 'R', 'S', 'T',
'U', 'V', 'W', 'X', 'Y', 'A'], dtype='object')

 
Recursive Feature Elimination Technique 

இது RFE technique என்று அழைக்கப்படும். Randomforest, Decisiontree,
Adaboost, Extratrees, gradient boosting போன்ற algorithms தானாகவே
features-ஐ தேர்வு செய்யும் அளவுக்கு திறன் பெற்று விளங்கும். ஆனால்,
linear regression, ridge, lasso, elasticnet போன்ற algorithms-க்கு
இத்தகைய techniques மூலம் நாம் தான் features-ஐ தேர்வு செய்து வழங்க
வேண்டும். இந்த நுட்பமானது ஒரு algorithm-ஐ உள்ளீடாகப் பெற்றுக் கொண்டு,
ஒவ்வொரு feature-க்கும் ranking-ஐ வழங்குகிறது.. இதில் rank 1 பெற்றுள்ள
feature-ஐ மட்டும் தேர்வு செய்து நாம் பயன்படுத்தலாம்.

https://gist.github.com/nithyadurai87/34ca5b0e8a9f5908276240eb099247ad 

 
    import pandas as pd

    import matplotlib.pyplot as plt

    import numpy

    from sklearn.linear_model import LinearRegression

    from sklearn.tree import DecisionTreeRegressor

    from sklearn.model_selection import train_test_split,cross_val_score

    from sklearn.metrics import mean_squared_error

    from math import sqrt

    from sklearn.feature_selection import RFE

    from sklearn.datasets import make_friedman1

     
    df = pd.read_csv('./training.csv')

     
    X = df[list(df.columns)[:-1]]

    y = df['A']

    X_train, X_test, y_train, y_test = train_test_split(X, y)

     
    regressor = DecisionTreeRegressor(min_samples_split=3,max_depth=None)

    regressor.fit(X_train, y_train)

    y_predictions = regressor.predict(X_test)

    print ("Selected Features for DecisionTree",regressor.feature_importances_)

     
    # RFE Technique - Recursive Feature Elimination 

    X, y = make_friedman1(n_samples=20, n_features=17, random_state=0)

    selector = RFE(LinearRegression())

    selector = selector.fit(X, y)

    print ("Selected Features for LinearRegression",selector.ranking_)

     
இங்கு feature_importances_ எனும்  method, decisiontree-ன் மீது
செயல்பட்டு, அனைத்து features-க்குமான ranking-ஐ வெளிப்படுத்தியுள்ளதைக்
காணலாம். ஆனால் இந்த method, linear regression மீது செயல்படாது. எனவே RFE
மூலம் நாம்தான் ranking-ஐ வெளிப்படுத்துமாறு செய்ய வேண்டும். பின்னர்
இதிலிருந்து Rank 1 வெளிப்பட்டுள்ள features-ஐ மட்டும் தேர்வு செய்து
பயன்படுத்தலாம்.

நிரலுக்கான வெளியீடு:
 

Selected Features for DecisionTree [9.52359304e-04 0.00000000e+00
0.00000000e+00
0.00000000e+00 0.00000000e+00 6.15147906e-03 2.23327627e-03
7.70622020e-02
0.00000000e+00 0.00000000e+00 1.10263284e-03 2.33946020e-04
0.00000000e+00 0.00000000e+00 9.12264104e-01 0.00000000e+00]
Selected Features for LinearRegression [ 1 1 10 1 1 9 8 3 5 2 6 7 1
1 1 4 1]

 
Outliers Removal 

      
Outlier என்பது மற்ற தரவுகளிலிருந்து வேறுபட்டு சற்று தள்ளி இருக்கும் தரவு
ஆகும். 5,10,15,20...75 எனும் மதிப்பினைக் கொண்டிருக்கும் தரவு வரிசைகளில்
ஒன்றே ஒன்று மட்டும் 15676 எனும் எண்ணைக் கொண்டிருப்பின், அதுவே outlier
ஆகும். இதைத் தான் நாம் கண்டறிந்து களைய வேண்டும்.

கீழ்க்கண்ட உதாரணத்தில், உள்ளீடாக உள்ள கோப்பிற்குள் இருக்கும் outliers
ஒவ்வொரு column-லும் கண்டறியப்பட்டு  அவை ஒரு வரைபபடமாக
வெளிப்படுத்தப்படுகின்றன. boxplot அல்லது violinplot இதற்குப்
பயன்படுகின்றன.

https://gist.github.com/nithyadurai87/1756b2a5ec421fc3f36add04909cc517 

    import pandas as pd

    import pylab

    import numpy as np

    from scipy import stats

    from scipy.stats import kurtosis

    from scipy.stats import skew

    import matplotlib._pylab_helpers

     
    df = pd.read_csv('./14_input_data.csv')

     
    # Finding outlier in data

    for i in range(len(df.columns)):

        pylab.figure()

        pylab.boxplot(df[df.columns[i]])

        #pylab.violinplot(df[df.columns[i]])

        pylab.title(df[df.columns[i]].name)

     
    list1=[]

     
    for i in matplotlib._pylab_helpers.Gcf.get_all_fig_managers():

        list1.append(i.canvas.figure)

    print (list1)

        
    for i, j in enumerate(list1):

        j.savefig(df[df.columns[i]].name)

     
    # Removing outliers

    z = np.abs(stats.zscore(df))

    print(z)

    print(np.where(z > 3))

    print(z[53][9])

    df1 = df[(z < 3).all(axis=1)]

    print (df.shape)

    print (df1.shape)

 
list1 என்பதற்குள் ஒவ்வொரு column-க்குமான வரைபடங்கள்
சேமிக்கப்பட்டுகின்றன.

print(list1)

[<Figure size 640x480 with 1 Axes>, <Figure size 640x480 with 1 Axes>,
<Figure s
ize 640x480 with 1 Axes>, <Figure size 640x480 with 1 Axes>, <Figure
size 640x48
0 with 1 Axes>, <Figure size 640x480 with 1 Axes>, <Figure size 640x480
with 1 A
xes>, <Figure size 640x480 with 1 Axes>, <Figure size 640x480 with 1
Axes>, <Fig
ure size 640x480 with 1 Axes>]

பின்னர் savefig() மூலம் ஒவ்வொரு column-க்குமான வரைபடமும் அதன் பெயரிலேயே
சேமிக்கப்படுகிறது. கீழ்க்கண்ட படங்களில் இடது பக்கம் இருப்பது 'salePrice'
-க்கான violin plot ஆகும். வலது பக்கம் இருப்பது அதே column-க்கான box plot
ஆகும். இவற்றில் ஏதாவது ஒன்றைப் பயன்படுத்தி outlier இருக்கும் இடத்தை நாம்
தெரிந்து கொள்ளலாம்.  இங்கு SalePrice-ல் 300000-க்கு மேலும் 100000-க்கு
கீழும் outlier இருப்பதாக வெளிப்படுத்தியுள்ளது.

 
அடுத்தபடியாக இத்தகைய outliers-ஐ எவ்வாறு நீக்குவது என்று பார்க்கலாம். Z
Score, IQR Score போன்றவை இதற்காகப் பயன்படுகின்றன. Z Score என்பது ஒரு
தரவு அதற்கான mean மதிப்பிலிருந்து எவ்வளவு தூரம் தள்ளி இருக்கிறது
என்பதைக் கணக்கிட்டுக் கூறும். அதிக அளவு தள்ளி இருப்பவற்றை நாம்
outlier-ஆக எடுத்துக் கொள்ளலாம்.

0 என்பதனை mean-ஆக வைத்துக்கொண்டு, அதிலிருந்து ஒவ்வொரு தரவும் எந்த
அளவுக்கு தள்ளி உள்ளது என்பது பின்வருமாறு.

print(z)

[[0.65147924 0.45930254 0.79343379 ... 0.31172464 0.35100032 0.4732471 ]
[0.07183611 0.46646492 0.25714043 ... 0.31172464 0.06073101 0.01235858]
[0.65147924 0.31336875 0.62782603 ... 0.31172464 0.63172623 0.74302803]
...
[0.65147924 0.21564122 0.06565646 ... 1.02685765 1.03391416 0.23194227]
[0.79515147 0.04690528 0.21898188 ... 1.02685765 1.09005935 0.23192429]
[0.79515147 0.45278362 0.2416147 ... 1.02685765 0.9216238 0.2319063 ]]

வெறும் மேற்கண்ட மதிப்பினை மட்டும் வைத்துக்கொண்டு, outliers-ஐ சொல்லி விட
முடியாது. அதற்கு ஒரு threshold-ஐ அமைக்க வேண்டும். பொதுவாக 3 என்பது
threshold-ஆக அமையும். அதாவது 3-க்கும் மேல் தள்ளி இருப்பவை எல்லாம்
outliers ஆகும். எனவே இந்த outliers-ஐ மட்டும் print செய்வதற்கான கட்டளை
பின்வருமாறு.

print(np.where(z > 3))

(array([ 53, 58, 112, 118, 151, 161, 166, 178, 178, 185, 185,
185, 197, 224, 224, 224, 231, 278, 304, 309, 309, 313,
321, 332, 336, 349, 375, 378, 389, 440, 440, 440, 473,
477, 481, 496, 496, 496, 496, 515, 523, 523, 523, 527,
529, 533, 581, 585, 591, 605, 608, 635, 635, 642, 664,
691, 691, 691, 769, 769, 798, 803, 825, 897, 898, 910,
1024, 1031, 1044, 1044, 1061, 1169, 1173, 1182, 1182, 1182, 1190,
1230, 1268, 1298, 1298, 1298, 1298, 1298, 1298, 1350, 1353, 1373,
1373, 1386], dtype=int64), array([9, 9, 9, 3, 9, 9, 6, 8, 9, 3, 5, 9, 3,
1, 2, 9, 9, 9, 3, 6, 9, 9,
9, 1, 9, 9, 0, 9, 9, 1, 2, 9, 9, 9, 9, 1, 2, 3, 9, 9, 1, 2, 3, 9,
2, 0, 8, 9, 9, 6, 3, 3, 5, 6, 8, 1, 2, 3, 3, 5, 3, 5, 8, 5, 2, 5,
2, 5, 1, 2, 8, 3, 5, 1, 2, 3, 8, 5, 3, 1, 2, 3, 5, 6, 8, 5, 3, 1,
2, 5], dtype=int64))

மேற்கண்ட வெளியீட்டில் இரண்டு arrays() உள்ளத்தைக் கவனிக்கவும். இதன் முதல்
array()-ல் outlier அமைந்துள்ள இடத்தின் row மதிப்பும், இரண்டாவது
array()-ல் அதன் column-மதிப்பும் காணப்படும். எனவே  print(z[53][9]) எனக்
கொடுக்கும்போது 53-வது row, 9-வது column-ல் உள்ள z core மதிப்பு
3.647669390284779 என வெளிப்படுவதைக் காணலாம்.

கடைசியாக 3-க்குக் கீழ் உள்ள மதிப்புகள் மட்டும் ஒரு புதிய dataframe-ல்
சேமிக்கப்பட்டு அவையே outliers நீக்கப்பட்ட தரவுகளாக சேமிக்கப்படுகின்றன.

df1 = df[(z < 3).all(axis=1)]

எனவே பழைய dataframe-ல் 1460 rows இருப்பதையும், புதிய dataframe-ல் 1396
rows இருப்பதையும் காணலாம்.

(1460, 10)
(1396, 10)

 
Explanatory Data Analysis

நமது தரவுகள் எவ்வாறு அமைந்துள்ளன என விரிவாக ஆராய்ந்து பார்ப்பதே
Explanatory Data Analysis ஆகும். 

Univariate                                             

ஒரே ஒரு column-ல் உள்ள தரவுகளை மட்டும் எடுத்து ஆராய்வது univariate
எனவும், இரண்டு column-ல் உள்ளவை எவ்விதத்தில் ஒன்றோடொன்று தொடர்பினை
ஏற்படுத்துகின்றன என ஆராய்வது bivariate எனவும், பல்வேறு columns இணைந்து
எவ்வாறு ஒரு target column-ன் மீது தாக்கத்தை ஏற்படுத்துகிறது எனப்
பார்ப்பது multi-variate analysis எனவும் அழைக்கப்படும்.

histogram, Density plot மற்றும் box plot ஆகியவை univariate analysis-க்கு
பெரிதும் உதவுகின்ற வரைபட வகைகள் ஆகும். Histogram என்பது ஒரு variable-ல்
உள்ளவற்றை, பல்வேறு bins-ஆகப் பிரித்து, ஒவ்வொரு bin-லும் எவ்வாறு தரவுகள்
அமைந்துள்ளன என்பதைக் காட்டுகிறது. கீழ்க்கண்ட உதாரணத்தில்,
'GrLivArea' எனும் column-ல் பல்வேறு வீட்டினுடைய sqft அளவுகள்
கொடுக்கப்பட்டுள்ளன. அவை 500, 1000, 1500 ... 3000 எனும் பல்வேறு bins-ஆகப்
பிரிக்கப்பட்டு, ஒவ்வொரு bin-லும் எத்தனை வீடுகள் அமைந்துள்ளன என்பது
வரைபடமாகக் காட்டப்பட்டுள்ளது. matplotlib மற்றும் seaborn ஆகியவை இத்தகைய
வரைபடங்களை வழங்குகின்றன. Histogram என்பது matplotlib வழங்குகின்ற
வரைபடமெனில், Densityplot என்பது seaborn வழங்குகின்ற வரைபடம் ஆகும்.

Boxplot என்பதும் ஒரே ஒரு variable-ஐ analysis செய்வதற்கு உதவும் ஒரு வரைபட
வகை ஆகும். இதில் ஒரு பெட்டி போன்ற படம் ஒன்று காணப்படும். இதன் நடுவில்
உள்ள கோடு தான் median ஆகும். இந்தப் பெட்டிக்கு மேலும், கீழும் உள்ள கோடு,
எந்த அளவுக்கு தரவுகள் பரவியுள்ளது என்பதைக் காட்டும். அந்தக் கோட்டின்
எல்லையையும் தாண்டி ஆங்காங்கு காணப்படும் ஒரு சில சிறிய புள்ளிகளே outliers
ஆகும்.

https://gist.github.com/nithyadurai87/5be067164741348c6a51d6af6d8d78b7 

 
    import pandas as pd

    import matplotlib.pyplot as plt

    import seaborn as sns

     
    df = pd.read_csv("14_input_data.csv")

    df = df.fillna(0)

    df = df[:100]

     
    y = [i for i in range(0,10)]

    fig = plt.figure(figsize=(8,6))

    ax = fig.add_subplot(111)

    ax.set(title="Total Living Sq.Ft",

          ylabel='No of Houses', xlabel='Living Sq.Ft')

    ax.hist(df['GrLivArea'])

    plt.savefig('Histogram.jpg')

     
    sns.distplot(df['GrLivArea'], hist = False, kde = True,

                     kde_kws = {'shade': True, 'linewidth': 3})

    plt.savefig('DensityPlot.jpg')

     
    fig = plt.figure(figsize=(8,6))

    ax = fig.add_subplot(111)

    ax.set(title="Total Living Sq.Ft",

          ylabel='No of Houses', xlabel='Living Sq.Ft')

    ax.boxplot(df['GrLivArea'])

plt.savefig('BoxPlot.jpg')
 

Bivariate 

 
இரண்டு variables எவ்வாறு தொடர்பு கொண்டுள்ளன என வரைபடம் வரைந்து பார்ப்பது
bi-variate analysis ஆகும். இதன் X-அச்சில் ஒன்றும் Y-அச்சில் மற்றொன்றும்
வைத்து வரைபடம் வரையப்படும்.

இங்கு ஒவ்வொரு வீட்டினுடைய sqft அளவைப் பொறுத்து அதன் விற்பனை விலை எவ்வாறு
மாறுபடுகிறது என்பது scatter plot, heatmap ஆகியவை மூலம் காட்டப்பட்டுள்ளன.
HeatMap-ல் இரண்டு வரைபபடங்கள் உள்ளன. ஒன்று seaborn வழங்குகின்ற
வரைபடமாகவும், மற்றொன்று matplotlib வழங்குகின்ற வரைபடமாகவும் உள்ளது.

Scatter plot என்பது தரவுகள் இருக்கும் இடத்தை தனித்தனி புள்ளிகளாகக்
காட்டும். இதில் தரவுகளைக் குறிப்பிடுவதற்கு புள்ளிகளுக்கு பதிலாக,
சிறுசிறு வட்டங்களையோ அல்லது வேறு சில வடிவங்களையோ கூட பயன்படுத்தலாம்.

Heatmap என்பது 2 dimensional data-வை வரைந்து காட்ட உதவும் வரைபபட வகை
ஆகும். இங்கு 12*12 மதிப்பு கொண்ட வரைபடம் வரையப்பட்டுள்ளது. Matrix-ல்
உள்ள ஒவ்வொரு தனித்தனி மதிப்பும் தனித்தனி நிறத்தால் குறிக்கப்படும். இது
பொதுவாக நமது தரவுகள் எவ்விதத்தில் அமைந்துள்ளன எனக் காண உதவும். seaborn
மற்றும் matplotlib வழங்குகின்ற இரண்டு வகையான heatmaps இங்கு
கொடுக்கப்பட்டுள்ளன.

https://gist.github.com/nithyadurai87/d93a853d86cf5500011cb41308dd1935 

 
    import pandas as pd

    import matplotlib.pyplot as plt

    import seaborn as sns

     
    df = pd.read_csv("14_input_data.csv")

    df = df.fillna(0)

    df = df[:500]

     
    fig = plt.figure(figsize=(8,6))

    ax = fig.add_subplot(111)

    ax.set(title='Living area vs Price of the house',

          xlabel='Price', ylabel='Area')

    price = df['SalePrice'].tolist()

    area = df['GrLivArea'].tolist()

    ax.scatter(price,area)

    plt.savefig('ScatterPlot.jpg')

     
    df2 = pd.DataFrame()

    df2['sale'] = df['SalePrice']

    df2['area'] = df['GrLivArea']

    fig = plt.figure(figsize=(12,12))

    r = sns.heatmap(df2, cmap='BuPu')

    plt.savefig('HeatMapSeaborn.jpg')

     
    fig = plt.figure(figsize=(8,6))

    ax = fig.add_subplot(111)

    ax.set(title="Total Living Sq.Ft",

          ylabel='No of Houses', xlabel='Living Sq.Ft')

    ax.hist2d(price,area,bins=100)

    plt.savefig('HeatMapMatplotlib.jpg')

 
Scatter Plot 

 
HeatMap - Seaborn 

 
HeatMap - Matplotlib 

 
Multivariate

 
இரண்டுக்கும் மேற்பட்ட மதிப்புகளைப் பொறுத்து ஒரு taraget variable எவ்வாறு
அமைகிறது எனக் காண்பதே multi-variate analysis ஆகும். Parallel coordinates
என்பது இத்தகைய multi dimensional data-வைக் காண்பதற்கு உதவும் வரைபட வகை
ஆகும்.

இங்கு plotly மற்றும் matplotlib மூலம் இத்தகைய வரைபடங்கள் வரைந்து
கட்டப்பட்டுள்ளது. 'SalePrice' எனும் categorical variable-க்கு தரவுகள்
எவ்வாறு சீராகப் பரவியுள்ளது என்பதை இந்த வரைபடம் காட்டும். இதை வைத்து
இதில் ஏதாவது trend உள்ளதா என்பதை நாம் கண்டறியலாம். Plotly மூலம் வரையும்
போது, ஒவ்வொரு column-லும் உள்ள min மற்றும் max மதிப்புகளை அதன் range-ஆக
கொடுக்கப்பட்டுள்ளதை கவனிக்கவும். இந்த வரைபடம் ஒரு html கோப்பாக
interactive முறையில் சேமிக்கப்படுகிறது.

 
https://gist.github.com/nithyadurai87/2b0bb469694d33c7d1472880f10f67e1 

 
    import pandas as pd

    import matplotlib.pyplot as plt

    from pandas.plotting import parallel_coordinates

    import plotly

    import plotly.graph_objs as go

    import numpy as np

     
    df = pd.read_csv("14_input_data.csv")

    parallel_coordinates(df, 'SalePrice')

    plt.savefig('ParallelCoordinates.jpg')

     
    desc_data = df.describe()

    desc_data.to_csv('./metrics.csv')

     
    X = df[list(df.columns)[:-1]]

    y = df['SalePrice']

     
    data = [

        go.Parcoords(

            line = dict(colorscale = 'Jet',

                       showscale = True,

                       reversescale = True,

                       cmin = -4000,

                       cmax = -100),

            dimensions = list([

                dict(range = [1,10],

                     label = 'OverallQual', values = df['OverallQual']),

                dict(range = [0,6110],

                     label = 'TotalBsmtSF', values = df['TotalBsmtSF']),

                dict(tickvals = [334,4692],

                     label = '1stFlrSF', values = df['1stFlrSF']),

                dict(range = [334,5642],                 

                     label = 'GrLivArea', values = df['GrLivArea']),

                dict(range = [0,3],

                     label = 'FullBath', values = df['FullBath']),

                dict(range = [2,14],

                     label = 'TotRmsAbvGrd', values = df['TotRmsAbvGrd']),

                dict(range = [0,3],

                     label = 'Fireplaces', values = df['Fireplaces']),

                dict(range = [0,4],

                     label = 'GarageCars', values = df['GarageCars']),

                dict(range = [0,1418],

                     label = 'GarageArea', values = df['GarageArea']),

                dict(range = [34900,555000],

                     label = 'SalePrice', values = df['SalePrice'])               

            ])

        )

    ]

    plotly.offline.plot(data, filename = './parallel_coordinates_plot.html', auto_open= True)

     
Polynomial Regression

 
ஒரு நேர் கோட்டில் பொருந்தாத சற்று சிக்கலான தரவுகளுக்கு polynomial
regression-ஐப் பயன்படுத்தலாம். கீழ்க்கண்ட நிரலில் ஒரு வீட்டிற்கான சதுர
அடியும், அதற்கான விலையும் கொடுக்கப்பட்டுள்ளது. இதில் linear மற்றும் 2nd
order, 3rd order, 4th order & 5th order polynomial பொருத்திப் பார்க்கப்
படுகிறது.

https://gist.github.com/nithyadurai87/b7d3bf7733b5d4a8d2c8b2d1b8dcb531 

     
    import pandas as pd

    import matplotlib.pyplot as plt 

    from sklearn.linear_model import LinearRegression 

    from sklearn.preprocessing import PolynomialFeatures 

     
    X = pd.DataFrame([100,200,300,400,500,600],columns=['sqft'])

    y = pd.DataFrame([543543,34543543,35435345,34534,34534534,345345],columns=['Price'])

     
    lin = LinearRegression()   

    lin.fit(X, y) 

    plt.scatter(X, y, color = 'blue')   

    plt.plot(X, lin.predict(X), color = 'red') 

    plt.title('Linear Regression') 

    plt.xlabel('sqft') 

    plt.ylabel('Price')   

    plt.show() 

     
    for i in [2,3,4,5]:

     poly = PolynomialFeatures(degree = i) 

     X_poly = poly.fit_transform(X)   

     poly.fit(X_poly, y) 

     lin2 = LinearRegression() 

     lin2.fit(X_poly, y) 

     plt.scatter(X, y, color = 'blue')  

     plt.plot(X, lin2.predict(poly.fit_transform(X)), color = 'red') 

     plt.title('Polynomial Regression') 

     plt.xlabel('sqft') 

     plt.ylabel('Price')   

    plt.show() 

     
linear regression-ஐ வைத்துப் பொருத்தும் போது, அதற்கான கோடு எந்த ஒரு
தரவுகளின் மீதும் பொருந்தாமல் பின்வருமாறு அமைகிறது. இதுவே under fitting
எனப்படும்.

 
எனவே 2nd order முறையில் அதனுடைய cube கண்டுபிடிக்கப்பட்டு அவற்றை
தரவுகளுடன் பொருத்த முயலும்போது பின்வருமாறு அமைகிறது. இதுவே non-linear
function எனப்படும். அதாவது இது ஒரு நேர் கோடாக அமையாது.

 
அவ்வாறே 3rd order-ல் தரவுகளுடைய cube கண்டுபிடிக்கப்பட்டு அவை தரவுகளுக்கு
இன்னும் சற்று அருகில் செல்வதைக் காணலாம்.

கடைசியாக 4th order-ல் அனைத்துத் தரவுகளின் மீதும் முழுதாகப் பொருந்துமாறு
non-linear அமைகிறது. இதுவே over fitting என்று அழைக்கப்படும். இதுபோன்ற
over fitting-ம் சரியானது அல்ல.

எனவே எந்த order-ல் அனைத்துத் தரவுகளின் மீதும், நமது non-linear பரவலாகப்
பொருந்துகிறதோ (over fitting அல்லாமல்), அதையே நாம் கணிப்பிற்கு எடுத்துக்
கொள்ளலாம். இம்முறையில் ஒரு எண்ணிற்கு அடுத்தடுத்த மடங்குகள்
கண்டுபிடிக்கப்படுவதால் , இதற்கான சமன்பாடு அதன் மடங்குகளைப் பொறுத்து
பின்வருமாறு அமைகிறது. அதிக அளவில் எண்கள் அதிகரிக்கப்படுவதால் feature
scaling-ன் பயன்பாடு இங்கு அதிக முக்கியத்துவம் பெறுகிறது.

 
Underfitting – High bias

 
கணிப்புக்கான கோடானது தரவுகளின் மீது அதிகமாகப் பொருந்தாத நிலையே
underfitting எனப்படுகிறது. அதிக அளவு தரவுகளுக்கு குறைந்த features கொண்டு
கணிக்கும் போது இந்நிலை ஏற்படுகிறது. இதுவே high bias பிரச்சனை என்றும்
அழைக்கப்படுகிறது. ஏனெனில் மிகக் குறைந்த அளவு அம்சங்களைச் சார்ந்தே இது
செயல்படுகிறது. உதாரணத்துக்கு 50,000 தரவுகளுக்கு(m) இரண்டே இரண்டு
features-ஐக் கொண்டு கணிக்கும் போது தரவுகள் எதுவும் கோட்டில் பொருந்தாது.
எனவே இதுபோன்ற பிரச்சனைக்கு தரவுகளின் எண்ணிக்கையை அதிகரிப்பது தீர்வாகாது.
features- ன் எண்ணிக்கையை மட்டுமே அதிகரிக்க வேண்டும். .

Overfitting – High variance

 
அதிக அளவு features-ஐ சேர்ப்பதன் மூலம் underfitting-ஐத் தவிர்க்கலாம் என
ஏற்கெனவே பார்த்தோம். அதுவே அளவுக்கு அதிகமாக சேர்த்துவிட்டால்,
overfitting என்ற நிலை ஏற்பட்டு விடுகிறது. இதனைத் தவிர்ப்பதற்காக
சேர்க்கப்படுவதே regularization parameter ஆகும். அதாவது தரவுகளின்
எண்ணிக்கை குறைவாக இருந்து, features அதிகமாக இருக்கும்போது இந்நிலை
ஏற்படும். உதாரணத்துக்கு வெறும் 50 தரவுகளுக்கு, 250 features கொண்டு
கணிக்கும்போது கோடானது, அனைத்துத் தரவுகளின் மீதும் அளவுக்கு அதிகமாகப்
பொருந்துகிறது. இதுவே high variance என்று அழைக்கப்படுகிறது. இதனைத்
தவிர்க்க features எண்ணிக்கையை மிகவும் குறைத்தாலும் high bias
ஆகிவிடுகிறது. இதுவே bias-variance tradeoff என்று அழைக்கப்படுகிறது. இது
போன்ற பிரச்சனைகளை தவிர்க்க features எண்ணிக்கையை சரியான அளவுக்கு குறைக்க
வேண்டும் அல்லது regularization-ஐப் பயன்படுத்தலாம்.

Regularization 

இது ஒவ்வொரு feature-வுடனும் இணைக்கப்படும் parameter-ன் (தீட்டாக்களின்)
அளவைக் குறைக்கிறது. எனவே features-ன் எண்ணிக்கை அதிகமாக இருந்தாலும், அவை
கணிப்பில் குறைந்த அளவே பங்கேற்குமாறு செய்யலாம். linear regression-வுடன்
இது இணையும் போது, அதற்கான சமன்பாடு பின்வருமாறு அமைகிறது.

Linear regression:

 
இதில் லாம்டா என்பதுதான் regularization-க்கான parameter. இதன் மதிப்பு 1
லிருந்து தொடங்கி அனைத்து feature -க்கும் அமைவதைக் காணவும் (j =1 to n).
ஏனெனில் x0 -ன் மதிப்பு எப்போதும் 1 என இருக்குமென்பதை ஏற்கனவே கண்டோம்.
ஆகவே தீட்டா0 -வுடைய மதிப்பைக் குறைக்கத் தேவையில்லை.

அதேபோல் லாம்டாவின் மதிப்பு மிக அதிகமாகவும் இருக்கக் கூடாது. மிகக்
குறைவாகவும் இருக்கக் கூடாது. குறைவாக இருந்தாலும், overfitting-ஐத்
தவிர்க்காது. அதிகமாக இருந்தாலும் bias ஏற்படக் காரணமாகிவிடும். எனவே
சரியான அளவில் இருக்க வேண்டும்.

Gradient descent-வுடன் regularization இணையும்போது, அதற்கான சமன்பாடு
பின்வருமாறு அமையும். இங்கும் தீட்டா 0 -வுடன் இணையாமல், தீட்டா 1
-லிருந்து regularization இணைக்கப்படுகிறது.

 
குறைந்த cost கண்டுபிடிப்பதற்கான சாதாரண சூத்திரத்துடன் regularization
இணையும்போது, அது பின்வருமாறு அமையும்.

Normal Equation:

 
Logistic regression

 
நமது கணிப்பு ஒரு முழு மதிப்பினை வெளிப்படுத்தாமல், ஏதேனும் ஒரு வகையின்
கீழ் அமைந்தால், அதுவே logistic regression எனப்படும். இந்த வகைப்படுத்தல்,
binary மற்றும் multiclass எனும் இரு விதங்களில் நடைபெறும். logistic
regression என்பது இதற்கு உதவுகின்ற ஒரு algorithm ஆகும். இதன் பெயரில்
மட்டும்தான் regression எனும் வார்த்தை உள்ளது. ஆனால் இது ஒரு
classification-க்கான algorithm ஆகும்.

 
Sigmoid function

 
ஒரு விஷயம் நடைபெறுமா? நடைபெறாதா? அல்லது இருக்கா? இல்லையா? என்பதையே இது
கணிக்கிறது. ஆம் என்பது 1 எனவும் இல்லை என்பது 0 எனவும் கணிக்கப்படும்.
ஆகவே இதன் கணிப்பானது 0-லிருந்து 1-வரை அமையும். இதற்கான வரைபடம்
பின்வருமாறு. அந்த வரைபடத்தில் z-ன் மதிப்பைப் பொறுத்து கணிக்கப்படும்
g(z), 0-முதல் 1-வரை அமைய வேண்டுமெனில் அதற்கான சூத்திரமானது 1/(1+e**-z)
என்று அமையும். இதுவே sigmoid function என்று அழைக்கப்படுகிறது.

எனவே z-க்கான இடத்தில் h(x) -ஐப் பொருத்தினால், அது 0-1 வரை அமைவதற்கான
சமன்பாடாக பின்வரும் சூத்திரம் அமையும். இதுவே logictic regression-க்கான
சமன்பாடு ஆகும்.

ஒரு மின்னஞ்சல்  spam-ஆ இல்லையா எனக் கணிப்பதற்கான நிரல் பின்வருமாறு.

https://gist.github.com/nithyadurai87/f09984303f976ca6eb8a64a4b7f0e391 

     
    import numpy as np                             

    import pandas as pd

    from sklearn.feature_extraction.text import TfidfVectorizer

    from sklearn.linear_model.logistic import LogisticRegression

    from sklearn.model_selection import train_test_split, cross_val_score

     
    df = pd.read_csv('./spam.csv', delimiter=',',header=None)

    X_train_raw, X_test_raw, y_train, y_test = train_test_split(df[1],df[0])

     
    vectorizer = TfidfVectorizer()

    X_train = vectorizer.fit_transform(X_train_raw)

    X_test = vectorizer.transform(X_test_raw)

    classifier = LogisticRegression()

    classifier.fit(X_train, y_train)

    predictions = classifier.predict(X_test)

    print(predictions)

     
['ham' 'ham' 'ham']

Decision Boundary 

h(x) = 1 என்பது எப்போதும் ஆம் என்பதையே குறிக்கும். எனவே 1-h(x) என்பது
இல்லை என்பதைக் குறிக்கும். உதாரணத்துக்கு h(x) என்பது நாளை மழை பெய்ய 70%
வாய்ப்பு உள்ளது என கணிக்கிறதெனில், மீதமுள்ள 30% இல்லை என்பதைக்
கணித்துள்ளது என்றே அர்த்தம்.

தரவுகள் கீழ்க்கண்ட வரைபடத்தில் காணப்படுவதுபோல் பரவலாக அமைந்திருக்கிறது
எனில், எதற்கு மேல் சென்றால் ஆம் எனக் கணிக்கலாம், எதற்குக் கீழ் அமைந்தால்
இல்லை எனக் கணிக்கலாம் என்பதை முடிவு செய்வதே decision boundary ஆகும். இது
எப்போதும் தீட்டா மதிப்புகளைப் பொறுத்தே அமையும். -3, 1, 1 எனும்
மதிப்புகளை தீட்டா0, தீட்டா1, தீட்டா2 எனுமிடத்தில் பொருத்தினால், h(x)=1
என கணிப்பதற்கு x1 மற்றும் x2-ஆனது 3-க்கு மேல் அமைய வேண்டும் என்பதை
decision boundary-ஆக அமைத்துள்ளது.

 
தரவுகள் கீழ்க்கண்டவாறு  non-linear முறையில் பரவியிருப்பதால், இதன் தீட்டா
மதிப்புகளான -1,0,0,1,1 என்பது 2-ம் order polynomial-ல் இருக்கும்
சமன்பாட்டில் பொருத்தப்படுகிறது. 1-என்பது boundary-ஆக கண்டு
பிடிக்கப்பட்டுள்ளது. இதுவே threshold classifier என்றும் அழைக்கப்படும்.

 
Cost function

உண்மையில் நாளை மழை பெய்ய வாய்ப்பு இருக்கிறது என கணிக்கப்பட வேண்டியது
இல்லை என கணிக்கப்பட்டால், அது ஒரு error. அவ்வாறே பெய்யாது என்பதை
பெய்யும் எனக் கணித்தாலும் அது ஒரு  error. அதாவது 1 என்பது 0 என
கணிக்கப்பட்டாலோ அல்லது  0 என்பது 1 என கணிக்கப்பட்டாலோ அதனுடைய தவறு
எத்தனை சதவீதம் நிகழ்ந்துள்ளது என்பதைக் கணக்கிட்டுக் கூற இயலாது. Infinity
(எண்ணற்ற) என்பதே அதன் மதிப்பாக இருக்கும். இதற்கான வரைபடங்கள்
பின்வருமாறு. அதில் x என்பது h(x) எனில், y -ஆனது infinity-ஐ நோக்கிச்
செல்லும் வளைவுக்கான சூத்திரம் -log( h(x) )

 
அதாவது,

1 என்பது 0 என கணிக்கப்பட்டால் அதற்கான cost = -log( h(x) ), அவ்வாறே

0 என்பது 1 என கணிக்கப்பட்டால் அதற்கான cost = -log(1-h(x) )

எனவே cost-க்கான சூத்திரம் பின்வருமாறு அமைகிறது. இதில் y=1 எனவும் y=0
எனவும் வைத்து சரிபார்த்துக் கொள்ளவும்.

 
When y = 1,

= y . log(h(x)) + (1-y).log(1-h(x))

= 1.log(h(x)) + (1-1).log(1-h(x))

= log(h(x)) + 0

= log(h(x))

When y = 0,

= y . log(h(x)) + (1-y).log(1-h(x))

= 0.log(h(x)) + (1-0).log(1-h(x))

= 0 + 1.log(1-h(x))

= log(1-h(x))

இதற்கான contour plots ஒரே ஒரு கிண்ண வடிவ அமைப்பில் அமையாமல், சிறு சிறு
வளைவுகளைப் பெற்று பல்வேறு ஏற்ற இறக்கங்களைக் கொண்டிருக்கும். இதுவே
non-convex function எனப்படும். அதாவது regression-க்கான வரைபடத்தில் ஒரே
ஒரு global optimum மட்டும் காணப்படும். ஆனால் classification-க்கான
வரைபடத்தில் பல்வேறு local optimum காணப்படும். ஏனெனில் இங்கு 'இருக்கு',
'இல்லை' எனும் இரண்டு மதிப்புகள் மட்டும் மாறி மாறி கணிக்கப்படுவதால்,
பல்வேறு local optimums இருக்கின்றன. இது போன்ற non-convex function-லும்
நாம் gradient descent-ஐப் பயன்படுத்தலாம்.

இதற்கான gradient descent-ன் சமன்பாடும் multiple linear-ஐ ஒத்தே
இருக்கும். ஒரே ஒரு வித்தியாசம் என்னவெனில், h(x) -க்கான
தீட்டா-transpose.x என்பது இங்கு sigmoid function-ஐக் கொண்டிருக்கும்.

Classification accuracy

நாளை உண்மையிலேயே மழை பெய்ய வாய்ப்பு இருக்கும்போது 'இல்லை' எனக்
கணிப்பதும், இல்லாதபோது 'இருக்கு' எனக் கணிப்பதும் classification-ல்
நடைபெறும் தவறு ஆகும். எனவே எவ்வளவு தரவுகளுக்கு சரியான கணிப்புகள்
நிகழ்ந்துள்ளது எனக் கண்டறிவதே accuracy ஆகும்.

ஒரு பத்து நாளைக்கான வானிலை கணிப்புகள் கீழ்க்கண்ட உதாரணத்தில்
காணப்படுவதுபோல் இருக்கிறது என வைத்துக் கொள்வோம். அதாவது y_true -ல்
உண்மையிலேயே மழை பெய்ததா, இல்லையா எனும் விவரம் 1 மற்றும் 0 ஆக உள்ளது.
அதற்கான கணிப்புகள் y_pred -ல் உள்ளது. இவற்றை ஒப்பிட்டுப் பார்க்கும்போது
இரண்டாவது, ஆறாவது மற்றும் ஏழாவது கணிப்புகள் மட்டும் மாறி
நடைபெற்றிருப்பதை கவனிக்கவும். எனவே மொத்த 10 தரவுகளில், 3 மட்டும் தவறாக
அமைந்திருப்பதால், இதன் accuracy 70% என வந்துள்ளது.

https://gist.github.com/nithyadurai87/7668ce262ed9070d89b158bb7f13c5cb         
 

    from sklearn.metrics import precision_recall_fscore_support

    from sklearn.metrics import accuracy_score

    from sklearn.metrics import confusion_matrix

    import matplotlib.pyplot as plt

     
    y_true = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1]

    y_pred = [0, 1, 0, 0, 0, 0, 0, 1, 1, 1]

     
    print ('Accuracy:', accuracy_score(y_true, y_pred))

    print (confusion_matrix(y_true, y_pred))

    print (precision_recall_fscore_support(y_true, y_pred))

     
    plt.matshow(confusion_matrix(y_true, y_pred))

    plt.title('Confusion matrix')

    plt.colorbar()

    plt.ylabel('True label')

    plt.xlabel('Predicted label')

    plt.show()

     
Accuracy: 0.7
[[4 1]
[2 3]]
(array([0.66666667, 0.75]), array([0.8,0.6]), array([0.72727273,
0.666666
67]), array([5,5], dtype=int64))

Confusion Matrix

இது பின்வரும் விதிகளின் படி உருவாக்கப்படுகிறது.

0 எனும் மதிப்பு 1 என கணிக்கப்பட்டால் = False Positive

1 எனும் மதிப்பு 0 என கணிக்கப்பட்டால் = False Negative

1 எனும் மதிப்பின் கணிப்பும் 1 என அமைந்தால் = True Positive

0 எனும் மதிப்பின் கணிப்பும் 0 என அமைந்தால் = True Negative

 
Precision, Recall & F1 score

Precision (P) என்பது எத்தனை சதவீதம் தவறாக 'ஆம்' எனக் கணித்துள்ளது
என்பதையும்,

Recall (R) என்பது எத்தனை சதவீதம் தவறாக 'இல்லை' எனக் கணித்துள்ளது
என்பதையும் கணக்கிடுகிறது. தவறாக கணிக்கப்பட்ட இவ்விரண்டு மதிப்புகளையும்
சேர்த்து ஒரே மதிப்பாக மாற்றுவதே F score ஆகும். இதற்கான சூத்திரம்
பின்வருமாறு.

P = True Positive / (True Positive+ False Positive)

R = True Positive / (True Positive+ False Negative)

F score = 2 (PR / P+R)

இவைகளைக் கண்டு பிடிப்பதற்கான முக்கியத்துவம் என்ன என்று இப்போது
பார்க்கலாம். உதாரணத்துக்கு ஒருவருக்கு உடம்பில் ஏற்பட்டுள்ள கட்டியின்
அளவைப் பொருத்து, அது புற்று நோய்க்கான கட்டியா இல்லையா என முடிவு செய்யும்
சோதனையை எடுத்துக் கொள்வோம். இதற்கான மாதிரித் தரவுகளில் நூற்றில்
ஒருவருக்கு மட்டுமே 'ஆம்' எனும் முடிவு காணப்படும். பெரும்பான்மையான
தரவுகளில் 'இல்லை' எனும் முடிவே நிறைந்திருக்கும். இது போன்று ஒரே
முடிவினைச் சார்ந்த அதிக அளவு மாதிரித் தரவுகளைக் கொண்டவையே "skewed
classes” என்றழைக்கப்படுகின்றன. இவற்றை வைத்து பிற்காலத்தில் உண்மையான
கட்டியின் அளவைக் கணிக்கும்போது, 'ஆம்' என்பதற்கு பதிலாக 'இல்லை' என்பதையே
பெரும்பான்மையாக வெளிப்படுத்தும். இவற்றைக் கண்டறிவதற்கு உதவுவதே precision
மற்றும் recall ஆகும்.

Trading-off between Precision & Recall

ஒருவருடைய கட்டியின் அளவு 5mm -க்கு மேல் இருந்தால் அது புற்று நோய்க்கான
கட்டி என threshold அமைக்கப்பட்டுள்ளதாக வைத்துக் கொள்வோம். இப்போது இந்த
அளவுக்கு மேல் ஆனால் சாதாரண கட்டி இருக்கும் ஒருவரிடம் சென்று 'இது புற்று
நோய்க்கான கட்டி' எனத் தவறாகக் கூறி விட்டால், அவர் தேவையில்லாமல் பல
வலிமிகு சிகிச்சைகளை மேற்கொள்ள வேண்டியிருக்கும் (false positive – high
precision).

எனவே நமக்கு உறுதியாகத் தெரிந்தால் மட்டுமே 'ஆம்' எனக் கூற வேண்டும்
என்பதற்காக threshold-ஐ 7mm -க்கு மேல் அதிகப்படுத்துவோம். இப்போது 6mm
அளவில் புற்று நோய் கட்டி இருக்கும் ஒருவரிடம் சென்று உங்களுக்கு ஒன்றும்
'இல்லை' எனக் கூறும் அபாயம் நேரும் (false negative – high recall). இதனால்
அவரும் அலட்சியமாக இருந்து விடுவார்.

ஆகவே precision -ஐக் குறைக்க விரும்பினால், recall அதிகரிக்கும்.
Recall-ஐக் குறைக்க விரும்பினால் precision அதிகரிக்கும். இதுவே
trading-off between precision & recall எனப்படுகிறது.

Multi-class classification

0 மற்றும் 1 என இரு பிரிவுகள் மட்டும் இல்லாமல், பல்வேறு பிரிவுகள்
இருப்பின், புதிதாக வரும் ஒன்றினை எந்த பிரிவின் கீழ் அமைக்க வேண்டும் என
கணிப்பதே multi-class classification ஆகும். இதில் எத்தனை பிரிவுகள்
இருக்கிறதோ, அத்தனை logistic கணிப்புகள் நடைபெறும். பின்னர் புதிதாக
வருகின்ற ஒன்று, அனைத்தினாலும் கணிக்கப்பட்டு , எதில் அதிகமாகப்
பொருந்துகிறதோ, அந்தப் பிரிவைச் சென்றடையும்.

கீழ்க்கண்ட உதாரணத்தில் சிகப்பு, ஊதா, பச்சை, மஞ்சள் எனும் நான்கு
பிரிவுகளில் வளையங்கள் உள்ளன.

 
முதலில் சிகப்பினைக் கணிப்பதற்கான hypothesis உருவாக்கப்படும். இதில் h(x)
= 1 என்பது சிகப்பினைக் குறிக்கும். சிகப்பு அல்லாத அனைத்தும் 0 -ஆல்
குறிக்கப்படும்.

அடுத்து ஊதாவைக் கணிப்பதற்கான hypothesis உருவாக்கப்படும். இதில் h(x) = 1
என்பது ஊதாவைக் குறிக்கும். ஊதா அல்லாத அனைத்தும் 0 -ஆல் குறிக்கப்படும்.

இவ்வாறாக அடுத்தடுத்த நிறங்களுக்கு hypothesis உருவாக்கப்படும்.

 
பின்னர், புதிதாக ஒரு வளையம் வருகிறதெனில் அது சிகப்பாக கணிக்கப்படுவதற்கான
சாத்தியம் 30%, ஊதாவாக கணிக்கப்படுவதற்கான சாத்தியம் 40%, பச்சையாக
கணிக்கப்படுவதற்கான சாத்தியம் 60% மஞ்சளாக கணிக்கப்படுவதற்கான சாத்தியம்
50% என வருகிறததேனில் தெ , எதன் சாத்தியம் அதிகமாக இருக்கிறதோ, அந்தப்
பிரிவின் கீழ் அமையும். இதுவே multi-class classification ஆகும்.

Decision tree, gaussian NB, KNN, SVC ஆகியவை இதுபோன்ற multi class -க்கு
துணைபுரியும் algorithmns ஆகும். ஒரு மலர் மல்லியா, ரோஜாவா, தாமரையா என்று
 தீர்மானிப்பதற்கான  multi-class classification பின்வருமாறு. இவை பல்வேறு
algorithmsமூலம் நிகழ்த்தப்படுகின்றன. இவைகளில் அதிகமான score  மற்றும்
precision&recall கொண்டதை நாம் தேர்வு செய்யலாம்..
                                                                                                                              

https://gist.github.com/nithyadurai87/aaded978eb7e545006ed6117c97b86b3 

 
    from sklearn.metrics import confusion_matrix 

    from sklearn.metrics import precision_recall_fscore_support

    import pandas as pd

    from sklearn.model_selection import train_test_split 

    from sklearn.tree import DecisionTreeClassifier 

    from sklearn.svm import SVC 

    from sklearn.neighbors import KNeighborsClassifier 

    from sklearn.naive_bayes import GaussianNB 

      
    df = pd.read_csv('./flowers.csv')

    X = df[list(df.columns)[:-1]]

    y = df['Flower']

    X_train, X_test, y_train, y_test = train_test_split(X, y, random_state = 0)  

     
    tree = DecisionTreeClassifier(max_depth = 2).fit(X_train, y_train) 

    tree_predictions = tree.predict(X_test)   

    print (tree.score(X_test, y_test))

    print (confusion_matrix(y_test, tree_predictions))

    print (precision_recall_fscore_support(y_test, tree_predictions))

     
    svc = SVC(kernel = 'linear', C = 1).fit(X_train, y_train) 

    svc_predictions = svc.predict(X_test)  

    print (svc.score(X_test, y_test))

    print (confusion_matrix(y_test, svc_predictions))

    print (precision_recall_fscore_support(y_test, svc_predictions))

     
    knn = KNeighborsClassifier(n_neighbors = 7).fit(X_train, y_train)  

    knn_predictions = knn.predict(X_test)  

    print (knn.score(X_test, y_test)) 

    print (confusion_matrix(y_test, knn_predictions))

    print (precision_recall_fscore_support(y_test, knn_predictions))

     
    gnb = GaussianNB().fit(X_train, y_train) 

    gnb_predictions = gnb.predict(X_test) 

    print (gnb.score(X_test, y_test))

    print (confusion_matrix(y_test, gnb_predictions))

    print (precision_recall_fscore_support(y_test, gnb_predictions))

வெளியீடு:                                                     

0.8947368421052632
[[15 1 0]
[ 3 6 0]
[ 0 0 13]]
(array([0.83333333, 0.85714286, 1. ]), array([0.9375, 0.66666667, 1. ]),
array([0.88235294, 0.75, 1. ]), array([16, 9, 13], dtype=int64))

0.9736842105263158
[[15 1 0]
[ 0 9 0]
[ 0 0 13]]
(array([1. , 0.9, 1. ]), array([0.9375, 1. , 1. ]), array([0.96774194,
0.94736842, 1. ]), array([16, 9, 13], dtype=int64))

0.9736842105263158
[[15 1 0]
[ 0 9 0]
[ 0 0 13]]
(array([1. , 0.9, 1. ]), array([0.9375, 1. , 1. ]), array([0.96774194,
0.94736842, 1. ]), array([16, 9, 13], dtype=int64))

1.0
[[16 0 0]
[ 0 9 0]
[ 0 0 13]]
(array([1., 1., 1.]), array([1., 1., 1.]), array([1., 1., 1.]),
array([16, 9, 13], dtype=int64))

 
அடுத்ததாக வாடிக்கையாளர் புகாரில் உள்ள வார்த்தைகளைக் கொண்டு, அந்தப்
புகார் எந்த வகையின் கீழ் அமையும் என கணிக்கும் MultinomialNB algorithm
பின்வருமாறு.

https://gist.github.com/nithyadurai87/3ce9dab55025fe1fd41b4da48d3fcbd8 

 
    import pandas as pd

    from io import StringIO

    import matplotlib.pyplot as plt

    from sklearn.feature_extraction.text import TfidfVectorizer

    from sklearn.feature_selection import chi2

    import numpy as np

    from sklearn.model_selection import train_test_split

    from sklearn.feature_extraction.text import CountVectorizer

    from sklearn.feature_extraction.text import TfidfTransformer

    from sklearn.naive_bayes import MultinomialNB

     
    df = pd.read_csv('./Consumer_Complaints.csv', sep=',', error_bad_lines=False, index_col=False, dtype='unicode')

    df = df[pd.notnull(df['Issue'])]

     
    fig = plt.figure(figsize=(8,6))

    df.groupby('Product').Issue.count().plot.bar(ylim=0)

    plt.show()

     
    X_train, X_test, y_train, y_test = train_test_split(df['Issue'], df['Product'], random_state = 0)

    c = CountVectorizer()

    clf = MultinomialNB().fit (TfidfTransformer().fit_transform(c.fit_transform(X_train)), y_train)

     
    print(clf.predict(c.transform(["This company refuses to provide me verification and validation of debt per my right under the FDCPA. I do not believe this debt is mine."])))

     
    tfidf = TfidfVectorizer(sublinear_tf=True, min_df=5, norm='l2', encoding='latin-1', ngram_range=(1, 2), stop_words='english')

    features = tfidf.fit_transform(df.Issue).toarray()

    print (features)

    df['category_id'] = df['Product'].factorize()[0]

    pro_cat = df[['Product', 'category_id']].drop_duplicates().sort_values('category_id')

    print (pro_cat)

    for i, j in sorted(dict(pro_cat.values).items()):

     indices = np.argsort(chi2(features, df.category_id == j)[0])

     print (indices)

     feature_names = np.array(tfidf.get_feature_names())[indices]

     unigrams = [i for i in feature_names if len(i.split(' ')) == 1]

     bigrams = [i for i in feature_names if len(i.split(' ')) == 2]

     print(">",i)

     print("unigrams:",','.join(unigrams[:5]))

        print("bigrams:",','.join(bigrams[:5]))

                                                                                                     
இதற்கு முதலில் ஒவ்வொரு product -ன் கீழும் எத்தனை புகார்கள் பயிற்சிக்குக்
கொடுக்கப்பட்டுள்ளன என ஒரு வரைபடம் மூலம் வரைந்து பார்க்கப்படுகிறது.

[]

 
பின்னர் அவை 70-30 எனும் விகிதத்தின் படி பயிற்சி கொடுக்கப்பட்டு
சோதிக்கப்படுகிறது.

இதில் TfidfVectorizer மூலம் புகாரில் உள்ள தனித்தனி வார்த்தைகள் அனைத்தும்
features -ஆக சேமிக்கப்படுகின்றன. பின்னர் chi2 மூலம் ஒவ்வொரு தனித்தனி
category -யோடும் தொடர்பு கொண்டுள்ள வார்த்தைகளின் பட்டியல்
சேமிக்கப்படுகிறது. பின்னர் அவை தனித்தனி வார்த்தையாக அமைந்தால் எந்த
category -ன் கீழ் அமையும், இரண்டிரண்டாக அமைந்தால் எந்த category -ன் கீழ்
அமையும் என்பது unigrams, bigrams எனும் பெயரில் சேமிக்கப்படுகின்றன..

Vectors

classification problem என்பது 'ஆம்' அல்லது 'இல்லை' எனும் மதிப்பின் கீழ்
கணிப்பினை நிகழ்த்தும் என ஏற்கனவே கண்டோம். இவை முறையே 1 அல்லது 0-ஆல்
குறிக்கப்படும். நாம் சிலசமயம் வாக்கியங்களையோ, நிழற்படங்களையோ,
ஓவியங்களையோ உள்ளீடாகக் கொடுத்து பயிற்சி அளிக்க வேண்டியிருக்கும்.
இதுபோன்ற இடங்களில் இவற்றையெல்லாம் 1's & 0's -ஆக மாற்றுவதற்கு sklearn
வழங்குகின்ற பல்வேறு வகையான வெக்டர்கள் பற்றியும் அவற்றின் பயன்பாடுகள்
பற்றியும் பின்வருமாறு காணலாம்.

பல்வேறு வாக்கியங்களைப் பெற்றிருக்கும் ஒரு தொகுப்பு corpus எனப்படுகிறது.
இந்த corpus-ல் உள்ள அனைத்தையும் 0's & 1's ஆக மாற்றுவதற்கு
dictvectorizer() , countvectorizer() ஆகியவை பயன்படுகின்றன.

கீழ்க்கண்ட உதாரணத்தில் corpus1 மற்றும் corpus2 எனும் இரண்டு corpus
கொடுக்கப்பட்டுள்ளன. முதலில் உள்ளது dictvectorizer() -க்கு உதாரணமாகவும்,
இரண்டாவதாக உள்ளது countvectorizer() -க்கு உதாரணமாகவும் அமைந்துள்ளது.
அடுத்ததாக vector எனும் variable-ல், corpus2-ல் உள்ள வாக்கியங்களுக்கான
encode செய்யப்பட்ட வெக்டர்கள் அமைந்துள்ளன. இவற்றை வைத்து நாம் இரண்டு
வெக்டர்களுக்கிடையேயான euclidean distance-ஐ எவ்வாறு கண்டுபிடிப்பது என்று
பார்க்கலாம்.

https://gist.github.com/nithyadurai87/f3fff58ab7272279ef069689fc391dec   

     
    from sklearn.feature_extraction import DictVectorizer

    from sklearn.feature_extraction.text import CountVectorizer

    from sklearn.feature_extraction.text import TfidfVectorizer

    from sklearn.feature_extraction.text import HashingVectorizer

    from sklearn.metrics.pairwise import euclidean_distances

     
    corpus1 = [{'Gender': 'Male'},{'Gender': 'Female'},{'Gender': 'Transgender'},{'Gender': 'Male'},{'Gender': 'Female'}]

    corpus2 = ['Bird is a Peacock Bird','Peacock dances very well','It eats variety of seeds','Cumin seed was eaten by it once']

    vectors = [[2, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0],[0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1],

     [0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0],[0, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0]]

     
    # one-hot encoding

    v1 = DictVectorizer()

    print (v1.fit_transform(corpus1).toarray())

    print (v1.vocabulary_)

     
    # bag-of-words (term frequencies, binary frequencies)

    v2 = CountVectorizer()

    print (v2.fit_transform(corpus2).todense())

    print (v2.vocabulary_)

     
    print (TfidfVectorizer().fit_transform(corpus2).todense())

     
    print (HashingVectorizer(n_features=6).transform(corpus2).todense())

     
    print (euclidean_distances([vectors[0]],[vectors[1]]))

    print (euclidean_distances([vectors[0]],[vectors[2]]))

    print (euclidean_distances([vectors[0]],[vectors[3]]))

     
1. dictvectorizer() -ஒரு categorical variable-ஐ 1's & 0's -ஆக மாற்ற
உதவும். இங்கு 'Gender' எனும் categorical variable-ன் மதிப்பாக 'Male',
'Female', ‘Transgender' ஆகியவை அமைந்துள்ளன. முதலில் இத்தகைய unique
மதிப்புகளை வைத்து ஒரு dictionary-ஐ உருவாக்கும். பின்னர் இந்த 3 தனித்தனி
வார்த்தைகளும், அவற்றைப் பெற்று விளங்கும் 5 வரிகளும் 5*3 dimension கொண்ட
ஒரு matrix-ஆக உருவாக்கப்படும். அதாவது ஒவ்வொரு வரியும் அந்த matrix-ன் ஒரு
row ஆகவும், அந்த வரியில் dictionary-ல் உள்ள வார்த்தை இடம்பெற்றிருப்பின்
1 எனவும், இல்லையெனில் 0 எனவும் போட்டு வைத்துக்கொள்ளும். இவ்வாறே ஒரு
வெக்டர் உருவாக்கப்படுகிறது. இதுவே one-hot encoding எனப்படுகிறது.

    print (v1.fit_transform(corpus1).toarray())

    [[0. 1. 0.]

     [1. 0. 0.]

     [0. 0. 1.]

     [0. 1. 0.]

     [1. 0. 0.]]

fit_transform() என்பது நமது corpus-ஐ உள்ளீடாக எடுத்துக்கொண்டு
வெக்டருக்குக் கற்றுக்கொடுக்கும். to_dense() என்பது வார்த்தைகளின்
அடர்த்திக்கான வெக்டரை உருவாக்கும். _vocabulary என்பது நமது வெக்டர்
உருவாக்கத்திற்கு உதவிய dictionary-ஐக் கொண்டிருக்கும்.

    print (v1.vocabulary_)

    {'Gender=Male': 1, 'Gender=Female': 0, 'Gender=Transgender': 2}

2. countvectorizer() - கொடுக்கப்பட்ட வாக்கியங்கள் அனைத்தையும் 1's & 0's
-ஆக மாற்றும். நமது உதாரணத்தில் 4 வரிகளும், 17 தனித்துவ வார்த்தைகளும்
உள்ளன. எனவே 4*17 dimension கொண்ட matrix உருவாக்கப்பட்டுள்ளது. ன் ஒவ்வொரு
வரியிலும் எந்தெந்த வார்த்தை இடம்பெற்றுள்ளதோ அது 1 எனவும், இடம்பெறாத
வார்த்தை 0 எனவும் அமைந்திருப்பதைக் காணலாம். இதுவே bag of words
எனப்படுகிறது.

வார்த்தைகள் அமைந்திருக்கும் அதே வரிசையில்தான் encode செய்யப்பட்டவை இடம்
பெற்றிருக்கும் எனக் கூற முடியாது. வார்த்தைகளில் உள்ள எல்லா
எழுத்துக்களையும், சிறிய எழுத்துக்களாக மாற்றிவிட்டு அதனை tokens-ஆக
மாற்றும். Tokenization என்பது இரண்டுக்கும் மேற்பட்ட எழுத்துக்களைப்
பெற்றிருக்கும் வார்த்தைகளை இடைவெளி வைத்துப் பிரித்து tokens-ஆக மாற்றுவதே
ஆகும். Tokens என்பது கோப்பினுள் இடம் பெற்றுள்ள வார்த்தைகள் ஆகும்.

Bird is a Peacock Bird','Peacock dances very well','It eats variety of
seeds','Cumin seed was eaten by it once'

    print (v2.fit_transform(corpus2).todense())

    [[2 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0]

     [0 0 0 1 0 0 0 0 0 0 1 0 0 0 1 0 1]

     [0 0 0 0 0 1 0 1 1 0 0 0 1 1 0 0 0]

     [0 1 1 0 1 0 0 1 0 1 0 1 0 0 0 1 0]]

இதனை binary frequency மற்றும் term frequency என்னும் இரண்டு விதங்களில்
குறிப்பிடலாம். binary என்பது வெறும் 1's & 0's -ஐ மட்டும்
வெளிப்படுத்தும். term என்பது ஒவ்வொரு வார்த்தையும் எத்தனை முறை
இடம்பெற்றுள்ளது என்பதை வெளிப்படுத்தும். இங்கு Bird என்பது முதல்
வாக்கியத்தில் இரண்டு முறை உள்ளதால் அந்த இடத்தில் 2 என
வெளிப்படுத்தப்பட்டுள்ளதைக் காணவும்.

இதற்கான  vocabulary-ல் அந்த வரியிலிருந்தும் எடுக்கப்பட்ட  17 தனித்துவ
வார்த்தைகள் அமைந்திருப்பதைக் காணவும் (0 முதல் 16 வரை). இங்கு Bird,
Peacock, it ஆகிய வார்த்தைகள் இரண்டு முறை இடம்பெற்றுள்ளது. ஆனால் ஒரே ஒரு
முறை மட்டும் தான் இங்கு சேமிக்கப்பட்டுள்ளது. அவ்வாறே case-sensitive
இல்லாமல் it, It ஆகிய இரண்டும் ஒன்றாக எடுத்துக்கொள்ளப்பட்டுள்ளது. மேலும்
a என்பது ஒரு தனி வார்த்தையாக எடுத்துக்கொள்ளப்படவில்லை.

    print (v2.vocabulary_)

    {'bird': 0, 'is': 6, 'peacock': 10, 'dances': 3, 'very': 14, 'well': 16, 'it': 7

    , 'eats': 5, 'variety': 13, 'of': 8, 'seeds': 12, 'cumin': 2, 'seed': 11, 'was':

     15, 'eaten': 4, 'by': 1, 'once': 9}

3. TfidfVectorizer()  - Term frequency மூலம் உருவாக்கப்படும் வெக்டரை
normalize செய்து அந்த frequency -க்கான weight-ஐ வெளிப்படுத்தும். வெறும்
raw count-ஆக 2 என வெளிப்படுத்தாமல், அதனை normalize செய்து
வெளிப்படுத்துவதே L2 Normalization (level2) எனப்படும்.

 
    print (TfidfVectorizer().fit_transform(corpus2).todense())

    [[0.84352956 0.         0.         0.         0.         0.

      0.42176478 0.         0.         0.         0.3325242  0.

      0.         0.         0.         0.         0.        ]

     [0.         0.         0.         0.52547275 0.         0.

      0.         0.         0.         0.         0.41428875 0.

      0.         0.         0.52547275 0.         0.52547275]

     [0.         0.         0.         0.         0.         0.46516193

      0.         0.36673901 0.46516193 0.         0.         0.

      0.46516193 0.46516193 0.         0.         0.        ]

     [0.         0.38861429 0.38861429 0.         0.38861429 0.

      0.         0.30638797 0.         0.38861429 0.         0.38861429

      0.         0.         0.         0.38861429 0.        ]]  

4. HashingVectorizer() - அகராதியின் துணை இல்லாமலேயே நேரடியாக வெக்டரை
உருவாக்கும்.. மேற்கண்ட dict & count ஆகிய இரண்டும் 2 படிகளில் வேலை
செய்யும். முதலில் வெக்டர் உருவாக்கத்திற்குத் தேவையான  dictionary-யை
உருவாக்கும். அடுத்தபடியாகத்தான் வெக்டரை உருவாக்கும். இதில் முதல் படியைத்
தவிர்த்து நேரடியாக வெக்டரை உருவாக்குவதைத்தான்  Hashing Trick என்போம்.
ஏனெனில் dictionary-ன் அளவு பெருகப் பெருக அந்தளவுக்குப் பெரிய அகராதியை
சேமிக்கத் தேவையான  memory-ன் அளவும் அதிகரிக்கும். இதைத் தவிர்ப்பதற்காக
வந்ததே இவ்வகையான வெக்டர் ஆகும்.

 
    print (HashingVectorizer(n_features=6).transform(corpus2).todense())

    [[ 0.         -0.70710678 -0.70710678  0.          0.          0.        ]

     [ 0.          0.         -0.81649658 -0.40824829  0.40824829  0.        ]

     [ 0.75592895  0.         -0.37796447  0.         -0.37796447 -0.37796447]

     [ 0.25819889  0.77459667  0.         -0.51639778  0.          0.25819889]]

5. euclidean_distances - encode செய்யப்பட்ட இரண்டு
வாக்கியங்களுக்கிடையேயான வேறுபாடு எந்த அளவுக்கு உள்ளது என்பதைக் கணக்கிட
உதவும். மேற்கண்ட உதாரணத்தில் முதல் இரண்டு வாக்கியங்களுக்கு இடையேயான
வேறுபாடு சற்று குறைவாகவும், முதலுக்கும் 3-வது வாக்கியத்துக்குமான
வேறுபாடு சற்று அதிகமாகவும், முதலுக்கும் 4-வது வாக்கியத்துக்குமான
வேறுபாடு இன்னும் சற்று அதிகமாகவும் இருப்பதைக் காணலாம்.

    print (euclidean_distances([vectors[0]],[vectors[1]]))

    [[2.82842712]]

     
    print (euclidean_distances([vectors[0]],[vectors[2]]))

    [[3.31662479]]

     
    print (euclidean_distances([vectors[0]],[vectors[3]]))

    [[3.60555128]]

Natural Language Toolkit

இதுவரை நாம் கண்ட வெக்டர் உருவாக்கம் அனைத்திலும் ஏதேனும் ஓரிரண்டு
வார்த்தைகள் மட்டுமே இடம்பெற்றிருந்தாலும் கூட, இடம் பெறாத
வார்த்தைகளுக்கான 0's ஐ அது கொண்டிருக்கும். இதனால் அந்த வெக்டருடைய அளவு
அதிகரிக்கிறது. இதுபோன்ற அதிக அளவிலான 0's -ஐப் பெற்று விளங்கும்
வெக்டர்தான் sparse vector என்று அழைக்கப்படுகிறது. உதாரணத்துக்கு ஒரு
கோப்பினுள் அரசியல், சினிமா, விளையாட்டு போன்ற பல்வேறு துறைகளுக்கான
வாக்கியங்கள் உள்ளதெனில், அவற்றையெல்லாம் ஒரு வெக்டராக மாற்றும் போது
அரசியலுக்கான வரியில் சினிமாவுக்கான வார்த்தை இடம்பெற்றிருக்காது, அதேபோல்
சினிமாவுக்கான வரியில் விளையாட்டுக்கான வார்த்தை இடம்பெற்றிருக்காது.
இதேபோல் பார்த்தால் ஒவ்வொரு வரியிலும் தேவையில்லாத பல 0’s
நிறைந்திருக்கும். இதனால் 2 முக்கியப் பிரச்சனைகள் எழுகின்றன.

முதலாவதாக அதிக அளவு memory & space வீணாகிறது. Numpy என்பது 0’s
அல்லாதவற்றை மட்டும் குறிப்பிடுவதற்காக ஒருசில சிறப்பு வகை தரவு வகைகளை
வழங்குகின்றன. அடுத்ததாக dimensionality-ன் அளவு அதிகரிக்க அதிகரிக்க அந்த
அளவுக்குப் பயிற்சி அளிக்கத் தேவையான தரவுகளின் எண்ணிக்கையும்
அதிகரிக்கிறது. இல்லையெனில் overfit ஆவதற்கான அபாயம் உள்ளது. இதுவே 'curse
of dimensionality' அல்லது 'Hughes effect' என்றழைக்கப்படுகிறது. இதை
எவ்வாறு குறைப்பது எனப் பேசுவதே dimensionality reduction ஆகும்.

நமது வெக்டர் உருவாக்கத்தின்போது stop_words='english' எனக் கொடுத்தோமானால்
is,was,are போன்ற ஆங்கிலத்தில் வருகின்ற துணைச் சொற்களை எல்லாம் தவிர்த்து
மீதமுள்ள சொற்களுக்கு மட்டும் dictionary உருவாக்கப்படும். இதனால் அதன்
dimensionality குறைகிறது.

அவ்வாறே NLTK எனும் கருவி ஒன்று உள்ளது. அதிலுள்ள stemmer, lemmatizer
ஆகியவற்றைப் பயன்படுத்துவதன் மூலம் வெக்டரின் dimensionality இன்னும்
குறைக்கப்படுவதைக் காணலாம்.

https://gist.github.com/nithyadurai87/491e5e6f9c009ebd88912e71ef9363a4 

 
    """

    import nltk

    nltk.download()

    """

                             
    from sklearn.feature_extraction.text import CountVectorizer

    from nltk import word_tokenize

    from nltk.stem import PorterStemmer

    from nltk.stem.wordnet import WordNetLemmatizer

    from nltk import pos_tag

     
    def lemmatize(token, tag):

     if tag[0].lower() in ['n', 'v']:

      return WordNetLemmatizer().lemmatize(token, tag[0].lower())

     return token

      
    corpus = ['Bird is a Peacock Bird','Peacock dances very well','It eats variety of seeds','Cumin seed was eaten by it once']

     
    print (CountVectorizer().fit_transform(corpus).todense())

    print (CountVectorizer(stop_words='english').fit_transform(corpus).todense())

     
    print (PorterStemmer().stem('seeds'))

     
    print (WordNetLemmatizer().lemmatize('gathering', 'v'))

    print (WordNetLemmatizer().lemmatize('gathering', 'n'))

     
    s_lines=[]

    for document in corpus:

     s_words=[]

     for token in word_tokenize(document):

      s_words.append(PorterStemmer().stem(token))

     s_lines.append(s_words)

    print ('Stemmed:',s_lines)

     
    tagged_corpus=[]

    for document in corpus:

     tagged_corpus.append(pos_tag(word_tokenize(document)))

     
    l_lines=[]

    for document in tagged_corpus:

     l_words=[]

     for token, tag in document:

      l_words.append(lemmatize(token, tag))

     l_lines.append(l_words)

    print ('Lemmatized:',l_lines)

     
இதனை பின்வருமாறு பதிவிறக்கம் செய்து பயன்படுத்தலாம்.

     
    import nltk

    nltk.download()                                                             

                                                  
'Bird is a Peacock Bird','Peacock dances very well','It eats variety of
seeds',

'Cumin seed was eaten by it once'

1. மேற்கண்ட வாக்கியங்களுக்கான CountVectorizer() என்பது பின்வருமாறு ஒரு
வெக்டரை உருவாக்கும் (4*17). 

     
    print (CountVectorizer().fit_transform(corpus).todense())

     
    [[2 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0]

     [0 0 0 1 0 0 0 0 0 0 1 0 0 0 1 0 1]

     [0 0 0 0 0 1 0 1 1 0 0 0 1 1 0 0 0]                                                                                     

     [0 1 1 0 1 0 0 1 0 1 0 1 0 0 0 1 0]]

     
மேற்கண்ட அதே வாக்கியங்களுக்கு stop_words='english' எனக் கொடுத்து வெக்டர்
உருவாக்கும்போது,
is, very, well, it, of, was, by, once ஆகிய வார்த்தைகள் நீக்கப்படுவதால்
dimensionality
குறைந்து இருப்பதைக் காணலாம் (4*9).

     
    print (CountVectorizer(stop_words='english').fit_transform(corpus).todense())

    [[2 0 0 0 0 1 0 0 0]

     [0 0 1 0 0 1 0 0 0]

     [0 0 0 0 1 0 0 1 1]

     [0 1 0 1 0 0 1 0 0]]

     
2. stop_words='english' பயன்படுத்தினாலும் கூட, seeds, seed ஆகிய
இரண்டும் இரண்டு தனித்தனி வார்த்தைகளாக சேமிக்கப்படுகின்றன. இதைத்
தவிர்ப்பதற்காக வந்ததே PorterStemmer() ஆகும். இது ஒரு ஆங்கிலச் சொல்லின்
வேர்சொல்லை கண்டறிந்து அதை மட்டும் சேமிக்கும். அதைத் தழுவி வருகின்ற இன்ன
பிற சொற்களையெல்லாம் சேமிக்காது.

     
    print (PorterStemmer().stem('seeds'))

    seed 

 
3. WordNetLemmatizer() என்பது ஒரு ஆங்கிலச் சொல்லை அதன் பொருளறிந்து
பிரித்து சேமிக்கும். அதாவது ஒரே ஒரு சொல் ஓரிடத்தில் பெயர்ச்சொல்லாகவும்
மற்றொரு இடத்தில் வினைசொல்லாகவும் பயன்படுத்தப்பட்டிருப்பின் அவை
இரண்டையும் இரண்டு தனித்தனி சொற்களாகச் சேமிக்கும். உதாரணத்துக்கு  'I am
gathering foods for birds', 'seeds are stored in the gathering place'
என்பதில் gathering, gather என்பது இரண்டு தனித்தனி வார்த்தைகளாக
சேமிக்கப்படும்.

     
    print (WordNetLemmatizer().lemmatize('gathering', 'v'))

    gather

     
    print (WordNetLemmatizer().lemmatize('gathering', 'n'))

    gathering

4. நம்முடைய corpus-ஐ NLTK கொண்டு அணுகும்போது, அது பின்வருமாறு
வெளிப்படுத்தும்.

     
    print ('Stemmed:',s_lines)

    Stemmed: [['bird', 'is', 'a', 'peacock', 'bird'], ['peacock', 'danc', 'veri', 'w

    ell'], ['It', 'eat', 'varieti', 'of', 'seed'], ['cumin', 'seed', 'wa', 'eaten',

    'by', 'it', 'onc']]

     
    print ('Lemmatized:',l_lines)

    Lemmatized: [['Bird', 'be', 'a', 'Peacock', 'Bird'], ['Peacock', 'dance', 'very', 'well'], 

    ['It', 'eat', 'variety', 'of', 'seed'], ['Cumin', 'seed', 'be', 'eat', 'by', 'it', 'once']]

 
Decision Trees & Random Forest

Regression மற்றும் Classification இரண்டிற்கும் உதவக்கூடிய நேர்கோடு
முறையில் பிரிக்க இயலாத non-linear தரவுகளுக்கான model-ஆக decision trees
மற்றும் random forest விளங்குகிறது. Decision trees என்பது பொதுவாக
மாதிரித் தரவுகளில் உள்ள மதிப்புகளைக் கொண்டு அவற்றை சிறுசிறு பகுதிகளாகப்
பிரித்துக் கற்கிறது. கீழ்க்கண்ட எடுத்துக்காட்டில் ஒரு மலர் மல்லியா,
ரோஜாவா, தாமரையா என்று தீர்மானிக்க DecisionTreeClassifier() மற்றும்
RandomForestClassifier() பயன்படுத்தப்பட்டுள்ளன. ஒவ்வொரு மலரின்
இதழ்களுடைய(sepal) நீள அகலமும், அவற்றின் மேற்புற இதழ்களுடைய(petal) நீள
அகலமுமான 4 அம்சங்களே ஒரு மலர் எந்த மலராக இருக்கும் என்பதைத்
தீர்மானிக்கிறது. இந்த அம்சங்களிலுள்ள தரவுகளை பல்வேறு பகுதிகளாகப்
பிரித்துக் கற்கும் வேலையை DecisionTreeClassifier() செய்கிறது.

அவ்வாறு தரவுகளைப் பிரிப்பது என்பது ஒருசில conditions-ஐப் பொறுத்து
நடக்கிறது. எனவேதான் இவை Eager learners என்று அழைக்கப்படுகின்றன. இதற்கு
மாற்றாக KNN என்பது lazy learners ஆகும். Ensemble learning எனும் முறையில்
random forest கற்கிறது. Ensemble என்றால் குழுமம் என்று பொருள். அதாவது
பல்வேறு decision trees-ஐ உருவாக்கி, அவற்றை குழுமமாக வைத்துக் கற்கிறது.
குழுமத்தில் உள்ள ஒவ்வொரு tree-ம் வெவ்வேறு பயிற்சித் தரவுகளை எடுத்துக்
கொண்டு பயிற்சி பெற்றுக் கொள்கிறது. எனவே இதனுடைய accuracy இன்னும் அதிகமாக
இருக்கும். கீழ்க்கண்ட எடுத்துக்காட்டில் இவைகளுக்கான நிரலைக் காணலாம்.
Decision Trees 89% accuracy -ஐயும், Random forest 97% accuracy -ஐயும்
வெளிப்படுத்துவதைக் காணலாம். மேலும் ஒவ்வொன்றும் எவ்வாறு தரவுகளைப்
பிரித்துக் கற்கிறது என்பது வரைபடமாகவும் காட்டப்பட்டுள்ளது.

https://gist.github.com/nithyadurai87/d21ffb25b7f5a38d90a437e9f169d58e  

 
    from sklearn.datasets import load_iris 

    import pandas as pd 

    import os 

    from sklearn.tree import DecisionTreeClassifier,export_graphviz 

    from sklearn.metrics import confusion_matrix,accuracy_score,classification_report 

    from io import StringIO 

    import pydotplus 

    from sklearn.model_selection import train_test_split  

    from sklearn.ensemble import RandomForestClassifier 

    from IPython.display import Image 

    import matplotlib.pyplot as plt 

    import seaborn as sns 

     
    df = pd.read_csv('./flowers.csv') 

    X = df[list(df.columns)[:-1]] 

    y = df['Flower'] 

    X_train, X_test, y_train, y_test = train_test_split(X, y, random_state = 0)   

     
    a = DecisionTreeClassifier(criterion = "entropy", random_state = 100,max_depth=3, min_samples_leaf=5)  # gini  

    a.fit(X_train, y_train)  

    y_pred = a.predict(X_test)  

    print("Confusion Matrix: ", confusion_matrix(y_test, y_pred))  

    print ("Accuracy : ", accuracy_score(y_test,y_pred)*100)  

    print("Report : ", classification_report(y_test, y_pred))  

     
    dot_data = StringIO() 

    export_graphviz(a, out_file=dot_data,filled=True, rounded=True,special_characters=True) 

    graph = pydotplus.graph_from_dot_data(dot_data.getvalue())   

    Image(graph.create_png()) 

    graph.write_png("decisiontree.png") 

     
    b = RandomForestClassifier(max_depth = None, n_estimators=100) 

    b.fit(X_train,y_train) 

    y_pred = b.predict(X_test)  

    print("Confusion Matrix: ", confusion_matrix(y_test, y_pred))  

    print ("Accuracy : ", accuracy_score(y_test,y_pred)*100)  

    print("Report : ", classification_report(y_test, y_pred))  

                  
    export_graphviz(b.estimators_[5], out_file='tree.dot', feature_names = X_train.columns.tolist(), 

     
                    class_names = ['Lotus', 'Jasmin', 'Rose'], 

                    rounded = True, proportion = False, precision = 2, filled = True) 

                     
    os.system ("dot -Tpng tree.dot -o randomforest.png -Gdpi=600") 

    Image(filename = 'randomforest.png') 

    f = pd.Series(b.feature_importances_,index=X_train.columns.tolist()).sort_values(ascending=False) 

    sns.barplot(x=f, y=f.index) 

    plt.xlabel('Feature Importance Score') 

    plt.ylabel('Features') 

    plt.legend() 

    plt.show() 

     
நிரலுக்கான விளக்கம்: 

flowers.csv எனும் கோப்பில் மொத்தம் 150 தரவுகள் பயிற்சிக்கு உள்ளன. அவை
train_test_split() எனும் முறைப்படி 112 தரவுகள் பயிற்சிக்கும், மீதி 38
தரவுகள் பயிற்சி செய்யப்பட்ட model-ஐ சோதிப்பதற்கும்
பயன்படுத்தப்பட்டுள்ளன. கீழ்க்கண்ட decision tree-ன் முதல் node-க்குள்
உள்ள samples=112 என்பது மொத்தம் பயிற்சிக்கு அளிக்கப்பட்டுள்ள தரவுகளைக்
குறிக்கிறது. value = [34,41,37] என்பது 34 தரவுகள் மல்லிகைக்கும் 41
தரவுகள் தாமரைக்கும், 37 தரவுகள் ரோஜாவுக்கும் அமைந்துள்ளன எனும்
விவரத்தைக் கொடுக்கிறது. entropy = 1.581 மாதிரிகளில் உள்ள uncertainty /
disorder / impurity-ஐக் குறிக்கிறது. அதாவது நாம் வகைப்படுத்த வேண்டிய
பல்வேறு பிரிவுகளில் உள்ள தரவுகளும் எந்த அளவு விகிதத்தில் கலந்துள்ளன
என்பதைக் கூறும். இதற்கான கணக்கீடு பின்வரும் முறையில் நிகழும். முதலில்
மொத்த தரவுகளில் ஒவ்வொரு பிரிவைச் சேர்ந்த தரவுகளும் எவ்வளவு எண்ணிக்கையில்
உள்ளன எனும் பின்னம் கணக்கிடப்படும். பின்னர் அம்மதிப்புக்கு log base 2
கண்டுபிடிக்க வேண்டும். இதற்கான கருவி
https://www.miniwebtool.com/log-base-2-calculator/  எனும் வலைத்தளத்தில்
உள்ளது. இவ்வாறே மல்லி, ரோஜா, தாமரை என்னும் ஒவ்வொரு பிரிவுக்கும்
தனித்தனியாகக் கண்டுபிடிக்க வேண்டும். கடைசியாக இவைகளின் கூட்டுத்தொகையை -
எனும் எதிர்மறை குறியால் பெருக்கினால் கிடைப்பதே entropy ஆகும்.

Entropy = - {Summation of (fraction of each class.log base 2 of that
fraction)}
= -{ (34/112).log2(34/112) + (41/112).log2(41/112) +
(37/112).log2(37/112) }
= -{ (0.3035).log2(0.3035) + (0.3661).log2(0.3661) +
(0.3303).log2(0.3303) }
= -{ (0.3035).(-1.7202) + (0.3661).(-1.4496) + (0.3303).(-1.5981) }
= -{ -0.5220 + -0.5307 + -0.5278 }
= -{ -1.5805}
= 1.581

 
[]

 
கணக்கிடப்பட்ட entropy மதிப்பையே வரைப்படத்தின் முதல் node-ல் காணலாம்.
இம்மதிப்பு 0-க்கு அதிகமாக இருப்பதால், 112 தரவுகளும் ஒரு condition மூலம்
37, 75 எனும் எண்ணிக்கையில் அமையும் இரு பிரிவுகளாகப் பிரிக்கப்படுகின்றன.
அதாவது X2 எனப்படும் Petal_length அம்சத்தின் மதிப்புகளில் 2.35 -க்கு கீழ்
இருந்தால் அத்தகைய தரவுகள் இடப்புற node-லும், அதிகமாக உள்ளவை வலப்புற
node-லும் பிரிக்கப்படுகின்றன. பின்னர் மீண்டும் பிரிக்கப்பட்ட இரு
பிரிவுகளுக்கும் entropy கணக்கிடப்படுகிறது. இடப்புறம் உள்ள node-ல்
entropy 0.0 என வந்துள்ளது. இதுவே decision node எனப்படும். அதாவது 0-ஆக
இருக்கும் பட்சத்தில் அதில் உள்ள தரவுகள் அனைத்தும் ஏதோ ஒரு வகையின் கீழ்
பிரிக்கப்பட்டுவிட்டது என்று அர்த்தம். அதன் value மதிப்பும் [0,0,37]
என்று உள்ளது. அதாவது மல்லிகைக்கும், தாமரைக்குமான தரவுகளின் எண்ணிக்கை 0.
ரோஜாவுக்கான எண்ணிக்கை 37. இதுவே ஒரு பூவை ரோஜா என முடிவு செய்வதற்கான
decision node ஆகும். இதே முறையில் வரைப்படத்திலுள்ள மற்ற nodes
உருவாக்கப்படுகின்றன. மற்ற features-ம் சோதிக்கப்படுகின்றன. வரைப்படத்தின்
கடைசி கிளையில் ஒரு பூவை மல்லி அல்லது தாமரை என முடிவு செய்வதற்கான
decision nodes அமைந்துள்ளன. அதாவது கடைசி கிளையில் இடமிருந்து வலமாக உள்ள
3 nodes-ல், அதன் value மதிப்புகளை கவனிக்கவும். மல்லி என முடிவு
செய்வதற்கான இடத்தில் 34 என மொத்தமாக இல்லாமல், 30, 3, 1 என தனித்தனியாகப்
பிரித்து இத்தகைய decision nodes-ஐ உருவாக்கியுள்ளது. அவ்வாறே வலமிருந்து
இடமாக உள்ள 3 nodes-ல், தாமரை என முடிவு செய்வதற்கான இடத்தில் 41 என
மொத்தமாக இல்லாமல், 30, 8, 3 எனத் தனித்தனியாகப் பிரித்து
உருவாக்கியுள்ளது. எனவேதான் இவைகளின் entropy 0 மற்றும் அதற்கு நெருங்கிய
மதிப்பாக உள்ளது. 

Information Gain: 

ஒரு குறிப்பிட்ட பிரிவில் தரவுகளை வகைப்படுத்துவதற்குத் தேவையான விவரங்களை
எந்த அளவுக்கு ஒரு feature அளிக்கிறது என்பதே Information Gain எனப்படும்.
இதுவும் entropy-ஐப் போன்றே தரவுகளை சரியாக வகைப்படுத்த உதவும் ஒரு metric
ஆகும். entropy என்பது impurity ஆகும். இதை வைத்து, அந்த impurity-ஐக்
குறைப்பதற்கு உதவும் metric தான் gini gain எனப்படும். இதற்கான வாய்ப்பாடு
பின்வருமாறு.

Information Gain = Parent's entropy - child's entropy with weighted
average

child's entropy with weighted average = [(no. of examples in left child
node) / (total no. of examples in parent node) * (entropy of left node)]
+
[(no. of examples in right child node)/ (total no. of examples in parent
node) * (entropy of right node)]

= (37/112)*0.0 + (75/112)*0.994
= 0 + 0.665625
= 0.665

மேற்கண்ட நிரலில் DecisionTreeClassifier()-க்குள் criterion = "entropy"
என்பதற்கு பதிலாக "gini"எனக் கொடுத்து பயிற்சி அளித்தால், அது gini-ஐக்
கணக்கிட்டு பின்வருமாறு கிளைகளை உருவாக்கிக் கற்கிறது.
                                           

[]

 
Random Forest முறையில் கற்கும்  model-ன் வரைபடம் பின்வருமாறு. 

 
Random forest-ல் மாதிரித் தரவுகளில் உள்ள ஒவ்வொரு feature-ம்
வகைப்படுத்தலுக்கு எந்த அளவுக்கு பங்களித்துள்ளது என்பதை பின்வரும்
வரைப்படத்தில் காணலாம்.. 

[]

 
Clustering with K-Means

Unsupervised learning-ல் நாம் கற்க இருக்கும் முதல் algorithm இதுவே.
இதுவரை நாம் கண்ட அனைத்தும் supervised-ன் கீழ் அமையும். logistic
regression, multi-class classification போன்ற அனைத்திலும், உள்ளீடு(X)
மற்றும் வெளியீடு(Y) இரண்டையும் கொடுத்து பயிற்சி அளிப்போம். பல்வேறு
வெளியீட்டு வகைகளின் கீழ் தரவுகளைப் பிரிப்பதற்கு அத்தனை வகையான
எல்லைகளையும் நாமே வரையறை செய்வோம். ஆனால் இந்த unsupervised-ல் வெறும்
உள்ளீடுகள் மட்டுமே கொடுக்கப்படும். எத்தனை வகையில் பிரிக்க வேண்டும்
என்பதோ, அவற்றின் எல்லைகள் என்ன என்பதோ கொடுக்கப்படாது. இது போன்ற
clustering-ல் எல்லைகள் K-means மூலமாக கணக்கிடப்படுகின்றன. எவ்வளவு
வகைகளில் பிரிக்க வேண்டும் என்பதை elbow method-மூலம் கணக்கிடலாம். அதாவது
ஒரு வரையறையைக் கொடுத்து கற்கச் சொல்லுவது supervised என்றால், எவ்வித
வரையறையும் இல்லாமல் கற்கச் சொல்லுவது unsupervised ஆகும்.

கீழ்க்கண்ட உதாரணத்தில் X1, X2 எனும் இரண்டு அம்சங்கள்(features)
கொடுக்கப்பட்டுள்ளன. Y என்று எதுவும் இல்லை. அதாவது வெறும் உள்ளீட்டுக்கான
தரவுகளைக் கொண்டு மட்டுமே நாமாகவே பல்வேறு குழுக்களில் அவற்றை
வகைப்படுத்திக் கொடுக்க வேண்டும்.

x1 = [15, 19, 15, 5, 13, 17, 15, 12, 8, 6, 9, 13]
x2 = [13, 16, 17, 6, 17, 14, 15, 13, 7, 6, 10, 12]

இதற்கான நிரல் மற்றும் விளக்கம் பின்வருமாறு.

https://gist.github.com/nithyadurai87/185e332ebce7028af265adbe86db40d5 

 
    import matplotlib.pyplot as plt

    import math  

        
    def plots(cluster1_x1,cluster1_x2,cluster2_x1,cluster2_x2):

        plt.figure()

        plt.plot(cluster1_x1,cluster1_x2,'.')

        plt.plot(cluster2_x1,cluster2_x2,'*')

        plt.grid(True)

        plt.show()

        
    def round1(c1_x1,c1_x2,c2_x1,c2_x2):

        cluster1_x1 = []

        cluster1_x2 = []

        cluster2_x1 = []

        cluster2_x2 = []

        
        for i,j in zip(x1,x2):

         a = math.sqrt(((i-c1_x1)**2 + (j-c1_x2)**2))

         b = math.sqrt(((i-c2_x1)**2 + (j-c2_x2)**2))

         if a < b:

          cluster1_x1.append(i)

          cluster1_x2.append(j)

         else: 

          cluster2_x1.append(i)

          cluster2_x2.append(j)

       
        plots(cluster1_x1,cluster1_x2,cluster2_x1,cluster2_x2)

      
        c1_x1 = sum(cluster1_x1)/len(cluster1_x1)

        c1_x2 = sum(cluster1_x2)/len(cluster1_x2)

        c2_x1 = sum(cluster2_x1)/len(cluster2_x1)

        c2_x2 = sum(cluster2_x2)/len(cluster2_x2)

      
        round2 (c1_x1,c1_x2,c2_x1,c2_x2)

     
    def round2(c1_x1,c1_x2,c2_x1,c2_x2):    

        cluster1_x1 = []

        cluster1_x2 = []

        cluster2_x1 = []

        cluster2_x2 = []

        
        for i,j in zip(x1,x2):

         c = math.sqrt(((i-c1_x1)**2 + (j-c1_x2)**2))

         d = math.sqrt(((i-c2_x1)**2 + (j-c2_x2)**2))

         if c < d:

          cluster1_x1.append(i)

          cluster1_x2.append(j)

         else: 

          cluster2_x1.append(i)

          cluster2_x2.append(j)

        
        plots(cluster1_x1,cluster1_x2,cluster2_x1,cluster2_x2)

     
    x1 = [15, 19, 15, 5, 13, 17, 15, 12, 8, 6, 9, 13]

    x2 = [13, 16, 17, 6, 17, 14, 15, 13, 7, 6, 10, 12]

     
    plots(x1,x2,[],[])

    round1(x1[4],x2[4],x1[10],x2[10])

முதலில் X1, X2 எனும் இரண்டு அம்சங்களும் எவ்வாறு அமைந்துள்ளன என்பதை
scatter plot மூலம் காணலாம். இன்னும் இரண்டாவது கொத்தில் என்னென்ன
அம்சங்களை அமைக்க வேண்டும் என்பது கண்டறியப்படவில்லை. எனவே அவை காலிப்
பட்டியலாக அனுப்பப்படுகின்றன.

plots(x1,x2,[],[])

[]

 
Centroids (திணிவுக்கான புள்ளி)

இரண்டு clusters-ஐ உருவாக்குவதற்கு முதலில் X1-லிருந்து இரண்டு எண்களையும்,
X2-லிருந்து இரண்டு எண்களையும் random-ஆக தேர்வு செய்ய வேண்டும். முதல்
கொத்துக்கு X1-லிருந்து 13-ஐயும், X2-லிருந்து 17-ஐயும் தேர்வு
செய்துள்ளோம். அவ்வாறே இரண்டாவது கொத்துக்கு X1-லிருந்து 9-ஐயும்,
X2-லிருந்து 10-ஐயும் தேர்வு செய்துள்ளோம். இவையே திணிப்புக்கான புள்ளிகள்
(centroids) என்றழைக்கப்படுகின்றன. அதாவது இவற்றை அடிப்படையாக வைத்தே
அனைத்தையும் நாம் இரண்டு கொத்தாகப் பிரிக்கப் போகிறோம். எனவே இரண்டு
அம்சங்களில் உள்ள ஒவ்வொரு தரவுகளுக்கும், தேர்ந்தெடுக்கப்பட்ட இரண்டு
திணிப்புப் புள்ளிகளுக்குமான தூரம் கீழ்க்கண்ட வாய்ப்பாடு மூலம்
கணக்கிடப்படுகிறது.

தூரம்1 = (x1_data - 13)**2 + (x2_data - 17)**2
தூரம்2 = (x1_data - 9)**2 + (x2_data - 10)**2

[]

 
இந்த இரண்டு கொத்துக்களில் முதல் கொத்தினுடைய தூரம் குறைவாக இருந்தால்
அந்தப் புள்ளிகள் முதல் கொத்திலும், இல்லையெனில் இரண்டாவது கொத்திலும்
அமைக்கின்றன. இவை முறையே மஞ்சள் மற்றும் ஊதா நிறத்தில் மேற்கண்ட படத்தில்
காட்டப்பட்டுள்ளது. இவ்வாறாக முதல் கொத்துக்கான x1, x2 மற்றும் இரண்டாவது
கொத்துக்கான x1, x2 என்று 4 அம்சங்கள் கணக்கிடப்படுகின்றன. அவை முறையே
புள்ளி வடிவிலும், நட்சத்திர வடிவிலும் வரைபடமாக வரைந்து காட்டப்படுகின்றன.
cluster1_x1 = [15, 19, 15, 13, 17, 15, 12]
cluster1_x2 = [13, 16, 17, 17, 14, 15, 13]
cluster2_x1 = [5, 8, 6, 9, 13]
cluster2_x2 = [6, 7, 6, 10, 12]

plots(cluster1_x1,cluster1_x2,cluster2_x1,cluster2_x2)

[]

 
இவ்வாறாக முதலில் இரண்டு கொத்துக்கள் உருவாக்கப்பட்ட பின்னர்,
அவற்றிலிருந்து மீண்டும் இரண்டு திணிப்புப் புள்ளிகள்
தேர்ந்தெடுக்கப்படுகின்றன. ஆனால் இம்முறை இவை random-ஆக தேர்வு
செய்யப்படுவதில்லை. இரண்டு கொத்துக்களிலும் அமைந்துள்ள x1, x2-க்கான mean
கணக்கிடப்பட்டு அவையே திணிப்புப் புள்ளிகளாக அமைகின்றன. எனவே இன்னும் சற்று
துல்லியமான இரண்டு கொத்துக்களை நாம் உருவாக்க முடியும்.

c1_x1 = (15 + 19 + 15 + 13 + 17 + 15 + 12) / 7
= 106 / 7
= 15.14

c1_x2 = [13 + 16 + 17 + 17 + 14 + 15 + 13] / 7
= 105 / 7
= 15

c2_x1 = [5 + 8 + 6 + 9 + 13] / 5
= 41 / 5
= 8.2

c2_x2 = [6 + 7 + 6 + 10+ 12] / 5
= 41 / 5
= 8.2

பின்னர் மீண்டும் ஒவ்வொரு data-க்கும், கண்டறிந்த திணிப்புப்
புள்ளிகளுக்குமான தூரம் கணக்கிடப்படுகிறது.அதில் குறைவான அளவு தூரம் கொண்ட
தரவுகள் அவற்றுக்கான கொத்தில் இணைகின்றன. இவ்வாறாக இங்கு மீண்டும் இரண்டு
கொத்துகள் உருவாக்கப்படுகிறது. இவை தரவுகளை இன்னும் சற்று துல்லியமாகப்
பிரிப்பதைக் காணலாம்.

[]

 
இவ்வாறாகத் தரவுகள் தனக்குரிய கொத்தில் சரிவரப் பொருந்தும் வரையிலும்,
இதனையே நாம் தொடர்ச்சியாகச் செய்து கொண்டே செல்லலாம். இதுவே clustering
with k-means எனப்படுகிறது. இதில் k என்பது எத்தனை கொத்துகள்/குழுக்கள்
உருவாக்கப்பட வேண்டும் என்பதையும், means என்பது ஒவ்வொரு features-வுடைய
சராசரியையும் கண்டுபிடித்து அதனடிப்படையில் குழுக்களை உருவாக்குவதையும்
குறிப்பிடுகிறது. அடுத்ததாக இந்த k-ன் மதிப்பினை எவ்வாறு கணக்கிடுவது என்று
பார்க்கலாம்.

Elbow Method

இது கொடுக்கப்பட்ட தரவுகளுக்கு எத்தனை குழுக்களை உருவாக்கினால் சரியாக
இருக்கும் என்பதை ஒரு வரைபடம் மூலம் கண்டறிய உதவுகிறது. மேற்கண்ட அதே
தரவுகளை இங்கும் நாம் பயன்படுத்திக் கொள்ளலாம். 2 குழுக்கள் என்பதை இது
நமக்கு சரியாகக் காட்டுகிறதா எனப் பார்க்கலாம். இதற்கான நிரல் மற்றும்
விளக்கம் பின்வருமாறு.

https://gist.github.com/nithyadurai87/10b5b273151c80be97579d684279cd84 

 
    from sklearn.cluster import KMeans

    from sklearn import metrics

    from scipy.spatial.distance import cdist

    import numpy as np

    import matplotlib.pyplot as plt

     
    x1 = [15, 19, 15, 5, 13, 17, 15, 12, 8, 6, 9, 13]

    x2 = [13, 16, 17, 6, 17, 14, 15, 13, 7, 6, 10, 12]

     
    X = np.array(list(zip(x1, x2)))

     
    distortions = []

    K = range(1,8)

    for i in K:

        model = KMeans(n_clusters=i)

        model.fit(X)

        distortions.append(sum(np.min(cdist(X, model.cluster_centers_, 'euclidean'), axis=1)) / X.shape[0])

     
    plt.plot()

    plt.plot(K, distortions, 'bx-')

    plt.show()

இதில் x1, x2 எனும் இரண்டு அம்சங்களும் numpy மூலம் x எனும் ஒரே அணியாக
மாற்றப்படுகிறது. பின்னர் இத்தரவுகளைக் கொண்டு kmeans-க்குப் பயிற்சி
அளிக்கப்படுகிறது. இப்பயிற்சியானது 1 முதல் 7 வரை பல்வேறு எண்ணிக்கையில்
குழுக்களை அமைத்து பயிற்சி அளிக்கிறது. ஒவ்வொரு முறையும் அதன்
தரவுகளுக்கும், திணிவுப் புள்ளிக்குமான விலகல் எவ்வளவு தூரம் இருக்கிறது
என்பதைக் கணக்கிடுகிறது. இவ்வாறாக எந்த எண்ணிக்கையில் குழுக்களை அமைக்கும்
போது அவற்றிலுள்ள தரவுகளின் விலகல் குறைகிறது என்பது
கண்டுபிடிக்கப்படுகிறது. இந்த விலகல் மதிப்பே cost / distortion என்று
அழைக்கப்படுகிறது.

பின்னர் இவை ஒரு வரைபடமாக வரையப்படுகின்றன. இதன் x அச்சில் குழுக்களின்
எண்ணிக்கையும், y அச்சில் அதன் விலகல் மதிப்புகளும் அமைகின்றன. எனவேதான்
ஒரே ஒரு கொத்தில் அனைத்துத் தரவுகளையும் அமைக்கும்போது அதனுடைய
centroid-லிருந்து மற்ற தரவுகளின் விலகல் மதிப்பு 5-க்கு மேல்
காட்டுவதையும், அதுவே 7 தனித்தனி கொத்துக்களாகப் பிரிக்கும்போது, அதனுடைய
விலகல் மதிப்பு 1-க்குக் கீழ் காட்டுவதையும் காணலாம். இந்த வரைபடம்
பார்ப்பதற்கு ஒரு முழங்கை வடிவில் இருப்பதால், இது Elbow method என்று
அழைக்கப்படுகிறது. இந்த வரைபடத்தின் x-அச்சில் 2 என்ற புள்ளியில் அந்த
முழங்கை போன்ற வடிவம் மடங்கி விரிவதால், அந்த எண்ணிக்கையில் தரவுகளைப்
பிரித்தால் போதும் என்பதை நாம் தெரிந்து கொள்ளலாம். ஏனெனில் இதற்கு மேல்
செல்லச் செல்ல விலகல் மதிப்புகள் ஓரளவுக்கே குறைகின்றன. இந்த புள்ளியில்
தான் அந்த முழங்கை மடங்கும் நிலை ஏற்படுகிறது. எனவே தரவுகளை 2 குழுக்களில்
பிரித்தால் சரியாக இருக்கும் என்பது கண்டுபிடிக்கப்படுகிறது..

 
[]

 
silhouette_coefficient

ஒரு algorithm-ன் செயல்திறன் என்பது அது எவ்வளவு தூரம் சரியாகக்
கணித்துள்ளது என்பதைப் பொறுத்தே அமைகிறது. இதுவரை நாம் கண்ட அனைத்திலும்,
algorithm-ன் கணிப்புகளை உண்மையான மதிப்புகளுடன் ஒப்பிட்டு அதன்
செயல்திறனைக் கண்டறிந்தோம். ஆனால் k-means போன்ற unsupervised learning-ல்
ஒப்பிடுவதற்கு நம்மிடம் தரவுகள் ஏதும் இல்லாத காரணத்தால், இதனைக்
கண்டுபிடிக்க உதவும் ஒரு வழிமுறையே silhouette_coefficient ஆகும்.

 
அதாவது k-means முறையில் வகைப்படுத்தப்படும் தரவுகள், சரியான முறையில்தான்
வகைப்படுத்தப்பட்டுள்ளதா எனக் கண்டறிய ஏற்கனவே distortion என்ற ஒன்றை
அளவிட்டோம். இது ஒவ்வொரு தரவும் அதன் திணிவுப் புள்ளியிலிருந்து எவ்வளவு
தூரம் விலகியிருக்கிறது என்பதை வைத்து, kmeans-ன் செயல்திறனைக்
கணக்கிடுகிறது. அதுபோலவே இந்த silhouette_coefficient என்பது பின்வரும்
வாய்ப்பாடு மூலம் தரவுகள் அமைந்துள்ள ஒவ்வொரு குழுவும் எவ்வளவு கச்சிதமாகப்
பிரிக்கப்பட்டுள்ளது என்பதைக் கணக்கிடுகிறது.

ba / max(a,b)

இதில் a என்பது ஒரே குழுவில் உள்ள தரவுகளுக்கிடையேயான சராசரி தூரம். b
என்பது ஒரு குழுவிற்கும் அதற்கடுத்த குழுவிற்கும் இடையே உள்ள
தரவுகளுக்கிடையேயான சராசரி தூரம்.

கீழ்க்கண்ட எடுத்துக்காட்டில் நமது தரவுகள், kmeans மூலம் முதலில் 2
குழுக்களாகப் பிரிக்கப்படுகின்றன. அவ்வாறே for loop மூலம் அடுத்தடுத்து
3,4,5 மற்றும் 8 குழுக்களாகப் பிரிக்கப்படுகின்றன. இந்த loop-க்குள்
குழுக்கள் கொடுக்கப்பட்ட எண்ணிக்கையில் ஒவ்வொரு முறை அமையும்போதும், அது
தரவுகளைப் பிரிக்கும் விதத்தை வரைபடமாக வரைந்து காட்டுகிறது மற்றும் அதன்
silhouette_coefficient மதிப்பை வெளிப்படுத்துகிறது.

https://gist.github.com/nithyadurai87/f5f043df412b6e3c8291d0080422bd92 

  
    import numpy as np

    from sklearn.cluster import KMeans

    from sklearn import metrics

    import matplotlib.pyplot as plt

    plt.subplot(3, 2, 1)

     
    x1 = [15, 19, 15, 5, 13, 17, 15, 12, 8, 6, 9, 13]

    x2 = [13, 16, 17, 6, 17, 14, 15, 13, 7, 6, 10, 12]

    plt.scatter(x1, x2)

     
    X = np.array(list(zip(x1, x2)))

     
    c = ['b', 'g', 'r', 'c', 'm', 'y', 'k', 'b']

    m = ['o', 's', 'D', 'v', '^', 'p', '*', '+']

     
    p = 1

    for i in [2, 3, 4, 5, 8]:

     p += 1

     plt.subplot(3, 2, p)

     model = KMeans(n_clusters=i).fit(X)

     print (model.labels_)

     for i, j in enumerate(model.labels_):

         plt.plot(x1[i], x2[i], color=c[j], marker=m[j],ls='None')

     print (metrics.silhouette_score(X, model.labels_ ,metric='euclidean'))

    plt.show()

print (model.labels_) என்பது முதல் குழுவை 0 என்றும் இரண்டாவது குழுவை 1
என்றும் குறிப்பிடுகிறது. எனவே x1 மற்றும் x2-ல் உள்ள 12 தரவுகளும்
எந்தெந்த குழுக்களில் சேர்க்கப்பட்டுள்ளன என்பதும் அதன் coefficient
மதிப்பும் பின்வருமாறு வெளிப்படுகிறது.

[1 1 1 0 1 1 1 1 0 0 0 1]
0.6366488776743281

அவ்வாறே 3 குழுக்களாகப் பிரிக்கும்போது 0 முதல் குழுவையும், 1 இரண்டாவது
குழுவையும், 2 மூன்றாவது குழுவையும் பின்வருமாறு குறிப்பிடுகிறது.

[0 0 0 1 0 0 0 2 1 1 1 2]
0.38024538066050284

இதுபோன்றே 4,5 மற்றும் 8 அளவில் குழுக்காளாகப் பிரிக்கும்போது தரவுகள்
சேர்ந்துள்ள குழுக்களின் மதிப்பும், அக்குழுவிற்கான செயல்திறன் மதிப்பும்
பின்வருமாறு வெளிப்படுகின்றன. இதை வைத்துப் பார்க்கும்போது 2 குழுக்களாகப்
பிரிக்கும் போது மட்டுமே, இது அதிக அளவு செயல் திறனை (0.63)
வெளிப்படுத்துவதைக் காணலாம்.

[2 0 0 1 0 0 0 2 1 1 3 2]
0.32248773306926665

[2 4 0 1 0 4 0 2 1 1 3 2]
0.38043265897525885

[6 7 3 4 3 1 6 2 0 4 5 2]
0.27672998081717154

கீழ்க்கண்ட வரைப்படத்தில் முதலாவதாக உள்ளது வெறும் தரவுகளுக்கான படம்.
இரண்டாவதாக உள்ளது 2 குழுக்காளாகப் பிரிக்கும்போது வெளிப்படும் வரைபடம்.
அடுத்தடுத்து உள்ளது 3,4,5,8 எண்ணிக்கையில் குழுக்களை அமைக்கும்போது
வெளிப்படுகின்ற வரைபடங்கள். அதிகபட்சமாக 8 குழுக்கள் வரை தரவுகள்
பிரிக்கப்படுகின்றன. எனவே ஒவ்வொரு குழுவிலும் உள்ள தரவுகளை
வித்தியாசப்படுத்திக் காட்ட, 8 நிற வண்ணங்களும் 8 வெவ்வேறு வடிவங்களும்
கொண்ட இரண்டு பட்டியல் உருவாக்கப்படுகிறது. அவை ஒவ்வொன்றாக loop-க்குள்
சென்று பின்வருமாறு வெளிப்படுகின்றன.

[]

 
Support Vector Machine (SVM) 

Support Vector Machine (SVM) என்பது தரவுகளை வகைப்படுத்திப் பிரிப்பதற்கான
ஒரு வழிமுறை ஆகும். ஏற்கெனவே இதற்கென logistic regression என்பதைப் பற்றிப்
பார்த்தோம். ஆனால் இந்த SVM என்பது வகைப்படுத்துதல் எனும் வேலையை
logistic-ஐ விட இன்னும் சற்று துல்லியமாக அமைக்கிறது. நேர்கோடு மூலம்
பிரிக்கப்படும் தரவுகளுக்கு large margin classifier எவ்வாறு உதவுகிறது
என்பதையும், நேர்கோடு முறையில் பிரிக்கப்பட முடியாத தரவுகளுக்கு kernels
எவ்வாறு உதவுகிறது என்பதையும் இப்பகுதியில் காணலாம்.

Large margin classifier (linear)

கீழ்க்கண்ட உதாரணத்தில் ஒரு நேர்கோடு மூலம் வகைப்படுத்த முடியும் தரவுகளை
logistic எவ்வாறு பிரிக்கிறது, svm எவ்வாறு பிரிக்கிறது என்பதைக்
காட்டியுள்ளோம். இதில் x1, x2 எனும் இரண்டு அம்சங்கள் உள்ளன. அவை 2
பரிமாணங்கள் (2 dimension matrix) கொண்ட ஒரே அணியாக numpy மூலம்
மாற்றப்படுகின்றன. பின்னர் அத்தரவுகளைக் கொண்டு logistic-க்கும்,
svm-க்கும் பயிற்சி அளிக்கிறோம். பின்னர் ஒவ்வொன்றும் தரவுகளைப்
பிரிப்பதற்கான நேர்கோட்டினை சரியாக எங்கு அமைக்கின்றன என்பதைக் காண்பதற்கான
நிரல் classifier()-க்குள் எழுதப்பட்டுள்ளது.

https://gist.github.com/nithyadurai87/2de5a6a6f7cc03c2791305f5c33d43d7 

    import numpy as np

    import matplotlib.pyplot as plt

    from sklearn import svm

    from sklearn.linear_model.logistic import LogisticRegression

     
    def classifier():

        xx = np.linspace(1,10)

        yy = -regressor.coef_[0][0] / regressor.coef_[0][1] * xx - regressor.intercept_[0] / regressor.coef_[0][1]

        plt.plot(xx, yy)

        plt.scatter(x1,x2)

        plt.show()

     
    x1 = [2,6,3,9,4,10]

    x2 = [3,9,3,10,2,13]

     
    X = np.array([[2,3],[6,9],[3,3],[9,10],[4,2],[10,13]])

    y = [0,1,0,1,0,1]

     
    regressor = LogisticRegression()

    regressor.fit(X,y)

    classifier()

     
    regressor = svm.SVC(kernel='linear',C = 1.0)

    regressor.fit(X,y)

    classifier()

logistic மூலம் தரவுகள் பிரிக்கப்படும்போது அதற்கான நேர்கோடு பின்வருமாறு
அமைகிறது. அதாவது கீழே உள்ள வகைக்கு மிகவும் நெருக்கமாக எவ்வித இடைவெளியும்
இல்லாமல் நேர்கோடு அமைக்கப்பட்டுள்ளது. ஆனால் மேலே உள்ள வகைக்கும்
கோட்டிற்குமான இடைவெளியோ மிகவும் அதிகமாக உள்ளது.

[]

 
SVM மூலம் தரவுகள் பிரிக்கப்படும்போது இரண்டு வகைக்கும் நடுவில் உள்ள கோடு
அவ்விரண்டு வகையிலிருந்தும் சமமான அளவு தூரத்தில் உள்ளது. எனவே தான் இது
equal margin / large margin classifier என்று அழைக்கப்படுகிறது. இது
logistic regression-க்கான ஒரு optimization-ஆகவே கருதப்படுகிறது.

[]

 
Kernels (non-linear)

Kernel என்பது நேர்கோடு போட்டு பிரிக்க முடியாத சற்று கடினமான non-linear
முறையில் அமைந்துள்ள தரவுகளை வகைப்படுத்துவதற்குப் பயன்படுகிறது. இது போன்ற
நேர்கோட்டில் பொருந்தாத தரவுகளைப் பொறுத்துவதற்கு ஏற்கெனவே polynomial
regression என்ற ஒன்றைப் பார்த்தோம். ஆனால் அதில் ஒவ்வொரு features-வுடைய
higher order மதிப்புகள் கணக்கிடப்பட்டு அவை புதிதாக இணைந்துள்ள
அம்சங்களாகக் கணக்கில் கொள்ளப்படும். எனவே தரவுகள் முழுதாகப் பொருந்தும்
வரையிலும் square, cube என்று அடுத்தடுத்த order-ல் features-ஐக்
கணக்கிட்டு இணைத்துக் கொண்டே செல்வோம். இவ்வாறு செய்யும்போது பயிற்சி
அளிக்கப்படும் தரவில் அதிக அளவு அம்சங்கள் சேர்க்கப்படுவதால், ஒரு
algorithm கற்றுக் கொள்வதற்கான நேரமும் கணினி அனைத்தையும் அதிக அளவில்
நினைவில் வைத்துக் கொள்ள வேண்டிய தேவையும் அதிகரிக்கிறது. இதைத்
தவிர்ப்பதற்காக வந்ததே  kernels / similarity functions ஆகும்.

இது புதிது புதிதாக அம்சங்களை இணைக்காமல், ஏற்கெனவே உள்ள அம்சங்களில்
இருந்து புதிய அம்சங்களைக் கணக்கிட்டுப் பயன்படுத்துகிறது. உதாரணத்துக்கு
நமது பயிற்சித் தரவில் 5 அம்சங்களும் 100 மாதிரித் தரவுகளும் உள்ளன என்று
வைத்துக்கொள்வோம். Polynomial எனும் போது இத்தகைய 5 features-க்கும் square
மற்றும் cube மதிப்புகள் கண்டுபிடிக்கப்பட்டு, கடைசியில் அவை 20 -க்கும்
மேலான features-ஆக வந்து நிற்கும். அதுவே kernel மூலம் பொறுத்தும் போது
ஒவ்வொரு அம்சங்களிலும் உள்ள 100 மாதிரிகளில் இருந்து ஒரு தரவினை தேர்வு
செய்து அதனை landmark-ஆக அமைக்கிறது. பின்னர் அதிலிருந்து மற்ற தரவுகள்
எவ்வளவு தூரத்தில் அமைந்துள்ளன என்பது கணக்கிடப்படுகிறது. அவை
landmark-க்கு அருகில் இருந்தால் 1 எனவும், இல்லையெனில் 0 எனவும்
வகைப்படுத்தப்படுகின்றன. இதை வைத்தே புதிய feature கணக்கிடப்படுகிறது.
அதாவது பயிற்சித் தரவில் உள்ள 5 அம்சங்களுக்கு வெறும் 5 புதிய features
மட்டுமே இம்முறையில் கணக்கிடப்படுகின்றன.

இந்த similarity function-க்கான சமன்பாடு பின்வருமாறு. இதுவே kernel
என்றும் அழைக்கப்படுகிறது. இந்த kernel இக்கணக்கீடுகளை நிகழ்த்துவதற்கு
பல்வேறு வாய்ப்பாடுகளைப் பெற்றிருக்கும். அதில் ஒன்றான exp()-க்கான
சமன்பாடு கீழே கொடுக்கப்பட்டுள்ளது. இதுவே gaussian kernel என்று
அழைக்கப்படுகிறது. இதே போன்று polynomial kernel, string kernel,
chi-squared kernel, histogram-intersection kernel என்று பல்வேறு வகையான
வாய்ப்பாடுகள் kernel-ல் உள்ளன.

f1 = similarity (x ,l1)
= exp (-(||x-l||**2 / 2*sigma squared ))

 
SVM without kernels என்பது logistic regression-ஐக் குறிக்கிறது. அதாவது
kernels மூலம் உருவாக்கப்பட்ட புதிய features-ஐப் பயன்படுத்தாமல், நேரடியாக
raw feature-ஐக் கொண்டு மட்டுமே வகைப்படுத்துதல் நிகழ்ந்தால், அது logistic
regression-ஐயே குறிக்கிறது. எனவே எப்போது kernel-ஐப் பயன்படுத்தலாம்
எப்போது logistic-ஐப் பயன்படுத்தலாம் என்று பார்ப்போம்.
தேர்ந்தெடுக்கப்பட்ட அம்சங்களின் எண்ணிக்கை(100000 or 100), பயிற்சிக்கு
அளிக்கப்பட்ட மாதிரித் தரவுகளின் எண்ணிக்கையை(10000) விட மிகவும் அதிகமாக
இருந்தாலோ அல்லது மிகவும் குறைவாக இருந்தாலோ svm without kernel-ஐப்
பயன்படுத்தலாம். அதுவே features-ன் எண்ணிக்கை(1000) மிகவும் அதிகமாக
இல்லாமல் ஓரளவுக்கு சற்று அதிகமாக இருக்கும்போது svm with kernel-ஐப்
பயன்படுத்தலாம்.

கீழ்க்கண்ட எடுத்துக்காட்டில் பல்வேறு அம்சங்களை வைத்து ஒரு மலர் மல்லியா,
ரோஜாவா, தாமரையா என்று வகைப்படுத்தப்படுகிறது. இவை svm without kernel
அதாவது logistic மூலம் வகைப்படுத்தப்படுவதைவிட kernel மூலம்
வகைப்படுத்தப்படும்போது அதன் accuracy அதிகரிப்பதைக் காணலாம்.

https://gist.github.com/nithyadurai87/9d7cc99cc4ae18a3707cc76f8711193b 

 
import numpy as np

import matplotlib.pyplot as plt

from sklearn import svm

import pandas as pd

from sklearn.metrics import accuracy_score

from sklearn.model_selection import train_test_split

from sklearn.svm import SVC

from sklearn.metrics import classification_report, confusion_matrix

from sklearn.linear_model.logistic import LogisticRegression
                                                                                                                                         

from matplotlib.colors import ListedColormap

 
df = pd.read_csv('./flowers.csv')

X = df[list(df.columns)[:-1]]

y = df['Flower']

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state =
0)

 
logistic = LogisticRegression()

logistic.fit(X_train, y_train)  

y_pred = logistic.predict(X_test)

print ('Accuracy-logistic:', accuracy_score(y_test, y_pred))

 
gaussian = SVC(kernel='rbf')

gaussian.fit(X_train, y_train)  

y_pred = gaussian.predict(X_test)

print ('Accuracy-svm:', accuracy_score(y_test, y_pred))

வெளியீடு:

Accuracy-logistic: 0.868421052631579
Accuracy-svm: 0.9736842105263158     

PCA - Principle Component Analysis 

Principle Component Analysis என்பது அதிக அளவு பரிமாணங்கள் கொண்ட தரவுகளை
குறைந்த அளவு பரிமாணங்கள் கொண்டதாக மாற்றுவதற்குப் பயன்படுகிறது.
எடுத்துக்காட்டாக 1000 அம்சங்களைக் கொண்டு ஒரு விஷயம் கணிக்கப்படுகிறது என
வைத்துக் கொள்வோம். PCA-ஆனது இந்த 1000 X-ஐ 100 X-ஆகவோ அல்லது இன்னும்
குறைந்த பரிமாணங்கள் கொண்டதாகவோ மாற்றிக் கொடுக்கும். அதாவது Y
எண்ணிக்கையைப் பற்றிக் கவலைப்படாது. வெறும் X எண்ணிக்கையை மட்டும்
குறைக்கும். எனவேதான் PCA என்பது dimensionality reduction-க்கு உதவுகின்ற
ஒரு சிறப்புவகை வழிமுறை ஆகும். இதன் செயல்பாடுகளில் உள்ள படிகள்
பின்வருமாறு.

-   முதலில் பயிற்சித் தரவுகளைப் பெற்றுக் கொள்ளுதல்
    (x1,y1),(x2,y2),(x3,y3)...

-   அடுத்ததாக PCA மூலம் பயிற்சித் தரவில் உள்ள x அனைத்தையும் நமக்குத்
    தேவையான அளவு குறைந்த எண்ணிக்கையில் மாற்றுதல்

-   பின்னர் குறைக்கப்பட்ட புதிய x -ஐக் கொண்டு பயிற்சி அளித்தல்

பொதுவாக இந்த PCA அனைத்து இடத்திலும் பயன்படாது. சற்று அரிதாகவே பயன்படும்.
எடுத்துக்காட்டுக்கு மனித முகங்கள் அல்லது ஊர்திகள் போன்றவற்றை
அடையாளப்படுத்தும் algorithm-க்கு பயிற்சி அளிக்கப்படும் தரவுகளில்
குறைந்தபட்சம் 1 லட்சம் features-ஆவது இருக்கும். ஏனெனில் ஒரு ஊர்தியின்
சக்கரம், கைப்பிடி, இருக்கை, பக்கக் கண்ணாடிகள், முன் விளக்குகள் என்று
ஒவ்வொரு சின்னச் சின்ன விஷயங்களையும் அடையாளப்படுத்த அதிக அளவில் features
அமைந்திருக்கும். இதுபோன்ற இடங்களில் , அவை அனைத்தையும் பயன்படுத்தாமல்
குறைந்த அளவில் features-ஐ மாற்றுவதற்கு PCA பயன்படுகிறது. எப்போதும்
pca-ஐப் பயன்படுத்துவதற்கு முன்பு feature scaling என்ற ஒன்று கண்டிப்பாக
நடைபெற வேண்டும். இதுவே data-preprocessing என்று அழைக்கப்படும்.

கீழ்க்கண்ட எடுத்துக்காட்டில் நாம் புரிந்து கொள்ளச் சுலபமாக இருக்க
வேண்டும் என்பதற்காக 4 dimension கொண்ட தரவுகள் 2 dimension-ஆக PCA மூலம்
மாற்றப்பட்டுள்ளது. PCA பயன்படுத்துவதற்கு முன்னர் StandardScalar மூலம்
தரவுகள் normalize செய்யப்படுகின்றன. பின்னர் ஒரு மலர் மல்லியா, ரோஜாவா,
தாமரையா என்று தீர்மானிக்க அவ்விதழ்களுடைய நீள அகலமும், அவற்றின் மேற்புற
இதழ்களுடைய நீள அகலமுமாக 4 அம்சங்கள் உள்ளன. இவை PCA மூலம் x1, x2 எனும்
இரண்டு அம்சங்களாக மாற்றப்படுகின்றன. இவ்விரண்டு அம்சங்களின் அடிப்படையில்
அமையும் 3 வகை மலர்களும் 3 நிறங்களில் வரைபடமாக வரைந்து காட்டப்பட்டுள்ளது.

https://gist.github.com/nithyadurai87/20d18bbda53e43de19222e24d330a398

 
    import numpy as np 

    import matplotlib.pyplot as plt 

    import pandas as pd 

    from sklearn.model_selection import train_test_split  

    from sklearn.preprocessing import StandardScaler 

    from sklearn.decomposition import PCA 

     
    df = pd.read_csv('./flowers.csv') 

    X = df[list(df.columns)[:-1]] 

    y = df['Flower'] 

    X_train, X_test, y_train, y_test = train_test_split(X, y, random_state = 0)   

     
    pca = PCA(n_components=2) 

    x = StandardScaler().fit_transform(X_train) 

    new_x = pd.DataFrame(data = pca.fit_transform(x), columns = ['x1', 'x2']) 

     
    df2 = pd.concat([new_x, df[['Flower']]], axis = 1) 

     
    fig = plt.figure(figsize = (8,8)) 

    ax = fig.add_subplot(1,1,1)  

    ax.set_xlabel('x1', fontsize = 15) 

    ax.set_ylabel('x2', fontsize = 15) 

    ax.set_title('2 Components', fontsize = 20) 

    for i, j in zip(['Rose', 'Jasmin', 'Lotus'],['g', 'b', 'r']): 

        ax.scatter(df2.loc[df2['Flower'] == i, 'x1'], df2.loc[df2['Flower'] == i, 'x2'], c = j) 

    ax.legend(['Rose', 'Jasmin', 'Lotus']) 

    ax.grid() 

    plt.show() 

     
    print (pca.explained_variance_ratio_) 

     
    print (df.columns) 

    print (df2.columns) 

 
வெளியீடு : 

[0.72207932 0.24134489]

Index(['Sepal_length', 'Sepal_width', 'Petal_length', 'Petal_width',
'Flower'], dtype='object')

Index(['x1', 'x2', 'Flower'], dtype='object')

[]

 
இதனுடைய வெளியீட்டில் என்பது explained variance என்பது [0.72207932
0.24134489] என வந்துள்ளது. இவ்விரண்டு மதிப்புகளையும் கூட்டினால் 0.96
என்று வரும். இதற்கு என்ன அர்த்தம் என்றால் இவ்விரண்டு components-ம்
சேர்ந்து 96% தகவல்களை உள்ளடக்கியுள்ளது என்று அர்த்தம். ஏனெனில்
features-ஐக் குறைக்கும்போது தகவல் இழப்பு ஏற்பட வாய்ப்பு உள்ளது. எனவே
variance என்பது எவ்வளவு சதவீதம் தகவல்கள் ஒவ்வொன்றிலும்
சேமிக்கப்பட்டுள்ளன என்பதைக் கூற உதவுகிறது. இதைப்பற்றியும், PCA
செயல்படும் விதத்தையும் இன்னும் விளக்கமாகக் கீழே காணலாம்.

Data Projection

தரவுகளின் பரிமாணங்களை குறைப்பதற்கு உதவும் திட்டமே Projection line அல்லது
projection area எனப்படுகிறது. கீழ்க்கண்ட வரைபடங்களை கவனிக்கவும்.
இடதுபுறம் உள்ள படத்தில்  2 dimension கொண்ட தரவுகள் 1 dimension ஆக
மாற்றப்படுவதற்கான திட்டம் உள்ளது. இதில் x1, x2 எனும் 2 அம்சங்களுக்கான
 scatter plot உள்ளது. அவற்றின் நடுவில் அமைந்துள்ள கோடுதான்
projection-க்கான திசை ஆகும். இத்திசையை நோக்கியே தரவுகள் அனைத்தும் சென்று
ஒரே பரிமாணம் கொண்டதாக மாற்றப்படுகின்றன. அவ்வாறே வலப்புறம் உள்ள படத்தில்
x1, x2, x3 எனும் 3 அம்சங்களுக்கான தரவுகள் உள்ளது. அவற்றிற்கான
 projection area-ஆனது 2 பரிமாணங்களைக் கொண்டு வரைபடத்தில் காணப்படுவது
போன்று அடையாளப்படுத்தப்படுகிறது. சுற்றியுள்ள தரவுகள் அனைத்தும்
அப்பரப்பளவு கொண்ட பகுதிக்குள் சென்று 2 பரிமாணங்கள் கொண்ட வெக்டராக
மாற்றப்படுகின்றன.

[]

 
Projection Error

மேற்கண்ட இரண்டு படங்களிலும் தரவுகள் அவை அமைந்துள்ள இடத்திற்கும், project
செய்யப்பட்ட இடத்திற்குமான இடைவெளியே  projection error என்று
அழைக்கப்படுகிறது. 2d-ஐ 1d-ஆக மாற்றுவதற்கான படத்தைப் பார்க்கும்போது
உங்களுக்கு linear regression நினைவுக்கு வரலாம். ஆனால் PCA என்பது linear
regression அல்ல. ஏனெனில் நடுவில் உள்ள அக்கோடு prediction-க்குப்
பயன்படாது. வெறும் projection-க்கு மட்டுமே பயன்படுகிறது. அவ்வாறே
அக்கோட்டினை வைத்து Y மதிப்புகளை கணித்துச் சொல்லாது. வெறும் x மதிப்புகளை
இடமாற்றம் செய்வதற்கே இக்கோடு பயன்படுகிறது. மேலும் linear regression-ல்
sum of squares error என்பது இடைப்பட்ட தூரத்தை செங்குத்தாகக்
கணக்கிடுகிறது. ஆனால் PCA-ல் projection error என்பது பக்கவாட்டில்
கணக்கிடப்படுகிறது. இது பின்வருமாறு.

[]

 
Compressed components

அதிக அளவு கொண்ட பரிமாணங்கள் எவ்வாறு சிறிய அளவில் சுருக்கப்படுகிறது,
அதில் உள்ள படிகள் என்னென்ன என்று பின்வருமாறு பார்க்கலாம்.

1. முதலில் தரவுகள் அனைத்தும்  feature scaling செய்யப்பட வேண்டும். இதுவே
data preprocessing என்று அழைக்கப்படுகிறது.(x1, x2, x3...xn)

2. அடுத்து features-க்கிடையேயான தரவுகள் எவ்வாறு அமைந்துள்ளன என்பதைக் காண
 covariance matrix உருவாக்கப்படுகிறது. இதற்கான வாய்ப்பாடு பின்வருமாறு.
இதுவே sigma என்று அழைக்கப்படுகிறது.

covariance matrix / sigma = (1/m).summation of(1 to m)[x . transpose of
x]

இந்த அணியானது symmetric positive definite எனும் பண்பு கொண்டுள்ளதா எனப்
பார்க்க வேண்டும். அப்போதுதான் இதை வைத்து projection-க்கான வெக்டரை
உருவாக்க முடியும்.

3. svd() அல்லது eig() எனும் function-ஐப் பயன்படுத்தி projection-க்கான
வெக்டரை உருவாக்கலாம். இவை முறையே single value decomposition என்றும்,
eigenvector என்றும் அழைக்கப்படும். இது பின்வருமாறு

[u,s,v] = svd(sigma)

இது 3 அணிகளை உருவாக்கும். u என்பதுதான் projection -க்கான அணி. அதாவது u1,
u2, u3...un வரை இருக்கும். இதிலிருந்து நமக்கு வேண்டிய அளவு features-ஐத்
தேர்வு செய்யலாம். அதாவது u1, u2, u3...uk - இதில் k என்பது எவ்வளவு
principle components என்பதைக் குறிக்கிறது. இதற்கான வாய்ப்பாடு
பின்வருமாறு.

principle components = transpose of (u[: , 1:k]).x

4. அடுத்ததாக எவ்வளவு principle components இருந்தால் தகவல் இழப்பு எதுவும்
இருக்காது என்பதைக் கண்டுபிடிக்க வேண்டும். இதைக் கண்டுபிடித்துக் கூறுவதே
variance என்று அழைக்கப்படும். பொதுவாக 99% variance அளவில் இருக்குமாறு
பார்த்துக் கொண்டால் நல்லது. எனவே k-ன் மதிப்பைக் கண்டுபிடிக்கும்
வாய்ப்பாடானது பின்வருமாறு அமைகிறது.

Average squared projection error / Total variance in the data  >= 0.99
(எனவே 99% அளவு variance-ஐ தக்க வைத்துக் கொள்கிறது)
                                                                                                           

Where,
Avg. squared projection error = (1/m).summation of(1 to m) . square of
(x - projected x)
Total variance in the data = (1/m).summation of(1 to m) . square of (x)

k-ன் மதிப்பை ஒவ்வொன்றாக அதிகரித்து மேற்கண்ட வாய்ப்பாட்டில் பொருத்தி
எப்போது அதன் மதிப்பு 0.99 ஐத் தாண்டுகிறது எனப் பார்ப்பது ஒரு வகை. இதற்கு
பதிலாக svd()-யிலிருந்து பெறுகின்ற S அணியை பின்வரும் வாய்ப்பாட்டில்
பொருத்தி k -ன் மதிப்பை நேரடியாகக் கண்டுபிடிக்கலாம்.
summation of(1 to k) S[i,j] /  summation of(1 to m) S[i,j]     >= 0.99

இவ்வாறாக அதிக அளவு கொண்ட பரிமாணங்கள் தகவல் இழப்பு எதுவும் நடைபெறாமல்
குறைந்த அளவில் சுருக்கப்படுகிறது..
                                            

Neural Networks

மனிதனுடைய மூளை எவ்வாறு கற்கிறது என்பதை முன்னோடியாகக் கொண்டு
உருவாக்கப்பட்டதே Neural network ஆகும். முதலில் குழந்தையாகப்
பிறக்கும்போது மனித மூளைக்கு ஒன்றுமே தெரியாது. பின்னர் அதிலுள்ள ஒரு மூளை
நரம்பு (நியூரான்) புதிய விஷயத்தைக் கற்றுக் கொள்ளத் தொடங்குகிறது.
அடுத்ததாக மற்றொரு நரம்பு ஏற்கெனவே கற்றுக் கொண்டுள்ள விஷயத்தோடு சேர்த்து
இன்னொரு புதிய விஷயத்தையும் கற்றுக் கொள்கிறது. இவ்வாறே பல்வேறு நரம்புகள்
வலைப்பின்னல் வடிவில் ஒன்றோடொன்று பிணைக்கப்பட்டு தொடர்ச்சியாக பல்வேறு
புதுப்புது விஷயங்களைக் கற்றுக் கொண்டே வருகின்றன. இதை அடிப்படையாக வைத்து
உருவாக்கப்பட்டதே Neural Network ஆகும்.

இது ஒவ்வொரு விஷயத்தையும் வகைப்படுத்தி வகைப்படுத்திக் கற்கிறது. எனவே இதன்
சூத்திரம் classification problem-ஐ ஒத்திருக்கும். binary classification
-ல் x1, x2 என்று இரண்டுfeatures-இருக்கிறதெனில், logistic - ஆனது அதனை
நேரடியாக எடுத்துக் கொண்டு h(x) -ஐ கணிக்கும். ஆனால் neural network-ஆனது
raw features-ஐப் பயன்படுத்தாமல் தனக்கென ஒரு hidden layer-ஐ உருவாக்கிக்
கொண்டு, அதில் பல activation units-ஐ உருவாக்கிக் கணிக்கிறது. இதற்கான
சூத்திரம் பின்வருமாறு.

[]

 
activation unit-ன் மதிப்பானது 0 முதல் 1 வரை அமைவதால், sigmoid
function-க்குள் அதனுடைய parameters மற்றும் features அமைகிறது. இதை வைத்தே
முதல் activation unit-ன் மதிப்பு கணக்கிடப்படுகிறது. இவ்வாறே
ஒவ்வொருactivation unit-ன் மதிப்புகளும் கணக்கிடப்படுகின்றன. Parameters-ஐ
தீட்டா என்று குறித்தோம் அல்லவா, Neural networks-ல் இவை weights என்று
அழைக்கப்படுகின்றன.எனவே கடைசியாக கணிக்கப்படும் h(x) மதிப்புகள், அதனுடைய
activation units மற்றும் weights ஐ இணைத்து  sigmoid function-ஆல்
கணிக்கப்படுகின்றன.

Neural Network அமைப்பு

கணிப்புக்குத் தேவையான  features-ன் எண்ணிக்கை மிகவும் அதிகமாக
இருக்கும்போது logistic-க்குப் பதிலாக நாம் neural networks-ஐப்
பயன்படுத்தலாம். 

Binary classification-க்கான neural network பின்வருமாறு அமையும்.

[]

 
Multi-class classification-க்கான neural networkபின்வருமாறு அமையும்.

[]

 
அணிகளின் பெருக்கலுக்கு துணைபுரியும் வகையில் சேர்க்கப்படும் x0, a0
மதிப்புகள் bias units என்றழைக்கப்படுகின்றன.

Input layer: மூல அம்சங்கள் முதலாவது அடுக்கில் காணப்படும். 

Output layer: கணிக்கப்படும் கணிப்புகள் கடைசி அடுக்கில் அமையும்.

Hidden layer / Activation layer – இடையில் பல்வேறு மறைமுக
அடுக்குகள் காணப்படும். முதல் மறைமுக அடுக்கில் மூல அம்சங்களை வைத்து
உருவாக்கப்பட்ட செயல்படுத்தும் அலகுகள் (activation units) காணப்படும்.
அடுத்தடுத்த மறைமுக அடுக்கில் அடுத்தடுத்த செயல்படுத்தும் அலகுகள்
காணப்படும்.

h(x) கணிப்புகள் நிகழும் விதம்

கீழ்க்கண்ட படத்தில் ஒவ்வொரு அலகுகளுக்குமான எடைகள் கொடுக்கப்பட்டுள்ளன.
இவற்றை sigmoid சூத்திரத்தில் பொருத்தி ஒவ்வொரு அலகுக்குமான h(x) மதிப்பு
கணக்கிடப்படுகிறது.
எடைகளின் மதிப்பினைப் பொறுத்து இவைகளின் மதிப்பு AND, OR, NOT போன்ற
விதிகளின் படி அமையும்.

[]

 
எடுத்துக்காட்டுக்கு -30, 20, 20 எனும் மதிப்புகளை g(z) சூத்திரத்தில்
பொருத்திப் பார்க்கவும். x1, x2 மதிப்புகள் 0,0 ஆக இருந்தால் என்னவரும்?
0,1 ஆக இருந்தால் என்னவரும்? 1,0 மற்றும் 1,1 மதிப்புகளுக்கு என்ன வரும்?
போன்றவை கணக்கிடப்படுகிறது.

[]

 
AND: 0,0 எனும்போது g(z) மதிப்பு -30 என எதிர்மறையில் அமைகிறது. மேற்கண்ட
sigmoid வரைபடத்தில் -30 என்பது 0 என்பதைக் குறிக்கும். இவ்வாறே
அடுத்தடுத்த மதிப்புகள் கணக்கிடப்படுகின்றன. இதற்கான அட்டவணை AND -க்கான
truth table-ஐ ஒத்திருப்பதைக் காணலாம். அதாவது x0 மற்றும் x1 1-ஆக
அமைந்தால் மட்டுமே h(x)=1 ஐ வெளிப்படுத்தும்.

[]

 
OR: -10, 20, 20 எனும் மதிப்புகளை g(z) சூத்திரத்தில் பொருத்திப்
பார்க்கவும். இதற்கான அட்டவணை OR -க்கான truth table-ஐ ஒத்திருப்பதைக்
காணலாம். அதாவது x0 மற்றும் x1 1-ஆக அமைந்தால் மட்டுமே h(x)=1 ஐ
வெளிப்படுத்தும். அதாவது x0 அல்லது x1 இரண்டில் ஏதாவது ஒன்று 1-ஆக
அமைந்தால் கூட h(x)=1 ஐ வெளிப்படுத்தும்.

[]

 
NOT : இரண்டாவது அடுக்கில் உள்ள 3-வது அலகானது NOT x1 AND NOT X2 மூலம்
கணக்கிடப்படுகிறது. அதாவது NOT x1 மற்றும் NOT x2 இரண்டின் மதிப்பும் AND
-மூலம் மீண்டும் கணக்கிடப்படுகின்றன. இதற்கான எடைகள் 10, -20 என்று
அமையும்.

[]

 
எனவே இவைகள் ஒன்றாக சேர்ந்து மேற்கண்ட neural network-க்கான மதிப்பு
பின்வருமாறு அமையும்.

[]

 
Forward propagation

[]

 
முதலாவது அடுக்கில் உள்ள செயல்படுத்தும் அலகானது (activation unit) அதன்
மூல அம்சங்களாக (raw features)அமையும். இதுவே உள்ளீட்டுக்கான அடுக்கு
ஆகும்.

இரண்டாவதாக உள்ளது மறைமுக அடுக்கு. இதில் உள்ள செயல்படுத்தும் அலகானது
முதலாவதில் உள்ள அம்சங்கள் மற்றும் அதன் எடைகளைப்(weights) பொறுத்து
அமையும்.

கடைசியாக உள்ளது வெளியீட்டுக்கான அடுக்கு ஆகும். இதில் உள்ள அலகானது மறைமுக
அடுக்குகளில் உள்ள அலகுகள் மற்றும் அதன் எடைகளைப்(weights) பொறுத்து
அமையும்.

இவ்வாறே ஒவ்வொரு அடுக்கிலும் உள்ள செயல்படுத்தும் அலகுகளின் மதிப்பும்
அதனுடைய எடையும் சேர்ந்து அடுத்தடுத்த அடுக்குகளில் உள்ள அலகுகளின் மதிப்பை
தீர்மானிப்பதே forward propagation எனப்படும்.

Back propagation

நமது neural network-ல் உள்ள ஒவ்வொரு அலகுக்கும் என்னென்ன எடைகளைப்
பயன்படுத்தினால், தவறுகளைக் குறைக்கலாம் எனக் கண்டுபிடிப்பதே  back
propagation ஆகும் . ஒவ்வொரு அடுக்கிலும் நிகழும் தவறைக் கண்டுபிடிக்க அதன்
partial derivative மதிப்புகள் பின்னிருந்து முன்னாகக் கணக்கிடப்படுகின்றன.
பின்னர் அவைகளை ஒன்று திரட்டி அந்த  network-ன் cost
கண்டுபிடிக்கப்படுகிறது. பொதுவாக gradient descent algorithm -ஆனது குறைந்த
அளவு costவெளிப்படக் கூடிய வகையில் neuron-களின் எடையை அமைக்க இந்த back
propagation -ஐப் பயன்படுத்துகிறது.

delta = error of each node in the corresponding layer

Layer 3 : delta3 = h(x) – y

Layer 2 : delta2 = theeta T .delta3 .* a .* 1-a

Layer 1 : delta 1 = theeta T .delta2 .* a .* 1-a

 
where g'(z) = a .* 1-a = This is g-prime. = derivative of the activation
function g

. * = element-wise multiplication

[]

 
Perceptron

 
Perceptron என்பதே neural networks-க்கான அடிப்படை. இது ஒரு நேர்கோடு மூலம்
பிரிக்க வல்ல தரவுகளுக்கான  binary classification algorithm ஆகும். ஆனால்
இது logistic regression போன்று தனது கற்றலை அமைக்காது. ஒரு நியூரான்
எவ்வாறு கொஞ்சம் கொஞ்சமாக கற்றுக் கொள்கிறதோ அதனை அடிப்படையாக வைத்து,
பயிற்சித் தரவுகளைப் பற்றிப் படிப்படியாகக் கற்றுக் கொள்கிறது. கீழ்க்கண்ட
எடுத்துக்காட்டில் 4 பயிற்சித் தரவுகள் கொடுக்கப்பட்டுள்ளன. அதில் x1, x2
எனும் 2 features-ஐ வைத்து 0 அல்லது 1 எனும் வகையின் கீழ் அமையும் தரவுகள்
பயிற்சிக்கு உள்ளன.

x1 ,  x2 , y
[0.4 ,0.3 ,1],
[0.6 ,0.8 ,1],
[0.7 ,0.5 ,1],
[0.9 ,0.2 ,0]

Neural Networks என்பது நேரடியாக கற்றுக் கொள்ளாமல் இடையில் பல activation
units-ஐ உருவாக்கி அதனடிப்படையில் கற்றுக் கொள்ளும் என்று ஏற்கெனவே
பார்த்தோம். இங்கும்  features-ஐயும் அதனுடைய weights-ஐயும் இணைத்து
நேரடியாக hypothesis-ஐக் கற்றுக் கொள்ளாமல், இடையில் activation unit-ஐக்
கணக்கிடுகிறது. பின்னர் அம்மதிப்பின் அடிப்படையில் தரவுகளுக்கு ஏற்றார்
போன்று  weights-ஐ மாற்றி சரியான முறையில் கற்றுக் கொள்கிறது. இது
பின்வருமாறு. parameters என்பதே இங்கு weights என அழைக்கப்படுகிறது.

https://gist.github.com/nithyadurai87/e6794ec008a7855681db4ba9164b54af 

 
    def predict(row, weights):

        activation = weights[0]

        for i in range(len(row)-1):

            activation += weights[i + 1] * row[i]

        return 1.0 if activation > 0.0 else 0.0  

      
    def train_weights(dataset, l_rate, n_epoch):

        weights = [0.0 for i in range(len(dataset[0]))]

        for epoch in range(n_epoch):

            sum_error = 0.0

            for row in dataset:

                error = row[-1] - predict(row, weights)

                sum_error += error**2

                weights[0] = weights[0] + l_rate * error

                for i in range(len(row)-1):

                    weights[i + 1] = weights[i + 1] + l_rate * error * row[i]

            print('epoch=%d, error=%.2f' % (epoch, sum_error))

        print (weights)

     
    dataset = [[0.4,0.3,1],

     [0.6,0.8,1],

     [0.7,0.5,1],

     [0.9,0.2,0]]

      
    l_rate = 0.1

    n_epoch = 6

    train_weights(dataset, l_rate, n_epoch)

நிரலுக்கான வெளியீடு: 

epoch=0, error=2.00
epoch=1, error=2.00
epoch=2, error=2.00
epoch=3, error=2.00
epoch=4, error=1.00
epoch=5, error=0.00
[0.1, -0.16, 0.06999999999999998]

கணக்கீடுகள் நிகழும் விதம்:  

முதலில் கொடுக்கப்பட்டுள்ள features-வுடன் இணைக்கப்பட வேண்டிய weights-ன்
மதிப்பாக 0, 0, 0 என்பதை வைத்து தனது கற்றலைத் தொடங்குகிறது. முதலில் உள்ள
பூஜ்ஜியம், x0 எனும் bias unit-க்கான மதிப்பாகும். இந்த bias unit
எப்போதும் 1 எனும் மதிப்பையே பெற்றிருக்கும் என ஏற்கெனவே பார்த்தோம்.
அடுத்தடுத்து உள்ள பூஜ்ஜியங்கள் x1, x2 -க்கான weights மதிப்பாகும். இவற்றை
வைத்து பின்வரும் வாய்ப்பாட்டின் மூலம் முதல் தரவுக்கான [0.4 ,0.3 ,1]
activation unit கணக்கிடப்படுகிறது. இதுவே heaviside activation function
என்று அழைக்கப்படுகிறது. sigmoid போன்று இது மற்றொரு வகை.

Activation_unit_1 = w0.x0 + w1.x1 + w2.x2
= 0(1) + 0(0.4) + 0(0.3)
= 0

if Activation_unit > 0, Predict 1
else                            Predict 0.

இவ்வாறு கண்டறிந்த மதிப்பு, 0-ஐ விட அதிகமாக இருந்தால் 1 எனவும்,
இல்லையெனில் 0 எனவும் predict செய்யும். இங்கு 0 என predict செய்யும்.
ஆனால் பயிற்சித் தரவில் 1 என கொடுக்கப்பட்டுள்ளது. இவ்வாறு பயிற்சித்
தரவில் உள்ள மதிப்பு, activation unit கணித்த மதிப்புடன் ஒத்துப்
போகவில்லையெனில்(1 != 0) weights-ன் மதிப்பினை மாற்றி அடுத்த தரவுக்கு
பயிற்சி அளிக்க வேண்டும். பின்வரும் வாய்ப்பாட்டின் மூலம் புதிய weights
கணக்கிடப்படுகிறது.

w0 = w0 + learning_rate * (actual-predict) * x0

இதில் ஒவ்வொரு weight-ம் தன்னுடைய பழைய மதிப்புடன் learning rate-ஐக்
கூட்டுகிறது. இந்த learning rate என்பது gradient descent-ல் நாம்
பயன்படுத்துகின்ற மதிப்பினை ஒத்ததே ஆகும். அதாவது update-ன் அளவானது இந்த
learning rate மூலம் கட்டுப்படுத்தப்படுகிறது. இதன் மதிப்பு 0.1 என
வைக்கப்பட்டுள்ளது. அதாவது மிகச்சிறிய அளவில் இதனுடைய weights, adjust
செய்யப்பட வேண்டும் என்பதையே இது குறிக்கிறது. பின்னர் இக்கூட்டுத்
தொகையுடன் உண்மையான மதிப்புக்கும் - கணிப்புக்கும் உள்ள வேறுபாட்டின்
மதிப்பும், weights இணைக்கப்பட்டுள்ள features-ன் மதிப்பும்
பெருக்கப்படுகிறது. இவ்வாறாக புதிய weight-ன் மதிப்பு கணக்கிடப்படுகிறது.

இந்த வாய்ப்பாட்டைப் பயன்படுத்திக் கணக்கிடப்பட்ட weights-ன் மதிப்புகள்
பின்வருமாறு.
w0 = 0 + 0.1 * 1 * 1 = 0.10
w1 = 0 + 0.1 * 1 * 0.4 = 0.04
w2 = 0 + 0.1 * 1 * 0.3 = 0.03

இத்தகைய புதிய weights-ஐப் பயன்படுத்தி 2-வது தரவுக்கான [0.6 ,0.8 ,1]
activation unit பின்வருமாறு கணக்கிடப்படுகிறது.
Activation_unit_2 = w0.x0 + w1.x1 + w2.x2
= 0.1(1) + 0.04(0.6) + 0.03(0.8)
= 0.1 + 0.024 + 0.024
= 0.148

இங்கு 0-ஐ விட அதிகமாக இருப்பதால் 1 என predict செய்யும். பயிற்சித்
தரவிலும் 1 என உள்ளது. ஆகவே weights-ஐ மாற்றாமல் 3-வது தரவுக்கான [0.7 ,0.5
,1] activation unit கணக்கிடப்படுகிறது.
Activation_unit_3 = w0.x0 + w1.x1 + w2.x2
= 0.1(1) + 0.04(0.7) + 0.03(0.5)
= 0.1 + 0.028 + 0.015
= 0.143

இங்கும் 1 என predict செய்கிறது. பயிற்சித் தரவிலும் 1 என உள்ளது. ஆகவே
weights-ஐ மாற்றாமல் 4-வது தரவுக்கான [0.9 ,0.2 ,0] activation unit
கணக்கிடப்படுகிறது.
Activation_unit_4 = w0.x0 + w1.x1 + w2.x2
= 0.1(1) + 0.04(0.9) + 0.03(0.2)
= 0.1 + 0.036 + 0.006
= 0.142

w0 = 0.1 + 0.1 * -1 * 1 = 0.0
w1 = 0.04 + 0.1 * -1 * 0.9 = -0.05
w2 = 0.03 + 0.1 * -1 * 0.2 = 0.01

இங்கு 1 என கணிக்கிறது. ஆனால் உண்மையில் 0 என உள்ளது. எனவே மீண்டும்
weights கணக்கிடப்படுகிறது. இவ்வாறாக கொடுக்கப்பட்டுள்ள 4 பயிற்சித்
தரவுகளில் 2 சரியாக கணிக்கப்பட்டுள்ளது, 2 தவறாக கணிக்கப்பட்டுள்ளது.
இத்துடன் முதல் epoch முடிகிறது. அதாவது ஒரு சுற்றில் அனைத்துப் பயிற்சித்
தரவுகளும் மேற்கண்ட சோதனைக்கு உட்படுத்தப்பட்டு, algorithm கற்றுக்
கொள்வதையே 1 epoch என்கிறோம். இது பின்வருமாறு.

[]

 
முதல் epoch-ன் கடைசியில் புதிதாக கணக்கிடப்பட்ட மதிப்புகளே அடுத்த
epoch-ன் பயிற்சித் தரவுகளுடன் சேர்த்து பயன்படுத்தப்படுகிறது. இவ்வாறாக 6
முறை epochs கணக்கிடப்படுகிறது. இது பின்வருமாறு.

[]

 
[]

 
[]

 
6-வது epoch-ல் தான், அனைத்துப் பயிற்சித் தரவுகளும் சரியாக
கணிக்கப்படுகின்றன. எனவே அதனுடைய weights-ஐயே பிற்காலத் தரவுகளை
கணிப்பதற்கான algorithm-ன் weights-ஆக நாம் எடுத்துக் கொள்ளலாம். இவ்வாறாக
முதல் தரவின் கணிப்பு சரியாக இருந்தால், அடுத்த தரவிற்குச் செல்லும்.
இல்லையெனில் weights-ஐ மீண்டும் கணக்கிட்டு அடுத்த தரவிற்குச் செல்லும்.
கணிப்புகள் அனைத்தும் சரியாக நிகழும் வரை இதே முறை பின்பற்றப்படுவதால், இது
error-driven learning algorithm என்று அழைக்கப்படுகிறது. இதனடிப்படையில்
அமைகின்ற MLP (Multiple Linear Perceptron) என்பதே neural networks-ஐ
உருவாக்குகிறது.

 
Artificial Neural Networks

ஒரு நியூரான் கற்றுக் கொள்வதை அடிப்படையாக வைத்து கற்றுக் கொள்வது
perceptron என்றால், பல்வேறு நியூரான்களைக் கொண்ட மனித மூளை கற்றுக்
கொள்வதை அடிப்படையாக வைத்து கற்றுக் கொள்வது Multi-layer perceptron ஆகும்.
அதாவது செயல்களை அடிப்படையாகக் கொண்டு நியூரான்கள் கற்கின்றன. நியூரான்கள்
கற்றுக் கொண்டதை வைத்து மனித மூளை கற்கிறது. இதே முறையில் தரவுகளை
அடிப்படையாகக் கொண்டு perceptron கற்கின்றன. Perceptron-களை வைத்து
directed acyclic graph-ஐ உருவாக்கி MLP கற்கிறது. இதுவே Artificial neural
network என்று அழைக்கப்படுகிறது.

Perceptron என்பது நேர்கோடு மூலம் பிரிக்கக்கூடிய தரவுகளை வகைப்படுத்த
உதவும் என்று ஏற்கெனவே பார்த்தோம். Non-linear முறையில் அமைந்துள்ள
தரவுகளைப் பிரிப்பதற்கு MLP-ஐப் பயன்படுத்தலாம். எனவேதான் இது universal
function approximator என்று அழைக்கப்படுகிறது. இது தவிர kernalization
என்ற தத்துவமும் non-linear முறையில் அமைந்துள்ள தரவுகளைப் பிரிப்பதற்கு
உதவும். இதைப்பற்றி SVM என்ற பகுதியில் ஏற்கெனவே பார்த்து விட்டோம்.

கீழ்க்கண்ட எடுத்துக்காட்டில், 16 பயிற்சித் தரவுகள் கொடுக்கப்பட்டுள்ளன. X
-ல் அதனுடைய 2 features-ம், y-ல் அவை எந்த வகையின் கீழ் பிரிக்க வேண்டும்
எனும் விவரமும் பயிற்சிக்கு அளிக்கப்பட்டுள்ளன. 1,2,3 எனும் மூன்று
வகைகளின் கீழ் தரவுகள் பிரிக்கப்படுவதால் இது multi-class
classification-க்கான உதாரணம் ஆகும்.

https://gist.github.com/nithyadurai87/b95e0ccd56464646da32ffdddb8b457f 

 
    from mlxtend.classifier import MultiLayerPerceptron as MLP

    from mlxtend.plotting import plot_decision_regions

    import matplotlib.pyplot as plt

    import numpy as np 

     
    X = np.asarray([[6.1,1.4],[7.7,2.3],[6.3,2.4],[6.4,1.8],[6.2,1.8],[6.9,2.1],

    [6.7,2.4],[6.9,2.3],[5.8,1.9],[6.8,2.3],[6.7,2.5],[6.7,2.3],[6.3,1.9],[6.5,2.1 ],[6.2,2.3],[5.9,1.8]] ) 

     
    X = (X - X.mean(axis=0)) / X.std(axis=0)

     
    y = np.asarray([0,2,2,1,2,2,2,2,2,2,2,2,2,2,2,2]) 

     
    nn = MLP(hidden_layers=[50],l2=0.00,l1=0.0,epochs=150,eta=0.05,

    momentum=0.1,decrease_const=0.0,minibatches=1,random_seed=1,print_progress=3)

    nn = nn.fit(X, y)

     
    fig = plot_decision_regions(X=X, y=y, clf=nn, legend=2)

    plt.show()

    print('Accuracy(epochs = 150): %.2f%%' % (100 * nn.score(X, y)))

     
    nn.epochs = 250

    nn = nn.fit(X, y)

    fig = plot_decision_regions(X=X, y=y, clf=nn, legend=2)

    plt.title('epochs = 250')

    plt.show()                                   

    print('Accuracy(epochs = 250): %.2f%%' % (100 * nn.score(X, y)))

     
    plt.plot(range(len(nn.cost_)), nn.cost_)

    plt.title('Gradient Descent training (minibatches=1)')

    plt.xlabel('Epochs')

    plt.ylabel('Cost')

    plt.show()

     
    nn.minibatches = len(y)

    nn = nn.fit(X, y)

    plt.plot(range(len(nn.cost_)), nn.cost_)

    plt.title('Stochastic Gradient Descent (minibatches=no. of training examples)')

    plt.ylabel('Cost')

    plt.xlabel('Epochs')

    plt.show()

பயிற்சித் தரவுகளைக் கொண்டு MLP-க்குப் பயிற்சி அளிக்கும்போது, அது
பின்வருமாறு தரவுகளைப் பிரிக்கிறது. இதில் 1 எனும் வகையின் கீழ்
பிரிக்கப்பட வேண்டியது அதற்குரிய இடத்தில் சரியாக அமையாமல், 0 எனும்
வகையின்கீழ் பிரிக்கப்பட்டிருப்பதைக் காணலாம்.

[]

 
எனவே MLP-க்குப் பயிற்சி அளிக்கும்போது கொடுக்கப்பட்டுள்ள epochs-ன்
எண்ணிக்கையை 150-லிருந்து 250-என மாற்றி பயிற்சி அளித்துப் பார்க்கவும்.
இப்போது அனைத்துத் தரவுகளும் சரியாக வகைப்படுத்தப்பட்டிருப்பதைக் காணலாம்.

nn.epochs = 250
nn = nn.fit(X, y)
fig = plot_decision_regions(X=X, y=y, clf=nn, legend=2)
plt.title('epochs = 250')
plt.show()

[]

 
எனவேதான் 150 எனும்போது அதன் accuracy 93.75% எனவும், 250 எனும்போது அதன்
accuracy 100.00% எனவும் உயர்ந்திருப்பதைக் காணலாம்.

Iteration: 150/150 | Cost 0.06 | Elapsed: 0:00:00 | ETA:
0:00:00Accuracy(epochs = 150): 93.75%
Iteration: 250/250 | Cost 0.04 | Elapsed: 0:00:00 | ETA:
0:00:00Accuracy(epochs = 250): 100.00%

அடுத்ததாக ஒவ்வொரு epoch-லும் அதன் cost மதிப்பு எவ்வாறு குறைகிறது என்பது
வரைபடமாக வரைந்து காட்டப்படுகிறது. MLP-க்குப் பயிற்சி அளிக்கும்போது
கொடுக்கப்பட்டுள்ள parameter-களில் ஒன்றான minibatches -ன் மதிப்பு 1 என
அமைந்தால் gradient descent முறையில் தரவுகளுக்குப் பயிற்சி
அளிக்கும். இதைப் பற்றித்தான் perceptron-ல் கற்றோம்.

[]

 
அதுவே minibatches -ன் மதிப்பு கொடுக்கப்பட்டுள்ள மாதிரித் தரவுகளின்
எண்ணிக்கையாக அமைந்தால், அது stochastic gradient descent முறையில்
தரவுகளுக்குப் பயிற்சி அளிக்கும். அதாவது ஒவ்வொரு தரவுகளாக சோதித்து
gradient முறையில் cost மதிப்பை குறைத்து வராமல், மொத்தமாக அனைத்துப்
பயிற்சித் தரவுகளையும் எடுத்துக் கொண்டு குறைந்த cost-ஐக் கண்டுபிடிக்க
உதவுவதே stochastic gradient descent ஆகும். எனவேதான் கீழ்க்கண்ட
வரைப்படத்தில், ஒவ்வொரு epoch-லும் அதனுடைய cost மதிப்பு அனைத்துப்
பயிற்சித் தரவுகளையும் சேர்த்து கணக்கிடப்படுவதால், அவை zig-zag வடிவில்
அமைந்திருப்பதைக் காணலாம். மிக அதிக அளவு எண்ணிக்கையில் பயிற்சித் தரவுகள்
இருக்கும்போது, gradient descent அவை அனைத்தையும் ஒவ்வொன்றாக ஆராய்ந்து
global optimum சென்றடைய மிகுந்த நேரம் பிடிக்கும். ஆகையால், இது போன்ற
தருணங்களில் stochastic-ஐப் பயன்படுத்தலாம். இதுவே batch gradient descent
என்றும் அழைக்கப்படுகிறது.

[]

 
முடிவுரை

இத்துடன் இயந்திரவழிக் கற்றல் முடிவடைந்து விடவில்.லை. Deep Learning, AI,
Neural Networks என்று பல்வேறு புதுமைகள் கணினி உலகில் நடந்து வருகின்றன.
அவற்றை இணையத்தில் கிடைக்கும் பாடங்கள், வலைப்பதிவுகள், StackOverFlow
போன்ற தளங்கள், காணொளிகள் வழியே தொடர்ந்து கற்று வர வேண்டுகிறேன்.

 
நன்றி

 
காணொளிகள்

பின் வரும் YouTube Playlist ல் எனது காணொளிகளைக் காணலாம்

https://www.youtube.com/watch?v=iHG8We58HVY&list=PL5itdT07Pm8wxRaPWljPntnBmnOs4ExDM

Ml-01 introduction to machine learning in tamil - இயந்திர வழிக் கற்றல் -
ஒரு அறிமுகம் https://www.youtube.com/watch?v=iHG8We58HVY 

ML-02 Introduction to Machine Learning Algorithms in Tamil
https://www.youtube.com/watch?v=AYMuT05i4gE

ML-03 Pandas - ஒரு அறிமுகம் - Introduction to Pandas in Tamil
https://www.youtube.com/watch?v=1jrK84iZv7g

ML-04 Machine Learning Model Creation in Tamil
https://www.youtube.com/watch?v=Nz6iJQZli-k

ML-05 Machine Learning Model - Prediction - in Tamil
https://www.youtube.com/watch?v=Q5HMDKepzRc

ML-06 Feature Selection - Manipulated variable - Disturbance Variable
https://www.youtube.com/watch?v=H85tTH_HFMw

ML-07 Feature Selection - Process Variable - RFE Technique - In Tamil
https://www.youtube.com/watch?v=Dyq1K24v1so

ML 08 - Machine Learning in Tamil - 08 - Improving Model Score
https://www.youtube.com/watch?v=6c1vCfFI6qI

 
ML 09 - Machine Learning in Tamil - Outliers Removal
https://www.youtube.com/watch?v=SfBNynpsoy0

ML 10 - Machine Learning in Tamil - Explanatory data Analysis
https://www.youtube.com/watch?v=SliSuYJ-xiU

ML 11 - Machine Learning in Tamil - Simple Linear Regression
https://www.youtube.com/watch?v=QB36E9yvlPI

ML 12 - Machine Learning in Tamil - Gradient Descent
https://www.youtube.com/watch?v=_3Cfw2gmQhI

ML 13 - Machine Learning in Tamil - Multiple Linear Regression
https://www.youtube.com/watch?v=ECK4bjIrWjw

ML 14 - Machine Learning in Tamil - Polynomial Regression
https://www.youtube.com/watch?v=8dJML0Xvzro

 
ML 15 - Machine Learning in Tamil - Feature extraction using vectors
https://www.youtube.com/watch?v=-Xktzn9XxGg

ML 16 - Machine Learning in Tamil - Natual Language ToolKit
https://www.youtube.com/watch?v=yZLG5hOIvPM

ML 17 - Machine Learning in Tamil - Logistic Regression
https://www.youtube.com/watch?v=dXEnjS7Xjqs

ML 18 - Machine Learning in Tamil - Multi class classification
https://www.youtube.com/watch?v=R_1XGh0lEoA

ML 19 - Machine Learning in Tamil - Neural Networks
https://www.youtube.com/watch?v=8pOBrF7bfqs

 
ஆசிரியரின் பிற மின்னூல்கள்

http://freetamilebooks.com/authors/nithyaduraisamy/  

 
[]

 
 கணியம் பற்றி

இலக்குகள்

கட்டற்ற கணிநுட்பத்தின் எளிய விஷயங்கள் தொடங்கி அதிநுட்பமான அம்சங்கள் வரை
அறிந்திட விழையும் எவருக்கும் தேவையான தகவல்களை தொடர்ச்சியாகத் தரும்
தளமாய் உருபெறுவது.

-   உரை, ஒலி, ஒளி என பல்லூடக வகைகளிலும் விவரங்களை தருவது.

-   இத்துறையின் நிகழ்வுகளை எடுத்துரைப்பது.

-   எவரும் பங்களிக்க ஏதுவாய் யாவருக்குமான நெறியில் விவரங்களை வழங்குவது.

-   அச்சு வடிவிலும், புத்தகங்களாகவும், வட்டுக்களாகவும் விவரங்களை
    வெளியிடுவது.

பங்களிக்க

-   விருப்பமுள்ள எவரும் பங்களிக்கலாம்.

-   கட்டற்ற கணிநுட்பம் சார்ந்த விஷயமாக இருத்தல் வேண்டும்.

-   பங்களிக்கத் தொடங்கும் முன்னர் கணியத்திற்கு உங்களுடைய பதிப்புரிமத்தை
    அளிக்க எதிர்பார்க்கப்படுகிறீர்கள்.

-   editor@kaniyam.com முகவரிக்கு கீழ்க்கண்ட விவரங்களடங்கிய மடலொன்றை
    உறுதிமொழியாய் அளித்துவிட்டு யாரும் பங்களிக்கத் தொடங்கலாம்.  

    -   மடலின் பொருள்: பதிப்புரிமம் அளிப்பு  

    -   மடல் உள்ளடக்கம்  

        -   என்னால் கணியத்திற்காக அனுப்பப்படும் படைப்புகள் அனைத்தும்
            கணியத்திற்காக முதன்முதலாய் படைக்கப்பட்டதாக உறுதியளிக்கிறேன்.

        -   இதன்பொருட்டு எனக்கிருக்கக்கூடிய பதிப்புரிமத்தினை
            கணியத்திற்கு வழங்குகிறேன்.

        -   உங்களுடயை முழுப்பெயர், தேதி.

-   தாங்கள் பங்களிக்க விரும்பும் ஒரு பகுதியில் வேறொருவர் ஏற்கனவே
    பங்களித்து வருகிறார் எனின் அவருடன் இணைந்து பணியாற்ற முனையவும்.

-   கட்டுரைகள் மொழிபெயர்ப்புகளாகவும், விஷயமறிந்த ஒருவர் சொல்லக் கேட்டு
    கற்று இயற்றப்பட்டவையாகவும் இருக்கலாம்.

-   படைப்புகள் தொடர்களாகவும் இருக்கலாம்.

-   தொழில் நுட்பம், கொள்கை விளக்கம், பிரச்சாரம், கதை, கேலிச்சித்திரம்,
    நையாண்டி எனப் பலசுவைகளிலும் இத்துறைக்கு பொருந்தும்படியான ஆக்கங்களாக
    இருக்கலாம்.

-   தங்களுக்கு இயல்பான எந்தவொரு நடையிலும் எழுதலாம்.

-   தங்களது படைப்புகளை எளியதொரு உரை ஆவணமாக editor@kaniyam.com
    முகவரிக்குஅனுப்பிவைக்கவும்.

-   தள பராமரிப்பு, ஆதரவளித்தல் உள்ளிட்ட ஏனைய விதங்களிலும் பங்களிக்கலாம்.

-   ஐயங்களிருப்பின் editor@kaniyam.com மடலியற்றவும்.

விண்ணப்பங்கள்

-   கணித் தொழில்நுட்பத்தை அறிய விழையும் மக்களுக்காக மேற்கொள்ளப்படும்
    முயற்சியாகும் இது.

-   இதில் பங்களிக்க தாங்கள் அதிநுட்ப ஆற்றல் வாய்ந்தவராக இருக்க வேண்டும்
    என்ற கட்டாயமில்லை.

-   தங்களுக்கு தெரிந்த விஷயத்தை இயன்ற எளிய முறையில் எடுத்துரைக்க ஆர்வம்
    இருந்தால் போதும்.

-   இதன் வளர்ச்சி நம் ஒவ்வொருவரின் கையிலுமே உள்ளது.

-   குறைகளிலிருப்பின் முறையாக தெரியப்படுத்தி முன்னேற்றத்திற்கு வழி
    வகுக்கவும்.

வெளியீட்டு விவரம்

பதிப்புரிமம் © 2019 கணியம்.
கணியத்தில் வெளியிடப்படும் கட்டுரைகள்
http://creativecommons.org/licenses/by-sa/3.0/  பக்கத்தில் உள்ள
கிரியேடிவ் காமன்ஸ் நெறிகளையொத்து வழங்கப்படுகின்றன.

இதன்படி,
கணியத்தில் வெளிவரும் கட்டுரைகளை கணியத்திற்கும் படைத்த எழுத்தாளருக்கும்
உரிய சான்றளித்து, நகலெடுக்க, விநியோகிக்க, பறைசாற்ற, ஏற்றபடி அமைத்துக்
கொள்ள, தொழில் நோக்கில் பயன்படுத்த அனுமதி வழங்கப்படுகிறது.

ஆசிரியர்: த. சீனிவாசன் – editor@kaniyam.com  +91 98417 95468
 

கட்டுரைகளில் வெளிப்படுத்தப்படும் கருத்துக்கள் கட்டுரையாசிரியருக்கே உரியன

கணியம் அறக்கட்டளை

[]

rect224

 
தொலை நோக்கு – Vision

தமிழ் மொழி மற்றும் இனக்குழுக்கள் சார்ந்த மெய்நிகர்வளங்கள், கருவிகள்
மற்றும் அறிவுத்தொகுதிகள், அனைவருக்கும்  கட்டற்ற அணுக்கத்தில் கிடைக்கும்
சூழல்

பணி இலக்கு  – Mission

அறிவியல் மற்றும் சமூகப் பொருளாதார வளர்ச்சிக்கு ஒப்ப, தமிழ் மொழியின்
பயன்பாடு வளர்வதை உறுதிப்படுத்துவதும், அனைத்து அறிவுத் தொகுதிகளும்,
வளங்களும் கட்டற்ற அணுக்கத்தில் அனைவருக்கும் கிடைக்கச்செய்தலும்.

 
தற்போதைய செயல்கள்

-   கணியம் மின்னிதழ் – kaniyam.com

-   கிரியேட்டிவ் காமன்சு உரிமையில் இலவச தமிழ் மின்னூல்கள் –
    FreeTamilEbooks.com  

கட்டற்ற மென்பொருட்கள்

-   உரை ஒலி மாற்றி –  Text to Speech

-   எழுத்துணரி – Optical Character Recognition

-   விக்கிமூலத்துக்கான எழுத்துணரி

-   மின்னூல்கள் கிண்டில் கருவிக்கு அனுப்புதல் – Send2Kindle

-   விக்கிப்பீடியாவிற்கான சிறு கருவிகள்

-   மின்னூல்கள் உருவாக்கும் கருவி

-   உரை ஒலி மாற்றி – இணைய செயலி

-   சங்க இலக்கியம் – ஆன்டிராய்டு செயலி

-   FreeTamilEbooks – ஆன்டிராய்டு செயலி

-   FreeTamilEbooks – ஐஒஎஸ் செயலி

-   WikisourceEbooksReport இந்திய மொழிகளுக்ககான விக்கிமூலம் மின்னூல்கள்
    பதிவிறக்கப் பட்டியல்

-   FreeTamilEbooks.com – Download counter மின்னூல்கள் பதிவிறக்கப்
    பட்டியல்  

அடுத்த திட்டங்கள்/மென்பொருட்கள் 

-   விக்கி மூலத்தில் உள்ள மின்னூல்களை பகுதிநேர/முழு நேரப் பணியாளர்கள்
    மூலம் விரைந்து பிழை திருத்துதல்

-   முழு நேர நிரலரை பணியமர்த்தி பல்வேறு கட்டற்ற மென்பொருட்கள்
    உருவாக்குதல்

-   தமிழ் NLP க்கான பயிற்சிப் பட்டறைகள் நடத்துதல்

-   கணியம் வாசகர் வட்டம் உருவாக்குதல்

-   கட்டற்ற மென்பொருட்கள், கிரியேட்டிவ் காமன்சு உரிமையில் வளங்களை
    உருவாக்குபவர்களைக் கண்டறிந்து ஊக்குவித்தல்

-   கணியம் இதழில் அதிக பங்களிப்பாளர்களை உருவாக்குதல், பயிற்சி அளித்தல்  

-   மின்னூலாக்கத்துக்கு ஒரு இணையதள செயலி

-   எழுத்துணரிக்கு ஒரு இணையதள செயலி

-   தமிழ் ஒலியோடைகள் உருவாக்கி வெளியிடுதல்

-   OpenStreetMap.org ல் உள்ள இடம், தெரு, ஊர் பெயர்களை தமிழாக்கம்
    செய்தல்

-   தமிழ்நாடு முழுவதையும் OpenStreetMap.org ல் வரைதல்

-   குழந்தைக் கதைகளை ஒலி வடிவில் வழங்குதல்

-   Ta.wiktionary.org ஐ ஒழுங்குபடுத்தி API க்கு தோதாக மாற்றுதல்

-   Ta.wiktionary.org க்காக ஒலிப்பதிவு செய்யும் செயலி உருவாக்குதல்

-   தமிழ் எழுத்துப் பிழைத்திருத்தி உருவாக்குதல்

-   தமிழ் வேர்ச்சொல் காணும் கருவி உருவாக்குதல்

-   எல்லா FreeTamilEbooks.com மின்னூல்களையும் Google Play Books,
    GoodReads.com ல் ஏற்றுதல்

-   தமிழ் தட்டச்சு கற்க இணைய செயலி உருவாக்குதல்

-   தமிழ் எழுதவும் படிக்கவும் கற்ற இணைய செயலி உருவாக்குதல் (
    aamozish.com/Course_preface போல)

 
மேற்கண்ட திட்டங்கள், மென்பொருட்களை உருவாக்கி செயல்படுத்த உங்கள் அனைவரின்
ஆதரவும் தேவை. உங்களால் எவ்வாறேனும் பங்களிக்க இயலும் எனில் உங்கள்
விவரங்களை  kaniyamfoundation@gmail.com க்கு மின்னஞ்சல் அனுப்புங்கள்.

 
வெளிப்படைத்தன்மை

கணியம் அறக்கட்டளையின் செயல்கள், திட்டங்கள், மென்பொருட்கள் யாவும்
அனைவருக்கும் பொதுவானதாகவும், 100% வெளிப்படைத்தன்மையுடனும் இருக்கும்.
இந்த இணைப்பில் செயல்களையும், இந்த இணைப்பில் மாத அறிக்கை, வரவு செலவு
விவரங்களுடனும் காணலாம்.

கணியம் அறக்கட்டளையில் உருவாக்கப்படும் மென்பொருட்கள் யாவும் கட்டற்ற
மென்பொருட்களாக மூல நிரலுடன், GNU GPL, Apache, BSD, MIT, Mozilla ஆகிய
உரிமைகளில் ஒன்றாக வெளியிடப்படும். உருவாக்கப்படும் பிற வளங்கள்,
புகைப்படங்கள், ஒலிக்கோப்புகள், காணொளிகள், மின்னூல்கள், கட்டுரைகள் யாவும்
யாவரும் பகிரும், பயன்படுத்தும் வகையில் கிரியேட்டிவ் காமன்சு உரிமையில்
இருக்கும்.

நன்கொடை

உங்கள் நன்கொடைகள் தமிழுக்கான கட்டற்ற வளங்களை உருவாக்கும் செயல்களை சிறந்த
வகையில் விரைந்து செய்ய ஊக்குவிக்கும்.

பின்வரும் வங்கிக் கணக்கில் உங்கள் நன்கொடைகளை அனுப்பி, உடனே விவரங்களை
kaniyamfoundation@gmail.com க்கு மின்னஞ்சல் அனுப்புங்கள். 

 
Kaniyam Foundation
Account Number : 606 1010 100 502 79

Union Bank Of India
West Tambaram, Chennai

IFSC – UBIN0560618

Account Type : Current Account

 
UPI செயலிகளுக்கான QR Code

 
குறிப்பு: சில UPI செயலிகளில் இந்த QR Code வேலை செய்யாமல் போகலாம்.
அச்சமயம் மேலே உள்ள வங்கிக் கணக்கு எண், IFSC code ஐ பயன்படுத்தவும்.

Note: Sometimes UPI does not work properly, in that case kindly use
Account number and IFSC code for internet banking.

[]