[] []       எளிய தமிழில் Pandas     து.நித்யா  nithyadurai87@gmail.com       மின்னூல் வெளியீடு :   கணியம் அறக்கட்டளை   kaniyam.com            அட்டைப்படம் - லெனின் குருசாமி guruleninn@gmail.com   மின்னூலாக்கம் : த. சீனிவாசன் tshrinivasan@gmail.com    உரிமை :   Creative Commons Attribution - ShareAlike 4.0 International License.              Pandas என்பது Python மொழி மூலம் வெள்ளமெனப் பெருகி வரும் தகவல்களை எளிதில் கையாள உதவுகிறது.   இந்த நூலைப் படிக்க, பைத்தான் மொழியின் அறிமுகம் அவசியம்.   பல்வேறு வகைகளில், வடிவங்களில் தகவல் இருப்பதால், அவற்றில் இருந்து தேவையான விவரங்களைப் பெறுவது கடினம். ஆனால் ஓஓஓ மூலம், தகவல்களை எளிதில் உருமாற்றி, அவற்றின் பின் உள்ள விவரங்களைப் பெற்று, முக்கிய முடிவுகளை எடுக்கப் பயன்படுத்தலாம்.   சென்னையில் நடைபெற்று வரும்  மூன்றாவது 'தமிழ் கட்டற்ற மென்பொருள் மாநாடு 2023' ல் இந்த மின்னூலை வெளியிடுவதில் பெருமகிழ்ச்சி.   தமிழில் கட்டற்ற மென்பொருட்கள் பற்றிய தகவல்களை “கணியம்" மின் இதழ், 2012 முதல் வெளியிட்டு வருகிறது.இதில் வெளியான Pandas பற்றிய கட்டுரைககளை இணைத்து ஒரு முழு புத்தகமாக வெளியிடுவதில் பெரு மகிழ்ச்சி கொள்கிறோம். உங்கள் கருத்துகளையும், பிழை திருத்தங்களையும் editor@kaniyam.com க்கு மின்னஞ்சல் அனுப்பலாம். https://kaniyam.com/learn-pandas-in-tamil-ebook என்ற முகவரியில் இருந்து இந்த நூலை பதிவிறக்கம் செய்யலாம். உங்கள் கருத்துகளையும் இங்கே பகிரலாம்.  படித்து பயன் பெறவும், பிறருடன் பகிர்ந்து மகிழவும் வேண்டுகிறோம். கணியம் இதழை தொடர்ந்து வளர்க்கும் அனைத்து அன்பர்களுக்கும் எமது நன்றிகள்.   த.சீனிவாசன் tshrinivasan@gmail.com ஆசிரியர் கணியம் editor@kaniyam.com    உரிமை இந்த நூல் கிரியேடிவ் காமன்ஸ் என்ற உரிமையில் வெளியிடப்படுகிறது . இதன் மூலம், நீங்கள் - யாருடனும் பகிர்ந்து கொள்ளலாம். - திருத்தி எழுதி வெளியிடலாம். - வணிக ரீதியிலும்யன்படுத்தலாம். ஆனால், மூலப் புத்தகம், ஆசிரியர் மற்றும் www.kaniyam.com பற்றிய விவரங்களை சேர்த்து தர வேண்டும். இதே உரிமைகளை யாவருக்கும் தர வேண்டும். கிரியேடிவ் காமன்ஸ் என்ற உரிமையில் வெளியிட வேண்டும்.  நூல் மூலம் : http://static.kaniyam.com/ebooks/Learn-Pandas-in-Tamil.odt   This work is licensed under a Creative Commons Attribution-ShareAlike 3.0 Unported License.  [] []     ஆசிரியர் உரை   பாண்டாஸ் பற்றிய என்னுடைய ஆசிரியர் உரையைத் துவங்குவதற்கு முன் ஒரு சின்ன பிளாஷ்பேக். அப்போதுதான் உங்களால் எதற்காக நான் இவ்வாறு எழுதியுள்ளேன் என்பதைப் புரிந்து கொள்ள முடியும்.    நான் கல்லூரி படிக்கும் போது Data Structures என்றொரு பாடம் உண்டு.  அப்பாடவேளையின்போது Data )( என போர்டில் எழுதிப்போட்டு அனைவரையும் சிரிக்க வைத்துக் கொண்டிருந்தேன். ஆசிரியர் வருவதற்குள் அழித்து விடலாம் என்றே நினைத்தேன். ஆனால் அதற்குள் வந்துவிட்டார். போர்டில் Data )( என எழுதியிருப்பதைப் பார்த்து பொம்பள புள்ளங்க மாதிரியா நடந்துக்குறீங்க (அது மகளிர் கல்லூரி) எனத் திட்டிவிட்டு பாடம் எடுக்கத் தொடங்கினார்.     அன்று முதல் இன்று வரை Data Structure என்றாலே ஒரு நல்ல உடற்கட்டு வடிவம்தான் என் நினைவுக்கு வரும். இது வயதுக் கோளாறா அல்லது சினிமாவின் தாக்கமா என்பது தெரியவில்லை. வயதுக் கோளாறாக இருந்தால் அது இந்நேரம் சரியாகியிருக்கும். ஏனெனில் கோளாறு பிடித்த வயதை நான் எப்போதோ தாண்டிவிட்டேன். ஆனால் இப்போதும் கூட data structure அல்லது structure of algorithm என்பது போன்ற வார்த்தைகளைக் கேட்டாலோ அல்லது ஸ்ட்ரக்சர் எனும் வார்த்தையை வேறு எந்த ஒரு வார்த்தையுடன் தொடர்புபடுத்திக் கேட்டாலோ உடனே என் நினைவுக்கு வருவது ஒரு நல்ல உடற்கட்டு வடிவம் தான். ஆகவே தான் பல்வேறு டேட்டா ஸ்ட்ரக்சரைக் கையாள்வதற்கு உதவும் பாண்டாசைப் புரிந்து கொள்வதிலும் நான் இதே வழிமுறையைக் கையாண்டுள்ளேன். அதையே இங்கு ஆசிரியர் உரையாகவும் எழுதியுள்ளேன்.     மாடலிங், பளு தூக்குதல், டான்ஸ், அதெலடிக்ஸ் போன்ற பல்வேறு துறைகளில் ஜொலிக்க விரும்பும் பெண்கள், அத்துறைகளில் நேரடியாக களம் இறங்குவதற்கு முன்னர் முதலில் ஜிம் சென்று அவரவர் உடல்களை தயார் செய்வார்கள்.  அதே போல Big Data, Machine Learning, Data Analytics, IOT போன்ற பல ஜொலிக்கும் துறைகளில் பயன்படுத்தப்படும் தரவுகள் நேரடியாக களம் இறக்கப்படுவதற்கு முன்னர் அதனை நேர்த்தியாக வடிவமைக்க பாண்டாஸ் உதவுகிறது.        அதாவது பல்வேறு வடிவ அமைப்புகளில் ஜிம்முக்கு வரும் பெண்களை பிரத்யேக வழிமுறைகளைக் கொண்டு கையாண்டு தகுந்த உடற்கட்டுடன் அவரவர் விரும்பும் துறைகளுக்குச் செல்ல உதவும் ஜிம் போல, பல்வேறு வடிவ அமைப்புகளில் வரும் தரவுகளை பிரத்யேக வழிமுறைகளைக் கொண்டு கையாண்டு நாம் பயன்படுத்துவதற்குத் தக்க வடிவமைப்பில் மாற்றி அளிக்க இத்தகைய பாண்டாஸ் பயன்படுகிறது.     ஜிம் என்பது எவ்வாறு ஒவ்வொருவருடைய வடிவ அமைப்புக்கும் ஏற்றவாறு cardio, jumping jacks போன்ற ஒருசில பிரத்தியேக முறைகள் மூலம் அவரவர் விரும்பும் வடிவங்களான zerofit, biceps, muscle strengthening, body building போன்றவற்றைப் பெற உதவுகின்றதோ, அதே போல பாண்டாஸ் என்பதும் ஒவ்வொரு வகையான தரவின் வடிவ அமைப்புக்கும் ஏற்றவாறு (1D 2D or 3D data, time series data, categorical data like that) ஒருசில பிரத்தியேக முறைகள் மூலம் (Series, Data frame, Panel) நாம் பயன்படுத்துவதற்குத் தக்க வடிவமைப்பில் மாற்றி வழங்கப் பயன்படுகின்றது.     Big Data, Machine Learning, Data Analytics, IOT போன்ற துறைகளில் புழங்கப்படும் தரவுகளை எவ்வாறு pandas மூலம் கையாள்வது என்பதற்கு தேவையான அடிப்படைகளை இப்புத்தகம் எளிமையாக வழங்குகிறது.     தொடர்ந்து ஊக்கம் அளிக்கும் என் குடும்பத்தினருக்கும், கணியம் குழுவினருக்கும், FreeTamilEbooks.com குழுவினருக்கும், வாசகர்களுக்கும் நன்றிகள்.   []                   து. நித்யா மிசிசாகா, ஒன்றாரியோ, கனடா 16 செப்டம்பர் 2023    மின்னஞ்சல்: nithyadurai87@gmail.com  வலை பதிவு: http://nithyashrinivasan.wordpress.com    உதாரணங்கள்   இந்த நூலில் உள்ள Pandas உதாரணங்கள் யாவும் https://gist.github.com/nithyadurai87  இங்கே உள்ளன.          பொருளடக்கம் 1 எளிய தமிழில் Pandas-1 14  1.1 Data Types – Series, DataFrame, Panel 15  2 எளிய தமிழில் Pandas-2 24  2.1 Row & Column References 24  3 எளிய தமிழில் Pandas-3 30  3.1 DataFrame creation – Multiple ways 30  3.1.1 From list of dicts 32  3.1.3 From dict of lists 34  3.1.4 From dict of series 34  3.1.5 From csv file 36  4 எளிய தமிழில் Pandas-4 42  4.1 Attributes for Series, Dataframe, Panel 42  5 எளிய தமிழில் Pandas-5 52  5.1 Text Processing 52  6 எளிய தமிழில் Pandas-6 58  6.1 Location & Display properties 58  7 எளிய தமிழில் Pandas-7 68  7.1 SQL Operations 68  7.1.1 Limit clause 70  7.1.2 Where condition 70  7.1.3 Grouping 71  7.1.4 Combining data frames 73  7.1.5 Joins 74  7.1.6 Sorting 75  8 எளிய தமிழில் Pandas-8 78  8.1 Loops & Functions 78  9 எளிய தமிழில் Pandas-9 84  9.1 Metrics 84  9.1.1 Percentage Change 86  9.1.2 Covariance 86  9.1.3 Correlation 87  9.1.4 Ranks 89  9.1.5 Rolling 89  9.1.6 Expanding 91  9.1.7 Exponential weighted functions 92  10 எளிய தமிழில் Pandas-10 95  10.1 Handling Null values 95  11 எளிய தமிழில் Pandas-11 100  11.1 Handling DateTime 100  11.1.1 Supported format 102  11.1.2 Timedelta 103  11.1.3 Date Range 104  11.1.4 Business dates 106  11.1.5 Period Range 106  11.1.6 DateTime & Timestamp 107  12 எளிய தமிழில் Pandas-12 109  12.1 Handling Categorical data 109  13 எளிய தமிழில் Pandas-13_Final 117  13.1 Real-time Example 117  14 முடிவுரை 126  15 நூலாசிரியரின் பிற மின்னூல்கள் 127  16 கணியம் அறக்கட்டளை 129  16.1 தொலை நோக்கு - Vision 129  16.2 பணி இலக்கு  - Mission 129    எளிய தமிழில் Pandas-1   Pandas என்பது தரவுகளை வைத்து பல்வேறு ஆய்வினை நிகழ்த்துவதற்கு உதவும் வகையில் தரவினைப் பல்வேறு வடிவங்களில் சேமிக்கப் பயன்படுகிறது. Series, Dataframe, Panel ஆகியவை பாண்டாஸ் பயன்படுத்துகின்ற தரவு வடிவங்களாகும். இவை முறையே ஒருபரிமாண இருபரிமாண மற்றும் முப்பரிமாண வடிவில் அமையும் தரவுகளை சேமிக்கப் பயன்படுகின்றன. எடுத்துக்காட்டாக நமது அரசாங்கத்தில் என்னென்ன துறைகள் உள்ளன என்பதை வரிசையாக ஒன்றன்பின் ஒன்றாக எழுதி சேமிக்க series-ஐப் பயன்படுத்தலாம் (1D data). அதாவது துறைகள் எனும் இந்த ஒரு பரிமாணத்தில் மட்டும்தான் தரவுகள் சேமிக்கப்படுகின்றன. அதுவே ஒவ்வொரு துறையிலும் எவ்வளவு பேர் பணிபுரிகின்றனர் (2D data) என்பதை சேமிக்க விரும்பினால் dataframe-ஐப் பயன்படுத்தலாம். ஏனெனில் துறைகள், பணியாளர்கள் எனும் இரண்டு பரிமாணங்களில் தரவுகள் சேமிக்கப்படுகின்றன.   இன்னும் விரிவாக ஒவ்வொரு மாநிலத்திலும் உள்ள பல்வேறு துறைகளில் எத்தனை எத்தனை பேர் பணிபுரிகின்றனர் (3D data) என்பதை சேமிக்க விரும்பினால் Panel-ஐப் பயன்படுத்தலாம். ஏனெனில் மாநிலங்கள், அதில் உள்ள துறைகள், அவ்வொவ்வொன்றிலும் உள்ள பணியாளர்கள் எனும் மூன்று பரிமாணங்களில் இங்கு தரவுகள் சேமிக்கப்படும்.   மேலும் எண்கள், சொற்கள், categorical data, time series data போன்ற எந்த வகையான தரவுகளாக இருந்தாலும் அவற்றை நாம் சேமிக்கலாம். ஒவ்வொரு தரவு வடிவத்திற்கும் தனித்தனியான பண்புகள் உள்ளன. அவற்றை அணுகுவதற்கும் பயன்படுத்துவதற்கும் பல்வேறு வழிமுறைகளும் விதிமுறைகளும் உள்ளன. இவற்றைப் பற்றியெல்லாம் இப்புத்தகத்தில் காண்போம்.   முதலில் pandas பயன்படுத்தும் தரவு வடிவங்களைப் பற்றி விளக்கமாகக் காண்போம்.     Data Types – Series, DataFrame, Panel   Series என்பது ஒரே வகையான தரவினை மட்டும் சேமிக்கப் பயன்படுகிறது. எனவேதான் இது dtype எனும் பண்பினைப் பெற்று விளங்குகிறது.   Dataframe என்பது பல்வேறு வகையான தரவுகளை பல்வேறு சீரீஸில் சேமிக்கிறது. எனவே இதன் வடிவம் excel sheet-ல் உள்ளது போன்று row, column வடிவில் இருக்கும். இதிலுள்ள ஒவ்வொரு column-ம் தனித்தனி சீரீஸ் ஆகும். ஒரு சீரீஸில் int வகையான மதிப்புகள் காணப்படும். அடுத்த சீரீஸில் string வகையான மதிப்புகள் இருக்கலாம். அதற்கடுத்தது datetime மதிப்பினைப் பெற்று விளங்கலாம். இதுபோன்று வெவ்வேறு வகையான மதிப்பினை பெற்று விளங்கும் பல்வேறு சீரீஸின் தொகுப்பே டேட்டாஃப்பிரேம் ஆகும். எனவேதான் இதற்கு dtype என்ற பொதுப்பண்பு கிடையாது. வேண்டுமானால் ஒவ்வொரு series-க்குமான dtype மதிப்பை இது தனித்தனியே வெளிப்படுத்தும்.   Panel என்பது இத்தகைய டேட்டாஃப்பிரேம்களின் தொகுப்பு ஆகும். அதாவது ஒரு excelbook-ல் பல்வேறு sheets இருக்குமல்லவா! அந்த ஒவ்வொரு ஷீட்டிலும் rows, columns-ல் அமைந்த பல்வேறு தரவுகள் இருக்குமல்லவா! அதுபோலத்தான் பேனல் என்பது பல டேட்டாஃப்பிரேமை உள்ளடக்கியது. அதன் ஒவ்வொரு டேட்டாஃப்பிரேமும் rows, columns-ல் அமைந்த பல்வேறு தரவுகளைப் பெற்றிருக்கும்.   கீழ்க்கண்டவாறு நிரலை எழுதி இயக்கிப் பார்த்தால் இவற்றைப் பற்றிய புரிதல் உங்களுக்குத் தெளிவாகப் புலப்படும்.      import pandas as pd print (pd.Serie s()) print (pd.DataFrame()) print (pd.Panel())   l1 = [90,83,67,83,45] s = pd.Series(l1) print (s)   df = pd.DataFrame(l1) print (df)   l2 = [[90,83,67,83,45],[68,89,75,56,73],[58,88,60,90,100]] df = pd.DataFrame(l2) print (df)   d1 = {'Midterm': pd.DataFrame([[90,83,67,83,45],[68,89,75,56,73],[58,88,60,90,100]]), 'Quarterly': pd.DataFrame([[35,44,65,56,79],[85,55,84,50,99],[65,90,87,69,78]]), 'Half early': pd.DataFrame([[80,78,90,68,66],[35,89,67,79,90],[67,89,59,90,45]]), 'Annual': pd.DataFrame([[90,94,58,69,84],[95,68,57,89,96],[90,58,67,96,78]])}   p = pd.Panel(d1) print (p) print (p['Midterm']) print (p.major_xs(1)) print (p.minor_xs(1))   print (s.dtype) # This attribute available only for series print (df.dtypes)   print (df[1].dtype)   code link -  01_pandas_datatypes.py    நிரலுக்கான விளக்கம்: எந்த ஒரு தகவலையும் பெற்றிராத காலியான சீரீஸ், டேட்டாஃப்பிரேம், பேனலின் வெளிப்பாடு பின்வருமாறு இருக்கும். print (pd.Series()) Series([], dtype: float64) print (pd.DataFrame()) Empty DataFrame Columns: [] Index: [] print (pd.Panel()) Dimensions: 0 (items) x 0 (major_axis) x 0 (minor_axis) Items axis: None Major_axis axis: None Minor_axis axis: None   ஒரு மாணவன் ஐந்து பாடத்திலும் பெற்ற மதிப்பெண்களை சேமிக்க இங்கு சீரீஸ் பயன்பட்டுள்ளது. அம்மதிப்பெண்கள் முதலில் ஒரு பட்டியலுக்குள் இடப்பட்டு, பின்னர் அப்பட்டியல் Series() –க்குள் செலுத்தப்பட்டுள்ளது. இதனை பிரிண்ட் செய்து பார்த்தால் அது பின்வருமாறு வெளிப்படுத்துவதைக் காணலாம். dtype என்ற பண்பு இதில் int64 வகையிலான தரவுகள் சேமிக்கப் பட்டுள்ளன என்பதை வெளிப்படுத்தியுள்ளது.   l1 = [90,83,67,83,45] s = pd.Series(l1) print (s) 0 90 1 83 2 67 3 83 4 45 dtype: int64     அதேபோல மூன்று மாணவர்கள் ஐந்து பாடத்திலும் பெற்ற மதிப்பெண்களை சேமிக்க இங்கு டேட்டாஃப்பிரேம் பயன்பட்டுள்ளது. மூன்று மாணவர்களை rows-ஆகவும், ஐந்து பாடங்களை columns-ஆகவும் வைத்து இங்கு தரவுகள் சேமிக்கப்பட்டுள்ளன. rows என்பது index என்று அழைக்கப்படுகிறது. 0,1,2 ஆகியவை மூன்று மாணவர்களுக்கான இன்டெக்ஸ் ஆகும். 0,1,2,3,4 ஆகிய எண்களால் ஐந்து பாடங்களும் குறிக்கப்படுகின்றன. இந்த ஒவ்வொரு column-ம் ஒவ்வொரு தனித்தனி சீரீஸ் ஆகும்.   l2 = [[90,83,67,83,45],[68,89,75,56,73],[58,88,60,90,100]] df = pd.DataFrame(l2) print (df)      0  1  2  3  4 0 90 83 67 83 45 1 68 89 75 56 73 2 58 88 60 90 100 அடுத்ததாக காலாண்டு, அரையாண்டு, முழு ஆண்டு என பல்வேறு பருவங்களில் இம்மூன்று மாணவர்களும் 5 பாடங்களில் பெற்ற மதிப்பெண்களை சேமிக்க பேனல் பயன்பட்டுள்ளது. இப்பருவங்களை keys-ஆகவும், ஒவ்வொரு பருவத்திலும் அம்மூன்று மாணவர்களும் பெற்ற மதிப்பெண்களைக் கொண்ட டேட்டாஃப்பிரேமை values-ஆகவும் கொண்டு ஒரு டிக்சனரி உருவாக்கப்பட்டுள்ளது. பின்னர் அந்த டிக்சனரியை Panel-க்குள் செலுத்தி பிரிண்ட் செய்யப்படுகிறது.   சீரீஸ், டேட்டாஃப்பிரேம் போன்று இதன் வெளிப்பாடு தரவுகளை மொத்தமாகக் காட்டாது. பேனலின் டைமென்ஷன் எத்தனை?, ஒவ்வொரு பரிமாணத்திலும் எத்தனை இன்டெக்ஸ் மற்றும் columns உள்ளன?, அவைகளின் range எதிலிருந்து எதுவரை அமைந்துள்ளன ஆகியவற்றை மட்டுமே வெளிப்படுத்தும். கீழே காலாண்டு, அரையாண்டு என்று வகைப்படுத்த கூடிய பாகுபாடு மொத்தம் 4 உள்ளது என்பதை வெளிப்படுத்தியுள்ளது. பின் அவை ஒவ்வொன்றிலும் சேமிக்கப்பட்டுள்ள மாணவர்கள் 3 என்பதை மேஜர் ஆக்சிஸ் ஆகவும், பாடங்கள் 5 என்பதை மைனர் ஆக்சிஸ் ஆகவும் வெளிப்படுத்தியுள்ளது. அடுத்ததாக அவைகள் ஒவ்வொன்றும் எதிலிருந்து எதுவரை அமைந்துள்ளன எனும் range-ஐ வெளிப்படுத்தியுள்ளது.   d1 = {'Midterm': pd.DataFrame([[90,83,67,83,45],[68,89,75,56,73],[58,88,60,90,100]]), 'Quarterly': pd.DataFrame([[35,44,65,56,79],[85,55,84,50,99],[65,90,87,69,78]]), 'Half early': pd.DataFrame([[80,78,90,68,66],[35,89,67,79,90],[67,89,59,90,45]]), 'Annual': pd.DataFrame([[90,94,58,69,84],[95,68,57,89,96],[90,58,67,96,78]])}   p = pd.Panel(d1) print (p) Dimensions: 4 (items) x 3 (major_axis) x 5 (minor_axis) Items axis: Midterm to Annual Major_axis axis: 0 to 2 Minor_axis axis: 0 to 4     பேனலின் ஏதாவது ஒரு item-ஐ மட்டும் தேர்வு செய்து பார்க்க விரும்பினால் அது பின்வருமாறு அமையும். print (p['Midterm'])    0  1  2  3  4 0 90 83 67 83 45 1 68 89 75 56 73 2 58 88 60 90 100 ஒவ்வொரு பருவத்திலும் இரண்டாவது மாணவன் மட்டும் பெற்ற மதிப்பெண்களைக் காண விரும்பினால், மேஜர் ஆக்சிஸ் என்பதற்குள் இரண்டாவது மாணவனுக்கான இன்டெக்ஸ் எண்ணைக் கொடுத்து பிரிண்ட் செய்து பார்க்கவும்.      print (p.major_xs(1)) Midterm Quarterly Half early Annual 0 68      85        35         95 1 89      55        89         68 2 75      84        67         57 3 56      50        79         89 4 73      99        90         96   அதே போல ஒவ்வொரு பருவத்திலும் இரண்டாவது பாடத்தில் மட்டும் பெற்ற மதிப்பெண்களைக் காண விரும்பினால், மைனர் ஆக்சிஸ் என்பதற்குள் இரண்டாவது பாடத்திற்கான இன்டெக்ஸ் எண்ணை மட்டும் கொடுத்து பிரிண்ட் செய்து பார்க்கவும்.   print (p.minor_xs(1)) Midterm Quarterly Half early Annual 0 83      44        78         94 1 89      55        89         68 2 88      90        89         58     எளிய தமிழில் Pandas-2   Row & Column References   மூன்று மாணவர்கள் மற்றும் ஐந்து பாடங்களை வெறும் எண்களால் குறிப்பிடாமல் அவற்றுக்கான பெயர்களை வைத்துக் குறிப்பிட்டால் அணுகுவதற்கும், புரிந்துகொள்வதற்கும் இன்னும் சுலபமாக இருக்கும் அல்லவா? அதற்காகத்தான் இன்டெக்ஸ் மற்றும் columns ஆகிய பண்புகள் பயன்படுகின்றன. இவைகளைப் பயன்படுத்தி எழுதப்பட்டுள்ள நிரல் பின்வருமாறு.     import pandas as pd l1 = [90,83,67,83,45] l2 = [[90,83,67,83,45],[68,89,75,56,73],[58,88,60,90,100]]   df = pd.DataFrame(l2) print (df) print (df[2]) print (df[:2]) print (df[-2:])   df = pd.DataFrame(l2,columns=['Tamil','English','Maths','Science','Social'],index=['Ramesh','Suresh','Kamesh'],dtype='int32')   print (df) print (df['Maths']) print (df[:'Suresh']) print (df['Suresh':])   s = pd.Series(l1,index=['Tamil','English','Maths','Science','Social']) print (s[['Tamil','Social']])   code link – 02_pandas_rowcolumnreferences.py    நிரலுக்கான விளக்கம்:  முதலில் பின்வருமாறு ஒரு டேட்டாஃப்பிரேமை உருவாக்கிக் கொள்ளவும். l2 = [[90,83,67,83,45],[68,89,75,56,73],[58,88,60,90,100]] df = pd.DataFrame(l2) print (df)    0  1  2  3  4 0 90 83 67 83 45 1 68 89 75 56 73 2 58 88 60 90 100     df[2] என்பது 2 எனும் column எண்ணைக் கொண்ட சீரீசை வெளிப்படுத்தும்.   print (df[2]) 0 67 1 75 2 60 Name: 2, dtype: int64   df[:2] என்பது colon-க்கு முன்னால் ஏதேனும் எண் குறிப்பிடப்பட்டிருப்பின் அதிலிருந்து தொடங்கி, colon-க்கு அடுத்து குறிப்பிடப்பட்டுள்ள எண்ணுக்கு முந்தைய எண் வரை இருக்கும் பெயர்களைக் கொண்ட rows-ஐ வெளிப்படுத்தும்.   print (df[:2])    0  1  2  3  4 0 90 83 67 83 45 1 68 89 75 56 73   df[-2:] என்பது கீழிருந்து மேல் வாக்கில் கொடுக்கப்பட்டுள்ள எண்ணுக்கு ஏற்றவாறு rows-ஐ வெளிப்படுத்தும்.   print (df[-2:])    0  1  2  3  4 1 68 89 75 56 73 2 58 88 60 90 100   இவ்வாறு வெறும் எண்களை வைத்து அணுகாமல், ஒரு டேட்டாஃப்பிரேமை உருவாகும்போதே என்னென்ன row-க்கு என்னென்ன பெயர் மற்றும் என்னென்ன column-க்கு என்னென்ன பெயர் என்பதைக் கொடுத்து உருவாக்கினால் நமக்கு வேண்டிய rows மற்றும் columns-ஐ எடுப்பதற்கும் அணுகுவதற்கும் சுலபமாக இருக்கும். rows-க்கான பெயர்களைக் குறிப்பிட இன்டெக்ஸ் பயன்படுகிறது. columns-க்கான பெயர்களைக் குறிப்பிட columns பயன்படுகிறது. இது பின்வருமாறு. df = pd.DataFrame(l2,columns=['Tamil','English','Maths','Science','Social'],index=['Ramesh','Suresh','Kamesh'],dtype='int32′) print (df)        Tamil English Maths Science Social Ramesh 90    83      67    83      45 Suresh 68    89      75    56      73 Kamesh 58    88      60    90      100   df['Maths'] என்பது Maths எனும் பெயரைக் கொண்ட column-ஐ வெளிப்படுத்தியுள்ளது.   print (df['Maths']) Ramesh 67 Suresh 75 Kamesh 60 Name: Maths, dtype: int32   df[:'Suresh'] என்பது colon-க்கு முன் எதுவும் கொடுக்கப்படவில்லையாதலால் முதலிலிருந்து துவங்கி சுரேஷ் என்னும் பெயரைக் கொண்ட row வரும் வரை வெளிப்படுத்தியுள்ளது.     print (df[:'Suresh'])        Tamil English Maths Science Social Ramesh 90    83      67    83      45 Suresh 68    89      75    56      73   df['Suresh':] என்பது colon-க்கு அடுத்து எதுவும் கொடுக்கப்படவில்லையாதலால், சுரேஷ் இலிருந்து துவங்கி கடைசி row வரை வெளிப்படுத்தியுள்ளது.   print (df['Suresh':])        Tamil English Maths Science Social Suresh 68    89      75    56      73 Kamesh 58    88      60    90      100   ஆனால் சீரீஸ் உருவாக்கும் போது தரவுகளுக்குப் பெயர் கொடுக்க இன்டெக்ஸ் என்ற பண்பு மட்டுமே பயன்படும். ஏனெனில் இது ஒரு பரிமாணத் தரவுகள் ஆதலால் columns என்ற பண்பு இராது.   l1 = [90,83,67,83,45] s = pd.Series(l1,index=['Tamil','English','Maths','Science','Social']) print (s[['Tamil','Social']]) Tamil  90 Social 45 dtype: int64       எளிய தமிழில் Pandas-3   DataFrame creation – Multiple ways   ஒரு டேட்டாஃப்பிரேமை பல்வேறு வழிகளில் உருவாக்கலாம். அறிமுகத்தின் போது ஒரு லிஸ்ட் உள்ளே பல லிஸ்டை கொடுத்து உருவாக்கினோம் அல்லவா! அதேபோல இன்னும் என்னென்ன வழிகளில் எல்லாம் உருவாக்கலாம் என்பதை இப்பகுதியில் காணலாம். அவை பின்வருமாறு.   import pandas as pd d = {'Tamil' : 90, 'English' : 83, 'Maths' : 67, 'Science' : 83, 'Social' : 45} s = pd.Series(d) print (s)   l = [{'Tamil' : 90, 'English' : 83, 'Maths' : 67, 'Science' : 83, 'Social' : 45}, {'Tamil' : 68, 'English' : 89, 'Maths' : 75, 'Science' : 56, 'Social' : 73}, {'Tamil' : 58, 'English' : 88, 'Maths' : 60, 'Science' : 90, 'Social' : 100}]   df = pd.DataFrame(l) print (df) df = df[['Tamil','English','Maths','Science','Social']] print (df) d = {'Tamil' : [90,68,58], 'English' : [83,89,88], 'Maths' : [67,75,60], 'Science' : [83,56,90], 'Social' : [45,73,100]} df = pd.DataFrame(d) print (df) d = {'Tamil' : pd.Series([90,68,58]), 'English' : pd.Series([83,89,88]), 'Maths' : pd.Series([67,75,60]), 'Science' : pd.Series([83,56,90]), 'Social' : pd.Series([45,73,100])} df = pd.DataFrame(d) print (df) df['Environmental Science']=pd.Series([90,92,98]) print (df) df = pd.DataFrame(d,columns=['Tamil','English','Social']) print (df)   code link - 02_pandas_rowcolumnreferences.py      From list of dicts முதலில் ஒரு டிக்சனரி மூலம் சீரீஸை உருவாக்குவது எப்படி என்பதைத் தெரிந்து கொள்வோம். அப்போதுதான் இதே போல பல சீரீஸை கொடுத்து ஒரு டேட்டாஃப்பிரேமை உருவாக்க முடியும். ஏனெனில் டேட்டாஃப்பிரேம் என்பது பல்வேறு சீரீஸ்களின் தொகுப்பு ஆகும். இது பின்வருமாறு.   d = {'Tamil' : 90, 'English' : 83, 'Maths' : 67, 'Science' : 83, 'Social' : 45} s = pd.Series(d) print (s) Tamil   90 English 83 Maths   67 Science 83 Social  45 dtype: int64   மேற்கூறியவாறே பல டிக்சனரிகளை ஒரு லிஸ்டுக்குள் கொடுத்து டேட்டாஃப்பிரேம் உருவாக்கிக் காட்டப்பட்டுள்ளது.   l = [{'Tamil' : 90, 'English' : 83, 'Maths' : 67, 'Science' : 83, 'Social' : 45}, {'Tamil' : 68, 'English' : 89, 'Maths' : 75, 'Science' : 56, 'Social' : 73}, {'Tamil' : 58, 'English' : 88, 'Maths' : 60, 'Science' : 90, 'Social' : 100}] df = pd.DataFrame(l) print (df)   English Maths Science Social Tamil 0 83      67    83      45     90 1 89      75    56      73     68 2 88      60    90      100    58   ஒரு லிஸ்டுக்குள் இருக்கும் டிக்சனரியின் கீஸ் column-ஆக மாறும்போது அது ஆல்பபெட் முறையில் columns-ஐ அமைக்கும். அதனை நாம் விரும்புகின்ற வரிசையில் அமைக்க விரும்பினால் பின்வருமாறு கொடுக்க வேண்டும்.           df = df[['Tamil','English','Maths','Science','Social']] print (df)   Tamil English Maths Science Social 0 90    83      67    83      45 1 68    89      75    56      73 2 58    88      60    90      100 From dict of lists மேற்கூறியவாறு அல்லாமல் நேரடியாக டிக்சனரியின் key-ஆக columns-ஐயும், அதன் மதிப்புகளை ஒரு லிஸ்ட் ஆகவும் கொடுத்து டேட்டாஃப்பிரேமை உருவாக்கினால், column வரிசையை மாற்ற வேண்டிய அவசியம் இருக்காது. ஏனெனில் நாம் கொடுக்கின்ற வரிசையிலே column அமைக்கப்படும். இது பின்வருமாறு.   d = {'Tamil' : [90,68,58], 'English' : [83,89,88], 'Maths' : [67,75,60], 'Science' : [83,56,90], 'Social' : [45,73,100]} df = pd.DataFrame(d) print (df)   Tamil English Maths Science Social 0 90    83      67    83      45 1 68    89      75    56      73 2 58    88      60    90      100   From dict of series அதேபோல ஒரு டிக்சனரியின் கீ மதிப்புகளை லிஸ்ட் ஆக அல்லாமல் சீரீஸ் ஆக கொடுத்தும் டேட்டாஃப்பிரேமை உருவாக்கலாம். இது பின்வருமாறு.   d = {'Tamil' : pd.Series([90,68,58]), 'English' : pd.Series([83,89,88]), 'Maths' : pd.Series([67,75,60]),'Science' : pd.Series([83,56,90]), 'Social' : pd.Series([45,73,100])} df = pd.DataFrame(d) print (df)   Tamil English Maths Science Social 0 90    83      67    83      45 1 68    89      75    56      73 2 58    88      60    90      100 புதிதாக ஒரு column-ஐ இணைக்க விரும்பினால் அது பின்வருமாறு அமையும்.   df['Environmental Science']=pd.Series([90,92,98]) print (df)   Tamil English Maths Science Social Environmental Science 0 90    83      67    83      45     90 1 68    89      75    56      73     92 2 58    88      60    90      100    98     ஒரு டிக்சனரியிலிருந்து நமக்கு வேண்டிய column-ஐ மட்டும் எடுத்து டேட்டாஃப்பிரேமை உருவாக்க விரும்பினால் அது பின்வருமாறு அமையும். df = pd.DataFrame(d,columns=['Tamil','English','Social']) print (df)   Tamil English Social 0 90    83      45 1 68    89      73 2 58    88      100   From csv file ஒரு சி.எஸ்.வி கோப்பில் இருக்கும் தரவுகளை வைத்து டேட்டாஃப்பிரேமை உருவாக்குவதில் பலவிதங்கள் உள்ளன. அவை பின்வருமாறு.     import pandas as pd import numpy as np   df = pd.read_csv("./girls.csv") print (df)   df = pd.read_csv("./girls.csv",index_col=['id']) print (df)   df = pd.read_csv("./girls.csv",names=['a', 'b', 'c','d','e','f','g']) print (df)   df=pd.read_csv("./girls.csv",header=4) print (df)   df=pd.read_csv("./girls.csv",skiprows=5,dtype={'40': np.float64}) print (df) df.to_csv('aaa.csv')   Code link - view raw 03b_pandas_dfcreation.py     pd.read_csv() எனும் function கொடுக்கப்பட்டுள்ள கோப்பில் இருக்கும் தரவுகளை எடுத்து டேட்டாஃப்பிரேமை உருவாக்கும். அவ்வாறு உருவாகும் போது அதிலுள்ள ஒவ்வொரு row-ம் ஜீரோ முதல் தொடர்ச்சியாக அமைந்த index எண்களால் குறிக்கப்படும். மேலும் முதலாவது row தலைப்பு column ஆக எடுத்துக்கொள்ளப்படும்.   df = pd.read_csv(“./girls.csv") print (df)   id fname    lname     age desig      no         place 0 1  Nithya   Duraisamy 31  Manager    9587412536 Hyderabad 1 2  Nandhini Babu      28  AstManager 9848022338 Delhi 2 3  Madhuri  Nathan    51  VP         9848022339 Delhi 3 4  Kavitha  Manoharan 45  AVP        9848022330 Hyderabad 4 5  Vijaya   Kandasamy 40  AVP        9848022336 Noida 5 6  Aarthi   Raj       22  AstManager 9848022335 Chennai 6 7  Lavanya  Sankar    23  SrEngineer 9848022334 Chennai 7 8  Meena    Baskar    56  VP         9848022333 Hyderabad 8 9  Gayathri Ragu      36  Engineer   9848022333 Chennai 9 10 Kavitha  Manoharan 49  AVP        9848022336 Noida   கோப்பில் உள்ள ஏதேனும் ஒரு column-ஐ இன்டெக்ஸ் எண்ணாக அமைக்க விரும்பினால் index_col எனும் பண்பு பயன்படும்.   df = pd.read_csv(“./girls.csv",index_col=['id']) print (df) id fname    lname     age desig      no         place 1  Nithya   Duraisamy 31  Manager    9587412536 Hyderabad 2  Nandhini Babu      28  AstManager 9848022338 Delhi 3  Madhuri  Nathan    51  VP         9848022339 Delhi 4  Kavitha  Manoharan 45  AVP        9848022330 Hyderabad 5  Vijaya   Kandasamy 40  AVP        9848022336 Noida 6  Aarthi   Raj       22  AstManager 9848022335 Chennai 7  Lavanya  Sankar    23  SrEngineer 9848022334 Chennai 8  Meena    Baskar    56  VP         9848022333 Hyderabad 9  Gayathri Ragu      36  Engineer   9848022333 Chennai 10 Kavitha  Manoharan 49  AVP        9848022336 Noida   default-ஆக அமையும் முதல் row-வை தலைப்பாக அமைக்காமல், நாம் விரும்பும் பட்டியலைக் கொடுத்து names எனும் பண்பின் மூலம் அதனை தலைப்பாக அமைக்குமாறு செய்யலாம்.   df = pd.read_csv(“./girls.csv",names=['a', 'b', 'c','d','e','f','g']) print (df)    a    b        c         d   e          f          g  0  id   fname    lname     age desig      no         place 1  001  Nithya   Duraisamy 31  Manager    9587412536 Hyderabad 2  002  Nandhini Babu      28  AstManager 9848022338 Delhi 3  003  Madhuri  Nathan    51  VP         9848022339 Delhi 4  004  Kavitha  Manoharan 45  AVP        9848022330 Hyderabad 5  005  Vijaya   Kandasamy 40  AVP        9848022336 Noida 6  006  Aarthi   Raj       22  AstManager 9848022335 Chennai 7  007  Lavanya  Sankar    23  SrEngineer 9848022334 Chennai 8  008  Meena    Baskar    56  VP         9848022333 Hyderabad 9  009  Gayathri Ragu      36  Engineer   9848022333 Chennai 10 010  Kavitha  Manoharan 49  AVP        9848022336 Noida   default-ஆக அமையும் முதல் row-வை விடுத்து, குறிப்பாக ஏதோ ஒரு row-வை தலைப்பு column-ஆக அமைக்க விரும்பினால் header எனும் பண்பு பயன்படும். இவ்வாறு அமைக்கும் போது இந்த row-க்கு அடுத்தடுத்து வரும் rows மட்டுமே டேட்டாஃப்பிரேமின் மதிப்புகளாக அமையும்.   df=pd.read_csv(“./girls.csv",header=4) print (df)    004  Kavitha  Manoharan 45  AVP        9848022330 Hyderabad 0  5    Vijaya   Kandasamy 40  AVP        9848022336 Noida 1  6    Aarthi   Raj       22  AstManager 9848022335 Chennai 2  7    Lavanya  Sankar    23  SrEngineer 9848022334 Chennai 3  8    Meena    Baskar    56  VP         9848022333 Hyderabad 4  9    Gayathri Ragu      36  Engineer   9848022333 Chennai 5  10   Kavitha  Manoharan 49  AVP        9848022336 Noida   அதேபோல skiprows எனும் பண்பும் கொடுக்கப்பட்டுள்ள எண்ணிக்கைக்கு ஏற்ப ஆரம்பத்தில் இருக்கும் rows-ஐ தவிர்த்து டேட்டாஃப்பிரேமை உருவாக்கும். dtype எனும் பண்பு குறிப்பிடப்பட்டுள்ள column இன் தரவு வகையை மாற்றப் பயன்படும்.   df=pd.read_csv(“./girls.csv",skiprows=5,dtype={'40': np.float64}) print (df)    005  Vijaya   Kandasamy 40    AVP        9848022336 Noida 0  6    Aarthi   Raj       22.0  AstManager 9848022335 Chennai 1  7    Lavanya  Sankar    23.0  SrEngineer 9848022334 Chennai 2  8    Meena    Baskar    56.0  VP         9848022333 Hyderabad 3  9    Gayathri Ragu      36.0  Engineer   9848022333 Chennai 4  10   Kavitha  Manoharan 49.0  AVP        9848022336 Noida   எளிய தமிழில் Pandas-4   Attributes for Series, Dataframe, Panel பாண்டாஸ் ஆதரிக்கும் இம்மூன்று தரவு வகைகளுக்குமான பண்புகள் என்னென்ன செய்திகளை வெளிப்படுத்துகின்றன என்பது பின்வருமாறு கொடுக்கப்பட்டுள்ளது.     import pandas as pd   s = pd.Series([90,83,67,83,45]) df = pd.DataFrame([[90,83,67,83,45],[68,89,75,56,73],[58,88,60,90,100]]) p = pd.Panel({'Midterm': pd.DataFrame([[90,83,67,83,45],[68,89,75,56,73],[58,88,60,90,100]]), 'Quarterly': pd.DataFrame([[35,44,65,56,79],[85,55,84,50,99],[65,90,87,69,78]])})   print (s.axes) print (df.axes) print (p.axes)   df2 = pd.DataFrame() print (s.empty) print (df2.empty) print (p.empty)   print (s.shape) print (df.shape) print (p.shape)   print (s.ndim) print (df.ndim) print (p.ndim)   print (s.size) print (df.size) print (p.size)   print (s) print (s.values) print (df.values) print (p.values)   print (s.head(2)) print (df.head(2)) print (s.tail(2)) print (df.tail(2)) # panel doesn't have these attributes   print (df.T) # Panel & Series doesn't have these attributes   print (s.dtypes) print (df.dtypes) print (p.dtypes)   print (df) print (df.describe()) print (df.sum()) print (df.sum(1)) print (df.mean(1)) print (df.std(1))   Code link - view raw 04_pandas_attributes.py     முதலில் மூன்று வகையிலும் ஒருசில தரவுகளை சேமித்துக் கொள்வோம். s = pd.Series([90,83,67,83,45]) df = pd.DataFrame([[90,83,67,83,45],[68,89,75,56,73],[58,88,60,90,100]]) p = pd.Panel({'Midterm': pd.DataFrame([[90,83,67,83,45],[68,89,75,56,73],[58,88,60,90,100]]), 'Quarterly': pd.DataFrame([[35,44,65,56,79],[85,55,84,50,99],[65,90,87,69,78]])})   Axes எனும் பண்பு பின்வருமாறு வெளிப்படுத்தும். print (s.axes) [RangeIndex(start=0, stop=5, step=1)]   print (df.axes) [RangeIndex(start=0, stop=3, step=1), RangeIndex(start=0, stop=5, step=1)]   print (p.axes) [Index(['Midterm', 'Quarterly'], dtype='object'), RangeIndex(start=0, stop=3, step=1), RangeIndex(start=0, stop= 5, step=1)]   Empty எனும் பண்பு தரவுகள் ஏதேனும் சேமிக்கப்பட்டுள்ளதா இல்லையா என்பதை வெளிப்படுத்துகிறது. df2 = pd.DataFrame() print (s.empty) False print (df2.empty) True print (p.empty) False shape என்பது ஒவ்வொரு பரிமாணத்திலும் சேமிக்கப்பட்டுள்ள தரவுகளின் வடிவத்தை வெளிப்படுத்தும். print (s.shape) (5,) print (df.shape) (3, 5) print (p.shape) (2, 3, 5)   ndim என்பது எத்தனை பரிமாணங்கள் என்பதை வெளிப்படுத்தும். print (s.ndim) 1 print (df.ndim) 2 print (p.ndim) 3 Size என்பது ஒவ்வொன்றிலும் மொத்தமுள்ள தரவுகளின் அளவை வெளிப்படுத்தும். print (s.size) 5 print (df.size) 15 print (p.size) 30 values என்பது ஒவ்வொன்றிலும் சேமிக்கப்பட்டுள்ள தரவுகளை எடுத்து வெளிக்காட்டும். print (s) 0 90 1 83 2 67 3 83 4 45 dtype: int64 print (s.values) [90 83 67 83 45] print (df.values) [[ 90 83 67 83 45] [ 68 89 75 56 73] [ 58 88 60 90 100]] print (p.values) [[[ 90 83 67 83 45] [ 68 89 75 56 73] [ 58 88 60 90 100]] [[ 35 44 65 56 79] [ 85 55 84 50 99] [ 65 90 87 69 78]]]   முதலிரண்டு அல்லது கடைசியில் இருந்து சில என்பது போன்று எடுத்துப் பார்க்க விரும்பினால் head / tail ஆகியவை பயன்படும். பேனலுக்கு இந்த பண்பு கிடையாது. print (s.head(2)) 0 90 1 83 dtype: int64 print (df.head(2))   0  1  2  3  4 0 90 83 67 83 45 1 68 89 75 56 73 print (s.tail(2)) 3 83 4 45 dtype: int64 print (df.tail(2))   0  1  2  3  4 1 68 89 75 56 73 2 58 88 60 90 100 # panel doesn't have these attributes   அதேபோல Transpose என்ற பண்பு டேட்டாஃப்பிரேமுக்கு மட்டுமே உரிய பண்பு ஆகும். print (df.T)   0  1  2 0 90 68 58 1 83 89 88 2 67 75 60 3 83 56 90 4 45 73 100 # Panel & Series doesn't have these attributes   dtypes என்பது ஒவ்வொன்றிலும் சேமிக்கப்பட்டுள்ள தரவுகளின் வகையை வெளிப்படுத்துகிறது. print (s.dtypes) int64 print (df.dtypes) 0 int64 1 int64 2 int64 3 int64 4 int64 dtype: object print (p.dtypes) Midterm int64 Quarterly int64 dtype: object print (df)   0  1  2  3  4 0 90 83 67 83 45 1 68 89 75 56 73 2 58 88 60 90 100 describe() எனும் பண்பு அடிப்படையான ஒரு சில புள்ளியியல் விவரங்களைக் கணக்கிட்டு வெளிப்படுத்தப் பயன்படுகிறது. ஒவ்வொரு Column-லும் சேமிக்கப்பட்டுள்ள தரவுகளுக்கான count, mean, standard deviation, minimum, maximum மதிப்புகள் ஆகியவற்றை வெளிப்படுத்தியுள்ளது. இங்கு மொத்தமே மூன்று தரவுகள் உள்ளதால் 25%, 50%,75% எனத் தரவுகளைப் பிரித்து வெளிப்படுத்துவதன் முக்கியத்துவத்தை நம்மால் சரிவர உள்வாங்கிக் கொள்ள முடியவில்லை. ஆனால் அதிக அளவு தரவுகளை நிகழ் நேரத்தில் கையாளும்போது இதுபோன்ற புள்ளிவிவரங்கள் பயனுள்ளதாக இருக்கும். print (df.describe())       0        1         2         3         4 count 3.000000 3.000000  3.000000  3.000000  3.000000 mean 72.000000 86.666667 67.333333 76.333333 72.666667 std  16.370706 3.214550  7.505553  17.953644 27.501515 min  58.000000 83.000000 60.000000 56.000000 45.000000 25%  63.000000 85.500000 63.500000 69.500000 59.000000 50%  68.000000 88.000000 67.000000 83.000000 73.000000 75%  79.000000 88.500000 71.000000 86.500000 86.500000 max  90.000000 89.000000 75.000000 90.000000 100.000000 sum() என்பது ஒவ்வொரு பாடத்திலும் மூன்று வெவ்வேறு மாணவர்கள் பெற்ற மதிப்பெண்களை கூட்டிக் காட்டியுள்ளது. ஆனால் இது போன்று நாம் கூட்ட மாட்டோம் அல்லவா! ஒவ்வொரு மாணவனும் ஐந்து பாடத்தில் பெற்ற மதிப்பெண்களைக் கூட்டுமாறு செய்ய sum(1) அல்லது sum(axis=1) எனக் கொடுக்க வேண்டும். axis=0 என்பது row-ஐயும், 1 என்பது column-ஐயும் குறிக்கும்.     print (df.sum()) 0 216 1 260 2 202 3 229 4 218 dtype: int64 print (df.sum(1)) 0 368 1 361 2 396 dtype: int64 அதேபோல mean(), std() ஆகியவற்றையும் தனித்தனியே கணக்கிடலாம். print (df.mean(1)) 0 73.6 1 72.2 2 79.2 dtype: float64 print (df.std(1)) 0 18.077610 1 11.945711 2 19.005262 dtype: float64   எளிய தமிழில் Pandas-5   Text Processing ஒரு டேட்டாஃப்பிரேம் / சீரீஸில் சேமிக்கப்பட்டுள்ள சொற்களைப் பகுத்துப் பார்த்து ஆய்வு செய்வதற்கு பயன்படும் functions-ஐ இப்பகுதியில் காணலாம். பொதுவாக இதுபோன்ற பங்க்ஷன் சீரீஸின் மீதுதான் செயல்படும். டேட்டாஃப்பிரேமாகவே இருந்தாலும், அதிலிருந்து ஒரு சீரீசை எடுத்து, அதன் மீதுதான் இதுபோன்ற functions-ஐ அப்ளை செய்ய முடியும். இவைகளின் தொகுப்பு பின்வருமாறு. import pandas as pd df = pd.DataFrame({'Languages': pd.Series(['Tamil','English']), 'Subjects': pd.Series(['Maths','Science','Social'])}) print (df) print (df['Languages'].str.upper()) # lower(), swapcase(), islower(), isupper(), isnumeric() print (df['Languages'].str.split('i')) print (df['Languages'].str.contains('i')) print (df['Languages'].str.len()) print (df['Subjects'].str.startswith('S')) # endswith() print (df['Subjects'].str.count('e')) print (df['Subjects'].str.find('e')) print (df['Subjects'].str.findall('e')) print (df['Languages'].str.replace('i','e')) print (df['Languages'].str.cat(sep=','))   s = pd.Series(['Ramu','Somu','Jothi','Rathi','Jothi']) print (s.str.get_dummies()) print (s.str.repeat(4)) Code link - view raw 05_pandas_texts.py     முதலில் மொழிகள் மற்றும் பாடங்களின் பெயர்களைக் கொண்ட இரண்டு சீரீஸ், ஒரு டேட்டாஃப்பிரேமில் சேமிக்கப்படுகிறது. df = pd.DataFrame({'Languages': pd.Series(['Tamil','English']), 'Subjects': pd.Series(['Maths','Science','Social'])})   print (df) Languages Subjects 0 Tamil Maths 1 English Science 2 NaN Social   பிறகு Language எனும் சீரீஸில் சேமிக்கப்பட்டுள்ள சொற்களை மட்டும் கேபிடல் எழுத்துக்களில் அமைக்க விரும்பினால், அதற்கான பங்க்ஷன் பின்வருமாறு. அது தொடர்பான இன்னும் சில பங்க்ஷன்கள் கமென்ட் செய்து காட்டப்பட்டுள்ளது. print (df['Languages'].str.upper()) # lower(), swapcase(), islower(), isupper(), isnumeric() 0 TAMIL 1 ENGLISH 2 NaN Name: Languages, dtype: object ஏதேனும் ஒரு குறிப்பிட்ட எழுத்து அல்லது குறியீடு மூலம் சொற்களைப் பிரித்து பல்வேறு வார்த்தைகளாக ஒரு லிஸ்ட் உள் அமைக்க split() பயன்படுகிறது. print (df['Languages'].str.split('i')) 0 [Tam, l] 1 [Engl, sh] 2 NaN Name: Languages, dtype: object ஏதேனும் ஒரு குறிப்பிட்ட எழுத்து அல்லது குறியீடு நமது சீரீஸில் உள்ளதா இல்லையா என்பதைக் கண்டுபிடிக்க contains () பயன்படுகிறது. print (df['Languages'].str.contains('i')) 0 True 1 True 2 NaN Name: Languages, dtype: object நமது சீரீஸில் சேமிக்கப்பட்டுள்ள சொற்களின் நீளங்களைக் கண்டுபிடிக்க len() பயன்படுகிறது.   print (df['Languages'].str.len()) 0 5.0 1 7.0 2 NaN Name: Languages, dtype: float64 ஒரு குறிப்பிட்ட எழுத்தில் சொற்கள் தொடங்கியுள்ளதா இல்லையா என்பதைக் கண்டுபிடிக்க startswith() பயன்படுகிறது. print (df['Subjects'].str.startswith('S')) # endswith() 0 False 1 True 2 True Name: Subjects, dtype: bool ஒரு குறிப்பிட்ட எழுத்து ஒரு சொல்லில் எத்தனை முறை வந்துள்ளது என்பதைக் கண்டுபிடிக்க count() பயன்படுகிறது. print (df['Subjects'].str.count('e')) 0 0 1 2 2 0 Name: Subjects, dtype: int64 ஒரு குறிப்பிட்ட எழுத்து ஒரு சொல்லில் எந்த இடத்தில் அமைந்துள்ளது என்பதைக் கண்டுபிடிக்க find() பயன்படுகிறது. இதன் வெளியீடு 0 முதல் அதன் நீளத்திற்கு ஏற்ப அமையும். -1 என்றால் அந்த எழுத்து எவ்விடத்திலும் அமையவில்லை என்று பொருள். print (df['Subjects'].str.find('e')) 0 -1 1 3 2 -1 Name: Subjects, dtype: int64 print (df['Subjects'].str.findall('e')) 0 [] 1 [e, e] 2 [] Name: Subjects, dtype: object   ஒரு எழுத்தை மற்றொரு எழுத்தால் இடமாற்றம் செய்ய replace பயன்படுகிறது. print (df['Languages'].str.replace('i','e')) 0 Tamel 1 Englesh 2 NaN Name: Languages, dtype: object சீரீஸில் சேமிக்கப்பட்டுள்ள சொற்களை ஏதோ ஒரு குறியீடு கொண்டு பிரித்து வெளிப்படுத்த separator பயன்படுகிறது. print (df['Languages'].str.cat(sep=',')) Tamil,English ஒரு சீரீஸில் உள்ள unique சொற்களை எடுத்து அவை ஒவ்வொன்றும் எத்தனை முறை வந்துள்ளன என்பதைக் கண்டுபிடிக்க get_dummies பயன்படும். s = pd.Series(['Ramu','Somu','Jothi','Rathi','Jothi']) print (s.str.get_dummies()) Jothi Ramu Rathi Somu 0 0 1 0 0 1 0 0 0 1 2 1 0 0 0 3 0 0 1 0 4 1 0 0 0 ஒவ்வொரு சொல்லையும் குறிப்பிட்ட முறைகள் திரும்பத் திரும்ப அமைத்து வெளிப்படுத்த repeat() பயன்படுகிறது. print (s.str.repeat(4)) 0 RamuRamuRamuRamu 1 SomuSomuSomuSomu 2 JothiJothiJothiJothi 3 RathiRathiRathiRathi 4 JothiJothiJothiJothi dtype: object   எளிய தமிழில் Pandas-6   Location & Display properties ஒரு டேட்டாஃப்பிரேமில் இருப்பவற்றை கொஞ்சம் கொஞ்சமாக நமது தேவைக்கு ஏற்றவாறு வெட்டி எடுத்து, பிரித்துப் பார்த்து புரிந்து கொள்வதற்கு உதவும் வழிமுறைகளை இப்பகுதியில் காணலாம். (Slicing – Dicing Methods) . மேலும் ஒரு டேட்டாஃப்பிரேம் திரையில் வெளிப்படும்போது அது எவ்வாறு அமைய வேண்டும் என்பதைக் கட்டுப்படுத்துவதற்கு உதவும் ஒருசில பண்புகளையும் இப்பகுதியில் காணலாம்.   import pandas as pd df = pd.read_csv("./girls.csv") print (df.shape) print (df.columns) print (df['fname']) # df.fname , df['fname','age']   print (df.loc[ 1:4 , 'fname' ]) print (df.loc[ [1,4] , 'fname' ]) print (df.loc[ : , 'age']>30 )       print (df.ix[1:4, 'fname' ]) print (df.ix[[1,4], 'fname' ]) print (df.ix[ : , 'age']>30 )   print (df.iloc[1:4,1:4]) print (df.iloc[[1,4],[1,4]]) print (df.iloc[[1,4],lambda x : [1,4]])   print (pd.get_option("display.max_rows")) # max_columns   pd.set_option("display.max_rows",5) # reset_option() pd.set_option("display.max_columns",4) # reset_option() print (df)   pd.reset_option("display.max_rows") pd.reset_option("display.max_columns") print (pd.describe_option("display.max_rows")) with pd.option_context("display.max_rows",5):    print (df)   Code link view raw 06_pandas_locdisp.py      இங்கு girls.csv எனும் கோப்பில் ஒருசில யுவதிகளின் பெயர், துணைப் பெயர், அவர்களின் வயது, அவர்கள் வகிக்கும் பதவி, அவர்களுடைய தொலைபேசி எண் மற்றும் அவர்கள் வசிக்கும் ஊர் ஆகிய விவரங்கள் எல்லாம் கொடுக்கப்பட்டுள்ளன. இவற்றையெல்லாம் ஒரு டேட்டாஃப்பிரேமாக மாற்றிய பின்னர் அதன்மீது செயல்படும் shape எனும் பண்பு அதிலுள்ள rows, columns- ஐ வெளிப்படுத்தும். அதாவது எத்தனை யுவதிகளின் விவரங்கள் எத்தனை தலைப்புகளின் கீழ் கொடுக்கப்பட்டுள்ளன எனும் எண்ணை வெளிக்காட்டும். columns எனும் பண்பு என்னென்ன தலைப்புகளின் கீழ் கொடுக்கப்பட்டுள்ளன என்பதை வெளிக்காட்டும். df = pd.read_csv(“./girls.csv") print (df.shape) (10, 7) print (df.columns) Index(['id', 'fname', 'lname', 'age', 'desig', 'no', 'place'], dtype='object') ஏதேனும் ஒரு column இன் கீழ் அமையும் விவரங்களைப் பெற df.fname எனக் கொடுக்கலாம் அல்லது df['fname'] எனவும் கொடுக்கலாம். ஒன்றுக்கும் மேற்பட்ட columns- ஐக் கூட இம்முறையிலேயே கொடுக்கலாம். print (df['fname']) # df.fname , df['fname','age'] 0 Nithya 1 Nandhini 2 Madhuri 3 Kavitha 4 Vijaya 5 Aarthi 6 Lavanya 7 Meena 8 Gayathri 9 Kavitha Name: fname, dtype: object ஏதேனும் ஒரு குறிப்பிட்ட column-ன் கீழ், ஒரு குறிப்பிட்ட row- இல் இருக்கும் தகவல்களை மட்டும் பெற loc எனும் பண்பு பயன்படுகிறது. இங்கு 1 முதல் 4 முடிய index எண்ணைக் கொண்ட தரவுகள் மட்டும் எடுத்துக் காட்டப்பட்டுள்ளன . print (df.loc[ 1:4 , 'fname' ]) 1 Nandhini 2 Madhuri 3 Kavitha 4 Vijaya Name: fname, dtype: object இங்கு 1 மற்றும் 4 ஆகிய index எண்ணைக் கொண்ட தரவுகள் மட்டும் எடுக்கப்பட்டுள்ளன. print (df.loc[ [1,4] , 'fname' ]) 1 Nandhini 4 Vijaya Name: fname, dtype: object இங்கு age எனும் column-ல் இருந்து அனைத்து row-ம் எடுக்கப்பட்டுள்ளன. ஆனால் relational operator மூலம் ஒப்பிட்டு 30 வயதுக்கு மேல் மதிப்பு கொண்டதை True எனவும், குறைவாக உள்ளதை False எனவும் வெளிப்படுத்தியுள்ளது. print (df.loc[ : , 'age']>30 ) 0 True 1 False 2 True 3 True 4 True 5 False 6 False 7 True 8 True 9 True Name: age, dtype: bool loc மற்றும் iloc ஆகிய இரண்டின் பண்புகளையும் ஒருங்கே பெற்றது ix ஆகும். இதுவும் loc பண்பு செய்யும் அதே வேலையைத்தான் செய்கிறது. இவை பின்வருமாறு. print (df.ix[1:4, 'fname' ]) 1 Nandhini 2 Madhuri 3 Kavitha 4 Vijaya Name: fname, dtype: object print (df.ix[[1,4], 'fname' ]) 1 Nandhini 4 Vijaya Name: fname, dtype: object print (df.ix[ : , 'age']>30 ) 0 True 1 False 2 True 3 True 4 True 5 False 6 False 7 True 8 True 9 True Name: age, dtype: bool iloc என்பதில் labels போன்று எதையும் கொடுத்து பிரித்தெடுக்க முடியாது. label- க்கான பெயர்கள் கொடுக்க வேண்டிய இடத்திலும் அதற்கான index மதிப்புகளையே கொடுக்க வேண்டும். இவை பின்வருமாறு.   இங்கு column-க்கான பெயர்கள் கொடுக்க வேண்டிய இடத்தில் 1:4 எனும் range கொடுக்கப்பட்டுள்ளதை கவனிக்கவும். upper லிமிட் 4-ஐ விடுத்து அதற்கு முந்தைய எண் கொண்ட column வரை கணக்கில் எடுத்துக்கொண்டது. print (df.iloc[1:4,1:4])   fname    lname     age 1 Nandhini Babu      28 2 Madhuri  Nathan    51 3 Kavitha  Manoharan 45 இங்கு 1,4 ஆகிய column-ல் இருக்கும் தரவுகள் மட்டும் கொடுக்கப்பட்ட row index-க்கு ஏற்ப எடுத்துக் காட்டப்பட்டுள்ளது. print (df.iloc[[1,4],[1,4]])   fname    desig 1 Nandhini Assistant Manager 4 Vijaya   AVP அதே செயல் lambda function மூலம் செய்யப்பட்டுள்ளது. print (df.iloc[[1,4],lambda x : [1,4]])   fname    desig 1 Nandhini Assistant Manager 4 Vijaya   AVP ஒரு டேட்டாஃப்பிரேமில் 700 rows மற்றும் 250 columns இருக்கிறதெனில், அதனை பிரிண்ட் செய்யும்போது அவை அனைத்தையும் திரையில் வெளிப்படுத்தாது. அதிகபட்சம் இவ்வளவு rows மற்றும் columns –ஐத்தான் வெளிப்படுத்த வேண்டும் என்பதற்கு வரையறை உண்டு. அதனைத் தெரிந்து கொள்ள get_option என்பது பயன்படும்.இங்கு அதிகபட்சம் 60 rows வரை வெளிப்படலாம் என்று வெளிப்படுத்தியுள்ளது. print (pd.get_option(“display.max_rows")) # max_columns 60 இம்மதிப்பினை மாற்றி அமைக்க set_option() என்பது பயன்படும். இதன் மூலம் அதிகபட்சம் 5 rows மற்றும் 4 columns வெளிப்படுமாறு செய்துள்ளோம். ஆகவேதான் டேட்டாஃப்பிரேமை பிரிண்ட் செய்யும்போது, கொடுக்கப்பட்டுள்ள எண்ணிக்கைக்கு ஏற்றவாறு தரவுகளை வெளிப்படுத்தி விட்டு இடையில் இருப்பவற்றை … எனக் காட்டி உள்ளது . pd.set_option(“display.max_rows",5) # reset_option() pd.set_option(“display.max_columns",4) # reset_option() print (df)    id fname    … no         place 0  1  Nithya   … 9587412536 Hyderabad 1  2  Nandhini … 9848022338 Delhi .. .. …      … …         … 8  9  Gayathri … 9848022333 Chennai 9  10 Kavitha  … 9848022336 Noida [10 rows x 7 columns] reset_option என்பது மீண்டும் அதன் default மதிப்பினைப் பெற உதவும். pd.reset_option(“display.max_rows") pd.reset_option(“display.max_columns") இது பற்றிய கூடுதல் விவரங்களைப் பெற describe_option பயன்படும். print (pd.describe_option(“display.max_rows")) display.max_rows : int If max_rows is exceeded, switch to truncate view. Depending on `large_repr`, objects are either centrally truncated or printed as a summary view. 'None' value means unlimited. In case python/IPython is running in a terminal and `large_repr` equals 'truncate' this can be set to 0 and pandas will auto-detect the height of the terminal and print a truncated object which fits the screen height. The IPython notebook, IPython qtconsole, or IDLE do not run in a terminal and hence it is not possible to do correct auto-detection. [default: 60] [currently: 60] None ஏதேனும் ஒருமுறை மட்டும் திரையில் வெளிப்படும் rows,columns எண்ணிக்கையை கட்டுப்படுத்த விரும்பினால், with statement-ஐத் தொடர்ந்து option_context என்பதற்குள் எவ்வளவு என்பதைக் கொடுத்து பிரிண்ட் செய்ய வேண்டும். with pd.option_context(“display.max_rows",5):    print (df)    id fname    lname     age  desig      no         place 0  1  Nithya   Duraisamy 31   Manager    9587412536 Hyderabad 1  2  Nandhini Babu      28   AstManager 9848022338 Delhi .. .. …      …       …  …        …        … 8  9  Gayathri Ragu      36   Engineer   9848022333 Chennai 9  10 Kavitha  Manoharan 49   AVP        9848022336 Noida [10 rows x 7 columns] எளிய தமிழில் Pandas-7   SQL Operations SQL- ல் உள்ள limit, group by, order by, joins, where condition போன்ற பல்வேறு கட்டளைகளுக்கு இணையான கட்டளைகள் pandas-லும் உள்ளன. இவற்றைப் பற்றியெல்லாம் இப்பகுதியில் காண்போம்.   import pandas as pd df = pd.read_csv("./girls.csv") print (df)   print (df.head()) print (df.head(2)) print (df[df['place'] == 'Hyderabad'])   df1 = df.groupby('place') print (df1.size())   print (df1.groups) print (df1.get_group('Delhi')) print (df1.filter(lambda x: len(x) >= 3))   for i, j in df1:     print (I)     print (j) df2 = pd.read_csv("./boys.csv") print (df2) print (pd.concat([df,df2])) print (df.append(df2)) print (pd.merge(df,df2,on='place')) print (pd.merge(df,df2,on='place',how='right')) # left, outer, inner print (df2.sort_index(ascending=False)) print (df2.sort_values(by='age')) Code link view raw 07_pandas_sql.py      மேலே பயன்படுத்திய அதே csv- ஐ இங்கும் பயன்படுத்திக் கொள்வோம். df = pd.read_csv(“./girls.csv") print (df)   id fname    lname     age desig      no         place 0 1  Nithya   Duraisamy 31  Manager    9587412536 Hyderabad 1 2  Nandhini Babu      28  AstManager 9848022338 Delhi 2 3  Madhuri  Nathan    51  VP         9848022339 Delhi 3 4  Kavitha  Manoharan 45  AVP        9848022330 Hyderabad 4 5  Vijaya   Kandasamy 40  AVP        9848022336 Noida 5 6  Aarthi   Raj       22  AstManager 9848022335 Chennai 6 7  Lavanya  Sankar    23  SrEngineer 9848022334 Chennai 7 8  Meena    Baskar    56  VP         9848022333 Hyderabad 8 9  Gayathri Ragu      36  Engineer   9848022333 Chennai 9 10 Kavitha  Manoharan 49  AVP        9848022336 Noida Limit clause அதனை பிரிண்ட் செய்யும்போது ஒருசில ரெகார்ட்ஸை மட்டும் வெளிப்படுத்த விரும்பினால் head() – ஐப் பயன்படுத்தலாம். print (df.head())   id fname    lname     age desig      no         place 0 1  Nithya   Duraisamy 31  Manager    9587412536 Hyderabad 1 2  Nandhini Babu      28  AstManager 9848022338 Delhi 2 3  Madhuri  Nathan    51  VP         9848022339 Delhi 3 4  Kavitha  Manoharan 45  AVP        9848022330 Hyderabad 4 5  Vijaya   Kandasamy 40  AVP        9848022336 Noida print (df.head(2))   id fname    lname     age desig      no         place 0 1  Nithya   Duraisamy 31  Manager    9587412536 Hyderabad 1 2  Nandhini Babu      28  AstManager 9848022338 Delhi Where condition ஒரு condition- ஐக் கொடுத்து அதில் பொருந்தும் தரவுகளை மட்டும் எடுக்க விரும்பினால் அது பின்வருமாறு அமையும். இங்கு ஹைதராபாத்தில் இருக்கும் நபர்களின் விவரங்கள் மட்டும் எடுத்துக் காட்டப்பட்டுள்ளது. print (df[df['place'] == 'Hyderabad'])   id fname    lname     age desig      no         place 0 1  Nithya   Duraisamy 31  Manager    9587412536 Hyderabad 3 4  Kavitha  Manoharan 45  AVP        9848022330 Hyderabad 7 8  Meena    Baskar    56  VP         9848022333 Hyderabad Grouping நகர வாரியாக நபர்களை குழுக்களாகப் பிரிக்க groupby () பயன்படுகிறது. அவ்வாறு பிரித்து df1 எனும் பெயரில் சேமிக்கிறது. அதன் மீது செயல்படும் size () என்பது என்னென்ன குழுக்களில் எவ்வளவு records உள்ளது என்பதை வெளிப்படுத்தி உள்ளது. df1 = df.groupby('place') print (df1.size()) place Chennai   3 Delhi     2 Hyderabad 3 Noida     2 dtype: int64 df1 –ன் மீது செயல்படும் groups என்பது குழுக்களின் பெயர், அதில் சேமிக்கப்பட்டுள்ள row-ன் இன்டெக்ஸ் எண், அவைகளின் தரவு வகை ஆகியவற்றை வெளிப்படுத்தும். print (df1.groups) {'Chennai': Int64Index([5, 6, 8], dtype='int64′), 'Delhi': Int64Index([1, 2], dtype='int64′), 'Hyderabad': Int64 Index([0, 3, 7], dtype='int64′), 'Noida': Int64Index([4, 9], dtype='int64′)} ஏதேனும் ஒரு குழுவின் பெயரைக் கொடுத்து அதில் சேமிக்கப்பட்டுள்ள விவரங்களை மட்டும் எடுக்க விரும்பினால் get_group() பயன்படும். print (df1.get_group('Delhi'))   id fname    lname     age desig      no         place 1 2  Nandhini Babu      28  AstManager 9848022338 Delhi 2 3  Madhuri  Nathan    51  VP         9848022339 Delhi எந்த குழுவில் மூன்று அல்லது அதற்கும் மேற்பட்ட தகவல்கள் உள்ளதோ, அதை மட்டும் filter செய்து பார்க்க விரும்பினால் அது பின்வருமாறு. print (df1.filter(lambda x: len(x) >= 3))   id fname    lname     age desig      no         place 0 1  Nithya   Duraisamy 31  Manager    9587412536 Hyderabad 3 4  Kavitha  Manoharan 45  AVP        9848022330 Hyderabad 5 6  Aarthi   Raj       22  AstManager 9848022335 Chennai 6 7  Lavanya  Sankar    23  SrEngineer 9848022334 Chennai 7 8  Meena    Baskar    56  VP         9848022333 Hyderabad 8 9  Gayathri Ragu      36  Engineer   9848022333 Chennai தரவுகளைக் குழுக்களாகப் பிரித்த பின் (df1), குழுவின் பெயர், அதில் சேமிக்கப்பட்டுள்ள விவரங்கள் ஆகியவற்றை சுழற்சி யாக வெளிப்படுத்த விரும்பினால் அதற்கான for loop பின்வருமாறு அமையும். for i, j in df1: print (i) print (j) Chennai   id fname    lname     age desig      no         place 5 6  Aarthi   Raj       22  AstManager 9848022335 Chennai 6 7  Lavanya  Sankar    23  SrEngineer 9848022334 Chennai 8 9  Gayathri Ragu      36  Engineer   9848022333 Chennai Delhi   id fname    lname     age desig      no         place 1 2  Nandhini Babu      28  AstManager 9848022338 Delhi 2 3  Madhuri  Nathan    51  VP         9848022339 Delhi Hyderabad   id fname    lname     age desig      no         place 0 1  Nithya   Duraisamy 31  Manager    9587412536 Hyderabad 3 4  Kavitha  Manoharan 45  AVP        9848022330 Hyderabad 7 8  Meena    Baskar    56  VP         9848022333 Hyderabad Noida   id fname    lname     age desig      no         place 4 5  Vijaya   Kandasamy 40  AVP        9848022336 Noida 9 10 Kavitha  Manoharan 49  AVP        9848022336 Noida Combining data frames அடுத்ததாக இன்னொரு டேட்டாஃப்பிரேமை உருவாக்கி, இரண்டையும் இணைத்துப் பயன்படுத்துவதில் உள்ள வழிமுறைகளை இப்பகுதியில் காணலாம். df2 = pd.read_csv(“./boys.csv") print (df2)   id fname     lname    age desig     no         place 0 11 Mahesh    Muthu    38  SrManager 9853526341 Chennai 1 12 Elango    Raman    25  Assistant 9865637872 Mumbai 2 13 Kadiresan kesavan  41  VP        9746325437 Delhi 3 14 Sundar    Paul     48  AVP       9947362222 Thane 4 15 Kumar     Ramasamy 30  AVP       9346212333 Noida print (pd.concat([df,df2]))   id fname     lname     age desig     no         place 0 1  Nithya    Duraisamy 31 Manager    9587412536 Hyderabad 1 2  Nandhini  Babu      28 AstManager 9848022338 Delhi 2 3  Madhuri   Nathan    51 VP         9848022339 Delhi 3 4  Kavitha   Manoharan 45 AVP        9848022330 Hyderabad 4 5  Vijaya    Kandasamy 40 AVP        9848022336 Noida 5 6  Aarthi    Raj       22 AstManager 9848022335 Chennai 6 7  Lavanya   Sankar    23 SrEngineer 9848022334 Chennai 7 8  Meena     Baskar    56 VP         9848022333 Hyderabad 8 9  Gayathri  Ragu      36 Engineer   9848022333 Chennai 9 10 Kavitha   Manoharan 49 AVP        9848022336 Noida 0 11 Mahesh    Muthu     38 SrManager  9853526340 Chennai 1 12 Elango    Raman     25 Assistant  9865637872 Mumbai 2 13 Kadiresan kesavan   41 VP         9746325437 Delhi 3 14 Sundar    Paul      48 AVP        9947362222 Thane 4 15 Kumar     Ramasamy  30 AVP        9346212333 Noida print (df.append(df2))   id fname     lname     age desig     no         place 0 1  Nithya    Duraisamy 31 Manager    9587412536 Hyderabad 1 2  Nandhini  Babu      28 AstManager 9848022338 Delhi 2 3  Madhuri   Nathan    51 VP         9848022339 Delhi 3 4  Kavitha   Manoharan 45 AVP        9848022330 Hyderabad 4 5  Vijaya    Kandasamy 40 AVP        9848022336 Noida 5 6  Aarthi    Raj       22 AstManager 9848022335 Chennai 6 7  Lavanya   Sankar    23 SrEngineer 9848022334 Chennai 7 8  Meena     Baskar    56 VP         9848022333 Hyderabad 8 9  Gayathri  Ragu      36 Engineer   9848022333 Chennai 9 10 Kavitha   Manoharan 49 AVP        9848022336 Noida 0 11 Mahesh    Muthu     38 SrManager  9853526340 Chennai 1 12 Elango    Raman     25 Assistant  9865637872 Mumbai 2 13 Kadiresan kesavan   41 VP         9746325437 Delhi 3 14 Sundar    Paul      48 AVP        9947362222 Thane 4 15 Kumar     Ramasamy  30 AVP        9346212333 Noida Joins இரண்டு டேட்டாஃப்பிரேமிலும், ஒரே நகரத்தின் பெயரைக் கொண்ட தகவல்களை மட்டும் இணைத்து வெளிப்படுத்த விரும்பினால், அதற்கான join பின்வருமாறு அமையும். print (pd.merge(df,df2,on='place'))   id_x fname_x  lname_x   age_x … lname_y  age_y desig_y   no_y 0 2    Nandhini Babu      28    … kesavan  41    VP        9746325437 1 3    Madhuri  Nathan    51    … kesavan  41    VP        9746325437 2 5    Vijaya   Kandasamy 40    … Ramasamy 30    AVP       9346212333 3 10   Kavitha  Manoharan 49    … Ramasamy 30    AVP       9346212333 4 6    Aarthi   Raj       22    … Muthu    38    SrManager 9853526340 5 7    Lavanya  Sankar    23    … Muthu    38    SrManager 9853526341 6 9    Gayathri Ragu      36    … Muthu    38    SrManager 9853526341 [7 rows x 13 columns] அதே போல left, right,inner, outer எனப் பல்வேறு join முறைகளையும் இதில் உபயோகிக்கலாம். print (pd.merge(df,df2,on='place',how='right')) # left, outer, inner   id_x fname_x  lname_x   age_x… lname_y  age_y desig_y   no_y 0 2.0  Nandhini Babu      28.0 … kesavan  41    VP        9746325437 1 3.0  Madhuri  Nathan    51.0 … kesavan  41    VP        9746325437 2 5.0  Vijaya   Kandasamy 40.0 … Ramasamy 30    AVP       9346212333 3 10.0 Kavitha  Mnoharan  49.0 … Ramasamy 30    AVP       9346212333 4 6.0  Aarthi   Raj       22.0 … Muthu    38    SrManager 9853526340 5 7.0  Lavanya  Sankar    23.0 … Muthu    38    SrManager 9853526341 6 9.0  Gayathri Ragu      36.0 … Muthu    38    SrManager 9853526341 7 NaN  NaN      NaN       NaN  … Raman    25    Assistant 9865637872 8 NaN  NaN      NaN       NaN  … Paul     48    AVP       9947362222 [9 rows x 13 columns] Sorting தரவுகளை வரிசைப்படுத்துதல் என்பது இரண்டு விதங்களில் அமையும். Index- ஐ வைத்து வரிசைப்படுத்தலாம் அல்லது ஏதேனும் எண் மதிப்பினைக் கொண்ட column-ன் அடிப்படையில் வரிசைப்படுத்தலாம்.   இங்கு sort_index() மூலம் தரவுகள் இறங்கு வரிசையில் வரிசைப்படுத்திக் காட்டப்பட்டுள்ளது.   அடுத்து sort_values() மூலம் age column-ல் உள்ள மதிப்பினைப் பொறுத்து வரிசைப்படுத்திக் காட்டப்பட்டுள்ளது. print (df2.sort_index(ascending=False))   id fname     lname    age desig      no         place 4 15 Kumar     Ramasamy 30  AVP        9346212333 Noida 3 14 Sundar    Paul     48  AVP        9947362222 Thane 2 13 Kadiresan kesavan  41  VP         9746325437 Delhi 1 12 Elango    Raman    25  Assistant  9865637872 Mumbai 0 11 Mahesh    Muthu    38  Sr Manager 9853526340 Chennai print (df2.sort_values(by='age'))   id fname     lname    age desig     no place 1 12 Elango    Raman    25  Assistant 9865637872 Mumbai 4 15 Kumar     Ramasamy 30  AVP       9346212333 Noida 0 11 Mahesh    Muthu    38  SrManager 9853526340 Chennai 2 13 Kadiresan kesavan  41  VP        9746325437 Delhi 3 14 Sundar    Paul     48  AVP       9947362222 Thane எளிய தமிழில் Pandas-8   Loops & Functions ஒரு டேட்டாஃப்பிரேமில் உள்ளவற்றை for லூப் மூலம் பல்வேறு விதங்களில் வெளிப்படுத்திக் காட்டலாம். அவை கீழே கொடுக்கப்பட்டுள்ளன. அடுத்து lambda எனும் ஒற்றை வரி பங்ஷன் மூலமும், user defined function மூலமும் டேட்டாஃப்பிரேம் மதிப்புகளில் மாற்றம் செய்வது எப்படி என்று காட்டப்பட்டுள்ளது. கடைசியாக reindex_like() எனும் பங்ஷன் மூலம் ஒரு டேட்டாஃப்பிரேமின் வடிவத்தை மற்றொரு டேட்டாஃப்பிரேமைப் போலவே அமைப்பது எப்படி என்று காட்டப்பட்டுள்ளது. import pandas as pd import numpy as np l2 = [[90,83,67,83,45],[68,89,75,56,73],[58,88,60,90,100]] df = pd.DataFrame(l2,columns=['Tamil','English','Maths','Science','Social'],index=['Ramesh','Suresh','Kamesh'],dtype='int32') for i in df:     print (i) for i in df.itertuples():     print (i) for i,j in df.iteritems():     print (I)     print (j) for i,j in df.iterrows():     print (I)     print (j) print (df['Tamil'].isin ([68,58])) print (df.apply(lambda x: x+2))   def hi(a,b):    return a+b print (df.pipe(hi,2)) l2 = [[90,83,45],[68,89,73],[58,88,100]] df2 = pd.DataFrame(l2,columns=['Tamil','English','Social'],index=['Ramesh','Suresh','Jagadesh'],dtype='int32') print (df2) print (df2.reindex_like(df))   Code link 08_pandas_loopsfunc.py     கீழ்கண்டவாறு ஒரு டேட்டாஃப்பிரேமை உருவாக்கிக் கொள்வோம். l2 = [[90,83,67,83,45],[68,89,75,56,73],[58,88,60,90,100]] df = pd.DataFrame(l2,columns=['Tamil','English','Maths','Science','Social'],index=['Ramesh','Suresh','Kamesh'],dtype='int32′) பின் for லூப் மூலம் அந்த டேட்டாஃப்பிரேமை iterate செய்தால், அது தலைப்புகளின் பெயர்களை மட்டும் வெளிப்படுத்துவதைக் காணலாம். for i in df: print (i) Tamil English Maths Science Social டேட்டாஃப்பிரேமின் மீது itertuples எனக் கொடுத்து அதனை சுழற்சி செய்து பார்த்தால், அது ஒவ்வொரு row-ஆக வெளிப்படுத்துவதைக் காணலாம். for i in df.itertuples(): print (i) Pandas(Index='Ramesh', Tamil=90, English=83, Maths=67, Science=83, Social=45) Pandas(Index='Suresh', Tamil=68, English=89, Maths=75, Science=56, Social=73) Pandas(Index='Kamesh', Tamil=58, English=88, Maths=60, Science=90, Social=100) அதுவே iteritems எனக் கொடுத்து iterate செய்தால், column-ன் பெயர் மற்றும் அதில் சேமிக்கப்பட்டுள்ள row wise தரவுகள் ஆகியவற்றைத் தொடர்ந்து வெளிப்படுத்தும். for i,j in df.iteritems(): print (i) print (j) Tamil Ramesh 90 Suresh 68 Kamesh 58 Name: Tamil, dtype: int32 . . . . Social Ramesh 45 Suresh 73 Kamesh 100 Name: Social, dtype: int32 iterrows எனக் கொடுத்தால் row-ன் பெயர் மற்றும் அதில் சேமிக்கப்பட்டுள்ள column wise தரவுகள் ஆகியவற்றை வெளிப்படுத்தும். for i,j in df.iterrows(): print (i) print (j) Ramesh Tamil 90 English 83 Maths 67 Science 83 Social 45 Name: Ramesh, dtype: int32 . . . Kamesh Tamil 58 English 88 Maths 60 Science 90 Social 100 Name: Kamesh, dtype: int32 ஒரு டேட்டாஃப்பிரேம் column-ல் உள்ள மதிப்புகள் குறிப்பிட்ட சில மதிப்புகளைக் கொண்டிருக்கின்றனவா இல்லையா என்பதை சோதிக்க isin என்பது பயன்படுகிறது. print (df['Tamil'].isin ([68,58])) Ramesh False Suresh True Kamesh True Name: Tamil, dtype: bool Lambda எனும் ஒற்றை வரி பங்ஷன் மூலம் அனைத்து மதிப்புகளுடனும் 2 கூட்டி காட்டப்பட்டுள்ளது. print (df.apply(lambda x: x+2))        Tamil English Maths Science Social Ramesh 92    85      69    85      47 Suresh 70    91      77    58      75 Kamesh 60    90      62    92      102 அதே வேலை hi எனும் user defined function கொண்டு செய்யப்பட்டுள்ளது. டேட்டாஃப்பிரேமுடன் அந்த பங்ஷனை இணைக்க pipe பயன்பட்டுள்ளது. def hi(a,b):     return a+b print (df.pipe(hi,2)) இங்கு df2 எனும் இரண்டாவது டேட்டாஃப்பிரேம் உருவாக்கப்பட்டுள்ளது. இதனை df-வுடன் ஒப்பிடும்போது ரமேஷ், சுரேஷ் ஆகிய இரண்டு இன்டெக்ஸ் மற்றும் தமிழ், இங்கிலீஷ், சோஷியல் ஆகிய மூன்று columns-ஐ மட்டும் பொதுவாகப் பெற்றுள்ளது. l2 = [[90,83,45],[68,89,73],[58,88,100]] df2 = pd.DataFrame(l2,columns=['Tamil','English','Social'],index=['Ramesh','Suresh','Jagadesh'],dtype='int32′) print (df2)          Tamil English Social Ramesh   90    83      45 Suresh   68    89      73 Jagadesh 58    88      100 எனவே df2-ன் இன்டெக்ஸை df போலவே அமைக்கும்போது இல்லாத rows, columns –க்கு null மதிப்பினை இட்டு வடிவத்தை அதே போலவே அமைக்கும். print (df2.reindex_like(df))        Tamil English Maths Science Social Ramesh 90.0  83.0    NaN   NaN     45.0 Suresh 68.0  89.0    NaN   NaN     73.0 Kamesh NaN   NaN     NaN   NaN     NaN   எளிய தமிழில் Pandas-9   Metrics தரவுகளைப் பற்றிய புரிதலை இன்னும் நுணுக்கமாகத் துல்லியமாக அமைப்பதற்கு பல்வேறு அளவீடுகள் உதவுகின்றன. அவைகளின் பட்டியலை இப்பகுதியில் காணலாம். பொதுவாக இதுபோன்ற அளவீடுகளைக் கணக்கிடுவதற்கு இந்த உதாரணம் பொருத்தமாக இருக்காது. ஆனாலும் முதலில் இதை வைத்துப் புரிந்து கொண்டால், பின்னர் பெரிய அளவிலான தரவுகளை கையாளும் போது சுலபமாக இருக்கும் என்பதற்காக அதே உதாரணத்தை நான் பயன்படுத்தியுள்ளேன். import pandas as pd import numpy as np l2 = [[90,83,67,83,45],[68,89,75,56,73],[58,88,60,90,100]] df = pd.DataFrame(l2,columns=['Tamil','English','Maths','Science','Social'],index=['Ramesh','Suresh','Kamesh'],dtype='int32') print (df) print (df.pct_change()) print (df['Tamil'].cov(df['English'])) print (df.cov()) print (df.corr()) print (df.rank()) print (df.rolling(window=3).mean()) print (df.rolling(window=3,min_periods=2).mean()) print (df.rolling(window=3,min_periods=2).aggregate([np.sum,np.mean])) print (df.rolling(window=2).sum()) print (df.expanding(min_periods=2).sum()) print (df.ewm(com=0.5).mean()) view raw 09_pandas_metrics.py     முதலில் ஒரு டேட்டாஃப்பிரேமை உருவாக்கிக் கொள்வோம். l2 = [[90,83,67,83,45],[68,89,75,56,73],[58,88,60,90,100]] df = pd.DataFrame(l2,columns=['Tamil','English','Maths','Science','Social'],index=['Ramesh','Suresh','Kamesh'],dtype='int32′) பின் அதனை பிரிண்ட் செய்து பார்ப்போம். print (df)        Tamil English Maths Science Social Ramesh 90    83      67    83      45 Suresh 68    89      75    56      73 Kamesh 58    88      60    90      100 Percentage Change ஒவ்வொரு row-வில் உள்ள தரவுகளும் அதற்கு முந்தைய row-வில் உள்ள தரவுகளுடன் எவ்வளவு சதவீதம் மாறுபடுகின்றன என்பதைக் கண்டுபிடிக்க pct_change() எனும் ஃபங்ஷன் பயன்படுகிறது. ஆகவேதான் முதல் row-க்கு முந்தி எந்த ஒரு row-வும் இல்லாத காரணத்தால் NaN என்பதை வெளிப்படுத்தியுள்ளது. அதற்கு அடுத்த row-வில் (68-90)/90 = -0.244444 என்பதை வெளிப்படுத்தியுள்ளது. இதே போல் ஒவ்வொரு மதிப்பையும் கணக்கிட்டு வெளிப்படுத்தியுள்ளது. print (df.pct_change())        Tamil     English   Maths     Science   Social Ramesh NaN       NaN       NaN       NaN       NaN Suresh -0.244444 0.072289  0.119403  -0.325301 0.622222 Kamesh -0.147059 -0.011236 -0.200000 0.607143  0.369863 Covariance ஒவ்வொரு column-ல் உள்ள தரவுகளும் மற்ற column-ல் உள்ள தரவுகளுடன் எந்த அளவுக்குத் தொடர்புடையதாக இருக்கின்றன என்பதைக் கண்டுபிடிக்க Covariance,Correlation ஆகியவை பயன்படுகின்றன. இவற்றின் முக்கியத்துவத்தை மெஷின் லேர்னிங் என்ற புத்தகத்தில் ஏற்கனவே பார்த்தோம். இப்போது இவற்றுக்கான கணக்கீடுகளைப் பற்றி கொஞ்சம் கற்றுக் கொள்வோம். ஒவ்வொரு column-ல் இருக்கும் எண்களும் பல்வேறு range-ல் இருக்க வாய்ப்புகள் உள்ளன. ஆகவேதான் இவற்றுக்கிடையே இருக்கும் தொடர்பினைக் கண்டறிய ஒவ்வொரு column-ல் உள்ள மதிப்புகளுடனும் அந்த column-ன் சராசரி கழிக்கப்பட்டு ஒரு பொதுமதிப்பு உருவாக்கப்படுகிறது. இவ்வாறு இரண்டு column-க்கும் உருவாக்கப்பட்ட பொது மதிப்புகளை வைத்து அதன் தொடர்பு கண்டுபிடிக்கப்படுகிறது. Covariance-க்கான வாய்ப்பாடு பின்வருமாறு. summation of (x element – mean(x)).(y element – mean(y))/ N -1 இங்கு தமிழ், ஆங்கிலம் ஆகிய இரு column-ல் சேமிக்கப்பட்டுள்ள தரவுகளின் covariance மதிப்பு பின்வருமாறு கணக்கிடப்படுகிறது. (90+68+58)/3 = 72 (83+89+88)/3 = 86.67 = {[(90-72)*(83-86.67)]+ [(68-72)*(89-86.67)]+ [(58-72)*(88-86.67)]}/(3-1) = {[18*(-3.67)]+ [(-4)*2.33]+ [(-14)*1.33]}/2 = [(-66.06)+(-9.32)+(-18.62)]/2 = -94/2 = -47 print (df['Tamil'].cov(df['English'])) -47.0 அடுத்து ஒவ்வொரு column-க்கும் மற்ற column-களுக்கு இடையேயான covariance மதிப்பு கண்டுபிடிக்கப்பட்டுள்ளது. print (df.cov())         Tamil    English    Maths       Science     Social Tamil   268.0    -47.000000 33.000000   5.000000    -441.000000 English -47.0    10.333333  4.666667    -26.833333  69.333333 Maths   33.0     4.666667   56.333333   -129.166667 -94.333333 Science 5.0 –    26.833333  -129.166667 322.333333  91.166667 Social  -441.0   69.333333  -94.333333  91.166667   756.333333 Correlation Correlation-க்கான வாய்ப்பாடு பின்வருமாறு. summation of (x element – mean(x)).(y element – mean(y)) / square root of {summation of {square of [(x element – mean(x)]. square of [(y element – mean(y)]}} Covariance மதிப்பு infinity வரை செல்லும். இதன் அளவிடப்பட்ட வடிவமாக (scaled form) correlation-ஐ சொல்லலாம். correlation மதிப்பு பொதுவாக -1 லிருந்து 1 வரை அமையும்.   மேலும் correlation மதிப்பு தரவுகளில் ஏற்படும் மாறுதல்களுக்கு ஏற்ப மாறி அமையாது. எடுத்துக்காட்டாக இரு column-லும் உள்ள அனைத்து மதிப்புகளையும் ஒரு குறிப்பிட்ட எண்ணால் பெருக்குகிறோம் என்று வைத்துக் கொள்வோம். இந்த மாறுதல்களால் covariance மதிப்பு மாறுபடும். ஆனால் இது போன்ற மாற்றங்கள் correlation மதிப்பில் எவ்வித மாற்றத்தையும் உண்டாக்காது.   இங்கு தமிழ், ஆங்கிலம் ஆகிய இரு column-ல் சேமிக்கப்பட்டுள்ள தரவுகளின் correlation மதிப்பு பின்வருமாறு கணக்கிடப்படுகிறது. (90+68+58)/3 = 72 (83+89+88)/3 = 86.67 = {[18*(-3.67)]+[(-4)*2.33]+ [(-14)*1.33]} / sqft{[(18*18)+(-4*-4)+(-14*-14] *[(-3.67*-3.67)+(2.33*2.33)+(1.33*1.33)]} = [(-66.06)+(-9.32)+(-18.62)]/ sqft{[324+16+196] *[13.468+5.4289+1.7689]} = -94/sqft(536*20.6658) = -94/105.2467 = -0.8931 print (df.corr())         Tamil     English   Maths     Science   Social Tamil   1.000000  -0.893121 0.268574  0.017012  -0.979523 English -0.893121 1.000000  0.193421  -0.464945 0.784269 Maths   0.268574  0.193421  1.000000  -0.958551 -0.457010 Science 0.017012  -0.464945 -0.958551 1.000000  0.184640 Social  -0.979523 0.784269  -0.457010 0.184640  1.000000 Ranks கொடுக்கப்பட்ட மதிப்புகளின் அடிப்படையில் தரவரிசைப் படுத்திக் காட்ட rank() பயன்படுகிறது. print (df.rank())        Tamil English Maths Science Social Ramesh 3.0   1.0     2.0   2.0     1.0 Suresh 2.0   3.0     3.0   1.0     2.0 Kamesh 1.0   2.0     1.0   3.0     3.0 Rolling Rolling Mean என்றால் நகரும் சராசரி என்று பொருள். பொதுவாக timeseries தரவுகளில் இதுபோன்ற விஷயங்கள் பயன்படும். கொடுக்கப்பட்ட window மதிப்பின் அடிப்படையில் தரவுகளைப் பிரித்து அதனைக் கொண்டு சராசரியைக் கணக்கிடும். இவ்வாறு கணக்கிடும்போது ஒவ்வொரு row-ம் விண்டோ அளவிற்கு ஏற்ப அதற்கு முந்தைய ரெகார்ட்ஸை எடுத்துக்கொண்டு கணக்கிடும். ஆகவே சராசரி கணக்கெடுப்புக்கு உதவும் rows-ஆனது சிறு சிறு பகுதிகளாக நகர்ந்து கொண்டே செல்லும். எனவேதான் இது Moving Average என்றும் அழைக்கப்படுகிறது. இங்கு விண்டோ அளவு மூன்று என கொடுக்கப்பட்டுள்ளதால் முதலிரண்டு row-க்கு null மதிப்பை வெளிப்படுத்திவிட்டு, மூன்றாவது ரோவில் இருந்து மும்மூன்று row-க்கும் சராசரியைக் கணக்கிட்டு வெளிப்படுத்தியுள்ளது.   (90+68+58)/3 = 72   நான்காவது row இருந்திருந்தால் 2,3,4 ஆகிய இடங்களில் இருக்கும் மதிப்பைக் கொண்டு சராசரியைக் கணக்கிடும். print (df.rolling(window=3).mean())        Tamil English   Maths     Science   Social Ramesh NaN   NaN       NaN       NaN       NaN Suresh NaN   NaN       NaN       NaN       NaN Kamesh 72.0  86.666667 67.333333 76.333333 72.666667 அதுவே min periods=2 எனக் கொடுத்தால் மூன்று row இல்லாதபோது குறைந்தபட்சம் இரண்டு row இருந்தால் கூட அதை எடுத்துக்கொண்டு சராசரியைக் கணக்கிடும். அதுவும் இல்லாத பட்சத்தில் தான் NaN-ஐ வெளிப்படுத்தும். இங்கு முதல் row-க்கு NaN என்பதையும், இரண்டாவது row-க்கு இரண்டின் சராசரியையும், மூன்றாவது row-லிருந்து கொடுக்கப்பட்ட விண்டோ மதிப்பின்படி சராசரியைக் கணக்கிட்டும் வெளிப்படுத்தியுள்ளது. (90+68)/2 = 79 (90+68+58)/3 = 72 print (df.rolling(window=3,min_periods=2).mean())        Tamil  English   Maths     Science   Social Ramesh NaN    NaN       NaN       NaN       NaN Suresh 79.0   86.000000 71.000000 69.500000 59.000000 Kamesh 72.0   86.666667 67.333333 76.333333 72.666667 ஒன்றுக்கும் மேற்பட்ட மெட்ரிக்சை கண்டுபிடித்து வெளிப்படுத்த விரும்பினால் aggregate () என்பதற்குள் பின்வருமாறு கொடுக்கலாம். இங்கு sum, mean ஆகிய இரண்டும் கண்டுபிடித்து வெளிப்படுத்தப்பட்டுள்ளது. 90+68 = 158 90+68+58 = 216 (90+68)/2 = 79 (90+68+58)/3 = 72 print (df.rolling(window=3,min_periods=2).aggregate([np.sum,np.mean]))        Tamil      Englis… Science   Social        sum   mean sum   … mean      sum   mean Ramesh NaN   NaN  NaN   … NaN       NaN   NaN Suresh 158.0 79.0 172.0 … 69.500000 118.0 59.000000 Kamesh 216.0 72.0 260.0 … 76.333333 218.0 72.666667 [3 rows x 10 columns] Expanding Rolling என்பது சிறு சிறு பகுதிகளாக தரவுகளைப் பிரித்துக்கொண்டு கணக்கீடுகளை நிகழ்த்தும். Expanding என்பது கணக்கிட்டு வந்த மதிப்புகளைக் கணக்கில் கொண்டு தனது கணக்கீடுகளைத் தொடர்ந்து கொண்டே செல்லும். கீழ்கண்ட Rolling எடுத்துக்காட்டில் மூன்றாவது row-க்கான கணக்கீடு அதன் மதிப்பையும் அதற்கு முந்தைய row மதிப்பான 68-ஐயும் இணைத்து 126 என்பதனை வெளிப்படுத்தியுள்ளது. 90+68+58 print (df.rolling(window=2).sum())        Tamil English Maths Science Social Ramesh NaN   NaN     NaN   NaN     NaN Suresh 158.0 172.0   142.0 139.0   118.0 Kamesh 126.0 177.0   135.0 146.0   173.0 அதுவே expanding என்று வரும்போது மூன்றாவது row-க்கான கணக்கீடு அதன் மதிப்பையும் அதற்கு முந்தைய row கணக்கிட்டு வெளிப்படுத்திய மதிப்பான 158-ஐயும் இணைத்து 216 என வெளிப்படுத்தியுள்ளதைக் காணலாம். print (df.expanding(min_periods=2).sum())        Tamil English Maths Science Social Ramesh NaN   NaN     NaN   NaN     NaN Suresh 158.0 172.0   142.0 139.0   118.0 Kamesh 216.0 260.0   202.0 229.0   218.0 Exponential weighted functions இதுவரை நாம் பார்த்த rolling, expanding ஆகிய அனைத்தும் பல்வேறு யுக்திகளைக் கொண்டு mean, median ஆகியவற்றைக் கணக்கிடுகின்றன. ஆனால் இதுவோ ஒருசில parameters – ஐக் கணக்கில் கொண்டு அதே விசயத்தை செய்கின்றது. com, span, halflife போன்ற சில parameters- ஐ வைத்து முதலில் ஆல்ஃபா மதிப்பைக் கண்டுபிடிக்கிறது. alpha = 1/(1+com) பின் அந்த ஆல்ஃபா மதிப்பை வைத்து கீழ்க்கண்ட சமன்பாட்டில் பொருத்தி வேண்டிய மதிப்புகள் கண்டுபிடிக்கப்படுகின்றன. weighted_average[0] = arg[0] weighted_average[i] = (1-alpha)*wt._avg[i-1]+alpha*arg[i] இங்கு com = 0.5 என வைத்து ஆல்ஃபா மதிப்பு கண்டுபிடிக்கப்பட்டுள்ளது.   alpha = 1/(1+0.5) = 1/1.5 = 0.66 பின் முதல் row-க்கான mean அதே மதிப்பாக அமைந்துள்ளது. அடுத்த row-க்கான mean சமன்பாட்டின் படி கீழ்கண்டவாறு கண்டுபிடிக்கப்பட்டுள்ளது. (1-0.66)*90 + (0.66*68) = 30.6 + 44.88 = 75.48 இங்கு 75.48 என கணக்கிடப்பட்டுள்ளது. ஆனால் நமது நிரல் 73.50 என்பதை வெளிப்படுத்தியுள்ளது. மூன்றாவது row-க்கான mean கீழ்கண்டவாறு. (1-0.66)*75 + (0.66*58) = 25.5 + 38.28 = 63.78 இங்கு 63.78 என கணக்கிடப்பட்டுள்ளது. ஆனால் நமது நிரல் 62.76 என்பதை வெளிப்படுத்தியுள்ளது. இந்தச் சிறு வித்தியாசம் எதனால் என்பது இன்னும் சரிவர புலப்படவில்லை. இதைப் படிக்கும் யாரேனும் இதற்கான விடையைக் கண்டுபிடித்தால் கூறவும். print (df.ewm(com=0.5).mean())        Tamil     English   Maths Science   Social Ramesh 90.000000 83.000000 67.0  83.000000 45.000000 Suresh 73.500000 87.500000 73.0  62.750000 66.000000 Kamesh 62.769231 87.846154 64.0  81.615385 89.538462     எளிய தமிழில் Pandas-10   Handling Null values டேட்டாஃப்பிரேமில் Null மதிப்புகளைக் கையாள்வதில் பல்வேறு விதங்கள் உள்ளன. அவைகளைப் பற்றி இப்பகுதியில் காணலாம்.   import pandas as pd import numpy as np l2 = [[90,83,67,83,45],[68,89,75,56,73],[58,88,60,90,100]] df = pd.DataFrame(l2,columns=['Tamil','English','Maths','Science','Social'],index=['Ramesh','Suresh','Kamesh'],dtype='int32') df = df.rolling(window=3).mean() print (df) print (df.isnull()) print (df.notnull()) print (df.dropna())     print (df.fillna(0))        print (df.fillna(method='bfill')) # pad / fill for forward fill; #bfill / backfill from backward print (df.fillna(method='bfill',limit=1)) print (df.sum()) print (df.replace({72:100})) Code link 10_pandas_null.py     முதலில் Null மதிப்புகளைப் பெற்றிருக்கும் ஒரு டேட்டாஃப்பிரேமை பின்வருமாறு உருவாக்கிக் கொள்ளவும். df = df.rolling(window=3).mean() print (df)        Tamil English   Maths     Science   Social Ramesh NaN   NaN       NaN       NaN       NaN Suresh NaN   NaN       NaN       NaN       NaN Kamesh 72.0  86.666667 67.333333 76.333333 72.666667 பின் அதில் Null மதிப்பு உள்ளதா என சோதிக்க isnull () பயன்படும். இது Null மதிப்பு இருக்கும் இடங்களில் மட்டும் True என்பதை வெளிப்படுத்தும். print (df.isnull())        Tamil English Maths Science Social Ramesh True  True    True  True    True Suresh True  True    True  True    True Kamesh False False   False False   False Null மதிப்பு இல்லையா என சோதிக்க notnull () பயன்படும். இது Null மதிப்பு இல்லாத இடங்களில் True என்பதை வெளிப்படுத்தும். print (df.notnull())        Tamil English Maths Science Social Ramesh False False   False False   False Suresh False False   False False   False Kamesh True  True    True  True    True Null மதிப்புகளை டேட்டாஃப்பிரேமில் இருந்து நீக்க dropna () பயன்படும். print (df.dropna())        Tamil English   Maths     Science   Social Kamesh 72.0  86.666667 67.333333 76.333333 72.666667 Null மதிப்புகளை சுழியம் மதிப்பால் இடமாற்றம் செய்ய விரும்பினால் fillna – ஐப் பயன்படுத்தலாம். print (df.fillna(0))        Tamil English   Maths     Science   Social Ramesh 0.0   0.000000  0.000000  0.000000  0.000000 Suresh 0.0   0.000000  0.000000  0.000000  0.000000 Kamesh 72.0  86.666667 67.333333 76.333333 72.666667 Null மதிப்புகளை அதற்கு அடுத்துள்ள row மதிப்புகளால் நிரப்ப விரும்பினால் method=bfill எனக் கொடுக்கலாம். இது backward fill எனப் பொருள்படும். அதேபோல வெறும் fill என்பது ஃபார்வேர்ட் fill- ஐக் குறிக்கும். print (df.fillna(method='bfill')) # pad / fill for #forward fill; bfill / backfill from backward        Tamil English   Maths     Science   Social Ramesh 72.0  86.666667 67.333333 76.333333 72.666667 Suresh 72.0  86.666667 67.333333 76.333333 72.666667 Kamesh 72.0  86.666667 67.333333 76.333333 72.666667 method=bfill என்பதுடன் limit=1 எனக் கொடுத்தால் கீழிருந்து மேலாக ஒரே ஒரு row-ஐ மட்டும் நிரப்பும். print (df.fillna(method='bfill',limit=1))        Tamil English   Maths     Science   Social Ramesh NaN   NaN       NaN       NaN       NaN Suresh 72.0  86.666667 67.333333 76.333333 72.666667 Kamesh 72.0  86.666667 67.333333 76.333333 72.666667 Null மதிப்புகளைக் கொண்ட டேட்டாஃப்பிரேமின் மீது sum() என்பது போன்ற aggregate functions-ஐப் பயன்படுத்தினால், அவை Null மதிப்புகளைத் தவிர்த்து மீதமுள்ள மதிப்புகளை மட்டும் கணக்கில் எடுத்துக் கொண்டு செயல்படுவதைக் காணலாம். print (df.sum()) Tamil   72.000000 English 86.666667 Maths   67.333333 Science 76.333333 Social  72.666667 dtype: float64 ஒரு மதிப்பினை மற்றொரு மதிப்பால் இடமாற்றம் செய்ய replace() பயன்படுகிறது. print (df.replace({72:100}))        Tamil  English   Maths     Science   Social Ramesh NaN    NaN       NaN       NaN       NaN Suresh NaN    NaN       NaN       NaN       NaN Kamesh 100.0  86.666667 67.333333 76.333333 72.666667     எளிய தமிழில் Pandas-11   Handling DateTime தேதி, வருடம், மாதம், நேரம் ஆகியவற்றின் அடிப்படையில் வரும் தரவுகளைக் கையாண்டு, கணக்கிட்டு ஆய்வு செய்வது எப்படி என்று இப்பகுதியில் காணலாம்.   import pandas as pd df = pd.DataFrame({'Name':['Mahesh','Elango','Kadiresan','Sundar','Kumar'],'Joining_date':['2020.01.14', '2020, 12, 23', 'Nov 19, 2020', '2020, 04, 06','2020.06.30']}) print (df) df['Joining_date'] = pd.to_datetime(df['Joining_date']) print (df) df['confirmation_date'] = df['Joining_date']+pd.Timedelta(days=180) print (df)   print (pd.Timedelta(days=180)) print (pd.Timedelta('3 days 5 hours 45 minutes 50 seconds')) print (pd.Timedelta(5,unit='h')) l1 = [pd.Timedelta(days=i) for i in range(3)] print (pd.Series(l1))   df['Allocation_date'] = pd.date_range('01/01/2021', periods=5) print (df)   print (pd.date_range("11:00", "13:30", freq="30min")) print (pd.date_range('27-Sep-2017', '17-Oct-2017',freq='3D'))   df['Allocation_date'] = pd.bdate_range('01/01/2021', '01/07/2021') print (df)   print (pd.bdate_range('27-Sep-2017', '17-Oct-2017'))   print (pd.date_range('27-Sep-2017', '17-Dec-2017',freq='M')) print (pd.period_range('27-Sep-2017', '17-Dec-2017',freq='M'))   df['Today_date'] = pd.datetime.now() print (df)     df['Experience'] = df['Today_date'] - df['Joining_date'] print (df['Experience'])   print (pd.datetime.now()) print (pd.datetime.now().strftime("%Y-%m-%d")) print (pd.Timestamp('2021-03-10')) print (pd.Timestamp(1372898493,unit='s')) Code link 11_pandas_datetime.py  Supported format இங்கு 5 நபர்களின் பெயர் மற்றும் அவர்கள் வேலைக்குச் சேர்ந்த தேதி ஆகியவற்றைக் கொண்ட ஒரு டேட்டாஃப்பிரேம் உருவாக்கப்பட்டுள்ளது.   இத்தேதியிலிருந்து சரியாக 6 மாதங்கள் கழித்து அவர்களது வேலையை உறுதி செய்வதற்கான நாளைக் கணக்கிட வேண்டுமெனில், முதலில் அவர்கள் வேலைக்குச் சேர்ந்த தேதியின் அமைப்பினை pandas ஏற்றுக் கொள்ளக் கூடிய வடிவில் மாற்ற வேண்டும். இதற்கு உதவுவதே to_datetime ஆகும்.   இங்கு பல்வேறு வடிவில் கொடுக்கப்பட்ட தேதிகள் அனைத்தும் yyyy-mm-dd ஆகிய வடிவில் மாற்றப்பட்டுள்ளன. df = pd.DataFrame({'Name':['Mahesh','Elango','Kadiresan','Sundar','Kumar'],'Joining_date':['2020.01.14', '2020, 12, 23', 'Nov 19, 2020', '2020, 04, 06′,'2020.06.30']}) print (df)   Name      Joining_date 0 Mahesh    2020.01.14 1 Elango    2020, 12, 23 2 Kadiresan Nov 19, 2020 3 Sundar    2020, 04, 06 4 Kumar     2020.06.30 df['Joining_date'] = pd.to_datetime(df['Joining_date']) print (df)   Name      Joining_date 0 Mahesh    2020-01-14 1 Elango    2020-12-23 2 Kadiresan 2020-11-19 3 Sundar    2020-04-06 4 Kumar     2020-06-30 Timedelta Timedelta என்பது நேரங்களில் உள்ள கால வேறுபாடுகளைக் காட்ட உதவும் அலகு முறை ஆகும். ஒவ்வொருவருடைய வேலை உறுதி நாளையும் கணக்கிட அவர்கள் வேலைக்குச் சேர்ந்த தேதியிலிருந்து 180 நாட்களைக் கூட்ட இந்த அலகு பயன்பட்டுள்ளது. அவ்வாறு கூட்டி கண்டுபிடித்த நாளானது confirmation date எனும் Column-ன் கீழ் சேமிக்கப்படுகிறது. df['confirmation_date'] = df['Joining_date']+pd.Timedelta(days=180) print (df)   Name      Joining_date confirmation_date 0 Mahesh    2020-01-14   2020-07-12 1 Elango    2020-12-23   2021-06-21 2 Kadiresan 2020-11-19   2021-05-18 3 Sundar    2020-04-06   2020-10-03 4 Kumar     2020-06-30   2020-12-27 Time delta-வை நாட்கள், மணி, நேரம், நிமிடம் என பல்வேறு அளவுகளில் அமைக்கலாம். அதற்கான உதாரணங்கள் கீழே கொடுக்கப்பட்டுள்ளது.   print (pd.Timedelta(days=180)) 180 days 00:00:00 print (pd.Timedelta('3 days 5 hours 45 minutes 50 seconds')) 3 days 05:45:50 print (pd.Timedelta(5,unit='h')) 0 days 05:00:00 l1 = [pd.Timedelta(days=i) for i in range(3)] print (pd.Series(l1)) 0 0 days 1 1 days 2 2 days dtype: timedelta64[ns] Date Range கொடுக்கப்பட்ட எல்லைக்கு ஏற்றவாறு தேதிகளை உருவாக்க date_range எனும் function பயன்படும். இங்கு ஜனவரி 1-லிருந்து துவங்கி தொடர்ச்சியான 5 தேதியினை Allocation date எனும் column-ன் கீழ் அமைப்பதைக் காணலாம். பொதுவாக சனி, ஞாயிறு ஆகிய விடுமுறை நாட்களில் அல்லகேஷன் தேதி அமையாது. இதுபோன்ற இடங்களில் பயன்படுத்த உதவுவதே bdate_range() ஆகும். இது பிசினஸ் நாட்களை மட்டும் கணக்கில் கொண்டு தேதிகளை அமைக்கும். df['Allocationdate'] = pd.date_range('01/01/2021′, periods=5) print (df)   Name      Joining_date confirmation_date Allocation_date 0 Mahesh    2020-01-14   2020-07-12        2021-01-01 1 Elango    2020-12-23   2021-06-21        2021-01-02 2 Kadiresan 2020-11-19   2021-05-18        2021-01-03 3 Sundar    2020-04-06   2020-10-03        2021-01-04 4 Kumar     2020-06-30   2020-12-27        2021-01-05 இதன் frequency எனும் பண்பு எவ்வளவு நாட்கள் அல்லது நேரங்கள் இடைவெளி விட்டு அடுத்த தேதியினை உருவாக்க வேண்டும் என்பதைக் குறிக்கிறது. கீழே உள்ள எடுத்துக்காட்டில் அரை மணி நேரத்திற்கு ஒரு முறையும் மூன்று நாட்களுக்கு ஒரு முறையும் தேதிகள் உருவாக்கிக் காட்டப்பட்டுள்ளன. print (pd.date_range(“11:00", “13:30″, freq="30min")) DatetimeIndex(['2021-05-06 11:00:00', '2021-05-06 11:30:00','2021-05-06 12:00:00', '2021-05-06 12:30:00','2021-05-06 13:00:00', '2021-05-06 13:30:00'],dtype='datetime64[ns]', freq='30T') print (pd.date_range('27-Sep-2017′, '17-Oct-2017′,freq='3D')) DatetimeIndex(['2017-09-27', '2017-09-30', '2017-10-03', '2017-10-06','2017-10-09', '2017-10-12', '2017-10-15′], dtype='datetime64[ns]', freq='3D') Business dates கொடுக்கப்பட்ட எல்லைக்கு ஏற்றவாறு சனி, ஞாயிறு ஆகிய விடுமுறை நாட்களை விடுத்து தேதிகளை உருவாக்க bdate_range எனும் function பயன்படும். இங்கு ஜனவரி 1-லிருந்து துவங்கி 7-ஆம் தேதி வரை சனி, ஞாயிறு ஆகிய தேதிகளைத் தவிர்த்து தொடர்ச்சியான 5 தேதிகள் Allocation date எனும் column-ன் கீழ் அமைவதைக் காணலாம். df['Allocationdate'] = pd.bdate_range('01/01/2021′, '01/07/2021′) print (df)   Name      Joining_date confirmation_date Allocation_date 0 Mahesh    2020-01-14   2020-07-12        2021-01-01 1 Elango    2020-12-23   2021-06-21        2021-01-04 2 Kadiresan 2020-11-19   2021-05-18        2021-01-05 3 Sundar    2020-04-06   2020-10-03        2021-01-06 4 Kumar     2020-06-30   2020-12-27        2021-01-07 இதற்கான மற்றுமொரு எடுத்துக்காட்டு பின்வருமாறு. print (pd.bdate_range('27-Sep-2017′, '17-Oct-2017′)) DatetimeIndex(['2017-09-27', '2017-09-28', '2017-09-29', '2017-10-02','2017-10-03', '2017-10-04', '2017-10-05', '2017-10-06','2017-10-09', '2017-10-10', '2017-10-11', '2017-10-12′,'2017-10-13', '2017-10-16', '2017-10-17'], dtype='datetime64[ns]', freq='B') Period Range period_range என்பது மாதங்களை அடிப்படையாகக் கொண்டு அமையும். date_range என்பதிலும் freq=M எனக் கொடுக்கலாம். ஆனால் date_range உள் கொடுக்கப்படுகின்றன கடைசி எல்லை மாதத்தின் நடுவில் உள்ள ஏதாவது ஒரு தேதியைக் கொண்டிருந்தால் அக்கடைசி மாதத்தைக் கணக்கில் எடுத்துக் கொள்ளது. ஆனால் period_range என்பது மாதத்தின் எந்த ஒரு தேதியைக் கொண்டிருந்தாலும் அதனைக் கணக்கில் எடுத்துக் கொள்ளும். கீழே உள்ள எடுத்துக்காட்டில், 17-Dec-2017 எனும் எல்லை date_range உள் கொடுக்கப்படும்போது திசம்பர் மாதம் விடுபடுவதைக் காணவும். ஆனால் அதே தேதி period_range உள் கொடுக்கப்படும்போது திசம்பர் மாதம் இடம்பெறுவதைக் காணவும். print (pd.date_range('27-Sep-2017′, '17-Dec-2017′,freq='M')) DatetimeIndex(['2017-09-30', '2017-10-31', '2017-11-30′], dtype='datetime64[ns]', freq='M') print (pd.period_range('27-Sep-2017′, '17-Dec-2017′,freq='M')) PeriodIndex(['2017-09', '2017-10', '2017-11', '2017-12′], dtype='period[M]', freq='M') DateTime & Timestamp அடுத்ததாக நமது டேட்டாஃப்பிரேமில் Todaydate எனும் column-ஐ இணைத்து அதில் தற்போதைய தேதியை சேமிக்கின்றோம். ஏனெனில் இதனை அடிப்படையாகக் கொண்டு தான் ஒருவருடைய அனுபவத்தை கணக்கிடப் போகிறோம். அது பின்வருமாறு. df['Todaydate'] = pd.datetime.now() print (df)   Name   Joining_date … Allocation_date Today_date 0 Mahesh 2020-01-14   … 2021-01-01      2021-05-06 14:21:59.847837 1 Elango 2020-12-23   … 2021-01-04      2021-05-06 14:21:59.847837 2 Kadir  2020-11-19   … 2021-01-05      2021-05-06 14:21:59.847837 3 Sundar 2020-04-06   … 2021-01-06      2021-05-06 14:21:59.847837 4 Kumar  2020-06-30   … 2021-01-07      2021-05-06 14:21:59.847837 [5 rows x 5 columns] df['Experience'] = df['Todaydate'] – df['Joiningdate'] print (df['Experience']) 0 478 days 14:21:59.847837 1 134 days 14:21:59.847837 2 168 days 14:21:59.847837 3 395 days 14:21:59.847837 4 310 days 14:21:59.847837 Name: Experience, dtype: timedelta64[ns] datetime வெளிப்படுத்துகின்ற தற்போதைய நேரத்தை நாம் விரும்பும் வடிவில் அமைக்க விரும்பினால் strftime() என்பது பயன்படும். Timestamp() என்பது கொடுக்கப்பட்டுள்ள தேதியை நேர மதிப்பீட்டுடன் இணைத்து வெளிப்படுத்த உதவும். அவ்வாறே ஒரு epoch time-ஐ மாற்றிக் கொடுக்கவும் உதவும். print (pd.datetime.now()) 2021-05-06 14:21:59.862609 print (pd.datetime.now().strftime(“%Y-%m-%d")) 2021-05-06 print (pd.Timestamp('2021-03-10')) 2021-03-10 00:00:00 print (pd.Timestamp(1372898493,unit='s')) 2013-07-04 00:41:33     எளிய தமிழில் Pandas-12   Handling Categorical data ஒருவருடைய பாலினம், ரத்தவகை என்பது போன்ற மதிப்புகளைக் குறிப்பிடும் போது ஒருசில குறிப்பிட்ட மதிப்புகளையே திரும்பத் திரும்ப அளிக்க வேண்டிவரும். இதுபோன்ற சமயங்களில் string என்பதற்கு பதிலாக category எனும் தரவுவகையின் கீழ் அமைத்தால் நினைவகப் பகுதியை சற்று சேமிக்கலாம். எனவேதான் இந்த category-ஆனது hybrid வகை datatype என்று அழைக்கப்படுகிறது. இத்தகைய categorical டேட்டாவை வைத்து எழுதப்பட்ட உதாரண நிரல் பின்வருமாறு.   import pandas as pd   d = {'Names' : pd.Series(['Mahesh','Yazhini','Kadiresan','Malathi','Kumar','Sujith']), 'Gender' : pd.Series(['Male','Trans','Male','Female','Male','Trans'],dtype="category")} df = pd.DataFrame(d)   print (df['Names']) print (df['Gender']) print (df['Gender'].cat.remove_categories(['Trans'])) # add_categories() print (df['Gender'].cat.categories)   c = pd.Categorical(['AB+', 'B+', 'AB+', 'O+', 'B-', 'AB-','B+']) df['Blood_group'] = pd.Series(c) print (df['Blood_group'])   c = pd.Categorical(['AB+', 'B+', 'AB+', 'O+', 'B-', 'AB-','B+'],['O+','B+']) df['Blood_group'] = pd.Series(c) print (df['Blood_group']) print (c.ordered) df['Mid Year points'] = pd.Series(["50","90","80","50","120","100"]) df['Year End points'] = pd.Series(["80","50","80","90","100","50"])   df['Mid Year points'] = df['Mid Year points'].astype("category", categories=["50","80","90"], ordered=True) df['Year End points'] = df['Year End points'].astype("category", categories=["50","80","90"], ordered=True) print (df['Mid Year points']>df['Year End points']) print (df)      code link – 12_pandas_categoricaldata.py    முதலில் 6 நபர்களின் பெயர் மற்றும் பாலினம் ஆகியவற்றை Names, Gender எனும் இரண்டு தலைப்புகளின் கீழ் சேமித்து ஒரு டேட்டாஃப்பிரேமை உருவாக்கியுள்ளோம். இதில் Gender எனும் தலைப்பின் கீழ் அமையும் தரவுகளின் வகையை dtypes=category என வரையறுத்துள்ளோம். d = {'Names' : pd.Series(['Mahesh','Yazhini','Kadiresan','Malathi','Kumar','Sujith']), 'Gender' : pd.Series(['Male','Trans','Male','Female','Male','Trans'],dtype="category")} df = pd.DataFrame(d) ஆகவேதான் Names-ஐப் பிரிண்ட் செய்து பார்க்கும்போது அதனுடைய dtype மதிப்பு object என வெளிப்படுவதையும், Gender-ஐப் பிரிண்ட் செய்யும் போது அதனுடைய மதிப்பு category என வெளிப்படுவதையும் காணலாம். print (df['Names']) 0 Mahesh 1 Yazhini 2 Kadiresan 3 Malathi 4 Kumar 5 Sujith Name: Names, dtype: object மேலும் பல முறை திரும்பத் திரும்ப வந்துள்ள மதிப்புகளை ஒருமுறை மட்டும் எடுத்துக் காட்டி மொத்தம் இத்தனை மதிப்புகளே இதில் இடம் பெற்றுள்ளன என்பதையும் வெளிப்படுத்தும்.   இங்கு Male, Female, Trans ஆகிய மூன்று மதிப்புகளே திரும்பத் திரும்ப வந்துள்ளன என்பதை வெளிப்படுத்தியுள்ளது. print (df['Gender']) 0 Male 1 Trans 2 Male 3 Female 4 Male 5 Trans Name: Gender, dtype: category Categories (3, object): [Female, Male, Trans] மொத்தமுள்ள 3 மதிப்புகளில் ஏதேனும் ஒரு மதிப்பினை கேட்டகிரியில் இருந்து நீக்க விரும்பினால் அது பின்வருமாறு அமையும். இங்கு Trans எனும் மதிப்பு நீக்கப்பட்டுள்ளது. ஆகவே இந்த மதிப்பு அமைந்துள்ள இடங்களில் NaN என்பதை வெளிப்படுத்தும். print (df['Gender'].cat.remove_categories(['Trans'])) # add_categories() 0 Male 1 NaN 2 Male 3 Female 4 Male 5 NaN Name: Gender, dtype: category Categories (2, object): [Female, Male] ஒரு கேட்டகிரியில் மொத்தம் என்னென்ன மதிப்புகள் உள்ளன என்பதைக் காண்பதற்கான கட்டளை பின்வருமாறு. print (df['Gender'].cat.categories) Index(['Female', 'Male', 'Trans'], dtype='object') ஒரு series-க்குள் மதிப்புகளைக் கொடுத்து அதன் dtype=category என வரையறுப்பதன் மூலம் எவ்வாறு categorical டேட்டாவை உருவாக்கலாம் என்று பார்த்தோம். இவ்வாறு அல்லாமல் நேரடியாக pd.categorical என்பதற்குள் மதிப்புகளைக் கொடுத்து அதனை series-க்குள் செலுத்துவதன் மூலமும் இத்தகைய டேட்டாவை உருவாக்கலாம். இங்கு Blood_group எனும் டேட்டா இம்முறையில் உருவாக்கப்பட்டுள்ளது. c = pd.Categorical(['AB+', 'B+', 'AB+', 'O+', 'B-', 'AB-','B+']) df['Blood_group'] = pd.Series(c) print (df['Blood_group']) 0 AB+ 1 B+ 2 AB+ 3 O+ 4 B- 5 AB- Name: Blood_group, dtype: category Categories (5, object): [AB+, AB-, B+, B-, O+] பொதுவாக pd.Categorical என்பதற்குள் கொடுக்கப்பட்ட லிஸ்டில் உள்ள unique மதிப்புகளை எடுத்து கேட்டகிரியில் உள்ள மதிப்புகள் அமையும். இவ்வாறு அல்லாமல் ஒரு குறிப்பிட்ட மதிப்புகளை மட்டும் கொடுத்து அதனை கேட்டகிரியின் மதிப்பாக அமைக்க விரும்பினால் அது பின்வருமாறு.   இங்கு pd.Categorical என்பதற்குள் உள்ள முதல் லிஸ்டில் பல்வேறு மதிப்புகள் கொடுக்கப்பட்டாலும், அதனைத் தொடர்ந்து உள்ள அடுத்த லிஸ்டில் ['O+','B+'] மதிப்புகளை மட்டும் கேட்டகிரியின் மதிப்பாக அமைக்குமாறு கொடுத்துள்ளோம். எனவேதான் இம்மதிப்புகள் தவிர மற்ற மதிப்புகளுக்கு NaN வெளிப்படுத்தியுள்ளதைக் காணலாம். c = pd.Categorical(['AB+', 'B+', 'AB+', 'O+', 'B-', 'AB-','B+'],['O+','B+']) df['Blood_group'] = pd.Series(c) print (df['Blood_group']) 0 NaN 1 B+ 2 NaN 3 O+ 4 NaN 5 NaN Name: Blood_group, dtype: category Categories (2, object): [O+, B+] Ordered எனும் பண்பினைப் பயன்படுத்தி கேட்டகிரி உருவாக்கப்பட்டுள்ளதா இல்லையா என்பதைக் கண்டுபிடிக்க பின்வருமாறு கொடுக்கலாம். print (c.ordered) False     இப்பண்பினைப் பயன்படுத்தி அடுத்து இரு series-ஐ உருவாக்கி பார்க்கலாம்.   ஒரு series-ஐ உருவாக்கும்போது dtype=category எனக் கொடுக்கலாம் அல்லது pd.Categorical எனக் கொடுத்து கேட்டகிரியை உருவாக்கிய பின்னர் series-ஐ உருவாக்கலாம். இவ்விரண்டு முறையிலும் அல்லாமல் astype எனக் கொடுத்து ஒரு series-ஐ உருவாக்கிய பின்னரும் கேட்டகிரியாக மாற்றலாம்.   இங்கு ஒருவர் ஆண்டின் இடையில் எவ்வளவு மதிப்புகள் பெற்றுள்ளார் மற்றும் ஆண்டின் இறுதியில் எவ்வளவு மதிப்புகள் பெற்றுள்ளார் என்பதை வைத்து இரண்டு சீரீஸ் உருவாக்கப்பட்டுள்ளது.   df['Mid Year points'] = pd.Series([“50″,"90″,"80″,"50″,"120″,"100"]) df['Year End points'] = pd.Series([“80″,"50″,"80″,"90″,"100″,"50"]) பின்னர் astype மூலம் கேட்டகிரி உருவாக்கப்பட்டு அதன் மதிப்புகளாக [“50″,"80″,"90"] ஆகியவற்றை மட்டும் எடுத்துக் கொள்ளுமாறு கூறப்பட்டுள்ளது. இதனை உருவாக்கும் போது ordered=True எனக் கொடுத்து உருவாக்கியுள்ளோம். இதன் மூலம் இவ்விரண்டு series-ஐயும் ஒப்பிடும் வாய்ப்பு நமக்குக் கிடைக்கிறது.   df['Mid Year points'] = df['Mid Year points'].astype(“category", categories=[“50″,"80″,"90"], ordered=True) df['Year End points'] = df['Year End points'].astype(“category", categories=[“50″,"80″,"90"], ordered=True) இங்கு ஒருவர் ஆண்டின் இடையில் பெற்ற மதிப்புகளைவிட ஆண்டின் இறுதியில் அதிக மதிப்பெண்கள் பெற்றுள்ளாரா இல்லையா என்பது கண்டுபிடிக்கப்பட்டுள்ளது.           print (df['Mid Year points']>df['Year End points']) 0 False 1 True 2 False 3 False 4 False 5 False Name: Year End points, dtype: bool       எளிய தமிழில் Pandas-13_Final   Real-time Example ஒரு தொலைக்காட்சி நிறுவனத்தில் உள்ள அனைத்து புரோகிராம்களின் id, அவை எந்த வகையின் கீழ் அமைந்திருக்கின்றன, அவை ஒளிபரப்பப்பட்ட தேதி, அவற்றிருக்கு வழங்கப்பட்ட ரேடிங், ஸ்கோர் போன்ற தரவுகளை கற்பனையாக உருவாக்கி அவற்றின் அடிப்படையில் நாம் இந்த எடுத்துக்காட்டை செய்து பார்க்கப் போகிறோம். இந்த கற்பனைத் தரவு பின்வருமாறு.     []   பொதுவாக இதுபோன்ற raw தரவுகளின் மீது ஒருசில logic-ஐ செலுத்தி புதிய தரவுகளை உருவாக்கி அவற்றையே நமது பயன்பாட்டிற்கு எடுத்துக்கொள்வோம். இங்கும் பின்வரும் விதிகளின் அடிப்படையில் புதிய தரவுகளை உருவாக்கப் போகிறோம்.     1. category, rating ஆகியவற்றில் உள்ள தரவுகளை _ மூலம் இணைத்து code எனும் புதிய column – இன் கீழ் வெளிப்படுத்த வேண்டும். எடுத்துக்காட்டாக category=news, rating=3 எனில் code=news_3 என இருக்க வேண்டும்.    2. telecasted_date என்ற column-ல் உள்ள தேதியின் அடிப்படையில் telecasted_quarter என்ற column-ஐ உருவாக்க வேண்டும். எடுத்துக்காட்டாக 12/26/2020 எனும் தேதியை வைத்து உருவாக்கப்படும் quarter-ன் மதிப்பு '2020 Quarter 4' எனும் வடிவில் இருக்க வேண்டும்.   3. ஒரு category-யின் கீழ் ஒரே ரேட்டிங்கை பெற்றிருக்கும் புரோகிராம்களின் எண்ணிக்கை 5-க்கு கீழ் இருந்தால் avg_score எனும் தலைப்பின் கீழ் அவை அனைத்தும் பெற்றுள்ள ஸ்கோரின் சராசரியைக் கண்டுபிடித்து வெளிப்படுத்த வேண்டும். 5-க்கும் மேல் இருந்தால் முதல் ஐந்து புரோகிராம்கள் பெற்றுள்ள ஸ்கோரின் சராசரியை மட்டும் கண்டுபிடித்து வெளிப்படுத்த வேண்டும். எடுத்துக்காட்டாக இங்கு நியூஸ் எனும் கேட்டகிரியின் கீழ் 3 எனும் ரேட்டிங்கை பெற்றிருக்கும் புரோகிராம்களின் எண்ணிக்கை மொத்தம் 6. ஆகவே முதல் 5 புரோகிராம்களின் சராசரியான (65+87+56+98+95)/5 = 80.2 ஆகியவற்றை வெளிப்படுத்த வேண்டும். அதுவே நியூஸ் எனும் கேட்டகிரியின் கீழ் 4 எனும் ரேட்டிங்கை பெற்றிருக்கும் புரோகிராம்களின் எண்ணிக்கை மொத்தம் 2 தான். ஆகவே அந்த இரண்டின் சராசரியை மட்டும் வெளிப்படுத்தினால் போதும்.     மேற்குறிப்பிட்ட மூன்று லாஜிக் ஐயும் பாண்டாஸ் மூலம் செய்து வெளிப்படுத்துவதற்கான நிரல் பின்வருமாறு அமையும்.     import pandas as pd from datetime import datetime,timedelta import numpy as np   df = pd.read_csv('./13_input_data.csv') print (df)   pd.set_option("display.max_columns",8)   df1 = pd.DataFrame() df1['code'] = df['category'].astype(str)+'_'+df['rating'].astype(str) df1['rating'] = df['rating'] df1['year'] = pd.DatetimeIndex(df['telecasted_date']).year df1['telecasted_quarter'] = df1['year'].astype(str)+' Quarter '+pd.DatetimeIndex(df['telecasted_date']).quarter.astype(str) df1['score'] = df['score'] print (df1.head(3))   df2 = df1.groupby(['code','rating','year','telecasted_quarter'])['rating'].count().reset_index(name="total_programs") df2['greater_than_5'] = df2['total_programs'].apply(lambda x: 'YES' if x >= 5 else 'No') df3 = df1.groupby(['code','rating','year','telecasted_quarter'])['score'].mean().reset_index(name="all") df2['all'] = df3['all']   df4 = df1.groupby(['code','rating','year','telecasted_quarter'])['score'] l1 = [] for i,j in df4: y = float(j[0:5].mean()) l1.append(y) df2['first_5'] = pd.Series(l1) print (df2) l2 = [] for i,j,k in zip(df2['all'],df2['first_5'],df2['greater_than_5']): if k=='YES': l2.append(j) else: l2.append(i) df2['avg_score'] = pd.Series(l2) df2 = df2[['code','telecasted_quarter','avg_score']]   print (df2)   Code link 13_pandas_realtime_example.py           நிரலுக்கான விளக்கம்:  1. முதலில் கொடுக்கப்பட்டுள்ள தரவுகள் df எனும் டேட்டாஃப்பிரேமுக்குள் சேமிக்கப்படுகின்றன.   பின் df1 எனும் ஒரு empty  டேட்டாஃப்பிரேமை உருவாக்கி அதற்குள் code எனும் column-ன் கீழ் df-லிருந்து கேட்டகிரி மற்றும்  ரேட்டிங் ஆகியவற்றில் உள்ள மதிப்புகளை எடுத்து அதனை underscore மூலம் இணைத்து சேமிக்கிறோம்.  பின் telecasted_date என்ற column-ல் இருக்கும் தேதியிலிருந்து year மற்றும் quarter ஆகியவற்றைப் பிரித்து அதனை நாம் விரும்பும் வடிவில் Quarter எனும் வார்த்தையையும் இணைத்து telecasted_quarter என்ற column-ன் கீழ் சேமித்துள்ளோம்.  பின் ஒரே வகையான கேட்டகிரி மற்றும் ரேட்டிங்கை குரூப் செய்து ஸ்கோரைக் கணக்கிட வேண்டும் என்பதால், இதற்குத் தேவையான rating, score ஆகியவற்றையும் df1-க்குள் சேமித்து உள்ளோம்.   df1 = pd.DataFrame() df1['code'] = df['category'].astype(str)+'_'+df['rating'].astype(str) df1['rating'] = df['rating'] df1['year'] = pd.DatetimeIndex(df['telecasted_date']).year df1['telecasted_quarter'] = df1['year'].astype(str)+' Quarter '+pd.DatetimeIndex(df['telecasted_date']).quarter.astype(str) df1['score'] = df['score'] print (df1.head(3))       code    rating  year   telecasted_quarter  score 0  news_3       3  2020     2020 Quarter 4     65 1  news_4       4  2020     2020 Quarter 4     75 2  news_3       3  2020     2020 Quarter 4     87  2. பின் ஒரே வகையான கேட்டகிரி மற்றும் ரேட்டிங்கை குரூப் செய்து, ஒவ்வொரு தனித்தனி குரூப்பிலும் எத்தனை புரோகிராம் உள்ளது எனக் கணக்கிட்டு அதனை total_programs எனும் தலைப்பின் கீழ் அமைக்கிறது. இந்த புதிய டேட்டாஃப்பிரேமின் பெயர் df2 ஆகும். பின் இந்த  count 5- இக்கு மேல் இருந்தால் YES எனும் மதிப்பையும், கீழ் இருந்தால் NO எனும் மதிப்பையும் கொள்ளுமாறு 'greater_than_5' எனும் column உருவாக்கப்பட்டுள்ளது. பின் all எனும் column-ன் கீழ் கேட்டகிரி, ரேட்டிங் முறையில் குரூப் செய்யப்பட்ட அனைத்து score-ன் சராசரி மதிப்பும் கண்டுபிடிக்கப் பட்டுள்ளது. அதேபோல first_5 எனும் column-ன் கீழ் கேட்டகிரி, ரேட்டிங் முறையில் குரூப் செய்யப்பட்ட முதல் 5 ஸ்கோரின் சராசரி மதிப்பு கண்டுபிடிக்கப்பட்டுள்ளது.  df2 = df1.groupby(['code','rating','year','telecasted_quarter'])['rating'].count().reset_index(name="total_programs") df2['greater_than_5'] = df2['total_programs'].apply(lambda x: 'YES' if x >= 5 else 'No') df3 = df1.groupby(['code','rating','year','telecasted_quarter'])['score'].mean().reset_index(name="all") df2['all'] = df3['all'] df4 = df1.groupby(['code','rating','year','telecasted_quarter'])['score'] l1 = [] for i,j in df4: y = float(j[0:5].mean()) l1.append(y) df2['first_5'] = pd.Series(l1) print (df2)   []   3. கடைசியாக greater_than_5 எனும் column-ல் உள்ள மதிப்பு YES என்றிருந்தால், first_5 எனும் column-ல் உள்ள மதிப்பினை எடுத்துக் கொள்ளுமாறும், NO என்றிருந்தால் all எனும் column-ல் உள்ள மதிப்பினை எடுத்துக் கொள்ளுமாறும், ஒரு கண்டிஷனை அமைத்து avg_score எனும் column-ஐ உருவாக்கியுள்ளோம். இறுதியில் நமக்குத் தேவையான column-ஐ மட்டும் வைத்துக் கொள்ளலாம்.   l2 = [] for i,j,k in zip(df2['all'],df2['first_5'],df2['greater_than_5']):     if k=='YES':         l2.append(j)     else:         l2.append(i) df2['avg_score'] = pd.Series(l2) df2 = df2[['code','telecasted_quarter','avg_score']] print (df2)  []                   முடிவுரை   இந்த நூல் Pandas க்கான  ஒரு அறிமுகம் மட்டுமே. இவை பற்றி இணையத்தில் பல்வேறு பாடங்களும் காணொளிகளும்  கிடைக்கின்றன. அவற்றை தொடர்ந்து படித்து, கற்று, பல்வேறு சாதனைகள் புரிய அனைவருக்கும் வாழ்த்துகள்.      நூலாசிரியரின் பிற மின்னூல்கள்   து. நித்யா அவர்களின் அனைத்து மின்னூல்களையும் இங்கு இலவசமாகப் பெறலாம். https://freetamilebooks.com/authors/nithyaduraisamy/ []   கணியம் அறக்கட்டளை   தொலை நோக்கு - Vision   தமிழ் மொழி மற்றும் இனக்குழுக்கள் சார்ந்த மெய்நிகர்வளங்கள், கருவிகள் மற்றும் அறிவுத்தொகுதிகள், அனைவருக்கும்  கட்டற்ற அணுக்கத்தில் கிடைக்கும் சூழல் பணி இலக்கு  - Mission   அறிவியல் மற்றும் சமூகப் பொருளாதார வளர்ச்சிக்கு ஒப்ப, தமிழ் மொழியின் பயன்பாடு வளர்வதை உறுதிப்படுத்துவதும், அனைத்து அறிவுத் தொகுதிகளும், வளங்களும் கட்டற்ற அணுக்கத்தில் அனைவருக்கும் கிடைக்கச்செய்தலும். மேற்கண்ட தொலை நோக்கு , பணி இலக்குகளை நோக்கி பயணிக்க, கணியம் குழுவினர், கணியம் அறக்கட்டளையைத் தொடங்கியுள்ளோம். கணியம் இதழில் கட்டுரைகள் வெளியிடுதல், FreeTamilEbooks.com தளத்தில் மின்னூல்கள் வெளியிடுதல், தமிழுக்கான கட்டற்ற மென்பொருட்கள், பிற வளங்கள் உருவாக்குதல், இவற்றுக்கான இணைய வளங்களைப் பேணுதல், விக்கி மூலம் தளத்தில் மின்னூல்களை சீராக்கி வெளியிடுதல், கட்டற்ற மென்பொருட்களுக்கு பரப்புரை நிகழ்ச்சிகள் நடத்துதல் ஆகிய பணிகளை செவ்வனே செய்ய கணியம் அறக்கட்டளை ஆவன செய்யும்.    மேற்கண்ட பணிகளை ஆதரிக்க உங்களை நன்கொடைகளை வேண்டுகிறோம். பின்வரும் வங்கிக் கணக்கில் உங்கள் நன்கொடைகளை செலுத்தி, KaniyamFoundation@gmail.com க்கு ஒரு மின்னஞ்சல் அனுப்ப வேண்டுகிறோம்.  மிக்க நன்றி !             Kaniyam Foundation Account Number : 606101010050279 Union Bank Of India West Tambaram, Chennai IFSC - UBIN0560618