add stuff

Te-k · Jul 16, 2016 · 7a7188e · 7a7188e
1 parent 19c1e1c
commit 7a7188e
Show file tree

Hide file tree

Showing 206 changed files with 285 additions and 0 deletions.
diff --git a/.gitignore b/.gitignore
@@ -2,6 +2,7 @@
 __pycache__/
 *.py[cod]
 *$py.class
+*.swp
 
 # C extensions
 *.so

diff --git a/checkpe.py b/checkpe.py
@@ -0,0 +1,189 @@
+#! /usr/bin/python2
+import pefile
+import os
+import array
+import math
+import pickle
+from sklearn.externals import joblib
+import sys
+import argparse
+
+def get_entropy(data):
+    if len(data) == 0:
+	return 0.0
+    occurences = array.array('L', [0]*256)
+    for x in data:
+  	occurences[x if isinstance(x, int) else ord(x)] += 1
+
+    entropy = 0
+    for x in occurences:
+	if x:
+	    p_x = float(x) / len(data)
+	    entropy -= p_x*math.log(p_x, 2)
+
+    return entropy
+
+def get_resources(pe):
+    """Extract resources :
+    [entropy, size]"""
+    resources = []
+    if hasattr(pe, 'DIRECTORY_ENTRY_RESOURCE'):
+	try:
+            for resource_type in pe.DIRECTORY_ENTRY_RESOURCE.entries:
+                if hasattr(resource_type, 'directory'):
+                    for resource_id in resource_type.directory.entries:
+                        if hasattr(resource_id, 'directory'):
+                            for resource_lang in resource_id.directory.entries:
+                                data = pe.get_data(resource_lang.data.struct.OffsetToData, resource_lang.data.struct.Size)
+                                size = resource_lang.data.struct.Size
+                                entropy = get_entropy(data)
+
+                                resources.append([entropy, size])
+        except Exception as e:
+            return resources
+    return resources
+
+def get_version_info(pe):
+    """Return version infos"""
+    res = {}
+    for fileinfo in pe.FileInfo:
+        if fileinfo.Key == 'StringFileInfo':
+            for st in fileinfo.StringTable:
+                for entry in st.entries.items():
+                    res[entry[0]] = entry[1]
+        if fileinfo.Key == 'VarFileInfo':
+            for var in fileinfo.Var:
+                res[var.entry.items()[0][0]] = var.entry.items()[0][1]
+    if hasattr(pe, 'VS_FIXEDFILEINFO'):
+          res['flags'] = pe.VS_FIXEDFILEINFO.FileFlags
+          res['os'] = pe.VS_FIXEDFILEINFO.FileOS
+          res['type'] = pe.VS_FIXEDFILEINFO.FileType
+          res['file_version'] = pe.VS_FIXEDFILEINFO.FileVersionLS
+          res['product_version'] = pe.VS_FIXEDFILEINFO.ProductVersionLS
+          res['signature'] = pe.VS_FIXEDFILEINFO.Signature
+          res['struct_version'] = pe.VS_FIXEDFILEINFO.StrucVersion
+    return res
+
+def extract_infos(fpath):
+    res = {}
+    pe = pefile.PE(fpath)
+    res['Machine'] = pe.FILE_HEADER.Machine
+    res['SizeOfOptionalHeader'] = pe.FILE_HEADER.SizeOfOptionalHeader
+    res['Characteristics'] = pe.FILE_HEADER.Characteristics
+    res['MajorLinkerVersion'] = pe.OPTIONAL_HEADER.MajorLinkerVersion
+    res['MinorLinkerVersion'] = pe.OPTIONAL_HEADER.MinorLinkerVersion
+    res['SizeOfCode'] = pe.OPTIONAL_HEADER.SizeOfCode
+    res['SizeOfInitializedData'] = pe.OPTIONAL_HEADER.SizeOfInitializedData
+    res['SizeOfUninitializedData'] = pe.OPTIONAL_HEADER.SizeOfUninitializedData
+    res['AddressOfEntryPoint'] = pe.OPTIONAL_HEADER.AddressOfEntryPoint
+    res['BaseOfCode'] = pe.OPTIONAL_HEADER.BaseOfCode
+    try:
+        res['BaseOfData'] = pe.OPTIONAL_HEADER.BaseOfData
+    except AttributeError:
+        res['BaseOfData'] = 0
+    res['ImageBase'] = pe.OPTIONAL_HEADER.ImageBase
+    res['SectionAlignment'] = pe.OPTIONAL_HEADER.SectionAlignment
+    res['FileAlignment'] = pe.OPTIONAL_HEADER.FileAlignment
+    res['MajorOperatingSystemVersion'] = pe.OPTIONAL_HEADER.MajorOperatingSystemVersion
+    res['MinorOperatingSystemVersion'] = pe.OPTIONAL_HEADER.MinorOperatingSystemVersion
+    res['MajorImageVersion'] = pe.OPTIONAL_HEADER.MajorImageVersion
+    res['MinorImageVersion'] = pe.OPTIONAL_HEADER.MinorImageVersion
+    res['MajorSubsystemVersion'] = pe.OPTIONAL_HEADER.MajorSubsystemVersion
+    res['MinorSubsystemVersion'] = pe.OPTIONAL_HEADER.MinorSubsystemVersion
+    res['SizeOfImage'] = pe.OPTIONAL_HEADER.SizeOfImage
+    res['SizeOfHeaders'] = pe.OPTIONAL_HEADER.SizeOfHeaders
+    res['CheckSum'] = pe.OPTIONAL_HEADER.CheckSum
+    res['Subsystem'] = pe.OPTIONAL_HEADER.Subsystem
+    res['DllCharacteristics'] = pe.OPTIONAL_HEADER.DllCharacteristics
+    res['SizeOfStackReserve'] = pe.OPTIONAL_HEADER.SizeOfStackReserve
+    res['SizeOfStackCommit'] = pe.OPTIONAL_HEADER.SizeOfStackCommit
+    res['SizeOfHeapReserve'] = pe.OPTIONAL_HEADER.SizeOfHeapReserve
+    res['SizeOfStackCommit'] = pe.OPTIONAL_HEADER.SizeOfHeapCommit
+    res['LoaderFlags'] = pe.OPTIONAL_HEADER.LoaderFlags
+    res['NumberOfRvaAndSizes'] = pe.OPTIONAL_HEADER.NumberOfRvaAndSizes
+
+    # Sections
+    res['SectionsNb'] = len(pe.sections)
+    entropy = map(lambda x:x.get_entropy(), pe.sections)
+    res['SectionsMeanEntropy'] = sum(entropy)/float(len(entropy))
+    res['SectionsMinEntropy'] = min(entropy)
+    res['SectionsMaxEntropy'] = max(entropy)
+    raw_sizes = map(lambda x:x.SizeOfRawData, pe.sections)
+    res['SectionsMeanRawsize'] = sum(raw_sizes)/float(len(raw_sizes))
+    res['SectionsMinRawsize'] = min(raw_sizes)
+    res['SectionsMaxRawsize'] = max(raw_sizes)
+    virtual_sizes = map(lambda x:x.Misc_VirtualSize, pe.sections)
+    res['SectionsMeanVirtualsize'] = sum(virtual_sizes)/float(len(virtual_sizes))
+    res['SectionsMinVirtualsize'] = min(virtual_sizes)
+    res['SectionMaxVirtualsize'] = max(virtual_sizes)
+
+    #Imports
+    try:
+        res['ImportsNbDLL'] = len(pe.DIRECTORY_ENTRY_IMPORT)
+        imports = sum([x.imports for x in pe.DIRECTORY_ENTRY_IMPORT], [])
+        res['ImportsNb'] = len(imports)
+        res['ImportsNbOrdinal'] = len(filter(lambda x:x.name is None, imports))
+    except AttributeError:
+        res['ImportsNbDLL'] = 0
+        res['ImportsNb'] = 0
+        res['ImportsNbOrdinal'] = 0
+
+    #Exports
+    try:
+        res['ExportNb'] = len(pe.DIRECTORY_ENTRY_EXPORT.symbols)
+    except AttributeError:
+        # No export
+        res['ExportNb'] = 0
+    #Resources
+    resources= get_resources(pe)
+    res['ResourcesNb'] = len(resources)
+    if len(resources)> 0:
+        entropy = map(lambda x:x[0], resources)
+        res['ResourcesMeanEntropy'] = sum(entropy)/float(len(entropy))
+        res['ResourcesMinEntropy'] = min(entropy)
+        res['ResourcesMaxEntropy'] = max(entropy)
+        sizes = map(lambda x:x[1], resources)
+        res['ResourcesMeanSize'] = sum(sizes)/float(len(sizes))
+        res['ResourcesMinSize'] = min(sizes)
+        res['ResourcesMaxSize'] = max(sizes)
+    else:
+        res['ResourcesNb'] = 0
+        res['ResourcesMeanEntropy'] = 0
+        res['ResourcesMinEntropy'] = 0
+        res['ResourcesMaxEntropy'] = 0
+        res['ResourcesMeanSize'] = 0
+        res['ResourcesMinSize'] = 0
+        res['ResourcesMaxSize'] = 0
+
+    # Load configuration size
+    try:
+        res['LoadConfigurationSize'] = pe.DIRECTORY_ENTRY_LOAD_CONFIG.struct.Size
+    except AttributeError:
+        res['LoadConfigurationSize'] = 0
+
+
+    # Version configuration size
+    try:
+        version_infos = get_version_info(pe)
+        res['VersionInformationSize'] = len(version_infos.keys())
+    except AttributeError:
+        res['VersionInformationSize'] = 0
+    return res
+
+if __name__ == '__main__':
+    parser = argparse.ArgumentParser(description='Detect malicious files')
+    parser.add_argument('FILE', help='File to be tested')
+    args = parser.parse_args()
+    # Load classifier
+    clf = joblib.load('classifier/classifier.pkl')
+    features = pickle.loads(open('classifier/features.pkl', 'r').read())
+
+    data = extract_infos(args.FILE)
+
+    pe_features = map(lambda x:data[x], features)
+
+    res= clf.predict([pe_features])[0]
+    print('The file %s is %s' % (
+        os.path.basename(sys.argv[1]),
+        ['malicious', 'legitimate'][res])
+    )
diff --git a/classifier/classifier.pkl b/classifier/classifier.pkl
diff --git a/classifier/classifier.pkl_01.npy b/classifier/classifier.pkl_01.npy
diff --git a/classifier/classifier.pkl_02.npy b/classifier/classifier.pkl_02.npy
diff --git a/classifier/classifier.pkl_03.npy b/classifier/classifier.pkl_03.npy
diff --git a/classifier/classifier.pkl_04.npy b/classifier/classifier.pkl_04.npy
diff --git a/classifier/classifier.pkl_05.npy b/classifier/classifier.pkl_05.npy
diff --git a/classifier/classifier.pkl_06.npy b/classifier/classifier.pkl_06.npy
diff --git a/classifier/classifier.pkl_07.npy b/classifier/classifier.pkl_07.npy
diff --git a/classifier/classifier.pkl_08.npy b/classifier/classifier.pkl_08.npy
diff --git a/classifier/classifier.pkl_09.npy b/classifier/classifier.pkl_09.npy
diff --git a/classifier/classifier.pkl_10.npy b/classifier/classifier.pkl_10.npy
diff --git a/classifier/classifier.pkl_100.npy b/classifier/classifier.pkl_100.npy
diff --git a/classifier/classifier.pkl_101.npy b/classifier/classifier.pkl_101.npy
diff --git a/classifier/classifier.pkl_102.npy b/classifier/classifier.pkl_102.npy
diff --git a/classifier/classifier.pkl_103.npy b/classifier/classifier.pkl_103.npy
diff --git a/classifier/classifier.pkl_104.npy b/classifier/classifier.pkl_104.npy
diff --git a/classifier/classifier.pkl_105.npy b/classifier/classifier.pkl_105.npy
diff --git a/classifier/classifier.pkl_106.npy b/classifier/classifier.pkl_106.npy
diff --git a/classifier/classifier.pkl_107.npy b/classifier/classifier.pkl_107.npy
diff --git a/classifier/classifier.pkl_108.npy b/classifier/classifier.pkl_108.npy
diff --git a/classifier/classifier.pkl_109.npy b/classifier/classifier.pkl_109.npy
diff --git a/classifier/classifier.pkl_11.npy b/classifier/classifier.pkl_11.npy
diff --git a/classifier/classifier.pkl_110.npy b/classifier/classifier.pkl_110.npy
diff --git a/classifier/classifier.pkl_111.npy b/classifier/classifier.pkl_111.npy
diff --git a/classifier/classifier.pkl_112.npy b/classifier/classifier.pkl_112.npy
diff --git a/classifier/classifier.pkl_113.npy b/classifier/classifier.pkl_113.npy
diff --git a/classifier/classifier.pkl_114.npy b/classifier/classifier.pkl_114.npy
diff --git a/classifier/classifier.pkl_115.npy b/classifier/classifier.pkl_115.npy
diff --git a/classifier/classifier.pkl_116.npy b/classifier/classifier.pkl_116.npy
diff --git a/classifier/classifier.pkl_117.npy b/classifier/classifier.pkl_117.npy
diff --git a/classifier/classifier.pkl_118.npy b/classifier/classifier.pkl_118.npy
diff --git a/classifier/classifier.pkl_119.npy b/classifier/classifier.pkl_119.npy
diff --git a/classifier/classifier.pkl_12.npy b/classifier/classifier.pkl_12.npy
diff --git a/classifier/classifier.pkl_120.npy b/classifier/classifier.pkl_120.npy
diff --git a/classifier/classifier.pkl_121.npy b/classifier/classifier.pkl_121.npy
diff --git a/classifier/classifier.pkl_122.npy b/classifier/classifier.pkl_122.npy
diff --git a/classifier/classifier.pkl_123.npy b/classifier/classifier.pkl_123.npy
diff --git a/classifier/classifier.pkl_124.npy b/classifier/classifier.pkl_124.npy
diff --git a/classifier/classifier.pkl_125.npy b/classifier/classifier.pkl_125.npy
diff --git a/classifier/classifier.pkl_126.npy b/classifier/classifier.pkl_126.npy
diff --git a/classifier/classifier.pkl_127.npy b/classifier/classifier.pkl_127.npy
diff --git a/classifier/classifier.pkl_128.npy b/classifier/classifier.pkl_128.npy
diff --git a/classifier/classifier.pkl_129.npy b/classifier/classifier.pkl_129.npy
diff --git a/classifier/classifier.pkl_13.npy b/classifier/classifier.pkl_13.npy
diff --git a/classifier/classifier.pkl_130.npy b/classifier/classifier.pkl_130.npy
diff --git a/classifier/classifier.pkl_131.npy b/classifier/classifier.pkl_131.npy
diff --git a/classifier/classifier.pkl_132.npy b/classifier/classifier.pkl_132.npy
diff --git a/classifier/classifier.pkl_133.npy b/classifier/classifier.pkl_133.npy
diff --git a/classifier/classifier.pkl_134.npy b/classifier/classifier.pkl_134.npy
diff --git a/classifier/classifier.pkl_135.npy b/classifier/classifier.pkl_135.npy
diff --git a/classifier/classifier.pkl_136.npy b/classifier/classifier.pkl_136.npy
diff --git a/classifier/classifier.pkl_137.npy b/classifier/classifier.pkl_137.npy
diff --git a/classifier/classifier.pkl_138.npy b/classifier/classifier.pkl_138.npy
diff --git a/classifier/classifier.pkl_139.npy b/classifier/classifier.pkl_139.npy
diff --git a/classifier/classifier.pkl_14.npy b/classifier/classifier.pkl_14.npy
diff --git a/classifier/classifier.pkl_140.npy b/classifier/classifier.pkl_140.npy
diff --git a/classifier/classifier.pkl_141.npy b/classifier/classifier.pkl_141.npy
diff --git a/classifier/classifier.pkl_142.npy b/classifier/classifier.pkl_142.npy
diff --git a/classifier/classifier.pkl_143.npy b/classifier/classifier.pkl_143.npy
diff --git a/classifier/classifier.pkl_144.npy b/classifier/classifier.pkl_144.npy
diff --git a/classifier/classifier.pkl_145.npy b/classifier/classifier.pkl_145.npy
diff --git a/classifier/classifier.pkl_146.npy b/classifier/classifier.pkl_146.npy
diff --git a/classifier/classifier.pkl_147.npy b/classifier/classifier.pkl_147.npy
diff --git a/classifier/classifier.pkl_148.npy b/classifier/classifier.pkl_148.npy
diff --git a/classifier/classifier.pkl_149.npy b/classifier/classifier.pkl_149.npy
diff --git a/classifier/classifier.pkl_15.npy b/classifier/classifier.pkl_15.npy
diff --git a/classifier/classifier.pkl_150.npy b/classifier/classifier.pkl_150.npy
diff --git a/classifier/classifier.pkl_151.npy b/classifier/classifier.pkl_151.npy
diff --git a/classifier/classifier.pkl_152.npy b/classifier/classifier.pkl_152.npy
diff --git a/classifier/classifier.pkl_153.npy b/classifier/classifier.pkl_153.npy
diff --git a/classifier/classifier.pkl_154.npy b/classifier/classifier.pkl_154.npy
diff --git a/classifier/classifier.pkl_155.npy b/classifier/classifier.pkl_155.npy
diff --git a/classifier/classifier.pkl_156.npy b/classifier/classifier.pkl_156.npy
diff --git a/classifier/classifier.pkl_157.npy b/classifier/classifier.pkl_157.npy
diff --git a/classifier/classifier.pkl_158.npy b/classifier/classifier.pkl_158.npy
diff --git a/classifier/classifier.pkl_159.npy b/classifier/classifier.pkl_159.npy
diff --git a/classifier/classifier.pkl_16.npy b/classifier/classifier.pkl_16.npy
diff --git a/classifier/classifier.pkl_160.npy b/classifier/classifier.pkl_160.npy
diff --git a/classifier/classifier.pkl_161.npy b/classifier/classifier.pkl_161.npy
diff --git a/classifier/classifier.pkl_162.npy b/classifier/classifier.pkl_162.npy
diff --git a/classifier/classifier.pkl_163.npy b/classifier/classifier.pkl_163.npy
diff --git a/classifier/classifier.pkl_164.npy b/classifier/classifier.pkl_164.npy
diff --git a/classifier/classifier.pkl_165.npy b/classifier/classifier.pkl_165.npy
diff --git a/classifier/classifier.pkl_166.npy b/classifier/classifier.pkl_166.npy
diff --git a/classifier/classifier.pkl_167.npy b/classifier/classifier.pkl_167.npy
diff --git a/classifier/classifier.pkl_168.npy b/classifier/classifier.pkl_168.npy
diff --git a/classifier/classifier.pkl_169.npy b/classifier/classifier.pkl_169.npy
diff --git a/classifier/classifier.pkl_17.npy b/classifier/classifier.pkl_17.npy
diff --git a/classifier/classifier.pkl_170.npy b/classifier/classifier.pkl_170.npy
diff --git a/classifier/classifier.pkl_171.npy b/classifier/classifier.pkl_171.npy
diff --git a/classifier/classifier.pkl_172.npy b/classifier/classifier.pkl_172.npy
diff --git a/classifier/classifier.pkl_173.npy b/classifier/classifier.pkl_173.npy
diff --git a/classifier/classifier.pkl_174.npy b/classifier/classifier.pkl_174.npy
diff --git a/classifier/classifier.pkl_175.npy b/classifier/classifier.pkl_175.npy
diff --git a/classifier/classifier.pkl_176.npy b/classifier/classifier.pkl_176.npy
diff --git a/classifier/classifier.pkl_177.npy b/classifier/classifier.pkl_177.npy
diff --git a/classifier/classifier.pkl_178.npy b/classifier/classifier.pkl_178.npy
diff --git a/classifier/classifier.pkl_179.npy b/classifier/classifier.pkl_179.npy
diff --git a/classifier/classifier.pkl_18.npy b/classifier/classifier.pkl_18.npy
diff --git a/classifier/classifier.pkl_180.npy b/classifier/classifier.pkl_180.npy
diff --git a/classifier/classifier.pkl_181.npy b/classifier/classifier.pkl_181.npy
diff --git a/classifier/classifier.pkl_182.npy b/classifier/classifier.pkl_182.npy
diff --git a/classifier/classifier.pkl_183.npy b/classifier/classifier.pkl_183.npy
diff --git a/classifier/classifier.pkl_184.npy b/classifier/classifier.pkl_184.npy
diff --git a/classifier/classifier.pkl_185.npy b/classifier/classifier.pkl_185.npy
diff --git a/classifier/classifier.pkl_186.npy b/classifier/classifier.pkl_186.npy
diff --git a/classifier/classifier.pkl_187.npy b/classifier/classifier.pkl_187.npy
diff --git a/classifier/classifier.pkl_188.npy b/classifier/classifier.pkl_188.npy
diff --git a/classifier/classifier.pkl_189.npy b/classifier/classifier.pkl_189.npy
diff --git a/classifier/classifier.pkl_19.npy b/classifier/classifier.pkl_19.npy
diff --git a/classifier/classifier.pkl_190.npy b/classifier/classifier.pkl_190.npy
diff --git a/classifier/classifier.pkl_191.npy b/classifier/classifier.pkl_191.npy
diff --git a/classifier/classifier.pkl_192.npy b/classifier/classifier.pkl_192.npy
diff --git a/classifier/classifier.pkl_193.npy b/classifier/classifier.pkl_193.npy
diff --git a/classifier/classifier.pkl_194.npy b/classifier/classifier.pkl_194.npy
diff --git a/classifier/classifier.pkl_195.npy b/classifier/classifier.pkl_195.npy
diff --git a/classifier/classifier.pkl_196.npy b/classifier/classifier.pkl_196.npy
diff --git a/classifier/classifier.pkl_197.npy b/classifier/classifier.pkl_197.npy
diff --git a/classifier/classifier.pkl_198.npy b/classifier/classifier.pkl_198.npy
diff --git a/classifier/classifier.pkl_199.npy b/classifier/classifier.pkl_199.npy
diff --git a/classifier/classifier.pkl_20.npy b/classifier/classifier.pkl_20.npy
diff --git a/classifier/classifier.pkl_200.npy b/classifier/classifier.pkl_200.npy
diff --git a/classifier/classifier.pkl_201.npy b/classifier/classifier.pkl_201.npy
diff --git a/classifier/classifier.pkl_21.npy b/classifier/classifier.pkl_21.npy
diff --git a/classifier/classifier.pkl_22.npy b/classifier/classifier.pkl_22.npy
diff --git a/classifier/classifier.pkl_23.npy b/classifier/classifier.pkl_23.npy
diff --git a/classifier/classifier.pkl_24.npy b/classifier/classifier.pkl_24.npy
diff --git a/classifier/classifier.pkl_25.npy b/classifier/classifier.pkl_25.npy
diff --git a/classifier/classifier.pkl_26.npy b/classifier/classifier.pkl_26.npy
diff --git a/classifier/classifier.pkl_27.npy b/classifier/classifier.pkl_27.npy
diff --git a/classifier/classifier.pkl_28.npy b/classifier/classifier.pkl_28.npy
diff --git a/classifier/classifier.pkl_29.npy b/classifier/classifier.pkl_29.npy
diff --git a/classifier/classifier.pkl_30.npy b/classifier/classifier.pkl_30.npy
diff --git a/classifier/classifier.pkl_31.npy b/classifier/classifier.pkl_31.npy
diff --git a/classifier/classifier.pkl_32.npy b/classifier/classifier.pkl_32.npy
diff --git a/classifier/classifier.pkl_33.npy b/classifier/classifier.pkl_33.npy
diff --git a/classifier/classifier.pkl_34.npy b/classifier/classifier.pkl_34.npy
diff --git a/classifier/classifier.pkl_35.npy b/classifier/classifier.pkl_35.npy
diff --git a/classifier/classifier.pkl_36.npy b/classifier/classifier.pkl_36.npy
diff --git a/classifier/classifier.pkl_37.npy b/classifier/classifier.pkl_37.npy
diff --git a/classifier/classifier.pkl_38.npy b/classifier/classifier.pkl_38.npy
diff --git a/classifier/classifier.pkl_39.npy b/classifier/classifier.pkl_39.npy
diff --git a/classifier/classifier.pkl_40.npy b/classifier/classifier.pkl_40.npy
diff --git a/classifier/classifier.pkl_41.npy b/classifier/classifier.pkl_41.npy
diff --git a/classifier/classifier.pkl_42.npy b/classifier/classifier.pkl_42.npy
diff --git a/classifier/classifier.pkl_43.npy b/classifier/classifier.pkl_43.npy
diff --git a/classifier/classifier.pkl_44.npy b/classifier/classifier.pkl_44.npy
diff --git a/classifier/classifier.pkl_45.npy b/classifier/classifier.pkl_45.npy
diff --git a/classifier/classifier.pkl_46.npy b/classifier/classifier.pkl_46.npy
diff --git a/classifier/classifier.pkl_47.npy b/classifier/classifier.pkl_47.npy
diff --git a/classifier/classifier.pkl_48.npy b/classifier/classifier.pkl_48.npy
diff --git a/classifier/classifier.pkl_49.npy b/classifier/classifier.pkl_49.npy
diff --git a/classifier/classifier.pkl_50.npy b/classifier/classifier.pkl_50.npy
diff --git a/classifier/classifier.pkl_51.npy b/classifier/classifier.pkl_51.npy
diff --git a/classifier/classifier.pkl_52.npy b/classifier/classifier.pkl_52.npy
diff --git a/classifier/classifier.pkl_53.npy b/classifier/classifier.pkl_53.npy
diff --git a/classifier/classifier.pkl_54.npy b/classifier/classifier.pkl_54.npy
diff --git a/classifier/classifier.pkl_55.npy b/classifier/classifier.pkl_55.npy
diff --git a/classifier/classifier.pkl_56.npy b/classifier/classifier.pkl_56.npy
diff --git a/classifier/classifier.pkl_57.npy b/classifier/classifier.pkl_57.npy
diff --git a/classifier/classifier.pkl_58.npy b/classifier/classifier.pkl_58.npy
diff --git a/classifier/classifier.pkl_59.npy b/classifier/classifier.pkl_59.npy
diff --git a/classifier/classifier.pkl_60.npy b/classifier/classifier.pkl_60.npy
diff --git a/classifier/classifier.pkl_61.npy b/classifier/classifier.pkl_61.npy
diff --git a/classifier/classifier.pkl_62.npy b/classifier/classifier.pkl_62.npy
diff --git a/classifier/classifier.pkl_63.npy b/classifier/classifier.pkl_63.npy
diff --git a/classifier/classifier.pkl_64.npy b/classifier/classifier.pkl_64.npy
diff --git a/classifier/classifier.pkl_65.npy b/classifier/classifier.pkl_65.npy
diff --git a/classifier/classifier.pkl_66.npy b/classifier/classifier.pkl_66.npy
diff --git a/classifier/classifier.pkl_67.npy b/classifier/classifier.pkl_67.npy
diff --git a/classifier/classifier.pkl_68.npy b/classifier/classifier.pkl_68.npy
diff --git a/classifier/classifier.pkl_69.npy b/classifier/classifier.pkl_69.npy
diff --git a/classifier/classifier.pkl_70.npy b/classifier/classifier.pkl_70.npy
diff --git a/classifier/classifier.pkl_71.npy b/classifier/classifier.pkl_71.npy
diff --git a/classifier/classifier.pkl_72.npy b/classifier/classifier.pkl_72.npy
diff --git a/classifier/classifier.pkl_73.npy b/classifier/classifier.pkl_73.npy
diff --git a/classifier/classifier.pkl_74.npy b/classifier/classifier.pkl_74.npy
diff --git a/classifier/classifier.pkl_75.npy b/classifier/classifier.pkl_75.npy
diff --git a/classifier/classifier.pkl_76.npy b/classifier/classifier.pkl_76.npy
diff --git a/classifier/classifier.pkl_77.npy b/classifier/classifier.pkl_77.npy
diff --git a/classifier/classifier.pkl_78.npy b/classifier/classifier.pkl_78.npy
diff --git a/classifier/classifier.pkl_79.npy b/classifier/classifier.pkl_79.npy
diff --git a/classifier/classifier.pkl_80.npy b/classifier/classifier.pkl_80.npy
diff --git a/classifier/classifier.pkl_81.npy b/classifier/classifier.pkl_81.npy
diff --git a/classifier/classifier.pkl_82.npy b/classifier/classifier.pkl_82.npy
diff --git a/classifier/classifier.pkl_83.npy b/classifier/classifier.pkl_83.npy
diff --git a/classifier/classifier.pkl_84.npy b/classifier/classifier.pkl_84.npy
diff --git a/classifier/classifier.pkl_85.npy b/classifier/classifier.pkl_85.npy
diff --git a/classifier/classifier.pkl_86.npy b/classifier/classifier.pkl_86.npy
diff --git a/classifier/classifier.pkl_87.npy b/classifier/classifier.pkl_87.npy
diff --git a/classifier/classifier.pkl_88.npy b/classifier/classifier.pkl_88.npy
diff --git a/classifier/classifier.pkl_89.npy b/classifier/classifier.pkl_89.npy
diff --git a/classifier/classifier.pkl_90.npy b/classifier/classifier.pkl_90.npy
diff --git a/classifier/classifier.pkl_91.npy b/classifier/classifier.pkl_91.npy
diff --git a/classifier/classifier.pkl_92.npy b/classifier/classifier.pkl_92.npy
diff --git a/classifier/classifier.pkl_93.npy b/classifier/classifier.pkl_93.npy
diff --git a/classifier/classifier.pkl_94.npy b/classifier/classifier.pkl_94.npy
diff --git a/classifier/classifier.pkl_95.npy b/classifier/classifier.pkl_95.npy
diff --git a/classifier/classifier.pkl_96.npy b/classifier/classifier.pkl_96.npy
diff --git a/classifier/classifier.pkl_97.npy b/classifier/classifier.pkl_97.npy
diff --git a/classifier/classifier.pkl_98.npy b/classifier/classifier.pkl_98.npy
diff --git a/classifier/classifier.pkl_99.npy b/classifier/classifier.pkl_99.npy
diff --git a/classifier/features.pkl b/classifier/features.pkl
@@ -0,0 +1,26 @@
+(lp0
+S'Machine'
+p1
+aS'Characteristics'
+p2
+aS'ImageBase'
+p3
+aS'MajorOperatingSystemVersion'
+p4
+aS'MinorOperatingSystemVersion'
+p5
+aS'MajorSubsystemVersion'
+p6
+aS'Subsystem'
+p7
+aS'DllCharacteristics'
+p8
+aS'SizeOfStackReserve'
+p9
+aS'SectionsMaxEntropy'
+p10
+aS'ResourcesMinEntropy'
+p11
+aS'ResourcesMaxEntropy'
+p12
+a.
diff --git a/learning.py b/learning.py
@@ -0,0 +1,69 @@
+import pandas as pd
+import numpy as np
+import pickle
+import sklearn.ensemble as ske
+from sklearn import cross_validation, tree, linear_model
+from sklearn.feature_selection import SelectFromModel
+from sklearn.externals import joblib
+from sklearn.naive_bayes import GaussianNB
+from sklearn.metrics import confusion_matrix
+
+data = pd.read_csv('data.csv', sep='|')
+X = data.drop(['Name', 'md5', 'legitimate'], axis=1).values
+y = data['legitimate'].values
+
+print('Researching important feature based on %i total features\n' % X.shape[1])
+
+# Feature selection using Trees Classifier
+fsel = ske.ExtraTreesClassifier().fit(X, y)
+model = SelectFromModel(fsel, prefit=True)
+X_new = model.transform(X)
+nb_features = X_new.shape[1]
+
+X_train, X_test, y_train, y_test = cross_validation.train_test_split(X_new, y ,test_size=0.2)
+
+features = []
+
+print('%i features identified as important:' % nb_features)
+
+indices = np.argsort(fsel.feature_importances_)[::-1][:nb_features]
+for f in range(nb_features):
+    print("%d. feature %s (%f)" % (f + 1, data.columns[2+indices[f]], fsel.feature_importances_[indices[f]]))
+
+# XXX : take care of the feature order
+for f in sorted(np.argsort(fsel.feature_importances_)[::-1][:nb_features]):
+    features.append(data.columns[2+f])
+
+#Algorithm comparison
+algorithms = {
+        "DecisionTree": tree.DecisionTreeClassifier(max_depth=10),
+        "RandomForest": ske.RandomForestClassifier(n_estimators=50),
+        "GradientBoosting": ske.GradientBoostingClassifier(n_estimators=50),
+        "AdaBoost": ske.AdaBoostClassifier(n_estimators=100),
+        "GNB": GaussianNB()
+    }
+
+results = {}
+print("\nNow testing algorithms")
+for algo in algorithms:
+    clf = algorithms[algo]
+    clf.fit(X_train, y_train)
+    score = clf.score(X_test, y_test)
+    print("%s : %f %%" % (algo, score*100))
+    results[algo] = score
+
+winner = max(results, key=results.get)
+print('\nWinner algorithm is %s with a %f %% success' % (winner, results[winner]*100))
+
+# Save the algorithm and the feature list for later predictions
+print('Saving algorithm and feature list in classifier directory...')
+joblib.dump(algorithms[winner], 'classifier/classifier.pkl')
+open('classifier/features.pkl', 'w').write(pickle.dumps(features))
+print('Saved')
+
+# Identify false and true positive rates
+clf = algorithms[winner]
+res = clf.predict(X_test)
+mt = confusion_matrix(y_test, res)
+print("False positive rate : %f %%" % ((mt[0][1] / float(sum(mt[0])))*100))
+print('False negative rate : %f %%' % ( (mt[1][0] / float(sum(mt[1]))*100)))