Intrati in legatura

Schița de curs

Plan detaliat de formare

  1. Introducere în NLP
    • Înțelegerea NLP
    • Cadre de lucru NLP
    • Aplicații comerciale ale NLP
    • Extragerea datelor de pe web
    • Lucrul cu diverse API-uri pentru a obține date text
    • Lucrul și stocarea corpusurilor text, salvarea conținutului și metadatelor relevante
    • Avantajele utilizării Python și un curs rapid de NLTK
  2. Înțelegerea Practică a unui Corpus și a unui Set de Date
    • De ce avem nevoie de un corpus?
    • Analiza Corpusului
    • Tipuri de atribute ale datelor
    • Diferite formate de fișiere pentru corpusuri
    • Pregătirea unui set de date pentru aplicații NLP
  3. Înțelegerea Structurii unei Propoziții
    • Componentele NLP
    • Înțelegerea limbajului natural
    • Analiză morfologică - rădăcină, cuvânt, token, etichete de vorbire
    • Analiză sintactică
    • Analiză semantică
    • Gestionarea ambiguității
  4. Preprocesarea datelor text
    • Corpus - text brut
      • Tokenizarea propozițiilor
      • Stemming pentru text brut
      • Lemmatizarea textului brut
      • Eliminarea cuvintelor de stop
    • Corpus - propoziții brute
      • Tokenizarea cuvintelor
      • Lemmatizarea cuvintelor
    • Lucrul cu matrice Termen-Document/Document-Termen
    • Tokenizarea textului în n-grame și propoziții
    • Preprocesare practică și personalizată
  5. Analiza datelor text
    • Caracteristici de bază ale NLP
      • Parseri și parsare
      • Etichetare POS și etichetori
      • Recunoașterea entităților denumite
      • N-grame
      • Sac de cuvinte
    • Caracteristici statistice ale NLP
      • Concepte de algebră liniară pentru NLP
      • Teoria probabilităților pentru NLP
      • TF-IDF
      • Vectorizare
      • Codificatori și Decodificatori
      • Normalizare
      • Modele probabilistice
    • Inginerie avansată a caracteristicilor și NLP
      • Bazele word2vec
      • Componentele modelului word2vec
      • Logica modelului word2vec
      • Extinderea conceptului word2vec
      • Aplicația modelului word2vec
    • Studiu de caz: Aplicarea sacului de cuvinte: rezumarea automată a textului folosind algoritmii simplificați și adevărați ai lui Luhn
  6. Clusterizarea, Clasificarea și Modelarea Tematică a Documentelor
    • Clusterizarea documentelor și exploatarea modelelor (clusterizare ierarhică, k-means, etc.)
    • Compararea și clasificarea documentelor folosind măsuri de distanță TFIDF, Jaccard și cosinus
    • Clasificarea documentelor folosind Naïf Bayes și Entropia Maximă
  7. Identificarea Elementelor Textuale Importante
    • Reducerea dimensionalității: Analiza Componentelor Principale, Descompunerea Valorilor Singulare, factorizarea matricelor nenegative
    • Modelarea tematică și recuperarea informațiilor folosind Analiza Semantică Latentă
  8. Extragerea Entităților, Analiza Sentimentelor și Modelarea Tematică Avansată
    • Pozitiv vs. negativ: gradul de sentiment
    • Teoria Răspunsului la Item
    • Etichetarea părților de vorbire și aplicația sa: găsirea persoanelor, locurilor și organizațiilor menționate în text
    • Modelarea tematică avansată: Alocarea Latent Dirichlet
  9. Studii de caz
    • Exploatarea recenziilor nestructurate ale utilizatorilor
    • Clasificarea și vizualizarea sentimentelor din datele de recenzii ale produselor
    • Exploatarea jurnalelor de căutare pentru modele de utilizare
    • Clasificarea textului
    • Modelarea tematică

Cerințe

Cunoștințe și conștientizare a principiilor NLP și apreciere a aplicării AI în afaceri

 21 Ore

Numărul de participanți


Pret per participant

Mărturii (1)

Cursuri viitoare

Categorii înrudite