NLTK downloaden en installeren op Windows/Mac

In deze tutorial leer je -

NLTK installeren in Windows

In dit deel zullen we leren hoe u NLTK kunt instellen via terminal (opdrachtprompt in Windows).

De onderstaande instructies zijn gebaseerd op de veronderstelling dat python niet is geïnstalleerd. Dus de eerste stap is om python te installeren.

Python installeren in Windows:

Stap 1) Ga naar link https://www.python.org/downloads/ , en selecteer de nieuwste versie voor Windows.

Opmerking : Als u de nieuwste versie niet wilt downloaden, kunt u naar het downloadtabblad gaan en alle releases bekijken.

Stap 2) Klik op het gedownloade bestand

Stap 3) Selecteer Installatie aanpassen

Stap 4) Klik volgende

Stap 5) In volgend scherm

  1. Selecteer de geavanceerde opties
  2. Geef een aangepaste installatielocatie op. In mijn geval is een map op de C-schijf gekozen voor gebruiksgemak
  3. Klik op Installeren

Stap 6) Klik op de knop Sluiten zodra de installatie is voltooid.

Stap 7) Kopieer het pad van uw Scripts-map.

Stap 8) In de Windows-opdrachtprompt

  • Navigeer naar de locatie van de pip-map
  • Voer de opdracht in om NLTK te installeren |_+_|
  • De installatie moet met succes worden uitgevoerd

OPMERKING : Gebruik voor Python2 de commandpip2 install nltk

Stap 9) Zoek en open PythonShell . in het Windows Startmenu

Stap 10) U kunt controleren of de installatie correct is door het onderstaande commando |__+_|

Als u geen fout ziet, is de installatie voltooid.

NLTK installeren op Mac/Linux

Voor het installeren van NLTK op Mac/Unix is ​​python package manager pip vereist om nltk te installeren. Als pip niet is geïnstalleerd, volg dan de onderstaande instructies om het proces te voltooien:

Stap 1) Werk de pakketindex bij door het onderstaande commando |_+_| . te typen

Stap 2) Pip installeren voor Python 3: |_+_|

Je kunt pip ook installeren met easy_install. |__+_|

Nu is easy_install geïnstalleerd. Voer de onderstaande opdracht uit om pip |_+_| . te installeren

Stap 3) Gebruik de volgende opdracht om NLTK |_+_| . te installeren

NLTK installeren via Anaconda

Stap 1) Installeer anaconda (die ook kan worden gebruikt om verschillende pakketten te installeren) door naar . te gaan https://www.anaconda.com/products/individual en selecteer welke versie van python je moet installeren voor anaconda.

Opmerking: raadpleeg deze zelfstudie voor gedetailleerde stappen om: anaconda installeren

Stap 2) In de Anaconda-prompt,

  1. Voer opdracht in |__+_|
  2. Bekijk de pakketupgrade, downgrade, installatie-informatie en voer ja in
  3. NLTK is gedownload en geïnstalleerd

NLTK-gegevensset

NLTK-module heeft veel datasets beschikbaar die u moet downloaden om te gebruiken. Meer technisch heet het corpus . Enkele van de voorbeelden zijn: stopwoorden , gutenberg , framenet_v15 , grote_grammatica's enzovoort.

Hoe download je alle pakketten van NLTK

Stap 1) Voer de Python-interpreter uit in Windows of Linux

Stap 2)

  1. Voer de opdrachten in
pip3 install nltk
  1. NLTK gedownload venster wordt geopend. Klik op de downloadknop om de dataset te downloaden. Dit proces kost tijd, afhankelijk van je internetverbinding

OPMERKING: U kunt de downloadlocatie wijzigen door op Bestand> Downloadmap wijzigen te klikken

Stap 3) Gebruik de volgende code om de geïnstalleerde gegevens te testen |_+_|

['De', 'Fulton', 'County', 'Grand', 'Jury', 'zei', ...]

Het NLP-script uitvoeren

We gaan bespreken hoe het NLP-script wordt uitgevoerd op onze lokale pc. Er zijn veel bibliotheken voor natuurlijke taalverwerking op de markt. Het kiezen van een bibliotheek hangt dus af van uw wensen. Hier is de lijst van NLP-bibliotheken .

Hoe het NLTK-script uit te voeren

Stap 1) Kopieer de code in uw favoriete code-editor en sla het bestand op als ' NLTKsample.py '

import nltk

Code Verklaring:

  1. In dit programma was het de bedoeling om alle soorten leestekens uit bepaalde tekst te verwijderen. We hebben 'RegexpTokenizer' geïmporteerd, een module van NLTK. Het verwijdert alle uitdrukkingen, symbolen, tekens, cijfers of wat je maar wilt.
  2. Je hebt zojuist de reguliere expressie doorgegeven aan de 'RegexpTokenizer'-module.
  3. Verder hebben we het woord tokenized met behulp van de 'tokenize'-module. De uitvoer wordt opgeslagen in de variabele 'filterdText'.
  4. En drukte ze af met 'print().'

Stap 2) In de opdrachtprompt

  • Navigeer naar de locatie waar u het bestand hebt opgeslagen
  • Voer de opdracht Python NLTKsample.py . uit

Dit zal de output tonen als:

['Hallo', 'Guru99', 'Jij', 'hebben', 'bouwen', 'een', 'zeer', 'goed', 'site', 'en', 'ik', 'liefde', ' bezoeken', 'uw', 'site']