Co to jest adres URL – jego struktura i parametry techniczne - 3.5 na 5 na podstawie 4 głosów

Skrót URL oznacza Uniform Resource Locator. W tłumaczeniu oznacza „lokalizator pojedynczego zasobu”. Pomysł Tima Bernesa-Lee, „ojca” sieci WWW, został stworzony, aby uprościć strukturyzację danych w Internecie i sprowadzić wszystkie adresy do jednego formularza.

Akceptowana wymowa: „u-er-el” lub „yu-ar-el”. W mowie potocznej dopuszczalne jest wymawianie tego skrótu jako „URL”. W tym artykule przyjrzymy się, czym jest adres URL, jaka jest jego struktura i funkcje techniczne, które każdy webmaster powinien znać.

Schemat i struktura adresów URL

Co to jest adres URL? Innymi słowy, jest to ścieżka do jakiegoś pliku: HTML, wideo, audio, tekst itp. Wszystkie dokumenty w Internecie mają ten adres. Tylko za pomocą adresu URL serwer może zapewnić dostęp do swoich plików każdemu użytkownikowi sieci WWW.

Oczywiście istnieje standard. To on dokładnie określa, jak powinien wyglądać adres URL do konkretnego dokumentu. Ten standard służy nie tylko do uzyskiwania dostępu do stron i plików za pomocą protokołów http i https, ale jest również używany podczas przesyłania plików na serwer za pomocą protokołu ftp i innych protokołów. Ale w tym przypadku nie jesteśmy nimi zainteresowani.

Jak podać adres url do zasobów internetowych?

Ogólnie adres URL może zawierać wiele parametrów. Ale dla prostego dostępu do konkretnego pliku znajdującego się w jakimś folderze Twojej witryny, wystarczy użyć tylko kilku z nich. Dlatego na przykład, aby uzyskać zawartość konkretnego pliku hostowanego na tej stronie, wystarczy określić:

http://site/directoriya/fail.html

Przyjrzyjmy się wszystkim szczegółowo:

http:// - protokół przesyłania danych.
site - nazwa domeny, nazwa węzła (hosta) i dodatkowe parametry.
/ direktoriya / - katalog, w którym znajduje się potrzebny nam plik. Z tej części linku widzimy, że folder direktoriya jest przechowywany na serwerze, który zawiera potrzebny nam plik.
fail.html to plik z rozszerzeniem ".html", właśnie tego potrzebujemy.

Ogólnie rzecz biorąc, jaki jest adres URL witryny, strony lub obrazu, jest jasny. Przejdźmy teraz trochę głębiej.

Struktura adresu URL

Ogólny schemat (struktura) adresu URL wygląda następująco:

Każdy z tych parametrów jest ważny i ma swoje znaczenie:

Schemat - protokół transmisji danych. Za jego pośrednictwem zwracamy się do zasobu. (http, https, ftp itp.)
Login i hasło - te dane w protokole http co do zasady nie są podawane. Określają prawa użytkownika do dostępu do określonej strony serwisu.
Pies (@) to specjalny ogranicznik. Bez nazwy użytkownika i hasła nie jest wskazany.
Host to nazwa domeny, czasami adres IP zasobu, do którego użytkownik uzyskuje dostęp. (stronie internetowej)
Port jest również podawany dość rzadko. Podczas uzyskiwania dostępu do witryny lub dowolnego pliku hostowanego w witrynie automatycznie przypisywana jest jedna z wartości - 80 lub 8080.
Ścieżka URL - ścieżka do konkretnego pliku. (/katalog/niepowodzenie.html)
Parametry - żądanie z określonymi parametrami, które są wysyłane do serwera metodą GET. Aby oddzielić parametry, użyj znaku &, na przykład: ?parametr1=wartość1¶metr2=wartość2
Kotwica to unikalny ciąg składający się z liter i/lub cyfr. Odnosi się do określonego obszaru otwieranego dokumentu internetowego. Dzięki niemu możesz mieć pewność, że użytkownik nie dotrze do początku dokumentu HTML, ale od razu w określone miejsce.

Dodatkowe informacje dotyczące adresów URL

1. Adresy URL używają różnych kodowań. Jeśli nie ma transkodowania, można użyć tylko określonej liczby znaków. Zaleca się używanie symboli ,,,[_],[-].

Aby uniknąć błędów, programista musi nazwać pliki witryny tylko małymi literami i wskazać ścieżkę do nich w ten sam sposób - małymi literami. Ponieważ w systemach uniksopodobnych i najczęściej na nich pracują serwery WWW, znaki zapisane w różnych rejestrach będą odbierane przez maszynę jako różne. W Windows nie ma czegoś takiego, ale nie powinieneś lekceważyć reguły, ponieważ jeśli twój plik jest nazwany małymi literami, a podałeś jego nazwę dużymi literami w adresie URL, to serwer nie będzie mógł go otworzyć.

Można używać rosyjskich znaków, jednak każdy rosyjski znak zostanie ponownie zakodowany (kodowanie adresu URL). A ten, po przekodowaniu, będzie wyglądał „przerażająco”, ponieważ każdy znak cyrylicy zostanie zakodowany przy użyciu 2 bajtów w UTF-8 w formie szesnastkowej. Znaki są oddzielone „%”.

http://witryna/wszystko dla webmastera

Będzie wyglądać jak:

http://witryna/%u0432%u0441%u0435%20%u0434%u043B%u044F%20%u0432%u0435%u0431%u043C%u0430%u0441%u0442%u0435%u0440%u0430

Z taką niedogodnością starają się jednak poradzić sobie nie za szybko. Dlatego podczas korzystania z CNC w systemie CMS lepiej jest używać transliteracji (vse-dlya-webmastera). Nawigacja będzie łatwiejsza i prawdopodobnie lepsza dla SEO.

2. Istnieją również adresy URL nazywane dynamicznymi. Takie adresy URL zawierają różne znaki („?”, „&”, „=” itp.), za pomocą których ustawiane są parametry, kod, który rozważaliśmy w strukturze adresu URL, wspomniał już o parametrach, patrz wyżej. Takie adresy pojawiają się w wyniku pracy skryptów zamieszczonych w serwisie. W takim przypadku link może wyglądać mniej więcej tak.

network-resource-manager.exe

4,48mb.

network-resource-manager.exe Darmowe pobieranie.
Jeśli pojawi się błąd brak pliku network-resource-manager.exe:
- Możesz spróbować pobrać ten plik i wkleić go do katalogu, w którym go brakuje
Jeśli pojawi się błąd w pliku network-resource-manager.exe:
- Spróbuj go zastąpić tym.

Jeśli to nie pomoże, spróbuj skopiować ten plik do katalogu systemowego swojego systemu operacyjnego.
Jeśli nie możesz znaleźć okien katalogów, spróbuj:
1. Naciśnij i przytrzymaj Windows na klawiaturze, a następnie naciśnij przycisk R.
2. Wpisz polecenie „cmd” i naciśnij Enter
3. W oknie poleceń wpisz polecenie „set systemroot” i naciśnij Enter. Wyświetli katalog systemowy.
4. Utwórz kopię zapasową network-resource-manager.exe w Twoim komputerze
5. i skopiuj plik network-resource-manager.exe do katalogów: System lub System32 lub System64.

Skanowanie w poszukiwaniu wirusów:

Wszystkie adresy URL do pobrania tego pliku:

HTTP to protokół przesyłania hipertekstu między systemami rozproszonymi. W rzeczywistości http jest podstawowym elementem nowoczesnej sieci. Jako szanujący się twórcy stron internetowych powinniśmy o tym wiedzieć jak najwięcej.

Spójrzmy na ten protokół przez pryzmat naszego zawodu. W pierwszej części przejdziemy przez podstawy, przyjrzymy się prośbom/odpowiedziom. W następnym artykule przeanalizujemy bardziej szczegółowe chipy, takie jak buforowanie, obsługa połączeń i uwierzytelnianie.

Również w tym artykule odniosę się głównie do RFC 2616: Hypertext Transfer Protocol — HTTP/1.1.

Podstawy HTTP

Protokół HTTP umożliwia komunikację między wieloma hostami i klientami oraz obsługuje szereg ustawień sieciowych.

Zasadniczo do komunikacji używany jest protokół TCP/IP, ale nie jest to jedyna możliwa opcja. Domyślnie TCP/IP używa portu 80, ale można użyć innych.

Komunikacja między hostem a klientem odbywa się w dwóch etapach: żądanie i odpowiedź. Klient generuje żądanie HTTP, w odpowiedzi na które serwer udziela odpowiedzi (komunikatu). Nieco później omówimy ten schemat pracy bardziej szczegółowo.

Obecna wersja protokołu HTTP to 1.1, która wprowadziła kilka nowych funkcji. Moim zdaniem najważniejsze z nich to: obsługa trwale otwartego połączenia, nowy mechanizm kodowania chunked transferu danych, nowe nagłówki do buforowania. Niektóre z nich rozważymy w drugiej części tego artykułu.

URL

Sercem komunikacji internetowej jest żądanie, które jest wysyłane przez Uniform Resource Locator (URL). Jestem pewien, że już wiesz, co to jest adres URL, ale ze względu na kompletność postanowiłem i tak powiedzieć kilka słów. Struktura adresu URL jest bardzo prosta i składa się z następujących elementów:

Protokołem może być http dla zwykłych połączeń lub https dla bezpieczniejszej wymiany danych. Domyślny port to 80. Po nim następuje ścieżka do zasobu na serwerze i łańcuch parametrów.

Metody

Za pomocą adresu URL podajemy dokładną nazwę hosta, z którym chcemy się komunikować, jednak to, jaką akcję musimy wykonać, możemy przekazać tylko metodą HTTP. Oczywiście istnieje kilka rodzajów działań, które możemy podjąć. HTTP implementuje najbardziej potrzebne, odpowiednie dla potrzeb większości aplikacji.

Istniejące metody:

DOSTAWAĆ: dostęp do istniejącego zasobu. Adres URL zawiera wszystkie niezbędne informacje, aby serwer mógł znaleźć i zwrócić żądany zasób jako odpowiedź.

POCZTA: używany do tworzenia nowego zasobu. Żądanie POST zwykle zawiera wszystkie informacje potrzebne do utworzenia nowego zasobu.

POŁOŻYĆ: Zaktualizuj bieżący zasób. Żądanie PUT zawiera zaktualizowane dane.

KASOWAĆ: Służy do usuwania istniejącego zasobu.

Metody te są najpopularniejsze i najczęściej używane przez różne narzędzia i frameworki. W niektórych przypadkach żądania PUT i DELETE są wysyłane poprzez wysłanie POST, którego treść wskazuje na akcję, którą należy podjąć z zasobem: utwórz, zaktualizuj lub usuń.

HTTP obsługuje również inne metody:

GŁOWA: podobny do GET. Różnica polega na tym, że w przypadku tego typu żądania nie jest przesyłana żadna wiadomość. Serwer odbiera tylko nagłówki. Używane na przykład do określenia, czy zasób został zmodyfikowany.

NAMIERZAĆ: podczas transmisji żądanie przechodzi przez wiele punktów dostępowych i serwerów proxy, z których każdy dostarcza własne informacje: IP, DNS. Dzięki tej metodzie możesz zobaczyć wszystkie informacje pośrednie.

OPCJE: Służy do określania możliwości, opcji i konfiguracji serwera dla określonego zasobu.

Kody statusu

W odpowiedzi na żądanie klienta serwer wysyła odpowiedź zawierającą m.in. kod statusu. Ten kod ma specjalne znaczenie, aby klient mógł jasno zrozumieć, jak interpretować odpowiedź:

1xx: Komunikaty informacyjne

Zestaw tych kodów został wprowadzony w HTTP/1.1. Serwer może wysłać żądanie typu: Expect: 100-continue, co oznacza, że klient nadal wysyła resztę żądania. Klienci HTTP/1.0 ignorują te nagłówki.

2xx: Komunikaty o powodzeniu

Jeżeli klient otrzymał kod z serii 2xx, to żądanie zakończyło się powodzeniem. Najpopularniejszą opcją jest 200 OK. Za pomocą żądania GET serwer wysyła odpowiedź w treści wiadomości. Są też inne możliwe odpowiedzi:

202Zaakceptowano: żądanie zostało zaakceptowane, ale może nie zawierać zasobu w odpowiedzi. Jest to przydatne w przypadku asynchronicznych żądań po stronie serwera. Serwer określa, czy wysłać zasób, czy nie.
204 Brak treści: W treści odpowiedzi nie ma wiadomości.
205 Zresetuj zawartość: Poinstruuj serwer, aby zresetował widok dokumentu.
206 Częściowa zawartość: odpowiedź zawiera tylko część treści. Dodatkowe nagłówki określają całkowitą długość treści i innych informacji.

3xx: Przekierowanie

Rodzaj komunikatu do klienta o konieczności wykonania jeszcze jednej czynności. Najczęstszym przypadkiem użycia jest przekierowanie klienta na inny adres.

301 wyprowadził się permamentnie: Zasób można teraz znaleźć pod innym adresem URL.
303 Zobacz inne: Zasób można tymczasowo znaleźć pod innym adresem URL. Nagłówek Location zawiera tymczasowy adres URL.
304 Nie zmodyfikowano: Serwer ustala, że zasób nie został zmodyfikowany i klient musi użyć buforowanej wersji odpowiedzi. Aby sprawdzić tożsamość informacji, używany jest ETag (hasz tagu Entity);

4xx: Błędy klienta

Ta klasa wiadomości jest używana przez serwer, jeśli uzna, że żądanie zostało wysłane przez pomyłkę. Najczęstszym kodem jest 404 Not Found. Oznacza to, że zasób nie został znaleziony na serwerze. Inne możliwe kody:

400 złych żądań: pytanie zostało sformułowane nieprawidłowo.
401 Nieautoryzowany: Do złożenia wniosku wymagane jest uwierzytelnienie. Informacje są przekazywane przez nagłówek Authorization.
403 Zabronione: Serwer nie udostępnił zasobu.
405 Niedozwolona metoda: Użyto nieprawidłowej metody HTTP w celu uzyskania dostępu do zasobu.
409 Konflikt: Serwer nie może całkowicie przetworzyć żądania, ponieważ próbuje zmienić nowszą wersję zasobu. Zdarza się to często w przypadku żądań PUT.

5xx: Błędy serwera

Zestaw kodów używanych do wykrywania błędu serwera podczas przetwarzania żądania. Najczęstszy: 500 Wewnętrzny błąd serwera. Inne opcje:

501 Nie zaimplementowano: Serwer nie obsługuje żądanej funkcjonalności.
503 Usługa niedostępna: Może się to zdarzyć, jeśli serwer ma błąd lub jest przeciążony. Zwykle w takim przypadku serwer nie odpowiada, a czas podany na odpowiedź upływa.

Formaty wiadomości żądania/odpowiedzi

Na poniższym obrazku widać schemat procesu wysyłania żądania przez klienta, przetwarzania i wysyłania odpowiedzi przez serwer.

Przyjrzyjmy się strukturze przesyłanej wiadomości przez HTTP:

Wiadomość = *()CRLF[ ] = Wiersz żądania | Wiersz stanu = Nazwa-Pola ":" Wartość-Pola

Między nagłówkiem a treścią wiadomości musi być pusta linia. Może być kilka nagłówków:

Treść odpowiedzi może zawierać wszystkie lub część informacji, jeśli odpowiednia funkcja jest włączona (Transfer-Encoding: chunked). HTTP/1.1 obsługuje również nagłówek Transfer-Encoding.

Nagłówki ogólne

Istnieje kilka typów nagłówków używanych zarówno w żądaniach, jak i odpowiedziach:

Rozważaliśmy już coś w tym artykule, omówimy coś bardziej szczegółowo w drugiej części.

Nagłówek via jest używany w żądaniu TRACE i jest aktualizowany przez wszystkie serwery proxy.

Nagłówek Pragma służy do wyliczania nagłówków niestandardowych. Na przykład Pragma: no-cache jest tym samym co Cache-Control: no-cache. Porozmawiamy o tym więcej w drugiej części.

Nagłówek Date służy do przechowywania daty i godziny żądania/odpowiedzi.

Nagłówek Upgrade służy do zmiany protokołu.

Transfer-Encoding ma na celu podzielenie odpowiedzi na wiele porcji za pomocą Transfer-Encoding: chunked. To nowość w HTTP/1.1.

Nagłówki jednostek

Nagłówki jednostek przekazują meta-informacje o treści:

Wszystkie nagłówki z prefiksem Content- dostarczają informacji o strukturze, kodowaniu i rozmiarze treści wiadomości.

Nagłówek Expires zawiera godzinę i datę wygaśnięcia jednostki. Wartość „nigdy nie wygasa” oznacza czas + 1 kod od chwili obecnej. Last-Modified zawiera godzinę i datę ostatniej modyfikacji jednostki.

Korzystając z tych nagłówków, możesz określić informacje potrzebne do swoich zadań.

Format żądania

Żądanie wygląda mniej więcej tak:

SP to separator pomiędzy tokenami. Wersja HTTP jest określona w wersji HTTP. Prawdziwa prośba wygląda tak:

GET /articles/http-basics HTTP/1.1 Host: www.articles.com Połączenie: keep-alive Cache-Control: no-cache Pragma: no-cache Akceptuj: text/html,application/xhtml+xml,application/xml; q=0,9,*/*;q=0,8

Lista możliwych nagłówków żądań:

Nagłówek Accept definiuje obsługiwane typy MIME, język i kodowanie znaków. Nagłówki From, Host, Referer i User-Agent zawierają informacje o kliencie. Przedrostki if- służą do tworzenia warunków. Jeśli warunek nie powiedzie się, wystąpi błąd 304 Not Modified.

Format odpowiedzi

Format odpowiedzi różni się tylko statusem i liczbą nagłówków. Stan wygląda tak:

Status-Line = HTTP-wersja SP Status-Code SP Powód-fraza CRLF

Wersja HTTP
Kod statusu
Komunikat o stanie czytelny dla człowieka

Typowy status wygląda mniej więcej tak:

HTTP/1.1 200 OK

Nagłówki odpowiedzi mogą być:

Czas w sekundach, w którym wiadomość została utworzona na serwerze.
Obiekty ETag MD5 do sprawdzania zmian i modyfikacji odpowiedzi.
Lokalizacja służy do przekierowania i zawiera nowy adres URL.
Serwer określa serwer, na którym została wygenerowana odpowiedź.

Myślę, że to wystarczająca teoria na dzisiaj. Przyjrzyjmy się teraz narzędziom, których możemy użyć do monitorowania wiadomości HTTP.

Narzędzia do wykrywania ruchu HTTP

Istnieje wiele narzędzi do monitorowania ruchu HTTP. Oto kilka z nich:

Najczęściej używane są narzędzia dla programistów Chrome:

Mówiąc o debuggerze, możesz użyć Fiddlera:

Aby monitorować ruch HTTP, potrzebujesz curl, tcpdump i tshark.

Biblioteki HTTP - jQuery AJAX

Ponieważ jQuery jest tak popularne, posiada również zestaw narzędzi do obsługi odpowiedzi HTTP z żądań AJAX. Informacje o jQuery.ajax(settings) można znaleźć na oficjalnej stronie.

Przekazując obiekt settings i korzystając z funkcji zwrotnej beforeSend, możemy ustawić nagłówki żądania za pomocą metody setRequestHeader().

$.ajax(( url: "http://www.articles.com/latest", type: "GET", beforeSend: function (jqXHR) ( jqXHR.setRequestHeader("Accepts-Language", "en-US,en "); )));

Jeśli chcesz przetworzyć status wniosku, możesz to zrobić w ten sposób:

$.ajax((statusCode: ( 404: function() ( alert("nie znaleziono strony"); ) ) ));

Wynik

Oto prezentacja podstaw protokołu HTTP. W drugiej części będzie jeszcze więcej ciekawostek i przykładów.

W języku angielskim oznacza Uniform Resource Locator, co w tłumaczeniu na rosyjski oznacza „indeks pojedynczego zasobu”. W języku rosyjskim skrót ten jest zwykle wymawiany jako „u-er-el”, „yu-ar-el” lub po prostu „url”. Spróbujmy zrozumieć bardziej szczegółowo, czym jest adres URL. Każdy dokument (strona internetowa) w Internecie ma określoną lokalizację, którą możesz dokładnie wskazać. Za pomocą adresu URL wskazana jest dokładna ścieżka do określonej strony internetowej. Podobnie jak określanie ścieżki do dowolnego pliku na komputerze, URL jest budowany według pewnego schematu, który zwykle wygląda mniej więcej tak:

http://nazwa.ru/papka/document.html

Gdzie http - wskazuje rodzaj protokołu, za pomocą którego dane są przesyłane, name.ru - oznacza nazwę domeny witryny, papka to folder, a document.html - konkretna strona, do której prowadzi ten adres URL.

Ponieważ nasz adres URL http://name.ru/papka/document.html jest fikcyjny, podany jedynie jako przykład, a zatem nie prowadzi do żadnej strony internetowej, to próbując go śledzić, dojdziemy do strona zawierająca informacje o błędzie. Może wyglądać inaczej, ale na pewno spotkamy się z napisem „404 nie znaleziono”. „Nie znaleziono” w tłumaczeniu oznacza „nie znaleziono”, a pojawienie się strony 404 oznacza, że adres URL strony internetowej został wprowadzony niekompletnie, niepoprawnie (z błędem lub literówką) lub żądana strona nie znajduje się już pod adresem ten adres, ponieważ został usunięty lub zmieniono jego nazwę.

Błąd 404 często pojawia się podczas podążania za linkiem znalezionym na innej stronie, w przypadku, gdy link jest nieaktualny. Autor strony mógł przenieść potrzebny nam dokument, zmienić jego nazwę lub go usunąć. Co zrobić, jeśli podczas przejścia pojawi się strona 404? Najpierw sprawdź, czy adres URL jest poprawny, jeśli go znamy. Popraw błędy lub literówki i spróbuj ponownie. Jeśli błąd 404 wystąpi po kliknięciu linku do nieznanego zasobu, powinieneś spróbować przejść do strony głównej i skorzystać z wyszukiwania w witrynie - możliwe, że nadal zostaną znalezione niezbędne informacje.

Nawiasem mówiąc, wielu twórców stron internetowych upewnia się, że strona 404 w ich witrynie nie wygląda zastraszająco beznadziejnie. Umieszczono tu humorystyczny tekst ze śmiesznym obrazkiem, aby rozweselić zagubionego użytkownika, a także linki do strony głównej, paska wyszukiwania lub mapy witryny. Jeśli strona 404 wygląda nieprzyjaźnie i nie ma linków do niej, możesz spróbować ręcznie skrócić adres URL, pozostawiając tylko nazwę witryny - w naszym przykładzie będzie to http://name.ru/ i tym samym spróbuj uzyskać do strony głównej serwisu, skąd przejdziesz do strony, której szukasz.

Co to jest adres URL. adres URL co to jest adres URL wiadomości http dwb